CN110431229B - 热稳定的Cas9核酸酶 - Google Patents

热稳定的Cas9核酸酶 Download PDF

Info

Publication number
CN110431229B
CN110431229B CN201780086546.5A CN201780086546A CN110431229B CN 110431229 B CN110431229 B CN 110431229B CN 201780086546 A CN201780086546 A CN 201780086546A CN 110431229 B CN110431229 B CN 110431229B
Authority
CN
China
Prior art keywords
promoter
sequence
seq
thermocas9
polynucleotide
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201780086546.5A
Other languages
English (en)
Other versions
CN110431229A (zh
Inventor
约翰·万德奥斯特
理查德·范克拉嫩堡
艾勒克·芬纳·博斯马
扬尼斯·莫加科斯
普拉塔纳·莫汉拉朱
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Stichting voor de Technische Wetenschappen STW
Wageningen Universiteit
Original Assignee
Stichting voor de Technische Wetenschappen STW
Wageningen Universiteit
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Stichting voor de Technische Wetenschappen STW, Wageningen Universiteit filed Critical Stichting voor de Technische Wetenschappen STW
Priority claimed from PCT/EP2017/082870 external-priority patent/WO2018109101A1/en
Publication of CN110431229A publication Critical patent/CN110431229A/zh
Application granted granted Critical
Publication of CN110431229B publication Critical patent/CN110431229B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/50Physical structure
    • C12N2310/53Physical structure partially self-complementary or closed
    • C12N2310/531Stem-loop; Hairpin
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2330/00Production
    • C12N2330/50Biochemical production, i.e. in a transformed host cell
    • C12N2330/51Specially adapted vectors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2750/00MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA ssDNA viruses
    • C12N2750/00011Details
    • C12N2750/14011Parvoviridae
    • C12N2750/14111Dependovirus, e.g. adenoassociated viruses
    • C12N2750/14141Use of virus, viral particle or viral elements as a vector
    • C12N2750/14143Use of virus, viral particle or viral elements as a vector viral genome or elements thereof as genetic vector

Abstract

编码来自热脱氮地芽孢杆菌(Geobacillus thermodenitrificans)的ThermoCas9蛋白的多核苷酸和组成型启动子被用于工程化真核细胞,例如真菌、酵母或藻类,使得ThermoCas9核酸内切酶被整合并从细胞的基因组表达。然后,使用第二表达质粒转染这些表达ThermoCas9的细胞,第二质粒包含诱导型启动子和编码指导RNA(guide RNA)的多核苷酸。指导RNA与ThermoCas9组合,以提供靶向的核酸内切酶活性,以在期望的基因座或感兴趣的基因处裂解细胞DNA。还向细胞提供了修复寡聚物,由此在DNA裂解后,同源重组发生在具有修复寡聚物的细胞中,使得在感兴趣的基因座或基因中实现核苷酸的缺失或取代。描述了表达载体和使用所述载体以实现ThermoCas9介导的基因编辑的方法,由此使用更高的温度,例如大于30℃。

Description

热稳定的Cas9核酸酶
发明领域
本发明涉及遗传工程(genetic engineering)领域,并且更特别地涉及核酸编辑和基因组修饰。本发明涉及呈核酸酶的形式的遗传工程工具,所述核酸酶可以被配置用于遗传物质的序列指导的位点特异性结合、切口(nicking)、切割和修饰;还涉及对遗传物质的序列特异性位点发挥活性(特别地,核酸酶活性)的核糖核蛋白、以及用于作为标志物使用的修饰的核酸酶和核糖核蛋白。因此,本发明还涉及用于在非人类细胞中递送和表达核酸酶和指导RNA(guide RNA)的相关的表达构建体。此外,本发明涉及体外或体内的核酸的序列特异性编辑和被用于实现所述编辑的方法。本发明涉及的特定领域是嗜热生物体(特别地,微生物)的遗传操作。
发明背景
在2007年首次证明CRISPR-Cas是在许多细菌和大多数古核生物(archaea)中的适应性免疫系统(Barrangou等人,2007,Science 315:1709-1712,Brouns等人,2008,Science321:960-964)。基于功能和结构标准,迄今已经表征了两类CRISPR-Cas系统,每一类CRISPR-Cas系统包括三种类型,其中大多数使用小RNA分子作为指导(guide)以靶向互补的DNA序列(Makarova等人,2015,Nat Rev Microbiol 13:722-736;Mahanraju等人,2016,Science 353:aad5147)。
在Doudna/Charpentier实验室的最近的一项研究中,对第2类/II型CRISPR-Cas系统的效应酶(Cas9)进行了彻底的表征,包括证明设计的CRISPR RNA指导(具有特定间隔区序列)的引入靶向了质粒上的互补序列(前间区(protospacers)),引起该质粒的双链断裂(Jinek等人,2012,Science337:816-821)。继Jinek等人,2012之后,Cas9被用作用于基因组编辑的工具。
Cas9已经被用于工程化一系列真核细胞(例如鱼、植物、人类)的基因组(Charpentier和Doudna,2013,Nature 495:50-51)。
另外,通过选择专门的重组事件,Cas9已经被用于改进细菌中同源重组的产率(Jiang等人,2013,Nature Biotechnol 31:233-239)。为了实现这一点,将毒性片段(靶向构建体)与携带期望的改变的救援片段(编辑构建体,携带点突变或缺失)共转染。靶向构建体由Cas9与设计的CRISPR的组合和抗生素抗性标志物组成,定义了在宿主染色体上的期望重组的位点;在对应的抗生素的存在下,选择靶向构建体在宿主染色体中的整合。仅当编辑构建体与宿主染色体上的CRISPR靶位点发生另外的重组时,宿主可以逃脱自身免疫问题。因此,在抗生素的存在下,仅期望的(无标志物的)突变体能够存活和生长。还呈现了选择用于随后从染色体去除整合的靶向构建体的相关的策略,生成真正的无标志物突变体。
在最近几年,已经建立了CRISPR-Cas介导的基因组编辑构成用于遗传工程的有用的工具。已经建立了原核CRISPR系统作为适应性免疫系统为其宿主服务(Jinek等人,2012,Science 337:816-821),并且可以被用于快速和有效的遗传工程(例如,Mali等人,2013,Nat Methods 10:957-963),仅需要指导序列的修饰以靶向感兴趣的序列。
然而,对开发应用于遗传研究和基因组编辑领域中的在多种实验条件下具有改进的序列特异性核酸检测、裂解和操作的剂仍存在持续的需求。特别地,目前可得的序列特异性基因组编辑工具,包括Cas9,不适用于在所有条件或生物体中使用,例如,序列特异性核酸酶是相对地热敏感的,并且因此不适用于在严格嗜热微生物(其能够在41℃与122℃之间生长,并且能够在从>45℃至80℃的温度范围中最佳生长,其中极端嗜热菌(hyperthermophiles)能够在80℃以上最佳生长),例如,在工业发酵中使用的微生物或用于在升高的温度进行的体外实验室过程的微生物中使用。
迄今,不存在关于嗜热菌(thermophiles)中有活性的Cas9蛋白的实验证据。基于由Chylinski等人(2014;Nucleic Acids Research 42:6091-61-05)对细菌中Cas9的存在的比较基因组筛选,发现II-C型CRISPR-Cas系统仅存在于所有细菌基因组的约3.3%中。在嗜热细菌中,基于统计学分析,II型系统的代表性不足(P=0.0019)。另外,然而,在古核生物中尚未发现II型系统,这可以可能是由于在古核生物中不存在RNA酶III蛋白(参与II型系统)。Chylinski等人(2014;Nucleic Acids Research 42:6091-6105确实描述了II型CRISPR-Cas系统的分类和演化,特别地,鉴定出了表现出这些系统的两个物种,然而这些物种在55℃最大生长,并且没有表现出严格嗜热生长,其中最佳生长温度为60-80℃,而极端嗜热菌能够在80℃以上最佳地生长。
尽管CRISPR-Cas系统在细菌基因组中的稀有性,并且特别是仅在具有低于45℃的最佳生长温度的细菌(非古核生物)中已经发现Cas9的事实,本发明人已经出乎意料地发现了几种能够在升高的温度进行基因组编辑的热稳定的Cas9变体。本发明人还已经发现了优化的前间区相邻基序(PAM)序列,该优化的前间区相邻基序(protospacer adjacentmotif;PAM)序列与热稳定的Cas9变体一起起作用,以使基因组编辑能够在宽范围的温度中进行,包括在升高的温度。这些Cas9核酸酶和通过相关的PAM序列的知识设计的RNA分子,提供了用于在升高的温度进行遗传工程的新型工具,并且在嗜热生物体(特别地,微生物)的遗传操作中具有特别的价值。
最近已经进行了嗜热属即地芽孢杆菌属(Geobacillus)的系统发育重新评估,结果创建了一个新的属——副地芽孢杆菌属(Parageobacillus)。因此,先前的地芽孢杆菌属的一些物种已经被系统地重新分配至副地芽孢杆菌属,并且相应地重新命名(Aliyu等人,(2016)Systematic and Applied Microbiology 39:527-533)。
成簇的规律地间隔的短回文重复(Clustered Regularly Interspaced ShortPalindromic Repeats)(CRISPR)和CRISPR相关的(Cas)蛋白在原核生物中提供了针对入侵的遗传元件的适应性和遗传性免疫(Brouns等人Science 321,(2008);Barrangou等人CRISPR provides acquired resistance against viruses in prokaryotes.Science315,(2007);Wright等人Cell 164,29-44(2016);Mohanraju等人Science 353,aad5147(2016))。CRISPR-Cas系统根据其复杂性和特征蛋白被次分配到两类(1和2)和六个类型(I-VI)中(Makarova等人Nat.Rev.Microbiol.13,722-736(2015))。第2类系统,包括II型CRISPR-Cas9和V型CRISPR-Cas12a(先前被称为CRISPR-Cpf1)最近已经被用作用于真核生物(Komor等人Cell 168,20-36(2017);Puchta,Curr.Opin.Plant Biol.36,1-8(2017);Xu等人J.Genet.Genomics 42,141-149(2015);Tang等人Nat.Plants 3,17018(2017);Zetsche等人Nat.Biotechnol.35,31-34(2016))和原核生物(Mougiakos,等人TrendsBiotechnol.34,575-587(2016))二者的基因组工程工具。这些系统是最简单的CRISPR-Cas系统之一,因为它们引入了基于核糖核蛋白(RNP)复合体的靶向的双链DNA断裂(DSB),该核糖核蛋白(RNP)复合体由单个Cas核酸内切酶和RNA指导(RNA guide)形成。
迄今为止,酿脓链球菌(Streptococcus pyogenes)Cas9(SpCas9)是用于基因组工程的最良好表征和最广泛使用的Cas9。尽管已经表征了一些其他的II型系统,但它们都不是来源于嗜热生物体(Nakade,等人Bioengineered 1-9(2017).doi:10.1080/21655979.2017.1282018)。这类CRISPR-Cas系统的表征将有助于获得基本的见解以及开发新型应用。
虽然基本的遗传工具可用于许多嗜热菌(Taylor等人Microb.Biotechnol.4,438-448(2011);Olson,等人Curr.Opin.Biotechnol.33,130-141(2015);Zeldes,等人Front.Microbiol.6,1209(2015)),这些工具的效率仍然太低以至于不能充分探索和开发这一组有趣的生物体。基于我们发现SpCas9在体内≥42℃不是有活性的,我们先前已经开发了用于兼性嗜热菌的基于SpCas9的工程化工具,该工程化工具组合了在升高的温度的同源重组和在中等温度的基于SpCas9的反选择(counter-selection)(Mougiakos等人ACSSynth.Biol.6,849-861(2017))。然而,用于专性嗜热菌的基于Cas9的编辑和沉默工具还不可得,因为SpCas9在42℃或42℃以上不具有活性(Mougiakos等人ACS Synth.Biol.6,849-861(2017))并且迄今为止尚未表征嗜热Cas9。
发明概述
本发明人已经发现并且表征了ThermoCas9:一种来自嗜热细菌热脱氮地芽孢杆菌(Geobacillus thermodenitrificans)T12的CRISPR-Cas IIC型系统的RNA指导的DNA核酸内切酶。本发明人已经出乎意料地显示出其在宽的温度范围中的体外活性,证明了sgRNA结构对于热稳定性的重要性,并且跨越宽的温度范围应用了ThermoCas9用于体内基因组编辑。
因此,本发明提供了修饰真核细胞的遗传物质的方法,该方法包括(i)将在第一启动子的控制下的编码ThermoCas9的多核苷酸整合到细胞的基因组中,其中表达的ThermoCas9包含SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列、或其活性片段;(ii)用表达载体转化细胞,所述表达载体包含编码指导RNA(guide RNA)并且在第二启动子的控制下的多核苷酸序列,其中指导RNA具有识别在细胞的基因组中在期望的靶基因座处包含的核酸序列的核酸序列,和(iii)用修复寡核苷酸转化细胞。
以上提及的具体序列的ThermoCas9核酸酶和变体和片段是下文描述的本发明的各方面的ThermoCas9。关于在期望被修饰的细胞或生物体的基因组中的靶序列,ThermoCas9的活性片段具有指导RNA指导的核酸内切酶活性。
首先,可以修饰细胞的基因组以表达ThermoCas9,无论是组成型还是诱导型的,之后用用于gRNA的表达载体转化该细胞;任选地在相同的时间或单独地用修复-寡聚物转化。在一种可能性中,可以用所有三种元件同时地转化该细胞,三种元件即ThermoCas9整合载体、gRNA表达载体和修复寡核苷酸。
在可选的方面中,本发明提供了修饰真核细胞的遗传物质的方法,该方法包括(i)将在第一启动子的控制下的编码ThermoCas9的多核苷酸整合到细胞的基因组中,其中表达的ThermoCas9包含SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列、或其活性片段;(ii)用表达载体转化细胞,所述表达载体包含在第一启动子或单独的第二启动子的控制下编码指导RNA的多核苷酸序列和同样在第一启动子或第二启动子或单独的第三启动子的控制下的修复寡核苷酸,其中指导RNA具有识别在细胞的基因组中在期望的靶基因座处包含的核酸序列的核酸序列。
修复寡核苷酸优选地是双链DNA修复寡聚物;任选地包含用于在指导RNA指导的ThermoCas9核酸内切酶切割后,通过同源重组的方式插入到细胞的基因组中的多核苷酸序列。因此,不包含和插入的修复寡聚物可以被用于实现在细胞的基因组中期望的基因座或基因区段(gene segment)的缺失。
在一些实施方案中,第一启动子是组成型启动子,例如TEF1启动子。在其他实施方案中,第一启动子可以是下文关于本发明的其他方面描述的种类的物理或化学地诱导型启动子。
根据本发明,启动子的多种组合是可能的,使得第二启动子可以是组成型启动子或诱导型启动子。任何第三启动子可以是组成型启动子或诱导型启动子。
可以通过热激(heat-shock)或例如通过电穿孔,用一种或更多种表达载体和/或修复寡聚物转化细胞。
某些真核细胞能够在直到约62℃-63℃的温度生长。例如,多种真菌或藻类或蓝绿藻类。因此,本发明的方法可以被使用,其中细胞在26℃-63℃的范围中的温度;优选地31℃-61℃的范围中的温度;更优选地35℃-60℃的范围中的温度;甚至更优选地34℃-41℃的范围中的温度,例如37℃被转化和/或在转化后生长。可以使用落在选自任何以下范围的范围中的其他温度,如通过在下表中标记为“x”的上限和下限组合显示出的:
在本发明的一些方法中,真核细胞是真菌,特别地酵母,例如酵母属的种(Saccharomyces sp.),例如酿酒酵母(S.cerevisiae)。
本发明还提供了用于修饰在原核宿主生物体的靶基因座处的遗传物质的多核苷酸表达载体,所述原核宿主生物体包含表达载体,该载体包含:
a.编码Cas9核酸酶的多核苷酸序列,其中Cas9核酸酶包含SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列、或其活性片段;
b.编码指导RNA的多核苷酸序列,其中指导RNA具有识别在靶基因座中包含的核酸序列的核酸序列;
c.相对于(a)和(b)的多核苷酸序列朝向的第一启动子,以驱动所述多核苷酸序列在生物体中表达。
在优选的方面中,原核生物体是嗜热细菌,如下文进一步定义的。
本发明的表达载体可以单独使用或与第二表达载体一起使用。
优选地,(a)的序列在启动子的3’并且(b)的序列在(b)的序列的3’。
另外地,表达载体还可以包含编码在第一启动子或单独的第二启动子的控制下的同源重组(HR)片段的多核苷酸序列。
在单个表达载体被用于本文描述的本发明的方法中,并且存在第一启动子和第二启动子的情况,第一启动子可以是诱导型启动子。第二启动子可以是组成型启动子或诱导型启动子。当第二启动子是诱导型启动子时,第二启动子可以与第一诱导型启动子相同或不同。
一种或更多种诱导型启动子可以是物理地或化学地诱导型。一些优选的化学地诱导型启动子包括用纤维二糖可诱导的β-葡萄糖苷酶启动子或用3-苯甲酸甲酯可诱导的Pm启动子。当控制HR片段的第二启动子是组成型启动子时,那么这可以是P3启动子。
HR片段的臂可以包含允许分别地在宿主生物体中的感兴趣的基因座的上游和下游重组的核酸序列。在操作中,涉及HR片段的每个臂(分别地)、在感兴趣的基因座的任一侧的双重重组(double recombination)事件,用于用HR片段代替该基因座。因此,通过载体表达指导RNA、ThermoCas9和HR片段引起感兴趣的基因座,例如感兴趣的基因从原核生物体的基因组的缺失。
本文的感兴趣的基因座包含被指导RNA识别的靶序列。
HR片段还可以包含在其上游臂和下游臂之间的插入元件。在该操作模式中,当在转化的宿主细胞中表达时,本发明的载体引起在感兴趣的基因座处的取代。当插入元件是感兴趣的基因时,那么载体在转化的宿主中的表达引起基因取代,例如从生物体中的天然基因取代为感兴趣的新的基因(可能地来自另一个物种或生物体的异源基因)。在一些实例中,感兴趣的新的基因可以与启动子(任选地诱导型启动子)一起提供,使得如期望的,新的基因的表达可以在转化的生物体中转换为开启。
如本文描述的感兴趣的基因座可以包含位于靶序列的3’的PAM序列5’-NNNNCNN-3’;任选地距离靶序列至少2个、3个、4个、5个、6个或更多个核苷酸。
在优选的载体中,编码指导RNA的核苷酸序列优选地编码单指导RNA(sgRNA)。
在另一个方面中,本发明提供了使用本文描述的本发明的任何表达载体的方法。因此,本发明提供了修饰原核生物体的遗传物质的方法,该方法包括用第一表达载体和第二表达载体转化生物体,所述第一表达载体包含以下:
(a)编码Cas9核酸酶的多核苷酸序列,其中Cas9核酸酶包含SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列、或其活性片段;
(b)编码指导RNA的多核苷酸序列,其中指导RNA具有识别在靶基因座中包含的核酸序列的核酸序列;
(c)相对于(a)和(b)的多核苷酸序列朝向的第一启动子,以在生物体中驱动所述多核苷酸序列表达;且,
所述第二载体包含编码在启动子的控制下的同源重组(HR)片段的多核苷酸序列。
在另一个方面中,本发明提供了修饰原核生物体的遗传物质的方法,该方法包括用单个表达载体转化生物体,该单个表达载体包含以上的(a)、(b)和(c)并且也包含多核苷酸序列,所述多核苷酸序列编码在所述第一启动子或单独的第二启动子的控制下的同源重组(HR)片段。
该生物体可以例如使用电穿孔转化。
在本发明的方法中,将转化的生物体在第一温度培养持续一个时间段,并且然后在诱导Cas9序列的启动子之前或期间在第二温度培养。有益地,为了改进重组效率,可以在升高的温度(此时质粒不能复制)进行孵育步骤。
第一温度可以是60℃或更低并且第二温度是更高的温度,所述更高的温度可以是至少55℃。可选地,第一温度可以是55℃或更低并且第二温度可以是大于55℃。待使用的不同的温度可以是容易地由本领域普通技术人员选择的,取决于正在被修饰的特定原核生物体,特别地嗜热细菌。
在一些优选的方法中,正在被修饰的生物体选自热葡萄糖苷酶地芽孢杆菌(Geobacillus thermoglucosidans)、凝结芽孢杆菌(Bacillus coagulans)或恶臭假单胞菌(Pseudomonas putida)。
本发明还提供了,用如上文定义的本发明的表达载体转化的原核细胞,例如细菌细胞。
根据本发明的是遗传上修饰嗜热原核生物体的方法,该方法包括用如以上定义的单一表达质粒在第一温度转化并且然后将生物体经历升高的温度,在这期间,经过质粒复制,存在选择的同源重组。这类升高的温度可以是在以下的范围中:55℃至100℃、60℃至100℃、65℃至100℃、70℃至100℃、75℃至100℃、80℃至100℃、85℃至100℃、90℃至100℃、95℃至100℃。
此外,本发明提供了分离的成簇的规律地间隔的短回文重复(clusteredregularly interspaced short palindromic repeat,CRISPR)相关的(Cas)蛋白或多肽,所述分离的成簇的规律地间隔的短回文重复(CRISPR)相关的(Cas)蛋白或多肽包含:
a.氨基酸基序EKDGKYYC[SEQ ID NO:2];和/或
b.氨基酸基序X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和/或
c.氨基酸基序X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和/或
d.氨基酸基序X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和/或
e.氨基酸基序X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
为避免疑问,本发明的蛋白、多肽或编码Cas蛋白的核酸也可以被称为“GtCas9”或“ThermoCas9”。“GtCas9”和“ThermoCas9”在整个说明书中可互换地被使用,并且具有相同的含义。
在本发明的上下文中的多肽可以被视作全长Cas蛋白的片段。这类片段可以是失活的并且以与结合、编辑和/或切割遗传物质不直接地相关的方式和目的使用,例如用于测定中的标准物或产生抗体等。
然而,在优选的实施方案中,Cas蛋白或多肽是有功能的并且当与至少一种靶向RNA分子和包含被靶向RNA分子识别的靶核酸序列的多核苷酸缔合时能够在20℃与100℃的范围中(包括端点)的温度进行裂解、结合、标记或修饰。优选地,Cas蛋白或多肽是有功能的,并且能够在50℃和70℃的范围中的温度,例如55℃或60℃的温度进行所述裂解、结合、标记或修饰。
在特定实施方案中,本发明可以提供包含氨基酸基序EKDGKYYC[SEQ ID NO:2]的Cas蛋白或多肽。在其他实施方案中,Cas蛋白或多肽还可以包含氨基酸基序X1X2CTX3X4[SEQID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一。
在其他实施方案中,本文定义的Cas蛋白或多肽还可以另外地包含氨基酸基序X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺。
在其他实施方案中,本文定义的Cas蛋白或多肽还可以另外地包含氨基酸基序X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一。
在其他实施方案中,本文定义的Cas蛋白或多肽还可以另外地包含氨基酸基序X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
根据本发明,可以理解的是,本发明的Cas蛋白或多肽可以包含单独的或以组合方式的SEQ ID NO:2至6的任何基序。以下总结了可以表征本发明的Cas蛋白或多肽的基序的每一个组合:
EKDGKYYC[SEQ ID NO:2]。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ IDNO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺。
EKDGKYYC[SEQ ID NO:2];和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一。
EKDGKYYC[SEQ ID NO:2];和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一。
EKDGKYYC[SEQ ID NO:2];和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺。
X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一。
X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一。
X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一。
X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸。
在另一方面中,本发明提供了分离的Cas蛋白或其多肽片段,所述分离的Cas蛋白或其多肽片段具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列,其中Cas蛋白或其多肽片段包含单独或以组合方式的任何下列基序或氨基酸:
RuvC-I结构域,所述RuvC-I结构域包含IGLDIGITSIG[SEQ ID NO:23],优选地IGLDIGITSIGWAVINLD[SEQ ID NO:24];
桥(Bridge)结构域,所述桥结构域包含RSARR[SEQ ID NO:25],优选地PRRLARSARRRLRRRKHRLERIRRL[SEQ ID NO:26];和/或
α螺旋/识别叶(lobe)结构域,所述α螺旋/识别叶结构域包含WQLR[SEQ ID NO:27];和/或
α螺旋/识别叶结构域,所述α螺旋/识别叶结构域包含HLAKRRG[SEQ ID NO:28],优选地LARILLHLAKRRG[SEQ ID NO:29];和/或
α螺旋/识别叶结构域,所述α螺旋/识别叶结构域包含IFAKQ[SEQ IDNO:30],优选地EIKLIFAKQ[SEQ ID NO:31];和/或
α螺旋/识别叶结构域,所述α螺旋/识别叶结构域包含IWASQR[SEQ ID NO:32];和/或
KVGFCTFEPKEKRAPK[SEQ ID NO:33];和/或
FTVWEHINKLRL[SEQ ID NO:34];和/或
RuvC-II结构域,所述RuvC-II结构域包含IANPVVMRALTQ[SEQ ID NO:35]基序,优选地IANPVVMRALTQARKVVNAIIKKYG[SEQ ID NO:36]基序;和/或
RuvC-II结构域,所述RuvC-II结构域包含ELAR[SEQ ID NO:37]基序,优选地IHIELARE[SEQ ID NO:38]基序;和/或
HNH结构域,所述HNH结构域包含QNGKCAY[SEQ ID NO:39]基序,优选地IVKFKLWSEQNGKCAY[SEQ ID NO:40]基序;和/或
HNH结构域,所述HNH结构域包含VDHVIP[SEQ ID NO:41]基序,优选地VDHVIPYSRSLDDSYTNKVL[SEQ ID NO:42]基序;和/或
RuvC-III结构域,所述RuvC-III结构域包含DTRYISRFLAN[SEQ ID NO:43]基序;和/或
RuvC-III结构域,所述RuvC-III结构域包含VYTVNGRITAHLRSRW[SEQ ID NO:44]基序;和/或
RuvC-III结构域,所述RuvC-III结构域包含HHAVDA[SEQ ID NO:45]基序,优选地HHAVDAAIVA[SEQ ID NO:46]基序;和/或
优选地,本发明提供了分离的Cas蛋白或其多肽片段,所述分离的Cas蛋白或其多肽片段具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列,其中Cas蛋白或其多肽片段以组合方式包含氨基酸基序[SEQ ID NO:23]至[SEQ ID NO:46]的每一个氨基酸基序。
在另一方面中,本发明提供了分离的Cas蛋白或其多肽片段,所述分离的Cas蛋白或其多肽片段具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列。优选地,Cas蛋白或多肽能够在20℃和100℃的范围中(包括端点)的温度进行结合、裂解、标记或修饰。优选地,Cas蛋白或多肽能够在20℃和70℃之间的范围中,例如25℃、55℃、60℃或65℃的温度进行所述裂解、结合、标记或修饰。优选地,Cas蛋白或多肽能够在50℃和70℃之间的范围中的温度,例如55℃或60℃的温度进行所述裂解、结合、标记或修饰。优选地,Cas蛋白或多肽能够在30℃和80℃之间的范围中的温度、37℃和78℃之间的温度,优选地55℃以上的温度;更优选地55℃和80℃之间的温度;甚至更优选地55℃和65℃之间的温度或60℃和65℃之间的温度进行所述裂解、结合、标记或修饰。
本发明还提供了本文提供的靶向RNA分子和Cas蛋白或多肽用于结合、裂解、标记或修饰包含靶核酸序列的靶多核苷酸的用途。靶向RNA分子识别多核苷酸的靶核酸链上的靶核酸序列。
包含靶核酸序列的靶多核苷酸可以是双链的,并且因此包含靶核酸链和非靶核酸链,该靶核酸链包含所述靶核酸序列,该非靶核酸链包含前间区核酸序列。前间区核酸序列与靶核酸序列实质上互补,并且在双链靶多核苷酸中与其配对。非靶核酸链还可以包含与前间区序列的3’末端直接地相邻的前间区相邻基序(PAM)序列。PAM序列的长度可以是至少6个、7个或8个核酸。优选地,PAM序列在第五个位置中具有胞嘧啶。优选地,PAM序列包含序列5’-NNNNC-3’,使得PAM序列从5’-末端以5’-NNNNC-3’开始。另外地或可选地,PAM序列可以在第八个位置中具有腺嘌呤,使得PAM序列包含序列5’-NNNNNNNA-3’,并且从5’-末端PAM序列以5’-NNNNNNNA-3’开始。另外地或可选地,PAM序列可以在第一个、第二个、第三个、第四个和第六个位置的一个或更多个位置中具有胞嘧啶,使得PAM序列从5’-末端以5’-CNNNN-3’、5’-NCNNN-3’、5’-NNCNN-3’、5’-NNNCN-3’、和/或5’-NNNNNC-3’开始。任选地,PAM序列包含5’-CCCCCCNA-3’[SEQ ID NO:10],使得PAM序列从5’-末端以5’-CCCCCCNA-3’[SEQID NO:10]开始,并且进一步优选地,PAM序列包含5’-CCCCCCAA-3’[SEQ ID NO:11],使得PAM序列从5’-末端以5’-CCCCCCAA-3’[SEQ ID NO:11]开始。其他优选的PAM序列包括5’-ATCCCCAA-3’[SEQ ID NO:21]和5’-ACGGCCAA-3’[SEQ ID NO:22]。
优选地,Cas蛋白或多肽能够在40℃至80℃的范围(包括端点)中的温度,优选地在45℃至80℃的范围(包括端点)中的温度,并且进一步优选地在50℃至80℃的范围(包括端点)中的温度进行结合、裂解、标记或修饰。例如,结合、裂解、标记或修饰发生在45℃、46℃、47℃、48℃、49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃、75℃、76℃、77℃、78℃、79℃或80℃的温度。更优选地,Cas蛋白或多肽能够在55℃至65℃的范围中的温度进行结合、裂解、标记或修饰。在优选的方面中,本发明的Cas蛋白或多肽片段可以包含与SEQ ID NO:1具有至少75%同一性;优选地至少85%;更优选地至少90%;甚至更优选地至少95%同一性的氨基酸序列。
Cas蛋白或多肽可以与识别靶核酸链上的靶核酸序列的靶向RNA分子组合使用,其中非靶核酸序列具有与在非靶链上的前间区序列的3’末端直接地相邻的PAM序列,如本文所公开的。因此,PAM序列可以包含序列5’-NNNNC-3’,并且Cas蛋白可以在20℃和100℃的范围(包括端点)中的温度,优选地30℃和90℃的范围(包括端点)中的温度,在37℃和78℃的范围(包括端点)中的温度、在40℃和80℃的范围(包括端点)中的温度、在50℃和70℃的范围(包括端点)中的温度、或在55℃和65℃的范围(包括端点)中的温度结合、裂解、标记或修饰靶链。优选地,PAM序列从5’-末端以5’-NNNNC-3’开始,并且Cas蛋白可以在20℃和100℃的范围(包括端点)中的温度,优选地30℃和90℃的范围(包括端点)中的温度,在37℃和78℃的范围(包括端点)中的温度、在40℃和80℃的范围(包括端点)中的温度、在50℃和70℃的范围(包括端点)中的温度、或在55℃和65℃的范围(包括端点)中的温度结合、裂解、标记或修饰靶链。优选地,PAM序列从5’-末端以5’-NNNNNNNA-3’开始,并且Cas蛋白可以在20℃和100℃的范围(包括端点)中的温度,优选地30℃和90℃的范围(包括端点)中的温度,在37℃和78℃的范围(包括端点)中的温度、在40℃和80℃的范围(包括端点)中的温度、在50℃和70℃的范围(包括端点)中的温度、或55℃和65℃的范围(包括端点)中的温度结合、裂解、标记或修饰靶链。还优选地,PAM序列的5’-末端以5’-NNNNCNNA-3’[SEQ ID NO:47]开始,并且Cas蛋白可以在20℃和100℃的范围(包括端点)中的温度,优选地30℃和90℃的范围(包括端点)中的温度,在37℃和78℃的范围(包括端点)中的温度、在40℃和80℃的范围(包括端点)中的温度、在50℃和70℃的范围(包括端点)中的温度、或在55℃和65℃的范围(包括端点)中的温度结合、裂解、标记或修饰靶链。
更特别地,本发明的Cas蛋白或多肽可以包含与SEQ ID NO:1具有如下同一性百分比的氨基酸序列:至少60%、至少61%、至少62%、至少63%、至少64%、至少65%、至少66%、至少67%、至少68%、至少69%、至少70%、至少71%、至少72%、至少73%、至少74%、至少75%、至少76%、至少77%、至少78%、至少79%、至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.5%或至少99.8%。同一性百分比可以是至少89%。同一性百分比可以是至少90%。优选地,同一性百分比将是至少95%,例如98%。
与SEQ ID NO:1的氨基酸序列同一性百分比是根据在选定的比较窗口中的序列共享的相同的位置的数目,考虑到需要被引入用于两个序列的最佳比对的空位的数目和每一个空位的长度可确定的。
本发明的Cas蛋白或多肽片段可以根据参考序列SEQ ID NO:1和其如由序列同一性百分比定义的任何上文提及的百分比变体二者单独地或与任何上文提及的氨基酸基序(即SEQ ID NO:2和/或SEQ ID NO:3和/或SEQ ID NO:4和/或SEQ ID NO:5和/或SEQ ID NO:6)组合作为基本特征来表征。
本发明提供了如本文提供的靶向RNA分子和本发明的Cas蛋白或多肽用于结合、裂解、标记或修饰包含靶核酸序列的靶核酸链的用途。优选地,所述结合、裂解、标记或修饰发生在本文所公开的温度,例如20℃和100℃之间的温度。本发明还提供了结合、裂解、标记或修饰靶核酸链中的靶核酸序列的方法,包括设计如本文提供的靶向RNA分子和形成包含该靶向RNA分子和本发明的Cas蛋白或多肽的核糖核蛋白复合体。优选地,核糖核蛋白复合体在本文公开的温度,例如在37℃和100℃之间的温度结合、裂解、标记或修饰靶核酸序列。
本发明的用途和方法可以在体内例如在细菌细胞中进行,并且本发明的核蛋白可以在体内例如在细菌细胞中形成和使用。本发明的用途和方法可以在体内(除了在人类细胞中)进行,并且本发明的核蛋白可以在体内(除了在人类细胞中)形成和使用。可选地,本发明的用途和方法可以在体外进行,并且本发明的核蛋白可以在体外形成和使用。本发明的Cas蛋白可以以分离的形式被提供,例如当在体外使用时或当通过转染添加至细胞时,Cas蛋白可以例如在通过编码Cas蛋白的核酸瞬时或稳定转化细胞后被异源表达,靶向RNA分子可以在细胞通过编码RNA分子的核酸瞬时或稳定转化后从表达载体转录,和/或RNA分子可以以分离的形式被提供,例如当在体外使用时或当通过转染添加至细胞时。在优选的实施方案中,在编码Cas蛋白或多肽的核酸在宿主细胞的基因组中稳定整合后,Cas蛋白或多肽从宿主细胞的基因组表达。因此,使用用于将蛋白或核酸分子添加至细胞(否则在细胞中,该蛋白或核酸分子不存在)的任何人工或人为的方法,Cas蛋白和/或RNA分子可以被添加至体内或体外环境。
包含靶核酸序列的多核苷酸可以被Cas蛋白裂解,并且任选地裂解可以是DNA裂解。包含靶序列的靶核酸链可以是双链DNA,并且方法或用途可以引起包含靶核酸序列的多核苷酸中的双链断裂。包含靶核酸序列的多核苷酸可以是双链DNA,Cas蛋白可以缺乏切割双链DNA的能力,并且用途或方法可以引起多核苷酸的基因沉默。
Cas蛋白或多肽可以以250nM或更低的浓度,例如以200nM或更低、150nM或更低、100nM或更低、50nM或更低、25nM或更低、10nM或更低、5nM或更低、1nM或更低或0.5nM或更低的浓度被提供用于本发明的方法、用途和核蛋白。可选地,Cas蛋白或多肽可以以至少0.5nM、至少1nM、至少5nM、至少10nM、至少25nM、至少50nM、至少100nM、至少150nM、至少200nM或至少250nM的浓度被提供。本发明的PAM序列可以在第八个位置中具有腺嘌呤,使得PAM序列包含序列5’-NNNNNNNA-3’,并且Cas蛋白或多肽的浓度可以是100nM或更低、50nM或更低、25nM或更低、10nM或更低、5nM或更低、1nM或更低或0.5nM或更低。PAM序列可以包含序列5’-NNNNCNNA-3’[SEQ ID NO:47],并且Cas蛋白或多肽的浓度可以是100nM或更低、50nM或更低、25nM或更低、10nM或更低、5nM或更低、1nM或更低或0.5nM或更低。PAM序列可以包含序列5’-CCCCCCNA-3’[SEQ ID NO:10],并且Cas蛋白或多肽的浓度可以是100nM或更低、50nM或更低、25nM或更低、10nM或更低、5nM或更低、1nM或更低或0.5nM或更低。
此外,本发明提供了编码本发明的任何上文提及的蛋白或多肽的核酸。核酸可以是分离的或呈表达构建体的形式。
在本发明的所有上文提及的方面中,氨基酸残基可以被保守取代或非保守取代。保守氨基酸取代是指其中氨基酸残基被取代为具有类似化学特性(例如,电荷或疏水性)的其他氨基酸残基并且因此不改变所得多肽的功能特性的那些氨基酸取代。
类似地,本领域普通技术人员将理解,核酸序列可以被保守或非保守取代,而不影响多肽的功能。保守修饰的核酸是被取代为编码氨基酸序列的相同或功能上相同的变体的核酸的那些核酸。本领域的读者将理解,核酸中的每一个密码子(除了AUG和UGG;通常,分别是甲硫氨酸或色氨酸的唯一密码子)可以被修饰以产生功能上相同的分子。因此,编码本发明的多肽的多核苷酸或多肽的每一个沉默变体(即同义密码子)隐含在每一个描述的多肽序列中。
本发明提供了经转化的细胞,该经转化的细胞具有在双链靶多核苷酸中的靶核酸序列,所述细胞包含如本文提供的Cas蛋白或多肽和至少一种如本文提供的靶向RNA分子、和表达载体,所述表达载体包含编码所述Cas蛋白和所述靶向RNA分子中的至少一种的核酸。如本文所公开的,Cas蛋白和靶向RNA分子可以使得结合、裂解、标记或修饰靶序列能够在升高的温度或在例如在37℃和100℃之间的温度范围在经转化的细胞中发生,或允许结合、裂解、标记或修饰靶序列在升高的温度或在例如37℃和100℃之间的温度范围在经转化的细胞中发生。本发明还提供了结合、裂解、标记或修饰细胞中的靶核酸的方法,包括1)用表达载体转化、转染或转导细胞,所述表达载体包含编码本发明的Cas蛋白或多肽的核苷酸序列和编码本发明的靶向RNA分子的核苷酸序列;或2)用表达载体和另外的表达载体转化、转染或转导细胞,所述表达载体包含编码本发明的Cas蛋白或多肽的核苷酸序列,所述另外的表达载体包含编码本发明的靶向RNA分子的核苷酸序列;或3)用表达载体转化、转染或转导细胞,所述表达载体包含编码本发明的Cas蛋白或多肽的核苷酸序列,和将如本文提供的靶向RNA分子递送至细胞或递送到细胞中。Cas蛋白或多肽可以例如在编码Cas蛋白或多肽的核苷酸序列稳定整合到基因组中后从经转化的细胞的基因组表达。
本发明还提供包含一种或更多种试剂的试剂盒,所述试剂盒用于实施本发明的用途和方法,或用于产生本发明的经转化的细胞或核蛋白复合体,所述试剂盒包含:本发明的Cas蛋白或多肽或包含编码本发明的Cas蛋白或多肽的核酸序列的表达载体;和/或本发明的靶向RNA分子或包含编码本发明的靶向RNA分子的核酸序列的表达载体。试剂盒还可以包括实施本发明的说明书,例如如何设计根据本发明的靶向RNA分子的说明。
RNA指导(RNAGuides)和靶序列
本发明的Cas蛋白允许在升高的温度对靶核酸进行序列特异性结合、裂解、加标签、标记或修饰。靶核酸可以是DNA(单链或双链)、RNA或合成的核酸。本发明的特别有用的应用是通过与一种或更多种指导RNA(gRNA)呈复合体形式的本发明的一种或更多种Cas蛋白对基因组DNA进行序列特异性靶向和修饰,所述一种或更多种指导RNA(gRNA)与基因组DNA的靶向的序列互补地结合。因此,靶核酸优选地是双链DNA。这类靶向可以在体外或体内进行。优选地,这类靶向在体内进行。以该方式,本发明的Cas蛋白可以被用于靶向和修饰位于细胞的基因组DNA中的特定DNA序列。设想了Cas系统可以被用于修饰多种细胞类型中和/或不同生物体中的基因组。
gRNA,也被称为靶向RNA分子,识别多核苷酸靶链上的靶核酸序列。RNA分子可以被设计为识别双链靶多核苷酸中的靶序列,其中非靶链包含与前间区序列的3’末端直接地相邻的前间区相邻基序(PAM)序列。本文公开了以最佳方式与本发明的Cas蛋白和多肽一起起作用的PAM序列。在具有这些PAM序列知识的情况下,gRNA可以被设计用于与本发明的Cas蛋白和多肽一起跨越本发明的温度范围和增加的温度使用。
因此,本发明提供了核糖核蛋白复合体,所述核糖核蛋白复合体包含如上文描述的本发明的Cas蛋白或多肽,并且还包含至少一种RNA分子,所述至少一种RNA分子由于识别靶多核苷酸中的特定核苷酸序列而具有靶向功能。本发明还提供了至少一种靶向RNA分子和Cas蛋白或多肽用于结合、裂解、标记或修饰靶核酸链的用途,和使用本发明的核糖核蛋白或核蛋白结合、裂解、标记或修饰靶核酸链中的靶核酸序列的方法,以及具有Cas蛋白或多肽和靶向RNA分子的经转化的非人类细胞。根据本文提供的PAM序列,靶多核苷酸还可以包含与前间区序列的3’末端直接地相邻的定义的PAM序列。PAM序列的长度可以是6个、7个或8个核酸,或更长,优选地8个核酸。优选地,RNA分子是单链RNA分子,例如CRISPR RNA(crRNA),并且例如通过杂交与tracrRNA缔合。靶向RNA可以是crRNA和tracrRNA的嵌合体。上文提及的RNA分子可以具有与靶核苷酸序列具有至少90%同一性或互补性的靶核苷酸序列。任选地,RNA分子具有与靶核苷酸序列具有至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或100%同一性或互补性的靶核苷酸序列。优选的靶核苷酸序列是DNA。
在优选的方面中,本发明提供了如上文描述的核糖核蛋白复合体,其中至少一种靶向RNA分子沿其长度与靶DNA序列基本上互补。
靶向RNA分子可以在核蛋白复合体中与靶序列结合或缔合,使得包含靶序列的靶多核苷酸和在非靶链上的PAM序列可以与本发明的核蛋白复合体缔合并且因此形成本发明的核蛋白复合体的一部分。
因此,与本发明的Cas蛋白缔合的RNA指导的序列的改变允许Cas蛋白被编程为在与指导RNA互补的位点处标记或切割双链DNA。
优选地,在本发明的核糖核蛋白复合体中的至少一种靶向RNA分子的长度在35个至135个残基的范围中,任选地在以下范围中:35个至134个残基、35个至133个残基、35个至132个残基、35个至131个残基、35个至130个残基、35个至129个残基、35个至128个残基、35个至127个残基、35个至126个残基、35个至125个残基、35个至124个残基、35个至123个残基、35个至122个残基、35个至121个残基、35个至120个残基、35个至119个残基、35个至118个残基、35个至117个残基、35个至116个残基、35个至115个残基、35个至114个残基、35个至113个残基、35个至112个残基、35个至111个残基、35个至100个残基、35个至109个残基、35个至108个残基、35个至107个残基、35个至106个残基、35个至105个残基、35个至104个残基、35个至103个残基、35个至102个残基、35个至101个残基、35个至100个残基、35个至99个残基、35个至98个残基、35个至97个残基、35个至96个残基、35个至95个残基、35个至94个残基、35个至93个残基、35个至92个残基、35个至91个残基、35个至90个残基、35个至89个残基、35个至88个残基、35个至87个残基、35个至86个残基、35个至85个残基、35个至84个残基、35个至83个残基、35个至82个残基、35个至81个残基、35个至80个残基、35个至79个残基、35个至78个残基、35个至77个残基、35个至76个残基、35个至75个残基、35个至74个残基、35个至73个残基、35个至72个残基、35个至71个残基、35个至70个残基、35个至69个残基、35个至68个残基、35个至67个残基、35个至66个残基、35个至65个残基、35个至64个残基、35个至63个残基、35个至62个残基、35个至61个残基、35个至60个残基、35个至59个残基、35个至58个残基、35个至57个残基、35个至56个残基、35个至55个残基、35个至54个残基、35个至53个残基、35个至52个残基、35个至51个残基、35个至50个残基、35个至49个残基、35个至48个残基、35个至47个残基、35个至46个残基、35个至45个残基、35个至44个残基、35个至43个残基、35个至42个残基、35个至41个残基、35个至40个残基、35个至39个残基、35个至38个残基、35个至37个残基、35个至36个残基或35个残基。优选地,至少一种RNA分子的长度在以下范围中:36个至174个残基、37个至173个残基、38个至172个残基、39个至171个残基、40个至170个残基、41个至169个残基、42个至168个残基、43个至167个残基、44个至166个残基、45个至165个残基、46个至164个残基、47个至163个残基、48个至162个残基、49个至161个残基、50个至160个残基、51个至159个残基、52个至158个残基、53个至157个残基、54个至156个残基、36个至74个残基、37个至73个残基、38个至72个残基、39个至71个残基、40个至70个残基、41个至69个残基、42个至68个残基、43个至67个残基、44个至66个残基、45个至65个残基、46个至64个残基、47个至63个残基、48个至62个残基、49个至61个残基、50个至60个残基、51个至59个残基、52个至58个残基、53个至57个残基、54个至56个残基。
在优选的方面中,本发明提供了核糖核蛋白复合体,其中至少一种RNA分子的互补部分是至少30个残基长。可选地,至少一种RNA分子的互补部分可以是31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、51个、52个、53个、54个、55个、56个、57个、58个、59个、60个、61个、62个、63个、64个、65个、66个、67个、68个、69个、70个、71个、72个、73个、74个或75个残基长。
靶向RNA分子将优选地要求对于靶核酸序列的高特异性和亲和力。在1μM至1pM,优选地1nM至1pM;更优选地1pM-100pM的范围中的解离常数(Kd)是期望的,如可以通过非变性凝胶电泳(native gel electrophoresis)或可选地等温滴定量热法、表面等离子体共振或基于荧光的滴定方法来确定。亲和力可以使用电泳迁移率变动测定(EMSA)来确定,所述电泳迁移率变动测定也被称为凝胶阻滞测定(参见Semenova等人(2011)PNAS108:10098-10103)。
靶向RNA分子优选地在从原核生物自然界已知作为CRISPR RNA(crRNA)分子的分子上建模(modeled)。crRNA分子的结构已经被建立并且在Jore等人,2011,NatureStructural&Molecular Biology 18:529-537中更详细地解释。简而言之,I-E型的成熟crRNA通常是61个核苷酸长,并且由8个核苷酸的5’“手柄”区域、32个核苷酸的“间隔区”序列和21个核苷酸的3’序列组成,所述21个核苷酸的3’序列形成具有四核苷酸环的发夹(图5)。I型系统不同于II型(Cas9)系统,并且不同的系统的详细内容在Van der Oost 2014NatRev Micr 12:479-492中被描述。II型(Cas9)系统中,存在不同的处理机制,使用第二种RNA(tracrRNA)和两种核糖核酸酶。在II型中的成熟的crRNA保持与tracrRNA片段附接而非发夹(图5)。然而,本发明中使用的RNA不必严格遵循天然存在的crRNA的设计被设计,无论是长度、区域还是特定的RNA序列。但明确的是,用于在本发明中使用的RNA分子可以基于公共数据库中的或新发现的基因序列信息来设计,并且然后人工制备,例如通过完全或部分化学合成。本发明的RNA分子还可以被设计并通过在遗传修饰的细胞或无细胞表达系统中表达的方式产生,并且这种选择可以包括合成一些或所有的RNA序列。
在II型(Cas9)中的crRNA的结构和要求也已经在Jinek等人,2012同上中被描述。在I型中,存在所谓的“种子(SEED)”部分形成间隔区序列的5’末端并且其5’侧翼为8个核苷酸的5’手柄。Semenova等人(2011,PNAS 108:10098-10103)已经发现种子序列的所有残基均应该与靶序列互补,尽管对于在位置6处的残基可以容忍错配(图5)。在II型中,存在位于间隔区的3’末端处的10-12个核苷酸的种子(图5)(由Van der Oost 2014同上综述)。类似地,当设计和制备针对靶基因座(即序列)处的本发明的核糖核蛋白复合体的RNA组分时,可以应用用于II型种子序列的必要匹配和错配规则。
因此,本发明包括检测和/或定位靶核酸分子中的单个碱基变化的方法,所述方法包括使核酸样品与如上文描述的本发明的核糖核蛋白复合体或与如上文描述的本发明的Cas蛋白或多肽和单独的靶向RNA组分接触,并且其中靶向RNA的序列(包括当在核糖核蛋白复合体中时)使得通过在例如8个核苷酸残基的连续序列的位置6处的单个碱基变化区分正常等位基因和突变等位基因。
不希望受特定理论束缚,可以被用于制备本发明的核糖核蛋白复合体的靶向RNA组分的设计规则涉及双链靶多核苷酸中的所谓“PAM”(前间区相邻基序)序列。在大肠杆菌(E.coli)的I-E型系统中,PAM序列可以是保守的核苷酸残基三联体,诸如5’-CTT-3’、5’-CAT-3’、5’-CCT-3’、5’-CAC-3’、5’-TTT-3’、5’-ATT-3’、和5’-AWG-3’,其中W是A、T或U。在I型中,位于靶向的链中的PAM序列通常在对应于种子的5’的位置处。然而,在II型中,PAM位于靠近crRNA间隔区的3’末端的置换链或非靶链的另一末端处,在对应于种子的3’的位置处(图5)(Jinek等,2012,同上)。对于酿脓链球菌(Streptococcus pyogenes)Cas9,PAM序列具有保守的核苷酸残基对5’-NGG-3’。最近,已经表征了不同的Cas9变体(IIA型和IIC型)(Ran等人,2015Nature 520:186-191),并且已经揭示了PAM(参见Ran等人,2015,同上)。目前建立的Cas9 PAM包括:IIA型5’-NGGNNNN-3’(酿脓链球菌)、5’-NNGTNNN-3’(巴氏链球菌(Streptococcus pasteurianus))、5’-NNGGAAN-3’(嗜热链球菌(Streptococcusthermophilus))、5’-NNGGGNN-3’(金黄色葡萄球菌(Staphylococcus aureus)),和IIC型5’-NGGNNNN-3’(白喉棒杆菌(Corynebacterium diphtheriae))、5’-NNGGGTN-3’(红嘴鸥弯曲杆菌(Campylobacter lari))、5’-NNNCATN-3’(Parvibaculum lavamentivorans)、5’-NNNNGTA-3’(灰色奈瑟菌(Neisseria cinerea))。热脱氮地芽孢杆菌T12的Cas9(本发明)属于IIC型(Ran等人,2015,同上)。本发明人已经出乎意料地发现,用于与本发明一起使用的PAM序列的选择可以影响其中本发明的Cas蛋白和多肽将与靶序列相互作用的一种或更多种温度。特别地,本发明人已经发现优选8聚体(8-mer)PAM序列以跨越宽的温度范围赋予活性,其中胞嘧啶在靶序列3’末端后的第5个位置中,和/或腺嘌呤在第8个位置中。在前间区序列的3’末端后,在PAM序列的第1个、第2个、第3个、第4个和/或第6个位置中也存在对于胞嘧啶的偏好。
在特定方面中,通过使用5’-NNNNCVAA-3’[SEQ ID NO:48]的PAM序列,可以实现在例如20℃至100℃的宽的温度范围中、20℃至80℃的宽的温度范围中、30℃至80℃的宽的温度范围中、20℃至70℃的宽的温度范围中或25℃至65℃的宽的温度范围中与靶序列的相互作用。前4个PAM位置不存在特定的偏好。因此,前4个核苷酸可以方便地是任何核苷酸(NNNN)。优选地,可以通过利用5’-NNNNCSAA-3’[SEQ ID NO:49]的PAM序列来实现在这类宽的温度范围中的与靶序列的相互作用。最佳地,PAM可以具有序列5’-NNNNCGAA-3’[SEQ IDNO:50]或5’-NNNNCCAA-3’[SEQ ID NO:51]。
当需要在≥30℃,例如30℃至100℃的范围中,优选地在30℃至70℃的范围中,30℃至65℃的范围中或45℃至65℃的范围中与靶序列相互作用时,PAM序列可以最佳地具有序列5’-NNNNCNAA-3’[SEQ ID NO:52]或5’-NNNNCMCA-3’[SEQ ID NO:53]。前4个PAM位置不存在特定的偏好。因此,前4个核苷酸可以方便地是任何核苷酸(NNNN)。任选地,例如,PAM序列可以是5’-CCCCCNAA-3’或5’-CCCCCMCA-3’。任选地,例如,PAM序列可以选自5’-CCCCCAAA-3’、5’-CCCCCATA-3’、5’-CCCCCAGA-3’、5’-CCCCCACA-3’、5’-CCCCCTAA-3’、5’-CCCCCTTA-3’、5’-CCCCCTGA-3’、5’-CCCCCTCA-3’、5’-CCCCCGAA-3’、5’-CCCCCGTA-3’、5’-CCCCCGGA-3’、5’-CCCCCGCA-3’、5’-CCCCCCAA-3’[SEQ ID NO:11]、5’-CCCCCCTA-3’、5’-CCCCCCGA-3’或5’-CCCCCCCA-3’。
在本发明的实施方案中,靶向RNA分子可以具有在35个-200个残基范围中的长度。在优选的实施方案中,与期望的核酸序列互补的并且被用于靶向期望的核酸序列的RNA的部分是从15个至32个残基长。在天然存在的crRNA的情况中,这将对应于如例如在Semenova等人(2011同上)中显示出的间隔区部分。
本发明的核糖核蛋白复合体可以具有包含位于RNA序列5’的来源于CRISPR重复的8个残基的靶向组分,该RNA序列与DNA靶序列具有实质的互补性。与DNA靶序列具有互补性的RNA序列将被理解为对应于在crRNA的情况中作为间隔区序列。RNA的5’侧翼序列将被认为对应于crRNA的5’手柄;如例如在Semenova等人(2011同上)中显示出的。
本发明的核糖核蛋白复合体可以具有位于与DNA靶序列具有互补性的靶向RNA序列3’的发夹和四核苷酸环形成序列,即位于将对应于在crRNA中的间隔区序列侧翼的3’手柄的3’;例如,如在Semenova等人(2011同上)中显示出的。
不希望受特定理论的束缚,在优选的核糖核蛋白复合体和双链靶多核苷酸中,不与核糖核蛋白复合体的靶向RNA配对的非靶核酸链可以包含直接地3’相邻的PAM序列,该PAM序列选自5’-NNNNCNNA-3’[SEQ ID NO:47]、5’-CNNNCNN-3’、5’-NNNCCNN-3’、5’-NNCNCNN-3’、5’-NNNNCCN-3’和5’-NCNNCNN-3’的一种或更多种。任选地,例如,PAM序列可以选自5’-NNNNC-3’,5’-NNNNCNNA-3’[SEQ ID NO:47]、5’-CNNNC-3’、5’-CNNNCNNA-3’、5’-NCNNC-3’、5’-NCNNCNNA-3’、5’-NNCNC-3’、5’-NNCNCNNA-3’、5’-NNNCC-3’、5’-NNNCCNNA-3’、5’-NNNNCC-3’、5’-NNNNCCNA-3’、5’-CCNNC-3’、5’-CCNNCNNA-3’、5’-CNCNC-3’、5’-CNCNCNNA-3’、5’-CNNCCN-3’、5’-CNNCCNNA-3’、5’-CNNNCC-3’、5’-CNNNCCNA-3’、5’-CCCNCN-3’、5’-CCCNCNNA-3’、5’-CCNCCN-3’、5’-CCNCCNNA-3’、5’-CCNNCC-3’、5’-CCNNCCNA-3’、5’-CCCCC-3’[SEQ ID NO:12]、5’-CCCCCNNA-3’[SEQ ID NO:13]、5’-CCCCCC-3’[SEQ ID NO:14]、5’-CCCCCCNA-3’[SEQ ID NO:10]、5’-NCCNC-3’、5’-NCCNCNNA-3’、5’-NCCCC-3’、5’-NCCCCNNA-3’、5’-NCCCCC-3’[SEQ ID NO:15]、5’-NCCCCCNA-3’[SEQ ID NO:16]、5’-NNCCC-3’、5’-NNCCCNNA-3’、5’-NNCCCC-3’、5’-NNCCCCNA-3’、5’-NNNCCC-3’、和5’-NNNCCCNA-3’。PAM序列可以是5’-CNCCCCAC-3’[SEQ ID NO:17]、5’-CCCCCCAG-3’[SEQ IDNO:18]、5’-CCCCCCAA-3’[SEQ ID NO:11]、5’-CCCCCCAT-3’[SEQ ID NO:19]、5’-CCCCCCAC-3’[SEQ ID NO:20]、5’-ATCCCCAA-3’[SEQ ID NO:21]、或5’-ACGGCCAA-3’[SEQ ID NO:22]。优选地,PAM序列将是序列5’-NNNNCNNA-3’[SEQ ID NO:47]。然而,将理解的是,取决于期望的应用和/或Cas蛋白或多肽的浓度,可以使用核苷酸的其他组合。特别是,前4个PAM位置不存在特定的偏好。因此,前4个核苷酸可以方便地是任何核苷酸(NNNN)。这些序列对应于在天然存在的crRNA的情况中被称为“前间区相邻基序”或“PAM”的序列。在IIC型CRISPR/Cas系统中,这些PAM序列促进Cascade/crRNA复合体与其dsDNA靶稳定相互作用,以确保crRNA对靶序列的高度的特异性-在天然系统靶中和因此也优选地对于根据本发明的RNA二者。优选地,与前间区直接地相邻的序列将不是5’-NNNCATN-3’。
另外地,PAM序列可以具有序列5’-NNNNCNNA-3’[SEQ ID NO:47],例如5’-NNNNCNAA-3’[SEQ ID NO:52],或5’-NNNNCMCA-3’[SEQ ID NO:53]。
嗜温SpCas9的局限性之一是它仅在25℃和44℃之间显示出活性;在这些温度以上,SpCas9活性快速地减少至不可检测的水平(Mougiakos等人,2017,ACS Synth Biol.6:849-861)。与其嗜温同源物SpCas9的25℃-44℃范围相比,本发明的ThermoCas9在20℃-70℃的更宽得多的温度范围中在体外有活性。ThermoCas9的延伸的活性和稳定性允许其在需要在20℃-70℃的温度进行DNA操作的分子生物学技术中的应用,以及其在需要稳健的酶活性的严苛环境中的利用。因此,ThermoCas9也可以用作用于嗜热生物体和嗜温生物体二者的基因组编辑工具。
除了具有宽的功能温度活性范围,即在低的温度和高的温度二者,例如在20℃和70℃二者,或20℃和65℃或25℃和65℃是有功能的之外,通过修饰ThermoCas9或相关的元件(诸如,例如,sgRNA或tracRNA)的结构特征,操作其中ThermoCas9能够进行靶向的裂解或结合或其中靶向的裂解或结合有效地发生的温度的范围的能力将使得能够对核酸序列操作施加更大水平的控制。然而,直到现在,对在特定温度的Cas9活性的分子决定因素知之甚少。
本发明人已经鉴定了对于赋予ThermoCas9的热稳定性重要的若干因素,其中之一是ThermoCas9的PAM偏好。ThermoCas9的PAM偏好对于在温度范围的较低部分(≤30℃)的活性是非常严格的,而对于在中等至最佳温度(37℃至60℃)的活性允许PAM中的更多的变化。因此,可以改变PAM序列,以在给定的温度获得靶的最有效结合、裂解、标记或修饰。这提供了在ThermoCas9的应用中的大程度的灵活性,取决于特定应用。例如,在一些应用中,靶结合、裂解、标记或修饰的非常宽的温度范围可以是期望的,例如20℃至70℃,优选地20℃至65℃或25℃至65℃。在这类宽的温度范围中的靶序列的结合、裂解、标记或修饰可以通过使用5’-NNNNCVAA-3’[SEQ ID NO:48]的PAM序列来实现。优选地,在这类宽的温度范围中的靶序列的结合、裂解、标记或修饰可以通过使用5’-NNNNCSAA-3’[SEQ ID NO:49],例如5’-NNNNCGAA-3’[SEQ ID NO:50]或5’-NNNNCCAA-3’[SEQ ID NO:51]的PAM序列来实现。前4个PAM位置不存在特定的偏好。因此,前4个核苷酸可以方便地是任何核苷酸(NNNN)。任选地,例如5’-CCCCCGAA-3’或5’-CCCCCCAA-3’[SEQ ID NO:11]。
当需要在≥30℃,例如30℃至100℃的范围中,优选地在30℃至70℃的范围中、30℃至65℃的范围中或45℃至65℃的范围中结合、裂解、标记或修饰靶时,PAM序列可以最佳地具有序列5’-NNNNCNAA-3’[SEQ ID NO:52]或5’-NNNNCMCA-3’[SEQ ID NO:53]。前4个PAM位置不存在特定的偏好。因此,前4个核苷酸可以方便地是任何核苷酸(NNNN)。任选地,例如,PAM序列可以是5’-CCCCCNAA-3’或5’-CCCCCMCA-3’。任选地,例如,PAM序列可以选自5’-CCCCCAAA-3’、5’-CCCCCATA-3’、5’-CCCCCAGA-3’、5’-CCCCCACA-3’、5’-CCCCCTAA-3’、5’-CCCCCTTA-3’、5’-CCCCCTGA-3’、5’-CCCCCTCA-3’、5’-CCCCCGAA-3’、5’-CCCCCGTA-3’、5’-CCCCCGGA-3’、5’-CCCCCGCA-3’、5’-CCCCCCAA-3’[SEQ ID NO:11]、5’-CCCCCCTA-3’、5’-CCCCCCGA-3’或5’-CCCCCCCA-3’。
本文提供的本发明的PAM序列包含本文所公开的序列,例如作为6-聚体、7-聚体或8-聚体序列。6聚体、7聚体或8聚体序列可以直接地从在非靶链上的前间区序列的3’开始,而在前间区序列和PAM序列的5’末端之间不具有另外的核酸间隔,该前间区序列与靶向RNA结合的序列互补。然而,将理解的是,在6聚体、7聚体或8聚体序列的3’末端处,可以存在另外的核酸形成PAM序列的部分。另外地或可选地,非靶链可以包含在PAM序列3’的另外的核酸。
本发明的核蛋白复合体可以包含本发明的核糖核蛋白复合体和核糖核蛋白与其缔合的核酸的靶核酸链。
结合、裂解、标记和修饰温度
本发明的Cas蛋白的活性,例如核酸酶活性的温度范围,包括最佳温度范围,显著地高于已知的Cas9蛋白的活性的温度范围。此外,它在其中保持活性的范围的上限比已知的Cas9蛋白保持活性的范围的上限高得多。较高的最佳温度和功能范围在高温度的遗传工程中提供了显著的优点,并且因此,例如,在编辑嗜热生物体的基因组中提供了显著的优点,其中的许多在升高的温度进行的一系列工业、农业和制药过程中具有效用。因此,本发明的方法、用途、核蛋白和经转化的细胞可以是在工业过程,例如为代谢工程目的提供基因组编辑中有用的。本发明的PAM序列(与非靶链中的前间区序列直接地相邻)的存在,改进了Cas蛋白和多肽对靶序列的特异性,并且支持Cas蛋白和多肽在更高温度和跨越更大功能温度范围的用途。
根据显著地更大的热稳定性,本发明的Cas蛋白,跨越比已知Cas9蛋白保持活性的温度范围大得多的温度范围保持功能,例如核酸酶活性。此外,它在其中保持活性的范围的上限比已知的Cas9蛋白保持活性的范围的上限高得多。较高的最佳温度和功能范围在高的温度的遗传工程中提供了显著的优点,并且因此,例如,在编辑嗜热生物体和嗜温生物体的基因组中提供了显著的优点,其中的许多在升高的温度进行的一系列工业、农业和制药过程中具有效用。ThermoCas9的延伸的活性和稳定性允许其在需要在宽的温度范围中(例如20-70℃)进行DNA操作的分子生物学技术中的应用,以及其在需要稳健的酶活性的严苛环境中的利用。因此,ThermoCas9也可以用作用于嗜热生物体和嗜温生物体二者的基因组编辑工具。
有益地,本发明人还已经显示出,本发明的Cas蛋白也可以用于指导靶序列的转录控制,例如通过与靶序列序列特异性结合来使转录沉默。因此,ThermoCas9也可以用作嗜热生物体和嗜温生物体二者中的转录控制工具,例如用在使靶基因的转录沉默或激活中。因此,ThermoCas9也可以用作在嗜热生物体和嗜温生物体二者中的基因沉默工具。
有益地,本发明的Cas蛋白或多肽能够在从20℃至100℃的温度进行核酸结合、裂解、标记或修饰,但在升高的温度,例如在41℃和122℃之间的温度,优选地在50℃和100℃之间的温度是特别有用的。本发明的Cas蛋白和多肽能够结合、裂解、标记或修饰DNA、RNA和合成的核酸。本发明的Cas蛋白或多肽还可以例如在20℃至50℃的范围中的温度提供用于核酸酶活性、基因编辑和核酸标记应用的可操作性。
在本文包括温度范围的情况下,预期端点被包括在所公开的温度范围中,即该范围是“包括性的”。例如,当陈述在20℃和100℃之间的范围中的温度存在活性时,20℃和100℃的温度被包括在所述范围中。
优选地,当与合适的gRNA(指导RNA,也被称为靶向RNA分子)缔合时(所述gRNA识别一个或更多个多核苷酸分子中的待被结合、裂解、标记或修饰的靶序列),本发明的Cas蛋白或多肽在20℃至100℃的范围中的温度,任选地在20℃至70℃、20℃至65℃、25℃至70℃、25℃至65℃、55℃至100℃、50℃至70℃、55℃至70℃、或55℃至65℃的范围中的温度进行结合、裂解、标记或修饰。
优选地,当与合适的gRNA(指导RNA,也称为靶向RNA分子)缔合时(所述gRNA识别一个或更多个多核苷酸分子中的待被结合、裂解、标记或修饰的靶序列),本发明的Cas蛋白或多肽在50℃至100℃的范围中的温度,任选地在55℃至100℃、60℃至100℃、65℃至100℃、70℃至100℃、75℃至100℃、80℃至100℃、85℃至100℃、90℃至100℃、95℃至100℃的温度进行结合、裂解、标记或修饰。更优选地,本发明的Cas蛋白在51℃至99℃、52℃至98℃、53℃至97℃、54℃至96℃、55℃至95℃、56℃至94℃、57℃至93℃、58℃至92℃、59℃至91℃、60℃至90℃、61℃至89℃、62℃至88℃、63℃至87℃、64℃至86℃、65℃至85℃、66℃至84℃、67℃至83℃、68℃至82℃、69℃至81℃、70℃至80℃、71℃至79℃、72℃至78℃、73℃至77℃、74℃至76℃的范围中的温度、或在75℃的温度对核酸进行裂解、标记或修饰。优选地,本发明的Cas蛋白在60℃至80℃、61℃至79℃、62℃至78℃、63℃至77℃、64℃至76℃、60℃至75℃、60℃至70℃的范围中的温度对核酸进行结合、裂解、标记或修饰。最佳地,本发明的Cas蛋白在60℃至65℃的范围中的温度,优选地在65℃对核酸进行结合、裂解、标记或修饰。
靶向RNA分子可以被设计用于与本发明的Cas蛋白和多肽一起使用,其中靶向RNA分子与靶链中的靶序列结合,并且非靶链还包含本文提供的紧邻前间区序列3’的PAM序列。PAM序列可以包含5’-NNNNNNNA-3’,优选地5’-NNNNCNNA-3’[SEQ ID NO:47],任选地,例如5’-CCCCCCNA-3’[SEQ ID NO:10]或5’-CCCCCCAA-3’[SEQ ID NO:11],并且本发明的用途、方法、经转化的细胞和核蛋白可以跨越从55℃至65℃的温度范围,优选地跨越从50℃至70℃、从40℃至65℃、从45℃至75℃、从37℃至78℃和/或从20℃至80℃的温度范围,提供靶链的结合、裂解、标记和/或修饰。
可以改变PAM序列,以在给定的温度获得靶的最有效裂解。这提供了在本发明的Cas蛋白的应用中的大程度的灵活性,取决于特定应用。当结合、裂解、标记或修饰活性,例如裂解活性,需要在20℃至100℃的温度范围中,优选地20℃至70℃的温度范围中,或20℃至65℃的温度范围中或25℃至65℃的温度范围中时,那么活性可以通过使用5’-NNNNCVAA-3’[SEQ ID NO:48]的PAM序列来实现,优选地,在这类温度范围中的活性可以通过使用5’-NNNNCSAA-3’[SEQ ID NO:49],例如5’-NNNNCGAA-3’[SEQ ID NO:50]或5’-NNNNCCAA-3’[SEQ ID NO:51]的PAM序列来实现。任选地,例如5’-CCCCCGAA-3’[SEQ ID NO:52]或5’-CCCCCCAA-3’[SEQ ID NO:11]。
本发明人已经发现ThermoCas9的热稳定性随着形成核糖核蛋白复合体的指导(sgRNA)的缔合而增加。指导(sgRNA)可以合适地包含tracrRNA和crRNA。在这类布置中,该指导可以合适地包含crRNA,所述crRNA包含核苷酸间隔区片段和重复片段。crRNA的长度可以合适地是17-20nt。任选地,crRNA的长度可以是17nt。可选地,crRNA的长度可以是18nt、19nt或20nt。该指导还可以包含tracrRNA(反向重复(anti-repeat)片段(与crRNA的重复片段碱基配对))。tracrRNA和crRNA可以通过合成的接头来分隔。以下指导代表了优选的布置:5’-[crRNA(17-20个核苷酸间隔区片段&重复片段)–(任选的:连接两个RNA的合成的环)–tracrRNA(反向重复片段(与crRNA的重复片段碱基配对)&一些可变的茎环结构(如参见下文中的结构),在某些系统中可以被截短至一定程度)]-3’。
通常地,tracrRNA将作为嵌合的单指导RNA(sgRNA)的一部分被提供,所述嵌合的单指导RNA(sgRNA)例如包含crRNA和tracrRNA。tracrRNA可以由反向重复区域和随后的一个或更多个发夹结构,优选地两个或更多个发夹结构或更优选地三个或更多个发夹结构组成。在间隔区远端的全长重复/反向重复发夹(由在通过4-核苷酸接头例如5’-GAAA-3’融合的合成的sgRNA嵌合体中的crRNA部分的3’-末端(重复)和互补的tracrRNA部分(反向重复)的5’-末端形成)的存在作为核酸酶的锚发挥功能,但对靶选择和裂解活性不是必需的。例如,可以容忍在tracrRNA部分的高达50-nt缺失的间隔区远端处的缺失,而对DNA裂解效率影响很小或没有影响。因此,例如,全长重复-反向重复发夹的间隔区远端的缺失可以被制备成高达50nt、高达45nt、高达40nt、高达35nt、高达30nt、高达25nt、高达20nt、高达15nt、高达10nt或高达5nt,而在靶DNA裂解效率的方面没有损害。
出乎意料地,本发明人还已经发现tracrRNA的结构影响ThermoCas9的热稳定性和活性(特别是裂解活性)的效率。具体地,可以修饰tracrRNA或sgRNA中的发夹(或茎环)结构的数目,以在给定温度获得靶的最有效结合、裂解、标记或修饰。这提供了本发明的Cas蛋白的应用中的大程度的灵活性,取决于特定应用。任选地,tracrRNA或sgRNA可以被提供能够形成一个或更多个茎环结构、两个或更多个茎环结构或三个或更多个茎环结构的核酸序列。任选地,tracrRNA或sgRNA可以被提供被布置成形成一个或更多个茎环结构、两个或更多个茎环结构或三个或更多个茎环结构的核酸序列。优选地,sgRNA将被提供能够形成至少三个茎环结构的核酸序列。
任选地,在结合、裂解、标记或修饰活性,例如裂解活性需要在20℃至60℃的温度范围中,优选地37℃至60℃的温度范围中,或37℃、40℃、45℃、50℃、55℃或60℃的情况,那么可以通过使用能够形成一个或更多个茎环结构的sgRNA序列来实现活性。
任选地,在结合、裂解、标记或修饰活性,例如裂解活性需要在20℃至65℃的温度范围中,优选地37℃至65℃的温度范围中,更优选地45℃至55℃的温度范围中、或37℃、40℃、45℃、50℃、55℃或60℃的情况,那么可以通过使用能够形成两个或更多个茎环结构的sgRNA序列来实现活性。
任选地,在结合、裂解、标记或修饰活性,例如裂解活性需要在20℃至100℃的温度范围中,优选地20℃至70℃的温度范围中,更优选地37℃至65℃的温度范围中、或37℃、40℃、45℃、50℃、55℃、60℃或65℃的情况,那么可以通过使用能够形成三个或更多个茎环结构的sgRNA序列来实现活性。
优选地,对应于tracrRNA的sgRNA的部分将包含序列AAGGGCUUUCUGCCUAUAGGCAGACUGCCC[SEQ ID NO:54],该序列例示了5’发夹。优选地,对应于tracrRNA的sgRNA的部分还将包含序列GUGGCGUUGGGGAUCGCCUAUCGCC[SEQ ID NO:55],该序列例示了‘中间’发夹。优选地,对应于tracrRNA的sgRNA的部分还将包含序列CGCUUUCUUCGGGCAUUCCCCACUCUUAGGCGUUUU[SEQ ID NO:56],该序列例示了3’发夹。
优选地,对应于tracrRNA的sgRNA的部分将包含序列AAGGGCUUUCUGCCUAUAGGCAGACUGCCCGUGGCGUUGGGGAUC GCCUAUCGCC[SEQ ID NO:57],即包括5’发夹和中间发夹。
优选地,对应于tracrRNA的sgRNA的部分可以包含序列AAGGGCUUUCUGCCUAUAGGCAGACUGCCCGUGGCGUUGGGGAUC GCCUAUCGCCCGCUUUCUUCGGGCAUUCCCCACUCUUAGGCGUUU U[SEQID NO:58],即包括5’发夹、中间发夹和3’发夹。
本发明人已经发现,tracrRNA支架的预测的茎环的数目在DNA裂解中起着至关重要的作用,特别是在升高的温度。本发明人已经确定,尽管tracrRNA支架的三个茎环的存在对于裂解活性不是必需的,但是当所有三个环都存在时,在该范围中的所有温度,裂解是最有效的,这表明在升高的温度需要全长的tracrRNA用于最佳的基于ThermoCas9的DNA裂解。与之相比,去除3’发夹引起裂解效率的减少。此外,本发明人发现去除中间发夹和3’发夹二者引起ThermoCas9的裂解效率的急剧地下降,特别地在功能温度范围的上限和下限。优选地,在需要在升高的温度,例如45℃至100℃、50℃至100℃、50℃至70℃、50℃至65℃、55℃至65℃的温度范围中或在宽的温度范围中,诸如20℃至100℃、20℃至70℃、20℃至65℃的温度范围中,对靶序列进行结合、裂解、标记或修饰的情况。优选地,在20℃至100℃、20℃至70℃、20℃至65℃、45℃至100℃、50℃至100℃、50℃至70℃、50℃至65℃或55℃至65℃的范围中的选择的温度,与具有三个茎环结构的sgRNA缔合的ThermoCas9将保持稳定,并且能够对靶序列进行结合、裂解、标记或修饰持续至少1min、至少2min、至少3min、至少4min或至少5min,优选地5min。
此外,本发明人还已经发现,可以改变sgRNA的间隔区序列的长度,以控制ThermoCas9活性,例如结合、裂解、标记或修饰活性的效率。通常地,间隔区序列的长度将在18nt至25nt的范围中。任选地,间隔区序列的长度将是18nt、19nt、20nt、21nt、22nt、23nt、24nt或25nt。优选地,将使用19nt、20nt、21nt或23nt的间隔区长度,因为当与具有这些间隔区长度的sgRNA缔合时,本发明的Cas9蛋白以最高的效率裂解靶序列。当使用18nt的间隔区时,裂解效率显著地下降。优选地,间隔区的长度将是23nt。
在本发明的所有方面中,Cas蛋白或多肽可以获得自或来源于细菌、古核生物或病毒;或可选地可以从头合成。在优选的实施方案中,本发明的Cas蛋白或多肽来源于嗜热原核生物体,所述嗜热原核生物体可以被分类为古核生物或细菌,但优选地是细菌。更优选地,本发明的Cas蛋白或多肽将来源于嗜热细菌。本文中,术语嗜热应当理解为意指能够在相对地高的温度存活和生长,例如,在本发明的情况中,能够在41℃和122℃(106℉和252℉)之间的温度进行核酸裂解、结合或修饰。优选地,本发明的Cas蛋白或多肽可以从一种或更多种嗜热细菌分离,并且将在60℃以上发挥功能。优选地,本发明的Cas蛋白或多肽可以从一种或更多种嗜热细菌分离,并且将在60℃至80℃的范围中并且最佳地在60℃与65℃之间的范围中发挥功能。在优选的实施方案中,本发明的Cas蛋白或多肽来源于地芽孢杆菌属的种。更优选地,本发明的Cas蛋白来源于热脱氮地芽孢杆菌。甚至更优选地,本发明的Cas蛋白来源于热脱氮地芽孢杆菌T12。本发明的Cas蛋白或多肽可以来源于病毒。
功能部分
有益地,可以使用本发明的Cas蛋白、多肽和核糖核蛋白复合体以序列特异性方式靶向任何多核苷酸序列的能力来以某种方式修饰靶核酸,例如通过裂解靶核酸和/或标记靶核酸和/或修饰靶核酸。因此将理解的是,可以随Cas蛋白或多肽提供另外的蛋白以实现这一点。因此,本发明的Cas蛋白或多肽还可以包含至少一个功能部分,和/或本发明的Cas蛋白、多肽或核糖核蛋白复合体可以作为蛋白复合体的一部分被提供,所述蛋白复合体包含至少一种另外的蛋白。在优选的方面中,本发明提供了一种Cas蛋白、多肽或核糖核蛋白复合体,其中Cas蛋白或至少一种另外的蛋白还包含至少一个功能部分。至少一个功能部分可以与Cas蛋白融合或连接。优选地,至少一个功能部分可以通过在天然或人工蛋白表达系统中表达而与Cas蛋白翻译地融合。可选地,至少一个功能部分可以通过化学合成步骤与Cas蛋白共价地连接。优选地,至少一个功能部分与Cas蛋白的N-末端和/或C-末端优选地C-末端融合或连接。
期望地,至少一个功能部分将是蛋白。它可以是异源蛋白,或可选地可以是Cas蛋白来源于其的细菌物种天然的。至少一个功能部分可以是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构蛋白(DNAstructuring protein)、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。
在特别地优选的方面中,本发明提供了一种Cas蛋白、多肽或核糖核蛋白复合体,其中至少一个功能部分是标志物蛋白,例如GFP。
核酸酶活性
本发明的Cas核糖核蛋白在本文所公开的温度,优选地在升高的温度,例如在50℃和100℃之间的温度,具有核酸结合、裂解、标记或修饰活性。本发明的核糖核蛋白能够结合、裂解、标记或修饰DNA、RNA或合成的核酸。在优选的方面中,本发明的Cas核糖核蛋白能够以序列特异性方式裂解DNA,特别是双链DNA。
本发明的Cas蛋白、多肽或核糖核蛋白可以具有多于一个核酸酶结构域。位点特异性核酸酶可以允许沿着DNA的链的选择的位置处生成双链断裂(DSB)。在靶宿主细胞中,这使DSB能够在基因组中特定的预先选择的位置处产生。通过位点特异性核酸酶创建这类断裂促使内源细胞修复机制被重新使用,以在感兴趣的基因组中的期望的位置处插入、缺失或修饰DNA。
蛋白或多肽分子的一个或更多个核酸酶活性位点可以被失活,例如,以允许与蛋白或多肽连接或融合的另一个功能部分例如核酸酶结构域诸如FokI核酸酶的活性。
因此,尽管本发明的Cas蛋白、多肽和核糖核蛋白可以具有内源核酸酶活性的事实,但对于某些应用,可能期望使Cas蛋白的天然核酸酶活性失活并且提供Cas蛋白或核糖核蛋白复合体,其中天然的Cas9核酸酶活性被失活并且Cas蛋白与至少一个功能部分连接。这类应用的一种是通过补充天然的Cas9核酸酶活性来降低错误靶向事件的发生率。这可以期望地通过使Cas蛋白或核糖核蛋白复合体的天然Cas9核酸酶活性失活和提供优选地与Cas蛋白融合的异源核酸酶来实现。因此,本发明提供了Cas蛋白或核糖核蛋白复合体,其中至少一个功能部分是核酸酶结构域,优选地FokI核酸酶结构域。在一个特别地优选的方面中,与FokI核酸酶结构域融合的本发明的Cas蛋白或核糖核蛋白复合体作为蛋白复合体的一部分被提供,优选地包含与FokI核酸酶结构域融合的本发明的另一个Cas蛋白或核糖核蛋白复合体,并且其中两个复合体靶向靶基因组DNA的相对链。
对于一些应用,可以期望完全地减弱Cas蛋白、多肽或核糖核蛋白的核酸酶活性,例如在其中Cas蛋白或核糖核蛋白复合体被用于识别和修饰核酸中的特定靶序列,例如用于将其标记为诊断测试的一部分的应用中。在这类应用中,Cas蛋白的核酸酶活性可以被失活,并且与Cas蛋白融合的功能部分可以是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。
在优选的方面中,缺乏核酸酶活性的催化上失活的或“死亡”的Cas蛋白或多肽(dCas)可以与靶核酸序列结合,并且从而在空间上阻遏该序列的活性。例如,可以设计与基因的启动子或外显子序列互补的靶向RNA,使得dCas和靶向RNA与基因的结合在空间上阻遏基因序列的转录起始或延伸,从而阻遏基因的表达。可选地,本文描述的方法和用途可以使用为切口酶(nickases)的gtCas9的修饰的核酸酶变体。切口酶可以通过gtCas9核酸酶的HNH或RuvC催化结构域的任一个中的突变来创建。这已经针对酿脓链球菌Cas9(spCas)显示出,spCas9-突变体D10A和H840A,它们分别地具有失活的RuvC或HNH核酸酶结构域。这两种突变的组合导致催化上死亡的Cas9变体(Standage-Beier,K.等人,2015,ACSSynth.Biol.4,1217-1225;Jinek,M.等人,2012,Science 337,816-821;Xu,T.等人,2015,Appl.Environ.Microbiol.81,4423-4431)。基于序列同源性(图3),这些残基可以是在gtCas9中的D8(在图3中的D17)和D581或H582(图3)。
优选地,在gtCas9(ThermoCas9)中的D8A和H582A突变可以被用于产生催化上失活或“死亡”的Cas蛋白或缺乏核酸酶活性的ThermoCas9的多肽变体(dCas)。这类dCas可以有效地找到应用,例如,作为有效的热活性转录沉默CRISPRi工具,能够稳定和特异性地与DNA元件结合而不引入dsDNA断裂。有益地,这类系统可以,除其他之外,极大地促进嗜热菌的代谢研究。
在特别地优选的方面中,本发明提供了Cas蛋白或核糖核蛋白复合体,其中Cas蛋白的核酸酶活性被失活,并且至少一个功能部分是标志物蛋白,例如GFP。以该方式,特异性地靶向感兴趣的核酸序列并且使用生成光信号的标志物使其可视化可以是可能的。合适的标志物可以包括例如荧光报告物蛋白,例如绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)或mCherry。这类荧光报告物基因提供了用于蛋白表达的可视化的合适的标志物,因为它的表达可以通过荧光测量简单地且直接地测定。可选地,报告物核酸可以编码发光蛋白,诸如萤光素酶(例如萤火虫萤光素酶)。可选地,报告物基因可以是可以被用于生成光信号的显色酶,例如显色酶(诸如β-半乳糖苷酶(LacZ)或β-葡糖醛酸糖苷酶(Gus))。用于测量表达的报告物也可以是抗原肽标签。其他报告物或标志物是本领域中已知的,并且可以适当地使用它们。
因为标志物可以被可视化,在其中靶核酸是RNA,特别地mRNA的某些实施方案中,特别地在由标志物生成的光信号与表达产物的量成正比的情况,通过检测和定量由标志物提供的光信号来定量基因的转录活性可以是可能的。因此,在本发明的优选的实施方案中,本发明的Cas蛋白或核糖核蛋白可以被用于测定感兴趣的基因的表达产物。
在一方面中,本文描述的gtCas9可以被用于微生物细胞中的同源重组(HR)介导的基因组修饰方法中。这类方法涉及HR和位点定向的gtCas9活性,由此通过gtCas9活性,反选择(counter selection)发生,去除不具有由HR引入的期望的修饰的微生物。
因此,本文提供的方法和用途允许同源重组的过程在第一步期间被支持,使得微生物基因组可以被修饰以具有期望的突变,以及在第二步期间被支持,在该第二步中未修饰的细胞可以被gtCas9核糖核酸酶复合体靶向以将DSDB引入未修饰的细胞的基因组中。由于在大多数微生物中不存在有效的非同源末端连接(NHEJ)修复机制,DSDB通常地导致细胞死亡。因此,这些方法和用途总体上增加了具有期望的突变的微生物细胞的群体,同时消除了任何未修饰的微生物细胞。优选地,这类方法和用途被用于实质上不具有内源NHEJ修复机制的微生物。可选地,所述方法和用途可以被应用于具有内源NHEJ修复机制的微生物。本文描述的方法和用途可以被应用于具有内源NHEJ修复机制,但其中NHEJ修复机制有条件地降低或NHEJ活性被敲除的微生物。
本文提供的方法和用途可以使用同源重组多核苷酸的序列,该序列与指导RNA具有至少一个错配,使得指导RNA不再能够识别修饰的基因组。这意味着gtCas9核糖核酸酶复合体将不识别修饰的基因组。因此,gtCas9核糖核酸酶复合体不可以引入DSDB,并且因此修饰的细胞将存活。然而,具有未修饰的基因组的细胞仍将具有与指导RNA的实质的互补性,并且因此可以被gtCas9核糖核酸酶复合体位点特异性地裂解。
在本发明的方法和用途的另一个方面中,其中防止gtCas9核糖核酸酶复合体起作用以裂解微生物基因组的方式与其说是以修饰或消除被指导靶向的序列,不如说是修饰或消除被gtCas9核糖核酸酶复合体需要的PAM。PAM被修饰或消除,以使gtCas9核糖核酸酶复合体对特异性切割位点不敏感(blind)。因此,本发明的方法和用途可以包括使用同源重组多核苷酸的序列的那些方法和用途,该同源重组多核苷酸的序列不包括被gtCas9核糖核酸酶复合体识别的PAM序列。因此,gtCas9核糖核酸酶复合体不可以引入DSDB,并且因此HR修饰的细胞将存活。然而,未修饰的细胞仍将被gtCas9核糖核酸酶复合体及其指导所识别,并且因此被位点特异性地裂解。
因此,本文提供了依赖HR以修饰微生物的基因组的方法和用途。优选地,上游侧翼区和下游侧翼区的长度各自是0.5千碱基(kb)至1.0kb。然而,使用更大或更短片段的重组也是可能的。同源重组多核苷酸还可以包含在上游和下游侧翼区域之间的多核苷酸序列。该多核苷酸序列可以例如包含将被引入微生物基因组中的修饰。
虽然同源重组依赖与靶区域具有实质互补性的上游和下游侧翼区,但也可以容纳错配。因此,在一些实施方案中,已知同源重组发生在与上游和下游侧翼区具有广泛同源性的DNA区段之间。在可选的实施方案中,上游和下游侧翼区具有与靶区域完全的互补性。上游和下游侧翼区的尺寸不必是相同的。然而,在一些实例中,上游和下游侧翼区的尺寸是相同的。同源重组的效率将根据侧翼区的最小片段长度的同源重组的可能性而变化。然而,即使同源重组过程是低效的,有益地,本文描述的方法将相对于未修饰的微生物细胞选择具有期望的修饰的任何微生物细胞。同源重组也允许产生包括完整基因簇的大的缺失(例如50kb或更大)。同源重组也被用于重组工程,重组工程是众所周知的允许在较小片段(45-100nt)内进行重组的方法。本文描述的方法和用途可以任选地还包含至少另一种同源重组多核苷酸或包含编码同源重组多核苷酸的序列的多核苷酸,所述同源重组多核苷酸具有与包含微生物基因组中的靶的第二靶区域实质上互补的序列。
在优选的实施方案中,本文描述的方法和用途使用同源重组多核苷酸,即DNA。在一些实施方案中,DNA是单链的。在另外的实施方案中,DNA是双链的。在其他实施方案中,DNA是双链的并且是质粒携带的。
本文提供的方法和用途中的HR可以被用于从微生物基因组去除多核苷酸序列。可选地,本文提供的方法和用途中的HR可以被用于将一个或更多个基因或所述基因的一个或更多个片段插入微生物基因组中。作为另外的可选选择,在本文提供的方法和用途中的HR可以被用于修饰或代替微生物基因组中的至少一个核苷酸。因此,本文提供的方法和用途可以被用于任何期望种类的基因组修饰。
可选地,本文描述的gtCas9可以被用于微生物细胞中的HR介导的基因组修饰方法,由此gtCas9活性在微生物细胞中引入DSDB并且可以诱导细胞HR,如对于spCas9已经显示出的(Jiang等人(2013)Nature Biotech,31,233-239;Xu等人(2015)Appl EnvironMicrobiol,81,4423-4431;Huang等人(2015)Acta Biochimica et Biophysica Sinica,47,231-243)。
可选地,同源重组可以通过重组工程来促进,例如通过将寡核苷酸引入到表达编码RecT或β蛋白的基因的微生物细胞中来促进,如由Mougiakos等人((2016),TrendsBiotechnol.34:575-587)综述的。在另外的实施方案中,Cas9可以与多重自动化基因组工程(Multiplex Automated Genome Engineering)(MAGE)进行组合,如由Ronda等人((2016),Sci.Rep.6:19452.)例示的。
自始至终,本发明的Cas蛋白的参考序列可以被定义为编码氨基酸序列的核苷酸序列。例如,在SEQ ID NO:2至6中定义的基序的氨基酸序列还包括编码该氨基酸序列的所有核酸序列。
因此,本发明还提供了分离的核酸分子,所述分离的核酸分子编码Cas蛋白,所述Cas蛋白包含:
a.氨基酸基序EKDGKYYC[SEQ ID NO:2];和/或
b.氨基酸基序X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和/或
c.氨基酸基序X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和/或
d.氨基酸基序X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和/或
e.氨基酸基序X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸;
其中,当与至少一种靶向RNA分子和包含被靶向RNA分子识别的靶核酸序列的多核苷酸缔合时,Cas蛋白能够在50℃与100℃之间进行DNA结合、裂解、标记或修饰。
在另一个方面中,本发明还提供了分离的核酸分子,所述分离的核酸分子编码成簇的规律地间隔的短回文重复(CRISPR)相关的(Cas)蛋白,所述成簇的规律地间隔的短回文重复(CRISPR)相关的(Cas)蛋白具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列。
在另一个方面中,本发明还提供了分离的核酸分子,所述分离的核酸分子还包含编码在翻译后与Cas蛋白融合的肽的至少一种核酸序列。
在另一个方面中,本发明还提供了分离的核酸分子,其中与编码Cas蛋白的核酸分子融合的至少一种核酸序列编码选自以下的蛋白:解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。
ThermoCas9核酸酶活性:二价阳离子
先前表征的嗜温Cas9核酸内切酶使用二价阳离子以催化在靶DNA中生成DSB。本发明人已经显示出,在任何以下二价阳离子的存在下,ThermoCas9可以介导dsDNA裂解:Mg2+、Ca2+、Mn2+、Co2+、Ni2+和Cu2+
ThermoCas9核酸酶活性:底物
本发明人还已经出乎意料地显示出,尽管有报道称某些IIC型系统是有效的单链DNA切割物(Ma,等人,Mol.Cell 60,398-407(2015);Zhang,等人,Mol.Cell 60,242-255(2015)),ThermoCas9不能指导ssDNA的裂解。ThermoCas9的核酸酶活性局限于dsDNA底物。
表达载体
本发明的核酸可以被分离。然而,为了核酸感测构建体(nucleic acid sensingconstruct)的表达可以在选择的细胞中进行,编码Cas蛋白或核糖核蛋白的多核苷酸序列将优选地被提供于表达构建体中。在一些实施方案中,编码Cas蛋白或核糖核蛋白的多核苷酸将作为合适的表达载体的一部分被提供。在某些实施方案中,本发明的表达载体(具有或不具有编码表达后将与Cas蛋白融合的氨基酸残基的核苷酸序列)可以还包含编码如上文定义的靶向RNA分子的核苷酸序列。因此,这类表达载体可以被用于在适当的宿主中以生成可以靶向期望的核苷酸序列的本发明的核糖核蛋白复合体。可选地,编码如上文定义的靶向RNA分子的核苷酸序列可以被提供于单独的表达载体中,或者可选地可以通过其他手段递送至靶细胞。
合适的表达载体将根据受体细胞而变化,并且合适地可以掺入使得表达能够在靶细胞中进行,并且优选地促进高水平表达的调控元件。这类调控序列可以能够例如在起始、准确性、速率、稳定性、下游加工、及迁移率(mobility)的方面影响基因或基因产物的转录或翻译。
这类元件可以包括,例如,强和/或组成型启动子、5’和3’UTR、转录和/或翻译增强子、转录因子或蛋白结合序列、起始位点和终止序列、核糖体结合位点、重组位点、聚腺苷酸化序列、有义或反义序列、确保正确起始转录的序列以及任选地确保宿主细胞中转录终止和转录物稳定的多聚A信号。调控序列可以是植物、动物、细菌、真菌或病毒来源的,并且优选地可以来源于与宿主细胞相同的生物体。清楚地,适当的调控元件将根据感兴趣的宿主细胞而变化。例如,促进在原核宿主细胞中诸如在大肠杆菌中的高水平表达的调控元件可以包括pLac、T7、P(Bla)、P(Cat)、P(Kat)、trp或tac启动子。促进在真核宿主细胞中的高水平表达的调控元件可以包括酵母中的AOX1或GAL1启动子,或CMV启动子或SV40启动子、CMV增强子、SV40增强子、单纯疱疹(Herpes simplex)病毒VIP16转录活化物或动物细胞中的珠蛋白内含子的内含物。在植物中,组成型高水平表达可以使用例如玉米(Zea mays)泛素1启动子或花椰菜花叶病毒的35S和19S启动子来获得。
合适的调控元件可以是组成型的,由此它们在大多数环境条件或发育阶段(发育阶段特异性或诱导型)下指导表达。优选地,启动子是诱导型的,以响应于环境、化学或发育信号(cues)诸如温度、光照、化学品、干旱和其他刺激物来指导表达。合适地,可以选择允许感兴趣的蛋白在特定发育阶段或响应于细胞外或细胞内条件、信号或外部施加的刺激物而表达的启动子。例如,存在用于在大肠杆菌中使用的一系列启动子,所述启动子在生长的特定阶段(例如osmY稳定期启动子)或响应于特定刺激物(例如HtpG热激启动子)提供高水平表达。
合适的表达载体可以包含编码允许在合适的宿主细胞中和/或在特定条件下选择所述载体的选择性标志物的另外的序列。
本发明还包括修饰细胞中的靶核酸的方法,所述方法包括用如上文描述的任何表达载体转染、转化或转导细胞。转染、转化或转导的方法是本领域技术人员熟知的类型。在使用一种表达载体生成本发明的核糖核蛋白复合体的表达的情况下,并且当靶向RNA被直接地添加至细胞时,那么可以使用相同的或不同的转染、转化或转导的方法。类似地,当使用一种表达载体生成本发明的核糖核蛋白复合体的表达时,并且当另一种表达载体用于通过表达原位生成靶向RNA时,那么可以使用相同或不同的转染、转化或转导方法。
在其他实施方案中,引入编码Cas蛋白或多肽的mRNA到细胞中,使得Cascade复合体在细胞中被表达。将Cas蛋白复合体引导至期望的靶序列的靶向RNA也被引入到细胞中,无论是与mRNA同时地、单独地或顺序地引入到细胞中,使得在细胞中形成必需的核糖核蛋白复合体。
因此,本发明还提供了修饰(即裂解、加标签、修饰、标记或结合)靶核酸的方法,所述方法包括使所述核酸与如上文定义的核糖核蛋白复合体接触。
另外,本发明还包括修饰靶核酸的方法,所述方法包括使核酸与除了如上文定义的靶向RNA分子以外的如上文定义的Cas蛋白或多肽接触。
根据以上方法,靶核酸的修饰因此可以在体外和在无细胞的环境中进行。在无细胞环境中,靶核酸、Cas蛋白和靶向RNA分子的各自的添加可以是同时的、顺序的(根据需要以任何顺序)或单独的。因此,以下是可能的:靶核酸和靶向RNA同时地被添加至反应混合物,并且然后在稍后阶段,本发明的Cas蛋白或多肽单独地被添加。
等同地,靶核酸的修饰可以在体内进行,即在细胞中原位进行,无论是分离的细胞还是作为多细胞组织、器官或生物体的一部分。在整个组织和器官的情况中和在生物体的情况中,该方法可以期望地在体内,或可选地可以通过从整个组织、器官或生物体分离细胞,根据该方法用核糖核蛋白复合体处理细胞,并且随后将用核糖核蛋白复合体处理的细胞返回至其之前的位置或不同的位置,无论是在相同的还是不同的生物体中进行。
在这些实施方案中,核糖核蛋白复合体或Cas蛋白或多肽要求递送到细胞中的适当形式。这类合适的递送系统和方法是本领域技术人员熟知的,并且包括但不限于细胞质或核显微注射。在优选的递送方式中,使用腺相关病毒(AAV);该递送系统不在人类中引起疾病,并且已经在欧洲被批准用于临床使用。
因此,本发明提供了修饰靶核酸的方法,所述方法包括使核酸与以下接触:
a.如上文定义的核糖核蛋白复合体;或
b.如上文定义的蛋白或蛋白复合体和如上文定义的RNA分子。
在另外的方面中,本发明提供了修饰细胞中的靶核酸的方法,所述方法包括用包含编码如上文定义的核糖核蛋白复合体的核苷酸序列的表达载体转化、转染或转导细胞;或可选地用包含编码如上文定义的蛋白或蛋白复合体的核苷酸序列的表达载体和包含编码如上文定义的靶向RNA分子的核苷酸序列的另外的表达载体转化、转染或转导细胞。
在另外的方面中,本发明提供了修饰细胞中的靶核酸的方法,所述方法包括用包含编码如上文定义的蛋白或蛋白复合体的核苷酸序列的表达载体转化、转染或转导细胞,并且然后将如上文定义的靶向RNA分子递送到细胞中。
在其中指导(即靶向)RNA(gRNA)分子和Cas蛋白或多肽被单独地而不是作为核糖核蛋白复合体的一部分提供的实施方案中,gRNA分子要求递送到细胞中的适当的形式,无论是与Cas蛋白或蛋白复合体同时地、单独地还是顺序地递送。将RNA引入到细胞中的这类形式是本领域技术人员熟知的,并且可以包括通过常规转染方法的体外或离体递送。可以各自使用物理方法,诸如显微注射和电穿孔、以及钙共沉淀、和商购可得的阳离子聚合物和脂质、以及细胞穿透肽、细胞穿透(基因枪(biolistic))颗粒。例如,病毒(特别地优选的是AAV)可以用作递送媒介物,无论是递送到细胞质和/或细胞核,例如经由本发明的Cas蛋白复合体或本发明的核糖核蛋白复合体与病毒颗粒的(可逆的)融合。
在另一个方面中,本发明提供了修饰靶核酸的方法,其中至少一个功能部分是标志物蛋白或报告物蛋白,并且标志物蛋白或报告物蛋白与靶核酸缔合;优选地其中标志物是荧光蛋白,例如绿色荧光蛋白(GFP)。
在上文提及的修饰靶核酸的方法中,功能部分可以是标志物,并且标志物与靶核酸缔合;优选地其中标志物是蛋白;任选地荧光蛋白,例如绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)或mCherry。无论是在体外、离体还是体内,然后本发明的方法可以被用于直接使核酸分子中的靶基因座可视化,优选地呈更高级结构的形式,诸如超螺旋的质粒或染色体、或单链靶核酸诸如mRNA。靶基因座的直接可视化可以使用电子显微术或荧光显微术。然而,将理解的是,在本发明的方法的情况中,其他种类的标记物可以用作为标志物,包括可以是小分子的有机染料分子、放射性标记物和自旋标记物。
在其中靶核酸是dsDNA的用于修饰靶核酸的本发明的方法中,功能部分可以是核酸酶或解旋酶-核酸酶,并且修饰优选地是在期望的基因座处的单链或双链断裂。以该方式,独特的序列特异性DNA切割可以通过使用与核糖核蛋白复合体融合的合适的功能部分来工程化。最终的核糖核蛋白复合体的RNA组分的选择的序列提供了用于功能部分的作用的所需的序列特异性。
因此,本发明还提供了在细胞中期望的基因座处非同源末端连接dsDNA分子以从dsDNA分子去除至少一部分核苷酸序列;任选地以敲除一个基因或更多个基因的功能的方法,其中该方法包括使用如上文描述的任何修饰靶核酸的方法制备双链断裂。
本发明还提供了将核酸同源重组到细胞中期望的基因座处的dsDNA分子中以修饰现有的核苷酸序列或插入期望的核苷酸序列的方法,其中该方法包括使用如上文描述的任何修饰靶核酸的方法在期望基因座处制备双链断裂。
因此,本发明还提供了修饰生物体中的基因表达的方法,所述方法包括根据上文描述的任何方法修饰靶核酸序列,其中核酸是dsDNA,并且功能部分选自DNA修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物。
本发明另外地提供了修饰生物体中的基因表达的方法,该方法包括根据上文描述的任何方法修饰靶核酸序列,其中核酸是mRNA,并且功能部分是核糖核酸酶;任选地选自核酸内切酶、3’核酸外切酶或5’核酸外切酶。
靶核酸可以是DNA、RNA或合成的核酸。优选地,靶核酸是DNA;优选地dsDNA。
然而,靶核酸可以是RNA;优选地mRNA。可选地,因此,本发明还提供了修饰靶核酸的方法,其中靶核酸是RNA。
在另一个方面中,本发明提供了修饰靶核酸的方法,其中核酸是dsDNA,至少一个功能部分是核酸酶或解旋酶-核酸酶,并且修饰是在期望的基因座处的单链断裂或双链断裂。
在另一个方面中,本发明提供了修饰细胞中的靶核酸的方法,其中修饰引起在期望的基因座处的基因表达的沉默;并且其中该方法包括以下步骤:
a.制备dsDNA分子中的双链断裂;和
b.通过非同源末端连接(NHEJ)修复细胞中的dsDNA分子。
在另一个方面中,本发明提供了修饰细胞中的靶核酸的方法;其中现有的核苷酸序列被修饰或缺失和/或期望的核苷酸序列被插入在期望的位置处,并且其中该方法包括以下步骤:
a.制备在期望的基因座处的双链断裂;和
b.通过同源重组修复细胞中的dsDNA分子。
在另一个方面中,本发明提供了修饰细胞中的基因表达的方法,所述方法包括如上文描述地修饰靶核酸序列;其中核酸是dsDNA,并且功能部分选自DNA修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物。
在另一个方面中,本发明提供了修饰细胞中的基因表达的方法,所述方法包括如上文描述地修饰靶核酸序列,其中核酸是mRNA,并且功能部分是核糖核酸酶;任选地选自核酸内切酶、3’核酸外切酶或5’核酸外切酶。
在另一方面中,本发明提供了如上文描述的修饰靶核酸的方法,其中该方法在45℃和100℃之间的温度进行。优选地,该方法在50℃或在50℃以上的温度进行。更优选地,该方法在55℃和80℃之间的温度进行。最佳地,该方法在60℃和65℃之间的温度进行。可选地,该方法可以在20℃和45℃之间的温度进行。更优选地,在30℃和45℃之间的温度进行。甚至更优选地,在37℃和45℃之间的温度进行。
在上文描述的修饰靶核酸的任何方法中,细胞可以是原核细胞,或者可选地可以是真核细胞。
宿主细胞
有益地,本发明具有宽的适用性,并且本发明的宿主细胞可以来源于可以被培养的任何遗传上可处理的生物体。因此,本发明提供了通过如上文描述的方法转化的宿主细胞。本发明提供了经转化的细胞,该经转化的细胞具有在双链靶多核苷酸中的靶核酸序列,所述细胞包含如本文提供的Cas蛋白或多肽和如本文提供的至少一种靶向RNA分子、和包含编码所述Cas蛋白和所述靶向RNA分子中的至少一种的核酸的表达载体。
适当的宿主细胞可以是原核细胞或真核细胞。特别地,可以选择通常被使用的宿主细胞用于根据本发明的用途,所述通常被使用的宿主细胞包括遗传上可获得的并且可以被培养的原核细胞或真核细胞,例如原核细胞、真菌细胞、植物细胞和动物细胞。优选地,宿主细胞将选自原核细胞、真菌细胞、植物细胞、原生生物细胞(protist cell)或动物细胞。优选地,宿主细胞将选自原核细胞、真菌细胞、植物细胞、原生生物细胞或动物细胞除了人类细胞。优选地,宿主细胞将不包括人类细胞,所述人类细胞包括胚胎干细胞。用于根据本发明的用途的优选的宿主细胞通常来源于通常表现出高生长速率、易于培养和/或转化、显示短的世代时间的物种,已经建立了与它们相关的遗传资源的物种或已经被选择、修饰或合成以用于在特定条件下的异源蛋白的最佳表达的物种。在其中感兴趣的蛋白最终被用于特定的工业、农业、化学或治疗情况的本发明的优选的实施方案中,可以基于期望的特定条件或感兴趣的蛋白将被部署在其中的细胞情况来选择适当的宿主细胞。优选地,宿主细胞将是原核细胞。在优选的实施方案中,宿主细胞是细菌细胞。宿主细胞可以是例如大肠杆菌(Escherichia coli;E.coli)细胞。优选地,宿主细胞将是嗜热细菌的细胞。
本文描述的本发明的方法和用途可以被用于修饰细菌细胞的基因组。在特定实施方案中,细菌是嗜热细菌,优选地细菌选自:嗜酸硫杆菌属(Acidithiobacillus)的种,包括气芽孢杆菌属(Aeribacillus)的种,包括苍白气芽孢杆菌(Aeribacillus pallidus);脂环酸芽孢杆菌属(Alicyclobacillus)的种,包括酸热脂环酸芽孢杆菌(Alicyclobacillus acidocaldarius)、酸土脂环酸芽孢杆菌(Alicyclobacillusacidoterrestris)、环庚基脂环酸杆菌I(AlicyclobacilluscycloheptanicusI)、Alicyclobacillus hesperidum;厌氧芽孢杆菌属(Anoxybacillus)的种,包括热解蛋白厌氧芽孢杆菌(Anoxybacillus caldiproteolyticus)、黄嗜热厌氧芽孢杆菌(Anoxybacillus flavithermus)、Anoxybacillus rupiensis、Anoxybacillustepidamans;芽孢杆菌属(Bacillus)的种,包括/> 包括/> 热堆肥芽孢杆菌(Bacillus thermocopriae)、Bacillusthermolactis、Bacillusthermoleovorans、热杆菌属(Caldibacillus)的种,包括Caldibacillus debilis;热解纤维素菌属(Caldicellulosiruptor)的种,包括/> Caldicellulosiruptorkristjanssonii、Caldicellulosiruptor kronotskyensis、Caldicellulosiruptorlactoaceticus、Caldicellulosiruptor obsidiansis、Caldicellulosiruptor owensensis、Caldicellulosiruptor saccharolyticus、梭菌属(Clostridium)的种,包括Clostridiumclariflavum、Clostridium straminisolvens、Clostridiumtepidiprofundi、Clostridiumthermobutyricum、/> Clostridiumthermopalmarium;奇球菌属(Deinococcus)的种,包括Defluviitalea的种,包括Defluviitalea phaphyphila、脱硫肠状菌属(Desulfotomaculum)的种,包括Desulfotomaculum carboxydivorans、致黑脱硫肠状菌(Desulfotomaculumnigrificans)、Desulfotomaculum salinum、Desulfotomaculum solfataricum;硫还原菌属(Desulfurella)的种,包括Desulfurella acetivorans;除硫杆菌属(Desulfurobacterium)的种,包括Desulfurobacterium thermolithotrophum;地芽孢杆菌属的种,包括Geobacillus icigianus、Geobacillus caldoxylosilyticus、Geobacillusjurassicus、Geobacillus galactosidasius、/>Geobacillus lituanicus、/> 地下地芽孢杆菌(Geobacillus subterraneus)、Geobacillusthermantarcticus、Geobacillus thermocatenulatus、/> Geobacillustoebii、Geobacillus vulcanii、Geobacillus zalihae;产氢杆菌属(Hydrogenobacter)的种,包括嗜热产氢杆菌(Hydrogenobacterthermophiles);Hydrogenobaculum的种,包括Hydrogenobaculum acidophilum;Ignavibacterium的种,包括Ignavibacterium album;乳杆菌属(Lactobacillus)的种,包括 Lactobacillus ingluviei、/> 海栖热菌属(Marinithermus),包括热液海栖热菌属(Marinithermus hydrothermalis);穆尔氏菌属(Moorella),包括/> 海洋栖热菌属(Oceanithermus)的种,包括Oceanithermus desulfurans、Oceanithermus profundus;类芽孢杆菌属(Paenibacillus)的种,包括类芽孢杆菌属J2种、Paenibacillus marinum、Paenibacillusthermoaerophilus;Persephonella的种,包括Persephonellaguaymasensis、Persephonella hydrogeniphila、Persephonella marina;红嗜热盐菌属(Rhodothermus)的种,包括/>Rhodothermus obamensis、Rhodothermusprofundi;硫化杆菌属(Sulfobacillus),包括嗜酸硫化杆菌(Sulfobacillusacidophilus);Sulfurihydrogenibium的种,包括Sulfurihydrogenibium azorense、Sulfurihydrogenibium kristjanssonii、Sulfurihydrogenibium rodmanii、Sulfurihydrogenibium yellowstonense、共生杆菌(Symbiobacterium)的种,包括嗜热共生杆菌(Symbiobacteriumthermophilum)、Symbiobacterium toebii;热厌氧杆菌属(Thermoanaerobacter)的种,包括/> Thermoanaerobacter italicus、Thermoanaerobacterkivui、Thermoanaerobacter marianensis、Thermoanaerobacter mathranii、Thermoanaerobacter pseudoethanolicus、威吉利热厌氧杆菌(Thermoanaerobacterwiegelii);嗜热厌氧杆菌属(Thermoanaerobacterium)的种,包括耐酸嗜热厌氧杆菌(Thermoanaerobacterium aciditolerans)、Thermoanaerobacterium aotearoense、产乙醇嗜热厌氧杆菌(Thermoanaerobacterium ethanolicus)、 热杆菌属(Thermobacillus)的种,包括Thermobacillus composti、Thermobacillusxylanilyticus;发状菌属(Thermocrinis)的种,包括Thermocrinis albus、Thermocrinis ruber;Thermodulfatator的种,包括Thermodesulfatatoratlanticus、Thermodesulfatator autotrophicus、Thermodesulfatator indicus;热脱硫杆菌属(Thermodesulfobacterium)的种,包括Thermodesulfobacteriumcommune、Thermodesulfobacterium hydrogeniphilum;热脱硫菌属(Thermodesulfobium)的种,包括Thermodesulfobium narugense;热脱硫弧菌属(Thermodesulfovibrio)的种,包括Thermodesulfovibrio aggregans、Thermodesulfovibrio thiophilus、Thermodesulfovibrio yellowstonii;热腔菌属(Thermosipho)的种,包括非洲栖热腔菌(Thermosipho africanus)、Thermosiphoatlanticus、Thermosipho melanesiensis;热袍菌属(Thermotoga)的种,包括 Thermotoga neopolitana、/>/>热弧菌属(Thermovibrio)的种,包括Thermovibrioammonificans、Thermovibrio ruber;Thermovirga的种,包括Thermovirga lienii和栖热菌属(Thermus)的种,包括/> 那不勒斯硫杆菌(Thiobacillus neapolitanus)。
在另一方面中,本文描述的方法或用途可以被用于修饰是嗜温的细菌。在优选的实施方案中,细菌选自:嗜酸硫杆菌属的种,包括 放线杆菌属(Actinobacillus)的种,包括/> 厌氧螺菌属(Anaerobiospirillum)的种,包括产琥珀酸厌氧螺菌(Anaerobiospirillumsucciniciproducens);芽孢杆菌属的种,包括/> 环状芽孢杆菌(Bacillus circulans)、 坚硬芽孢杆菌(Bacillusfirmus)、耐盐芽孢杆菌(Bacillus halodurans)、Bacillus hisashii、灿烂芽孢杆菌(Bacillus lautus)、迟缓芽孢杆菌(Bacillus lentus)、 (Bacillus megaterium)、短小芽孢杆菌(Bacillus pumilus)、/>
Basfia的种,包括/>短芽孢杆菌属(Brevibacillus)的种,包括/> 梭菌属的种,包括/> Clostridiumcarboxidivorans、/> Clostridiumragsdalei、Clostridium saccharobutylicum、Clostridiumsaccharoperbutylacetonium、棒杆菌属(Corynebacterium)的种,包括谷氨酸棒杆菌/>脱亚硫酸菌属(Desulfitobacterium)的种,包括/>Desulfotomaculum hafniense;脱硫肠状菌属的种,包括醋酸氧化脱硫肠状菌(Desulfotomaculum acetoxidans)、Desulfotomaculum gibsoniae、还原脱硫肠状菌(Desulfotomaculum reducens)、瘤胃脱硫肠状菌(Desulfotomaculumruminis)、肠杆菌属(Enterobacter)的种,包括阿氏肠杆菌(Enterobacterasburiae);肠球菌属(Enterococcus)的种,包括/> 埃希氏菌属(Escherichia)的种,包括乳杆菌属的种,包括/> 动物乳杆菌(Lactobacillus animalis)、Lactobacillus arizonensis、/>/>
乳球菌属(Lactococcus)的种,包括/> 曼氏杆菌属(Mannheimia)的种,包括/> 类芽孢杆菌属的种,包括/> 北京类芽孢杆菌(Paenibacillusbeijingensis)、Paenibacillus borealis、Paenibacillus dauci、Paenibacillus durus、Paenibacillusgraminis、/>缓病类芽孢杆菌(Paenibacillus lentimorbus)、浸麻类芽孢杆菌(Paenibacillus macerans)、胶质类芽孢杆菌(Paenibacillus mucilaginosus)、Paenibacillus odorifer、/> 星孢类芽孢杆菌(Paenibacillus stellifer)、土地类芽孢杆菌(Paenibacillus terrae)、乌鲁木齐类芽孢杆菌(Paenibacilluswulumuqiensis);片球菌属(Pediococcus)的种,包括/> Pediococcusclaussenii、耐乙醇片球菌(Pediococcusethanolidurans)、丙酸杆菌属(Propionibacterium)的种,包括 鼠伤寒沙门氏菌(Salmonella typhimurium);芽孢乳杆菌属(Sporolactobacillus)的种,包括菊糖芽孢乳杆菌(Sporolactobacillus inulinus)、左旋乳酸芽孢乳杆菌(Sporolactobacillus laevolacticus);金黄色葡萄球菌(Staphylococcus aureus);链球菌属(Streptococcus)的种,包括/> 类马链球菌(Streptococcus equisimilis)、粪链球菌(Streptococcus feacalis)、变异链球菌(Streptococcus mutans)、口腔链球菌(Streptococcus oralis)、肺炎链球菌(Streptococcus pneumonia)、酿脓链球菌、唾液链球菌(Streptococcus salivarius)、 远缘链球菌(Streptococcus sobrinus)、乳房链球菌(Streptococcus uberis);链霉菌属(Streptomyces)的种,包括不产色链霉菌(Streptomyces achromogenes)、阿维链霉菌(Streptomyces avermitilis)、/> 灰色链霉菌(Streptomyces griseus)、/>
四联球菌属(Tetragenococcus)的种,包括 和发酵单胞菌属(Zymomonas)的种,包括/> 假单胞菌属(Pseudomonas)的种,包括/> 铜绿假单胞菌(Pseudomonasaeruginosa)、产碱假单胞菌(Pseudomonas alcaligenes)、鳗败血假单胞菌(Pseudomonasanguilliseptica)、阿根廷假单胞菌(Pseudomonas argentinensis)、Pseudomonasborbori、香茅醇假单胞菌(Pseudomonas citronellolis)、变黄假单胞菌(Pseudomonas flavescens)、门多萨假单胞菌(Pseudomonas mendocina)、硝基还原假单胞菌(Pseudomonas nitroreducens)、食油假单胞菌(Pseudomonasoleovorans)、假产碱假单胞菌(Pseudomonas pseudoalcaligenes)、食树脂假单孢菌(Pseudomonas resinovorans)、稻草假单胞菌(Pseudomonas straminea)、铁角蕨假单胞菌(Pseudomonas asplenii)、桔黄假单胞菌(Pseudomonasaurantiaca)、致黄假单胞菌(Pseudomonas aureofaciens)、绿针假单胞菌(Pseudomonas chlororaphis)、皱纹假单胞菌(Pseudomonas corrugate)、莓实假单胞菌(Pseudomonas fragi)、海雀假单胞菌(Pseudomonas lundensis)、腐臭假单胞菌(Pseudomonas taetrolens)、南极假单胞菌(Pseudomonas antarctica)、产氮假单胞菌(Pseudomonas azotoformans)、'Pseudomonas blatchfordae'、Pseudomonasbrassicacearum、布氏假单胞菌(Pseudomonas brenneri)、Pseudomonas cedrina、皱纹假单胞杆菌、荧光假单胞菌(Pseudomonasfluorescens)、Pseudomonas gessardii、黎巴嫩假单胞菌(Pseudomonaslibanensis)、Pseudomonas mandelii、边缘假单胞菌(Pseudomonasmarginalis)、地中海假单胞菌(Pseudomonas mediterranea)、Pseudomonas meridiana、Pseudomonas migulae、霉味假单胞菌(Pseudomonas mucidolens)、东方假单胞菌(Pseudomonas orientalis)、Pseudomonas panacis、Pseudomonas protegens、蛋白水解假单胞菌(Pseudomonas proteolytica)、Pseudomonas rhodesiae、类黄假单胞菌(Pseudomonas synxantha)、Pseudomonas thivervalensis、托拉氏假单胞菌(Pseudomonastolaasii)、Pseudomonas veronii、脱氮假单胞菌(Pseudomonas denitrificans)、穿孔假单胞菌(Pseudomonas pertucinogena)、Pseudomonas cremoricolorata、虫媒假单胞菌(Pseudomonas entomophila)、黄褐假单胞菌(Pseudomonas fulva)、蒙氏假单胞菌(Pseudomonas monteilii)、摩氏假单胞菌(Pseudomonas mosselii)、栖稻假单胞菌(Pseudomonasoryzihabitans)、副黄假单胞菌(Pseudomonas parafulva)、变形假单胞菌(Pseudomonas plecoglossicida)、恶臭假单胞菌、巴利阿里假单胞菌(Pseudomonasbalearica)、浅黄假单胞菌(Pseudomonas luteola)、斯氏假单胞菌(Pseudomonasstutzeri)、扁桃假单胞菌(Pseudomonas amygdali)、Pseudomonas avellanae、番木瓜假单胞菌(Pseudomonas caricapapayae)、菊苣假单胞菌(Pseudomonas cichorii)、晕斑假单胞菌(Pseudomonascoronafaciens)、天仙果假单胞菌(Pseudomonas ficuserectae)、'Pseudomonashelianthi'、苦楝假单胞菌(Pseudomonas meliae)、油橄榄假单胞菌(Pseudomonas savastanoi)、丁香假单胞菌(Pseudomonas syringae)、'番茄假单胞菌'('Pseudomonas tomato')、绿黄假单胞菌(Pseudomonas viridiflava)、Pseudomonasabietaniphila、嗜酸假单胞菌(Pseudomonas acidophila)、伞菌假单胞菌(Pseudomonasagarici)、嗜碱假单胞菌(Pseudomonas alcaliphila)、Pseudomonas alkanolytica、Pseudomonas amyloderamosa、铁角蕨假单胞菌、Pseudomonas azotifigens、Pseudomonascannabina、Pseudomonas coenobios、Pseudomonas congelans、康氏假单胞菌(Pseudomonas costantinii)、Pseudomonas cruciviae、Pseudomonas delhiensis、Pseudomonas excibis、Pseudomonas extremorientalis、Pseudomonasfrederiksbergensis、褐鞘假单胞菌(Pseudomonas fuscovaginae)、石花菜假单胞菌(Pseudomonas gelidicola)、Pseudomonas grimontii、Pseudomonas indica、杰氏假单胞菌(Pseudomonasjessenii)、晋州假单胞菌(Pseudomonas jinjuensis)、Pseudomonaskilonensis、Pseudomonas knackmussii、韩国假单胞菌(Pseudomonas koreensis)、Pseudomonas lini、Pseudomonas lutea、Pseudomonas moraviensis、耳炎假单胞菌(Pseudomonas otitidis)、海绵假单胞菌(Pseudomonas pachastrellae)、Pseudomonaspalleroniana、Pseudomonas papaveris、烂泥假单胞菌(Pseudomonas peli)、Pseudomonasperolens、草假单胞菌(Pseudomonas poae)、Pseudomonas pohangensis、Pseudomonasprotegens、Pseudomonaspsychrophila、Pseudomonas psychrotolerans、Pseudomonasrathonis、食爬虫假单胞菌(Pseudomonas reptilivora)、喜树脂假单胞菌(Pseudomonasresiniphila)、Pseudomonas rhizosphaerae、Pseudomonas rubescens、Pseudomonas salomonii、Pseudomonas segitis、败血假单胞菌(Pseudomonasseptica)、Pseudomonas simiae、Pseudomonas suis、耐热假单胞菌(Pseudomonas thermotolerans)、Pseudomonas toyotomiensis、Pseudomonastremae、平凡假单胞菌(Pseudomonastrivialis)、Pseudomonas turbinellae、Pseudomonas tuticorinensis、Pseudomonasumsongensis、温哥华假单胞菌(Pseudomonas vancouverensis)、弗村假单胞菌(Pseudomonas vranovensis)、黄色海假单胞菌(Pseudomonas xanthomarina)。优选地,嗜温细菌是恶臭假单胞菌。
在另一方面中,本文定义的本发明的方法或用途或用途可以被用于修饰酵母或真菌的基因组。在特定实施方案中,真菌物种是嗜温的,优选地真菌选自:曲霉属(Aspergillus)的种,包括,但不限于, 米曲霉(Aspergillus oryzae)和土曲霉(Aspergillus terreus),更优选地曲霉属的种是构巢曲霉或黑曲霉。可选地,嗜温真菌的种可以是念珠菌属(Candida)的种。本文定义的方法或用途可以被用于修饰酵母物种的基因组,所述酵母物种包括但不限于,酵母属(Saccharomyces)的种,包括/>裂殖酵母属(Schizosaccharomyces)的种,包括/> 毕赤酵母属(Pichia)的种,包括但不限于/> 本文定义的方法或用途可以被用于修饰真菌物种的基因组,所述真菌物种包括但不限于,汉逊酵母属(Hansenula)的种,包括/>青霉属(Penicillium)的种,包括但不限于/> 耶氏酵母属(Yarrowia)的种,包括/>
本发明还涉及使用如本文定义的方法以修饰嗜热的酵母物种或真菌物种,优选地该真菌或酵母选自:曲霉属的种,包括 土曲霉、杂色曲霉(Aspergillus versicolor);Canariomyces的种,包括Canariomyces thermophile;毛壳菌属(Chaetomium)的种,包括Chaetomium mesopotamicum、/> 念珠菌属的种,包括Candida bovina、Candida sloofii、Candidathermophila、/> (=东方伊萨酵母(Issatchenkia orientalis));尾柄孢壳菌属(Cercophora)的种,包括Cercophoracoronate、Cercophora septentrionalis;Coonemeria的种,包括Coonemeria aegyptiaca;棒囊孢壳菌属(Corynascus)的种,包括嗜热棒囊孢壳菌(Corynascus thermophiles);地霉属(Geotrichum)的种,包括白地霉(Geotrichum candidum);克鲁维酵母属(Kluyveromyces)的种,包括/> 畸枝霉属(Malbranchea)的种,包括樟绒枝霉(Malbrancheacinnamomea)、Malbranchea sulfurea;Melanocarpus的种,包括Melanocarpus albomyces;Myceliophtora的种,包括Myceliophthora fergusii、Myceliophthora thermophila;Mycothermus的种,包括Mycothermusthermophiles(=嗜热柱霉属(Scytalidiumthermophilum)/嗜热圆酵母(Torulathermophila));Myriococcum的种,包括Myriococcumthermophilum;拟青霉属(Paecilomyce)的种,包括嗜热拟青霉(Paecilomycesthermophila);Remersonia的种,包括Remersonia thermophila;根毛霉属(Rhizomucor)的种,包括/>牛根毛霉(Rhizomucor tauricus);/> 的种,包括/> 的种,包括/>柱霉属(Scytalidium)的种,包括嗜热柱霉(Scytalidium thermophilum);Sordaris的种,包括Sordaria thermophila;子囊菌属(Thermoascus)的种,包括耐热子囊菌(Thermoascus aurantiacus)、Thermoascusthermophiles;Thermomucor的种,包括Thermomucor indicae-seudaticae和嗜热丝孢菌属(Thermomyces)的种,包括Thermomyces ibadanensis、
在上文提及的列表中,以粗体标识的微生物已经被发现是特别合适的/适用于本发明的用途中。
本发明的一些优选实施方案包括一种或更多种嗜热微生物,所述嗜热微生物选自:嗜热的杆菌(bacilli),包括气芽孢杆菌属、脂环酸芽孢杆菌属、厌氧芽孢杆菌属、芽孢杆菌属、地芽孢杆菌属、类芽孢杆菌属的种;嗜热的梭菌(clostridia),包括厌氧杆菌属(Anaerobacter)、厌氧杆菌属(Anaerobacterium)、热解纤维素菌属、梭菌属(Clostridium)、穆尔氏菌属、热厌氧杆菌属(Thermoanaerobacter)、嗜热厌氧杆菌属(Thermoanaerobacterium)、栖热分枝菌属(Thermobrachium)、Thermohalobacter的种或一种或更多种嗜热的乳杆菌的种和嗜温细菌(所述嗜温细菌选自芽孢杆菌属的种、大肠杆菌、乳杆菌属的种、乳球菌属的种、丙酸杆菌属的种和假单胞菌属的种)。
附图简述
现在将参考具体实施方案并且参考附图详细地描述本发明,在附图中:
图1示出了Cas9蛋白序列的邻接树。包括基于pBLAST或PSI-BLAST与菌株T12具有高于40%的序列相似性的所有序列,以及目前良好表征的序列(酿脓链球菌(S.pyogenes)、嗜热链球菌(S.thermophiles)和内氏放线菌(A.naeslundii)),以及当这些低于40%同一性时所有目前鉴定的嗜热序列。对于所有的嗜热序列,在菌株名称之后指示出与T12的同一性百分比。在物种名称前指示出基因标识符(gi)编号。图例:实心圆形:嗜热(最佳温度为60℃以上)Cas9序列,实心方形:耐热(最佳温度<50℃)Cas9序列,空心三角形:来自嗜温来源的目前最常用于基因组编辑目的的Cas9序列;无标志:嗜温Cas9。在节点处的值代表1000个重复的自展值(bootstrap values);比例尺代表估计的氨基酸取代/位点。
图2示出了Cas9基因序列的邻接树。在基因水平的同一性非常差;使用与被用于蛋白比对的那些生物体相同的生物体的序列进行基因比对。在物种名称前指示出基因标识符(gi)编号。图例:实心圆形:嗜热(最佳温度为60℃以上)Cas9序列,实心方形:耐热(最佳温度<50℃)Cas9序列,空心三角形:来自嗜温来源的目前最常用于基因组编辑目的的Cas9序列;无标志:嗜温Cas9。在节点处的值代表1000个重复的自展值。
图3示出了gtCas9(SEQ ID NO:1)(II-C型)与良好表征的II-C型(内氏放线菌/‘ana’;SEQ ID NO:8)和II-A型(酿脓链球菌/‘pyo’;SEQ ID NO:9和嗜热链球菌)Cas9序列的蛋白序列比对。重要的活性位点残基非常保守,并且用黑色箭头指示出。如对于Ana-Cas9和Pyo-Cas9描述的蛋白结构域(Jinek等人,2014,Science 343:1247997)用阴影框和类似地着色的字母指示出。已经确定了对于酿脓链球菌II-A型系统的PAM识别结构域,但对于任何II-C型系统未确定PAM识别结构域,并且因此仅在酿脓链球菌序列中指示出PAM识别结构域。
图4示出了内氏放线菌Cas9(Cas9-Ana)的蛋白结构(Jinek等人,2014)。gtCas9属于相同的II-C型CRISPR系统并且可以鉴定活性位点残基。
图5示出了crRNA指导的互补dsDNA的靶向的比较。碱基配对用虚线指示出。RNA以黑色描绘,DNA以灰色描绘。在crRNA间隔区和靶前间区之间的碱基配对用加粗的黑色虚线指示出,在DNA链之间和在RNA链之间的碱基配对用加粗的灰色虚线指示出。指示出crRNA的5’末端。应注意,I型中的PAM(小白色框)位于靶链(前间区)的下游,而在II型中它则位于置换链上的另一端处。同样地,种子(与靶DNA链开始碱基配对处的指导的预测序列,并且在此处不允许错配)位于PAM附近,并且因此在I型和II型中不同(Van der Oost,2014,同上)。上图示出了大肠杆菌的I型Cascade系统的示意图。crRNA具有内部间隔区(灰色框,允许靶识别的31-32nt),侧翼为8nt 5’手柄和由茎环结构(发夹)组成的29nt 3’手柄(Jore2011同上)。下图示出了酿脓链球菌的II型Cas9系统的示意图。crRNA与tracrRNA碱基配对,允许通过RNA酶III(相对的黑色三角形)处理。另外地,crRNA的5’末端被RNA酶(黑色三角形)修剪(trimmed),通常地产生20nt间隔区。应注意,合成的环可以被引入以连接crRNA和tracrRNA,产生单指导RNA(sgRNA)(Jinek等人,2012同上)。
图6示出了热脱氮地芽孢杆菌T12 IIc型CRISPR系统的序列的比对。
图7示出了获得的六个单击中(hit),以提供对于gtCas9的计算机模拟PAM预测。
图8示出了组合图7中例示的比对的结果的weblogo。使用weblogo.berkeley.edu生成该weblogo。
图9示出了在60℃用纯化的gtCas9靶向质粒的体外裂解测定的结果。质粒包括PAM序列的特定8个核苷酸长的序列变体。
图10示出了使用具有CCCCCCAA[SEQ ID NO:11]PAM序列的靶向质粒研究gtCas9浓度的作用的体外测定的结果。
图11示出了在一定范围的温度使用靶向质粒的体外测定的结果,该靶向质粒具有CCCCCCAA[SEQ ID NO:11]PAM序列。
图12示出了使用gtCas9和8nt PAM序列对史氏芽孢杆菌ET138细胞进行体内基因组编辑的结果,即筛选平板上的史氏芽孢杆菌ET138细胞的菌落的生长或不存在,如在实施例9中解释的。在图12中用箭头指示出菌落。
图13示出了对于其中缺失pyrF基因的菌落的PCR筛选的结果。用构建体3(阴性对照)转化史氏芽孢杆菌ET138细胞后生成菌落。筛选了15个菌落,但没有一个显示出缺失基因型-2.1kb条带大小,而是全部显示出野生型-2.9kb条带大小,如在实施例9中所解释的。
图14示出了其中缺失pyrF基因的菌落的PCR筛选的结果。用构建体1(PAM序列ATCCCCAA[SEQ ID NO:21])转化史氏芽孢杆菌ET138细胞后生成菌落。筛选了20个菌落,并且一个菌落显示出缺失基因型-2.1kb条带大小,而剩余的菌落显示出野生型-2.9kb条带大小和缺失基因型-2.1kb条带大小二者,如在实施例9中解释的。没有观察到仅野生型的基因型。
图15示出了热脱氮地芽孢杆菌T12 IIC型CRISPR-Cas基因座编码热稳定的Cas9同源物,即ThermoCas9。
(A)编码ThermoCas9的基因组基因座的示意图。基于序列比较的ThermoCas9的结构域结构,以红色突出显示预测的活性位点残基。显示出使用Phyre 2(Kelley等人Nat.Protoc.10,845-858(2015))生成的ThermoCas9的同源性模型,对于不同的结构域用不同的颜色。
(B)与ThermoCas9高度同一的Cas9同源物的系统发育树。在MEGA7(Kumar等人Mol.Biol.Evol.33,1870-1874(2016))中进行演化分析。
(C)在通过金属亲和层析(metal-affinity chromatography)和凝胶过滤纯化后的ThermoCas9的SDS-PAGE。获得的单个条带的迁移与apo-ThermoCas9的理论分子量126kD一致。
图16示出了ThermoCas9 PAM分析。
(A)例示了用于发现前间区相邻基序(PAM)的位置和身份(5’-NNNNNNN-3’)的体外裂解测定的示意图。黑色三角形指示出裂解位置。
(B)通过靶文库的基于ThermoCas9的裂解的比较分析获得的,ThermoCas9的共有的7nt长PAM的序列标志。在每个位置处的字母高度通过信息内容来测量。
(C)通过体外裂解测定将PAM身份延伸至第8个位置。四个线性化的质粒靶(每个靶包含不同的5’-CCCCCCAN-3’PAM)与ThermoCas9和sgRNA在55℃孵育持续1小时,然后通过琼脂糖凝胶电泳分析。
(D)在30℃和55℃,用不同的PAM对DNA靶进行体外裂解测定。16个线性化的质粒靶(每个靶包含一个不同的5’-CCCCCNNA-3’[SEQ ID NO:13]PAM),与ThermoCas9和sgRNA一起孵育,然后通过琼脂糖凝胶电泳分析裂解效率。也参见图21。
图17示出了ThermoCas9在宽的温度范围是有活性的,并且当与sgRNA结合时,它的热稳定性增加。
(A)sgRNA和匹配靶DNA的示意图。以具有黑色轮廓的矩形显示出靶DNA,并且以具有黑色轮廓的深灰色水平椭圆显示出PAM。以具有黑色轮廓的深灰色矩形显示出crRNA,并且以黑色垂直椭圆显示出其中crRNA的3’末端与tracrRNA的5’末端连接的位点。具有白色字母的黑色方框和具有黑色字母的浅灰色方框分别地指示出在tracrRNA的3’侧处的预测的三个和两个环。以长的浅灰色垂直虚线指示出重复/反向重复区域的41-nt截短,该截短由crRNA的互补的3’末端和tracrRNA的5’末端形成。以黑色三角形和黑色虚线标记第一个tracrRNA环的预测的3’位置。以白色三角形和黑色虚线标记第二个tracrRNA环的预测的3’位置。以白色三角形和白色虚线标记第三个tracrRNA环的预测的3’位置。
(B)通过转录sgRNA的截短的变体并且评价它们在不同温度指导ThermoCas9裂解靶DNA的能力,测试了tracrRNA支架的预测的三个茎环的重要性。示出了至少两个生物学重复的平均值,误差棒代表S.D.。
(C)为了鉴定最高温度,在60℃、65℃和70℃孵育持续5min或10min后,测定了ThermoCas9:sgRNA RNP复合体的核酸内切酶活性。添加预加热的DNA底物,并且在对应的温度将反应孵育持续1小时。
(D)通过在指示的温度孵育5min后进行的活性测定,比较ThermoCas9和SpCas9的活性温度范围。添加预加热的DNA底物,并且将反应在相同的温度孵育持续1小时。
图18示出了在嗜热菌中的基于ThermoCas9的基因组工程。
(A)基本的pThermoCas9_Δ感兴趣基因(goi)构建体的示意图。引入thermocas9基因至pNW33n(史氏芽孢杆菌)或pEMG(恶臭假单胞菌)载体。在thermocas9上游将同源重组侧翼区引入,并且同源重组侧翼区包括靶向的基因组中的感兴趣的基因(goi)的1kb(史氏芽孢杆菌)或0.5kb(恶臭假单胞菌)上游区域和1kb或0.5kb下游区域。在thermocas9基因下游引入表达sgRNA的模块。因为复制的起点(ori)、复制蛋白(rep)、抗生素抗性标志物(AB)和可能的辅助元件(AE)是骨架特异性的,以虚线轮廓代表它们。
(B)显示来自对10个菌落的基因组特异性PCR的所得产物的琼脂糖凝胶电泳,所述10个菌落来自从史氏芽孢杆菌ET 138的基因组的基于ThermoCas9的pyrF缺失过程。所有10个菌落包含ΔpyrF基因型,并且一个菌落是完全(clean)的ΔpyrF突变体,缺乏野生型产物。
(C)基本的pThermoCas9i_goi构建体的示意图。为了催化上失活的ThermoCas9(Thermo-dCas9:D8A、H582A突变体)的表达,将对应的突变引入以创建thermo-dcas9基因。将thermo-dcas9基因引入至pNW33n载体。在thermo-dcas9下游将表达sgRNA的模块引入。
(D)来自使用Thermo-dCas9的ldhL沉默实验的产生、生长和RT-qPCR结果的图示。该图代表与对照培养物相比,抑制的培养物中的乳酸盐的产生、在600nm处的光密度和ldhL转录的百分比。示出了来自至少两个生物学重复的平均值,误差棒代表S.D.。
图19示出了II-A型、II-B型和II-C型Cas9直系同源物的多序列比对。使用MEGA7 2中的ClustalW1以默认设置比对酿脓链球菌(Sp)、嗜热链球菌(St)、产琥珀酸沃林氏菌(Wolinella succinogenes)(Ws)、脑膜炎奈瑟氏菌(Neisseria meningitides)(Nm)、内氏放线菌(Actinomyces naeslundii)(An)和热脱氮地芽孢杆菌(Thermo)的Cas9蛋白序列;使用ESPript3生成可视化图。以灰色背景上的白色文字显示出严格保守的残基;以具有黑色轮廓的白色垂直矩形中的黑色文字显示出类似的残基。角锥形指示出所有序列中的两个保守的核酸酶结构域。水平黑色箭头和卷曲分别地指示出在SpCas9二级结构(蛋白数据库nr4CMP4)中的β-链和α-螺旋。使用与图15A中相同的颜色方案,指示出SpCas9和ThermoCas9的结构域。
图20示出了计算机模拟PAM确定结果。图(A)示出了使用CRISPRtarget6获得的噬菌体基因组的两个击中。图(B)示出了通过计算机模拟PAM分析获得的ThermoCas9的共有的7nt长PAM的序列标志。在每个位置处的字母高度通过信息内容来测量。
图21示出了ThermoCas9 PAM发现。在20℃、37℃、45℃和60℃对于具有不同的PAM的DNA靶的体外裂解试验。7个(20℃)或16个(37℃、45℃、60℃)线性化的质粒靶,每个质粒靶包含不同的5’-CCCCCNNA-3’[SEQ ID NO:13]PAM,与ThermoCas9和sgRNA一起孵育,然后通过琼脂糖凝胶电泳分析。
图22示出了在宽的温度范围使用包含一个环的sgRNA,ThermoCas9的活性。通过转录sgRNA的截短的变体并且评价它们在不同温度指导ThermoCas9裂解靶DNA的能力,测试了tracrRNA支架的预测的三个茎环的重要性。以上显示出一个环对ThermoCas9在不同温度的活性的作用。示出了来自至少两个生物学重复的平均值,误差棒代表S.D.。
图23示出了使用二价阳离子作为催化剂,ThermoCas9介导dsDNA靶向,并且不裂解ssDNA。图(A)示出了通过ThermoCas9与EDTA和多种金属离子的体外质粒DNA裂解。M=1kbDNA梯状条带。图(B)示出了ThermoCas9对ssDNA底物的活性。M=10bp DNA梯状条带。
图24示出了对于ldhL沉默实验的间隔区选择。在ldhL沉默过程期间间隔区(sgRNA)-前间区退火的示意图;所选择的前间区位于非模板链和ldhL基因的起始密码子下游的39nt。
图25示出了质粒pThermoCas9_ppΔpyrF的图谱,该pThermoCas9_ppΔpyrF由pEMG骨架、恶臭假单胞菌pyrF侧翼区域和thermocas9基因和恶臭假单胞菌pyrF靶向sgRNA组成。
图26示出了毛细管凝胶电泳的结果,该结果显示出来自对获得的菌落基因组特异性PCR的所得的产物,所述获得的菌落来自从恶臭假单胞菌的基因组的基于ThermoCas9的pyrF缺失过程。1854bp条带和1112bp条带分别地对应于pyrF和ΔpyrF基因型。
下文是根据本发明使用的Cas蛋白的多核苷酸和氨基酸序列。
[SEQ ID NO:1]热脱氮地芽孢杆菌T12 Cas9蛋白AA序列
[SEQ ID NO:7]热脱氮地芽孢杆菌T12 Cas9 DNA序列
/>
详细描述
实施例1:热脱氮地芽孢杆菌的分离
在搜索能够在厌氧条件下降解木质纤维素基质的嗜热菌的±500个分离株的文库期间出乎意料地发现了热脱氮地芽孢杆菌。首先建立了±500个分离株的文库,在通过在纤维素和木聚糖上的分离进行几轮选择后,文库被缩小至110个分离株。该110个分离株的文库仅由地芽孢杆菌属分离株组成,其中热脱氮地芽孢杆菌代表了文库的79%。
分离的热脱氮地芽孢杆菌菌株已经被命名为“T12”。来自热脱氮地芽孢杆菌T12的Cas9蛋白已经被命名为“gtCas9”。
实施例2:定义热脱氮地芽孢杆菌中的Cas9的基本共有序列
进行以下数据库搜索和比对:
在内部BLAST服务器上进行pBLAST和nBLAST,其中使用热脱氮地芽孢杆菌T12的蛋白或基因序列作为查询序列。该数据库最近一次更新为2014年5月,并且因此不包含最近添加的地芽孢杆菌属基因组,但没有使用通常的在线BLAST以防止T12序列的公开。在BLAST搜索中发现的大于40%的序列同一性被包括在图1中。
为了包括更近期的序列数据,在NCBI网站上使用地芽孢杆菌属MAS1的序列(与gtCas9最密切地相关)进行PSI-BLAST(Johnson等人,2008Nucleic Acids Res.36(网络服务器期号):W5-9)。进行连续两轮的PSI-BLAST,其中仅使用满足以下标准的序列用于下一轮:在第一轮中的最小序列覆盖率为96%,并且在第二轮和第三轮中的最小序列覆盖率为97%,最小同一性为40%,每个物种仅一个菌株。
将从PSI-BLAST所得的序列以及在PSI-BLAST中未出现的、来自内部服务器pBLAST的与T12具有多于40%同一性的序列与目前良好表征的嗜温序列和所有目前鉴定的嗜热序列一起比对,此外如果这些序列更加疏远地相关,则从其构建邻接树(参见图1)。在Mega6中使用ClustalW进行比对,之后使用邻接方法构建树,并且使用1000个重复进行自展分析。
当使用地芽孢杆菌属的种MAS1作为查询序列进行BLASTn时,仅地芽孢杆菌属的种JF8 Cas9被鉴定出具有88%同一性,指示出在基因水平的同源性非常小。图2是Clustal-比对的Cas9基因序列的邻接树。
通过使用具有默认设置的BLOSUM62在CloneManager中比对热脱氮地芽孢杆菌T12、内氏放线菌和酿脓链球菌的蛋白序列来进一步分析它们的蛋白结构域同源性(参见图3)。
实施例3:鉴定对于CAS9的功能至关重要的核心氨基酸基序和赋予嗜热Cas9核酸 酶的热稳定性的那些核心氨基酸基序
在图1中提供了以上描述的比对的蛋白序列的同一性百分比。gtCas9属于II-C型。研究最充分并且最近结晶的结构的II-C系统来自内氏放线菌(Jinek等人,2014,Science343:1247997)。该蛋白序列显示出与gtCas9仅20%同一性,但可以被用于估计高度保守的残基。在分析中还包括了两个良好表征的II-A型系统(酿脓链球菌和嗜热链球菌)(Jinek等人,2014,Science 343:1247997;Nishimasu等人,2014,Cell 156:935-949)。在图3中示出了这四个蛋白序列的比对;图4示出了如对于内氏放线菌(‘Ana-Cas9’)确定的蛋白结构(Jinek等人,2014,Science 343:1247997)。来自t12的Cas9(gtCas9)和来自内氏放线菌的Cas9的长度是高度类似的(内氏放线菌为101aa,gtCas9为1082aa),并且预期gtCas9具有类似的蛋白结构,但这仍待确定,因为与cas9-Ana的总体序列同一性仅为20%。由Jinek等人(Jinek等人,2014,Science 343:1247997)描述的在来自内氏放线菌和酿脓链球菌的Cas9中的所有活性位点残基可以在gtCas9中被鉴定出(参见图3)。已经确定了对于酿脓链球菌II-A型系统的PAM结合结构域,但对于任何II-C型系统未确定PAM结合结构域,并且因此仅在酿脓链球菌序列中指示出PAM结合结构域。此外,PAM识别位点不仅在CRISPR系统之间而且在包含相同的系统的物种之间变化很大。
实施例4:热脱氮地芽孢杆菌gtCas9的PAM序列的确定
已经建立了原核CRISPR系统作为适应性免疫系统为其宿主服务(Jinek等人,2012,Science 337:816-821),并且可以被用于快速和有效的遗传工程(Mali等人,2013,Nat Methods 10:957-963.)。
Cas9蛋白作为用于II型CRISPR系统的序列特异性核酸酶发挥功能(Makarova等人,2011,Nat Rev Micro 9:467-477)。由与重复区域连接的“间隔区”(靶)组成的小crRNA分子是CRISPR基因座的转录和加工产物。“间隔区”天然起源于噬菌体的基因组和移动遗传元件,但它们也可以被设计为在遗传工程过程期间靶向特定核苷酸序列(Bikard等人,2013,Nucleic Acids Research 41:7429-7437)。Cas9使用crRNA分子作为用于鉴定其DNA靶的指导。间隔区区域与靶向的用于裂解的DNA区域,“前间区”相同(Brouns等人,2012,Science 337:808-809)。由Cas9对靶的识别需要紧邻前间区的PAM(前间区相邻基序)(Jinek等人,2012,Science 337:816-821)。
为了对II型系统进行体外或体内PAM确定研究,有必要进行计算机模拟预测该系统的CRISPR阵列,即表达tracrRNA的模块。使用CRISPR阵列用于crRNA模块的鉴定。表达tracrRNA的序列位于Cas9侧翼的500bp的窗口中,或在Cas基因和CRISPR基因座之间(Chylinski,K.,等人(2014)Classification and evolution of type IICRISPR-Cassystems.Nucleic Acids Res.42,6091-6105)。tracrRNA应该由与CRISPR阵列的直接重复具有高水平的互补性的5’-序列、随后是不少于两个茎环结构的预测的结构和Rho非依赖性转录终止信号组成(Ran,F.A.,等人(2015)In vivo genome editing usingStaphylococcus aureus Cas9.Nature 520,186-191)。然后,crRNA和tracrRNA分子可以被用于设计嵌合sgRNA模块。sgRNA的5’-末端由截短的20nt长间隔区组成,随后是CRISPR阵列的16-20nt长的截短的重复。该重复之后是对应的截短的反向重复和tracrRNA模块的茎环。sgRNA的重复部分和反向重复部分通常地由GAAA接头连接(Karvelis,T.,等人(2015)Rapidcharacterization of CRISPR-Cas9 protospacer adjacent motif sequenceelements.Genome Biol.16,253)。
使用T12染色体的反义链来转录热脱氮地芽孢杆菌T12 IIc型CRISPR系统的cas基因(cas9之后是cas1和cas2基因)。cas2基因之后是100bp长的DNA片段,该DNA片段在转录后形成具有多个环的RNA结构。该结构显然地充当转录终止子。
具有11个重复和10个间隔区序列的CRISPR阵列位于转录终止序列的上游,并且阵列的前导区位于阵列的5’末端处。转录为tracrRNA的DNA基因座预期是在cas9基因的下游。cas9基因的直接下游的325bp长的序列与来自CRISPR阵列的36bp长的重复的比对揭示,在tracrRNA基因座中存在36bp长的序列,其几乎与该重复相同(如在图6中示出的)。该结果使我们得出结论,tracrRNA基因座的转录方向应该与CRISPR阵列的转录方向相反。因此,tracrRNA的5’末端将与crRNA的3’末端互补,引起形成Cas9所需要的双RNA分子的形成。
实施例5:用随机化的PAM的靶生成
使用热脱氮地芽孢杆菌T12基因组DNA作为模板通过PCR扩增来自热脱氮地芽孢杆菌T12菌株的CRISPR II基因座的两个不同的间隔区。使用两对简并引物用于每一个间隔区的扩增:
首先,使用引起在“前间区”片段的上游引入六个随机核苷酸的一对,导致产生具有随机化的PAM序列的前间区的池。
其次,使用引起在“前间区”片段的下游引入六个随机核苷酸的一对,导致产生具有随机化的PAM序列的前间区的池。
将产生的片段连接至pNW33n载体,产生“前间区”构建体的4个池,每一个池具有6个核苷酸长的PAM的所有可能的4096种不同的组合。使用组装的DNA用于转化热脱氮地芽孢杆菌T12细胞。将细胞铺板在氯霉素选择培养基上,并且将汇集来自每一个前间区池的多于2×106个细胞。从池提取质粒DNA,对靶区域进行PCR扩增,并且将产物送出用于深度测序。具有最少读段的PAM将被认为是有活性的,并且将仅用包含具有这些PAM的间隔区的pNW33n构建体重复该过程。热脱氮地芽孢杆菌T12的降低的转化效率将证实PAM的活性。
实施例6:对于gtCas9的PAM序列的体外确定
pRham:cas9gt载体的构建
使用BG6927和BG6928引物,从热脱氮地芽孢杆菌T12基因组PCR扩增cas9gt基因,并且将其与pRham C-His Kan载体(Lucigen)组合在一种混合物中。根据所提供的方案,使用该混合物用于转化E.cloni热感受态细胞。将来自转化混合物的100μl混合物铺板在LB+50卡那霉素平板上,用于在37℃过夜生长。从形成的E.cloni::pRham:cas9gt单菌落中随机地选择3个单菌落并且接种在包含50μg/ml卡那霉素的10ml LB培养基中。通过添加无菌甘油至来自每种培养物的1ml培养物直到最终浓度为20%(v/v),从培养物制备甘油贮存物(glycerol stock)。在-80℃储存甘油贮存物。根据“GeneJET Plasmid Miniprep Kit”(Thermoscientific)方案,将来自每种培养物的剩余的9ml培养物用于质粒分离。将质粒送出用于cas9gt的序列验证,并且一个质粒被验证包含具有正确序列的基因。对应的培养物被进一步用于gtCas9的异源表达和纯化。
gtCas9在E.cloni::pRham:cas9gt载体中的异源表达
E.cloni::pRham:cas9gt预培养物用对应的甘油贮存物接种10ml LB+50卡那霉素后来制备。在37℃和180rpm过夜生长后,使用来自预培养物的2ml预培养物接种200ml的LB+50卡那霉素培养基。将E.cloni::pRham:cas9gt培养物在37℃、180rpm培养,直至OD600为0.7。然后,通过添加L-鼠李糖至0.2%w/v的最终浓度来诱导gtCas9表达。允许表达进行持续8h,之后以4700rpm、4℃离心培养物持续10分钟以收获细胞。弃去培养基,并且将沉淀的细胞储存在-20℃或根据以下方案用于无细胞提取物(CFE)的制备:
1.将沉淀物重悬浮在20ml声处理缓冲液(20mM磷酸钠缓冲液(pH=7.5)、100mMNaCl、5mM MgCl2、5%(v/v)甘油、1mM DTT)中
2.通过声处理破碎1ml的细胞(8个30秒的脉冲,在脉冲之间在冰上冷却持续20秒)
3.以35000g、4℃离心持续15分钟,以使不可溶的部分沉淀
4.取出上清液并且将其储存在4℃或冰上
对于gtCas9的PAM文库靶向sgRNA模块的设计和构建
在进行计算机模拟确定在热脱氮地芽孢杆菌T12菌株的基因组中的表达tracrRNA的DNA模块后(见以上实施例4),设计了表达单指导(sg)RNA的DNA模块,所述DNA模块将CRISPR/Cas9系统的crRNA模块和tracrRNA模块组合在单个分子中。在sgRNA的5’末端处的间隔区被设计为与质粒文库的前间区互补,并且该模块被设置在T7启动子的转录控制下。pT7_sgRNADNA模块由Baseclear合成,并且被接纳在pUC57载体中,形成pUC57:pT7_sgRNA载体。用载体转化DH5α感受态大肠杆菌细胞(NEB),并且将转化混合物铺板在包含100μg/ml氨苄青霉素的LB琼脂平板上。将平板在37℃孵育过夜。将三个形成的单菌落接种在包含100μg/ml氨苄青霉素的10ml LB培养基中。通过添加无菌甘油至来自每种培养物的1ml培养物直到最终浓度为20%(v/v),从培养物制备甘油贮存物。在-80℃储存甘油贮存物。根据“GeneJET Plasmid Miniprep Kit”(Thermoscientific)方案,将来自每种培养物的剩余的9ml培养物用于质粒分离。分离的质粒用作用于扩增pT7_sgRNA模块的PCR模板。使用引物BG6574和BG6575获得218bp长的pT7_sgRNADNA模块(其中前18bp对应于pT7)。将完整的PCR混合物在1.5%琼脂糖凝胶上运行。根据“ZymocleanTMGel DNA Recovery Kit”方案,切除和纯化具有期望尺寸的条带。
使用“HiScribeTMT7 High Yield RNA Synthesis Kit”(NEB)进行体外转录(IVT)。使用纯化的pT7_sgRNA DNA模块作为模板。将IVT混合物与等体积的RNA加样染料(NEB)混合,并且在70℃加热持续15分钟以破坏二级结构。将热处理的IVT混合物在变性尿素-PAGE上运行,并将所得聚丙烯酰胺凝胶在包含10μl的SYBR Gold(Invitrogen)的100ml 0.5×TBE缓冲液中洗涤(embaptised)持续10分钟,用于染色目的。切下在期望尺寸(200nt)处的条带,并且根据以下RNA纯化方案纯化sgRNA:
1.用解剖刀切割RNA凝胶片段,并且添加1ml的RNA洗脱缓冲液,置于室温过夜。
2.将330μl等分试样分到新的1.5ml管中。
3.添加3倍体积(990μl)的预冷(-20℃)100%EtOH。
4.在-20℃孵育持续60分钟。
5.在室温,在微量离心机中以13000rpm离心持续20分钟。
6.去除EtOH,用1ml 70%EtOH洗涤沉淀物。
7.在室温,在微量离心机中以13000rpm离心持续5分钟。
8.去除990μl的上清液。
9.将剩余EtOH在55℃在热混合器中蒸发持续15分钟至20分钟。
10.将沉淀物重悬浮在20μl MQ中,储存在-20℃。
7nt长的PAM文库的设计与构建、和文库的线性化
PAM文库的设计和构建基于pNW33n载体。将20bp长的前间区引入至载体,其3’侧侧翼为7个简并核苷酸长的序列;简并序列用作PAM,并且当前间区的侧翼为正确的PAM时,那么它就可以被装载sgRNA的Cas9识别为靶并且被裂解。根据以下方案制备PAM文库:
1.通过使单链DNA寡聚物1(BG6494)和2(BG6495)退火来制备SpPAM双链DNA插入物
I.10μl 10×NEBuffer 2.1
II.1μl 50μM寡聚物1(~1.125μg)
III.1μl 50μM寡聚物2(~1.125μg)
IV.85μl MQ
V.将混合物在94℃孵育持续5min,并且以0.03℃/秒的速率冷却至37℃
2.添加1μl Klenow 3’->5’exo-聚合酶(NEB)至每个退火的寡聚物混合物并且然后添加2.5μl的10μM dNTP。在37℃孵育持续1h,并且然后在75℃孵育持续20min。
3.添加2μl的HF-BamHI和2μl的BspHI限制性酶至46μl的退火混合物。在37℃孵育持续1h。该过程将导致SpPAMbb插入物具有粘性末端。使用Zymo DNA清洗和浓缩试剂盒(Zymo Research)清洗创建的插入物。
4.用HF-BamHI和BspHI(NEB)消化pNW33n,并且使用Zymo DNA清洗和浓缩试剂盒(Zymo Research)纯化具有粘性末端的3,400bp长的线性pNW33nbb片段。
5.根据所提供的方案,使用NEB T4连接酶将50ng的pNW33nBB与11ng的SPPAMbb插入物进行连接。使用Zymo DNA清洗和浓缩试剂盒(Zymo Research)纯化连接混合物。
6.转化DH10b电感受态细胞(200μl细胞,用500ng的DNA)。在SOC培养基(在800μlSOC中200μl细胞)中回收细胞持续1小时,并且然后用回收的细胞接种50ml的LB+12.5μg/ml氯霉素。在37℃和180rpm,孵育培养物过夜。
7.使用JetStar 2.0maxiprep试剂盒(GENOMED)从培养物分离质粒DNA。
8.根据所提供的方案,使用SapI(NEB)限制性处理用于使分离的质粒线性化。
PAM确定反应的设计和执行
设置以下裂解反应,用于将gtCas9诱导引入的dsDNA断裂引入至PAM文库成员,所述PAM文库成员包含在靶向的前间区的3’末端下游的正确PAM:
1.每反应2.5μg的E.cloni::pRham:cas9gt CFE
2.sgRNA至30nM最终浓度
3.每反应200ng的线性化的PAM文库
4.2μl的裂解缓冲液(100mM磷酸钠缓冲液(pH=7.5)、500mM NaCl、25mM MgCl2、25%(v/v)甘油、5mM DTT)
5.MQ水,直到20μl最终体积
反应在60℃孵育持续1h,并且在加入4μl的6×凝胶加样染料(NEB)后终止。然后将反应混合物加样至1%琼脂糖凝胶。凝胶在100V经历1h和15min长的电泳,并且然后在包含10μl的SYBR Gold染料(ThermoFisher)的100ml 0.5×TAE缓冲液中孵育持续30min。根据所提供的方案,在用蓝光使DNA条带可视化后,从凝胶上切下与成功地裂解的和包含PAM的DNA片段对应的条带,并且使用“ZymocleanTMGel DNA Recovery Kit”进行凝胶纯化。
对包含PAM的gtCas9裂解的DNA片段加标签用于测序
Cas9诱导的DNA断裂通常被引入在前间区的第3个和第4个核苷酸之间,靠近PAM序列。因此,不可能设计可以PCR扩增裂解的DNA片段的包含PAM的部分的一对引物,以进一步测序和确定PAM序列。为了该目标,使用了5步的过程:
第1步:用Taq聚合酶接A尾(A-Tailing)
接A尾是使用Taq聚合酶将非模板的腺嘌呤添加至双链DNA分子的平的3’末端的过程
反应组分:
·gtCas9-裂解的和包含PAM的DNA片段-200ng
·10×缓冲液(NEB)-5μl
·1mM dATP-10μl
·Taq DNA聚合酶(NEB)-0.2μl
·H2O-直到50μl最终反应体积
·孵育时间-20min
·孵育温度-72℃
第2步:测序衔接子的构建
将两个互补的短ssDNA寡核苷酸磷酸化和退火,以形成用于来自第1步的DNA片段的PAM近端位点的测序衔接子。其中一种寡核苷酸在其3’末端处具有另外的胸腺嘧啶,以促进将衔接子连接至接A尾的片段。
衔接子寡核苷酸磷酸化(对于每个寡聚物,单独的磷酸化反应)
·100μM寡核苷酸原液(stock)-2μL
·10×T4 DNA连接酶缓冲液(NEB)-2μL
·无菌MQ水-15μL
·T4多核苷酸激酶(NEB)-1μL
·孵育时间-60min
·孵育温度-37℃
·T4 PNK失活-65℃持续20min
磷酸化的寡核苷酸的退火
·寡核苷酸1-来自对应的磷酸化混合物的5μL混合物
·寡核苷酸1-来自对应的磷酸化混合物的5μL混合物
·无菌MQ水-90μL
·将磷酸化的寡聚物在95℃孵育持续3分钟。在室温,缓慢地冷却反应持续~30min至1hr
第3步:gtCas9裂解的接A尾的片段与测序衔接子的连接
根据以下方案,使第1步和第2步的产物进行连接:
·10×T4 DNA连接酶缓冲液-2μL
·第1步的产物-50ng
·第2步的产物-4ng
·T4 DNA连接酶-1μl
·无菌MQ水-至20μl
·孵育时间-10min
·孵育温度-20-25℃
·在65℃加热失活持续10min
第4步:150个核苷酸长的包含PAM片段的PCR扩增
使用来自第4步的连接混合物的5μl混合物作为用于使用Q5 DNA聚合酶(NEB)的PCR扩增的模板。具有来自第2步的胸腺嘧啶延伸的寡核苷酸被用作正向引物,并且反向引物被设计为在PAM序列下游的150个核苷酸处退火。
使用非gtCas9处理的PAM文库DNA作为模板来扩增相同的序列。两种PCR产物被凝胶纯化,并且送出用于Illumina HiSeq 2500配对末端测序(paired-end sequencing)(Baseclear)。
测序结果的分析和候选PAM序列的确定
在分析测序结果后,构建了以下频率矩阵。这些矩阵描绘了在gtCas9消化的和非消化的文库的每个PAM位置处的每个核苷酸的相对丰度:
这些结果指示对于在第5个PAM位置具有胞嘧啶的靶的明显的偏好和对于在前4个PAM位置具有胞嘧啶的靶的偏好。
实施例7:对于gtCas9的计算机模拟PAM预测
如果在基因组数据库中足够的前间区序列是可得的,PAM的计算机模拟预测是可能的。gtCas9 PAM的计算机模拟预测以以下开始:通过与在基因组数据库诸如GenBank中的序列比较,鉴定来自CRISPR阵列的间隔区在热脱氮地芽孢杆菌T12菌株的基因组中的击中。使用“CRISPR查找器”(http://crispr.u-psud.fr/Server/)工具以鉴定在T12中的候选CRISPR基因座。然后,将鉴定的CRISPR基因座输出加载到“CRISPR靶”(http:// bioanalysis.otago.ac.nz/CRISPRTarget/crispr_analysis.html)工具中,该工具搜索选定的数据库并且提供具有匹配前间区的输出。然后,筛选这些前间区序列以确定独特的击中和与间隔区的互补性—例如,在种子序列中的错配被认为可能是假阳性击中并且被排除在进一步分析之外。与前噬菌体序列和(整合的)质粒具有同一性的击中证明了获得的击中是真阳性。总的来说,该过程产生了6个单击中(图7)。随后,使用WebLogo(http:// weblogo.berkeley.edu/logo.cgi)(Crooks_GE、Hon_G、Chandonia_JM、Brenner_SEWebLogo:A sequence logo generator,Genome Research,14:1188-1190,(2004))工具(图8),对剩余的独特前间区击中的侧翼区域(对于II型gtCas核酸酶的3’)进行比对和比较以确定共有序列。
计算机模拟结果与体外PAM鉴定实验结果(参见实施例6)相当,其中存在PAM序列的第5个残基的身份偏向为胞嘧啶。
实施例8:对于gtCas9的8个核苷酸长的PAM序列的确定
来自实施例8的计算机模拟数据表明gtCas9在第8个位置处具有对于腺苷的某种偏好,因此进行了进一步的PAM确定实验,其中还测试了PAM序列的第8个位置。这与嗜温侧孢短芽孢杆菌SSP360D4(Karvelis等人,2015年)Cas9 PAM序列的表征是一致的,发现嗜温侧孢短芽孢杆菌SSP360D4 Cas9 PAM序列在前间区的3’末端处的第5个和第8个位置之间延伸。
用gtCas9试验了PAM的特定8个核苷酸长的序列变体:
1)CNCCCCAC[SEQ ID NO:17]、
2)CCCCCCAG[SEQ ID NO:18]、
3)CCCCCCAA[SEQ ID NO:11]、
4)CCCCCCAT[SEQ ID NO:19]、
5)CCCCCCAC[SEQ ID NO:20]、
6)NNNNTNNC(阴性对照PAM)。
在60℃进行体外裂解测定后,如之前一样地(参见实施例6)用纯化的gtCas9和相同的sgRNA靶向这些(非线性化的)质粒,当CCCCCCAA[SEQ ID NO:11]序列被用作PAM时,观察到增加的gtCas9裂解活性(图9)。然而,对于所有测试的PAM序列,裂解活性明确地是可检测的,即使对于阴性对照PAM序列,观察到微弱的裂解条带。不希望受限于特定的理论,可能的是,高gtCas9浓度的使用促成通过阴性对照观察到的裂解。通常地已经观察到,在体外测定中高Cas9浓度导致Cas9诱导的DNA裂解,而无严格的PAM需求。
通常地,已知Cas9浓度会影响Cas9诱导的DNA裂解的效率(Cas9浓度越高,引起越高的Cas9活性)。这也是当使用具有CCCCCCAA[SEQ ID NO:11]PAM序列的靶向的质粒和不同的gtCas9浓度进行体外测定时观察到的(图10)。
如以上描述的,具有CCCCCCAA[SEQ ID NO:11]PAM序列的靶向的质粒用于体外测定,在38℃和78℃之间的宽的温度范围中进行所述体外测定(图11)。出乎意料地,gtCas9在所有温度是有活性的,在40.1℃和64.9℃之间显示出最高的活性。
因此,来自地芽孢杆菌属的种的Cas9的最佳温度范围比迄今已经被表征的Cas9蛋白的最佳温度范围高得多。类似地,其中来自地芽孢杆菌属的种的Cas9保持核酸酶活性的范围的上限比已知的Cas9蛋白的范围的上限高得多。较高的最佳温度和功能范围在高温度的遗传工程中提供了显著的优点,并且因此在编辑嗜热生物体的基因组中提供了显著的优点,其在升高的温度进行的一系列工业、农业和制药过程中具有效用。
实施例9:用gtCas9和8个核苷酸长度的PAM序列对史氏芽孢杆菌ET138进行体内基 因组编辑
为了证实8个核苷酸的PAM也被gtCas9体内识别,设计了在55℃使在史氏芽孢杆菌ET138基因组中的pyrF基因缺失的实验。
该方法依赖于提供同源重组模板构建体,在同源重组模板构建体中与靶(pyrF)基因上游和下游互补的区域被提供至史氏芽孢杆菌ET 138细胞。模板的引入允许同源重组的过程被用于将同源重组模板(不具有pyrF基因)引入到基因组中,使得它也代替在细胞的基因组中的WT pyrF基因。
在同源重组构建体中包含gtCas9和sgRNA可以被用于将双链DNA断裂(DSDB)引入到包含WT pyrF的细菌基因组中。通常地,在细菌基因组中的DSDB引起细胞死亡。因此,识别WT pyrF中的序列的sgRNA可以引起DSDB和仅包含WT pyrF的细胞的死亡。DSDB的引入还取决于合适的PAM序列,该合适的PAM序列位于被gtCas9识别的前间区的3’末端的下游。
使用pNW33n质粒作为骨架以克隆:
i)在内部开发的葡萄糖阻遏启动子的控制下的cas9gt基因;和
ii)在史氏芽孢杆菌ET138的基因组中的pyrF基因的1kb上游和1kb下游区域作为用于同源重组的模板,该同源重组将引起pyrF基因从史氏芽孢杆菌ET138的基因组的缺失;和
iii)在组成型启动子的转录控制下的表达单指导RNA(sgRNA)的模块。
生成了三种单独的构建体,其中单指导RNA序列在前20个核苷酸处是不同的,所述前20个核苷酸对应于将gtCas9指导至在基因组中的其特异性DNA靶(也被称为间隔区)的序列。三种不同的间隔区序列被设计为靶向三种不同的候选前间区,其全部都在史氏芽孢杆菌ET138的pyrF基因中。这些构建体在本文中分别地被称为构建体1、构建体2和构建体3。
三种不同的靶向的前间区在其3’末端具有以下候选PAM序列:
1.TCCATTCC(根据体外测定的结果,阴性对照;被构建体编号3上编码的sgRNA靶向的前间区的3’-末端)
2.ATCCCCAA(被构建体编号1上编码的sgRNA靶向的前间区的3’-末端;[SEQ IDNO:21])
3.ACGGCCAA(被构建体编号2上编码的sgRNA靶向的前间区的3’-末端;[SEQ IDNO:22])
在用三种构建体之一转化史氏芽孢杆菌ET 138细胞并且在筛选板上铺板后,获得以下结果:
1.当用靶向前间区(前间区在3’末端具有阴性对照TCCATTCC PAM序列)的构建体(构建体编号3)转化细胞时,转化效率不受影响(图12(A))。菌落的数目在与用pNW33n阳性对照构建体转化后的菌落的数目相同的范围中(图12(B))。15个菌落经历菌落PCR以筛选其中缺失pyrF基因的菌落,没有一个显示出缺失基因型-2.1kb的预期条带尺寸-,所有菌落是野生型-2.9kb的预期条带尺寸-(图13)。这指示测试的PAM事实上在体内没有被gtCas9识别。
2.当用构建体编号1转化细胞时,当与阳性对照(用pNW33n转化的细胞)相比时,仅获得几个菌落(图12(C))。20个菌落经历菌落PCR以筛选其中缺失pyrF基因的菌落。大多数(19个)菌落包含野生型和pyrF缺失基因型二者,而一个菌落具有pyrF缺失基因型(图14)。该结果指示,PAM序列ATCCCCAA[SEQ ID NO:21]在体内被gtCas9识别,因为没有观察到仅WT基因型。降低的转化效率也指示一部分的细胞群体已经被减少,其可以是可归因于由于通过gtCas9的成功靶向,通过DSDB对仅WT基因型细胞引起的细胞死亡。
3.当用构建体编号2转化细胞时,没有获得菌落(图12(D))。菌落的缺乏指示所有的细胞群体已经成功地被gtCas9靶向,其导致通过DSDB引起的细胞死亡。这表明ACGGCCAA[SEQ ID NO:22]PAM被gtCas9识别。
这些结果指示,用以上提及的PAM序列,gtCas9在55℃在体内是有活性的,该结果与体外PAM确定结果一致。此外,它可以在相同的温度与质粒携带的同源重组模板组合用作基因组编辑工具。
实施例10:ThermoCas9鉴定和纯化
分离并且测序了热脱氮地芽孢杆菌T12菌株,这是一种革兰氏阳性、中等嗜热细菌,其最佳生长温度在65℃(Daas等人Biotechnol.Biofuels 9,210(2016))。与先前的声称相反,该声称为在嗜热细菌中不存在II型CRISPR-Cas系统(Li等人Nucleic Acids Res.44,e34-e34(2016)),测序结果揭示了热脱氮地芽孢杆菌T12的基因组中存在IIC型CRISPR-Cas系统(图15(A))。与其他Cas9直系同源物诸如SpCas9(1368个氨基酸)相比,该系统的Cas9核酸内切酶(ThermoCas9)被预测是相对地小的(1082个氨基酸)。大小差异主要是由于截短的REC叶,如已经对于其他小Cas9直系同源物证明的(图19)(Ran等人Nature 520,186-191(2015))。此外,预期ThermoCas9至少在热脱氮地芽孢杆菌T12的最佳温度附近是有活性的(Daas等人Biotechnol.Biofuels 9,210(2016))。使用ThermoCas9序列作为查询序列,在NCBI/非冗余蛋白序列数据集中进行了BLAST-P搜索,并且发现了许多高度同一的Cas9直系同源物(在蛋白水平上87-99%同一性,表1),主要地在地芽孢杆菌属中,支持了ThermoCas9是嗜热细菌的高度保守的防御系统的一部分的观点(图15(B))。这些特征表明,它可能是用于开发作为用于嗜热微生物的基因组编辑和沉默工具的潜在候选物,和用于其中需要增强的蛋白稳健性的条件的潜在候选物。
使用先前描述的方法(Mougiakos等人Trends Biotechnol.34,575-587(2016);Ran等人Nature 520,186-191(2015))对热脱氮地芽孢杆菌T12CRISPR-Cas系统的crRNA和tracrRNA模块进行了计算机模拟预测。基于该预测,通过将预测的全长crRNA(30nt长间隔区,随后是36nt长重复)和tracrRNA(36nt长反向重复,随后是具有三个预测的发夹结构的88nt序列)连接起来,设计了190nt的sgRNA嵌合体。将ThermoCas9在大肠杆菌中异源地表达并且纯化至均质性。假设将sgRNA装载至ThermoCas9将稳定蛋白,在60℃和65℃孵育纯化的用体外转录的sgRNA装载的apo-ThermoCas9和ThermoCas9,持续15min和30min。SDS-PAGE分析显示出,纯化的ThermoCas9在65℃变性,但在60℃不变性,而ThermoCas9-sgRNA复合体的变性温度是65℃以上(图15(C))。被证明的ThermoCas9的热稳定性暗含了其作为耐热CRISPR-Cas9基因组编辑工具的潜力,并且鼓励我们更详细地分析一些相关的分子特征。
表1.来自图1的Cas9蛋白序列与ThermoCas9相比的pBLAST结果。
实施例11:ThermoCas9 PAM确定
表征ThermoCas9的第一步是进行计算机模拟预测它对于成功地裂解DNA靶的PAM偏好。使用热脱氮地芽孢杆菌T12 CRISPR基因座的10个间隔区,使用CRISPR靶(Biswas等人RNA Biol.10,817-827(2013))在病毒和质粒序列中搜索潜在的前间区。因为用噬菌体基因组仅获得两个击中(图20(A)),所以决定用体外PAM确定方法继续进行。转录了预测的sgRNA序列和匹配的前间区,该sgRNA序列包含用于基于ThermoCas9的靶向的线性dsDNA底物的间隔区。前间区在其3’末端处侧翼为随机化的7个碱基对(bp)的序列。在55℃进行基于ThermoCas9的裂解测定后,对文库的裂解的成员(与作为对照的非靶向的文库样品一起)进行了深度测序和比较,以鉴定ThermoCas9 PAM偏好(图16(A))。测序结果揭示了,ThermoCas9引入双链DNA断裂,类似于嗜温Cas9变体,主要位于第3个和第4个PAM近端核苷酸之间。此外,裂解的序列揭示了ThermoCas9识别5’-NNNNCNR-3’PAM,在第1个、第3个、第4个和第6个PAM位置处对于胞嘧啶具有细微的偏好(图16(B))。最近的研究已经揭示了第8个PAM位置对于某些IIC型Cas9直系同源物的靶识别的重要性(Karvelis等人GenomeBiol.16,253(2015);Kim等人Genome Res.24,1012-9(2014))。为了该目的,并且考虑到来自计算机模拟ThermoCas9 PAM预测的结果,进行了另外的PAM确定测定。这揭示了在第8个PAM位置处腺嘌呤的存在下的最佳靶向效率(图16(C))。有趣的是,尽管击中的次数有限,上文提及的计算机模拟PAM预测(图20(B))也表明了在第5个PAM位置的胞嘧啶和在第8个PAM位置的腺嘌呤的重要性。
为了进一步阐明PAM在第6个和第7个PAM位置的模糊性,生成了一组16个不同的靶DNA片段,在所述靶DNA片段中匹配的前间区的侧翼为5’-CCCCCNNA-3’[SEQ ID NO:13]PAM。进行了这些片段(每个片段具有第6个和第7个核苷酸的独特组合)的裂解测定,其中不同的组分(ThermoCas9、sgRNA指导、dsDNA靶)在不同的温度(20℃、30℃、37℃、45℃、55℃和60℃)单独地预加热持续10min,然后组合它们并且在对应的测定温度孵育持续1小时。当在37℃和60℃之间的温度进行测定时,所有不同的DNA底物被裂解(图16(D)、图21)。然而,消化最多的靶片段由PAM序列(第5个至第8个PAM位置)5’-CNAA-3’和5’-CMCA-3’组成,而消化最少的靶包含5’-CAKA-3’PAM。在30℃,仅观察到具有最佳PAM序列(第5个至第8个PAM位置)5’-CNAA-3’和5’-CMCA-3’的DNA底物的裂解。最后,在20℃,仅具有(第5个至第8个PAM位置)5’-CVAA-3’和5’-CCCA PAM序列的DNA底物被靶向(图21),使得这些序列成为最优选的PAM。这些发现证明,在其温度下限,ThermoCas9仅裂解具有优选的PAM的片段。可以在体内编辑过程期间开发该特征,例如以避免脱靶效应。
实施例12:热稳定性和截短
预测的tracrRNA由反向重复区域随后是三个发夹结构组成(图17(A))。使用tracrRNA随crRNA一起形成sgRNA嵌合体,引起DNA底物的成功的指导的裂解。观察到全长的重复-反向重复发夹的间隔区远端的41-nt长的缺失(图17(A)),最可能更类似于双指导的天然状态,对DNA裂解效率具有很少影响或没有影响。通过进行裂解时间序列来评价预测的发夹的进一步截短(图17(A))对ThermoCas9裂解效率的作用,其中所有组分(sgRNA、ThermoCas9、底物DNA)在不同的温度(37-65℃)单独地预加热持续1min、2min和5min,然后将它们进行组合并且在多种测定温度(37-65℃)孵育持续1小时。tracrRNA支架的预测的茎环的数目看起来在DNA裂解中起着至关重要的作用;当所有三个环存在时,在所有测试的温度,裂解效率是最高的,而去除3’发夹后效率减少(图17(B))。此外,去除中间发夹和3’发夹二者后,裂解效率急剧地下降(图22)。尽管在65℃预加热ThermoCas9持续1min或2min引起可检测的裂解,但在孵育5分钟后裂解活性被消除。热稳定性测定显示出,不具有3’茎环的sgRNA变体引起ThermoCas9蛋白在65℃的稳定性减少,指示出在升高的温度的最佳的基于ThermoCas9的DNA裂解需要全长的tracrRNA。另外地,我们还改变了间隔区序列的长度(从25nt至18nt),并且发现23个、21个、20个和19个的间隔区长度以最高的效率裂解靶。当使用18nt的间隔区时,裂解效率显著地下降。
在体内,ThermoCas9:sgRNA RNP复合体可能在几分钟内形成。连同以上发现,评价RNP的活性和热稳定性。在60℃、65℃和70℃加热预组装的RNP复合体持续5min和10min,然后添加预加热的DNA,并且随后在60℃、65℃和70℃孵育持续1小时。引人注目的是,ThermoCas9 RNP在高达70℃是有活性的,尽管它在70℃预加热持续了5min(图17(C))。该发现证实了我们的假设,即ThermoCas9稳定性与适当的sgRNA指导的缔合紧密地相关(Ma等人,Mol.Cell 60,398–407(2015))。
在一些应用中,ThermoCas9具有宽的温度活性范围即在低的温度和高的温度二者有功能,将是有益的。此外,在一些情况中,如果ThermoCas9的活性可以被限制在较窄的温度范围,例如,仅在低的温度或仅在高的温度有活性,将是有益的。因此,通过修饰ThermoCas9或相关的元件(诸如sgRNA)的结构特征,操作其中ThermoCas9能够进行靶向的裂解或结合或其中靶向的裂解或结合有效地发生的温度的范围的能力,将使得能够对核酸序列操作施加更大水平的控制。因此,我们开始将ThermoCas9的温度范围与酿脓链球菌Cas9(SpCas9)的温度范围进行比较。对两种Cas9同源物进行在20℃和65℃之间的体外活性测定。将两种蛋白在对应的测定温度孵育持续5min,然后添加sgRNA和靶DNA分子。与先前的分析一致,嗜温SpCas9仅在25℃和44℃之间是有活性的(图17(D));在这些温度以上,SpCas9活性快速地减少至不可检测的水平。相反,在25℃和65℃之间可以检测到ThermoCas9裂解活性(图17(D))。这指示出使用ThermoCas9作为用于嗜热生物体和嗜温生物体二者的基因组编辑工具的潜力。
先前表征的嗜温Cas9核酸内切酶使用二价阳离子以催化在靶DNA中生成DSB(Jinek等人Science 337,816-821(2012);Chen等人J.Biol.Chem.289,13284-13294(2014))。为了评价哪些阳离子有助于通过ThermoCas9的DNA裂解,在以下二价阳离子之一的存在下进行质粒裂解测定:Mg2+、Ca2+、Mn2+、Co2+、Ni2+和Cu2+;具有阳离子螯合剂EDTA的测定被包括作为阴性对照。如预期的,在二价阳离子的存在下靶dsDNA被裂解,并且在EDTA的存在下保持完整(图23(A))。基于某些IIC型系统是有效的单链DNA切割物的报道(Ma等人Mol.Cell 60,398-407(2015);Zhang等人Mol.Cell 60,242-255(2015)),我们测试了ThermoCas9对ssDNA底物的活性。然而,没有观察到裂解,指示出ThermoCas9是dsDNA核酸酶(图23(B))。
实施例13:嗜热史氏芽孢杆菌中基于ThermoCas9的基因缺失
使用ThermoCas9作为用于嗜热细菌的基因组编辑工具。在这里,它在55℃培养的史氏芽孢杆菌ET 138中示出了。为了使用最少的遗传部件,使用了单个质粒方法。产生了一组基于pNW33n的pThermoCas9质粒,其包含在天然xylL启动子(PxylL)控制下的thermocas9基因、也包含用于修复在感兴趣的基因中的Cas9诱导的双链DNA断裂的同源重组模板、和在来自凝结芽孢杆菌的组成型pta启动子(Ppta)控制下的表达sgRNA的模块。
第一个目标是使全长的pyrF基因从史氏芽孢杆菌ET 138的基因组缺失。使用pNW33n来源的质粒pThermoCas9_bsΔpyrF1和pThermoCas9_bsΔpyrF2用于表达不同的ThermoCas9指导,所述不同的ThermoCas9指导带有靶向pyrF基因的不同位点的间隔区,而第三个质粒(pThermoCas9_ctrl)包含在表达sgRNA的模块中的随机非靶向间隔区。用对照质粒pNW33n(无指导)和pThermoCas9_ctrl在55℃转化史氏芽孢杆菌ET 138感受态细胞,引起对于每种质粒~200个菌落的形成。在10个筛选的pThermoCas9_ctrl菌落中,没有一个包含ΔpyrF基因型,证实了来自先前的研究的发现,即在史氏芽孢杆菌ET 138中的同源重组不足以获得完全的突变体(Mougiakos等人ACS Synth.Biol.6,849-861(2017);Bosma等人Microb.Cell Fact.14,99(2015))。相反,用pThermoCas9_bsΔpyrF1和pThermoCas9_bsΔpyrF2质粒转化分别地产生20个和0个菌落,证实了在55℃ThermoCas9的体内活性,并且验证了蛋白的以上描述的宽的体外温度范围。在10个筛选的pThermoCas9_ΔpyrF1菌落中,一个是完全的ΔpyrF突变体,而剩余的菌落具有混合的野生型/ΔpyrF基因型,证明了该系统的适用性,因为靶向的pyrF基因的设计的同源定向修复是成功的。尽管如此,在严格控制的基于SpCas9的反选择系统中,我们先前开发的pyrF缺失效率是更高的(Olson等人,Curr.Opin.Biotechnol.33,130-141(2015))。在基于ThermoCas9的工具中获得的转化体和完全突变体的数目低可以解释为在史氏芽孢杆菌中同源重组效率低(Olson等人,Curr.Opin.Biotechnol.33,130-141(2015))与高活性的ThermoCas9的组成型表达的组合。预计使用严格可控的启动子将增加效率。
实施例14:嗜温恶臭假单胞菌中基于ThermoCas9的基因缺失
为了拓宽基于ThermoCas9的基因组编辑工具的适用性,并且为了评价体外结果是否可以在体内被证实,通过将同源重组和基于ThermoCas9的反选择组合来评价其在嗜温革兰氏阴性细菌恶臭假单胞菌KT2440中的活性。对于该生物体,迄今尚未报道基于Cas9的工具。再次,我们遵循单个质粒方法。我们构建了基于pEMG的pThermoCas9_ppΔpyrF质粒,该质粒包含在3-苯甲酸甲酯诱导型Pm启动子的控制下的thermocas9基因、用于pyrF基因的缺失的同源重组模板和在组成型P3启动子的控制下的表达sgRNA的模块。在转化恶臭假单胞菌KT2440细胞和PCR证实质粒整合后,将菌落接种在选择性液体培养基中用于在37℃过夜培养。使用过夜培养物用于接种选择性培养基,并且用3-苯甲酸甲酯诱导ThermoCas9表达。随后,将稀释物铺板在补充有3-苯甲酸甲酯的非选择性培养基上。为了比较,进行了平行实验,即不用3-苯甲酸甲酯诱导ThermoCas9表达。该过程产生了,对于诱导的培养物的76个菌落和对于非诱导的对照培养物的52个菌落。对于诱导的培养物,38个菌落(50%)具有完全的缺失基因型,并且6个菌落具有混合的野生型/缺失基因型。相反,非诱导的培养物的仅1个菌落(2%)具有缺失基因型,并且未获取到具有混合的野生型/缺失基因型的菌落(图24)。这些结果显示出,当在37℃生长时ThermoCas9可以被用作在嗜温恶臭假单胞菌KT2440中的有效反选择工具。
实施例15:基于ThermoCas9的基因沉默
目前没有一种可用的有效的热活性转录沉默CRISPRi工具。这类系统在许多应用中可以是有用的。例如,这类系统将极大地促进嗜热菌的代谢研究。ThermoCas9的催化上死亡的变体可以通过稳定地与DNA元件结合而不引入dsDNA断裂来用于该目的。为此,我们鉴定了ThermoCas9的RuvC和HNH催化结构域,并且将对应的D8A和H582A突变引入用于创建死亡的(d)ThermoCas9。在证实设计的序列后,异源地产生、纯化了Thermo-dCas9,并且将其与在上文提及的ThermoCas9测定中使用的相同的DNA靶一起用于体外裂解测定;没有观察到裂解,证实了核酸酶的催化的失活。
为了开发基于Thermo-dCas9的CRISPRi工具,我们的目标是使来自史氏芽孢杆菌ET138的基因组的高度表达的ldhL基因转录沉默。我们构建了基于pNW33n的pThermoCas9i_ldhL和pThermoCas9i_ctrl载体。两种载体包含在PxylL启动子的控制下的thermo-dCas9基因和在组成型Ppta启动子的控制下的表达sgRNA的模块。pThermoCas9i_ldhL质粒包含间隔区,该间隔区用于靶向史氏芽孢杆菌ET 138中的138ldhL基因的5’末端处的非模板DNA链。位置和靶向的链选择是基于先前的研究(Bikard等人Nucleic Acids Res.41,7429-7437(2013);Larson等人Nat.Protoc.8,2180-2196(2013)),目的是ldhL基因的有效下调。pThermoCas9i_ctrl质粒包含在表达sgRNA的模块中的随机非靶向间隔区。使用该构建体以在55℃转化史氏芽孢杆菌ET 138感受态细胞,随后是在LB2琼脂平板上铺板,产生等量的菌落。如先前描述的(Bosma等人Appl.Environ.Microbiol.81,1874-1883(2015)),选择每个构建体大约700个菌落中的两个用于在微需氧乳酸盐产生条件下培养持续24小时。pThermoCas9i_ldhL培养物的生长比pThermoCas9i_ctrl培养物的生长少50%。我们先前已经显示出,由于在微需氧条件下缺乏基于Ldh的NAD+再生能力,ldhL基因的缺失引起史氏芽孢杆菌ET 138中的严重生长迟缓(Bosma等人Microb.Cell Fact.14,99(2015))。因此,观察到的生长减少可能是由ldhL基因的转录抑制和随后的由于NAD+再生能力的损失而引起的氧化还原失衡引起的。事实上,HPLC分析揭示了ldhL沉默的培养物的乳酸盐产生降低了40%,并且RT-qPCR分析显示出与pThermoCas9i_ctrl培养物相比,在pThermoCas9i_ldhL培养物中ldhL基因的转录水平显著地降低。
实施例16:概述
大多数CRISPR-Cas应用是基于由第2类CRISPR-Cas蛋白(诸如Cas9和Ca12a)对RNA指导的DNA干扰(Komor等人,Cell 168,20-36(2017);Puchta,Curr.Opin.Plant Biol.36,1-8(2017);Xu等人J.Genet.Genomics 42,141-149(2015);Tang等人Nat.Plants 3,17018(2017);Zetsche等人Nat.Biotechnol.35,31-34(2016);Mougiakos等人,TrendsBiotechnol.34,575-587(2016))。在本研究前,嗜热微生物中没有鉴定和表征到第2类CRISPR-Cas免疫系统,与之相反的是嗜热细菌和古核生物中存在的高度丰富的第1类CRISPR-Cas系统(Makarova等人,Nat.Rev.Microbiol.13,722-736(2015);Weinberger等人,MBio 3,e00456-12(2012)),其中一些已经被用于嗜热菌的基因组编辑(Li等人NucleicAcids Res.44,e34-e34(2016))。因此,由于所使用的Cas-核酸内切酶的嗜温性质,CRISPR-Cas技术的应用主要地局限于低于42℃的温度。因此,这已经排除了这些技术在专性嗜热菌中和在需要升高的温度和/或改进的蛋白稳定性的实验方法中的应用。
本发明人已经表征了来自嗜热细菌热脱氮地芽孢杆菌T12的Cas9直系同源物即ThermoCas9,热脱氮地芽孢杆菌T12是我们先前从堆肥分离的菌株(Daas等人,Biotechnol.Biofuels 9,210(2016))。数据挖掘揭示了在其他嗜热菌的基因组中的另外的Cas9直系同源物,所述另外的Cas9直系同源物几乎是与ThermoCas9相同的,这是第一次显示出CRISPR-Cas II型系统确实存在于嗜热菌中,至少存在于芽孢杆菌属和地芽孢杆菌属的一些分支中。本发明人已经显示出,ThermoCas9在体外在20-70℃的宽的温度范围中是有活性的,这比其嗜温直系同源物SpCas9的25-44℃范围宽得多。ThermoCas9的延伸的活性和稳定性允许其在需要在20-70℃的温度进行DNA操作的分子生物学技术中的应用,以及其在需要稳健的酶活性的严苛环境中的利用。此外,本发明人已经鉴定了几个对于赋予ThermoCas9的热稳定性重要的因素。首先,本发明人已经证明,ThermoCas9的PAM偏好对于在温度范围的较低部分(≤30℃)的活性是非常严格的,而在中等至最佳温度(37-60℃)对于活性允许PAM中的更多的变化。其次,本发明人已经证明ThermoCas9活性和热稳定性强烈地取决于与适当的sgRNA指导的缔合。不希望受任何特定理论的束缚,本发明人假设多结构域Cas9蛋白的这种稳定化最可能是从开放/柔性状态(open/flexible state)到相当紧密状态(compact state)的主要构象变化的结果,如针对在指导结合时的SpCas9描述的(Jinek等人Science 343,1247997-1247997(2014))。
基于在此描述的新型ThermoCas9的表征,本发明人已经成功地开发了用于严格嗜热原核生物的基因组工程工具。我们显示出ThermoCas9在体内在55℃和37℃是有活性的,并且我们将目前的基于Cas9的工程技术适用于嗜热史氏芽孢杆菌ET 138和嗜温恶臭假单胞菌KT2440。由于ThermoCas9的宽的温度范围,预计简单、有效和基于单个质粒的ThermoCas9方法将合适地用于宽的范围的嗜热微生物和嗜温微生物,所述嗜热微生物和嗜温微生物可以在从37℃直至70℃的温度生长。这补充了现有的嗜温技术,允许其用于对于这些有效工具迄今为止不可得的大量生物体使用。
从自然资源筛选具有期望的性状的新型酶无疑是有价值的。先前的研究已经表明,用定向演化(directed evolution)和蛋白工程使嗜温直系Cas9同源物适应于更高的温度,将是为了构建嗜热Cas9蛋白的最佳途径。相反,我们在一些嗜热细菌中鉴定了Cas9的分支,并且将这些耐热ThermoCas9变体之一转化为用于嗜热生物体和嗜温生物体二者的强大的基因组工程工具。通过本研究,我们进一步拓展了基于Cas9的基因组编辑技术的潜力,并且打开了用于在严苛条件下或需要在宽的温度范围中的活性的新型应用中使用Cas9技术的新的可能性。
实施例17:材料和方法
a.细菌菌株和生长条件
使用中等嗜热菌史氏芽孢杆菌ET 138ΔsigFΔhsdR(Mougiakos,等人,(2017)ACSSynth.Biol.6,849-861)用于使用ThermoCas9的基因编辑和沉默实验。将该细菌在55℃、在LB2培养基(Bosma,等人Microb.Cell Fact.14,99(2015))中生长。对于平板,在所有实验中,使用每一升的培养基30g的琼脂(Difco)。如果需要,添加浓度为7μg/mL的氯霉素。对于蛋白表达,在摇动培养箱中以120rpm在37℃在烧瓶中的LB培养基中使大肠杆菌Rosetta(DE3)生长,直到达到OD600 nm为0.5,之后温度转换至16℃。在30min后,通过添加异丙基-1-硫代-β-d-半乳糖基吡喃糖苷(IPTG)至0.5mM的最终浓度来诱导表达,之后在16℃继续孵育。对于克隆第6个、第7个和第8个位置的PAM构建体,根据制造商提供的手册转化DH5-α感受态大肠杆菌(NEB),并且在37℃在LB琼脂平板上生长过夜。对于克隆简并7-nt长的PAM文库,根据标准程序(Sambrook,Fritsch&Maniatis,T.Molecular cloning:a laboratorymanual.(Cold Spring Harbor Laboratory,1989)转化电感受态DH10B大肠杆菌细胞,并且在37℃在LB琼脂平板上生长过夜。使用大肠杆菌DH5αλpir(Invitrogen)用于使用由Ausubel等人(Current Protocols in Molecular Biology.(John Wiley&Sons,Inc.,2001).doi:10.1002/0471142727)描述的转化程序的恶臭假单胞菌质粒构建。对于所有大肠杆菌菌株,如果需要,使用浓度为25mg/L的氯霉素和浓度为50mg/L的卡那霉素。除非另有说明,否则在37℃在LB培养基中培养恶臭假单胞菌KT2440(DSM 6125)菌株。如果需要,添加浓度为50mg/L的卡那霉素和浓度为3mM的3-苯甲酸甲酯。
b.ThermoCas9表达和纯化
从热脱氮地芽孢杆菌T12的基因组PCR扩增ThermoCas9,然后克隆并且在大肠杆菌Rosetta(DE3)中异源地表达,并且通过Ni2+亲和、阴离子交换和凝胶过滤层析步骤的组合使用FPLC纯化。通过使用寡核苷酸(表2)的连接不依赖性克隆,将基因序列插入到pML-1B质粒(从UC Berkeley MacroLab获得,Addgene#29653)中,以生成编码ThermoCas9多肽序列(1-1082残基)的蛋白表达构建体,该ThermoCas9多肽序列与包含六个组氨酸序列和烟草蚀纹病毒(Tobacco Etch Virus)(TEV)蛋白酶裂解位点的N-末端标签融合。为了表达催化上失活的ThermoCas9蛋白(Thermo-dcas9),使用PCR插入D8A和H582A点突变,并且通过DNA测序验证。
/>
/>
/>
/>
/>
/>
/>
/>
在大肠杆菌Rosetta 2(DE3)菌株中表达蛋白。使培养物生长到OD600nm为0.5-0.6。通过将IPTG添加至0.5mM的最终浓度诱导表达,并且在16℃继续孵育过夜。通过离心收集细胞,并且将细胞沉淀重悬浮于20mL的裂解缓冲液(50mM磷酸钠,pH 8,500mM NaCl,1mM DTT,10mM咪唑)中,该裂解缓冲液补充有蛋白酶抑制剂(Roche cOmplete,无EDTA)和溶菌酶。一旦均质化,使用超声MS72微尖端探头(Bandelin)通过超声(Sonoplus,Bandelin)裂解细胞持续5-8分钟,由2s脉冲和在30%振幅的2.5s暂停组成,并且然后在4℃以16000×g离心持续1小时以去除不溶性物质。过滤澄清的裂解物通过0.22微米过滤器(Mdi membranetechnologies),并且施加于镍柱(Histrap HP,GE Lifesciences),洗涤,并且然后用250mM咪唑洗脱。汇集包含ThermoCas9的级分,并且过夜透析到透析缓冲液(250mM KCl,20mMHEPES/KOH,和1mM DTT,pH 7.5)中。在透析后,在10mM HEPES/KOH pH 8中1:1稀释样品,并且装载到IEX-A缓冲液(150mM KCl,20mM HEPES/KOH pH 8)中预平衡的肝素FF柱上。用IEX-A洗涤柱,并且然后用IEX-C的梯度(2M KCl,20mM HEPES/KOH pH 8)洗脱。将样品浓缩至700μL,然后通过FPLC(AKTA Pure)装载到凝胶过滤柱(HiLoad16/600Superdex 200)上。通过SDS-PAGE分析来自凝胶过滤的级分;汇集包含ThermoCas9的级分并且浓缩至200μL(50mM磷酸钠pH 8,2mM DTT,5%甘油,500mM NaCl),并且直接地用于生物化学测定或在-80℃冷冻用于保存。
c.sgRNA的体外合成
通过将预测的crRNA和tracrRNA序列与5’-GAAA-3’接头融合,设计sgRNA模块。将表达sgRNA的DNA序列放置在T7启动子的转录控制下。它是合成的(Baseclear,Leiden,TheNetherlands),并且提供于pUC57骨架中。使用HiScribeTMT7高产率RNA合成试剂盒(NEB)合成在生物化学反应中使用的所有sgRNA。使用编码sgRNA的PCR片段,其中T7序列在5’末端上,作为用于体外转录反应的模板。进行T7转录持续4小时。运行sgRNA并且从尿素-PAM凝胶切下,并且使用乙醇沉淀纯化。
d.体外裂解测定
用纯化的重组ThermoCas9进行体外裂解测定。将ThermoCas9蛋白、体外转录的sgRNA和DNA底物(使用表2中描述的引物,使用PCR扩增生成)单独地(除非另有指示)在所表明的温度孵育持续10min,随后将组分组合在一起,并且在裂解缓冲液(100mM磷酸钠缓冲液(pH=7)、500mM NaCl、25mM MgCl2、25(V/V%)甘油、5mM二硫苏糖醇(DTT))中在多种测定温度孵育持续1小时。每次裂解反应包含160nM的ThermoCas9蛋白、4nM的底物DNA和150nM的合成的sgRNA。通过添加6×加样染料(NEB)终止反应,并且在1.5%琼脂糖凝胶上运行。用SYBRsafe DNA染色剂(Life Technologies)染色凝胶,并且用Gel DocTM EZ凝胶成像系统(Bio-rad)成像。e.用于体外PAM筛选的文库构建
为了构建PAM文库,通过引物退火和基于Klenow片段(外切)(NEB)的延伸构建了122-bp长的DNA片段,该DNA片段包含在其3’末端处的前间区和7-bp长的简并序列。用BspHI和BamHI(NEB)消化PAM文库片段和pNW33n载体,并且然后连接(T4连接酶,NEB)。将连接混合物转化到电感受态大肠杆菌DH10B细胞中,并且从液体培养物分离质粒。对于7nt长的PAM确定过程,质粒文库通过SapI(NEB)线性化并且用作靶。对于其余的测定,通过PCR扩增将DNA底物线性化。
f.PAM筛选测定
使用体外裂解测定进行thermoCas9的PAM筛选,体外裂解测定由以下组成(每次反应):160nM的ThermoCas9、150nM的体外转录的sgRNA、4nM的DNA靶、4μl的裂解缓冲液(100mM磷酸钠缓冲液pH 7.5、500mM NaCl、5mM DTT、25%甘油)和MQ水直至20μl最终反应体积。凝胶纯化包含来自55℃反应的裂解片段的PAM,将其与Illumina测序衔接子连接,并且送出用于Illumina HiSeq 2500测序(Baseclear)。对等摩尔量的非thermoCas9处理的PAM文库进行相同的过程,并且送出用于Illumina HiSeq2500测序作为参考。选择与参考序列完全序列匹配的HiSeq读段用于进一步分析。从所选择的读段来看,在ThermoCas9处理的文库中存在多于1000次并且与对照文库相比,在ThermoCas9处理的文库中至少10倍更多的那些读段被用于WebLogo分析(Crooks等人,Genome Res.14,1188-1190(2004))。
g.用于史氏芽孢杆菌和恶臭假单胞菌的编辑和沉默构建体
用于质粒构建的所有引物和质粒都设计具有适当的突出端,用于进行NEBuilderHiFi DNA组装(NEB),并且它们分别地列于表2和表3中。通过用Q5聚合酶(NEB)或PhusionFlash High-Fidelity PCR Master Mix(ThermoFisher Scientific)进行PCR获得用于组装质粒的片段,PCR产物经历1%琼脂糖凝胶电泳,并且使用Zymogen凝胶DNA回收试剂盒(Zymo Research)纯化PCR产物。将组装的质粒转化至化学感受态大肠杆菌DH5α细胞(NEB),或在恶臭假单胞菌构建体的情况中转化至大肠杆菌DH5αλpir(Invitrogen),后者促进直接载体整合。将单菌落接种在LB培养基中,使用GeneJet plasmid miniprep试剂盒(ThermoFisher Scientific)分离质粒物质,并且验证序列(GATC-biotech),并且1μg的每种构建体转化史氏芽孢杆菌ET 138电感受态细胞,史氏芽孢杆菌ET 138电感受态细胞根据先前描述的方案(Bosma,等人Microb.Cell Fact.14,99(2015))制备。使用MasterPureTM革兰氏阳性DNA纯化试剂盒(Epicentre)用于从史氏芽孢杆菌和恶臭假单胞菌液体培养物分离基因组DNA。
为了构建pThermoCas9_ctrl、pThermoCas9_bsΔpyrF1和pThermoCas9_bsΔpyrF2载体,将pNW33n骨架与ΔpyrF同源重组侧翼区一起从pWUR_Cas9sp1_hr载体(Mougiakos,等人ACS Synth.Biol.6,849-861(2017))PCR扩增(BG8191和BG8192)。天然PxylA启动子从史氏芽孢杆菌ET 138的基因组PCR扩增(BG8194和BG8195)。thermocas9基因从热脱氮地芽孢杆菌T12的基因组PCR扩增(BG8196和BG8197)。Ppta启动子从pWUR_Cas9sp1_hr载体(Mougiakos,等人ACS Synth.Biol.6,849-861(2017))PCR扩增(BG 8198和BG8261_2/BG8263_nc2/BG8317_3)。间隔区随后是sgRNA支架从pUC57_T7t12sgRNA载体PCR扩增(BG8266_2/BG8268_nc2/8320_3和BG8210)。
设计并且执行了四片段组装用于构建pThermoCas9i_ldhL载体。最初,通过两步PCR方法,使用pThermoCas9_ctrl作为模板,将靶向的点突变引入thermocas9催化残基的密码子(D8A和H582A突变)。在第一个PCR步骤(BG9075、BG9076)期间,将期望的突变引入到产生的PCR片段的末端处,并且在第二个步骤(BG9091、BG9092)期间,使用产生的片段作为PCR模板用于引入适当的组装-突出端。第二个突变下游的thermocas9的一部分随ldhL沉默间隔区一起,使用pThermoCas9_ctrl作为模板PCR扩增(BG9077和BG9267)。sgRNA支架与pNW33n骨架一起,使用pThermoCas9_ctrl作为模板PCR扩增(BG9263和BG9088)。启动子与第一个突变上游的thermocas9的一部分一起,使用pThermoCas9_ctrl作为模板PCR扩增(BG9089、BG9090)。
设计并且执行了两片段组装用于构建pThermoCas9i_ctrl载体。用在两个末端处包含BaeI限制位点的随机序列代替pThermoCas9i_ldhL载体中的间隔区序列。sgRNA支架与pNW33n骨架一起,使用pThermoCas9_ctrl作为模板PCR扩增(BG9548、BG9601)。由Thermo-dCas9和启动子组成的构建体的另一半,使用pThermoCas9i_ldhL作为模板扩增(BG9600、BG9549)。
设计并且执行了五片段组装用于构建恶臭假单胞菌KT2440载体pThermoCas9_ppΔpyrF。PCR扩增来自自杀载体pEMG的复制子(BG2365、BG2366)。pyrF的侧翼区域从KT2440基因组DNA扩增(BG2367、BG2368用于576-bp上游侧翼区,并且BG2369、BG2370用于540-bp下游侧翼区)。使用引物BG2368和BG2369的重叠,使用引物BG2367和BG2370,以重叠延伸PCR融合侧翼区。sgRNA从pThermoCas9_ctrl质粒扩增(BG2371、BG2372)。组成型P3启动子从pSW_I-SceI扩增(BG2373、BG2374)。使用引物BG2371和BG2374的重叠,使用引物BG2372和BG2373,以重叠延伸PCR将该启动子片段与sgRNA片段融合。ThermoCas9从pThermoCas9_ctrl质粒扩增(BG2375、BG2376)。将用于3-苯甲酸甲酯诱导ThermoCas9的诱导型Pm-XylS系统,从pSW_I-SceI扩增(BG 2377、BG2378)。
/>
h.用于恶臭假单胞菌的编辑方案
根据Choi等人(Choi等人,J.Microbiol.Methods 64,391-397(2006))进行了将质粒转化至恶臭假单胞菌。在转化和选择整合体后,接种过夜培养物。使用10μl的过夜培养物用于接种3ml新鲜选择性培养基,并且在37℃生长2小时后,用3-苯甲酸甲酯诱导ThermoCas9。在另外的6h后,将培养物的稀释物铺板在补充有3-苯甲酸甲酯的非选择性培养基上。对于对照培养物,所有步骤中省略了3-苯甲酸甲酯的添加。用引物BG2381和BG2135通过菌落PCR进行恶臭假单胞菌染色体中质粒整合的证实。用引物BG2381和BG2382通过菌落PCR进行pyrF缺失的证实。
i.RNA分离
基于先前描述的方案(van Hijum等人BMC Genomics 6,77(2005)),通过苯酚提取进行RNA分离。将10mL过夜培养物在4℃和4816×g离心持续15min,并且立即地用于RNA分离。在去除培养基后,将细胞悬浮在0.5mL的冰冷的TE缓冲液(pH 8.0)中,并且保持在冰上。将所有样品分配到两支2mL的带螺旋盖的管中,所述带螺旋盖的管包含0.5g的锆珠、30μL的10%SDS、30μL的3M乙酸钠(pH 5.2)和500μL的Roti-苯酚(pH4.5-5.0,Carl Roth GmbH)。使用FastPrep-24仪器(MP Biomedicals)以5500rpm破碎细胞持续45s,并且在4℃和10000rpm离心持续5min。将来自每支管的400μL的水相转移至新的管,向新的管加入400μL的氯仿-异戊醇(Carl Roth GmbH),之后在4℃和18400×g离心样品持续3min。将300μL的水相转移至新的管,并且与来自高纯度RNA分离试剂盒(Roche)的300μL的裂解缓冲液混合。随后,除了DNA酶孵育步骤(进行持续45min)之外,根据制造商的方案进行来自该试剂盒的其余的程序。使用Nanodrop-1000确定cDNA的浓度和完整性。在NanoDrop-1000上检查分离的RNA的完整性和浓度。
j.通过RT-qPCR定量mRNA
根据制造商的方案,使用SuperScriptTM III逆转录酶(Invitrogen)对分离的RNA进行第一链cDNA合成。使用来自Quanta Biosciences的PerfeCTa SYBR Green Supermixfor iQ进行qPCR。使用40ng的每种cDNA文库作为用于qPCR的模板。使用两组引物:BG9665:BG9666扩增ldhL基因的150nt长的区域,并且BG9889:BG9890扩增用作用于qPCR的对照的rpoD(RNA聚合酶sigma因子)基因的150nt长的序列。在Bio-Rad C1000热循环仪上运行qPCR。
k.HPLC
使用高压液相色谱(HPLC)系统ICS-5000用于乳酸盐定量。用来自Bio-RadLaboratories的Aminex HPX 87H柱操作该系统,并且配备在210nm上操作的UV1000检测器和RI-150 40℃折射率检测器。流动相由0.16NH2SO4组成,并且以0.8mL/min操作柱。用0.01NH2SO4中的10mM DMSO 4:1稀释所有样品。
实施例18 thermoCas9在热葡萄糖苷酶地芽孢杆菌中的应用
评价thermoCas9作为在55℃在热葡萄糖苷酶地芽孢杆菌(Geobacillusthermoglucosidans)(也被称为热葡萄糖苷酶芽孢杆菌(Bacillusthermoglucosidasius)、热葡萄糖苷酶地芽孢杆菌(Geobacillus thermoglucosidasius)和热葡萄糖苷酶副地芽孢杆菌(Parageobacillus thermoglucosidasius))中的反选择工具。应用了单个质粒方法,其中重组臂和thermoCas9基因/sgRNA在相同的质粒上。将thermoCas9基因放置在可以被纤维二糖诱导的β-葡萄糖苷酶启动子的控制下(Bartosiak-Jentys,J.,Hussein,A.H.,Lewis,C.J.,Leak,D.J.(2013)Microbiology 159:1267-1275)。为了改进重组效率,将在升高的温度(此时质粒不能复制)的孵育步骤添加至工作流程。选择热葡萄糖苷酶地芽孢杆菌DSM 2542T 960bp ldhL基因(NCBI GeneID:29237966)作为缺失靶。使用以下引物组合,通过PCR生成0.9kb的上游片段和下游片段,二者在58℃的退火温度并且通过使用热葡萄糖苷酶地芽孢杆菌ΔsigF(参见国际(PCT)申请公布号WO2016/012296)的染色体DNA作为模板:
2420(5’-AAAACTCACGTTAAGGGATTTTGGTCATGACCGATTCGGCTGTTA TGGAGAG-3’)[SEQID NO:181]和993(5’-ATTCAAAGTCAGCATCACATCCAATTACATCAAGCAG-3’)[SEQ ID NO:174]、和992(5’-TTGGATGTGATGCTGACTTTGAATACAACAAGGTGAAC-3’)[SEQ ID NO:173]和2421(5’-TGCGTCGGAACACCTTCTTCGCGTTTATCGCGGCAAACAGAGCTTTAAAACCAG-3’)[SEQ ID NO:182]。如实施例13中描述的,使用pThermoCas9_ctrl作为模板,以两个部分扩增质粒骨架,引入非靶向间隔区序列(5’-TTATGTTTTCCGGACATAGTACA-3’)[SEQ ID NO:234]。使用以下引物组合生成一个片段:
2210(5’-AGGAGGTTGCATATGAAGTATAAAATCGGTCTTG-3’)[SEQ ID NO:178]和2490(5’-ACTCTTATTATATAGAAACGCAACTAAGTTAAGCATTGCCATTATAACGGACGGATAGTTTCCCC-3’)[SEQID NO:184]。
使用以下引物组合生成另一个片段:
2489(5’-AACTTAGTTGCGTTTCTATATAATAAGAGTTATGTTTTCCGGACATAGTACAGTCATAGTTCCCCTGAGATTATCG-3’)[SEQ ID NO:183]和2401(5’-TCATGACCAAAATCCCTTAACG-3’)[SEQID NO:180]。
从作为模板的热葡萄糖苷酶地芽孢杆菌ΔsigF(WO2016012296)染色体DNA和以下引物组合扩增β-葡萄糖苷酶启动子
2400(5’-CGATAAACGCGAAGAAGGTG-3’)[SEQ ID NO:179]和2208(5’-TTTTATACTTCATATGCAACCTCCTTTATGTTC-3’)[SEQ ID NO:177]。
根据制造商的说明,用Phusion Flash High-Fidelity PCR master mix(ThermoFisher)创建5个PCR片段并且通过使用NEBuilder HiFi DNA组装克隆试剂盒(NewEngland BioLabs)将重叠区域融合而将5个PCR片段组装到单个质粒中,产生非靶向质粒pRB061。
使用Zymo DNA清洗和浓缩旋转柱(Zymo Reasearch)浓缩质粒DNA,并且洗脱到10μL H2O中并且转化至电感受态大肠杆菌TG90(Gonzy-Tréboul,G.,Karmzyn-Campelli,C.,Stragier,P.1992.J.Mol.Biol.224:967-979)。将转化体铺板在补充有10mg/L氯霉素的LB琼脂平板上并且在37℃孵育。选择单菌落用于使用ZymoPURETMPlasmid Midiprep试剂盒(Zymo Research)的质粒提取。通过序列分析证实质粒完整性。
包含基于基因组序列、带有直接地下游的5’-GGCCCCAA-3’的PAM序列的靶向间隔区(5’-ATAAGGGCAAATGCATAGCTGGC-3’)[SEQ ID NO:235]的质粒,通过两个片段的组装来构建,所述两个片段用非靶向质粒pRB061作为模板、使用以下引物组合通过PCR扩增:
2501(5’-AAGAGATAAGGGCAAATGCATAGCTGGCGTCATAGTTCCCCTGAGATTATCG-3’)[SEQID NO:185]和2125(5’-TCTTCGATGCGAGGAATGTC-3’)[SEQ ID NO:176]以及引物组合1994(5’-AAACAAACCACCGCTGGTAG-3’)[SEQ ID NO:175]和2502(5’-ATGACGCCAGCTATGCATTTGCCCTTATCTCTTATTATATAGAAACGCAACTAAG-3’)[SEQ ID NO:186]。
如以上描述的,进行转化和质粒提取,产生靶向质粒pRB063。
如别处描述的(参见国际(PCT)申请公布号WO2016/012296),将质粒pRB061和pRB063通过电穿孔转化至热葡萄糖苷酶地芽孢杆菌ΔsigF(参见WO2016/012296),并且铺板在补充有8mg/L氯霉素的TGP板上。将平板在55℃孵育过夜。选择单菌落,并且在补充有8mg/L氯霉素的TGP肉汤中在55℃生长过夜。随后,将1mL转移至补充有8mg/L氯霉素的10mL新鲜预加温的TGP培养基。在68℃孵育持续8h至过夜后,为了发生重组,将1mL转移至补充有8mg/L氯霉素和1%(w/v)纤维二糖(D(+)纤维二糖,Across)的10mL新鲜预加温的TGP培养基,以诱导β-葡萄糖苷酶启动子,并且在55℃孵育持续8h。将培养物在55℃铺板在包含1%(w/v)纤维二糖的TGP板上。使用引物629(5’-GACTGGGCGCAAGCGGTGATG-3’)[SEQ ID NO:171]和630(5’-CCTGTTGCTGATACAAGGTCTAGC-3’)[SEQ ID NO:172],进行菌落PCR以证实ldhL基因的缺失。包含靶向间隔区的构建体在分析的36个菌落中产生16个敲除。随机间隔区在分析的78个菌落中产生1个敲除。这证明了用于在热葡萄糖苷酶地芽孢杆菌中的基因缺失的反选择工具的效率。
/>
实施例19 thermoCas9在凝结芽孢杆菌中的应用
评价thermoCas9作为在55℃在凝结芽孢杆菌中的反选择工具。使用单个质粒方法,其中重组臂和thermoCas9基因/sgRNA在相同的质粒上。将thermoCas9基因放置在可以被纤维二糖诱导的β-葡萄糖苷酶启动子的控制下(Bartosiak-Jentys,J.,Hussein,A.H.,Lewis,C.J.,Leak,D.J.(2013)Microbiology 159:1267-1275)。为了改进重组效率,将在升高的温度(此时质粒不能复制)的孵育步骤添加至工作流程。选择凝结芽孢杆菌DSM 1T759-bp sigF基因(NCBI GeneID:29812540)作为缺失靶。使用以下引物组合,通过PCR生成0.85kb的上游片段和下游片段,二者在58℃的退火温度并且通过使用凝结芽孢杆菌DSM 1的染色体DNA作为模板:
2561(5'-TCACGTTAAGGGATTTTGGTCATGAGTGAGTCTGGCTATTGACCTGG-3')[SEQ IDNO:190]和2562(5'-ATGAAAAAAGCGCACGTCGGCACGACTCCTTAATTG-3')[SEQ ID NO:191]、和2563(5'-ATTAAGGAGTCGTGCCGACGTGCGCTTTTTTCATTCCC-3')[SEQ ID NO:192]和2570(5'-CACCTTCTTCGCGTTTATCGCGGCACAGGATATAATGGTCGATGTCCTGTTG-3')[SEQ ID NO:193]。使用pBR061作为模板,以两个部分扩增载体骨架,引入靶向间隔区序列5’-CGGGGATATGAACCGGATGACTT-3'[SEQ ID NO:236],基于基因组序列、带有5’-ATTCAAA-3’的PAM序列。使用以下引物组合生成一个片段:
2571(5’-CGATAAACGCGAAGAAGGTG-3’)[SEQ ID NO:194]和2579(5’-AAGTCATCCGGTTCATATCCCCGACTCTTATTATATAGAAACGCAACTAAGTTAAGC-3’)[SEQ ID NO:196]。
使用以下引物组合生成另一个片段:
2578(5’-TAAGAGTCGGGGATATGAACCGGATGACTTGTCATAGTTCCCCTGAGATTATCG-3’)[SEQ ID NO:195]和2172(5’-TCATGACCAAAATCCCTTAAC-3’)[SEQ ID NO:189]。
根据制造商的说明,用Phusion Flash High-Fidelity PCR master mix(ThermoFisher)创建4个PCR片段并且通过使用NEBuilder HiFi DNA组装克隆试剂盒(NewEngland BioLabs)将25-bp重叠区域融合而将4个PCR片段组装到单个质粒中,产生非靶向质粒pMH247。使用Zymo DNA清洗和浓缩旋转柱(Zymo Reasearch)浓缩质粒DNA,并且洗脱到10μL H2O中并且转化至电感受态大肠杆菌TG90(Gonzy-Tréboul,G.,Karmzyn-Campelli,C.,Stragier,P.1992.J.Mol.Biol.224:967-979)。将转化体铺板在补充有10mg/L氯霉素的LB琼脂平板上并且在37℃孵育。选择单菌落用于使用ZymoPURETMPlasmid Midiprep试剂盒(Zymo Research)的质粒提取。通过序列分析证实质粒完整性。如在别处描述的(Kovács,T.,van Hartskamp,M.,Kuipers,O.P.,&van Kranenburg,R.(2010)Applied andEnvironmental Microbiology,76(12),4085-4088),将质粒通过电穿孔转化至凝结芽孢杆菌并且铺板在补充有7mg/L氯霉素的BC板上(Kovács,/>T.,van Hartskamp,M.,Kuipers,O.P.,&van Kranenburg,R.(2010)Applied and Environmental Microbiology,76(12),4085-4088)。将平板在45℃孵育过夜。选择两个单菌落,并且在补充有7mg/L氯霉素的BC肉汤中在45℃生长过夜。随后,将1mL转移至补充有7mg/L氯霉素的10mL新鲜预加温的BC培养基。在65℃孵育持续4h后,为了发生重组,将培养物在55℃孵育持续4小时。此后,将1mL转移至补充有7mg/L氯霉素和1%(w/v)纤维二糖的10mL新鲜的预加温的BC培养基,以诱导β-葡萄糖苷酶启动子,并且培养物在55℃孵育过夜。将培养物在55℃铺板在包含1%(w/v)纤维二糖的BC琼脂平板上,并且使用以下引物进行菌落PCR以检查敲除:351(5’-CACCATGTCCCGGACAGCAC-3’)[SEQ ID NO:187]和352(5’-GCGATGAAATTGGAACACTGAC-3’)[SEQ ID NO:188]。对于一种培养物,17个测试的菌落中的17个菌落具有证实了缺失的2.1kb的PCR片段。对于另一种培养物,18个测试的菌落中的15个菌落具有证实了缺失的2.1kb的PCR片段,其他3个菌落具有野生型的PCR片段。这证明了用于凝结芽孢杆菌中的基因缺失的反选择工具的效率。/>
实施例20使用两个质粒方法,thermoCas9在恶臭假单胞菌中的应用
评价thermoCas9作为在30℃在恶臭假单胞菌中的反选择工具。应用两步方法,首先通过单交叉(single-crossvoer)事件整合敲除载体,并且随后引入含有thermoCas9基因和包含靶向间隔区的sgRNA的质粒。将thermoCas9基因放置在3-苯甲酸甲酯诱导型Pm启动子的控制下。如实施例14中的,选择恶臭假单胞菌KT2440,DSM-6125,702bp pyrF基因(NCBIGeneID:1043286)作为缺失靶。为了构建整合载体,通过用以下引物组合的PCR,使用实施例14和图25的pThermoCas9_ppΔpyrF作为模板,扩增pyrF的0.5kb上游区域和0.5kb下游区域:2461(5’-GCCGGTAGAACTCCGCGAGGTCGTCCAGCCACGGCATTGGCAAGGCCAAG-3’)[SEQ ID NO:202]和2462(5’-GCGGATAACAATTTCACACAGGAAACAGCTACGCGCATCAACTTCAAGG C-3’)[SEQ IDNO:203]。使用以下的引物组合,使用pEMG自杀载体(Martínez-García,E.,de Lorenzo,V.(2012)Methods Mol.Biol.813:267-283)作为模板,通过PCR扩增载体骨架:
2459(5’-AGCTGTTTCCTGTGTGAAATTG-3’)[SEQ ID NO:200]和2460(5’-GGCTGGACGACCTCGCGGAG-3’)[SEQ ID NO:201]。根据制造商的说明,用Phusion FlashHigh-Fidelity PCR master mix(ThermoFisher),对于所有反应使用58℃的退火温度,创建两个PCR片段,并且使用NEBuilder HiFi DNA组装克隆试剂盒(New England BioLabs),通过将添加至用于扩增上游区域和下游区域的引物中的载体骨架重叠区域融合,将两个PCR片段组装到单个质粒中,产生整合质粒pRB051。使用Zymo DNA清洗和浓缩旋转柱(ZymoReasearch)浓缩质粒DNA,并且洗脱到10μL H2O中并且转化至电感受态大肠杆菌DH5αλpir(Invitrogen)。将转化体铺板在补充有50mg/L卡那霉素的LB琼脂平板上并且在37℃孵育。选择单菌落用于使用ZymoPURETMPlasmid Midiprep试剂盒(Zymo Research)的质粒提取。通过序列分析证实质粒完整性。如别处描述的(参见Choi,K.H.,A Kumar,和H.P.Schweizer.(2006)J.Microbiol.Methods 64:391-397),将整合质粒转化至电感受态恶臭假单胞菌KT2440细胞。将转化体铺板在补充有50mg/L卡那霉素的LB琼脂平板上并且在30℃孵育。选择单菌落用于分析使用MasterPureTMDNA纯化试剂盒(Epicentre)分离的基因组DNA。用以下引物通过PCR分析证实了在pyrF的下游区域的质粒整合:2381(5’-ACACGGCGGATGCACTTACC-3’)[SEQ ID NO:198]和2135(5’-CCGCTTTCTTCGGGCATTCC-3’)[SEQ ID NO:197]。
对于含有ThermoCas9和对应的sgRNA元件的质粒,选择基于基因组序列、随后是5’-GCCGCCAA-3’PAM序列的靶向间隔区(5’-CCATACCCGCTTTTTCCGCCAGC-3’)[SEQ ID NO:237]。用以下引物组合,使用pSW(I-SceI)(Wong,S.M.,Mekalanos,J.J.(2000)Proc.Natl.Acad.Sci.USA 97:10191-10196)作为模板,通过PCR扩增载体骨架,包括3-苯甲酸甲酯诱导型Pm启动子:
2467(5’-GATTTTATACTTCATATGTTCATGACTCCATTATTATTG-3’)[SEQ ID NO:204]和2468(5’-CAAGGTCTTTTTTACTAAGTCGAGGGGATCCTCTAGC-3’)[SEQ ID NO:205]。用以下引物组合,使用pThermoCas9_ppΔpyrF作为模板,通过PCR扩增ThermoCas9和对应的sgRNA片段:
2469(5’-CCACACATTATACGAGCCGATGATTAATTGTCAACAGATGGCCCGCTTCATAAGCAG-3’)[SEQ ID NO:206]和2470(5’-TGGAGTCATGAACATATGAAGTATAAAATCGGTCTTG-3’)[SEQ ID NO:207]以及2471(5’-GATCCCCTCGACTTAGTAAAAAAGACCTTGACGTTTTC-3’)[SEQ ID NO:208]和2742(5’-GACAATTAATCATCGGCTCGTATAATGTGTGGCCATACCCGCTTTTTCCGCCAGCGTCATAGTTCCCCTGAGATTATCG-3’)[SEQ ID NO:209]。根据制造商的说明,用Phusion Flash High-FidelityPCR master mix(ThermoFisher),对于所有反应使用58℃的退火温度,创建3个PCR片段,并且使用NEBuilder HiFi DNA组装克隆试剂盒(New England BioLabs)通过将重叠区域融合而将3个PCR片段组装到单个质粒中,产生质粒pRB054。使用Zymo DNA清洗和浓缩旋转柱(Zymo Reasearch)浓缩质粒DNA,并且洗脱到10μL H2O中并且通过热激(Sambrook,J.,enD.W.Russell.(2001)Molecular cloning:a laboratory manual第三版.Cold SpringHarbor Laboratory Press,Cold Spring Harbor,New York)转化至大肠杆菌DH5α。将转化体铺板在补充有150mg/L氨苄青霉素的LB琼脂平板上并且在37℃孵育。选择单菌落用于使用ZymoPURETMPlasmid Midiprep试剂盒(Zymo Research)的质粒提取。通过序列分析证实质粒完整性。
将pRB054质粒转化至证实了pRB051整合的电感受态恶臭假单胞菌KT2440细胞。将转化体铺板在补充有50mg/L卡那霉素和500mg/L氨苄青霉素的LB琼脂平板上并且在30℃孵育。选择单菌落用于使用ZymoPURETMPlasmid Midiprep试剂盒(Zymo Research)的质粒提取。通过序列分析证实质粒完整性。还使用MasterPureTMDNA纯化试剂盒(Epicentre)分离基因组DNA,并且用以下引物,通过PCR分析重新证实了pRB051整合:2381(5’-ACACGGCGGATGCACTTACC-3’)[SEQ ID NO:198]和2135(5’-CCGCTTTCTTCGGGCATTCC-3’)[SEQID NO:197]。随后,将具有靶向质粒的菌株的10μL的过夜培养物转移至补充有50mg/L卡那霉素和500mg/L氨苄青霉素的3mL LB培养基。在30℃摇动孵育(180r.p.m.)2小时后,添加3-苯甲酸甲酯至最终浓度为3mM。孵育培养物,在30℃摇动持续另外的4小时。将培养物铺板在补充50mg/L尿嘧啶的LB琼脂上,并且在30℃孵育。过夜生长后,将96个菌落转移至补充50mg/L尿嘧啶的新鲜LB琼脂平板,并且在30℃孵育持续另一个晚上。使用以下引物对所有生长的菌落进行菌落PCR,以检查敲除:2381(5’-ACACGGCGGATGCACTTACC-3’)[SEQ ID NO:198]和2382(5’-TGGACGTGTACTTCGACAAC-3’)[SEQ ID NO:199]。在测试的48个菌落中,32个菌落产生了PCR产物。所有32个菌落具有1112bp的片段,对应于基因缺失。这些菌落之一也给出了1854bp片段,指示出该菌落中的混合的野生型/缺失基因型。这证明了ThermoCas9作为用于在30℃在恶臭假单胞菌中的基因缺失的反选择工具的效率。
实施例21 ThermoCas9在酿酒酵母中的应用
使用ThermoCas9作为在37℃在真核生物酿酒酵母中的基因组编辑工具。使用两步方法:首先整合ThermoCas9用于从基因组稳定表达,并且随后将含有sgRNA与线性双链DNA修复寡聚物一起的质粒引入。将ThermoCas9基因放置在组成型TEF1启动子的控制下,将sgRNA放置在SNR52启动子和SUP4终止子的控制下。选择酿酒酵母CEN.PK113-17A(EntianKD,P(1998)Method Microbiol 26:431-449),1773bp CAN1基因(YEL063C;NCBIGeneID:856646)作为缺失靶。
将ThermoCas9整合片段维持在通过组装6个片段而构建的质粒上。用以下引物组合,使用先前描述的pThermoCas9_ppΔpyrF(参见实施例14)作为模板,扩增ThermoCas9片段:
2119(5’-AGCAATCTAATCTAAGTTTTAATTACAAAATGAAGTATAAAATCGGTCTTG-3’)[SEQID NO:225]和2118(5’-AATGTAAGCGTGACATAACTAATTACATGATTACACCTTCCTCTTCTTCTTGGGTAACGGACGGATAGTTTCCCCGGCTTTC-3’)[SEQ ID NO:224],引入核定位信号编码序列(5’-CCCAAGAAGAAGAGGAAGGTG-3’)[SEQ ID NO:238],该核定位信号编码序列融合到在终止密码子前的ThermoCas9基因的3’末端。用以下引物组合,使用pSF-TEF1-URA3质粒(OGS534;Sigma-Aldrich)作为模板,扩增CYC1终止子:2120(5’-CCGTTACCCAAGAAGAAGAGGAAGGTGTAATCATGTAATTAGTTATGTCACGCTTAC-3’)[SEQ ID NO:226]和2105(5’-ACAAAATGGAATATGTTCATAGGGTAGACGGATAGAGATGGGCCAATACC-3’)[SEQ ID NO:214]。用以下引物组合,从具有修复的LEU2基因的酿酒酵母CEN.PK113-17A(OrganoBalance)的基因组DNA扩增LEU2基因座(YCL018W,Gene ID:850342):
2111(5’-AACACAGAGTAAATTCCCAAATTATTCCATGTGTTCAAAAACGTTATATTTATAGG-3)[SEQ ID NO:219]和2110(5’-ATTTAAATTTCCGAACTCTCCAAGGCCCTCAGTCTCGACGATCCATATCG-3’)[SEQ ID NO:218]。
可选地,可以从基于酿酒酵母S288C LEU2基因座(YCL018W,GeneID:850342)的合成DNA扩增该基因,包括该基因的上游523bp和下游104bp的序列。用以下引物组合,使用Vector Conversion Cassette with SapphireTMTechnology(GeneArt Cat.no.A13291)作为模板,扩增酿酒酵母ARS复制子:
2104(5’-TTATCCTATAAATATAACGTTTTTGAACACATGGAATAATTTGGGAATTTACTC-3’)[SEQ ID NO:213]和2745(5’-GGGGACTAAAATTTTTTAATATAAATATATAAATTAAAAATAG-3’)[SEQID NO:233]。用以下引物组合,使用pSF-TEF1-URA3质粒(OGS534;Sigma-Aldrich)作为模板,扩增大肠杆菌pUC复制子:
2116(5’-GCCGATATCAAGACCGATTTTATACTTCATTTTGTAATTAAAACTTAGATTAGATTGCTATGC-3’)[SEQ ID NO:223]和2115(5’-CGCTCATTTGCTCGTCGGGCATCGAATCTCTCTTTGAAAAGATAATGTATGATTATG-3’)[SEQ ID NO:222]。用以下引物组合,使用pSF-TEF1-URA3质粒(OGS534;Sigma-Aldrich)作为模板,扩增具有卡那霉素抗性标志物和TEF1启动子的片段:
2109(5’-AAGCATAATCATACATTATCTTTTCAAAGAGAGATTCGATGCCCGACGAG-3’)[SEQ IDNO:217]和2114(5’-AATCTCAGGGGAACTATGACTCCACACCTCTGACCAACGCGATCATTTATCTTTCACTGCGGAGAAG-3’)[SEQ ID NO:221]。根据制造商的说明,用Phusion FlashHigh-Fidelity PCR master mix(ThermoFisher)创建6个PCR片段并且通过使用NEBuilderHiFi DNA组装克隆试剂盒(New England BioLabs)将重叠区域融合而将6个PCR片段组装到单个质粒中,产生质粒pRB021。使用Zymo DNA清洗和浓缩旋转柱(Zymo Reasearch)浓缩质粒DNA,并且洗脱到10μL H2O中并且通过热激(Sambrook,J.,enD.W.Russell.2001.Molecular cloning:a laboratory manual第三版.Cold SpringHarbor Laboratory Press,Cold Spring Harbor,New York)转化至大肠杆菌DH5α。将转化体铺板在补充有50mg/L卡那霉素的LB琼脂平板上并且在37℃孵育。选择单菌落用于使用ZymoPURETMPlasmid Midiprep试剂盒(Zymo Research)的质粒提取。通过序列分析证实质粒完整性。
使用以下引物组合,通过用pRB021作为模板通过PCR扩增ThermoCas9-LEU2片段,将ThermoCas9基因整合在酿酒酵母CEN.PK113-17ATDH1基因座(YJL052W)中:
2580(5’-TTCTTAGGTGCATGCGACGGTATCCACGTGCAGAACAACATAGTCTG AAGAAGGGGGGGATCCATCTTCGATGGATAGCG-3’)[SEQ ID NO:229]和2581(5’-AGAAGAGAAAAGGGTAAAGTTAATGCTTAATCTTGTCTTGGCTTAAA AAGTAATATGTACGGTCGCCTGACGCATATACC-3’)[SEQ ID NO:230],两者具有60bp尾,所述60bp尾同源于TDH1基因座的上游区域或下游区域。使用Zymo DNA清洗和浓缩旋转柱(Zymo Reasearch)浓缩扩增的片段,并且洗脱到10μL H2O中。如别处描述的(R.Daniel Gietz,Robin A.Woods,Methods in Enzymology,Academic Press,2002,第350卷,第87-96页),通过热激将大约500ng的该片段转化至酿酒酵母CEN.PK113-17A。将转化体铺板在补充有150mg/L尿嘧啶的SM琼脂平板(Verduyn,C.,E.Postma,W.A.Scheffers,和J.P.van Dijken.1990.J.Gen.Microbiol.136:395-403.)上,并且在30℃孵育持续三天。根据制造商的方案II,选择单菌落用于使用YeaStar基因组DNA试剂盒(Zymo Research)的基因组DNA提取。通过序列分析证实片段整合和ThermoCas9序列。
基于基因组序列、带有5’-GAATCCAA-3’的PAM序列的具有5’-GCACCTGGGTTTCTCCAATAACG-3’[SEQ ID NO:239]的靶向间隔区序列的酿酒酵母CAN1靶向gRNA,从通过三个片段的组装而构建的多拷贝质粒表达。用以下引物组合,从酿酒酵母CEN.PK113-17A基因组DNA扩增SNR启动子:
2113(5’-CTACAAATGTGGTATTGGCCCATCTCTATCCGTCTACCCTATGAACATATTCC-3’)[SEQID NO:220]和2666(5’-GGTATAACTTTCATTATACCACAGCGATAATCTCAGGGGAACTATGACCGTTATTGGAGAAACCCAGGTGCGATCATTTATCTTTCACTGCGGAGAAGTTTCGAACGCCGAAACATGCG-3’)[SEQ IDNO:232]。
使用以下引物组合,用pThermoCas9_ppΔpyrF作为模板,扩增包含CAN1靶向间隔区的sgRNA盒:
2665(5’-CGCATGTTTCGGCGTTCGAAACTTCTCCGCAGTGAAAGATAAATGATCGCACCTGGGTTTCTCCAATAACGGTCATAGTTCCCCTGAGATTATCGCTGTGGTATAATGAAAGTTATACC-3’)[SEQ ID NO:231]和2106(5’-AAAAAACCCCTCAAGACCCGAGACATAAAAAACAAAAAAACGCCTAAGAGTGGGGAATG-3’)[SEQ ID NO:215]。使用以下引物组合,使用pSF-TEF1-URA3质粒(OGS534;Sigma-Aldrich)作为模板,通过PCR扩增多拷贝骨架:
2103(5’-GCATTCCCCACTCTTAGGCGTTTTTTTGTTTTTTATGTCTCGGGTCTTGAGGGGTTTTTTGTG-3’)[SEQ ID NO:212]和2108(5’-GCAGTGAAAGATAAATGATCGCGTTGGTCAGAGGTGTGGAGTCATAGTTCCCCTGAGATTATCG-3’)[SEQ ID NO:216]。根据制造商的说明,用Phusion FlashHigh-Fidelity PCR master mix(ThermoFisher)创建3个PCR片段并且通过使用NEBuilderHiFi DNA组装克隆试剂盒(New England BioLabs)将重叠区域融合而将3个PCR片段组装到单个质粒中,产生质粒pRB089。使用Zymo DNA清洗和浓缩旋转柱(Zymo Reasearch)浓缩质粒DNA,并且洗脱到10μL H2O中并且通过热激(Sambrook,J.,enD.W.Russell.2001.Molecular cloning:a laboratory manual第三版.Cold SpringHarbor Laboratory Press,Cold Spring Harbor,New York)转化至大肠杆菌DH5α。将转化体铺板在补充有50mg/L卡那霉素的LB琼脂平板上并且在37℃孵育。选择单菌落用于使用ZymoPURETMPlasmid Midiprep试剂盒(Zymo Research)的质粒提取。通过序列分析证实质粒完整性。
通过以下退火引物构建由CAN1 ORF的上游60bp和下游60bp组成的修复寡聚物:
2101(5’-TTTCAGAGTTCTTCAGACTTCTTAACTCCTGTAAAAACAAAAAAAAAAAAAGGCATAGCAATATGACGTTTTATTACCTTTAATCACATTCCCACGCCATTTCGCATTCTCACCCTCATA-3’)[SEQ ID NO:210]和
2102(5’-TATGAGGGTGAGAATGCGAAATGGCGTGGGAATGTGATTAAAGGTAATAAAACGTCATATTGCTATGCCTTTTTTTTTTTTTGTTTTTACAGGAGTTAAGAAGTCTGAAGAACTCTGAAA-3’)[SEQ ID NO:211]。
将10μL的100mM的两种引物组合,在99℃煮沸持续5分钟,并且随后允许其缓慢地冷却至室温。
将大约100ng的含有质粒pRB089的sgRNA与200nmol的退火的CAN1修复寡聚物通过热激共转化到酿酒酵母tdh1::ThermoCas9-LEU2菌株,其中所有步骤通常地在30℃进行,现在在37℃进行。将转化体铺板在SM琼脂平板上,并且在37℃孵育持续4天。挑选了44个菌落,并且用以下引物,通过菌落PCR分析:2223(5’-GGTTGCGAACAGAGTAAACC-3’)[SEQ ID NO:227]和2224(5’-TCGGGAGCAAGATTGTTGTG-3’)[SEQ ID NO:228]。这鉴定出具有380bp缺失产物的一个菌落,而所有其他菌落显示出2153bp野生型片段。这证明了在酿酒酵母中的ThermoCas9核酸内切酶活性及其在基因组编辑中的应用。
/>
/>
说明书的以下部分由编号的段落组成,这些段落仅仅提供了本文已经描述的本发明的陈述。在本部分中的编号的段落不是权利要求。权利要求在所附的题为“权利要求书”的部分阐述。
1.一种分离的成簇的规律地间隔的短回文重复(CRISPR)相关的(Cas)蛋白或多肽,包含:
a.氨基酸基序EKDGKYYC[SEQ ID NO:2];和/或
b.氨基酸基序X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和/或
c.氨基酸基序X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和/或
d.氨基酸基序X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和/或
e.氨基酸基序X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸;
其中,当与至少一种靶向RNA分子和包含被靶向RNA分子识别的靶核酸序列的多核苷酸缔合时,Cas蛋白能够在50℃与100℃之间进行核酸裂解。
2.一种分离的Cas蛋白或多肽片段,该分离的Cas蛋白或多肽片段具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列,其中当与至少一种识别靶序列的RNA分子缔合时,Cas蛋白能够在50℃和100℃之间的温度结合、裂解、修饰或标记包含靶核酸序列的多核苷酸。
3.如在编号的段落1或2中所述的Cas蛋白或多肽片段,其中所述Cas蛋白或片段能够在50℃和75℃之间的温度,优选地在60℃以上的温度;更优选地在60℃和80℃之间的温度;甚至更优选地在60℃和65℃之间的温度进行核酸结合、裂解、标记或修饰。
4.如在编号的段落1至3的任一项中所述的Cas蛋白或多肽片段,其中核酸结合、裂解、标记或修饰是DNA裂解。
5.如在前述编号的段落的任一项中所述的Cas蛋白或多肽片段,其中氨基酸序列包含SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列。
6.如在前述编号的段落的任一项中所述的Cas蛋白或多肽片段,其中Cas蛋白从细菌、古核生物或病毒可获得。
7.如在前述编号的段落任一项中所述的Cas蛋白或多肽片段,其中Cas蛋白从地芽孢杆菌属的种,优选地从热脱氮地芽孢杆菌可获得。
8.一种核糖核蛋白复合体,所述核糖核蛋白复合体包含如在前述编号的段落的任一项中所述的Cas蛋白,并且包含识别靶多核苷酸中的序列的至少一种靶向RNA分子。
9.如在编号的段落8中所述的核糖核蛋白复合体,其中靶向RNA分子包含crRNA和任选地tracrRNA。
10.如在编号的段落7至9的任一项中所述的核糖核蛋白复合体,其中至少一种RNA分子的长度是在35-135个核苷酸残基的范围中。
11.如在编号的段落8或9中所述的核糖核蛋白复合体,其中靶序列的长度是31个或32个核苷酸残基。
12.如在编号的段落1至7的任一项中所述的Cas蛋白或多肽、或如在编号的段落8至11的任一项中所述的核糖核蛋白复合体,其中蛋白或多肽作为蛋白复合体的一部分被提供,所述蛋白复合体包含至少一种另外的功能蛋白或非功能蛋白。
13.如在编号的段落12中所述的Cas蛋白、多肽或核糖核蛋白复合体,其中Cas蛋白或多肽和/或至少一种另外的蛋白还包含至少一个功能部分。
14.如在编号的段落13中所述的Cas蛋白或多肽、或核糖核蛋白复合体,其中至少一个功能部分与Cas蛋白、多肽或核糖核蛋白复合体的N-末端和/或C-末端优选地N-末端融合或连接。
15.如在编号的段落13或14中所述的Cas蛋白或多肽、或核糖核蛋白复合体,其中至少一个功能部分是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。
16.如在编号的段落15中所述的Cas蛋白或多肽、或核糖核蛋白复合体,其中Cas9核酸酶活性的天然活性被失活并且Cas蛋白与至少一个功能部分连接。
17.如在编号的段落15或16中所述的Cas蛋白或多肽、或核糖核蛋白复合体,其中至少一个功能部分是核酸酶结构域;优选地为FokI核酸酶结构域。
18.如在编号的段落15至17的任一项中所述的Cas蛋白或多肽、或核糖核蛋白复合体,其中至少一个功能部分是标志物蛋白,例如GFP。
19.一种编码Cas蛋白或多肽的分离的核酸分子,所述Cas蛋白或多肽包含:
a.氨基酸基序EKDGKYYC[SEQ ID NO:2];和/或
b.氨基酸基序X1X2CTX3X4[SEQ ID NO:3],其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4是丙氨酸、谷氨酸或精氨酸之一;和/或
c.氨基酸基序X5LKX6IE[SEQ ID NO:4],其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和/或
d.氨基酸基序X7VYSX8K[SEQ ID NO:5],其中X7是谷氨酸或异亮氨酸,并且X8是色氨酸、丝氨酸或赖氨酸之一;和/或
e.氨基酸基序X9FYX10X11REQX12KEX13[SEQ ID NO:6],其中X9是丙氨酸或谷氨酸,X10是谷氨酰胺或赖氨酸,X11是精氨酸或丙氨酸,X12是天冬酰胺或丙氨酸,并且X13是赖氨酸或丝氨酸;
其中,当与至少一种靶向RNA分子和包含被该靶向RNA分子识别的靶核酸序列的多核苷酸缔合时,Cas蛋白或多肽能够在50℃与100℃之间进行DNA结合、裂解、标记或修饰。
20.一种分离的核酸分子,所述分离的核酸分子编码成簇的规律地间隔的短回文重复(CRISPR)相关(Cas)蛋白或其多肽片段,所述成簇的规律地间隔的短回文重复(CRISPR)相关(Cas)蛋白或其多肽片段具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列。
21.如在编号的段落19或20中所述的分离的核酸分子,所述分离的核酸分子还包含编码在翻译后与Cas蛋白或多肽融合的氨基酸序列的至少一种核酸序列。
22.如在编号的段落21中所述的分离的核酸分子,其中与编码Cas蛋白或多肽的核酸分子融合的至少一种核酸序列编码选自以下的蛋白:解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。
23.一种表达载体,所述表达载体包含如在编号的段落19至22的任一项中所述的核酸分子。
24.如在编号的段落23中所述的表达载体,所述表达载体还包含编码至少一种靶向RNA分子的核苷酸序列。
25.一种修饰靶核酸的方法,所述方法包括使所述核酸与以下接触:
a.如在编号的段落6至11的任一项中所述的核糖核蛋白复合体;或
b.如在编号的段落12至18的任一项中所述的蛋白或蛋白复合体和至少一种如在编号的段落6至11的任一项中定义的靶向RNA分子;且其中所述方法不在人类细胞中使用。
26.一种修饰非人类细胞中的靶核酸的方法,所述方法包括用编号的段落24的表达载体转化、转染或转导细胞;或可选地用编号的段落23的表达载体和包含编码如在编号的段落6至11的任一项中定义的靶向RNA分子的核苷酸序列的另外的表达载体转化、转染或转导细胞。
27.一种修饰非人类细胞中的靶核酸的方法,所述方法包括用编号的段落23的表达载体转化、转染或转导细胞,并且然后将如在编号的段落6至11的任一项中定义的靶向RNA分子递送至细胞或递送到细胞中。
28.如在编号的段落25至28的任一项中所述的修饰靶核酸的方法,其中至少一个功能部分是标志物蛋白或报告物蛋白,并且该标志物蛋白或报告物蛋白与靶核酸缔合;优选地其中标志物是荧光蛋白,例如绿色荧光蛋白(GFP)。
29.如在编号的段落25至28的任一项中所述的方法,其中靶核酸是DNA;优选地是dsDNA。
30.如在编号的段落25至28的任一项中所述的方法,其中靶核酸是RNA。
31.如在编号的段落29中所述的修饰靶核酸的方法,其中核酸是dsDNA,至少一个功能部分是核酸酶或解旋酶-核酸酶,并且修饰是在期望的基因座处的单链断裂或双链断裂。
32.一种在期望的基因座处使基因表达沉默的方法,所述方法根据在编号的段落26、27、29或31的任一项中所述的方法中的任一种方法进行。
33.一种在期望的位置处修饰或缺失和/或插入期望的核苷酸序列的方法,所述方法根据如在编号的段落26、27、29或31的任一项中所述的方法中的任一种方法进行。
34.一种修饰非人类细胞中的基因表达的方法,所述方法包括以如在编号的段落25至29的任一项中所述的方法修饰靶核酸序列;其中核酸是dsDNA,并且功能部分选自DNA修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物。
35.一种修饰非人类细胞中的基因表达的方法,所述方法包括以如在编号的段落30中所述的方法修饰靶核酸序列,其中核酸是mRNA并且功能部分是核糖核酸酶;任选地选自核酸内切酶、3’核酸外切酶或5’核酸外切酶。
36.如在编号的段落25至35的任一项中所述的修饰靶核酸的方法,其中所述方法在50℃和100℃之间的温度进行。
37.如在编号的段落36中所述的修饰靶核酸的方法,其中所述方法在60℃或60℃以上,优选地在60℃和80℃之间,更优选地在60℃和65℃之间的温度进行。
38.如在编号的段落25至37的任一项中所述的方法,其中细胞是原核细胞。
39.如在编号的段落25至38的任一项中所述的方法,其中细胞是真核细胞。
40.一种宿主细胞,所述宿主细胞通过如在编号的段落22至36的任一项中所述的方法转化;其中该细胞不是人类细胞。
说明书的以下部分由另外的编号的段落组成,这些段落仅仅提供了本文已经描述的本发明的陈述。在本部分中的编号的段落不是权利要求。权利要求在所附的题为“权利要求书”的部分阐述。
1.至少一种靶向RNA分子和Cas蛋白用于结合、裂解、标记或修饰包含靶核酸序列的双链靶多核苷酸的用途,其中:
所述双链靶多核苷酸包含靶核酸链和非靶核酸链,所述靶核酸链包含所述靶核酸序列,所述非靶核酸链包含与所述靶核酸序列互补的前间区核酸序列;
所述Cas蛋白具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列;
所述至少一种靶向RNA分子识别所述靶序列;
所述非靶核酸链还包含与所述前间区核酸序列的3’末端直接地相邻的前间区相邻基序(PAM)序列,其中所述PAM序列包含5’-NNNNCNN-3’;并且其中所述用途不是在人类细胞中。
2.如在段落1中所述的用途,其中所述结合、裂解、标记或修饰发生在20℃和100℃之间的温度、30℃和80℃之间的温度、37℃和78℃之间的温度,优选地55℃以上的温度;更优选地55℃和80℃之间的温度;甚至更优选地55℃和65℃之间的温度或60℃和65℃之间的温度。
3.如在段落1或段落2中所述的用途,其中包含所述靶核酸序列的所述多核苷酸被所述Cas蛋白裂解,优选地其中所述裂解是DNA裂解。
4.如在段落1至3的任一项中所述的用途,其中包含所述靶序列的所述靶核酸链是双链DNA,并且所述用途引起包含所述靶核酸序列的所述多核苷酸中的双链断裂。
5.如在段落1或段落2中所述的用途,其中包含所述靶核酸序列的所述多核苷酸是双链DNA,所述Cas蛋白缺乏切割所述双链DNA的能力,并且所述用途引起所述多核苷酸的基因沉默。
6.如在段落5中所述的用途,其中所述包含Cas蛋白的多核苷酸包含突变D8A和H582A。
7.如在前述段落的任一项中所述的用途,其中所述PAM序列包含5’-NNNNCNNA-3’[SEQ ID NO:47]。
8.如在前述段落的任一项中所述的用途,其中所述PAM序列包含5’-NNNNCSAA-3’[SEQ ID NO:48]。
9.如在段落8中所述的用途,其中所述PAM序列包含5’-NNNNCCAA-3’[SEQ ID NO:50]。
10.如在段落8或段落9中所述的用途,其中所述结合、裂解、标记或修饰发生在20℃和70℃之间的温度。
11.如在段落7至10的任一项中所述的用途,其中所述结合、裂解、标记或修饰发生在25℃和65℃之间的温度。
12.如在前述段落的任一项中所述的用途,其中所述Cas蛋白从细菌、古核生物或病毒,优选地从嗜热细菌可获得。
13.如在前述段落的任一项中所述的用途,其中所述Cas蛋白从地芽孢杆菌属的种,优选地从热脱氮地芽孢杆菌可获得。
14.如在前述段落的任一项中所述的用途,其中所述靶向RNA分子包含crRNA和tracrRNA。
15.如在前述段落的任一项中所述的用途,其中所述至少一种靶向RNA分子的长度是在35-200个核苷酸残基的范围中。
16.如在前述段落的任一项中所述的用途,其中所述靶核酸序列的长度是从15个至32个核苷酸残基。
17.如在前述段落的任一项中所述的用途,其中所述Cas蛋白还包含至少一个功能部分。
18.如在前述段落的任一项中所述的用途,其中所述Cas蛋白作为蛋白复合体的一部分被提供,所述蛋白复合体包含至少一种另外的功能蛋白或非功能蛋白,任选地其中所述至少一种另外的蛋白还包含至少一个功能部分。
19.如在段落17或段落18中所述的用途,其中所述Cas蛋白或另外的蛋白包含与所述Cas蛋白或蛋白复合体的N-末端和/或C-末端,优选地C-末端融合或连接的至少一个功能部分。
20.如在段落17至19的任一项中所述的用途,其中所述至少一个功能部分是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签,例如绿色荧光蛋白(GFP)。
21.如在段落20中所述的用途,其中所述Cas9核酸酶的天然活性被失活并且所述Cas蛋白与至少一个功能部分连接。
22.如在段落20或段落21中所述的用途,其中所述至少一个功能部分是核酸酶结构域;优选地FokI核酸酶结构域。
23.如在段落20至22的任一项中所述的用途,其中所述至少一个功能部分是标志物蛋白。
24.一种结合、裂解、标记或修饰双链靶多核苷酸的方法,其中所述双链靶多核苷酸包含靶核酸链和非靶核酸链,所述靶核酸链包含靶核酸序列,所述非靶核酸链包含与所述靶核酸序列互补的前间区核酸序列,所述方法包括:
a.设计至少一种靶向RNA分子,其中所述靶向RNA分子识别在所述靶链中的所述靶序列,并且所述非靶链还包含与所述前间区序列的3’末端直接地相邻的前间区相邻基序(PAM)序列,其中所述PAM序列包含5’-NNNNCNN-3’;
b.形成包含所述靶向RNA分子和Cas蛋白的核糖核蛋白复合体,其中分离的所述Cas蛋白具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列;和
c.所述核糖核蛋白复合物结合、裂解、标记或修饰所述靶多核苷酸;并且其中所述方法不在人类细胞中使用。
25.如在段落24中所述的方法,其中所述结合、裂解、标记或修饰发生在20℃和100℃之间的温度、30℃和80℃之间的温度、37℃和78℃之间的温度,优选地55℃以上的温度;更优选地,55℃和80℃之间的温度;甚至更优选地55℃和65℃之间的温度或60℃和65℃之间的温度。
26.如在段落24或段落25中所述的方法,其中包含所述靶核酸序列的所述双链靶多核苷酸被所述Cas蛋白裂解,优选地其中所述裂解是DNA裂解。
27.如在段落24至26的任一项中所述的方法,其中所述靶多核苷酸是双链DNA,并且所述用途引起所述多核苷酸中的双链断裂。
28.如在段落24或段落25中所述的方法,其中包含所述靶核酸序列的所述靶多核苷酸是双链DNA,所述Cas蛋白缺乏切割所述双链DNA的能力,并且所述方法引起所述靶多核苷酸的基因沉默。
29.如在段落24至28的任一项中所述的方法,其中所述PAM序列包含5’-NNNNCNNA-3’[SEQ ID NO:47]。
30.如在段落29中所述的方法,其中所述PAM序列包含5’-NNNNCSAA-3’[SEQ IDNO:48]。
31.如在段落30中所述的方法,其中所述PAM序列包含5’-NNNNCCAA-3’[SEQ IDNO:50]。
32.如在段落30或段落31中所述的方法,其中所述结合、裂解、标记或修饰发生在20℃和70℃之间的温度。
33.如在段落29至32的任一项中所述的方法,其中所述结合、裂解、标记或修饰发生在25℃和65℃之间的温度。
34.如在段落24至33的任一项中所述的方法,其中所述Cas蛋白从细菌、古核生物或病毒,优选地从嗜热细菌可获得。
35.如在段落24至34的任一项中所述的方法,其中所述Cas蛋白从地芽孢杆菌属的种,优选地从热脱氮地芽孢杆菌可获得。
36.如在段落24至35的任一项中所述的方法,其中所述靶向RNA分子包含crRNA和tracrRNA。
37.如在段落24至36的任一项中所述的方法,其中所述至少一种靶向RNA分子的长度是在35-200个核苷酸残基的范围中。
38.如在段落24至37的任一项中所述的方法,其中所述靶核酸序列的长度是从15个至32个核苷酸残基。
39.如在段落24至39的任一项中所述的方法,其中所述Cas蛋白还包含至少一个功能部分。
40.如在段落24至40的任一项中所述的方法,其中所述Cas蛋白作为蛋白复合体的一部分被提供,所述蛋白复合体包含至少一种另外的功能蛋白或非功能蛋白,任选地其中所述至少一种另外的蛋白还包含至少一个功能部分。
41.如在段落39或40中所述的方法,其中所述Cas蛋白或另外的蛋白包含与所述Cas蛋白或蛋白复合体的N-末端和/或C-末端,优选地C-末端融合或连接的至少一个功能部分。
42.如在段落39至41的任一项中所述的方法,其中所述至少一个功能部分是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签,例如绿色荧光蛋白(GFP)。
43.如在段落42中所述的方法,其中所述Cas9核酸酶的天然活性被失活并且所述Cas蛋白与至少一个功能部分连接。
44.如在段落42或段落43中所述的方法,其中所述至少一个功能部分是核酸酶结构域;优选地FokI核酸酶结构域。
45.如在段落42至44的任一项中所述的方法,其中所述至少一个功能部分是标志物蛋白。
46.如在段落20中所述的用途或如在段落42中所述的方法,其中所述双链靶多核苷酸是dsDNA,所述至少一个功能部分是核酸酶或解旋酶-核酸酶,并且所述修饰是在期望的基因座处的单链断裂或双链断裂。
47.如在段落20中所述的用途或如在段落42中所述的方法,其中所述双链靶多核苷酸是dsDNA,并且所述功能部分选自DNA修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物,并且所述结合、裂解、标记或修饰引起基因表达的修饰。
48.如在段落20中所述的用途或如在段落42中所述的方法,其中所述结合、裂解、标记或修饰发生在体内。
49.如在段落48中所述的用途或方法,其中所述结合、裂解、标记或修饰发生在嗜热生物体,优选地嗜热原核生物,更优选地芽孢杆菌属的种中。
50.如在段落48中所述的用途或方法,其中所述结合、裂解、标记或修饰发生在嗜温生物体,优选地嗜温原核生物,更优选地假单胞菌属的种中。
51.如在段落1至4、7至23或46的任一项中所述的用途,或如在段落24至27、29至46的任一项中的方法,其中所述结合、裂解、标记或修饰引起在期望的位置修饰或缺失和/或插入期望的核苷酸序列,和/或其中所述结合、裂解、标记或修饰引起使在期望的基因座处的基因表达沉默。
52.一种经转化的非人类细胞,所述经转化的非人类细胞具有包含靶核酸序列的双链靶多核苷酸,其中所述双链靶多核苷酸包含靶核酸链和非靶核酸链,所述靶核酸链包含所述靶核酸序列,所述非靶核酸链包含与所述靶核酸序列互补的前间区核酸序列,所述细胞包含:
成簇的规律地间隔的短回文重复(CRISPR)相关的(Cas)蛋白,所述成簇的规律地间隔的短回文重复(CRISPR)相关的(Cas)蛋白具有SEQ ID NO:1的氨基酸序列或与SEQ IDNO:1具有至少77%同一性的序列;
至少一种靶向RNA分子,所述至少一种靶向RNA分子识别所述靶核酸链中的所述靶核酸序列,其中所述非靶链还包含与所述前间区序列的3’末端直接地相邻的前间区相邻基序(PAM)序列,其中所述PAM序列包含5’-NNNNCNN-3’;和
表达载体,所述表达载体包含编码所述Cas蛋白和所述靶向RNA分子中的至少一种的核酸。
53.如在段落52中所述的经转化的细胞,其中所述Cas蛋白和靶向RNA分子使得能够结合、裂解、标记或修饰所述细胞中的所述靶多核苷酸,并且所述结合、裂解、标记或修饰发生在20℃和100℃之间的温度、30℃和80℃之间的温度、37℃和78℃之间的温度,优选地55℃以上的温度;更优选地55℃和80℃之间的温度;甚至更优选地55℃和65℃之间的温度或60℃和65℃之间的温度。
54.如在段落52或段落53中所述的经转化的细胞,其中包含所述靶核酸序列的所述靶核酸链被所述Cas蛋白裂解,优选地其中所述裂解是DNA裂解。
55.如在段落52至54的任一项中所述的经转化的细胞,其中包含所述靶序列的所述靶多核苷酸是双链DNA,并且所述结合、裂解、标记或修饰引起所述靶多核苷酸中的双链断裂。
56.如在段落52或段落53中所述的经转化的细胞,其中包含所述靶核酸序列的所述靶多核苷酸是双链DNA,所述Cas蛋白缺乏切割所述双链DNA的能力,并且所述结合、裂解、标记或修饰引起所述靶多核苷酸的基因沉默。
57.如在段落52至56的任一项中所述的经转化的细胞,其中所述PAM序列包含5’-NNNNCNNA-3’[SEQ ID NO:47]。
58.如在段落57中所述的经转化的细胞,其中所述PAM序列包含5’-NNNNCSAA-3’[SEQ ID NO:48]。
59.如在段落58中所述的经转化的细胞,其中所述PAM序列包含5’-NNNNCCAA-3’[SEQ ID NO:50]。
60.如在段落58或段落59中所述的经转化的细胞,其中所述结合、裂解、标记或修饰发生在20℃和70℃之间的温度。
61.如在段落57至60的任一项中所述的经转化的细胞,其中所述结合、裂解、标记或修饰发生在25℃和65℃之间的温度。
62.如在段落52至61的任一项中所述的经转化的细胞,其中所述Cas蛋白从细菌、古核生物或病毒,优选地从嗜热细菌可获得。
63.如在段落52至62的任一项中所述的经转化的细胞,其中所述Cas蛋白从地芽孢杆菌属的种,优选地从热脱氮地芽孢杆菌可获得。
64.如在段落52至63的任一项中所述的经转化的细胞,其中所述细胞是原核细胞。
65.如在段落52至63的任一项中所述的经转化的细胞,其中所述细胞是真核细胞。
66.如在段落52至65的任一项中所述的经转化的细胞,其中所述靶向RNA分子包含crRNA和tracrRNA。
67.如在段落52至66的任一项中所述的经转化的细胞,其中所述至少一种靶向RNA分子的长度是在35-200个核苷酸残基的范围中。
68.如在段落52至67的任一项中所述的经转化的细胞,其中所述靶核酸序列的长度是从15个至32个核苷酸残基。
69.如在段落52至68的任一项中所述的经转化的细胞,其中所述Cas蛋白还包含至少一个功能部分。
70.如在段落52至69的任一项中所述的经转化的细胞,其中所述Cas蛋白作为蛋白复合体的一部分被提供,所述蛋白复合体包含至少一种另外的功能蛋白或非功能蛋白,任选地其中所述至少一种另外的蛋白还包含至少一个功能部分。
71.如在段落69或70中所述的经转化的细胞,其中所述Cas蛋白或另外的蛋白包含与所述Cas蛋白或蛋白复合体的N-末端和/或C-末端,优选地N-末端融合或连接的至少一个功能部分。
72.如在段落69至71的任一项中所述的经转化的细胞,其中所述至少一个功能部分是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签,例如绿色荧光蛋白(GFP)。
73.如在段落72中所述的经转化的细胞,其中所述Cas9核酸酶的天然活性被失活并且所述Cas蛋白与至少一个功能部分连接。
74.如在段落69至73的任一项中所述的经转化的细胞,其中所述至少一个功能部分是核酸酶结构域;优选地FokI核酸酶结构域。
75.如在段落69至73的任一项中所述的经转化的细胞,其中所述至少一个功能部分是标志物蛋白。
76.如在段落69至74的任一项中所述的经转化的细胞,其中所述双链靶多核苷酸是dsDNA,所述至少一个功能部分是核酸酶或解旋酶-核酸酶,并且所述修饰是在期望的基因座处的单链断裂或双链断裂。
77.如在段落69至73的任一项中所述的经转化的细胞或如在段落42中的方法,其中所述双链靶多核苷酸是dsDNA,并且所述功能部分选自DNA修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物,并且所述结合、裂解、标记或修饰引起基因表达的修饰。
78.如在段落69至74的任一项中所述的经转化的细胞,其中所述Cas蛋白从表达载体表达。
79.如在段落52至78的任一项中所述的经转化的细胞,其中所述结合、裂解、标记或修饰引起在期望的位置修饰或缺失和/或插入期望的核苷酸序列,和/或其中所述结合、裂解、标记或修饰引起使在期望的基因座处的基因表达沉默。
80.一种核蛋白复合体,所述核蛋白复合体包含Cas蛋白、识别双链靶多核苷酸中的靶核酸序列的至少一种靶向RNA分子、和所述靶多核苷酸,其中
所述Cas蛋白具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列;
所述双链靶多核苷酸包含靶核酸链和非靶核酸链,所述靶核酸链包含所述靶核酸序列,所述非靶核酸链包含与所述靶核酸序列互补的前间区核酸序列和与所述前间区序列的3’末端直接地相邻的前间区相邻基序(PAM)序列,其中所述PAM序列包含5’-NNNNCNN-3’;其中所述核蛋白复合体不在人类细胞中。
81.如在段落80中所述的核蛋白复合体,其中所述核蛋白复合体发生在20℃和100℃之间的温度、30℃和80℃之间的温度、37℃和78℃之间的温度,优选地55℃以上的温度;更优选地55℃和80℃之间的温度;甚至更优选地55℃和65℃之间的温度或60℃和65℃之间的温度。
82.如在段落80或权利要求81中所述的核蛋白复合体,其中包含所述靶核酸序列的所述双链靶多核苷酸被所述Cas蛋白裂解,优选地其中所述裂解是DNA裂解。
83.如在段落80至82的任一项中所述的核蛋白复合体,其中包含所述靶序列的所述靶多核苷酸是双链DNA,并且所述结合、裂解、标记或修饰引起所述靶多核苷酸中的双链断裂。
84.如在段落80或段落81中所述的核蛋白复合体,其中包含所述靶核酸序列的所述靶多核苷酸是双链DNA,所述Cas蛋白缺乏切割所述双链DNA的能力,并且所述核蛋白复合体的存在引起所述靶多核苷酸的基因沉默。
85.如在段落80至84的任一项所述中的核蛋白复合体,其中所述PAM序列包含5’-NNNNCNNA-3’[SEQ ID NO:47]。
86.如在段落85中所述的核蛋白复合体,其中所述PAM序列包含5’-NNNNCSAA-3’[SEQ ID NO:48]。
87.如在段落86中所述的核蛋白复合体,其中所述PAM序列包含5’-NNNNCCAA-3’[SEQ ID NO:50]。
88.如在段落86或段落87中所述的核蛋白复合体,其中所述结合、裂解、标记或修饰发生在20℃和70℃之间的温度。
89.如在段落85至88的任一项中所述的核蛋白复合体,其中所述结合、裂解、标记或修饰发生在25℃和65℃之间的温度。
90.如在段落80至89的任一项中所述的核蛋白复合体,其中所述Cas蛋白从细菌、古核生物或病毒,优选地从嗜热细菌可获得。
91.如在段落80至90的任一项中所述的核蛋白复合体,其中所述Cas蛋白从地芽孢杆菌属的种,优选地从热脱氮地芽孢杆菌可获得。
92.如在段落80至91的任一项中所述的核蛋白复合体,其中所述核蛋白复合体是在原核细胞中。
93.如在段落80至91的任一项中所述的核蛋白复合体,其中所述核蛋白复合体是在真核细胞中。
94.如在段落80至93的任一项中所述的核蛋白复合体,其中所述靶向RNA分子包含crRNA和tracrRNA。
95.如在段落80至94的任一项中所述的核蛋白复合体,其中所述至少一种靶向RNA分子的长度是在35-200个核苷酸残基的范围中。
96.如在段落80至95的任一项中所述的核蛋白复合体,其中所述靶核酸序列的长度是从15个至32个核苷酸残基。
97.如在段落80至96的任一项中所述的核蛋白复合体,其中所述Cas蛋白还包含至少一个功能部分。
98.如在段落80至97的任一项中所述的核蛋白复合体,其中所述Cas蛋白作为蛋白复合体的一部分被提供,所述蛋白复合体包含至少一种另外的功能蛋白或非功能蛋白,任选地其中所述至少一种另外的蛋白还包含至少一个功能部分。
99.如在段落97或98中所述的核蛋白复合体,其中所述Cas蛋白或另外的蛋白包含与所述Cas蛋白或蛋白复合体的N-末端和/或C-末端,优选地C-末端融合或连接的至少一个功能部分。
100.如在段落97至99的任一项中所述的核蛋白复合体,其中所述至少一个功能部分是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签,例如绿色荧光蛋白(GFP)。
101.如在段落100中所述的核蛋白复合体,其中所述Cas9核酸酶的天然活性被失活并且所述Cas蛋白与至少一个功能部分连接。
102.如在段落97至101的任一项中所述的核蛋白复合体,其中所述至少一个功能部分是核酸酶结构域;优选地FokI核酸酶结构域。
103.如在段落97至101的任一项中所述的核蛋白复合体,其中所述至少一个功能部分是标志物蛋白。
104.如在段落97至102的任一项中所述的核蛋白复合体,其中所述核酸是dsDNA,所述至少一个功能部分是核酸酶或解旋酶-核酸酶,并且所述靶多核苷酸具有在期望的基因座处的单链断裂或双链断裂。
105.如在段落97至101的任一项中所述的核蛋白复合体,其中所述核酸是dsDNA,并且所述功能部分选自DNA修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物,并且所述核蛋白复合体引起基因表达的修饰。
106.如在段落80至105的任一项中所述的核蛋白复合体,其中所述核蛋白的形成引起在期望的位置修饰或缺失和/或插入期望的核苷酸序列,和/或其中所述核蛋白复合体的形成引起使在期望的基因座处的基因表达沉默。
序列表
<110> 瓦赫宁根大学;科学技术基金会
<120> 热稳定的Cas9核酸酶
<130> P220294WO4
<140> PCT/EP2017/082870
<141> 2017-12-14
<150> PCT/EP2016/081077
<151> 2016-12-14
<150> PCT/EP2017/070796
<151> 2017-08-16
<160> 239
<170> PatentIn 3.5版
<210> 1
<211> 1082
<212> PRT
<213> 热脱氮地芽孢杆菌(Geobacillus thermodenitrificans) T12
<400> 1
Met Lys Tyr Lys Ile Gly Leu Asp Ile Gly Ile Thr Ser Ile Gly Trp
1 5 10 15
Ala Val Ile Asn Leu Asp Ile Pro Arg Ile Glu Asp Leu Gly Val Arg
20 25 30
Ile Phe Asp Arg Ala Glu Asn Pro Lys Thr Gly Glu Ser Leu Ala Leu
35 40 45
Pro Arg Arg Leu Ala Arg Ser Ala Arg Arg Arg Leu Arg Arg Arg Lys
50 55 60
His Arg Leu Glu Arg Ile Arg Arg Leu Phe Val Arg Glu Gly Ile Leu
65 70 75 80
Thr Lys Glu Glu Leu Asn Lys Leu Phe Glu Lys Lys His Glu Ile Asp
85 90 95
Val Trp Gln Leu Arg Val Glu Ala Leu Asp Arg Lys Leu Asn Asn Asp
100 105 110
Glu Leu Ala Arg Ile Leu Leu His Leu Ala Lys Arg Arg Gly Phe Arg
115 120 125
Ser Asn Arg Lys Ser Glu Arg Thr Asn Lys Glu Asn Ser Thr Met Leu
130 135 140
Lys His Ile Glu Glu Asn Gln Ser Ile Leu Ser Ser Tyr Arg Thr Val
145 150 155 160
Ala Glu Met Val Val Lys Asp Pro Lys Phe Ser Leu His Lys Arg Asn
165 170 175
Lys Glu Asp Asn Tyr Thr Asn Thr Val Ala Arg Asp Asp Leu Glu Arg
180 185 190
Glu Ile Lys Leu Ile Phe Ala Lys Gln Arg Glu Tyr Gly Asn Ile Val
195 200 205
Cys Thr Glu Ala Phe Glu His Glu Tyr Ile Ser Ile Trp Ala Ser Gln
210 215 220
Arg Pro Phe Ala Ser Lys Asp Asp Ile Glu Lys Lys Val Gly Phe Cys
225 230 235 240
Thr Phe Glu Pro Lys Glu Lys Arg Ala Pro Lys Ala Thr Tyr Thr Phe
245 250 255
Gln Ser Phe Thr Val Trp Glu His Ile Asn Lys Leu Arg Leu Val Ser
260 265 270
Pro Gly Gly Ile Arg Ala Leu Thr Asp Asp Glu Arg Arg Leu Ile Tyr
275 280 285
Lys Gln Ala Phe His Lys Asn Lys Ile Thr Phe His Asp Val Arg Thr
290 295 300
Leu Leu Asn Leu Pro Asp Asp Thr Arg Phe Lys Gly Leu Leu Tyr Asp
305 310 315 320
Arg Asn Thr Thr Leu Lys Glu Asn Glu Lys Val Arg Phe Leu Glu Leu
325 330 335
Gly Ala Tyr His Lys Ile Arg Lys Ala Ile Asp Ser Val Tyr Gly Lys
340 345 350
Gly Ala Ala Lys Ser Phe Arg Pro Ile Asp Phe Asp Thr Phe Gly Tyr
355 360 365
Ala Leu Thr Met Phe Lys Asp Asp Thr Asp Ile Arg Ser Tyr Leu Arg
370 375 380
Asn Glu Tyr Glu Gln Asn Gly Lys Arg Met Glu Asn Leu Ala Asp Lys
385 390 395 400
Val Tyr Asp Glu Glu Leu Ile Glu Glu Leu Leu Asn Leu Ser Phe Ser
405 410 415
Lys Phe Gly His Leu Ser Leu Lys Ala Leu Arg Asn Ile Leu Pro Tyr
420 425 430
Met Glu Gln Gly Glu Val Tyr Ser Thr Ala Cys Glu Arg Ala Gly Tyr
435 440 445
Thr Phe Thr Gly Pro Lys Lys Lys Gln Lys Thr Val Leu Leu Pro Asn
450 455 460
Ile Pro Pro Ile Ala Asn Pro Val Val Met Arg Ala Leu Thr Gln Ala
465 470 475 480
Arg Lys Val Val Asn Ala Ile Ile Lys Lys Tyr Gly Ser Pro Val Ser
485 490 495
Ile His Ile Glu Leu Ala Arg Glu Leu Ser Gln Ser Phe Asp Glu Arg
500 505 510
Arg Lys Met Gln Lys Glu Gln Glu Gly Asn Arg Lys Lys Asn Glu Thr
515 520 525
Ala Ile Arg Gln Leu Val Glu Tyr Gly Leu Thr Leu Asn Pro Thr Gly
530 535 540
Leu Asp Ile Val Lys Phe Lys Leu Trp Ser Glu Gln Asn Gly Lys Cys
545 550 555 560
Ala Tyr Ser Leu Gln Pro Ile Glu Ile Glu Arg Leu Leu Glu Pro Gly
565 570 575
Tyr Thr Glu Val Asp His Val Ile Pro Tyr Ser Arg Ser Leu Asp Asp
580 585 590
Ser Tyr Thr Asn Lys Val Leu Val Leu Thr Lys Glu Asn Arg Glu Lys
595 600 605
Gly Asn Arg Thr Pro Ala Glu Tyr Leu Gly Leu Gly Ser Glu Arg Trp
610 615 620
Gln Gln Phe Glu Thr Phe Val Leu Thr Asn Lys Gln Phe Ser Lys Lys
625 630 635 640
Lys Arg Asp Arg Leu Leu Arg Leu His Tyr Asp Glu Asn Glu Glu Asn
645 650 655
Glu Phe Lys Asn Arg Asn Leu Asn Asp Thr Arg Tyr Ile Ser Arg Phe
660 665 670
Leu Ala Asn Phe Ile Arg Glu His Leu Lys Phe Ala Asp Ser Asp Asp
675 680 685
Lys Gln Lys Val Tyr Thr Val Asn Gly Arg Ile Thr Ala His Leu Arg
690 695 700
Ser Arg Trp Asn Phe Asn Lys Asn Arg Glu Glu Ser Asn Leu His His
705 710 715 720
Ala Val Asp Ala Ala Ile Val Ala Cys Thr Thr Pro Ser Asp Ile Ala
725 730 735
Arg Val Thr Ala Phe Tyr Gln Arg Arg Glu Gln Asn Lys Glu Leu Ser
740 745 750
Lys Lys Thr Asp Pro Gln Phe Pro Gln Pro Trp Pro His Phe Ala Asp
755 760 765
Glu Leu Gln Ala Arg Leu Ser Lys Asn Pro Lys Glu Ser Ile Lys Ala
770 775 780
Leu Asn Leu Gly Asn Tyr Asp Asn Glu Lys Leu Glu Ser Leu Gln Pro
785 790 795 800
Val Phe Val Ser Arg Met Pro Lys Arg Ser Ile Thr Gly Ala Ala His
805 810 815
Gln Glu Thr Leu Arg Arg Tyr Ile Gly Ile Asp Glu Arg Ser Gly Lys
820 825 830
Ile Gln Thr Val Val Lys Lys Lys Leu Ser Glu Ile Gln Leu Asp Lys
835 840 845
Thr Gly His Phe Pro Met Tyr Gly Lys Glu Ser Asp Pro Arg Thr Tyr
850 855 860
Glu Ala Ile Arg Gln Arg Leu Leu Glu His Asn Asn Asp Pro Lys Lys
865 870 875 880
Ala Phe Gln Glu Pro Leu Tyr Lys Pro Lys Lys Asn Gly Glu Leu Gly
885 890 895
Pro Ile Ile Arg Thr Ile Lys Ile Ile Asp Thr Thr Asn Gln Val Ile
900 905 910
Pro Leu Asn Asp Gly Lys Thr Val Ala Tyr Asn Ser Asn Ile Val Arg
915 920 925
Val Asp Val Phe Glu Lys Asp Gly Lys Tyr Tyr Cys Val Pro Ile Tyr
930 935 940
Thr Ile Asp Met Met Lys Gly Ile Leu Pro Asn Lys Ala Ile Glu Pro
945 950 955 960
Asn Lys Pro Tyr Ser Glu Trp Lys Glu Met Thr Glu Asp Tyr Thr Phe
965 970 975
Arg Phe Ser Leu Tyr Pro Asn Asp Leu Ile Arg Ile Glu Phe Pro Arg
980 985 990
Glu Lys Thr Ile Lys Thr Ala Val Gly Glu Glu Ile Lys Ile Lys Asp
995 1000 1005
Leu Phe Ala Tyr Tyr Gln Thr Ile Asp Ser Ser Asn Gly Gly Leu
1010 1015 1020
Ser Leu Val Ser His Asp Asn Asn Phe Ser Leu Arg Ser Ile Gly
1025 1030 1035
Ser Arg Thr Leu Lys Arg Phe Glu Lys Tyr Gln Val Asp Val Leu
1040 1045 1050
Gly Asn Ile Tyr Lys Val Arg Gly Glu Lys Arg Val Gly Val Ala
1055 1060 1065
Ser Ser Ser His Ser Lys Ala Gly Glu Thr Ile Arg Pro Leu
1070 1075 1080
<210> 2
<211> 8
<212> PRT
<213> 热脱氮地芽孢杆菌(Geobacillus thermodenitrificans) T12
<400> 2
Glu Lys Asp Gly Lys Tyr Tyr Cys
1 5
<210> 3
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 来自Cas9的氨基酸基序
<220>
<221> X
<222> (1)..(1)
<223> 异亮氨酸、甲硫氨酸或脯氨酸
<220>
<221> X
<222> (2)..(2)
<223> 缬氨酸、丝氨酸、天冬酰胺或异亮氨酸
<220>
<221> X
<222> (5)..(5)
<223> 谷氨酸或赖氨酸
<220>
<221> X
<222> (6)..(6)
<223> 丙氨酸、谷氨酸或精氨酸
<400> 3
Xaa Xaa Cys Thr Xaa Xaa
1 5
<210> 4
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 来自热脱氮地芽孢杆菌T12 Cas9的氨基酸基序
<220>
<221> X
<222> (1)..(1)
<223> 甲硫氨酸或苯丙氨酸
<220>
<221> X
<222> (4)..(4)
<223> 组氨酸或天冬酰胺
<400> 4
Xaa Leu Lys Xaa Ile Glu
1 5
<210> 5
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 来自热脱氮地芽孢杆菌T12的氨基酸基序
<220>
<221> X
<222> (1)..(1)
<223> 谷氨酸或异亮氨酸
<220>
<221> X
<222> (5)..(5)
<223> 色氨酸、丝氨酸或赖氨酸
<400> 5
Xaa Val Tyr Ser Xaa Lys
1 5
<210> 6
<211> 12
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 来自嗜热Cas9的氨基酸基序
<220>
<221> X
<222> (1)..(1)
<223> 丙氨酸或谷氨酸
<220>
<221> X
<222> (4)..(4)
<223> 谷氨酰胺或赖氨酸
<220>
<221> X
<222> (5)..(5)
<223> 精氨酸或丙氨酸
<220>
<221> X
<222> (9)..(9)
<223> 天冬酰胺或丙氨酸
<220>
<221> X
<222> (12)..(12)
<223> 赖氨酸或丝氨酸
<400> 6
Xaa Phe Tyr Xaa Xaa Arg Glu Gln Xaa Lys Glu Xaa
1 5 10
<210> 7
<211> 3249
<212> DNA
<213> 热脱氮地芽孢杆菌(Geobacillus thermodenitrificans) T12
<400> 7
atgaagtata aaatcggtct tgatatcggc attacgtcta tcggttgggc tgtcattaat 60
ttggacattc ctcgcatcga agatttaggt gtccgcattt ttgacagagc ggaaaacccg 120
aaaaccgggg agtcactagc tcttccacgt cgcctcgccc gctccgcccg acgtcgtctg 180
cggcgtcgca aacatcgact ggagcgcatt cgccgcctgt tcgtccgcga aggaatttta 240
acgaaggaag agctgaacaa gctgtttgaa aaaaagcacg aaatcgacgt ctggcagctt 300
cgtgttgaag cactggatcg aaaactaaat aacgatgaat tagcccgcat ccttcttcat 360
ctggctaaac ggcgtggatt tagatccaac cgcaagagtg agcgcaccaa caaagaaaac 420
agtacgatgc tcaaacatat tgaagaaaac caatccattc tttcaagtta ccgaacggtt 480
gcagaaatgg ttgtcaagga tccgaaattt tccctgcaca agcgtaataa agaggataat 540
tacaccaaca ctgttgcccg cgacgatctt gaacgggaaa tcaaactgat tttcgccaaa 600
cagcgcgaat atgggaacat cgtttgcaca gaagcatttg aacacgagta tatttccatt 660
tgggcatcgc aacgcccttt tgcttctaag gatgatatcg agaaaaaagt cggtttctgt 720
acgtttgagc ctaaagaaaa acgcgcgcca aaagcaacat acacattcca gtccttcacc 780
gtctgggaac atattaacaa acttcgtctt gtctccccgg gaggcatccg ggcactaacc 840
gatgatgaac gtcgtcttat atacaagcaa gcatttcata aaaataaaat caccttccat 900
gatgttcgaa cattgcttaa cttgcctgac gacacccgtt ttaaaggtct tttatatgac 960
cgaaacacca cgctgaagga aaatgagaaa gttcgcttcc ttgaactcgg cgcctatcat 1020
aaaatacgga aagcgatcga cagcgtctat ggcaaaggag cagcaaaatc atttcgtccg 1080
attgattttg atacatttgg ctacgcatta acgatgttta aagacgacac cgacattcgc 1140
agttacttgc gaaacgaata cgaacaaaat ggaaaacgaa tggaaaatct agcggataaa 1200
gtctatgatg aagaattgat tgaagaactt ttaaacttat cgttttctaa gtttggtcat 1260
ctatccctta aagcgcttcg caacatcctt ccatatatgg aacaaggcga agtctactca 1320
accgcttgtg aacgagcagg atatacattt acagggccaa agaaaaaaca gaaaacggta 1380
ttgctgccga acattccgcc gatcgccaat ccggtcgtca tgcgcgcact gacacaggca 1440
cgcaaagtgg tcaatgccat tatcaaaaag tacggctcac cggtctccat ccatatcgaa 1500
ctggcccggg aactatcaca atcctttgat gaacgacgta aaatgcagaa agaacaggaa 1560
ggaaaccgaa agaaaaacga aactgccatt cgccaacttg ttgaatatgg gctgacgctc 1620
aatccaactg ggcttgacat tgtgaaattc aaactatgga gcgaacaaaa cggaaaatgt 1680
gcctattcac tccaaccgat cgaaatcgag cggttgctcg aaccaggcta tacagaagtc 1740
gaccatgtga ttccatacag ccgaagcttg gacgatagct ataccaataa agttcttgtg 1800
ttgacaaagg agaaccgtga aaaaggaaac cgcaccccag ctgaatattt aggattaggc 1860
tcagaacgtt ggcaacagtt cgagacgttt gtcttgacaa ataagcagtt ttcgaaaaag 1920
aagcgggatc gactccttcg gcttcattac gatgaaaacg aagaaaatga gtttaaaaat 1980
cgtaatctaa atgatacccg ttatatctca cgcttcttgg ctaactttat tcgcgaacat 2040
ctcaaattcg ccgacagcga tgacaaacaa aaagtataca cggtcaacgg ccgtattacc 2100
gcccatttac gcagccgttg gaattttaac aaaaaccggg aagaatcgaa tttgcatcat 2160
gccgtcgatg ctgccatcgt cgcctgcaca acgccgagcg atatcgcccg agtcaccgcc 2220
ttctatcaac ggcgcgaaca aaacaaagaa ctgtccaaaa agacggatcc gcagtttccg 2280
cagccttggc cgcactttgc tgatgaactg caggcgcgtt tatcaaaaaa tccaaaggag 2340
agtataaaag ctctcaatct tggaaattat gataacgaga aactcgaatc gttgcagccg 2400
gtttttgtct cccgaatgcc gaagcggagc ataacaggag cggctcatca agaaacattg 2460
cggcgttata tcggcatcga cgaacggagc ggaaaaatac agacggtcgt caaaaagaaa 2520
ctatccgaga tccaactgga taaaacaggt catttcccaa tgtacgggaa agaaagcgat 2580
ccaaggacat atgaagccat tcgccaacgg ttgcttgaac ataacaatga cccaaaaaag 2640
gcgtttcaag agcctctgta taaaccgaag aagaacggag aactaggtcc tatcatccga 2700
acaatcaaaa tcatcgatac gacaaatcaa gttattccgc tcaacgatgg caaaacagtc 2760
gcctacaaca gcaacatcgt gcgggtcgac gtctttgaga aagatggcaa atattattgt 2820
gtccctatct atacaataga tatgatgaaa gggatcttgc caaacaaggc gatcgagccg 2880
aacaaaccgt actctgagtg gaaggaaatg acggaggact atacattccg attcagtcta 2940
tacccaaatg atcttatccg tatcgaattt ccccgagaaa aaacaataaa gactgctgtg 3000
ggggaagaaa tcaaaattaa ggatctgttc gcctattatc aaaccatcga ctcctccaat 3060
ggagggttaa gtttggttag ccatgataac aacttttcgc tccgcagcat cggttcaaga 3120
accctcaaac gattcgagaa ataccaagta gatgtgctag gcaacatcta caaagtgaga 3180
ggggaaaaga gagttggggt ggcgtcatct tctcattcga aagccgggga aactatccgt 3240
ccgttataa 3249
<210> 8
<211> 1045
<212> PRT
<213> 内氏放线菌(Actinomyces naeslundii)
<400> 8
Met Trp Tyr Ala Ser Leu Met Ser Ala His His Leu Arg Val Gly Ile
1 5 10 15
Asp Val Gly Thr His Ser Val Gly Leu Ala Thr Leu Arg Val Asp Asp
20 25 30
His Gly Thr Pro Ile Glu Leu Leu Ser Ala Leu Ser His Ile His Asp
35 40 45
Ser Gly Val Gly Lys Glu Gly Lys Lys Asp His Asp Thr Arg Lys Lys
50 55 60
Leu Ser Gly Ile Ala Arg Arg Ala Arg Arg Leu Leu His His Arg Arg
65 70 75 80
Thr Gln Leu Gln Gln Leu Asp Glu Val Leu Arg Asp Leu Gly Phe Pro
85 90 95
Ile Pro Thr Pro Gly Glu Phe Leu Asp Leu Asn Glu Gln Thr Asp Pro
100 105 110
Tyr Arg Val Trp Arg Val Arg Ala Arg Leu Val Glu Glu Lys Leu Pro
115 120 125
Glu Glu Leu Arg Gly Pro Ala Ile Ser Met Ala Val Arg His Ile Ala
130 135 140
Arg His Arg Gly Trp Arg Asn Pro Tyr Ser Lys Val Glu Ser Leu Leu
145 150 155 160
Ser Pro Ala Asn Ala Asn Glu Ile Arg Lys Ile Cys Ala Arg Gln Gly
165 170 175
Val Ser Pro Asp Val Cys Lys Gln Leu Leu Arg Ala Val Phe Lys Ala
180 185 190
Asp Ser Pro Arg Gly Ser Ala Val Ser Arg Val Ala Pro Asp Pro Leu
195 200 205
Pro Gly Gln Gly Ser Phe Arg Arg Ala Pro Lys Cys Asp Pro Glu Phe
210 215 220
Gln Arg Phe Arg Ile Ile Ser Ile Val Ala Asn Leu Arg Ile Ser Glu
225 230 235 240
Thr Lys Gly Glu Asn Arg Pro Leu Thr Ala Asp Glu Arg Arg His Val
245 250 255
Val Thr Phe Leu Thr Glu Asp Ser Gln Ala Asp Leu Thr Trp Val Asp
260 265 270
Val Ala Glu Lys Leu Gly Val His Arg Arg Asp Leu Arg Gly Thr Ala
275 280 285
Val His Thr Asp Asp Gly Glu Arg Ser Ala Ala Arg Pro Pro Ile Asp
290 295 300
Ala Thr Asp Arg Ile Met Arg Gln Thr Lys Ile Ser Ser Leu Lys Thr
305 310 315 320
Trp Trp Glu Glu Ala Asp Ser Glu Gln Arg Gly Ala Met Ile Arg Tyr
325 330 335
Leu Tyr Glu Asp Pro Thr Asp Ser Glu Cys Ala Glu Ile Ile Ala Glu
340 345 350
Leu Pro Glu Glu Asp Gln Ala Lys Leu Asp Ser Leu His Leu Pro Ala
355 360 365
Gly Arg Ala Ala Tyr Ser Arg Glu Ser Leu Thr Ala Leu Ser Asp His
370 375 380
Met Leu Ala Thr Thr Asp Asp Leu His Glu Ala Arg Lys Arg Leu Phe
385 390 395 400
Gly Val Asp Asp Ser Trp Ala Pro Pro Ala Glu Ala Ile Asn Ala Pro
405 410 415
Val Gly Asn Pro Ser Val Asp Arg Thr Leu Lys Ile Val Gly Arg Tyr
420 425 430
Leu Ser Ala Val Glu Ser Met Trp Gly Thr Pro Glu Val Ile His Val
435 440 445
Glu His Val Arg Asp Gly Phe Thr Ser Glu Arg Met Ala Asp Glu Arg
450 455 460
Asp Lys Ala Asn Arg Arg Arg Tyr Asn Asp Asn Gln Glu Ala Met Lys
465 470 475 480
Lys Ile Gln Arg Asp Tyr Gly Lys Glu Gly Tyr Ile Ser Arg Gly Asp
485 490 495
Ile Val Arg Leu Asp Ala Leu Glu Leu Gln Gly Cys Ala Cys Leu Tyr
500 505 510
Cys Gly Thr Thr Ile Gly Tyr His Thr Cys Gln Leu Asp His Ile Val
515 520 525
Pro Gln Ala Gly Pro Gly Ser Asn Asn Arg Arg Gly Asn Leu Val Ala
530 535 540
Val Cys Glu Arg Cys Asn Arg Ser Lys Ser Asn Thr Pro Phe Ala Val
545 550 555 560
Trp Ala Gln Lys Cys Gly Ile Pro His Val Gly Val Lys Glu Ala Ile
565 570 575
Gly Arg Val Arg Gly Trp Arg Lys Gln Thr Pro Asn Thr Ser Ser Glu
580 585 590
Asp Leu Thr Arg Leu Lys Lys Glu Val Ile Ala Arg Leu Arg Arg Thr
595 600 605
Gln Glu Asp Pro Glu Ile Asp Glu Arg Ser Met Glu Ser Val Ala Trp
610 615 620
Met Ala Asn Glu Leu His His Arg Ile Ala Ala Ala Tyr Pro Glu Thr
625 630 635 640
Thr Val Met Val Tyr Arg Gly Ser Ile Thr Ala Ala Ala Arg Lys Ala
645 650 655
Ala Gly Ile Asp Ser Arg Ile Asn Leu Ile Gly Glu Lys Gly Arg Lys
660 665 670
Asp Arg Ile Asp Arg Arg His His Ala Val Asp Ala Ser Val Val Ala
675 680 685
Leu Met Glu Ala Ser Val Ala Lys Thr Leu Ala Glu Arg Ser Ser Leu
690 695 700
Arg Gly Glu Gln Arg Leu Thr Gly Lys Glu Gln Thr Trp Lys Gln Tyr
705 710 715 720
Thr Gly Ser Thr Val Gly Ala Arg Glu His Phe Glu Met Trp Arg Gly
725 730 735
His Met Leu His Leu Thr Glu Leu Phe Asn Glu Arg Leu Ala Glu Asp
740 745 750
Lys Val Tyr Val Thr Gln Asn Ile Arg Leu Arg Leu Ser Asp Gly Asn
755 760 765
Ala His Thr Val Asn Pro Ser Lys Leu Val Ser His Arg Leu Gly Asp
770 775 780
Gly Leu Thr Val Gln Gln Ile Asp Arg Ala Cys Thr Pro Ala Leu Trp
785 790 795 800
Cys Ala Leu Thr Arg Glu Lys Asp Phe Asp Glu Lys Asn Gly Leu Pro
805 810 815
Ala Arg Glu Asp Arg Ala Ile Arg Val His Gly His Glu Ile Lys Ser
820 825 830
Ser Asp Tyr Ile Gln Val Phe Ser Lys Arg Lys Lys Thr Asp Ser Asp
835 840 845
Arg Asp Glu Thr Pro Phe Gly Ala Ile Ala Val Arg Gly Gly Phe Val
850 855 860
Glu Ile Gly Pro Ser Ile His His Ala Arg Ile Tyr Arg Val Glu Gly
865 870 875 880
Lys Lys Pro Val Tyr Ala Met Leu Arg Val Phe Thr His Asp Leu Leu
885 890 895
Ser Gln Arg His Gly Asp Leu Phe Ser Ala Val Ile Pro Pro Gln Ser
900 905 910
Ile Ser Met Arg Cys Ala Glu Pro Lys Leu Arg Lys Ala Ile Thr Thr
915 920 925
Gly Asn Ala Thr Tyr Leu Gly Trp Val Val Val Gly Asp Glu Leu Glu
930 935 940
Ile Asn Val Asp Ser Phe Thr Lys Tyr Ala Ile Gly Arg Phe Leu Glu
945 950 955 960
Asp Phe Pro Asn Thr Thr Arg Trp Arg Ile Cys Gly Tyr Asp Thr Asn
965 970 975
Ser Lys Leu Thr Leu Lys Pro Ile Val Leu Ala Ala Glu Gly Leu Glu
980 985 990
Asn Pro Ser Ser Ala Val Asn Glu Ile Val Glu Leu Lys Gly Trp Arg
995 1000 1005
Val Ala Ile Asn Val Leu Thr Lys Val His Pro Thr Val Val Arg
1010 1015 1020
Arg Asp Ala Leu Gly Arg Pro Arg Tyr Ser Ser Arg Ser Asn Leu
1025 1030 1035
Pro Thr Ser Trp Thr Ile Glu
1040 1045
<210> 9
<211> 1160
<212> PRT
<213> 酿脓链球菌(Streptococcus pyogenes)
<400> 9
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Arg
180 185 190
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
195 200 205
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
210 215 220
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
225 230 235 240
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
245 250 255
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
260 265 270
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
275 280 285
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
290 295 300
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
305 310 315 320
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
325 330 335
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
340 345 350
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
355 360 365
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
370 375 380
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
385 390 395 400
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
405 410 415
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
420 425 430
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
435 440 445
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
450 455 460
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
465 470 475 480
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
485 490 495
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
500 505 510
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
515 520 525
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
530 535 540
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
545 550 555 560
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
565 570 575
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
580 585 590
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
595 600 605
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
610 615 620
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
625 630 635 640
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
645 650 655
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
660 665 670
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
675 680 685
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
690 695 700
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
705 710 715 720
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
725 730 735
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
740 745 750
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
755 760 765
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
770 775 780
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
785 790 795 800
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys
805 810 815
Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser
820 825 830
Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu
835 840 845
Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile
850 855 860
Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser
865 870 875 880
Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly
885 890 895
Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile
900 905 910
Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser
915 920 925
Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly
930 935 940
Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile
945 950 955 960
Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala
965 970 975
Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys
980 985 990
Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser
995 1000 1005
Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys
1010 1015 1020
Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys
1025 1030 1035
Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln
1040 1045 1050
His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe
1055 1060 1065
Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu
1070 1075 1080
Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala
1085 1090 1095
Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro
1100 1105 1110
Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr
1115 1120 1125
Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser
1130 1135 1140
Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly
1145 1150 1155
Gly Asp
1160
<210> 10
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (7)..(7)
<223> n是a、c、g或t
<400> 10
ccccccna 8
<210> 11
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<400> 11
ccccccaa 8
<210> 12
<211> 5
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<400> 12
ccccc 5
<210> 13
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (6)..(7)
<223> n是a、c、g或t
<400> 13
cccccnna 8
<210> 14
<211> 6
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<400> 14
cccccc 6
<210> 15
<211> 6
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (1)..(1)
<223> n是a、c、g或t
<400> 15
nccccc 6
<210> 16
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (1)..(1)
<223> n是a、c、g或t
<220>
<221> misc_feature
<222> (7)..(7)
<223> n是a、c、g或t
<400> 16
ncccccna 8
<210> 17
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (2)..(2)
<223> n是a、c、g或t
<400> 17
cnccccac 8
<210> 18
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<400> 18
ccccccag 8
<210> 19
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<400> 19
ccccccat 8
<210> 20
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<400> 20
ccccccac 8
<210> 21
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<400> 21
atccccaa 8
<210> 22
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<400> 22
acggccaa 8
<210> 23
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> RuvC-1结构域基序
<400> 23
Ile Gly Leu Asp Ile Gly Ile Thr Ser Ile Gly
1 5 10
<210> 24
<211> 18
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> RuvC-I结构域基序
<400> 24
Ile Gly Leu Asp Ile Gly Ile Thr Ser Ile Gly Trp Ala Val Ile Asn
1 5 10 15
Leu Asp
<210> 25
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 桥结构域基序
<400> 25
Arg Ser Ala Arg Arg
1 5
<210> 26
<211> 25
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 桥结构域基序
<400> 26
Pro Arg Arg Leu Ala Arg Ser Ala Arg Arg Arg Leu Arg Arg Arg Lys
1 5 10 15
His Arg Leu Glu Arg Ile Arg Arg Leu
20 25
<210> 27
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> α螺旋/识别叶结构域基序
<400> 27
Trp Gln Leu Arg
1
<210> 28
<211> 7
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> α螺旋/识别叶结构域
<400> 28
His Leu Ala Lys Arg Arg Gly
1 5
<210> 29
<211> 13
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> α螺旋/识别叶结构域
<400> 29
Leu Ala Arg Ile Leu Leu His Leu Ala Lys Arg Arg Gly
1 5 10
<210> 30
<211> 5
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> α螺旋/识别叶结构域
<400> 30
Ile Phe Ala Lys Gln
1 5
<210> 31
<211> 9
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> α螺旋/识别叶结构域
<400> 31
Glu Ile Lys Leu Ile Phe Ala Lys Gln
1 5
<210> 32
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> α螺旋/识别叶结构域
<400> 32
Ile Trp Ala Ser Gln Arg
1 5
<210> 33
<211> 16
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> α螺旋/识别叶结构域基序
<400> 33
Lys Val Gly Phe Cys Thr Phe Glu Pro Lys Glu Lys Arg Ala Pro Lys
1 5 10 15
<210> 34
<211> 12
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> α螺旋/识别叶结构域基序
<400> 34
Phe Thr Val Trp Glu His Ile Asn Lys Leu Arg Leu
1 5 10
<210> 35
<211> 12
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> RuvC-II结构域基序
<400> 35
Ile Ala Asn Pro Val Val Met Arg Ala Leu Thr Gln
1 5 10
<210> 36
<211> 25
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> RuvC-II结构域基序
<400> 36
Ile Ala Asn Pro Val Val Met Arg Ala Leu Thr Gln Ala Arg Lys Val
1 5 10 15
Val Asn Ala Ile Ile Lys Lys Tyr Gly
20 25
<210> 37
<211> 4
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> RuvC-II结构域基序
<400> 37
Glu Leu Ala Arg
1
<210> 38
<211> 8
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> RuvC-II结构域基序
<400> 38
Ile His Ile Glu Leu Ala Arg Glu
1 5
<210> 39
<211> 7
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> HNH结构域基序
<400> 39
Gln Asn Gly Lys Cys Ala Tyr
1 5
<210> 40
<211> 16
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> HNH结构域基序
<400> 40
Ile Val Lys Phe Lys Leu Trp Ser Glu Gln Asn Gly Lys Cys Ala Tyr
1 5 10 15
<210> 41
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> HNH结构域基序
<400> 41
Val Asp His Val Ile Pro
1 5
<210> 42
<211> 20
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> HNH结构域基序
<400> 42
Val Asp His Val Ile Pro Tyr Ser Arg Ser Leu Asp Asp Ser Tyr Thr
1 5 10 15
Asn Lys Val Leu
20
<210> 43
<211> 11
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> RuvC-III结构域基序
<400> 43
Asp Thr Arg Tyr Ile Ser Arg Phe Leu Ala Asn
1 5 10
<210> 44
<211> 16
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> RuvC-III结构域基序
<400> 44
Val Tyr Thr Val Asn Gly Arg Ile Thr Ala His Leu Arg Ser Arg Trp
1 5 10 15
<210> 45
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> RuvC-III结构域基序
<400> 45
His His Ala Val Asp Ala
1 5
<210> 46
<211> 10
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> RuvC-III结构域基序
<400> 46
His His Ala Val Asp Ala Ala Ile Val Ala
1 5 10
<210> 47
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (1)..(4)
<223> n是a、c、g或t
<220>
<221> misc_feature
<222> (6)..(7)
<223> n是a、c、g或t
<400> 47
nnnncnna 8
<210> 48
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (1)..(4)
<223> n是a、c、g或t
<400> 48
nnnncvaa 8
<210> 49
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (1)..(4)
<223> n是a、c、g或t
<400> 49
nnnncsaa 8
<210> 50
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (1)..(4)
<223> n是a、c、g或t
<400> 50
nnnncgaa 8
<210> 51
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (1)..(4)
<223> n是a、c、g或t
<400> 51
nnnnccaa 8
<210> 52
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (1)..(4)
<223> n是a、c、g或t
<220>
<221> misc_feature
<222> (6)..(6)
<223> n是a、c、g或t
<400> 52
nnnncnaa 8
<210> 53
<211> 8
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> PAM
<220>
<221> misc_feature
<222> (1)..(4)
<223> n是a、c、g或t
<400> 53
nnnncmca 8
<210> 54
<211> 30
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> tracrRNA 5'发夹
<400> 54
aagggcuuuc ugccuauagg cagacugccc 30
<210> 55
<211> 25
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> tracrRNA '中间'发夹
<400> 55
guggcguugg ggaucgccua ucgcc 25
<210> 56
<211> 36
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> tracrRNA 3'发夹
<400> 56
cgcuuucuuc gggcauuccc cacucuuagg cguuuu 36
<210> 57
<211> 55
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> tracrRNA 5'发夹和中间发夹
<400> 57
aagggcuuuc ugccuauagg cagacugccc guggcguugg ggaucgccua ucgcc 55
<210> 58
<211> 91
<212> RNA
<213> 人工序列(Artificial Sequence)
<220>
<223> tracrRNA 5'发夹、中间发夹和3'发夹。
<400> 58
aagggcuuuc ugccuauagg cagacugccc guggcguugg ggaucgccua ucgcccgcuu 60
ucuucgggca uuccccacuc uuaggcguuu u 91
<210> 59
<211> 81
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG6494
<220>
<221> misc_feature
<222> (35)..(41)
<223> n是a、c、g或t
<400> 59
tatgcctcat gagattatca aaaaggatct tcacnnnnnn nctagatcct tttaaattaa 60
aaatgaagtt ttaaatcaat c 81
<210> 60
<211> 81
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG6495
<400> 60
tatgccggat cctcagacca agtttactca tatatacttt agattgattt aaaacttcat 60
ttttaattta aaaggatcta g 81
<210> 61
<211> 34
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG7356
<400> 61
tcgtcggcag cgtcagatgt gtataagaga cagt 34
<210> 62
<211> 33
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG7357
<400> 62
ctgtctctta tacacatctg acgctgccga cga 33
<210> 63
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG7358
<400> 63
tcgtcggcag cgtcag 16
<210> 64
<211> 53
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG7359
<400> 64
gtctcgtggg ctcggagatg tgtataagag acaggaccat gattacgcca agc 53
<210> 65
<211> 61
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG7616
<400> 65
tcgtcggcag cgtcagatgt gtataagaga cagggtcatg agattatcaa aaaggatctt 60
c 61
<210> 66
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8157
<400> 66
tatgcctcat gagattatca aaaaggatct tcaccccccc agctagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 67
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8158
<400> 67
tatgcctcat gagattatca aaaaggatct tcaccccccc aactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 68
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8159
<400> 68
tatgcctcat gagattatca aaaaggatct tcaccccccc atctagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 69
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8160
<400> 69
tatgcctcat gagattatca aaaaggatct tcaccccccc acctagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 70
<211> 81
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8161
<220>
<221> misc_feature
<222> (35)..(38)
<223> n是a、c、g或t
<220>
<221> misc_feature
<222> (40)..(41)
<223> n是a、c、g或t
<400> 70
tatgcctcat gagattatca aaaaggatct tcacnnnntn nctagatcct tttaaattaa 60
aaatgaagtt ttaaatcaat c 81
<210> 71
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8363
<400> 71
acggttatcc acagaatcag 20
<210> 72
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8364
<400> 72
cgggattgac ttttaaaaaa gg 22
<210> 73
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8763
<400> 73
tatgcctcat gagattatca aaaaggatct tcacccccca aactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 74
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8764
<400> 74
tatgcctcat gagattatca aaaaggatct tcacccccca tactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 75
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8765
<400> 75
tatgcctcat gagattatca aaaaggatct tcacccccca gactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 76
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8766
<400> 76
tatgcctcat gagattatca aaaaggatct tcacccccca cactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 77
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8767
<400> 77
tatgcctcat gagattatca aaaaggatct tcacccccct aactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 78
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8768
<400> 78
tatgcctcat gagattatca aaaaggatct tcacccccct tactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 79
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8769
<400> 79
tatgcctcat gagattatca aaaaggatct tcacccccct gactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 80
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8770
<400> 80
tatgcctcat gagattatca aaaaggatct tcacccccct cactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 81
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8771
<400> 81
tatgcctcat gagattatca aaaaggatct tcaccccccg aactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 82
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8772
<400> 82
tatgcctcat gagattatca aaaaggatct tcaccccccg tactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 83
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8773
<400> 83
tatgcctcat gagattatca aaaaggatct tcaccccccg gactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 84
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8774
<400> 84
tatgcctcat gagattatca aaaaggatct tcaccccccg cactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 85
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8775
<400> 85
tatgcctcat gagattatca aaaaggatct tcaccccccc aactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 86
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8776
<400> 86
tatgcctcat gagattatca aaaaggatct tcaccccccc tactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 87
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8777
<400> 87
tatgcctcat gagattatca aaaaggatct tcaccccccc gactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 88
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8778
<400> 88
tatgcctcat gagattatca aaaaggatct tcaccccccc cactagatcc ttttaaatta 60
aaaatgaagt tttaaatcaa tc 82
<210> 89
<211> 29
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG6574
<400> 89
aagcttgaaa taatacgact cactatagg 29
<210> 90
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG6576
<400> 90
aaaaaagacc ttgacgtttt cc 22
<210> 91
<211> 57
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9307
<400> 91
aagcttgaaa taatacgact cactataggt gagattatca aaaaggatct tcacgtc 57
<210> 92
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9309
<400> 92
aaaacgccta agagtgggga atg 23
<210> 93
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9310
<400> 93
aaaaggcgat aggcgatcc 19
<210> 94
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9311
<400> 94
aaaacgggtc agtctgccta tag 23
<210> 95
<211> 57
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9308
<400> 95
aagcttgaaa taatacgact cactataggt gagattatca aaaaggatct tcacgtc 57
<210> 96
<211> 56
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG10118
<400> 96
aagcttgaaa taatacgact cactatagga gattatcaaa aaggatcttc acgtca 56
<210> 97
<211> 60
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG10119
<400> 97
aagcttgaaa taatacgact cactatagga agattatcaa aaaggatctt cacgtcatag 60
<210> 98
<211> 58
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG10120
<400> 98
aagcttgaaa taatacgact cactatagga ttatcaaaaa ggatcttcac gtcatagt 58
<210> 99
<211> 60
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG10121
<400> 99
aagcttgaaa taatacgact cactatagga attatcaaaa aggatcttca cgtcatagtt 60
<210> 100
<211> 58
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG10122
<400> 100
aagcttgaaa taatacgact cactataggt tatcaaaaag gatcttcacg tcatagtt 58
<210> 101
<211> 58
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG10123
<400> 101
aagcttgaaa taatacgact cactataggt atcaaaaagg atcttcacgt catagttc 58
<210> 102
<211> 57
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG10124
<400> 102
aagcttgaaa taatacgact cactatagga tcaaaaagga tcttcacgtc atagttc 57
<210> 103
<211> 51
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9312
<400> 103
aaaacgccta agagtgggga atgcccgaag aaagcgggcg ataggcgatc c 51
<210> 104
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8191
<400> 104
aagcttggcg taatcatggt c 21
<210> 105
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8192
<400> 105
tcatgagttc ccatgttgtg 20
<210> 106
<211> 48
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8194
<400> 106
tatggcgaat cacaacatgg gaactcatga gaacatcctc tttcttag 48
<210> 107
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8195
<400> 107
gccgatatca agaccgattt tatacttcat ttaagttacc tcctcgattg 50
<210> 108
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8196
<400> 108
atgaagtata aaatcggtct tg 22
<210> 109
<211> 18
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8197
<400> 109
taacggacgg atagtttc 18
<210> 110
<211> 55
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8198
<400> 110
gaaagccggg gaaactatcc gtccgttata aatcagacaa aatggcctgc ttatg 55
<210> 111
<211> 60
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8263
<400> 111
gaactatgac actttatttt cagaatggac gtataacggt atccatttta agaataatcc 60
<210> 112
<211> 49
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8268
<400> 112
accgttatac gtccattctg aaaataaagt gtcatagttc ccctgagat 49
<210> 113
<211> 48
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8210
<400> 113
aacagctatg accatgatta cgccaagctt ccctcccatg cacaatag 48
<210> 114
<211> 60
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8261
<400> 114
gaactatgac atcatggagt tttaaatcca gtataacggt atccatttta agaataatcc 60
<210> 115
<211> 49
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8266
<400> 115
accgttatac tggatttaaa actccatgat gtcatagttc ccctgagat 49
<210> 116
<211> 60
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8317
<400> 116
gaactatgac cacccagctt acatcaacaa gtataacggt atccatttta agaataatcc 60
<210> 117
<211> 49
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8320
<400> 117
accgttatac ttgttgatgt aagctgggtg gtcatagttc ccctgagat 49
<210> 118
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9075
<400> 118
ctatcggcat tacgtctatc 20
<210> 119
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9091
<400> 119
gcgtcgactt ctgtatagc 19
<210> 120
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9091
<400> 120
tgaagtataa aatcggtctt gctatcggca ttacgtctat c 41
<210> 121
<211> 44
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9092
<400> 121
caagcttcgg ctgtatggaa tcacagcgtc gacttctgta tagc 44
<210> 122
<211> 17
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9077
<400> 122
gctgtgattc catacag 17
<210> 123
<211> 41
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9267
<400> 123
ggtgcagtag gttgcagcta tgcttgtata acggtatcca t 41
<210> 124
<211> 49
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9263
<400> 124
aagcatagct gcaacctact gcaccgtcat agttcccctg agattatcg 49
<210> 125
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9088
<400> 125
tcatgaccaa aatcccttaa cg 22
<210> 126
<211> 38
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9089
<400> 126
ttaagggatt ttggtcatga gaacatcctc tttcttag 38
<210> 127
<211> 28
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9090
<400> 127
gcaagaccga ttttatactt catttaag 28
<210> 128
<211> 52
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9548
<400> 128
ggatcccatg acgctagtat ccagctgggt catagttccc ctgagattat cg 52
<210> 129
<211> 63
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9601
<400> 129
ttcaatattt tttttgaata aaaaatacga tacaataaaa atgtctagaa aaagataaaa 60
atg 63
<210> 130
<211> 53
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9600
<400> 130
ttttttattc aaaaaaaata ttgaatttta aaaatgatgg tgctagtatg aag 53
<210> 131
<211> 58
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9549
<400> 131
ccagctggat actagcgtca tgggatccgt ataacggtat ccattttaag aataatcc 58
<210> 132
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8552
<400> 132
tcgggggttc gtttcccttg 20
<210> 133
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8553
<400> 133
cttacacagc cagtgacgga ac 22
<210> 134
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2365
<400> 134
gccggcgtcc cggaaaacga 20
<210> 135
<211> 35
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2366
<400> 135
gcaggtcggg ttcctcgcat ccatgccccc gaact 35
<210> 136
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2367
<400> 136
ggcttcggaa tcgttttccg ggacgccggc acggcattgg caaggccaag 50
<210> 137
<211> 35
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2368
<400> 137
gacacaggca tcggtgcagg gtctcttggc aagtc 35
<210> 138
<211> 35
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2369
<400> 138
gccaagagac cctgcaccga tgcctgtgtc gaacc 35
<210> 139
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2370
<400> 139
cttggcggaa aacgtcaagg tcttttttac acgcgcatca acttcaaggc 50
<210> 140
<211> 48
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2371
<400> 140
atgacgagct gttcaccagc agcgctatta ttgaagcatt tatcaggg 48
<210> 141
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2372
<400> 141
gtaaaaaaga ccttgacgtt ttc 23
<210> 142
<211> 34
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2373
<400> 142
tatgaagcgg gccatttgaa gacgaaaggg cctc 34
<210> 143
<211> 49
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2374
<400> 143
taatagcgct gctggtgaac agctcgtcat agttcccctg agattatcg 49
<210> 144
<211> 37
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2375
<400> 144
tggagtcatg aacatatgaa gtataaaatc ggtcttg 37
<210> 145
<211> 35
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2376
<400> 145
ccctttcgtc ttcaaatggc ccgcttcata agcag 35
<210> 146
<211> 39
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2377
<400> 146
gattttatac ttcatatgtt catgactcca ttattattg 39
<210> 147
<211> 35
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2378
<400> 147
gggggcatgg atgcgaggaa cccgacctgc attgg 35
<210> 148
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2381
<400> 148
acacggcgga tgcacttacc 20
<210> 149
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2382
<400> 149
tggacgtgta cttcgacaac 20
<210> 150
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG2135
<400> 150
acacggcgga tgcacttacc 20
<210> 151
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8196
<400> 151
tggacgtgta cttcgacaac 20
<210> 152
<211> 18
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8197
<400> 152
taacggacgg atagtttc 18
<210> 153
<211> 31
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG6850
<400> 153
gcctcatgaa tgcagcgatg gtccggtgtt c 31
<210> 154
<211> 27
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG6849
<400> 154
gcctcatgag ttcccatgtt gtgattc 27
<210> 155
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG6769
<400> 155
caatccaact gggcttgac 19
<210> 156
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG6841
<400> 156
caagaacttt attggtatag 20
<210> 157
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG6840
<400> 157
ttgcagaaat ggttgtcaag 20
<210> 158
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9215
<400> 158
gagataatgc cgactgtac 19
<210> 159
<211> 19
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9216
<400> 159
agggctcgcc tttgggaag 19
<210> 160
<211> 17
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9505
<400> 160
gttgccaacg ttctgag 17
<210> 161
<211> 16
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9506
<400> 161
aatccacgcc gtttag 16
<210> 162
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8363
<400> 162
acggttatcc acagaatcag 20
<210> 163
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG8364
<400> 163
cgggattgac ttttaaaaaa gg 22
<210> 164
<211> 120
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9302
<400> 164
aaacttcatt tttaatttaa aaggatctag aaccccccgt gaagatcctt tttgataatc 60
tcatgaccaa aatcccttaa cgtgagtttt cgttccactg agcgtcagac cccgtagaaa 120
<210> 165
<211> 120
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9303
<400> 165
tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 60
gattatcaaa aaggatcttc acccccccaa ctagatcctt ttaaattaaa aatgaagttt 120
<210> 166
<211> 120
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9304
<400> 166
tttctacggg gtctgacgct cagtggaacg aaaactcacg ttaagggatt ttggtcatga 60
gattatcaaa aaggatcttc acggggggtt ctagatcctt ttaaattaaa aatgaagttt 120
<210> 167
<211> 43
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG7886
<400> 167
tacttccaat ccaatgcaaa gtataaaatc ggtcttgata tcg 43
<210> 168
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG7887
<400> 168
ttatccactt ccaatgttat tataacggac ggatagtttc cccggctttc 50
<210> 169
<211> 25
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9665
<400> 169
atgacgaaag gagtttctta ttatg 25
<210> 170
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> BG9666
<400> 170
aacggtattc cgtgattaag 20
<210> 171
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物629
<400> 171
gactgggcgc aagcggtgat g 21
<210> 172
<211> 24
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物630
<400> 172
cctgttgctg atacaaggtc tagc 24
<210> 173
<211> 38
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物992
<400> 173
ttggatgtga tgctgacttt gaatacaaca aggtgaac 38
<210> 174
<211> 37
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物993
<400> 174
attcaaagtc agcatcacat ccaattacat caagcag 37
<210> 175
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物1994
<400> 175
aaacaaacca ccgctggtag 20
<210> 176
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2125
<400> 176
tcttcgatgc gaggaatgtc 20
<210> 177
<211> 33
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2208
<400> 177
ttttatactt catatgcaac ctcctttatg ttc 33
<210> 178
<211> 34
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2210
<400> 178
aggaggttgc atatgaagta taaaatcggt cttg 34
<210> 179
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2400
<400> 179
cgataaacgc gaagaaggtg 20
<210> 180
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2401
<400> 180
tcatgaccaa aatcccttaa cg 22
<210> 181
<211> 52
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2420
<400> 181
aaaactcacg ttaagggatt ttggtcatga ccgattcggc tgttatggag ag 52
<210> 182
<211> 54
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2421
<400> 182
tgcgtcggaa caccttcttc gcgtttatcg cggcaaacag agctttaaaa ccag 54
<210> 183
<211> 76
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2489
<400> 183
aacttagttg cgtttctata taataagagt tatgttttcc ggacatagta cagtcatagt 60
tcccctgaga ttatcg 76
<210> 184
<211> 65
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2490
<400> 184
actcttatta tatagaaacg caactaagtt aagcattgcc attataacgg acggatagtt 60
tcccc 65
<210> 185
<211> 52
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2501
<400> 185
aagagataag ggcaaatgca tagctggcgt catagttccc ctgagattat cg 52
<210> 186
<211> 55
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2502
<400> 186
atgacgccag ctatgcattt gcccttatct cttattatat agaaacgcaa ctaag 55
<210> 187
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物351
<400> 187
caccatgtcc cggacagcac 20
<210> 188
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物352
<400> 188
gcgatgaaat tggaacactg ac 22
<210> 189
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2172
<400> 189
tcatgaccaa aatcccttaa c 21
<210> 190
<211> 47
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2561
<400> 190
tcacgttaag ggattttggt catgagtgag tctggctatt gacctgg 47
<210> 191
<211> 36
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2562
<400> 191
atgaaaaaag cgcacgtcgg cacgactcct taattg 36
<210> 192
<211> 38
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2563
<400> 192
attaaggagt cgtgccgacg tgcgcttttt tcattccc 38
<210> 193
<211> 52
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2570
<400> 193
caccttcttc gcgtttatcg cggcacagga tataatggtc gatgtcctgt tg 52
<210> 194
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2571
<400> 194
cgataaacgc gaagaaggtg 20
<210> 195
<211> 54
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2578
<400> 195
taagagtcgg ggatatgaac cggatgactt gtcatagttc ccctgagatt atcg 54
<210> 196
<211> 57
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2579
<400> 196
aagtcatccg gttcatatcc ccgactctta ttatatagaa acgcaactaa gttaagc 57
<210> 197
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2135
<400> 197
ccgctttctt cgggcattcc 20
<210> 198
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2381
<400> 198
acacggcgga tgcacttacc 20
<210> 199
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2382
<400> 199
tggacgtgta cttcgacaac 20
<210> 200
<211> 22
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2459
<400> 200
agctgtttcc tgtgtgaaat tg 22
<210> 201
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2460
<400> 201
ggctggacga cctcgcggag 20
<210> 202
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2461
<400> 202
gccggtagaa ctccgcgagg tcgtccagcc acggcattgg caaggccaag 50
<210> 203
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2462
<400> 203
gcggataaca atttcacaca ggaaacagct acgcgcatca acttcaaggc 50
<210> 204
<211> 39
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2467
<400> 204
gattttatac ttcatatgtt catgactcca ttattattg 39
<210> 205
<211> 37
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2468
<400> 205
caaggtcttt tttactaagt cgaggggatc ctctagc 37
<210> 206
<211> 57
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2469
<400> 206
ccacacatta tacgagccga tgattaattg tcaacagatg gcccgcttca taagcag 57
<210> 207
<211> 37
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2470
<400> 207
tggagtcatg aacatatgaa gtataaaatc ggtcttg 37
<210> 208
<211> 38
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2471
<400> 208
gatcccctcg acttagtaaa aaagaccttg acgttttc 38
<210> 209
<211> 79
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2742
<400> 209
gacaattaat catcggctcg tataatgtgt ggccataccc gctttttccg ccagcgtcat 60
agttcccctg agattatcg 79
<210> 210
<211> 120
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2101
<400> 210
tttcagagtt cttcagactt cttaactcct gtaaaaacaa aaaaaaaaaa aggcatagca 60
atatgacgtt ttattacctt taatcacatt cccacgccat ttcgcattct caccctcata 120
<210> 211
<211> 120
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2102
<400> 211
tatgagggtg agaatgcgaa atggcgtggg aatgtgatta aaggtaataa aacgtcatat 60
tgctatgcct tttttttttt ttgtttttac aggagttaag aagtctgaag aactctgaaa 120
<210> 212
<211> 63
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2103
<400> 212
gcattcccca ctcttaggcg tttttttgtt ttttatgtct cgggtcttga ggggtttttt 60
gtg 63
<210> 213
<211> 54
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2104
<400> 213
ttatcctata aatataacgt ttttgaacac atggaataat ttgggaattt actc 54
<210> 214
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2105
<400> 214
acaaaatgga atatgttcat agggtagacg gatagagatg ggccaatacc 50
<210> 215
<211> 59
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2106
<400> 215
aaaaaacccc tcaagacccg agacataaaa aacaaaaaaa cgcctaagag tggggaatg 59
<210> 216
<211> 64
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2108
<400> 216
gcagtgaaag ataaatgatc gcgttggtca gaggtgtgga gtcatagttc ccctgagatt 60
atcg 64
<210> 217
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2109
<400> 217
aagcataatc atacattatc ttttcaaaga gagattcgat gcccgacgag 50
<210> 218
<211> 50
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2110
<400> 218
atttaaattt ccgaactctc caaggccctc agtctcgacg atccatatcg 50
<210> 219
<211> 56
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2111
<400> 219
aacacagagt aaattcccaa attattccat gtgttcaaaa acgttatatt tatagg 56
<210> 220
<211> 53
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2113
<400> 220
ctacaaatgt ggtattggcc catctctatc cgtctaccct atgaacatat tcc 53
<210> 221
<211> 67
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2114
<400> 221
aatctcaggg gaactatgac tccacacctc tgaccaacgc gatcatttat ctttcactgc 60
ggagaag 67
<210> 222
<211> 57
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2115
<400> 222
cgctcatttg ctcgtcgggc atcgaatctc tctttgaaaa gataatgtat gattatg 57
<210> 223
<211> 63
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2116
<400> 223
gccgatatca agaccgattt tatacttcat tttgtaatta aaacttagat tagattgcta 60
tgc 63
<210> 224
<211> 82
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2118
<400> 224
aatgtaagcg tgacataact aattacatga ttacaccttc ctcttcttct tgggtaacgg 60
acggatagtt tccccggctt tc 82
<210> 225
<211> 51
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2119
<400> 225
agcaatctaa tctaagtttt aattacaaaa tgaagtataa aatcggtctt g 51
<210> 226
<211> 57
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2120
<400> 226
ccgttaccca agaagaagag gaaggtgtaa tcatgtaatt agttatgtca cgcttac 57
<210> 227
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2223
<400> 227
ggttgcgaac agagtaaacc 20
<210> 228
<211> 20
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2224
<400> 228
tcgggagcaa gattgttgtg 20
<210> 229
<211> 80
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2580
<400> 229
ttcttaggtg catgcgacgg tatccacgtg cagaacaaca tagtctgaag aaggggggga 60
tccatcttcg atggatagcg 80
<210> 230
<211> 80
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2581
<400> 230
agaagagaaa agggtaaagt taatgcttaa tcttgtcttg gcttaaaaag taatatgtac 60
ggtcgcctga cgcatatacc 80
<210> 231
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2665
<400> 231
cgcatgtttc ggcgttcgaa acttctccgc agtgaaagat aaatgatcgc acctgggttt 60
ctccaataac ggtcatagtt cccctgagat tatcgctgtg gtataatgaa agttatacc 119
<210> 232
<211> 119
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2666
<400> 232
ggtataactt tcattatacc acagcgataa tctcagggga actatgaccg ttattggaga 60
aacccaggtg cgatcattta tctttcactg cggagaagtt tcgaacgccg aaacatgcg 119
<210> 233
<211> 43
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 引物2745
<400> 233
ggggactaaa attttttaat ataaatatat aaattaaaaa tag 43
<210> 234
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 非靶向间隔区序列
<400> 234
ttatgttttc cggacatagt aca 23
<210> 235
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 靶向间隔区
<400> 235
ataagggcaa atgcatagct ggc 23
<210> 236
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 靶向间隔区
<400> 236
cggggatatg aaccggatga ctt 23
<210> 237
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 靶向间隔区
<400> 237
ccatacccgc tttttccgcc agc 23
<210> 238
<211> 21
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 核定位信号编码序列
<400> 238
cccaagaaga agaggaaggt g 21
<210> 239
<211> 23
<212> DNA
<213> 人工序列(Artificial Sequence)
<220>
<223> 靶向间隔区
<400> 239
gcacctgggt ttctccaata acg 23

Claims (39)

1.一种修饰真核细胞的遗传物质的方法,所述方法包括(i)将在第一启动子的控制下编码ThermoCas9的多核苷酸整合到所述真核细胞的基因组中,其中所述ThermoCas9由SEQID NO:1的氨基酸序列组成;(ii)用表达载体转化所述真核细胞,所述表达载体包含编码指导RNA并且在第二启动子的控制下的多核苷酸序列,其中所述指导RNA具有识别在所述真核细胞的基因组中在期望的靶基因座处包含的核酸序列的核酸序列,和(iii)用修复寡核苷酸转化所述真核细胞;其中所述真核细胞不是人类胚胎干细胞,并且其中所述方法不用于人类或动物治疗。
2.一种修饰真核细胞的遗传物质的方法,所述方法包括(i)将在第一启动子的控制下编码ThermoCas9的多核苷酸整合到所述真核细胞的基因组中,其中所述ThermoCas9由SEQID NO:1的氨基酸序列组成;(ii)用表达载体转化所述真核细胞,所述表达载体包含在所述第一启动子或单独的第二启动子的控制下编码指导RNA的多核苷酸序列和同样在所述第一启动子或所述第二启动子或单独的第三启动子的控制下的修复寡核苷酸,其中所述指导RNA具有识别在所述真核细胞的基因组中在期望的靶基因座处包含的核酸序列的核酸序列;其中所述真核细胞不是人类胚胎干细胞,并且其中所述方法不用于人类或动物治疗。
3.以下(i)、(ii)和(iii)在制备用修饰真核细胞的遗传物质的试剂盒中的用途:(i)在第一启动子的控制下的编码ThermoCas9的多核苷酸,其中所述ThermoCas9由SEQ ID NO:1的氨基酸序列组成;(ii)包含编码指导RNA并且在第二启动子的控制下的多核苷酸序列的表达载体,其中所述指导RNA具有识别在所述真核细胞的基因组中在期望的靶基因座处包含的核酸序列的核酸序列,和(iii)修复寡核苷酸;其中所述真核细胞不是人类胚胎干细胞。
4.以下(i)、(ii)和(iii)在制备用修饰真核细胞的遗传物质的试剂盒中的用途:(i)在第一启动子的控制下编码ThermoCas9的多核苷酸,其中所述ThermoCas9由SEQ ID NO:1的氨基酸序列组成;(ii)包含在所述第一启动子或单独的第二启动子的控制下编码指导RNA的多核苷酸序列的表达载体,其中所述指导RNA具有识别在所述真核细胞的基因组中在期望的靶基因座处包含的核酸序列的核酸序列,和(iii)同样在所述第一启动子或所述第二启动子或单独的第三启动子的控制下的修复寡核苷酸;其中所述真核细胞不是人类胚胎干细胞。
5.根据权利要求1或权利要求2所述的方法或者权利要求3或权利要求4所述的用途,其中所述修复寡核苷酸是双链DNA修复寡聚物。
6.根据权利要求5所述的方法或用途,其中所述双链DNA修复寡聚物包含用于在指导RNA指导的ThermoCas9核酸内切酶切割后通过同源重组的方式插入所述真核细胞的基因组中的多核苷酸序列。
7.根据权利要求1或权利要求2所述的方法或者权利要求3或权利要求4所述的用途,其中所述第一启动子是组成型启动子。
8.根据权利要求1或权利要求2所述的方法或者权利要求3或权利要求4所述的用途,其中所述第一启动子是诱导型启动子。
9.根据权利要求1或权利要求2所述的方法或者权利要求3或权利要求4所述的用途,其中所述第二启动子是组成型启动子或诱导型启动子。
10.根据权利要求2所述的方法或者权利要求4所述的用途,其中所述第三启动子是组成型启动子或诱导型启动子。
11.根据权利要求1或权利要求2所述的方法或者权利要求3或权利要求4所述的用途,其中通过热激用一种或更多种所述表达载体和/或所述修复寡聚物转化所述真核细胞。
12.根据权利要求1或权利要求2所述的方法或者权利要求3或权利要求4所述的用途,其中所述真核细胞在26℃-60℃的范围中的温度被转化和/或在转化后生长。
13.根据权利要求1或权利要求2所述的方法或者权利要求3或权利要求4所述的用途,其中所述真核细胞是酵母。
14.一种多核苷酸表达载体,所述多核苷酸表达载体用于修饰宿主生物体的靶基因座处的遗传物质,所述宿主生物体包含所述多核苷酸表达载体,所述多核苷酸表达载体包含:
(a)编码ThermoCas9核酸酶的多核苷酸序列,其中所述ThermoCas9核酸酶由SEQ IDNO:1的氨基酸序列组成;
(b)编码指导RNA的多核苷酸序列,其中所述指导RNA具有识别在所述靶基因座中包含的核酸序列的核酸序列;
(c)相对于(a)和(b)的多核苷酸序列朝向的第一启动子,以驱动所述多核苷酸序列在所述宿主生物体中的表达。
15.根据权利要求14所述的多核苷酸表达载体,其中(a)的序列在所述第一启动子的3’,并且(b)的序列在(a)的序列的3’。
16.根据权利要求14或权利要求15所述的多核苷酸表达载体,其中所述第一启动子是诱导型启动子。
17.根据权利要求16所述的多核苷酸表达载体,其中所述诱导型启动子选自用纤维二糖可诱导的β-葡萄糖苷酶启动子或用3-苯甲酸甲酯可诱导的Pm启动子。
18.根据权利要求14所述的多核苷酸表达载体,所述多核苷酸表达载体还包含在所述第一启动子或单独的第二启动子的控制下的编码同源重组(HR)片段的多核苷酸序列。
19.根据权利要求18所述的多核苷酸表达载体,其中控制所述HR片段的所述第二启动子是组成型启动子。
20.根据权利要求19所述的多核苷酸表达载体,其中所述组成型启动子是P3。
21.根据权利要求18至20中任一项所述的多核苷酸表达载体,其中所述HR片段的臂包含允许在所述宿主生物体中的感兴趣的基因座的上游和下游分别地重组的核酸序列。
22.根据权利要求21所述的多核苷酸表达载体,其中所述感兴趣的基因座包含靶序列。
23.根据权利要求18所述的多核苷酸表达载体,其中所述HR片段还包含在其上游臂和下游臂之间的插入元件。
24.根据权利要求23所述的多核苷酸表达载体,其中所述插入元件是感兴趣的基因。
25.根据权利要求24所述的多核苷酸表达载体,其中所述插入元件是在操作方向上具有合适的启动子的感兴趣的基因,以在所述宿主生物体中提供所述感兴趣的基因的表达。
26.根据权利要求22所述的多核苷酸表达载体,其中所述感兴趣的基因座包含位于所述靶序列的3’的PAM序列5’-NNNNCNN-3’。
27.根据权利要求26所述的多核苷酸表达载体,其中所述PAM序列5’-NNNNCNN-3’距离所述靶序列至少2个、3个、4个、5个、6个或更多个核苷酸。
28.根据权利要求14所述的多核苷酸表达载体,其中所述靶基因座是基因。
29.根据权利要求14所述的多核苷酸表达载体,其中所述指导RNA是单指导RNA(sgRNA)。
30.一种修饰生物体的遗传物质的方法,所述方法包括用第一表达载体和第二表达载体转化所述生物体,所述第一表达载体是根据权利要求14至17中任一项所述的载体,所述第二表达载体包含在启动子的控制下的编码同源重组(HR)片段的多核苷酸序列,其中所述方法不用于人类或动物治疗。
31.一种修饰原核生物体的遗传物质的方法,所述方法包括用根据权利要求18至29中任一项所述的表达载体转化所述原核生物体。
32.根据权利要求31所述的方法,其中将所转化的生物体在第一温度培养持续一个时间段,并且然后在编码所述ThermoCas9核酸酶的多核苷酸序列的启动子的诱导之前或期间在第二温度培养。
33.根据权利要求30至32中任一项所述的方法,其中所述第一温度是60℃或更低,并且所述第二温度是更高的温度,所述更高的温度是至少55℃。
34.根据权利要求33所述的方法,其中所述第一温度是55℃或更低,并且所述第二温度大于55℃。
35.根据权利要求30所述的方法,其中所述生物体是原核生物。
36.根据权利要求35所述的方法,其中所述原核生物是嗜热细菌。
37.根据权利要求35所述的方法,其中所述原核生物是具有至少40℃的最佳生长温度的细菌。
38.根据权利要求35所述的方法,其中所述原核生物是热葡萄糖苷酶地芽孢杆菌(Geobacillus thermoglucosidans)、凝结芽孢杆菌(Bacillus coagulans)或恶臭假单胞菌(Pseudomonas putida)。
39.一种原核细胞,所述原核细胞用根据权利要求14至29中任一项所述的多核苷酸表达载体转化。
CN201780086546.5A 2016-12-14 2017-12-14 热稳定的Cas9核酸酶 Active CN110431229B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
PCT/EP2016/081077 WO2018108272A1 (en) 2016-12-14 2016-12-14 Thermostable cas9 nucleases
EPPCT/EP2016/081077 2016-12-14
PCT/EP2017/070796 WO2018108338A1 (en) 2016-12-14 2017-08-16 Thermostable cas9 nucleases
EPPCT/EP2017/070796 2017-08-16
PCT/EP2017/082870 WO2018109101A1 (en) 2016-12-14 2017-12-14 Thermostable cas9 nucleases

Publications (2)

Publication Number Publication Date
CN110431229A CN110431229A (zh) 2019-11-08
CN110431229B true CN110431229B (zh) 2024-03-12

Family

ID=57755254

Family Applications (4)

Application Number Title Priority Date Filing Date
CN201680092098.5A Active CN110312792B (zh) 2016-12-14 2016-12-14 热稳定的Cas9核酸酶
CN201780086541.2A Active CN110352241B (zh) 2016-12-14 2017-08-16 热稳定的Cas9核酸酶
CN201780086540.8A Active CN110382693B (zh) 2016-12-14 2017-08-16 热稳定的Cas9核酸酶
CN201780086546.5A Active CN110431229B (zh) 2016-12-14 2017-12-14 热稳定的Cas9核酸酶

Family Applications Before (3)

Application Number Title Priority Date Filing Date
CN201680092098.5A Active CN110312792B (zh) 2016-12-14 2016-12-14 热稳定的Cas9核酸酶
CN201780086541.2A Active CN110352241B (zh) 2016-12-14 2017-08-16 热稳定的Cas9核酸酶
CN201780086540.8A Active CN110382693B (zh) 2016-12-14 2017-08-16 热稳定的Cas9核酸酶

Country Status (11)

Country Link
US (5) US11242513B2 (zh)
EP (4) EP3555275A1 (zh)
JP (6) JP7182545B2 (zh)
KR (3) KR20190104342A (zh)
CN (4) CN110312792B (zh)
AU (4) AU2016432443B2 (zh)
BR (4) BR112019012155A2 (zh)
CA (4) CA3046824A1 (zh)
EA (4) EA201991443A1 (zh)
PH (4) PH12019501344A1 (zh)
WO (3) WO2018108272A1 (zh)

Families Citing this family (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3613852A3 (en) 2011-07-22 2020-04-22 President and Fellows of Harvard College Evaluation and improvement of nuclease cleavage specificity
US20150044192A1 (en) 2013-08-09 2015-02-12 President And Fellows Of Harvard College Methods for identifying a target site of a cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US9340799B2 (en) 2013-09-06 2016-05-17 President And Fellows Of Harvard College MRNA-sensing switchable gRNAs
US9322037B2 (en) 2013-09-06 2016-04-26 President And Fellows Of Harvard College Cas9-FokI fusion proteins and uses thereof
US20150166982A1 (en) 2013-12-12 2015-06-18 President And Fellows Of Harvard College Methods for correcting pi3k point mutations
WO2016022363A2 (en) 2014-07-30 2016-02-11 President And Fellows Of Harvard College Cas9 proteins including ligand-dependent inteins
WO2016073990A2 (en) 2014-11-07 2016-05-12 Editas Medicine, Inc. Methods for improving crispr/cas-mediated genome-editing
AU2016261358B2 (en) 2015-05-11 2021-09-16 Editas Medicine, Inc. Optimized CRISPR/Cas9 systems and methods for gene editing in stem cells
AU2016276702B2 (en) 2015-06-09 2022-07-28 Editas Medicine, Inc. CRISPR/CAS-related methods and compositions for improving transplantation
GB201510296D0 (en) * 2015-06-12 2015-07-29 Univ Wageningen Thermostable CAS9 nucleases
EP3786294A1 (en) 2015-09-24 2021-03-03 Editas Medicine, Inc. Use of exonucleases to improve crispr/cas-mediated genome editing
JP7109784B2 (ja) 2015-10-23 2022-08-01 プレジデント アンド フェローズ オブ ハーバード カレッジ 遺伝子編集のための進化したCas9蛋白質
US11597924B2 (en) 2016-03-25 2023-03-07 Editas Medicine, Inc. Genome editing systems comprising repair-modulating enzyme molecules and methods of their use
WO2017180694A1 (en) 2016-04-13 2017-10-19 Editas Medicine, Inc. Cas9 fusion molecules gene editing systems, and methods of use thereof
WO2018027078A1 (en) 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
US11661590B2 (en) 2016-08-09 2023-05-30 President And Fellows Of Harvard College Programmable CAS9-recombinase fusion proteins and uses thereof
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
WO2018071868A1 (en) 2016-10-14 2018-04-19 President And Fellows Of Harvard College Aav delivery of nucleobase editors
WO2018108272A1 (en) 2016-12-14 2018-06-21 Wageningen Universiteit Thermostable cas9 nucleases
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
WO2018165504A1 (en) 2017-03-09 2018-09-13 President And Fellows Of Harvard College Suppression of pain by gene editing
KR20190127797A (ko) 2017-03-10 2019-11-13 프레지던트 앤드 펠로우즈 오브 하바드 칼리지 시토신에서 구아닌으로의 염기 편집제
CA3057192A1 (en) 2017-03-23 2018-09-27 President And Fellows Of Harvard College Nucleobase editors comprising nucleic acid programmable dna binding proteins
EP3615672A1 (en) 2017-04-28 2020-03-04 Editas Medicine, Inc. Methods and systems for analyzing guide rna molecules
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
CN110997908A (zh) 2017-06-09 2020-04-10 爱迪塔斯医药公司 工程化的cas9核酸酶
EP3652312A1 (en) 2017-07-14 2020-05-20 Editas Medicine, Inc. Systems and methods for targeted integration and genome editing and detection thereof using integrated priming sites
US11732274B2 (en) 2017-07-28 2023-08-22 President And Fellows Of Harvard College Methods and compositions for evolving base editors using phage-assisted continuous evolution (PACE)
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
GB201716590D0 (en) * 2017-10-10 2017-11-22 Univ Wageningen Thermostable cas9 nucleases with reduced off-target activity
CA3082251A1 (en) 2017-10-16 2019-04-25 The Broad Institute, Inc. Uses of adenosine base editors
KR102465067B1 (ko) * 2018-02-15 2022-11-10 시그마-알드리치 컴퍼니., 엘엘씨 진핵 게놈 변형을 위한 조작된 cas9 시스템
US20220010321A1 (en) 2018-11-01 2022-01-13 Keygene N.V. Dual guide rna for crispr/cas genome editing in plants cells
EP3924475A1 (en) 2019-02-15 2021-12-22 Sigma-Aldrich Co. LLC Crispr/cas fusion proteins and systems
MX2021011426A (es) 2019-03-19 2022-03-11 Broad Inst Inc Metodos y composiciones para editar secuencias de nucleótidos.
CN116694603A (zh) * 2019-05-14 2023-09-05 深圳华大生命科学研究院 新型的Cas蛋白、Crispr-Cas系统及其在基因编辑领域中的用途
CN110331158B (zh) * 2019-07-30 2021-09-14 湖北大学 基于运动发酵单胞菌内源CRISPR-Cas系统的多基因位点同时编辑方法及其应用
WO2021017200A1 (zh) * 2019-07-30 2021-02-04 湖北大学 一种基于运动发酵单胞菌的CRISPR-Cas系统、基因组编辑体系及其应用
CN112410234B (zh) * 2019-08-21 2022-08-23 江南大学 一种多靶点编辑重组曲霉菌株的可视化筛选方法
US11879134B1 (en) * 2019-09-05 2024-01-23 The Regents Of The University Of Colorado, A Body Corporate Recombineering machinery to increase homology directed genome editing in thermophilic microbes
IL297761A (en) 2020-05-08 2022-12-01 Broad Inst Inc Methods and compositions for simultaneously editing two helices of a designated double-helix nucleotide sequence
CN111778230A (zh) * 2020-07-17 2020-10-16 山东舜丰生物科技有限公司 一种适用于Cas12蛋白的缓冲系统及其应用
RU2749307C1 (ru) * 2020-10-30 2021-06-08 Федеральное государственное бюджетное научное учреждение "Всероссийский научно-исследовательский институт сельскохозяйственной биотехнологии" (ФГБНУ ВНИИСБ) Новая компактная нуклеаза CAS9 II типа из Anoxybacillus flavithermus
CN114480347B (zh) * 2022-02-21 2022-12-23 中国科学院地球化学研究所 一种纯化Cas12a蛋白的方法
CN114934031B (zh) * 2022-05-25 2023-08-01 广州瑞风生物科技有限公司 新型Cas效应蛋白、基因编辑系统及用途
JP7152094B1 (ja) * 2022-06-30 2022-10-12 リージョナルフィッシュ株式会社 tracrRNAユニット、及びゲノム編集方法
CN116144631B (zh) * 2023-01-17 2023-09-15 华中农业大学 耐热型核酸内切酶及其介导的基因编辑系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102712912A (zh) * 2009-09-29 2012-10-03 布特马斯先进生物燃料有限责任公司 在乳酸菌中改善流向乙酰乳酸来源产物的流量
WO2016099887A1 (en) * 2014-12-17 2016-06-23 E. I. Du Pont De Nemours And Company Compositions and methods for efficient gene editing in e. coli using guide rna/cas endonuclease systems in combination with circular polynucleotide modification templates
WO2016179038A1 (en) * 2015-05-01 2016-11-10 Spark Therapeutics, Inc. ADENO-ASSOCIATED VIRUS-MEDIATED CRISPR-Cas9 TREATMENT OF OCULAR DISEASE
WO2016186946A1 (en) * 2015-05-15 2016-11-24 Pioneer Hi-Bred International, Inc. Rapid characterization of cas endonuclease systems, pam sequences and guide rna elements

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
ES2176082B1 (es) 2000-05-31 2004-01-01 Consejo Superior Investigacion Bacterias con la capacidad de unir metales pesados y su empleo en la detoxificacion de medios contaminados con metales pesados.
US7220571B2 (en) 2000-09-28 2007-05-22 Archer-Daniels-Midland Company Escherichia coli strains which over-produce L-threonine and processes for the production of L-threonine by fermentation
WO2002066622A2 (en) * 2001-02-23 2002-08-29 Novozymes A/S Method of generating diversity into lipolytic enzymes and lipolytic enzyme genes
US7670807B2 (en) * 2004-03-10 2010-03-02 East Tennessee State Univ. Research Foundation RNA-dependent DNA polymerase from Geobacillus stearothermophilus
JP2006230303A (ja) * 2005-02-25 2006-09-07 Art Engineering Kk 好熱性リパーゼ産生菌およびその利用
KR100872695B1 (ko) * 2006-11-27 2008-12-10 씨제이제일제당 (주) Gras 미생물로부터 발현된 식품안전형 호열성아라비노스 이성화효소 및 그를 이용한 타가토스의제조방법
KR101491867B1 (ko) * 2007-01-31 2015-02-10 피페넥스 인크. 증가된 발현을 위한 박테리아 리더 서열
EA038924B1 (ru) * 2012-05-25 2021-11-10 Те Риджентс Оф Те Юниверсити Оф Калифорния Способы и композиции рнк-специфической модификации днк-мишени и рнк-специфической модуляции транскрипции
US10287594B2 (en) 2013-03-15 2019-05-14 Cibus Us Llc Methods and compositions for increasing efficiency of targeted gene modification using oligonucleotide-mediated gene repair
DK3116305T3 (da) 2014-03-14 2024-03-04 Cibus Us Llc Fremgangsmåder og sammensætninger til forøgelse af effektiviteten af målrettet genmodifikation ved anvendelse af oligonukleotidmedieret genreparation
US10725041B2 (en) 2014-11-04 2020-07-28 Versiti Blood Research Institute Foundation, Inc. Method to bioengineer designer platelets using gene editing and stem cell methodologies
WO2016073990A2 (en) 2014-11-07 2016-05-12 Editas Medicine, Inc. Methods for improving crispr/cas-mediated genome-editing
GB201510296D0 (en) 2015-06-12 2015-07-29 Univ Wageningen Thermostable CAS9 nucleases
WO2018108272A1 (en) * 2016-12-14 2018-06-21 Wageningen Universiteit Thermostable cas9 nucleases

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102712912A (zh) * 2009-09-29 2012-10-03 布特马斯先进生物燃料有限责任公司 在乳酸菌中改善流向乙酰乳酸来源产物的流量
WO2016099887A1 (en) * 2014-12-17 2016-06-23 E. I. Du Pont De Nemours And Company Compositions and methods for efficient gene editing in e. coli using guide rna/cas endonuclease systems in combination with circular polynucleotide modification templates
WO2016179038A1 (en) * 2015-05-01 2016-11-10 Spark Therapeutics, Inc. ADENO-ASSOCIATED VIRUS-MEDIATED CRISPR-Cas9 TREATMENT OF OCULAR DISEASE
WO2016186946A1 (en) * 2015-05-15 2016-11-24 Pioneer Hi-Bred International, Inc. Rapid characterization of cas endonuclease systems, pam sequences and guide rna elements

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
type II CRISPR RNA-guided endonuclease Cas9 [Geobacillus stearothermophilus];NCBI;《NCBI Reference Sequence: WP_064213580.1》;20160526;CDs区 *
米根霉菌ldhL基因的克隆及其在大肠杆菌中的表达;郭怡等;《微生物学通报》;20080720(第07期);1016-1020 *

Also Published As

Publication number Publication date
US20210340532A1 (en) 2021-11-04
PH12019501335A1 (en) 2019-09-16
CA3046826A1 (en) 2018-06-21
AU2016432443B2 (en) 2024-04-18
AU2017377136B2 (en) 2024-04-18
KR20190104342A (ko) 2019-09-09
WO2018108338A1 (en) 2018-06-21
EA201991442A1 (ru) 2020-01-13
AU2017377792B2 (en) 2024-04-18
JP2020510410A (ja) 2020-04-09
JP2020504603A (ja) 2020-02-13
CN110382693B (zh) 2024-04-09
US11242513B2 (en) 2022-02-08
EP3555278A1 (en) 2019-10-23
WO2018108339A9 (en) 2018-09-20
PH12019501344A1 (en) 2019-10-28
JP2022166170A (ja) 2022-11-01
AU2017377136A1 (en) 2019-07-11
CN110431229A (zh) 2019-11-08
JP7223377B2 (ja) 2023-02-16
US20190322993A1 (en) 2019-10-24
BR112019012155A2 (pt) 2019-11-12
JP7283698B2 (ja) 2023-05-30
BR112019012173A2 (pt) 2019-11-05
CA3046824A1 (en) 2018-06-21
US11326162B2 (en) 2022-05-10
BR112019012165A2 (pt) 2019-11-12
CN110312792A (zh) 2019-10-08
KR20190104343A (ko) 2019-09-09
CN110352241A (zh) 2019-10-18
AU2017377135B2 (en) 2024-04-18
KR20190104345A (ko) 2019-09-09
AU2017377792A1 (en) 2019-07-11
CA3046828A1 (en) 2018-06-21
JP2020506667A (ja) 2020-03-05
US20190360002A1 (en) 2019-11-28
AU2016432443A1 (en) 2019-07-11
EA201991440A1 (ru) 2020-01-13
JP7182545B2 (ja) 2022-12-02
WO2018108272A1 (en) 2018-06-21
EA201991441A1 (ru) 2020-01-09
US11939605B2 (en) 2024-03-26
PH12019501346A1 (en) 2019-11-04
EP3555277A1 (en) 2019-10-23
EP3555276A1 (en) 2019-10-23
AU2017377135A1 (en) 2019-07-11
WO2018108339A1 (en) 2018-06-21
PH12019501340A1 (en) 2019-09-30
JP2020505000A (ja) 2020-02-20
JP2022166045A (ja) 2022-11-01
US20190367893A1 (en) 2019-12-05
US20220213455A1 (en) 2022-07-07
EP3555275A1 (en) 2019-10-23
JP7223376B2 (ja) 2023-02-16
KR102523543B1 (ko) 2023-04-19
CN110312792B (zh) 2024-04-09
CA3046842A1 (en) 2018-06-21
KR20190104344A (ko) 2019-09-09
CN110352241B (zh) 2024-04-09
KR102523544B1 (ko) 2023-04-19
CN110382693A (zh) 2019-10-25
BR112019012183A2 (pt) 2019-11-05
EA201991443A1 (ru) 2020-01-14

Similar Documents

Publication Publication Date Title
CN110431229B (zh) 热稳定的Cas9核酸酶
WO2018109101A1 (en) Thermostable cas9 nucleases
KR102662270B1 (ko) 열안정성 cas9 뉴클레아제

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant