CN107922931A - 热稳定的Cas9核酸酶 - Google Patents

热稳定的Cas9核酸酶 Download PDF

Info

Publication number
CN107922931A
CN107922931A CN201680046318.0A CN201680046318A CN107922931A CN 107922931 A CN107922931 A CN 107922931A CN 201680046318 A CN201680046318 A CN 201680046318A CN 107922931 A CN107922931 A CN 107922931A
Authority
CN
China
Prior art keywords
nucleic acid
albumen
lys
leu
arg
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201680046318.0A
Other languages
English (en)
Other versions
CN107922931B (zh
Inventor
约翰·万德奥斯特
马丁努斯·约翰内斯·阿诺尔德斯·达斯
瑟万提斯·威廉默斯·玛丽亚·肯根
W·M·德福斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wageningen Universiteit
Original Assignee
A Bio Chemical Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A Bio Chemical Co filed Critical A Bio Chemical Co
Publication of CN107922931A publication Critical patent/CN107922931A/zh
Application granted granted Critical
Publication of CN107922931B publication Critical patent/CN107922931B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/63Introduction of foreign genetic material using vectors; Vectors; Use of hosts therefor; Regulation of expression
    • C12N15/79Vectors or expression systems specially adapted for eukaryotic hosts
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y301/00Hydrolases acting on ester bonds (3.1)
    • C12Y301/21Endodeoxyribonucleases producing 5'-phosphomonoesters (3.1.21)

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Plant Pathology (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Cell Biology (AREA)
  • Mycology (AREA)
  • Crystallography & Structural Chemistry (AREA)

Abstract

热稳定的Cas9核酸酶。本发明涉及遗传工程领域,并且更特别地涉及核酸编辑和基因组修饰。本发明提供了一种分离的Cas蛋白或其多肽片段,所述分离的Cas蛋白或其多肽片段具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列,其中所述Cas蛋白或多肽能够在50℃与100℃(包括端点)的范围内的温度进行DNA裂解。本发明还提供了编码所述Cas9核酸酶的分离的核酸分子、表达载体和宿主细胞。本文公开的Cas9核酸酶提供了用于在升高的温度进行遗传工程的新型工具,并且在嗜热生物体特别地微生物的遗传操作中具有特别的价值。

Description

热稳定的Cas9核酸酶
发明领域
本发明涉及遗传工程领域,并且更特别地涉及核酸编辑和基因组修饰。本发明涉及核酸酶形式的遗传工程工具,所述核酸酶可以被配置用于遗传物质的序列指导的位点特异性切口或切割;还涉及对遗传物质的序列特异性位点发挥核酸酶活性的核糖核蛋白、以及用于作为标志物使用的修饰的核酸酶和核糖核蛋白。因此,本发明还涉及用于在细胞内递送和表达核酸酶和指导RNA的相关表达构建体。此外,本发明涉及体外或体内的核酸序列特异性编辑以及用于实现其的方法。本发明涉及的特定领域为嗜热生物体,特别地微生物的遗传操作。
发明背景
在2007年首次证明CRISPR-Cas为许多细菌和大多数古核生物(archaeon)中的适应性免疫系统(Barrangou等,2007,Science 315:1709-1712),Brouns等,2008,Science321:960-964)。基于功能和结构标准,迄今已经表征了三种类型的CRISPR-Cas系统,其中大多数使用小RNA分子作为指导以靶向互补DNA序列(Makarova等,2011,Nat Rev Microbiol9:467-477;Van der Oost等,2014,Nat Rev Microbiol 12:479-492)。
在Doudna/Charpentier实验室最近的一项研究中,对II型CRISPR-Cas系统(Cas9)的效应酶进行了彻底的表征,包括证明设计的CRISPR RNA指导(具有特定间隔区序列)的引入靶向质粒上的互补序列(前间区(protospacers)),引起该质粒的双链断裂(Jinek等,2012,Science 337:816-821)。继Jinek等,2012之后,Cas9被用作用于基因组编辑的工具。
Cas9已经被用于工程化一系列真核细胞(例如鱼、植物、人)的基因组(Charpentier和Doudna,2013,Nature 495:50-51)。
另外,通过选择专门的重组事件,Cas9已经被用于改进细菌中同源重组的产率(Jiang等,2013,Nature Biotechnol 31:233-239)。为了实现这一点,将毒性片段(靶向构建体)与携带期望的改变的救援片段(编辑构建体,携带点突变或缺失)共转染。靶向构建体由Cas9与设计的CRISPR的组合和抗生素抗性标志物组成,定义了宿主染色体上期望的重组的位点;在对应的抗生素的存在下,选择靶向构建体在宿主染色体中的整合。仅当编辑构建体与CRISPR靶位点在宿主染色体别处的CRISPR靶位点发生另外的重组时,宿主才能逃脱自身免疫问题。因此,在抗生素的存在下,仅期望的(无标志物的)突变体能够存活和生长。还呈现了选择随后从染色体上去除整合的靶向构建体,生成真正的无标志物突变体的相关策略。
在最近几年,已经建立了CRISPR-Cas介导的基因组编辑构成用于遗传工程的有用工具。已经建立了,原核CRISPR系统将其宿主用作适应性免疫系统(Jinek等,2012,Science337:816-821)并且可以用于快速且有效的遗传工程(例如,Mali等,2013,Nat Methods 10:957-963),仅要求修改指导序列以靶向感兴趣的序列。
然而,对开发在应用于遗传研究和基因组编辑领域的多种实验条件下具有改进的序列特异性核酸检测、裂解和操作的剂仍存在持续需求。特别地,当前可得的序列特异性基因组编辑工具,包括Cas9,不适用于在所有条件或生物体中使用,例如,序列特异性核酸酶相对热敏感,并且因此不适用于在严格嗜热微生物(其能够在41℃与122℃之间生长,并且能够在从>60℃至80℃的温度范围内最佳生长,其中极端嗜热菌(hyperthermophiles)能够在高于80℃最佳生长),例如工业发酵中使用的微生物或用于在升高的温度进行的体外实验室过程的微生物。
迄今,不存在关于嗜热菌(thermophiles)中活性Cas9蛋白的实验证据。基于由Chylinski等(2014;Nucleic Acids Research 42:6091-61-05)在细菌中在Cas9的存在下的比较基因组筛选,发现II型-C CRISPR-Cas系统仅存在于所有细菌基因组的约3.3%中。在嗜热细菌中,基于统计学分析,II型系统的代表性不足(P=0.0019)。另外,然而,在古核生物中尚未发现II型系统,这可能是由于古核生物中不存在RNA酶III蛋白(参与II型系统)。Chylinski等,(2014;Nucleic Acids Research 42:6091-6105)确实描述了II型CRISPR-Cas系统的分类和进化,特别地,鉴定了表现出这些系统的两个物种,然而这些物种在55℃最大生长,并且没有表现出严格的嗜热生长,其中最佳生长温度为60℃-80℃,而极端嗜热菌能够在高于80℃最佳生长。
尽管CRISPR-Cas系统在细菌基因组中的稀有性,并且特别地仅在具有低于45℃的最佳生长温度的细菌(非古核生物)中发现Cas9的事实,本发明的发明人出乎意料地发现了几种能够在升高的温度进行基因组编辑的热稳定的Cas9变体。这些Cas9核酸酶提供了用于在升高的温度进行遗传工程的新型工具,并且在嗜热生物体特别地微生物的遗传操作中具有特别的价值。
发明概述
因此,本发明提供了一种分离的成簇的规律间隔的短回文重复(clusteredregularly interspaced short palindromic repeat,CRISPR)相关(Cas)蛋白或多肽,所述分离的成簇的规律间隔的短回文重复(CRISPR)相关(Cas)蛋白或多肽包含:
a.氨基酸基序EKDGKYYC[SEQ ID NO:2];和/或
b.氨基酸基序X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和/或
c.氨基酸基序X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和/或
d.氨基酸基序X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一;和/或
e.氨基酸基序X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
在本发明的情况下的多肽可以被视为全长Cas蛋白的片段。此类片段可以是失活的并且以与编辑或切割遗传物质不直接相关的方式和目的使用,例如用于测定中的标准物或产生抗体等。
然而,在优选的实施方案中,Cas蛋白或多肽为有功能的并且当与至少一种靶向RNA分子和包含由靶向RNA分子识别的靶核酸序列的多核苷酸缔合时能够在50℃与100℃(包括端点)的范围内的温度进行DNA裂解。
在特定实施方案中,本发明可以提供包含氨基酸基序EKDGKYYC[SEQ ID NO:2]的Cas蛋白或多肽。在其他实施方案中,Cas蛋白或多肽还可以还包含氨基酸基序X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一。
在其他实施方案中,本文定义的Cas蛋白或多肽可以另外还包含氨基酸基序X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺。
在其他实施方案中,本文定义的Cas蛋白或多肽可以另外还包含氨基酸基序X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一。
在其他实施方案中,本文定义的Cas蛋白或多肽可以另外还包含氨基酸基序X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
根据本发明,可以理解,本发明的Cas蛋白或多肽可以包含单独的或组合的SEQ IDNO:2至6的任何基序。以下总结了可以表征本发明的Cas蛋白或多肽的基序组合的每一个:
EKDGKYYC[SEQ ID NO:2]。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ IDNO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺。
EKDGKYYC[SEQ ID NO:2];和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一。
EKDGKYYC[SEQ ID NO:2];和X9FYX10X11REQX12KEX13[SEQ IDNO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一。
EKDGKYYC[SEQ ID NO:2];和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
EKDGKYYC[SEQ ID NO:2];和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺。
X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一。
X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一。
X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一。
X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和X9FYX10X11REQX12KEX13[SEQ IDNO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一;和X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸。
在另一个方面,本发明提供了一种分离的Cas蛋白或其多肽片段,所述分离的Cas蛋白或其多肽片段具有SEQ ID NO:1的氨基酸序列或与SEQID NO:1具有至少77%同一性的序列,其中所述Cas蛋白或多肽能够在50℃与100℃(包括端点)的范围内的温度进行DNA裂解。
优选地,Cas蛋白或多肽能够在60℃至80℃(包括端点)的范围内的温度进行DNA裂解。例如,DNA裂解在以下的温度发生:61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃、75℃、76℃、77℃、78℃、79℃或80℃。更优选地,Cas蛋白或多肽能够在60℃至65℃的范围内的温度进行DNA裂解。在优选的方面,本发明的Cas蛋白或多肽片段可以包含与SEQ ID NO:1具有至少75%同一性;优选地至少85%;更优选地至少90%;甚至更优选地至少95%同一性的氨基酸序列。
更特别地,本发明的Cas蛋白或多肽可以包含与SEQ ID NO:1具有如下同一性百分比的氨基酸序列:至少60%、至少61%、至少62%、至少63%、至少64%、至少65%、至少66%、至少67%、至少68%、至少69%、至少70%、至少71%、至少72%、至少73%、至少74%、至少75%、至少76%、至少77%、至少78%、至少79%、至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.5%或至少99.8%。
与SEQ ID NO:1的氨基酸序列同一性百分比是所选择的比较窗中序列所共享的相同位置的数目的函数,考虑两个序列的最佳比对所需要被引入的空位(gap)的数目和每一个空位的长度,。
本发明的Cas蛋白或多肽片段可以关于参考序列SEQ ID NO:1和其由序列同一性百分比定义的任何前述百分比变体两者单独地或与任何以上提及的氨基酸基序(即SEQ IDNO:2和/或3和/或4和/或5和/或6)组合作为基本特征来表征。
此外,本发明提供了编码本发明的任何以上提及的蛋白或多肽的核酸。核酸可以是分离的或呈表达构建体的形式。
在本发明的所有以上提及的方面中,氨基酸残基可以被保守取代或非保守取代。保守氨基酸取代指其中氨基酸残基被取代为具有类似化学特性(例如,电荷或疏水性)的其他氨基酸残基并且因此不改变所得多肽的功能特性的那些氨基酸取代。
类似地,本领域普通技术人员将理解,核酸序列可以被保守或非保守取代,而不影响多肽的功能。保守修饰的核酸为被取代为编码氨基酸序列的相同或功能上相同的变体的核酸的那些核酸。本领域的读者将理解,核酸中的每一个密码子(除了AUG和UGG;通常分别为甲硫氨酸或色氨酸的唯一密码子)可以被修饰以产生功能相同的分子。因此,编码本发明的多肽的多核苷酸或多肽的每一个沉默变异(即同义密码子)隐含在每一个描述的多肽序列中。
裂解温度
本发明的Cas蛋白的核酸酶活性的温度范围包括最佳温度范围显著高于已知的Cas9蛋白的温度范围。此外,它在其中保持核酸酶活性的范围的上限比已知的Cas9蛋白的范围的上限高得多。较高的最佳温度和功能范围在高温度的遗传工程中提供了显著的优势,并且因此例如在编辑嗜热生物体的基因组中提供了显著的优势,其中的许多在升高的温度进行的一系列工业、农业和制药过程中具有实用性。
有利地,本发明的Cas蛋白或多肽能够从20℃至100℃进行核酸裂解,但在升高的温度,例如在41℃与122℃之间,优选地在50℃与100℃之间特别有用。本发明的Cas蛋白和多肽能够裂解DNA、RNA和合成的核酸。例如,本发明的Cas蛋白或多肽还可以在20℃至40℃的范围内的温度提供用于核酸酶活性和基因编辑应用的可操作性。
优选地,当与识别待裂解、标记或修饰的多核苷酸分子中的靶序列的合适的gRNA(指导RNA)缔合时,本发明的Cas蛋白或多肽在50℃至100℃的范围内,任选地在以下范围内的温度进行裂解、标记或修饰:55℃至100℃、60℃至100℃、65℃至100℃、70℃至100℃、75℃至100℃、80℃至100℃、85℃至100℃、90℃至100℃、95℃至100℃。更优选地,本发明的Cas蛋白在以下范围内的温度裂解、标记或修饰核酸:51℃至99℃、52℃至98℃、53℃至97℃、54℃至96℃、55℃至95℃、56℃至94℃、57℃至93℃、58℃至92℃、59℃至91℃、60℃至90℃、61℃至89℃、62℃至88℃、63℃至87℃、64℃至86℃、65℃至85℃、66℃至84℃、67℃至83℃、68℃至82℃、69℃至81℃、70℃至80℃、71℃至79℃、72℃至78℃、73℃至77℃、74℃至76℃、75℃。优选地,本发明的Cas蛋白在以下范围内的温度裂解、标记或修饰核酸:60℃至80℃、61℃至79℃、62℃至78℃、63℃至77℃、64℃至76℃、60℃至75℃、60℃至70℃。最佳地,本发明的Cas蛋白在60℃至65℃范围内的温度,优选地在65℃裂解、标记或修饰核酸。
在本发明的所有方面,Cas蛋白或多肽可以获自或来源于细菌、古核生物或病毒;或可选地可以从头合成。在优选的实施方案中,本发明的Cas蛋白或多肽来源于嗜热原核生物体,其可以被分类为古核生物或细菌,但优选地为细菌。更优选地,本发明的Cas蛋白或多肽将来源于嗜热细菌。本文中,术语嗜热应当理解为意指能够在相对高的温度存活和生长,例如,在本发明的情况下,能够在41℃与122℃(106℉与252℉)之间进行核酸裂解。优选地,本发明的Cas蛋白或多肽可以从一种或更多种嗜热细菌中分离,并且将在高于60℃起作用。优选地,本发明的Cas蛋白或多肽可以从一种或更多种嗜热细菌中分离,并且将在60℃至80℃的范围内并且最佳地在60℃与65℃之间起作用。在优选的实施方案中,本发明的Cas蛋白或多肽来源于地芽孢杆菌属的种(Geobacillus sp.)。更优选地,本发明的Cas蛋白来源于热脱氮地芽孢杆菌(Geobacillus thermodenitrificans)。甚至更优选地,本发明的Cas蛋白来源于热脱氮地芽孢杆菌T12。本发明的Cas蛋白或多肽可以来源于病毒。
RNA指导(RNA Guides)和靶序列
本发明的Cas蛋白允许在升高的温度对靶核酸进行序列特异性裂解、加标签、标记或修饰。靶核酸可以是DNA(单链或双链)、RNA或合成的核酸。本发明的一个特别有用的应用为通过与一种或更多种指导RNA(gRNA)复合的本发明的一种或更多种Cas蛋白对基因组DNA进行序列特异性靶向和修饰,所述指导RNA与所述基因组DNA的靶向序列互补结合。因此,靶核酸优选地为双链DNA。此类靶向可以在体外或体内进行。优选地,此类靶向在体内进行。以该方式,本发明的Cas蛋白可以用于靶向和修饰位于细胞的基因组DNA中的特定DNA序列。设想Cas系统可以用于修饰多种细胞类型和/或不同生物体中的基因组。
因此,本发明提供了核糖核蛋白复合体,所述核糖核蛋白复合体包含如上文描述的本发明的Cas蛋白或多肽,并且还包含由于识别靶多核苷酸中的特定核苷酸序列而具有靶向功能的至少一种RNA分子。优选地,RNA分子为单链RNA分子,例如CRISPR RNA(crRNA),并且例如与tracrRNA通过杂交缔合。靶向RNA可以是crRNA和tracrRNA的嵌合体。以上提及的RNA分子可以具有与靶核苷酸序列具有至少90%同一性或互补性的核糖核苷酸序列。任选地,RNA分子具有与靶核苷酸序列具有至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少100%同一性或互补性的核糖核苷酸序列。优选的靶核苷酸序列为DNA。
在优选的方面,本发明提供了如上文描述的核糖核蛋白复合体,其中至少一种靶向RNA分子沿其长度与靶DNA序列实质上互补。
因此,与本发明的Cas蛋白缔合的RNA指导的序列的改变允许Cas蛋白被编程为在与指导RNA互补的位点标记或切割双链DNA。
优选地,本发明的核糖核蛋白复合体中的至少一种靶向RNA分子的长度在35个至135个残基的范围内,任选地在以下范围内:35个至134个残基、35个至133个残基、35个至132个残基、35个至131个残基、35个至130个残基、35个至129个残基、35个至128个残基、35个至127个残基、35个至126个残基、35个至125个残基、35个至124个残基、35个至123个残基、35个至122个残基、35个至121个残基、35个至120个残基、35个至119个残基、35个至118个残基、35个至117个残基、35个至116个残基、35个至115个残基、35个至114个残基、35个至113个残基、35个至112个残基、35个至111个残基、35个至110个残基、35个至109个残基、35个至108个残基、35个至107个残基、35个至106个残基、35个至105个残基、35个至104个残基、35个至103个残基、35个至102个残基、35个至101个残基、35个至100个残基、35个至99个残基、35个至98个残基、35个至97个残基、35个至96个残基、35个至95个残基、35个至94个残基、35个至93个残基、35个至92个残基、35个至91个残基、35个至90个残基、35个至89个残基、35个至88个残基、35个至87个残基、35个至86个残基、35个至85个残基、35个至84个残基、35个至83个残基、35个至82个残基、35个至81个残基、35个至80个残基、35个至79个残基、35个至78个残基、35个至77个残基、35个至76个残基、35个至75个残基、35个至74个残基、35个至73个残基、35个至72个残基、35个至71个残基、35个至70个残基、35个至69个残基、35个至68个残基、35个至67个残基、35个至66个残基、35个至65个残基、35个至64个残基、35个至63个残基、35个至62个残基、35个至61个残基、35个至60个残基、35个至59个残基、35个至58个残基、35个至57个残基、35个至56个残基、35个至55个残基、35个至54个残基、35个至53个残基、35个至52个残基、35个至51个残基、35个至50个残基、35个至49个残基、35个至48个残基、35个至47个残基、35个至46个残基、35个至45个残基、35个至44个残基、35个至43个残基、35个至42个残基、35个至41个残基、35个至40个残基、35个至39个残基、35个至38个残基、35个至37个残基、35个至36个残基或35个残基。优选地,至少一种RNA分子的长度在以下范围内:36个至174个残基、37个至173个残基、38个至172个残基、39个至171个残基、40个至170个残基、41个至169个残基、42个至168个残基、43个至167个残基、44个至166个残基、45个至165个残基、46个至164个残基、47个至163个残基、48个至162个残基、49个至161个残基、50个至160个残基、51个至159个残基、52个至158个残基、53个至157个残基、54个至156个残基、36个至74个残基、37个至73个残基、38个至72个残基、39个至71个残基、40个至70个残基、41个至69个残基、42个至68个残基、43个至67个残基、44个至66个残基、45个至65个残基、46个至64个残基、47个至63个残基、48个至62个残基、49个至61个残基、50个至60个残基、51个至59个残基、52个至58个残基、53个至57个残基、54个至56个残基。
在优选的方面,本发明提供了核糖核蛋白复合体,其中至少一种RNA分子的互补部分为至少30个残基长。可选地,至少一种RNA分子的互补部分可以是31个、32个、33个、34个、35个、36个、37个、38个、39个、40个、41个、42个、43个、44个、45个、46个、47个、48个、49个、50个、51个、52个、53个、54个、55个、56个、57个、58个、59个、60个、61个、62个、63个、64个、65个、66个、67个、68个、69个、70个、71个、72个、73个、74个或75个残基长。
靶向RNA分子将优选地要求对靶核酸序列的高特异性和亲和力。在1μM至1pM,优选地1nM至1pM;更优选地1pM-100pM的范围内的解离常数(Kd)为期望的,如可以通过非变性凝胶电泳(native gel electrophoresis)或可选地等温滴定量热法、表面等离子体共振或基于荧光的滴定方法来确定。亲和力可以使用电泳迁移率变动测定(EMSA)来确定,所述电泳迁移率变动测定也被称为凝胶阻滞测定(参见Semenova E等(2011)PNAS 108:10098-10103)。
靶向RNA分子优选地在从原核生物自然界已知的作为CRISPR RNA(crRNA)分子的分子上建模(modeled)。crRNA分子的结构已经建立并且在Jore等,2011,NatureStructural&Molecular Biology 18:529–537中更详细地解释。简言之,I-E型的成熟crRNA通常为61个核苷酸长,并且由8个核苷酸的5'“手柄”区域、32个核苷酸的“间隔区”序列和21个核苷酸的3'序列组成,所述21个核苷酸的3'序列形成具有四核苷酸环的发夹(图5)。I型系统不同于II型(Cas9)系统,并且不同系统的详细内容被描述于Van derOost 2014NatRev Micr 12:479–492中。在II型(Cas9)系统中,存在不同的处理机制,使用第二种RNA(tracrRNA)和两种核糖核酸酶。II型中的成熟的crRNA保持与tracrRNA片段附接而非发夹(图5)。然而,本发明中使用的RNA的设计不必严格遵循天然存在的crRNA的设计,无论是长度、区域还是特定的RNA序列。但明确的是,用于在本发明中使用的RNA分子可以基于公共数据库中的或新发现的基因序列信息设计,并且然后人工制备,例如通过完全或部分化学合成。本发明的RNA分子还可以通过设计并在遗传修饰的细胞或无细胞表达系统中表达的方式来产生,并且这种选择可以包括合成一些或全部的RNA序列。
II型(Cas9)中的crRNA的结构和要求也在Jinek等,2012同上中描述。在I型中,存在形成间隔区序列的5'末端的所谓的“种子(SEED)”部分,并且在其5'侧翼为8个核苷酸的5'手柄。Semenova等(2011,PNAS 108:10098-10103)已经发现种子序列的所有残基均应该与靶序列互补,尽管对于位置6处的残基可以容忍错配(图5)。在II型中,存在位于间隔区3'末端处10-12个核苷酸的种子(图5)(由Van der Oost 2014同上综述)。类似地,当设计和制备针对靶基因座(即序列)的本发明的核糖核蛋白复合体的RNA组分时,可以应用II型种子序列的必要匹配和错配规则。
因此,本发明包括检测和/或定位靶核酸分子中的单个碱基变化的方法,所述方法包括使核酸样品与如上文描述的本发明的核糖核蛋白复合体或与Cas蛋白或多肽接触,并且分离如上文描述的本发明的靶向RNA组分,并且其中靶向RNA的序列(包括当在核糖核蛋白复合体中时)使得通过在例如8个核苷酸残基的连续序列的位置6处的单碱基变化区分正常等位基因和突变等位基因。
不希望受特定理论束缚,可以用于制备本发明的核糖核蛋白复合体的靶向RNA组分的设计规则包括靶多核苷酸链中的所谓“PAM”(前间区相邻基序)序列。在大肠杆菌(E.coli)的I-E型系统中,PAM序列可以是保守的核苷酸残基三联体,5’-CTT-3’、5’-CAT-3’、5’-CCT-3’、5’-CAC-3’、5’-TTT-3’、5’-ATT-3’、和5’-AWG-3’,其中W为A、T或U。在I型中,位于靶向链中的PAM序列通常在对应于种子的5’的位置处。然而,在II型中,PAM位于靠近crRNA间隔区的3'末端的置换链的另一末端处,在对应于种子的3'的位置处(图5)(Jinek等,2012,同上)。对于酿脓链球菌(Streptococcus pyogenes)Cas9,PAM序列具有保守的核苷酸残基对5’-NGG-3’。最近,已经表征了不同的Cas9变体(IIA型和IIC型)(Ran等,2015Nature520:186-191)-图1A),并且已经揭示了PAM(参见Ran等,2015,同上-图1C)。当前建立的Cas9PAM包括:IIA型5’-NGGNNNN-3’(酿脓链球菌)、5’-NNGTNNN-3’(巴氏链球菌(Streptococcus pasteurianus))、5’-NNGGAAN-3’(嗜热链球菌(Streptococcusthermophilus))、5’-NNGGGNN-3’(金黄色葡萄球菌(Staphylococcus aureus)),和IIC型5’-NGGNNNN-3’(白喉棒杆菌(Corynebacterium diphtheriae))、5’-NNGGGTN-3’(红嘴鸥弯曲杆菌(Campylobacter lari))、5’-NNNCATN-3’(Parvibaculum lavamentivorans)、5’-NNNNGTA-3’(Neisseria cinerea)。热脱氮地芽孢杆菌T12的Cas9(本发明)属于IIC型(Ran等,2015,同上)。因此,尽管不希望受特定理论束缚,但发明人期望PAM序列更密切地接近于为IIC型Cas9核糖核蛋白复合体建立的那些。
在本发明的实施方案中,靶向RNA分子可以具有35个-75个残基范围内的长度。在优选的实施方案中,与靶向期望的核酸序列互补并且用于靶向期望的核酸序列的RNA的部分为31个或32个残基长。在天然存在的crRNA的情况下,这将对应于例如Semenova等(2011同上)的图1中示出的间隔区部分。
本发明的核糖核蛋白复合体可以具有包含位于RNA序列5'的来源于CRISPR重复的8个残基的靶向组分,该RNA序列与DNA靶序列具有实质的互补性。与DNA靶序列具有互补性的RNA序列将被理解为对应于crRNA的情况中作为间隔区序列。RNA的5'侧翼序列将被认为对应于crRNA的5'手柄;如例如在Semenova等(2011同上)的图1中示出的。
本发明的核糖核蛋白复合体可以具有位于与DNA靶序列具有互补性的靶向RNA序列3’的发夹和四核苷酸环形成序列,即位于对应于crRNA中的间隔区序列侧翼的3'手柄的3’;例如,如在Semenova等(2011同上)的图1中示出的。
不希望受特定理论束缚,在优选的核糖核蛋白复合体中,不与核糖核蛋白复合体的靶向RNA配对的靶序列DNA链可以包含选自以下的直接3'相邻三联体:5’-NGGNNNN-3’、5’-NNGTNNN-3’,5’-NNGGAAN-3’、5’-NNGGGNN-3’、5’-NGGNNNN-3’、5’-NNGGGTN-3’、5’-NNNCATN-3’、5’-NNNNGTA-3’,并且其中所述三联体残基各自不与各自的互补DNA链残基配对。然而,将理解,根据期望的应用可以使用其他三联体或核苷酸组合。这些三联体对应于在天然存在的crRNA的情况下被称为“前间区相邻基序”或“PAM”。在IIC型CRISPR/Cas系统中,这些PAM三联体是Cascade/crRNA复合体与其dsDNA靶稳定地相互作用所要求的,以确保crRNA对靶序列的高度特异性-在天然系统靶中,以及因此也优选地对于根据本发明的RNA。
功能部分
有利地,可以利用本发明的Cas蛋白、多肽和核糖核蛋白复合体以序列特异性方式靶向任何多核苷酸序列的能力来以某种方式修饰靶核酸,例如通过裂解靶核酸和/或标记靶核酸和/或修饰靶核酸。因此将理解,可以随Cas蛋白或多肽提供另外的蛋白以实现这一点。因此,本发明的Cas蛋白、多肽或核糖核蛋白复合体可以作为包含至少一种另外的蛋白的蛋白复合体的一部分被提供。在优选的方面,本发明提供了一种Cas蛋白、多肽或核糖核蛋白复合体,其中所述Cas蛋白或至少一种另外的蛋白还包含至少一个功能部分。所述至少一个功能部分可以与Cas蛋白融合或连接。优选地,至少一个功能性部分可以通过在天然或人工蛋白表达系统中表达而与Cas蛋白翻译地融合。可选地,至少一个功能部分可以与Cas蛋白通过化学合成步骤共价连接。优选地,至少一个功能部分与Cas蛋白的N-末端和/或C-末端优选地N-末端融合或连接。
期望地,至少一个功能部分将是蛋白。它可以是异源蛋白,或者可选地可以是Cas蛋白来源于其的细菌物种天然的。至少一个功能部分可以是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构化蛋白(DNA structuring protein)、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。
在特别地优选的方面,本发明提供了一种Cas蛋白、多肽或核糖核蛋白复合体,其中至少一个功能部分为标志物蛋白,例如GFP。
核酸酶活性
本发明的任何方面的Cas核糖核蛋白在50℃与100℃之间具有核酸裂解活性。本发明的核糖核蛋白能够裂解DNA、RNA或合成的核酸。在优选的方面,本发明的Cas核糖核蛋白能够以序列特异性方式裂解DNA,特别地双链DNA。
在本发明的任何方面,本发明的Cas蛋白、多肽或核糖核蛋白可以具有多于一个核酸酶结构域。位点特异性核酸酶可以允许沿着DNA链的选择的位置处生成双链断裂(DSB)。在靶宿主细胞中,这使DSB能够在基因组中特定的预先选择的位置处产生。通过位点特异性核酸酶产生此类断裂促使内源细胞修复机制被重新使用,以便在感兴趣的基因组的期望位置处插入、缺失或修饰DNA。
蛋白或多肽分子的一个或更多个核酸酶活性位点可以被失活,例如,以便允许与蛋白或多肽连接或融合的另一个功能部分例如FokI核酸酶的活性。
因此,尽管事实上本发明的Cas蛋白、多肽和核糖核蛋白具有内源核酸酶活性,但对于某些应用,可能期望使Cas蛋白的天然核酸酶活性失活并且提供一种Cas蛋白或核糖核蛋白复合体,其中天然的Cas9核酸酶活性被失活并且Cas蛋白与至少一个功能部分连接。通过补充天然的Cas9核酸酶活性来减少错误靶向事件的发生率为一种此类应用。这可以期望通过使Cas蛋白或核糖核蛋白复合体的天然Cas9核酸酶活性失活和提供优选地与Cas蛋白融合的异源核酸酶来实现。因此,本发明提供了一种Cas蛋白或核糖核蛋白复合体,其中至少一个功能部分为核酸酶结构域,优选地为FokI核酸酶结构域。在一个特别地优选的方面,与FokI核酸酶结构域融合的本发明的Cas蛋白或核糖核蛋白复合体作为蛋白复合体的一部分被提供,优选地包含与FokI核酸酶结构域融合的本发明的另一个Cas蛋白或核糖核蛋白复合体,并且其中两个复合体靶向靶基因组DNA的相对链。
对于一些应用,可能期望完全减弱Cas蛋白、多肽或核糖核蛋白的核酸酶活性,例如在其中Cas蛋白或核糖核蛋白复合体用于识别和修饰核酸中的特定靶序列,例如用于将其标记为诊断测试的一部分的应用中。在此类应用中,Cas蛋白的核酸酶活性可以被失活,并且与Cas蛋白融合的功能部分可以是蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构化蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。
在特别地优选的方面,本发明提供了一种Cas蛋白或核糖核蛋白复合体,其中Cas蛋白的核酸酶活性被失活,并且至少一个功能部分为标志物蛋白,例如GFP。以该方式,特异性靶向感兴趣的核酸序列并且使用生成光信号的标志物使其可视化可以是可能的。合适的标志物可以包括例如荧光报告物蛋白,例如绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)、青色荧光蛋白(CFP)或mCherry。此类荧光报告物基因为蛋白表达的可视化提供了合适的标志物,因为它的表达可以通过荧光测量简单且直接测定。可选地,报告物核酸可以编码发光蛋白,诸如萤光素酶(例如萤火虫萤光素酶)。可选地,报告物基因可以是可以用于生成光信号的显色酶,例如显色酶(诸如β-半乳糖苷酶(LacZ)或β-葡糖醛酸糖苷酶(Gus))。用于测量表达的报告物也可以是抗原肽标签。其他报告物或标志物是本领域已知的,并且可以适当地使用它们。
因为标志物可以被可视化,在其中靶核酸为RNA,特别地mRNA的某些实施方案中,特别地在由标志物生成的光信号与表达产物的量成正比的情况下,通过检测和定量由标志物提供的光信号来定量基因的转录活性可以是可能的。因此,在本发明的优选的实施方案中,本发明的Cas蛋白或核糖核蛋白可以用于测定感兴趣的基因的表达产物。
始终,本发明的Cas蛋白的参考序列可以被定义为编码氨基酸序列的核苷酸序列。例如,SEQ ID NO:2至6中定义的基序的氨基酸序列还包括编码该氨基酸序列的所有核酸序列。
因此,本发明还提供了一种分离的核酸分子,所述分离的核酸分子编码Cas蛋白,所述Cas蛋白包含:
a.氨基酸基序EKDGKYYC[SEQ ID NO:2];和/或
b.氨基酸基序X1X2CTX3X4[SEQ ID NO:3]其中X1独立地选自异亮氨酸、甲硫氨酸或脯氨酸,X2独立地选自缬氨酸、丝氨酸、天冬酰胺或异亮氨酸,X3独立地选自谷氨酸或赖氨酸,并且X4为丙氨酸、谷氨酸或精氨酸之一;和/或
c.氨基酸基序X5LKX6IE[SEQ ID NO:4]其中X5独立地选自甲硫氨酸或苯丙氨酸,并且X6独立地选自组氨酸或天冬酰胺;和/或
d.氨基酸基序X7VYSX8K[SEQ ID NO:5]其中X7为谷氨酸或异亮氨酸,并且X8为色氨酸、丝氨酸或赖氨酸之一;和/或
e.氨基酸基序X9FYX10X11REQX12KEX13[SEQ ID NO:6]其中X9为丙氨酸或谷氨酸,X10为谷氨酰胺或赖氨酸,X11为精氨酸或丙氨酸,X12为天冬酰胺或丙氨酸,并且X13为赖氨酸或丝氨酸;
其中当与至少一种靶向RNA分子和包含由靶向RNA分子识别的靶核酸序列的多核苷酸缔合时,Cas蛋白能够在50℃与100℃之间进行DNA裂解。
在另一个方面,本发明还提供了一种分离的核酸分子,所述分离的核酸分子编码成簇的规律间隔的短回文重复(CRISPR)相关(Cas)蛋白,所述成簇的规律间隔的短回文重复(CRISPR)相关(Cas)蛋白具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列。
在另一个方面,本发明还提供了一种分离的核酸分子,所述分离的核酸分子还包含编码在翻译后与Cas蛋白融合的肽的至少一个核酸序列。
在另一个方面,本发明还提供了一种分离的核酸分子,其中与编码Cas蛋白的核酸分子融合的至少一个核酸序列编码选自以下的蛋白:解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构化蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。
表达载体
本发明的核酸可以被分离。然而,为了核酸感测构建体的表达可以在选择的细胞中进行,编码Cas蛋白或核糖核蛋白的多核苷酸序列将优选地提供于表达构建体中。在一些实施方案中,编码Cas蛋白或核糖核蛋白的多核苷酸将作为合适的表达载体的一部分被提供。在某些实施方案中,本发明的表达载体(具有或不具有编码表达后将与Cas蛋白融合的氨基酸残基的核苷酸序列)可以还包含编码上文定义的靶向RNA分子的核苷酸序列。因此,此类表达载体可以用于在适当的宿主中使用以生成可以靶向期望的核苷酸序列的本发明的核糖核蛋白复合体。可选地,编码上文定义的靶向RNA分子的核苷酸序列可以提供于单独的表达载体中,或者可选地可以通过其他手段递送至靶细胞。
合适的表达载体将根据受体细胞变化,并且合适地可以掺入使得表达能够在靶细胞中进行,并且优选地便于高水平表达的调节元件。此类调节序列可以能够例如在起始、准确性、速率、稳定性、下游加工、及迁移率(mobility)方面影响基因或基因产物的转录或翻译。
此类元件可以包括,例如,强和/或组成型启动子、5'和3'UTR、转录和/或翻译增强子、转录因子或蛋白结合序列、起始位点和终止序列、核糖体结合位点、重组位点、聚腺苷酸化序列、正义或反义序列、确保正确起始转录的序列以及任选地确保宿主细胞中转录终止和转录物稳定的多聚A信号。调节序列可以是植物、动物、细菌、真菌或病毒来源的,并且优选地可以来源于与宿主细胞相同的生物体。清楚地,适当的调节元件将根据感兴趣的宿主细胞而变化。例如,有利于原核宿主细胞诸如大肠杆菌中的高水平表达的调节元件可以包括pLac、T7、P(Bla)、P(Cat)、P(Kat)、trp或tac启动子。有利于真核宿主细胞中高水平表达的调节元件可以包括酵母中的AOX1或GAL1启动子,或CMV启动子或SV40启动子、CMV增强子、SV40增强子、单纯疱疹病毒(Herpes simplex viru)VIP16转录活化物或动物细胞中的珠蛋白内含子的内含物。在植物中,组成型高水平表达可以使用例如玉米(Zea mays)泛素1启动子或花椰菜花叶病毒的35S和19S启动子获得。
合适的调节元件可以是组成型的,从而它们在大多数环境条件或发育阶段(特定发育阶段或诱导型)指导表达。优选地,启动子为诱导型的,以响应于环境、化学或发育信号(cues)诸如温度、光照、化学品、干旱和其他刺激物来指导表达。合适地,可以选择允许感兴趣的蛋白在特定发育阶段表达或响应于细胞外或细胞内条件、信号或外部施加的刺激物而表达的启动子。例如,存在用于在大肠杆菌中使用的一系列启动子,该启动子在特定生长阶段(例如osmY稳定期启动子)或响应于特定刺激物(例如HtpG热激启动子)产生高水平表达。
合适的表达载体可以包含编码允许在合适的宿主细胞中和/或在特定条件下选择所述载体的选择性标志物的另外的序列。
本发明还包括一种修饰细胞中的靶核酸的方法,所述方法包括用上文描述的任何表达载体转染、转化或转导细胞。转染、转化或转导的方法是本领域技术人员熟知的类型。在使用一种表达载体生成本发明的核糖核蛋白复合体的表达的情况下,并且当靶向RNA被直接添加至细胞中时,则可以使用相同或不同的转染、转化或转导方法。类似地,当使用一种表达载体生成本发明的核糖核蛋白复合体的表达时,并且当另一种表达载体用于经由表达原位生成靶向RNA时,则可以使用相同或不同的转染、转化或转导方法。
在其他实施方案中,将编码Cas蛋白或多肽的mRNA引入到细胞中,使得Cascade复合体在细胞中表达。将Cas蛋白复合体引导至期望的靶序列的靶向RNA也被引入到细胞中,无论是与mRNA同时地、单独地或顺序地引入到细胞中,使得在细胞中形成必需的核糖核蛋白复合体。
因此,本发明还提供了一种修饰(即裂解、加标签、标记或结合)靶核酸的方法,所述方法包括使所述核酸与上文定义的核糖核蛋白复合体接触。
另外,本发明还包括一种修饰靶核酸的方法,所述方法包括使核酸与除了上文定义的靶向RNA分子以外的上文定义的Cas蛋白或多肽接触。
根据以上方法,靶核酸的修饰因此可以在体外和无细胞的环境中进行。在无细胞环境中,靶核酸、Cas蛋白和靶向RNA分子的各自的添加可以是同时的、顺序的(根据需要以任何顺序)或单独的。因此,以下是可能的:将靶核酸和靶向RNA同时地添加至反应混合物中,并且然后在稍后阶段将本发明的Cas蛋白或多肽单独地添加。
同样地,靶核酸的修饰可以在体内进行,即在细胞中原位进行,无论是分离的细胞还是作为多细胞组织、器官或生物体的一部分。在整个组织和器官的情况下以及在生物体的情况下,该方法可以期望地在体内进行,或者可选地可以通过从整个组织、器官或生物体中分离细胞,根据该方法用核糖核蛋白复合体处理细胞,并且随后将用核糖核蛋白复合体处理的细胞返回至其之前的位置或不同位置,无论是在相同的还是不同的生物体内。
在这些实施方案中,核糖核蛋白复合体或Cas蛋白或多肽要求递送到细胞中的适当形式。此类合适的递送系统和方法是本领域技术人员熟知的,并且包括但不限于细胞质或核显微注射。在优选的递送方式中,使用腺相关病毒(AAV);这种递送系统在人类中不引起疾病,并且在欧洲已被批准用于临床使用。
因此,本发明提供了一种修饰靶核酸的方法,所述方法包括使所述核酸与以下接触:
a.上文定义的核糖核蛋白复合体;或
b.上文定义的蛋白或蛋白复合体以及上文定义的RNA分子。
在另外的方面,本发明提供了一种修饰细胞中的靶核酸的方法,所述方法包括用包含编码上文定义的核糖核蛋白复合体的核苷酸序列的表达载体转化、转染或转导细胞;或者可选地用包含编码上文定义的蛋白或蛋白复合体的核苷酸序列的表达载体和包含编码上文定义的靶向RNA分子的核苷酸序列的另外的表达载体转化、转染或转导细胞。
在另外的方面,本发明提供了一种修饰细胞中的靶核酸的方法,所述方法包括用包含编码上文定义的蛋白或蛋白复合体的核苷酸序列的表达载体转化、转染或转导细胞,并且然后将上文定义的靶向RNA分子递送到细胞中。
在其中指导(即靶向)RNA(gRNA)分子和Cas蛋白或多肽被分开地而不是作为核糖核蛋白复合体的一部分提供的实施方案中,gRNA分子要求递送到细胞中的适当形式,无论是与Cas蛋白或蛋白质复合体同时地、分开地还是顺序地递送。将RNA引入到细胞中的此类形式是本领域技术人员熟知的,并且可以包括经由常规转染方法的体外或离体递送。可以各自使用物理方法,诸如显微注射和电穿孔、以及钙共沉淀、和商购可得的阳离子聚合物和脂质、以及细胞穿透肽、细胞穿透(基因枪(biolistic))颗粒。例如,病毒(特别地优选的为AAV)可以用作递送媒介物,无论是递送到细胞质和/或细胞核,例如经由本发明的Cas蛋白复合体或本发明的核糖核蛋白复合体与病毒颗粒的(可逆的)融合。
在另一个方面,本发明提供了一种修饰靶核酸的方法,其中至少一个功能部分为标志物蛋白或报告物蛋白,并且所述标志物蛋白或报告物蛋白与所述靶核酸缔合;优选地其中所述标志物为荧光蛋白,例如绿色荧光蛋白(GFP)。
在以上提及的修饰靶核酸的方法中,功能部分可以是标志物,并且标志物与靶核酸结合;优选地其中标志物为蛋白;任选地荧光蛋白,例如绿色荧光蛋白(GFP)、黄色荧光蛋白(YFP)、红色荧光蛋白(RFP)或mCherry。无论是在体外、离体还是体内,然后本发明的方法均可以用于直接可视化核酸分子中的靶基因座,优选地以更高级结构的形式,诸如超螺旋质粒或染色体、或单链靶核酸诸如mRNA。靶基因座的直接可视化可以使用电子显微术或荧光显微术。然而,将理解,在本发明的方法的情况下,其他种类的标记物可以用作为标志物,包括可以是小分子的有机染料分子、放射性标记物和自旋标记物。
在其中靶核酸为dsDNA的用于修饰靶核酸的本发明的方法中,功能部分可以是核酸酶或解旋酶-核酸酶,并且修饰优选地为在期望的基因座处的单链或双链断裂。以该方式,DNA的独特的序列特异性切割可以通过使用与核糖核蛋白复合体融合的合适的功能部分来工程化。最终的核糖核蛋白复合体中RNA组分的选择序列为功能部分的作用提供了期望的序列特异性。
因此,本发明还提供了一种在细胞中在期望的基因座处非同源末端连接dsDNA分子以从dsDNA分子去除至少一部分核苷酸序列;任选地敲除一个基因或更多个基因(a geneor genes)的功能的方法,其中所述方法包括使用上文描述的任何修饰靶核酸的方法进行双链断裂。
本发明还提供了一种将核酸同源重组到细胞中的dsDNA分子的期望的基因座处以修饰现有的核苷酸序列或插入期望的核苷酸序列的方法,其中所述方法包括使用上文描述的任何修饰靶核酸的方法在期望基因座处进行双链断裂。
因此,本发明还提供了一种修饰生物体中的基因表达的方法,所述方法包括根据上文描述的任何方法修饰靶核酸序列,其中核酸为dsDNA,并且功能部分选自DNA修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物。
本发明另外提供了一种修饰生物体中的基因表达的方法,所述方法包括根据上文描述的任何方法修饰靶核酸序列,其中核酸为mRNA并且功能部分为核糖核酸酶;任选地选自内切核酸酶、3'外切核酸酶或5'外切核酸酶。
在本文描述的本发明的方法的任何方面,靶核酸可以是DNA、RNA或合成的核酸。优选地,靶核酸为DNA;优选地为dsDNA。
然而,靶核酸可以是RNA;优选地为mRNA。可选地,因此,本发明还提供了修饰靶核酸的方法,其中靶核酸为RNA。
在另一个方面,本发明提供了一种修饰靶核酸的方法,其中核酸为dsDNA,至少一个功能部分为核酸酶或解旋酶-核酸酶,并且修饰为在期望的基因座处的单链断裂或双链断裂。
在另一个方面,本发明提供了一种修饰细胞中的靶核酸的方法,其中修饰导致在期望的基因座处的基因表达的沉默;并且其中所述方法包括以下步骤:
a.制备dsDNA分子中的双链断裂;以及
b.通过非同源末端连接(NHEJ)修复细胞中的dsDNA分子。
在另一个方面,本发明提供了一种修饰细胞中的靶核酸的方法;其中现有的核苷酸序列被修饰或缺失和/或期望的核苷酸序列被插入在期望的位置处,并且其中所述方法包括以下步骤:
a.制备在期望的基因座处的双链断裂;以及
b.通过同源重组修复细胞中的dsDNA分子。
在另一个方面,本发明提供了一种修饰细胞中的基因表达的方法,所述方法包括如上文描述地修饰靶核酸序列;其中核酸为dsDNA,并且功能部分选自DNA修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物。
在另一个方面,本发明提供了一种修饰细胞中的基因表达的方法,所述方法包括如上文描述地修饰靶核酸序列,其中核酸为mRNA并且功能部分为核糖核酸酶;任选地选自内切核酸酶、3'外切核酸酶或5'外切核酸酶。
在另一个方面,本发明提供上文描述的修饰靶核酸的方法,其中所述方法在50℃与100℃之间的温度进行。优选地,该方法在60℃或高于60℃的温度进行。更优选地,该方法在60℃与80℃之间的温度进行。最佳地,该方法在60℃与65℃之间的温度进行。
在上文描述的修饰靶核酸的任何方法中,细胞可以是原核细胞,或者可选地可以是真核细胞。
宿主细胞
有利地,本发明具有宽的适用性,并且本发明的宿主细胞可以来源于可以培养的任何遗传易处理的生物体。因此,本发明提供了通过上文描述的方法转化的宿主细胞。
适当的宿主细胞可以是原核细胞或真核细胞。特别地,可以选择常用的宿主细胞用于根据本发明的使用,所述常用的宿主细胞包括可以遗传获得的并且可以培养的原核细胞或真核细胞,例如原核细胞、真菌细胞、植物细胞和动物细胞包括人类细胞(但不是胚胎干细胞)。优选地,宿主细胞将选自原核细胞、真菌细胞、植物细胞、原生生物细胞(protistcell)或动物细胞。用于根据本发明的使用的优选的宿主细胞通常来源于通常表现出高生长速率、易于培养和/或转化、显示短的世代时间的物种,已经建立了与它们相关的遗传资源的物种或已被选择、修饰或合成以用于在特定条件下最佳表达异源蛋白的物种。在其中感兴趣的蛋白最终被用于特定的工业、农业、化学或治疗情况的本发明的优选实施方案中,可以基于期望的特定条件或在其中部署感兴趣的蛋白的细胞情况来选择适当的宿主细胞。优选地,宿主细胞将为原核细胞。在优选的实施方案中,宿主细胞为细菌细胞。宿主细胞可以是例如大肠杆菌(Escherichia coli(E.coli))细胞。优选地,宿主细胞将为嗜热细菌的细胞。
附图简述
现在将参考具体实施方案并且参考附图详细地描述本发明,在附图中:
图1示出了Cas9蛋白序列的邻接连接树。包括基于pBLAST或PSI-BLAST与菌株T12具有高于40%的序列相似性的所有序列,以及当前良好表征的序列(酿脓链球菌(S.pyogenes)、嗜热链球菌(S.thermophiles)和内氏放线菌(A.naeslundii)),以及当这些低于40%同一性时包括所有当前鉴定的嗜热序列。对于所有的嗜热序列,在菌株名称之后指示与T12的同一性百分比。基因标识符(gi)编号在物种名称之前指示。图例:实心圆形:嗜热(最佳高于60℃)Cas9序列,实心方形:耐热(最佳<50℃)Cas9序列,空心三角形:当前最常用于基因组编辑目的的嗜中温起源的Cas9序列;无符号:嗜中温Cas9。在节点处的值代表1000个复制的bootstrap值;比例尺代表每个位点估计的氨基酸取代。
图2示出了Cas9基因序列的邻接树。在基因水平的同一性非常差;使用与用于蛋白比对的序列相同的生物体的序列进行基因比对。基因标识符(gi)编号在物种名称之前指示。图例:实心圆形:嗜热(最佳高于60℃)Cas9序列,实心方形:耐热(最佳<50℃)Cas9序列,空心三角形:当前最常用于基因组编辑目的的嗜中温起源的Cas9序列;无符号:嗜中温Cas9。在节点处的值代表1000个复制的bootstrap值。
图3示出了T12-Cas9(SEQ ID NO:1)(II-C型)与良好表征的II-C型(内氏放线菌/‘ana’;SEQ ID NO:8)和II-A型(酿脓链球菌/‘pyo’;SEQ ID NO:9和嗜热链球菌)Cas9序列的蛋白序列比对。重要的活性位点残基非常保守,并且用黑色箭头指示。如对于Ana-Cas9和Pyo-Cas9描述的蛋白结构域(Jinek,等,2014,Science 343:1247997)用阴影框和类似颜色的字母指示。已经确定了对于酿脓链球菌II-A型系统的PAM识别结构域,但对于任何II-C型系统均未确定PAM识别结构域,并且因此仅在酿脓链球菌序列中指示PAM识别结构域。
图4示出了内氏放线菌Cas9(Cas9-Ana)的蛋白结构(Jinek等,2014)。T12-Cas9属于相同的II-C型CRISPR系统并且可以鉴定活性位点残基。
图5示出了互补dsDNA的crRNA指导的靶向的比较。碱基配对用虚线指示。RNA以黑色描绘,DNA用灰色描绘。crRNA间隔区和靶前间区之间的碱基配对用加粗的黑色虚线指示,DNA链之间和RNA链之间的碱基配对用加粗的灰色虚线指示。crRNA的5’末端被指示。应注意,I型的PAM(小白色框)位于靶链(前间区)的下游,而在II型中它则位于置换链上的另一端处。同样地,种子(与靶DNA链开始碱基配对处的指导的预测序列,并且在此处不允许错配的位置)位于PAM附近,并且因此在I型和II型中不同(Van derOost,2014,同上)。图A示出了大肠杆菌的I型Cascade系统的示意图。crRNA具有内部间隔区(灰色框,允许靶识别的31-32nt),侧翼为8nt 5’手柄和构成茎环结构(发夹)的29nt 3'手柄(Jore 2011同上)。图B示出了酿脓链球菌的II型Cas9系统的示意图。crRNA与tracrRNA碱基配对,允许通过RNA酶III加工(相对的黑色三角形)。另外,crRNA的5'末端被RNA酶(黑色三角形)修剪(trimmed),通常产生20nt间隔区。应注意,合成的环可以被引入以连接crRNA和tracrRNA,产生单链指导RNA(sgRNA)(Jinek等,2012同上)。
下文为根据本发明使用的Cas蛋白的多核苷酸和氨基酸序列。
[SEQ ID NO:1]热脱氮地芽孢杆菌T12Cas9蛋白AA序列
MKYKIGLDIGITSIGWAVINLDIPRIEDLGVRIFDRAENPKTGESLALPRRLARSARRRLRRRKHRLERIRRLFVREGILTKEELNKLFEKKHEIDVWQLRVEALDRKLNNDELARILLHLAKRRGFRSNRKSERTNKENSTMLKHIEENQSILSSYRTVAEMVVKDPKFSLHKRNKEDNYTNTVARDDLEREIKLIFAKQREYGNIVCTEAFEHEYISIWASQRPFASKDDIEKKVGFCTFEPKEKRAPKATYTFQSFTVWEHINKLRLVSPGGIRALTDDERRLIYKQAFHKNKITFHDVRTLLNLPDDTRFKGLLYDRNTTLKENEKVRFLELGAYHKIRKALDSVYGKGAAKSFRPIDFDTFGYALTMFKDDTDIRSYLRNEYEQNGKRMENLADKVYDEELIEELLNLSFSKFGHLSLKALRNILPYMEQGEVYSTACERAGYTFTGPKKKQKTVLLPNIPPIANPVVMRALTQARKVVNAIIKKYGSPVSIHIELARELSQSFDERRKMQKEQEGNRKKNETAIRQLVEYGLTLNPTGLDIVKFKLWSEQNGKCAYSLQPIEIERLLEPGYTEVDHVIPYSRSLDDSYTNKVLVLTKENREKGNRTPAEYLGLGSERWQQFETFVLTNKQFSKKKRDRLLRLHYDENEENEFKNRNLNDTRYISRFLANFIREHLKFADSDDKQKVYTVNGRITAHLRSRWNFNKNREESNLHHAVDAAIVACTTPSDIARVTAFYQRREQNKELSKKTDPQFPQPWPHFADELQARLSKNPKESIKALNLGNYDNEKLESLQPVFVSRMPKRSITGAAHQETLRRYIGIDERSGKIQTVVKKKLSEIQLDKTGHFPMYGKESDPRTYEAIRQRLLEHNNDPKKAFQEPLYKPKKNGELGPIIRTIKIIDTTNQVIPLNDGKTVAYNSNIVRVDVFEKDGKYYCVPIYTIDMMKGILPNKAIEPNKPYSEWKEMTEDYTFRFSLYPNDLIRIEFPREKTIKTAVGEEIKIKDLFAYYQTIDSSNGGLSLVSHDNNFSLRSIGSRTLKRFEKYQVDVLGNIYKVRGEKRVGVASSSHSKAGETIRPL*
[SEQ ID NO:7]热脱氮地芽孢杆菌T12Cas9DNA序列
ATGAAGTATAAAATCGGTCTTGATATCGGCATTACGTCTATCGGTTGGGCTGTCATTAATTTGGACATTCCTCGCATCGAAGATTTAGGTGTCCGCATTTTTGACAGAGCGGAAAACCCGAAAACCGGGGAGTCACTAGCTCTTCCACGTCGCCTCGCCCGCTCCGCCCGACGTCGTCTGCGGCGTCGCAAACATCGACTGGAGCGCATTCGCCGCCTGTTCGTCCGCGAAGGAATTTTAACGAAGGAAGAGCTGAACAAGCTGTTTGAAAAAAAGCACGAAATCGACGTCTGGCAGCTTCGTGTTGAAGCACTGGATCGAAAACTAAATAACGATGAATTAGCCCGCATCCTTCTTCATCTGGCTAAACGGCGTGGATTTAGATCCAACCGCAAGAGTGAGCGCACCAACAAAGAAAACAGTACGATGCTCAAACATATTGAAGAAAACCAATCCATTCTTTCAAGTTACCGAACGGTTGCAGAAATGGTTGTCAAGGATCCGAAATTTTCCCTGCACAAGCGTAATAAAGAGGATAATTACACCAACACTGTTGCCCGCGACGATCTTGAACGGGAAATCAAACTGATTTTCGCCAAACAGCGCGAATATGGGAACATCGTTTGCACAGAAGCATTTGAACACGAGTATATTTCCATTTGGGCATCGCAACGCCCTTTTGCTTCTAAGGATGATATCGAGAAAAAAGTCGGTTTCTGTACGTTTGAGCCTAAAGAAAAACGCGCGCCAAAAGCAACATACACATTCCAGTCCTTCACCGTCTGGGAACATATTAACAAACTTCGTCTTGTCTCCCCGGGAGGCATCCGGGCACTAACCGATGATGAACGTCGTCTTATATACAAGCAAGCATTTCATAAAAATAAAATCACCTTCCATGATGTTCGAACATTGCTTAACTTGCCTGACGACACCCGTTTTAAAGGTCTTTTATATGACCGAAACACCACGCTGAAGGAAAATGAGAAAGTTCGCTTCCTTGAACTCGGCGCCTATCATAAAATACGGAAAGCGATCGACAGCGTCTATGGCAAAGGAGCAGCAAAATCATTTCGTCCGATTGATTTTGATACATTTGGCTACGCATTAACGATGTTTAAAGACGACACCGACATTCGCAGTTACTTGCGAAACGAATACGAACAAAATGGAAAACGAATGGAAAATCTAGCGGATAAAGTCTATGATGAAGAATTGATTGAAGAACTTTTAAACTTATCGTTTTCTAAGTTTGGTCATCTATCCCTTAAAGCGCTTCGCAACATCCTTCCATATATGGAACAAGGCGAAGTCTACTCAACCGCTTGTGAACGAGCAGGATATACATTTACAGGGCCAAAGAAAAAACAGAAAACGGTATTGCTGCCGAACATTCCGCCGATCGCCAATCCGGTCGTCATGCGCGCACTGACACAGGCACGCAAAGTGGTCAATGCCATTATCAAAAAGTACGGCTCACCGGTCTCCATCCATATCGAACTGGCCCGGGAACTATCACAATCCTTTGATGAACGACGTAAAATGCAGAAAGAACAGGAAGGAAACCGAAAGAAAAACGAAACTGCCATTCGCCAACTTGTTGAATATGGGCTGACGCTCAATCCAACTGGGCTTGACATTGTGAAATTCAAACTATGGAGCGAACAAAACGGAAAATGTGCCTATTCACTCCAACCGATCGAAATCGAGCGGTTGCTCGAACCAGGCTATACAGAAGTCGACCATGTGATTCCATACAGCCGAAGCTTGGACGATAGCTATACCAATAAAGTTCTTGTGTTTGACAAAGGAGAACCGTGAAAAAGGAAACCGCACCCCAGCTGAATATTTAGGATTAGGCTCAGAACGTTGGCAACAGTTCGAGACGTTTGTCTTGACAAATAAGCAGTTTTCGAAAAAGAAGCGGGATCGACTCCTTCGGCTTCATTACGATGAAAACGAAGAAAATGAGTTTAAAAATCGTAATCTAAATGATACCCGTTATATCTCACGCTTCTTGGCTAACTTTATTCGCGAACATCTCAAATTCGCCGACAGCGATGACAAACAAAAAGTATACACGGTCAACGGCCGTATTACCGCCCATTTACGCAGCCGTTGGAATTTTAACAAAAACCGGGAAGAATCGAATTTGCATCATGCCGTCGATGCTGCCATCGTCGCCTGCACAACGCCGAGCGATATCGCCCGAGTCACCGCCTTCTATCAACGGCGCGAACAAAACAAAGAACTGTCCAAAAAGACGGATCCGCAGTTTCCGCAGCCTTGGCCGCACTTTGCTGATGAACTGCAGGCGCGTTTATCAAAAAATCCAAAGGAGAGTATAAAAGCTCTCAATCTTGGAAATTATGATAACGAGAAACTCGAATCGTTGCAGCCGGTTTTTGTCTCCCGAATGCCGAAGCGGAGCATAACAGGAGCGGCTCATCAAGAAACATTGCGGCGTTATATCGGCATCGACGAACGGAGCGGAAAAATACAGACGGTCGTCAAAAAGAAACTATCCGAGATCCAACTGGATAAAACAGGTCATTTCCCAATGTACGGGAAAGAAAGCGATCCAAGGACATATGAAGCCATTCGCCAACGGTTGCTTGAACATAACAATGACCCAAAAAAGGCGTTTCAAGAGCCTCTGTATAAACCGAAGAAGAACGGAGAACTAGGTCCTATCATCCGAACAATCAAAATCATCGATACGACAAATCAAGTTATTCCGCTCAACGATGGCAAAACAGTCGCCTACAACAGCAACATCGTGCGGGTCGACGTCTTTGAGAAAGATGGCAAATATTATTGTGTCCCTATCTATACAATAGATATGATGAAAGGGATCTTGCCAAACAAGGCGATCGAGCCGAACAAACCGTACTCTGAGTGGAAGGAAATGACGGAGGACTATACATTCCGATTCAGTCTATACCCAAATGATCTTATCCGTATCGAATTTCCCCGAGAAAAAACAATAAAGACTGCTGTGGGGGAAGAAATCAAAATTAAGGATCTGTTCGCCTATTATCAAACCATCGACTCCTCCAATGGAGGGTTAAGTTTGGTTAGCCATGATAACAACTTTTCGCTCCGCAGCATCGGTTCAAGAACCCTCAAACGATTCGAGAAATACCAAGTAGATGTGCTAGGCAACATCTACAAAGTGAGAGGGGAAAAGAGAGTTGGGGTGGCGTCATCTTCTCATTCGAAAGCCGGGGAAACTATCCGTCCGTTATAA
详细说明
实施例1:热脱氮地芽孢杆菌的分离
在搜索能够在厌氧条件下降解木质纤维素基质(lignocellulosic substrate)的嗜热菌的±500个分离株的文库期间出乎意料地发现了热脱氮地芽孢杆菌。首先建立了±500个分离株的文库,在通过在纤维素和木聚糖上的分离进行几轮选择之后,文库被缩小为110个分离株。该110个分离株的文库仅由地芽孢杆菌属分离株组成,其中热脱氮地芽孢杆菌代表了文库的79%。
分离的热脱氮地芽孢杆菌菌株被命名为“T12”。
实施例2:定义热脱氮地芽孢杆菌中的Cas9的基本共有序列
进行以下数据库搜索和比对:
在内部BLAST服务器上进行pBLAST和nBLAST,其中使用热脱氮地芽孢杆菌T12的蛋白或基因序列作为查询序列。该数据库最近一次更新为2014年5月,并且因此不包含最近添加的地芽孢杆菌属基因组,但没有使用正常的在线BLAST以防止T12序列的公开。关于Excel格式的内部pBLAST的结果参见附录1,该结果是最相关的序列(序列同一性大于40%被包括于图1中)。
为了包括更新近的序列数据,在NCBI网站上使用地芽孢杆菌属MAS1序列(与T12Cas9最密切相关)进行PSI-BLAST(Johnson等,2008Nucleic Acids Res.36(网页服务器期号):W5-9)。连续进行两轮PSI-BLAST,其中仅用符合以下标准的序列进行下一轮:第一轮中的最小序列覆盖率为96%,且第二轮和第三轮中的最小序列覆盖率为97%,最小同一性为40%,每个物种仅有一个菌株。
将从PSI-BLAST所得的序列以及在PSI-BLAST中未出现的、来自内部服务器pBLAST的与T12具有多于40%同一性的序列与当前充分表征的嗜中温序列以及所有当前鉴定的嗜热序列一起比对,此外如果这些序列更加疏远,则构建邻接树(参见图1)。使用ClustalW在Mega6中进行比对,这之后使用邻接方法构建树并使用1000个重复进行bootstrap分析。
当使用地芽孢杆菌属的种MAS1作为查询序列进行BLASTn时,只有地芽孢杆菌属的种JF8Cas9被鉴定为具有88%同一性,表明在基因水平上几乎没有同源性。图2为Clustal-比对的Cas9基因序列的邻接树。
通过用缺省设置使用BLOSUM62在CloneManager中比对热脱氮地芽孢杆菌T12、内氏放线菌和酿脓链球菌的蛋白序列来进一步分析它们的蛋白结构域同源性(参见图3)。
实施例3:鉴定对于CAS9的功能至关重要的核心氨基酸基序以及赋予嗜热的Cas9 核酸酶的热稳定性的那些核心氨基酸基序
以上描述的比对的蛋白序列的同一性百分比提供于图1中。T12-Cas9属于II-C型。研究最充分且最近结晶的结构的II-C系统来自内氏放线菌(Jinek等,2014,Science 343:1247997)。该蛋白序列与T12-Cas9仅显示20%的同一性,但可以用于估计高度保守的残基。在分析中还包括了两个充分表征的II-A型系统(酿脓链球菌和嗜热链球菌)(Jinek等,2014,Science 343:1247997;Nishimasu等,2014,Cell 156:935-949)。这四个蛋白序列的比对示于图3中;图4示出了如对内氏放线菌(‘Ana-Cas9’)确定的蛋白结构(Jinek等,2014,Science 343:1247997)。来自t12和内氏放线菌的Cas9的长度高度相似(内氏放线菌1101aa,T12 1082aa),并且T12预期具有类似的蛋白结构,但这仍有待确定,因为与cas9-Ana的总体序列同一性仅为20%。由Jinek等(Jinek等,2014,Science 343:1247997)描述的来自内氏放线菌和酿脓链球菌的Cas9中的所有活性侧残基可以在T12-Cas9中被鉴定(参见图3)。已经确定了酿脓链球菌II-A型系统的PAM结合结构域,但对于任何II-C型系统均未确定PAM结合结构域,并且因此仅在酿脓链球菌序列中指明PAM结合结构域。此外,PAM识别位点不仅在CRISPR系统之间而且在包含相同系统的物种之间变化很大。对于有关PAM的更多信息,请参见问题4和未来计划。
实施例4:热脱氮地芽孢杆菌T12 Cas9的PAM序列的确定
已经建立了,原核CRISPR系统利用其宿主作为适应性免疫系统(Jinek等,2012,Science 337:816-821)并且可以用于快速且有效的遗传工程(Mali等,2013,Nat Methods10:957-963.)。
Cas9蛋白作为II型CRISPR系统的序列特异性核酸酶起作用(Makarova等,2011,Nat Rev Micro 9:467-477)。由与重复区域连接的“间隔区”(靶)组成的小crRNA分子是CRISPR基因座的转录和加工产物。“间隔区”天然起源于噬菌体的基因组和移动遗传元件,但它们也可以被设计为在遗传工程过程期间靶向特定核苷酸序列(Bikard等,2013,Nucleic Acids Research 41:7429-7437)。Cas9采用crRNA分子作为用于鉴定其DNA靶的指导。间隔区区域与靶向用于裂解DNA区域,“前间区”相同(Brouns等,2012,Science 337:808-809)。Cas9对靶的识别需要紧邻前间区的PAM(前间区相邻基序)(Jinek等,2012,Science 337:816-821)。
实施例5:使用随机化PAM的靶生成
来自热脱氮地芽孢杆菌T12菌株的CRISPR II基因座的两个不同间隔区使用热脱氮地芽孢杆菌T12基因组DNA作为模板通过PCR来扩增。使用两对简并引物用于扩增每一个间隔区:
首先,使用引起在“前间区”片段的上游引入六个随机核苷酸的一对,导致产生具有随机化PAM序列的前间区的池。
其次,使用引起在“前间区”片段的下游引入六个随机核苷酸的一对,导致产生具有随机化PAM序列的前间区的池。
将产生的片段连接至pNW33n载体,产生4个“前间区”构建体的池,每一个均具有6个核苷酸长的PAM的所有可能的4096种不同的组合。组装的DNA用于转化热脱氮地芽孢杆菌T12细胞。将细胞涂板在氯霉素选择培养基上,并且将汇集来自每一个前间区池的多于2×106个细胞。从池中提取质粒DNA,PCR扩增靶区域,并且产物被送出用于深度测序。具有最少读段的PAM将被认为有活性的,并且该过程将仅在包含具有这些PAM的间隔区的pNW33n构建体中重复。热脱氮地芽孢杆菌T12的转化效率减少将证实PAM的活性。
实施例6.热脱氮地芽孢杆菌Cas9的功能温度范围。
迄今,未对任何公开可得的Cas9蛋白进行温度范围实验。研究中使用的Cas9蛋白均具有嗜中温起源,其中宿主生物酿脓链球菌(ATCC_700294)的最大生长温度为45℃。
在此,通过实验确定来自热脱氮地芽孢杆菌的Cas9稳定且有功能的温度范围以及此外,Cas9的活性最佳的温度。此外,还确定了来自其他地芽孢杆菌属的种的Cas9核酸酶的功能和优选的温度范围。
热脱氮地芽孢杆菌T12Cas9核酸酶的温度范围已经通过使用单链指导RNA(sgRNA)在体外确定。sgRNA由内源细菌crRNA和tracrRNA组成为单个嵌合转录物,并且已经通过使用包含crRNA:tracrRNA主链前面为20个碱基对(bp)的靶序列的pT7克隆载体产生(Jao等,2013,PNAS 110:13904-13909)。靶序列从20bp靶开始并以T12PAM序列(来源于实施例4)结束。在线性化质粒之后,通过从T7启动子的体外转录已经生成了期望的单一靶向sgRNA。标准克隆载体pUC19已经被用作我们的体外活性测定中的靶。质粒中的靶位点(20nt+PAM)已经通过已退火并连接到sgRNA克隆载体中的两个互补的寡核苷酸(oligos)构建。将产生的sgRNA与T12的Cas9核酸酶一起在范围从20℃至100℃的温度孵育。Cas9裂解活性已经通过琼脂糖凝胶电泳测定。
在此分离和表征的生物体(T12)具有65℃的最佳生长温度,这也代表了其Cas9蛋白的最佳温度。它有活性的温度范围将为从20℃至100℃,特别地20℃至80℃。
来自地芽孢杆菌属的种的Cas9的最佳温度范围比迄今已表征的Cas9蛋白的最佳温度范围高得多。类似地,它保持核酸酶活性的范围的上限比已知的Cas9蛋白的范围的上限高得多。较高的最佳温度和功能范围在高温度的遗传工程中提供了显著的优势,并且因此在编辑嗜热生物体的基因组中提供了显著的优势,这在升高的温度进行的一系列工业、农业和制药过程中具有实用性。
序列表
<110> 瓦赫宁根大学
<120> 热稳定的Cas9核酸酶
<130> P220294WO
<150> GB1510296.5
<151> 2015-06-12
<160> 9
<170> PatentIn version 3.5
<210> 1
<211> 1082
<212> PRT
<213> 热脱氮地芽孢杆菌(Geobacillus thermodenitrificans) T12
<400> 1
Met Lys Tyr Lys Ile Gly Leu Asp Ile Gly Ile Thr Ser Ile Gly Trp
1 5 10 15
Ala Val Ile Asn Leu Asp Ile Pro Arg Ile Glu Asp Leu Gly Val Arg
20 25 30
Ile Phe Asp Arg Ala Glu Asn Pro Lys Thr Gly Glu Ser Leu Ala Leu
35 40 45
Pro Arg Arg Leu Ala Arg Ser Ala Arg Arg Arg Leu Arg Arg Arg Lys
50 55 60
His Arg Leu Glu Arg Ile Arg Arg Leu Phe Val Arg Glu Gly Ile Leu
65 70 75 80
Thr Lys Glu Glu Leu Asn Lys Leu Phe Glu Lys Lys His Glu Ile Asp
85 90 95
Val Trp Gln Leu Arg Val Glu Ala Leu Asp Arg Lys Leu Asn Asn Asp
100 105 110
Glu Leu Ala Arg Ile Leu Leu His Leu Ala Lys Arg Arg Gly Phe Arg
115 120 125
Ser Asn Arg Lys Ser Glu Arg Thr Asn Lys Glu Asn Ser Thr Met Leu
130 135 140
Lys His Ile Glu Glu Asn Gln Ser Ile Leu Ser Ser Tyr Arg Thr Val
145 150 155 160
Ala Glu Met Val Val Lys Asp Pro Lys Phe Ser Leu His Lys Arg Asn
165 170 175
Lys Glu Asp Asn Tyr Thr Asn Thr Val Ala Arg Asp Asp Leu Glu Arg
180 185 190
Glu Ile Lys Leu Ile Phe Ala Lys Gln Arg Glu Tyr Gly Asn Ile Val
195 200 205
Cys Thr Glu Ala Phe Glu His Glu Tyr Ile Ser Ile Trp Ala Ser Gln
210 215 220
Arg Pro Phe Ala Ser Lys Asp Asp Ile Glu Lys Lys Val Gly Phe Cys
225 230 235 240
Thr Phe Glu Pro Lys Glu Lys Arg Ala Pro Lys Ala Thr Tyr Thr Phe
245 250 255
Gln Ser Phe Thr Val Trp Glu His Ile Asn Lys Leu Arg Leu Val Ser
260 265 270
Pro Gly Gly Ile Arg Ala Leu Thr Asp Asp Glu Arg Arg Leu Ile Tyr
275 280 285
Lys Gln Ala Phe His Lys Asn Lys Ile Thr Phe His Asp Val Arg Thr
290 295 300
Leu Leu Asn Leu Pro Asp Asp Thr Arg Phe Lys Gly Leu Leu Tyr Asp
305 310 315 320
Arg Asn Thr Thr Leu Lys Glu Asn Glu Lys Val Arg Phe Leu Glu Leu
325 330 335
Gly Ala Tyr His Lys Ile Arg Lys Ala Ile Asp Ser Val Tyr Gly Lys
340 345 350
Gly Ala Ala Lys Ser Phe Arg Pro Ile Asp Phe Asp Thr Phe Gly Tyr
355 360 365
Ala Leu Thr Met Phe Lys Asp Asp Thr Asp Ile Arg Ser Tyr Leu Arg
370 375 380
Asn Glu Tyr Glu Gln Asn Gly Lys Arg Met Glu Asn Leu Ala Asp Lys
385 390 395 400
Val Tyr Asp Glu Glu Leu Ile Glu Glu Leu Leu Asn Leu Ser Phe Ser
405 410 415
Lys Phe Gly His Leu Ser Leu Lys Ala Leu Arg Asn Ile Leu Pro Tyr
420 425 430
Met Glu Gln Gly Glu Val Tyr Ser Thr Ala Cys Glu Arg Ala Gly Tyr
435 440 445
Thr Phe Thr Gly Pro Lys Lys Lys Gln Lys Thr Val Leu Leu Pro Asn
450 455 460
Ile Pro Pro Ile Ala Asn Pro Val Val Met Arg Ala Leu Thr Gln Ala
465 470 475 480
Arg Lys Val Val Asn Ala Ile Ile Lys Lys Tyr Gly Ser Pro Val Ser
485 490 495
Ile His Ile Glu Leu Ala Arg Glu Leu Ser Gln Ser Phe Asp Glu Arg
500 505 510
Arg Lys Met Gln Lys Glu Gln Glu Gly Asn Arg Lys Lys Asn Glu Thr
515 520 525
Ala Ile Arg Gln Leu Val Glu Tyr Gly Leu Thr Leu Asn Pro Thr Gly
530 535 540
Leu Asp Ile Val Lys Phe Lys Leu Trp Ser Glu Gln Asn Gly Lys Cys
545 550 555 560
Ala Tyr Ser Leu Gln Pro Ile Glu Ile Glu Arg Leu Leu Glu Pro Gly
565 570 575
Tyr Thr Glu Val Asp His Val Ile Pro Tyr Ser Arg Ser Leu Asp Asp
580 585 590
Ser Tyr Thr Asn Lys Val Leu Val Leu Thr Lys Glu Asn Arg Glu Lys
595 600 605
Gly Asn Arg Thr Pro Ala Glu Tyr Leu Gly Leu Gly Ser Glu Arg Trp
610 615 620
Gln Gln Phe Glu Thr Phe Val Leu Thr Asn Lys Gln Phe Ser Lys Lys
625 630 635 640
Lys Arg Asp Arg Leu Leu Arg Leu His Tyr Asp Glu Asn Glu Glu Asn
645 650 655
Glu Phe Lys Asn Arg Asn Leu Asn Asp Thr Arg Tyr Ile Ser Arg Phe
660 665 670
Leu Ala Asn Phe Ile Arg Glu His Leu Lys Phe Ala Asp Ser Asp Asp
675 680 685
Lys Gln Lys Val Tyr Thr Val Asn Gly Arg Ile Thr Ala His Leu Arg
690 695 700
Ser Arg Trp Asn Phe Asn Lys Asn Arg Glu Glu Ser Asn Leu His His
705 710 715 720
Ala Val Asp Ala Ala Ile Val Ala Cys Thr Thr Pro Ser Asp Ile Ala
725 730 735
Arg Val Thr Ala Phe Tyr Gln Arg Arg Glu Gln Asn Lys Glu Leu Ser
740 745 750
Lys Lys Thr Asp Pro Gln Phe Pro Gln Pro Trp Pro His Phe Ala Asp
755 760 765
Glu Leu Gln Ala Arg Leu Ser Lys Asn Pro Lys Glu Ser Ile Lys Ala
770 775 780
Leu Asn Leu Gly Asn Tyr Asp Asn Glu Lys Leu Glu Ser Leu Gln Pro
785 790 795 800
Val Phe Val Ser Arg Met Pro Lys Arg Ser Ile Thr Gly Ala Ala His
805 810 815
Gln Glu Thr Leu Arg Arg Tyr Ile Gly Ile Asp Glu Arg Ser Gly Lys
820 825 830
Ile Gln Thr Val Val Lys Lys Lys Leu Ser Glu Ile Gln Leu Asp Lys
835 840 845
Thr Gly His Phe Pro Met Tyr Gly Lys Glu Ser Asp Pro Arg Thr Tyr
850 855 860
Glu Ala Ile Arg Gln Arg Leu Leu Glu His Asn Asn Asp Pro Lys Lys
865 870 875 880
Ala Phe Gln Glu Pro Leu Tyr Lys Pro Lys Lys Asn Gly Glu Leu Gly
885 890 895
Pro Ile Ile Arg Thr Ile Lys Ile Ile Asp Thr Thr Asn Gln Val Ile
900 905 910
Pro Leu Asn Asp Gly Lys Thr Val Ala Tyr Asn Ser Asn Ile Val Arg
915 920 925
Val Asp Val Phe Glu Lys Asp Gly Lys Tyr Tyr Cys Val Pro Ile Tyr
930 935 940
Thr Ile Asp Met Met Lys Gly Ile Leu Pro Asn Lys Ala Ile Glu Pro
945 950 955 960
Asn Lys Pro Tyr Ser Glu Trp Lys Glu Met Thr Glu Asp Tyr Thr Phe
965 970 975
Arg Phe Ser Leu Tyr Pro Asn Asp Leu Ile Arg Ile Glu Phe Pro Arg
980 985 990
Glu Lys Thr Ile Lys Thr Ala Val Gly Glu Glu Ile Lys Ile Lys Asp
995 1000 1005
Leu Phe Ala Tyr Tyr Gln Thr Ile Asp Ser Ser Asn Gly Gly Leu
1010 1015 1020
Ser Leu Val Ser His Asp Asn Asn Phe Ser Leu Arg Ser Ile Gly
1025 1030 1035
Ser Arg Thr Leu Lys Arg Phe Glu Lys Tyr Gln Val Asp Val Leu
1040 1045 1050
Gly Asn Ile Tyr Lys Val Arg Gly Glu Lys Arg Val Gly Val Ala
1055 1060 1065
Ser Ser Ser His Ser Lys Ala Gly Glu Thr Ile Arg Pro Leu
1070 1075 1080
<210> 2
<211> 8
<212> PRT
<213> 热脱氮地芽孢杆菌(Geobacillus thermodenitrificans) T12
<400> 2
Glu Lys Asp Gly Lys Tyr Tyr Cys
1 5
<210> 3
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 嗜热的Cas9的氨基酸基序
<220>
<221> misc_feature
<222> (1)..(1)
<223> Xaa 可以是Ile、Met或Pro中的任一个
<220>
<221> misc_feature
<222> (2)..(2)
<223> Xaa可以是Val、Ser、Asn或Ile中的任一个
<220>
<221> misc_feature
<222> (5)..(5)
<223> Xaa可以是Glu或Lys中的任一个
<220>
<221> misc_feature
<222> (6)..(6)
<223> Xaa可以是Ala、Glu或Arg中的任一个
<400> 3
Xaa Xaa Cys Thr Xaa Xaa
1 5
<210> 4
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 嗜热的Cas9的氨基酸基序
<220>
<221> misc_feature
<222> (1)..(1)
<223> Xaa可以是Met或Phe中的任一个
<220>
<221> misc_feature
<222> (4)..(4)
<223> Xaa可以是His或Asn中的任一个
<400> 4
Xaa Leu Lys Xaa Ile Glu
1 5
<210> 5
<211> 6
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 嗜热的Cas9的氨基酸基序
<220>
<221> misc_feature
<222> (1)..(1)
<223> Xaa可以是Glu或Ile中的任一个
<220>
<221> misc_feature
<222> (5)..(5)
<223> Xaa可以是Trp、Ser或Lys中的任一个
<400> 5
Xaa Val Tyr Ser Xaa Lys
1 5
<210> 6
<211> 12
<212> PRT
<213> 人工序列(Artificial Sequence)
<220>
<223> 嗜热的Cas9的氨基酸基序
<220>
<221> misc_feature
<222> (1)..(1)
<223> Xaa可以是Ala或Glu中的任一个
<220>
<221> misc_feature
<222> (4)..(4)
<223> Xaa可以是Gln或Lys中的任一个
<220>
<221> misc_feature
<222> (5)..(5)
<223> Xaa可以是Arg或Ala中的任一个
<220>
<221> misc_feature
<222> (9)..(9)
<223> Xaa可以是Asn或Ala中的任一个
<220>
<221> misc_feature
<222> (12)..(12)
<223> Xaa可以是Lys或Ser中的任一个
<400> 6
Xaa Phe Tyr Xaa Xaa Arg Glu Gln Xaa Lys Glu Xaa
1 5 10
<210> 7
<211> 3249
<212> DNA
<213> 热脱氮地芽孢杆菌(Geobacillus thermodenitrificans) T12
<400> 7
atgaagtata aaatcggtct tgatatcggc attacgtcta tcggttgggc tgtcattaat 60
ttggacattc ctcgcatcga agatttaggt gtccgcattt ttgacagagc ggaaaacccg 120
aaaaccgggg agtcactagc tcttccacgt cgcctcgccc gctccgcccg acgtcgtctg 180
cggcgtcgca aacatcgact ggagcgcatt cgccgcctgt tcgtccgcga aggaatttta 240
acgaaggaag agctgaacaa gctgtttgaa aaaaagcacg aaatcgacgt ctggcagctt 300
cgtgttgaag cactggatcg aaaactaaat aacgatgaat tagcccgcat ccttcttcat 360
ctggctaaac ggcgtggatt tagatccaac cgcaagagtg agcgcaccaa caaagaaaac 420
agtacgatgc tcaaacatat tgaagaaaac caatccattc tttcaagtta ccgaacggtt 480
gcagaaatgg ttgtcaagga tccgaaattt tccctgcaca agcgtaataa agaggataat 540
tacaccaaca ctgttgcccg cgacgatctt gaacgggaaa tcaaactgat tttcgccaaa 600
cagcgcgaat atgggaacat cgtttgcaca gaagcatttg aacacgagta tatttccatt 660
tgggcatcgc aacgcccttt tgcttctaag gatgatatcg agaaaaaagt cggtttctgt 720
acgtttgagc ctaaagaaaa acgcgcgcca aaagcaacat acacattcca gtccttcacc 780
gtctgggaac atattaacaa acttcgtctt gtctccccgg gaggcatccg ggcactaacc 840
gatgatgaac gtcgtcttat atacaagcaa gcatttcata aaaataaaat caccttccat 900
gatgttcgaa cattgcttaa cttgcctgac gacacccgtt ttaaaggtct tttatatgac 960
cgaaacacca cgctgaagga aaatgagaaa gttcgcttcc ttgaactcgg cgcctatcat 1020
aaaatacgga aagcgatcga cagcgtctat ggcaaaggag cagcaaaatc atttcgtccg 1080
attgattttg atacatttgg ctacgcatta acgatgttta aagacgacac cgacattcgc 1140
agttacttgc gaaacgaata cgaacaaaat ggaaaacgaa tggaaaatct agcggataaa 1200
gtctatgatg aagaattgat tgaagaactt ttaaacttat cgttttctaa gtttggtcat 1260
ctatccctta aagcgcttcg caacatcctt ccatatatgg aacaaggcga agtctactca 1320
accgcttgtg aacgagcagg atatacattt acagggccaa agaaaaaaca gaaaacggta 1380
ttgctgccga acattccgcc gatcgccaat ccggtcgtca tgcgcgcact gacacaggca 1440
cgcaaagtgg tcaatgccat tatcaaaaag tacggctcac cggtctccat ccatatcgaa 1500
ctggcccggg aactatcaca atcctttgat gaacgacgta aaatgcagaa agaacaggaa 1560
ggaaaccgaa agaaaaacga aactgccatt cgccaacttg ttgaatatgg gctgacgctc 1620
aatccaactg ggcttgacat tgtgaaattc aaactatgga gcgaacaaaa cggaaaatgt 1680
gcctattcac tccaaccgat cgaaatcgag cggttgctcg aaccaggcta tacagaagtc 1740
gaccatgtga ttccatacag ccgaagcttg gacgatagct ataccaataa agttcttgtg 1800
ttgacaaagg agaaccgtga aaaaggaaac cgcaccccag ctgaatattt aggattaggc 1860
tcagaacgtt ggcaacagtt cgagacgttt gtcttgacaa ataagcagtt ttcgaaaaag 1920
aagcgggatc gactccttcg gcttcattac gatgaaaacg aagaaaatga gtttaaaaat 1980
cgtaatctaa atgatacccg ttatatctca cgcttcttgg ctaactttat tcgcgaacat 2040
ctcaaattcg ccgacagcga tgacaaacaa aaagtataca cggtcaacgg ccgtattacc 2100
gcccatttac gcagccgttg gaattttaac aaaaaccggg aagaatcgaa tttgcatcat 2160
gccgtcgatg ctgccatcgt cgcctgcaca acgccgagcg atatcgcccg agtcaccgcc 2220
ttctatcaac ggcgcgaaca aaacaaagaa ctgtccaaaa agacggatcc gcagtttccg 2280
cagccttggc cgcactttgc tgatgaactg caggcgcgtt tatcaaaaaa tccaaaggag 2340
agtataaaag ctctcaatct tggaaattat gataacgaga aactcgaatc gttgcagccg 2400
gtttttgtct cccgaatgcc gaagcggagc ataacaggag cggctcatca agaaacattg 2460
cggcgttata tcggcatcga cgaacggagc ggaaaaatac agacggtcgt caaaaagaaa 2520
ctatccgaga tccaactgga taaaacaggt catttcccaa tgtacgggaa agaaagcgat 2580
ccaaggacat atgaagccat tcgccaacgg ttgcttgaac ataacaatga cccaaaaaag 2640
gcgtttcaag agcctctgta taaaccgaag aagaacggag aactaggtcc tatcatccga 2700
acaatcaaaa tcatcgatac gacaaatcaa gttattccgc tcaacgatgg caaaacagtc 2760
gcctacaaca gcaacatcgt gcgggtcgac gtctttgaga aagatggcaa atattattgt 2820
gtccctatct atacaataga tatgatgaaa gggatcttgc caaacaaggc gatcgagccg 2880
aacaaaccgt actctgagtg gaaggaaatg acggaggact atacattccg attcagtcta 2940
tacccaaatg atcttatccg tatcgaattt ccccgagaaa aaacaataaa gactgctgtg 3000
ggggaagaaa tcaaaattaa ggatctgttc gcctattatc aaaccatcga ctcctccaat 3060
ggagggttaa gtttggttag ccatgataac aacttttcgc tccgcagcat cggttcaaga 3120
accctcaaac gattcgagaa ataccaagta gatgtgctag gcaacatcta caaagtgaga 3180
ggggaaaaga gagttggggt ggcgtcatct tctcattcga aagccgggga aactatccgt 3240
ccgttataa 3249
<210> 8
<211> 1045
<212> PRT
<213> 内氏放线菌(Actinomyces naeslundii)
<400> 8
Met Trp Tyr Ala Ser Leu Met Ser Ala His His Leu Arg Val Gly Ile
1 5 10 15
Asp Val Gly Thr His Ser Val Gly Leu Ala Thr Leu Arg Val Asp Asp
20 25 30
His Gly Thr Pro Ile Glu Leu Leu Ser Ala Leu Ser His Ile His Asp
35 40 45
Ser Gly Val Gly Lys Glu Gly Lys Lys Asp His Asp Thr Arg Lys Lys
50 55 60
Leu Ser Gly Ile Ala Arg Arg Ala Arg Arg Leu Leu His His Arg Arg
65 70 75 80
Thr Gln Leu Gln Gln Leu Asp Glu Val Leu Arg Asp Leu Gly Phe Pro
85 90 95
Ile Pro Thr Pro Gly Glu Phe Leu Asp Leu Asn Glu Gln Thr Asp Pro
100 105 110
Tyr Arg Val Trp Arg Val Arg Ala Arg Leu Val Glu Glu Lys Leu Pro
115 120 125
Glu Glu Leu Arg Gly Pro Ala Ile Ser Met Ala Val Arg His Ile Ala
130 135 140
Arg His Arg Gly Trp Arg Asn Pro Tyr Ser Lys Val Glu Ser Leu Leu
145 150 155 160
Ser Pro Ala Asn Ala Asn Glu Ile Arg Lys Ile Cys Ala Arg Gln Gly
165 170 175
Val Ser Pro Asp Val Cys Lys Gln Leu Leu Arg Ala Val Phe Lys Ala
180 185 190
Asp Ser Pro Arg Gly Ser Ala Val Ser Arg Val Ala Pro Asp Pro Leu
195 200 205
Pro Gly Gln Gly Ser Phe Arg Arg Ala Pro Lys Cys Asp Pro Glu Phe
210 215 220
Gln Arg Phe Arg Ile Ile Ser Ile Val Ala Asn Leu Arg Ile Ser Glu
225 230 235 240
Thr Lys Gly Glu Asn Arg Pro Leu Thr Ala Asp Glu Arg Arg His Val
245 250 255
Val Thr Phe Leu Thr Glu Asp Ser Gln Ala Asp Leu Thr Trp Val Asp
260 265 270
Val Ala Glu Lys Leu Gly Val His Arg Arg Asp Leu Arg Gly Thr Ala
275 280 285
Val His Thr Asp Asp Gly Glu Arg Ser Ala Ala Arg Pro Pro Ile Asp
290 295 300
Ala Thr Asp Arg Ile Met Arg Gln Thr Lys Ile Ser Ser Leu Lys Thr
305 310 315 320
Trp Trp Glu Glu Ala Asp Ser Glu Gln Arg Gly Ala Met Ile Arg Tyr
325 330 335
Leu Tyr Glu Asp Pro Thr Asp Ser Glu Cys Ala Glu Ile Ile Ala Glu
340 345 350
Leu Pro Glu Glu Asp Gln Ala Lys Leu Asp Ser Leu His Leu Pro Ala
355 360 365
Gly Arg Ala Ala Tyr Ser Arg Glu Ser Leu Thr Ala Leu Ser Asp His
370 375 380
Met Leu Ala Thr Thr Asp Asp Leu His Glu Ala Arg Lys Arg Leu Phe
385 390 395 400
Gly Val Asp Asp Ser Trp Ala Pro Pro Ala Glu Ala Ile Asn Ala Pro
405 410 415
Val Gly Asn Pro Ser Val Asp Arg Thr Leu Lys Ile Val Gly Arg Tyr
420 425 430
Leu Ser Ala Val Glu Ser Met Trp Gly Thr Pro Glu Val Ile His Val
435 440 445
Glu His Val Arg Asp Gly Phe Thr Ser Glu Arg Met Ala Asp Glu Arg
450 455 460
Asp Lys Ala Asn Arg Arg Arg Tyr Asn Asp Asn Gln Glu Ala Met Lys
465 470 475 480
Lys Ile Gln Arg Asp Tyr Gly Lys Glu Gly Tyr Ile Ser Arg Gly Asp
485 490 495
Ile Val Arg Leu Asp Ala Leu Glu Leu Gln Gly Cys Ala Cys Leu Tyr
500 505 510
Cys Gly Thr Thr Ile Gly Tyr His Thr Cys Gln Leu Asp His Ile Val
515 520 525
Pro Gln Ala Gly Pro Gly Ser Asn Asn Arg Arg Gly Asn Leu Val Ala
530 535 540
Val Cys Glu Arg Cys Asn Arg Ser Lys Ser Asn Thr Pro Phe Ala Val
545 550 555 560
Trp Ala Gln Lys Cys Gly Ile Pro His Val Gly Val Lys Glu Ala Ile
565 570 575
Gly Arg Val Arg Gly Trp Arg Lys Gln Thr Pro Asn Thr Ser Ser Glu
580 585 590
Asp Leu Thr Arg Leu Lys Lys Glu Val Ile Ala Arg Leu Arg Arg Thr
595 600 605
Gln Glu Asp Pro Glu Ile Asp Glu Arg Ser Met Glu Ser Val Ala Trp
610 615 620
Met Ala Asn Glu Leu His His Arg Ile Ala Ala Ala Tyr Pro Glu Thr
625 630 635 640
Thr Val Met Val Tyr Arg Gly Ser Ile Thr Ala Ala Ala Arg Lys Ala
645 650 655
Ala Gly Ile Asp Ser Arg Ile Asn Leu Ile Gly Glu Lys Gly Arg Lys
660 665 670
Asp Arg Ile Asp Arg Arg His His Ala Val Asp Ala Ser Val Val Ala
675 680 685
Leu Met Glu Ala Ser Val Ala Lys Thr Leu Ala Glu Arg Ser Ser Leu
690 695 700
Arg Gly Glu Gln Arg Leu Thr Gly Lys Glu Gln Thr Trp Lys Gln Tyr
705 710 715 720
Thr Gly Ser Thr Val Gly Ala Arg Glu His Phe Glu Met Trp Arg Gly
725 730 735
His Met Leu His Leu Thr Glu Leu Phe Asn Glu Arg Leu Ala Glu Asp
740 745 750
Lys Val Tyr Val Thr Gln Asn Ile Arg Leu Arg Leu Ser Asp Gly Asn
755 760 765
Ala His Thr Val Asn Pro Ser Lys Leu Val Ser His Arg Leu Gly Asp
770 775 780
Gly Leu Thr Val Gln Gln Ile Asp Arg Ala Cys Thr Pro Ala Leu Trp
785 790 795 800
Cys Ala Leu Thr Arg Glu Lys Asp Phe Asp Glu Lys Asn Gly Leu Pro
805 810 815
Ala Arg Glu Asp Arg Ala Ile Arg Val His Gly His Glu Ile Lys Ser
820 825 830
Ser Asp Tyr Ile Gln Val Phe Ser Lys Arg Lys Lys Thr Asp Ser Asp
835 840 845
Arg Asp Glu Thr Pro Phe Gly Ala Ile Ala Val Arg Gly Gly Phe Val
850 855 860
Glu Ile Gly Pro Ser Ile His His Ala Arg Ile Tyr Arg Val Glu Gly
865 870 875 880
Lys Lys Pro Val Tyr Ala Met Leu Arg Val Phe Thr His Asp Leu Leu
885 890 895
Ser Gln Arg His Gly Asp Leu Phe Ser Ala Val Ile Pro Pro Gln Ser
900 905 910
Ile Ser Met Arg Cys Ala Glu Pro Lys Leu Arg Lys Ala Ile Thr Thr
915 920 925
Gly Asn Ala Thr Tyr Leu Gly Trp Val Val Val Gly Asp Glu Leu Glu
930 935 940
Ile Asn Val Asp Ser Phe Thr Lys Tyr Ala Ile Gly Arg Phe Leu Glu
945 950 955 960
Asp Phe Pro Asn Thr Thr Arg Trp Arg Ile Cys Gly Tyr Asp Thr Asn
965 970 975
Ser Lys Leu Thr Leu Lys Pro Ile Val Leu Ala Ala Glu Gly Leu Glu
980 985 990
Asn Pro Ser Ser Ala Val Asn Glu Ile Val Glu Leu Lys Gly Trp Arg
995 1000 1005
Val Ala Ile Asn Val Leu Thr Lys Val His Pro Thr Val Val Arg
1010 1015 1020
Arg Asp Ala Leu Gly Arg Pro Arg Tyr Ser Ser Arg Ser Asn Leu
1025 1030 1035
Pro Thr Ser Trp Thr Ile Glu
1040 1045
<210> 9
<211> 1160
<212> PRT
<213> 酿脓链球菌(Streptococcus pyogenes)
<400> 9
Met Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val
1 5 10 15
Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe
20 25 30
Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile
35 40 45
Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu
50 55 60
Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys
65 70 75 80
Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser
85 90 95
Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys
100 105 110
His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr
115 120 125
His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp
130 135 140
Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His
145 150 155 160
Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro
165 170 175
Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Arg
180 185 190
Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu
195 200 205
Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe
210 215 220
Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile
225 230 235 240
Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp
245 250 255
Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu
260 265 270
Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr
275 280 285
Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser
290 295 300
Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys
305 310 315 320
Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln
325 330 335
Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr
340 345 350
Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp
355 360 365
Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly
370 375 380
Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp
385 390 395 400
Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr
405 410 415
Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala
420 425 430
His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr
435 440 445
Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp
450 455 460
Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe
465 470 475 480
Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe
485 490 495
Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu
500 505 510
His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly
515 520 525
Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly
530 535 540
Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln
545 550 555 560
Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile
565 570 575
Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro
580 585 590
Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu
595 600 605
Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg
610 615 620
Leu Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys
625 630 635 640
Asp Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg
645 650 655
Gly Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys
660 665 670
Asn Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys
675 680 685
Phe Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp
690 695 700
Lys Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr
705 710 715 720
Lys His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp
725 730 735
Glu Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser
740 745 750
Lys Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg
755 760 765
Glu Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val
770 775 780
Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe
785 790 795 800
Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys
805 810 815
Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr Ser
820 825 830
Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu
835 840 845
Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile
850 855 860
Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser
865 870 875 880
Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly
885 890 895
Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile
900 905 910
Ala Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser
915 920 925
Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys Gly
930 935 940
Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile
945 950 955 960
Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala
965 970 975
Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys
980 985 990
Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser
995 1000 1005
Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys
1010 1015 1020
Tyr Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys
1025 1030 1035
Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln
1040 1045 1050
His Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe
1055 1060 1065
Ser Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu
1070 1075 1080
Ser Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala
1085 1090 1095
Glu Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro
1100 1105 1110
Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr
1115 1120 1125
Thr Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser
1130 1135 1140
Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly
1145 1150 1155
Gly Asp
1160

Claims (37)

1.一种分离的Cas蛋白或多肽片段,所述分离的Cas蛋白或多肽片段具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列,其中当与识别靶核酸序列的至少一个RNA分子缔合时,所述Cas蛋白能够在50℃与100℃之间裂解包含所述靶序列的多核苷酸。
2.如权利要求1所述的Cas蛋白或多肽片段,其中所述Cas蛋白或片段能够在50℃与75℃之间、优选地高于60℃;更优选地在60℃与80℃之间;甚至更优选地在60℃与65℃之间进行核酸裂解。
3.如权利要求1或权利要求2所述的Cas蛋白或多肽片段,其中所述核酸裂解为DNA裂解。
4.如任一项前述权利要求所述的Cas蛋白或多肽片段,其中所述Cas蛋白是从细菌、古核生物或病毒可获得的。
5.如任一项前述权利要求所述的Cas蛋白或多肽片段,其中所述Cas蛋白是从地芽孢杆菌属的种(Geobacillus sp.),优选地从热脱氮地芽孢杆菌(Geobacillusthermodenitrificans)可获得的。
6.一种核糖核蛋白复合体,所述核糖核蛋白复合体包含如任一项前述权利要求所述的Cas蛋白,并且包含识别靶多核苷酸中的序列的至少一个靶向RNA分子。
7.如权利要求6所述的核糖核蛋白复合体,其中所述靶向RNA分子包含crRNA及任选地tracrRNA。
8.如权利要求6或权利要求7所述的核糖核蛋白复合体,其中所述至少一个RNA分子的长度在35-135个核苷酸残基的范围内。
9.如权利要求6或权利要求7所述的核糖核蛋白复合体,其中所述靶序列长度为31个或32个核苷酸残基。
10.如权利要求1至5中任一项所述的Cas蛋白或多肽、或如权利要求6至9中任一项所述的核糖核蛋白复合体,其中所述蛋白或多肽作为包含至少一种另外的功能蛋白或非功能蛋白的蛋白复合体的一部分提供。
11.如权利要求10所述的Cas蛋白、多肽或核糖核蛋白复合体,其中所述Cas蛋白或多肽和/或所述至少一种另外的蛋白还包含至少一个功能部分。
12.如权利要求11所述的Cas蛋白或多肽、或核糖核蛋白复合体,其中所述至少一个功能部分与所述Cas蛋白、多肽或核糖核蛋白复合体的N-末端和/或C-末端优选地N-末端融合或连接。
13.如权利要求11或权利要求12所述的Cas蛋白或多肽、或核糖核蛋白复合体,其中所述至少一个功能部分为蛋白;任选地选自解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构化蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。
14.如权利要求13所述的Cas蛋白或多肽、或核糖核蛋白复合体,其中所述Cas9核酸酶的天然活性被失活并且所述Cas蛋白与至少一个功能部分连接。
15.如权利要求13或权利要求14所述的Cas蛋白或多肽、或核糖核蛋白复合体,其中所述至少一个功能部分为核酸酶结构域;优选地为FokI核酸酶结构域。
16.如权利要求13至15中任一项所述的Cas蛋白或多肽、或核糖核蛋白复合体,其中所述至少一个功能部分为标志物蛋白。
17.一种分离的核酸分子,所述分离的核酸分子编码成簇的规律间隔的短回文重复(CRISPR)相关(Cas)蛋白或其多肽片段,所述成簇的规律间隔的短回文重复(CRISPR)相关(Cas)蛋白具有SEQ ID NO:1的氨基酸序列或与SEQ ID NO:1具有至少77%同一性的序列。
18.如权利要求17所述的分离的核酸分子,所述分离的核酸分子还包含编码在翻译后与所述Cas蛋白或多肽融合的氨基酸序列的至少一个核酸序列。
19.如权利要求18所述的分离的核酸分子,其中与编码所述Cas蛋白或多肽的核酸分子融合的所述至少一个核酸序列编码选自以下的蛋白:解旋酶、核酸酶、解旋酶-核酸酶、DNA甲基化酶、组蛋白甲基化酶、乙酰基转移酶、磷酸酶、激酶、转录(共)活化物、转录阻遏物、DNA结合蛋白、DNA结构化蛋白、标志物蛋白、报告物蛋白、荧光蛋白、配体结合蛋白、信号肽、亚细胞定位序列、抗体表位或亲和纯化标签。
20.一种表达载体,所述表达载体包含如权利要求17至19中任一项所述的核酸分子。
21.如权利要求20所述的表达载体,所述表达载体还包含编码至少一个靶向RNA分子的核苷酸序列。
22.一种修饰靶核酸的方法,所述方法包括使所述核酸与以下接触:
a.如权利要求6至9中任一项所述的核糖核蛋白复合体;或
b.如权利要求10至16中任一项所述的蛋白或蛋白复合体以及如在权利要求4至9中任一项中定义的至少一个靶向RNA分子。
23.一种修饰细胞中的靶核酸的方法,所述方法包括用如权利要求21所述的表达载体转化、转染或转导所述细胞;或者可选地用如权利要求20所述的表达载体以及包含编码如权利要求4至9中任一项中定义的靶向RNA分子的核苷酸序列的另外的表达载体转化、转染或转导所述细胞。
24.一种修饰细胞中的靶核酸的方法,所述方法包括用如权利要求20所述的表达载体转化、转染或转导所述细胞,并且然后将如权利要求4至9中任一项中定义的靶向RNA分子递送至所述细胞或递送到所述细胞中。
25.如权利要求22至24中任一项所述的修饰靶核酸的方法,其中所述至少一个功能部分为标志物蛋白或报告物蛋白,并且所述标志物蛋白或报告物蛋白与所述靶核酸缔合;优选地其中所述标志物为荧光蛋白,例如绿色荧光蛋白(GFP)。
26.如权利要求22至25中任一项所述的方法,其中所述靶核酸为DNA;优选地为dsDNA。
27.如权利要求22至25中任一项所述的方法,其中所述靶核酸为RNA。
28.如权利要求26所述的修饰靶核酸的方法,其中所述核酸为dsDNA,所述至少一个功能部分为核酸酶或解旋酶-核酸酶,并且所述修饰为在期望的基因座处的单链断裂或双链断裂。
29.一种根据如权利要求23、24、26或28所述的方法中的任一种在期望的基因座处使基因表达沉默的方法。
30.一种根据如权利要求23、24、26或28所述的方法中的任一种在期望的位置处修饰或缺失和/或插入期望的核苷酸序列的方法。
31.一种修饰细胞中的基因表达的方法,所述方法包括以权利要求22至26中任一项所述的方法修饰靶核酸序列;其中所述核酸为dsDNA,并且所述功能部分选自DNA修饰酶(例如甲基化酶或乙酰基转移酶)、转录活化物或转录阻遏物。
32.一种修饰细胞中的基因表达的方法,所述方法包括以权利要求27所述的方法修饰靶核酸序列,其中所述核酸为mRNA并且所述功能部分为核糖核酸酶;任选地选自内切核酸酶、3'外切核酸酶或5'外切核酸酶。
33.如权利要求22至32中任一项所述的修饰靶核酸的方法,其中所述方法在50℃与100℃之间的温度进行。
34.如权利要求33所述的修饰靶核酸的方法,其中所述方法在60℃或高于60℃,优选地在60℃与80℃之间,更优选地在60℃与65℃之间的温度进行。
35.如权利要求22至34中任一项所述的方法,其中所述细胞为原核细胞。
36.如权利要求22至35中任一项所述的方法,其中所述细胞为真核细胞。
37.一种宿主细胞,所述宿主细胞通过如权利要求22至33中任一项所述的方法转化。
CN201680046318.0A 2015-06-12 2016-06-06 热稳定的Cas9核酸酶 Active CN107922931B (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
GBGB1510296.5A GB201510296D0 (en) 2015-06-12 2015-06-12 Thermostable CAS9 nucleases
GB1510296.5 2015-06-12
PCT/EP2016/062817 WO2016198361A1 (en) 2015-06-12 2016-06-06 Thermostable cas9 nucleases

Publications (2)

Publication Number Publication Date
CN107922931A true CN107922931A (zh) 2018-04-17
CN107922931B CN107922931B (zh) 2022-07-26

Family

ID=53784593

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201680046318.0A Active CN107922931B (zh) 2015-06-12 2016-06-06 热稳定的Cas9核酸酶

Country Status (12)

Country Link
US (2) US10731142B2 (zh)
EP (1) EP3307883A1 (zh)
JP (1) JP7088528B2 (zh)
KR (1) KR20180019655A (zh)
CN (1) CN107922931B (zh)
AU (1) AU2016274452C1 (zh)
BR (1) BR112017026719A8 (zh)
CA (1) CA2989084A1 (zh)
EA (1) EA038500B1 (zh)
GB (1) GB201510296D0 (zh)
PH (1) PH12017502281A1 (zh)
WO (1) WO2016198361A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111979257A (zh) * 2019-05-22 2020-11-24 上海凯赛生物技术股份有限公司 一种重组dna及其应用
CN113785055A (zh) * 2018-11-26 2021-12-10 拜奥卡德联合股份公司 Dna切割剂
CN114787347A (zh) * 2019-12-10 2022-07-22 因思科瑞普特公司 新颖的mad核酸酶

Families Citing this family (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2853829C (en) 2011-07-22 2023-09-26 President And Fellows Of Harvard College Evaluation and improvement of nuclease cleavage specificity
US20150044192A1 (en) 2013-08-09 2015-02-12 President And Fellows Of Harvard College Methods for identifying a target site of a cas9 nuclease
US9359599B2 (en) 2013-08-22 2016-06-07 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US9388430B2 (en) 2013-09-06 2016-07-12 President And Fellows Of Harvard College Cas9-recombinase fusion proteins and uses thereof
US9228207B2 (en) 2013-09-06 2016-01-05 President And Fellows Of Harvard College Switchable gRNAs comprising aptamers
US9737604B2 (en) 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
US11053481B2 (en) 2013-12-12 2021-07-06 President And Fellows Of Harvard College Fusions of Cas9 domains and nucleic acid-editing domains
US10077453B2 (en) 2014-07-30 2018-09-18 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
GB201510296D0 (en) * 2015-06-12 2015-07-29 Univ Wageningen Thermostable CAS9 nucleases
IL294014B2 (en) 2015-10-23 2024-07-01 Harvard College Nucleobase editors and their uses
IL308426A (en) 2016-08-03 2024-01-01 Harvard College Adenosine nuclear base editors and their uses
US11661590B2 (en) 2016-08-09 2023-05-30 President And Fellows Of Harvard College Programmable CAS9-recombinase fusion proteins and uses thereof
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
SG11201903089RA (en) 2016-10-14 2019-05-30 Harvard College Aav delivery of nucleobase editors
WO2018109101A1 (en) * 2016-12-14 2018-06-21 Wageningen Universiteit Thermostable cas9 nucleases
EP3555275A1 (en) 2016-12-14 2019-10-23 Wageningen Universiteit Thermostable cas9 nucleases
WO2018119359A1 (en) 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
EP3592777A1 (en) 2017-03-10 2020-01-15 President and Fellows of Harvard College Cytosine to guanine base editor
JP7191388B2 (ja) 2017-03-23 2022-12-19 プレジデント アンド フェローズ オブ ハーバード カレッジ 核酸によってプログラム可能なdna結合蛋白質を含む核酸塩基編集因子
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
WO2018213351A1 (en) * 2017-05-16 2018-11-22 The Regents Of The University Of California Thermostable rna-guided endonucleases and methods of use thereof
CN111801345A (zh) 2017-07-28 2020-10-20 哈佛大学的校长及成员们 使用噬菌体辅助连续进化(pace)的进化碱基编辑器的方法和组合物
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
GB201716590D0 (en) * 2017-10-10 2017-11-22 Univ Wageningen Thermostable cas9 nucleases with reduced off-target activity
CN111757937A (zh) 2017-10-16 2020-10-09 布罗德研究所股份有限公司 腺苷碱基编辑器的用途
WO2020081808A1 (en) * 2018-10-18 2020-04-23 Chan Zuckerberg Biohub, Inc. Methods and compositions involving thermostable cas9 protein variants
EP3874048A1 (en) 2018-11-01 2021-09-08 Keygene N.V. Dual guide rna for crispr/cas genome editing in plants cells
AU2019390691A1 (en) 2018-11-28 2021-05-13 Keygene N.V. Targeted enrichment by endonuclease protection
AU2020206997A1 (en) * 2019-01-07 2021-08-26 Crisp-Hr Therapeutics, Inc. A non-toxic Cas9 enzyme and application thereof
WO2020191243A1 (en) 2019-03-19 2020-09-24 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
BR112022014777A2 (pt) * 2020-01-27 2022-09-20 Sherlock Biosciences Inc Ensaios de detecção aprimorados
DE112021002672T5 (de) 2020-05-08 2023-04-13 President And Fellows Of Harvard College Vefahren und zusammensetzungen zum gleichzeitigen editieren beider stränge einer doppelsträngigen nukleotid-zielsequenz
WO2022112316A1 (en) 2020-11-24 2022-06-02 Keygene N.V. Targeted enrichment using nanopore selective sequencing

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013176772A1 (en) * 2012-05-25 2013-11-28 The Regents Of The University Of California Methods and compositions for rna-directed target dna modification and for rna-directed modulation of transcription

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010054108A2 (en) * 2008-11-06 2010-05-14 University Of Georgia Research Foundation, Inc. Cas6 polypeptides and methods of use
WO2016106239A1 (en) * 2014-12-23 2016-06-30 The Regents Of The University Of California Methods and compositions for nucleic acid integration
GB201510296D0 (en) * 2015-06-12 2015-07-29 Univ Wageningen Thermostable CAS9 nucleases
EP3555275A1 (en) * 2016-12-14 2019-10-23 Wageningen Universiteit Thermostable cas9 nucleases

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013176772A1 (en) * 2012-05-25 2013-11-28 The Regents Of The University Of California Methods and compositions for rna-directed target dna modification and for rna-directed modulation of transcription

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
GENBANK: "NCBI Reference Sequence: WP_044736072.1", 《GENBANK》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113785055A (zh) * 2018-11-26 2021-12-10 拜奥卡德联合股份公司 Dna切割剂
CN111979257A (zh) * 2019-05-22 2020-11-24 上海凯赛生物技术股份有限公司 一种重组dna及其应用
CN111979257B (zh) * 2019-05-22 2023-10-13 上海凯赛生物技术股份有限公司 一种重组dna及其应用
CN114787347A (zh) * 2019-12-10 2022-07-22 因思科瑞普特公司 新颖的mad核酸酶

Also Published As

Publication number Publication date
PH12017502281A1 (en) 2018-06-11
GB201510296D0 (en) 2015-07-29
US10731142B2 (en) 2020-08-04
AU2016274452B2 (en) 2021-12-02
US20180171314A1 (en) 2018-06-21
CA2989084A1 (en) 2016-12-15
EA038500B1 (ru) 2021-09-07
US20200385697A1 (en) 2020-12-10
KR20180019655A (ko) 2018-02-26
WO2016198361A1 (en) 2016-12-15
BR112017026719A2 (pt) 2018-08-28
EA201890032A1 (ru) 2018-07-31
JP7088528B2 (ja) 2022-06-21
JP2018522544A (ja) 2018-08-16
EP3307883A1 (en) 2018-04-18
CN107922931B (zh) 2022-07-26
AU2016274452C1 (en) 2022-03-17
BR112017026719A8 (pt) 2022-07-05
AU2016274452A1 (en) 2018-01-25
US11802277B2 (en) 2023-10-31

Similar Documents

Publication Publication Date Title
CN107922931A (zh) 热稳定的Cas9核酸酶
US10982200B2 (en) Enzymes with RuvC domains
US20240117330A1 (en) Enzymes with ruvc domains
CN110312792A (zh) 热稳定的Cas9核酸酶
US20240209332A1 (en) Enzymes with ruvc domains
US20240336905A1 (en) Class ii, type v crispr systems
US20220220460A1 (en) Enzymes with ruvc domains
JP6074036B2 (ja) 拡大された基質範囲を有する新規のdnaポリメラーゼ
US20240352433A1 (en) Enzymes with hepn domains
US20240110167A1 (en) Enzymes with ruvc domains
GB2617659A (en) Enzymes with RUVC domains
WO2023039434A1 (en) Systems and methods for transposing cargo nucleotide sequences
CN116615547A (zh) 用于对货物核苷酸序列转座的系统和方法
CN118019843A (zh) Ii类v型crispr系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20201216

Address after: Wageningen

Applicant after: WAGENINGEN UNIVERSITEIT

Address before: Holland Gorinchem

Applicant before: Purac Biochem B.V.

GR01 Patent grant
GR01 Patent grant