CN112805379A - 多效应核碱基编辑器和使用其修饰核酸靶序列的方法 - Google Patents

多效应核碱基编辑器和使用其修饰核酸靶序列的方法 Download PDF

Info

Publication number
CN112805379A
CN112805379A CN201980065595.XA CN201980065595A CN112805379A CN 112805379 A CN112805379 A CN 112805379A CN 201980065595 A CN201980065595 A CN 201980065595A CN 112805379 A CN112805379 A CN 112805379A
Authority
CN
China
Prior art keywords
polypeptide
domain
cas9
nucleobase
nucleic acid
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201980065595.XA
Other languages
English (en)
Inventor
N·戈代尔利
J·埃文斯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bim Medical Co ltd
Beam Therapeutics Inc
Original Assignee
Bim Medical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bim Medical Co ltd filed Critical Bim Medical Co ltd
Publication of CN112805379A publication Critical patent/CN112805379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04004Adenosine deaminase (3.5.4.4)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04005Cytidine deaminase (3.5.4.5)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Mycology (AREA)
  • Cell Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Peptides Or Proteins (AREA)

Abstract

本发明的特征在于能够在靶核酸内的多个不同碱基处诱导改变的多效应核碱基编辑器,以及使用这种编辑器的方法。

Description

多效应核碱基编辑器和使用其修饰核酸靶序列的方法
相关申请案
本申请主张2018年8月3日提交的美国临时申请号62/714,550的效益,其整体内容通过引用并入本文,且以本申请中的术语定义为准。
技术领域
核酸序列的靶向编辑,例如靶向切割或向基因组DNA定向导入特定修饰,是研究基因功能的一种很有前途的方法,也具有为人类遗传疾病提供新疗法的潜力。当前可用的碱基编辑器包括将目标C·G转换为T·A的胞苷碱基编辑器(例如BE4)和将目标A·T转换为G·C的腺嘌呤碱基编辑器(例如ABE7.10)。在本领域中需要能够在靶序列内诱导新颖类型的修饰的碱基编辑器。
发明内容
如下所述,本发明的特征在于能够在靶核酸内的多个不同碱基上引起变化的多效应核碱基编辑器,以及使用这种编辑器的方法。
在一个方面,本发明的特征在于一种多效应核碱基编辑器多肽,其包含腺苷脱氨酶、胞苷脱氨酶和/或DNA糖基化酶结构域,其中上述结构域与多核苷酸结合结构域融合,从而形成能够诱导核酸分子中多个不同碱基的变化。在一个实施方案中,所述多肽进一步包含一个或多个核定位信号(NLS)。在另一个实施方案中,NLS是二分NLS。在另一个实施方案中,多肽包含N末端NLS和C末端NLS。在另一个实施方案中,所述多肽进一步包含一种或多种尿嘧啶DNA糖基化酶抑制剂(UGI)。在另一个实施方案中,腺苷脱氨酶是TadA脱氨酶。在另一个实施方案中,TadA脱氨酶是自然界中不存在的修饰的腺苷脱氨酶。在另一个实施方案中,所述多肽包含两个相同或不同的腺苷脱氨酶。在另一个实施方案中,两个腺苷脱氨酶能够形成异源或同源二聚体。在另一个实施方案中,腺苷脱氨酶结构域是野生型TadA和TadA7.10。在另一个实施方案中,具有核酸序列特异性结合活性的结构域是核酸可编程DNA结合蛋白(napDNAbp)。在另一个实施方案中,napDNAbp结构域包含核酸酶死亡的Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。在另一个实施方案中,napDNAbp选自Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i或其活性片段。在某些实施方案中,napDNAbp结构域包含Cas9结构域、Cas12a结构域、Cas12b结构域、Cas12c结构域、Cas12d结构域、Cas12e结构域、Cas12f结构域、Cas12g结构域、Cas12h结构域、Cas12i结构域或argonaute结构域。在另一个实施方案中,napDNAbp结构域包含能够切割核酸序列的反向互补链的催化结构域。在另一个实施方案中,napDNAbp结构域不包含能够切割核酸序列的催化结构域。在另一个实施方案中,Cas9是dCas9或nCas9。在另一个实施方案中,胞苷脱氨酶是海七鳃鳗胞嘧啶脱氨酶1(pCDM)或激活诱导的胞苷脱氨酶(AICDA)。在另一个实施方案中,多肽还包含无碱基核碱基编辑器。在另一个实施方案中,UGI衍生自枯草芽孢杆菌噬菌体PBS1,并抑制人UDG活性。
在另一方面,本发明的特征在于多效应核碱基编辑器多肽,其包含一个或多个核定位信号(NLS)、napDNAbp、尿嘧啶DNA糖基化酶抑制剂、腺苷脱氨酶和胞苷脱氨酶。在一个实施方案中,所述多肽包含两个NLS。在一个实施方案中,一个NLS是二分NLS。在另一个实施方案中,所述多肽包含两种尿嘧啶DNA糖基化酶抑制剂。在另一个实施方案中,所述多肽包含两个腺苷脱氨酶和一个胞苷脱氨酶、或一个无碱基核碱基编辑器和一个胞苷脱氨酶、或一个无碱基核苷编辑器和一个腺苷脱氨酶。
一方面,本发明的特征在于一种多效应核碱基编辑器多肽,其包含以下结构域A-C,A-D或A-E:
NH2-[A-B-C]-COOH,
NH2-[A-B-C-D]-COOH,或
NH2-[A-B-C-D-E]-COOH
其中A和C或A、C和E各自包含以下一种或多种:
腺苷脱氨酶结构域或其活性片段、
胞苷脱氨酶结构域或其活性片段、
DNA糖基化酶结构域或其活性片段;和
其中B或B和D各自包含一个或多个具有核酸序列特异性结合活性的结构域。在一个实施方案中,前述方面的多效应物核碱基Editor多肽包含:
NH2-[An-Bo-Cn]-COOH,
NH2-[An-Bo-Cn-Do]-COOH,或
NH2-[An-Bo-Cp-Do-Eq]-COOH;
其中A和C或A、C和E各自包含以下一种或多种:
腺苷脱氨酶结构域或其活性片段、
胞苷脱氨酶结构域或其活性片段、
DNA糖基化酶结构域或其活性片段;和
其中n是整数:1、2、3、4或5,其中p是整数:0、1、2、3、4或5;其中q是0、1、2、3、4或5的整数;其中B或B和D各自包含具有核酸序列特异性结合活性的结构域;其中o是1、2、3、4或5的整数。在一个实施方案中,所述多肽含有一个或多个核定位序列。在一个实施方案中,所述多肽含有至少一个所述核定位序列在N末端或C末端。在一个实施方案中,包含所述核定位信号的所述多肽是二分核定位信号。在一个实施方案中,所述多肽包含一个或多个通过连接子连接的结构域。在一个实施方案中,腺苷脱氨酶是TadA脱氨酶。在一个实施方案中,所述TadA是自然界中不存在的修饰的腺苷脱氨酶。在另一个实施方案中,所述多肽包含两个相同或不同的腺苷脱氨酶结构域。在一实施方案中,所述两个腺苷脱氨酶结构域能够形成异源或同二聚体。在一个实施方案中,所述腺苷脱氨酶结构域是野生型TadA和TadA7.10。在一个实施方案中,所述多肽包含具有核酸序列特异性结合活性的结构域是核酸可编程DNA结合蛋白(napDNAbp)。在一个实施方案中,所述napDNAbp结构域包含核酸酶死亡的Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。在一个实施方案中,所述napDNAbp选自Cas9、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i、或其活性片段。在一个实施方案中,所述napDNAbp结构域包含能够切割核酸序列的反向互补链的催化结构域。在一个实施方案中,所述napDNAbp结构域不包含能够切割核酸序列的催化结构域。在一个实施方案中,所述Cas9是dCas9或nCas9。在一个实施方案中,所述napDNAbp包含核碱基编辑器。在一个实施方案中,所述核碱基编辑剂是胞苷脱氨酶或腺苷脱氨酶。在一个实施方案中,所述胞苷脱氨酶是海七鳃鳗胞嘧啶脱氨酶1(pCDM)或激活诱导的胞苷脱氨酶(AICDA)。在一些实施方案中,所述多肽包含0、1或2个尿嘧啶糖基化酶抑制剂或其活性片段。
在另一方面,本发明的特征在于一种多核苷酸分子,其编码前述方面或本文所述的任何一个的多效应核碱基编辑器多肽。在一实施方案中,所述多核苷酸是密码子优化的。
在另一方面,本发明特征在于一种表达载体,其包含前述请求保护的多核苷酸分子。在一个实施方案中,所述表达载体是哺乳动物表达载体。在一个实施方案中,所述载体是选自由腺相关病毒(AAV)、逆转录病毒载体、腺病毒载体、慢病毒载体、仙台病毒载体和疱疹病毒载体组成的组的病毒载体。在另一个实施方案中,所述载体包含启动子。
在另一方面,本发明的特征在于一种细胞,其包含任何前述方面的多核苷酸或前述载体。在一个实施方案中,所述细胞是细菌细胞、植物细胞、昆虫细胞或哺乳动物细胞。
在另一方面,本发明的特征在于一种分子复合物,其包含任何前述请求保护的多效应核碱基编辑器多肽和一个或多个指导RNA、tracrRNA或靶DNA分子。
在另一方面,本发明特征在于试剂盒,其包含先前方面的多效应核碱基编辑器多肽、先前方面的多核苷酸、先前方面的载体或先前方面的分子复合物。
在另一方面,本发明的特征在于一种编辑核酸序列的核碱基的方法,所述方法包括使核酸序列与碱基编辑器接触,所述碱基编辑器包括:任何前述方面的所述多效应核碱基编辑器多肽,并转化所述核酸的第一核碱基。DNA序列形成第二核碱基。在一个实施方案中,所述第一核碱基是胞嘧啶,所述第二核碱基是胸腺嘧啶。在一个实施方案中,所述第一核碱基是腺嘌呤,所述第二核碱基是鸟嘌呤。在另一个实施方案中,所述方法进一步包括将第三核碱基转化为第四核碱基。在一个实施方案中,所述第三核碱基是鸟嘌呤,而所述第四核碱基是腺嘌呤。在另一个实施方案中,所述第三核碱基是胸腺嘧啶,而所述第四核碱基是胞嘧啶。在另一个实施方案中,所述核酸序列编码互补决定区(CDR)。
在另一方面,本发明的特征在于一种编辑存在于细胞基因组中的调节序列的方法,所述方法包括使调节序列与碱基编辑器接触,所述碱基编辑器包括:任何前述方面的多效应核碱基编辑器多肽,并转化DNA序列的第一和核碱基为和第三和第四核碱基。
在另一方面,本发明的特征在于一种编辑细胞基因组的方法,所述方法包括使所述基因组与碱基编辑器接触,所述碱基编辑器包括:任何前述方面的多效应核碱基编辑器多肽,并转化DNA序列的第一和第二核碱基为第三和第四核碱基的。在一个实施方案中,所述方法进一步包括表征编辑对基因组的作用。
根据详细描述和权利要求,本发明的其他特征和优点将显而易见。
定义
以下定义是本领域技术人员的补充,并且是针对当前申请的,而不应归因于任何相关或不相关的情况,例如,任何共同拥有的专利或申请。尽管与本文描述的那些方法或材料类似或等同的任何方法和材料都可以在实践中用于测试本发明,但是本文描述了优选的材料和方法。因此,本文所使用的术语仅出于描述特定实施例的目的,而无意于进行限制。
除非另有定义,否则本文中使用的所有技术和科学术语具有本领域技术人员通常理解的含义。下列参考文献为技术人员提供了本发明中使用的许多术语的一般定义:Singleton等人,Dictionary of Microbiology and Molecular Biology,(1994年第2版);The Cambridge Dictionary of Science and Technology(Walker编辑,1988);TheGlossary of Genetics,第5版,R.Rieger等人(编辑),Springer Verlag(1991);和Hale&Marham,The Harper Collins Dictionary of Biology(1991年)。如本文所用,除非另有说明,否则以下术语具有以下赋予的含义。
在本发明中,单数的使用包括复数,除非另有明确说明。必须注意,在说明书中使用的单数形式“一”、“一个”和“所述”包括复数对象,除非上下文另有明确规定。在本发明中,除非另外说明,否则“或”的使用表示“和/或”。此外,术语“包括”及其他形式(例如“包括”、“包括”和“包括”)的使用,而不限制性的。
如本说明书和权利要求书中所使用的,词语“包括”(以及包括的任何形式,例如“包括”和“包含”)、“具有”(以及具有的任何形式,例如“具有”和“具有”)、“具有”、“包含”(以及任何形式的包含,例如“包含”和“包含”)或“包含”(以及任何形式的包含,例如“包含”和“包含”)是包含性的或开放的-且不排除其他未引用的元素或方法步骤。可以预期,可以相对于本发明的任何方法或组成来实现本说明书中讨论的任何实施例,反之亦然。此外,本发明的组合物可以用于实现本发明的方法。
术语“大约”或“近似”是指在特定值的可接受误差范围内,如本领域技术人员所确定的,所述误差范围将部分取决于如何测量或确定所述值,即所述值的限制。测量系统。例如,根据本领域的实践,“约”可以表示在1个或大于1个标准偏差之内。替代地,“约”可以表示给定值的最高20%、最高10%、最高5%或最高1%的范围。可替代地,特别是关于生物系统或过程,所述术语可以表示在数值的一个数量级内,例如,在数值的5倍之内,在数值的2倍之内。在本发明和权利要求书中描述了特定值的情况下,除非另有说明,否则术语“约”是指所述特定值在可接受的误差范围内。
说明书中对“一些实施方案”、“一实施方案”、“一个实施方案”或“其他实施方案”的引用是指结合实施例描述的特定特征、结构或特性包括在至少一些实施方案,但不包括必须是本发明的所有实施例。
“无碱基(abasic)碱基编辑器”是指能够切除核碱基并插入DNA核碱基(A、T、C或G)的试剂。无碱基碱基编辑器包含核酸糖基化酶多肽或其片段。在一个实施方案中,所述核酸糖基化酶是突变的人类尿嘧啶DNA糖基化酶,其包含以下序列的氨基酸204上的Asp(例如,取代氨基酸204的Asn),或尿嘧啶DNA糖基化酶中的相应位置,并具有胞嘧啶-DNA糖基化酶活性或其活性片段。在一个实施方案中,所述核酸糖基化酶是突变的人类尿嘧啶DNA糖基化酶,其在以下序列或在氨基酸序列中的相应位置包含在氨基酸147的Ala、Gly、Cys或Ser(例如,替换在氨基酸147的Tyr)、具有尿嘧啶-DNA糖基化酶活性的尿嘧啶DNA糖基化酶或其活性片段、示例性人类尿嘧啶-DNA糖基化酶同工型1的序列如下:
Figure BDA0003005803140000071
人类尿嘧啶-DNA糖基化酶同工型2的序列如下:
Figure BDA0003005803140000072
在其他实施方案中,无碱基编辑器是在国际第PCT/JP2015/080958号专利申请案和美国第US20170321210号专利公开案中描述的无碱基编辑器中的任何一种,其通过引用并入本文。在特定的实施方案中,所述无碱基编辑器在本领域已知的任何其他无碱基编辑器或尿嘧啶脱糖基酶中,在以上序列中以黑体字加粗划线表示的位置处或相应氨基酸处包含突变。在一个实施方案中,所述无碱基编辑器包括在Y147、N204、L272和/或R276或相应位置的突变。在另一个实施方案中,所述无碱基编辑器包含Y147A或Y147G突变或相应的突变。在另一个实施方案中,所述无碱基编辑器包含N204D突变或相应的突变。在另一个实施方案中,所述无碱基编辑器包含L272A突变或相应的突变。在另一个实施方案中,所述无碱基编辑器包含R276E或R276C突变或相应的突变。
“腺苷脱氨酶”是指能够催化腺嘌呤或腺苷的水解脱氨的多肽或其片段。在一些实施方案中,所述脱氨酶或脱氨酶结构域是催化腺苷水解为肌苷或脱氧腺苷水解为脱氧肌苷的腺苷脱氨酶。在一些实施方案中,所述腺苷脱氨酶催化脱氧核糖核酸(DNA)中腺嘌呤或腺苷的水解脱氨。本文提供的所述腺苷脱氨酶(例如,工程化腺苷脱氨酶、进化的腺苷脱氨酶)可以来自任何生物,例如细菌。
在一些实施方案中,所述腺苷脱氨酶包含以下序列的改变:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
(也称为TadA*7.10)。
在一些实施方案中,TadA*7.10在氨基酸82或166处包含改变。在特定实施方案中,上述序列的变体包含以下改变中的一个或多个:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。改变Y123H是指将TadA*7.10中的改变H123Y还原为Y123H TadA(wt)。在其他实施方案中,TadA*7.10序列的变体包含选自Y147R+Q154R+Y123H的改变的组合;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y147T+Q154R;Y147T+Q154S;V82S+Q154S;和Y123H+Y147R+Q154R+I76Y。在其他实施方案中,所述腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域的同型二聚体,每个域具有一个或多个以下变化Y147T、Y147R、Q154S、Y123H、V82S、T166R、Q154R。
在特定的实施方案中,所述腺苷脱氨酶结构域选自以下之一:
金黄色葡萄球菌(Staphylococcus aureus,S.aureus)TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNL
RETLQQPTAH
AEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGAD
DPKGGCSGS
LMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌(Bacillus subtilis,B.subtilis)TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETE
QRSIAHAEML
VIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKG
GCSGTLMN
LLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门氏菌(Salmonella typhimurium,S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVH
NHRVIGEG
WNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAM
VHSRIG
RVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(Shewanella putrefaciens,S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHD
PTAHAEI
LCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEK
TGAAGT
VVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQ
QGIE
流感嗜血杆菌F3031(Haemophilus influenzae F3031,H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGE
GWNLSIVQSDPTΑΗ
AEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGAS
DYK
TGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEK
ALLKSLSDK
新月形杆菌(Caulobacter crescentus,C.crescentus)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIAT
AGNGPIAAH
DPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRV
VFGADD
PKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(Geobacter sulfurreducens,G.sulphurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGR
GHNLREGSN
DPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERV
VFGCYDP
KGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAK
ATPALF IDERKVPPEP
TadA*7.10:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD。
本文中的“施用”是指向患者或受试者提供本文所述的一种或多种组合物。举例但不限于,组合物施用举例如注射,可以通过静脉内(iv)注射、皮下(sc)注射、皮内(id)注射、腹膜内(ip)注射或肌内(im)注射进行。可以采用一种或多种这样的途径。肠胃外给药可以例如通过推注或随时间逐渐灌注。可以替代地或同时地通过口服途径施用。
“试剂”是指任何小分子化合物、抗体、核酸分子或多肽或其片段。
“改变”是指如通过本文所述的标准技术已知方法所检测到的基因或多肽的表达水平或活性的变化(增加或减少)。如本文所用,改变包括表达水平的10%变化、25%的变化、40%的变化以及表达水平的50%或更大的变化。
“改善”是指减少、抑制、减弱、减少、停止或稳定疾病的发展或进程。
“类似物”是指不相同但具有相似的功能或结构特征的分子。例如,多肽类似物保留了相应的天然存在的多肽的生物活性,同时具有某些生物化学修饰,相对于天然存在的多肽,其可以增强类似物的功能。这种生化修饰可以增加类似物的蛋白酶抗性、膜通透性或半衰期,而不会改变例如配体结合。类似物可包括非天然氨基酸。
“碱基编辑器(BE)”或“核碱基编辑器(NBE)”是指结合多核苷酸并具有核碱基修饰活性的试剂。在各种实施方案中,所述碱基编辑器包含核碱基修饰多肽(例如,一种或多种脱氨基酶)以及与指导多核苷酸(例如,指导RNA)结合的多核苷酸可编程核苷酸结合结构域。在各种实施方案中,所述试剂是生物分子复合物,其包含具有碱基编辑活性的蛋白质结构域,即能够修饰核酸分子(例如,DNA)中的碱基(例如,A、T、C、G或U)的结构域。在一些实施方案中,所述多核苷酸可编程DNA结合结构域与一个或多个脱氨酶结构域融合或连接。在一个实施方案中,所述试剂是包含一个或多个具有碱基编辑活性的结构域的融合蛋白。在另一个实施方案中,所述具有碱基编辑活性的蛋白结构域与指导RNA连接(例如,通过指导RNA上的RNA结合基序和与脱氨酶融合的RNA结合结构域)。在一些实施方案中,所述具有碱基编辑活性的结构域能够使核酸分子内的碱基脱氨。在一些实施方案中,所述碱基编辑器能够使DNA分子内的一个或多个碱基脱氨。在一些实施方案中,所述碱基编辑器能够使DNA内的胞嘧啶(C)或腺苷(A)脱氨。在一些实施方案中,所述碱基编辑器能够使DNA内的胞嘧啶(C)和腺苷(A)脱氨。在一些实施方案中,所述碱基编辑器是胞苷碱基编辑器(CBE)。在一些实施例中,所述碱基编辑器是腺苷碱基编辑器(ABE)。在一些实施方案中,所述碱基编辑器是腺苷碱基编辑器(ABE)和胞苷碱基编辑器(CBE)。在一些实施方案中,所述碱基编辑器是包含腺苷脱氨酶和胞苷脱氨酶的融合蛋白。在一些实施方案中,所述碱基编辑物是与腺苷脱氨酶和/或胞苷脱氨酶融合的Cas9蛋白。在一些实施方案中,所述碱基编辑者是与胞苷脱氨酶和腺苷脱氨酶融合的Cas9切口酶(nCas9)。在一些实施方案中,所述碱基编辑器是与腺苷脱氨酶融合的无核酸酶的Cas9(dCas9)。在一些实施方案中所述,Cas9是循环排列(circularpermutation)Cas9(例如,spCas9或saCas9)。所述循环排列Cas9在本领域中是已知的,例如Oakes等人于2019年在Cell 176,254–267的发表中有所描述。在某些实施方案中,所述碱基编辑器与碱基切除修复的抑制剂融合,例如UGI域或dISN域。在一些实施方案中,所述融合蛋白包含与脱氨酶融合的Cas9切口酶和碱基切除修复的抑制剂,例如UGI或dISN结构域。在其他实施例中,所述碱基编辑器是无碱基的碱基编辑器。
在一些实施方案中,所述腺苷脱氨酶从TadA进化而来。在一些实施方案中,所述多核苷酸可编程DNA结合结构域是CRISPR相关的(例如,Cas或Cpf1)酶。在一些实施方案中,所述碱基编辑器是与脱氨酶结构域融合的催化死亡的Cas9(dCas9)。在一些实施方案中,所述碱基编辑器是与脱氨酶结构域融合的Cas9切口酶(nCas9)。在一些实施方案中,所述碱基编辑器与碱基切除修复(BER)的抑制剂融合。在一些实施方案中,所述碱基切除修复的抑制剂是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中,所述碱基切除修复抑制剂是肌苷碱基切除修复抑制剂。所述碱基编辑器的详细信息在国际第PCT/2017/045381号专利申请案(第WO2018/027078号专利公开案)和第PCT/US2016/058344号专利申请案(第WO2017/070632号专利公开案)中进行了描述,在此将其全部内容通过引用并入本文。另请参阅Komor,A.C.等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature551,464-471(2017);Komor,A.C.等人,““Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)和Rees,HA等人,“Base editing:precision chemistry on the genome andtranscriptome of living cells.”Nat Rev Genet.2018年12月;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容通过引用合并于此。
举例来说,如本文所述的碱基编辑组合物,系统和方法中使用的胞苷碱基编辑器(CBE)具有以下核酸序列(8877个碱基对)(Addgene,Watertown,MA;Komor AC等人,2017,Sci Adv.,30;3(8):eaao4774,doi:10.1126/sciadv.aao4774),如下所示。还包括与BE4核酸序列具有至少95%或更高同一性的多核苷酸序列。
1 ATATGCCAAG TACGCCCCCT ATTGACGTCA ATGACGGTAA ATGGCCCGCC TGGCATTATG
61 CCCAGTACAT GACCTTATGG GACTTTCCTA CTTGGCAGTA CATCTACGTA TTAGTCATCG
121 CTATTACCAT GGTGATGCGG TTTTGGCAGT ACATCAATGG GCGTGGATAG CGGTTTGACT
181 CACGGGGATT TCCAAGTCTC CACCCCATTG ACGTCAATGG GAGTTTGTTT TGGCACCAAA
241 ATCAACGGGA CTTTCCAAAA TGTCGTAACA ACTCCGCCCC ATTGACGCAA ATGGGCGGTA
301 GGCGTGTACG GTGGGAGGTC TATATAAGCA GAGCTGGTTT AGTGAACCGT CAGATCCGCT
361 AGAGATCCGC GGCCGCTAAT ACGACTCACT ATAGGGAGAG CCGCCACCAT GAGCTCAGAG
421 ACTGGCCCAG TGGCTGTGGA CCCCACATTG AGACGGCGGA TCGAGCCCCA TGAGTTTGAG
481 GTATTCTTCG ATCCGAGAGA GCTCCGCAAG GAGACCTGCC TGCTTTACGA AATTAATTGG
541 GGGGGCCGGC ACTCCATTTG GCGACATACA TCACAGAACA CTAACAAGCA CGTCGAAGTC
601 AACTTCATCG AGAAGTTCAC GACAGAAAGA TATTTCTGTC CGAACACAAG GTGCAGCATT
661 ACCTGGTTTC TCAGCTGGAG CCCATGCGGC GAATGTAGTA GGGCCATCAC TGAATTCCTG
721 TCAAGGTATC CCCACGTCAC TCTGTTTATT TACATCGCAA GGCTGTACCA CCACGCTGAC
781 CCCCGCAATC GACAAGGCCT GCGGGATTTG ATCTCTTCAG GTGTGACTAT CCAAATTATG
841 ACTGAGCAGG AGTCAGGATA CTGCTGGAGA AACTTTGTGA ATTATAGCCC GAGTAATGAA
901 GCCCACTGGC CTAGGTATCC CCATCTGTGG GTACGACTGT ACGTTCTTGA ACTGTACTGC
961 ATCATACTGG GCCTGCCTCC TTGTCTCAAC ATTCTGAGAA GGAAGCAGCC ACAGCTGACA
1021 TTCTTTACCA TCGCTCTTCA GTCTTGTCAT TACCAGCGAC TGCCCCCACACATTCTCTGG
1081 GCCACCGGGT TGAAATCTGG TGGTTCTTCT GGTGGTTCTA GCGGCAGCGAGACTCCCGGG
1141 ACCTCAGAGT CCGCCACACC CGAAAGTTCT GGTGGTTCTT CTGGTGGTTCTGATAAAAAG
1201 TATTCTATTG GTTTAGCCAT CGGCACTAAT TCCGTTGGAT GGGCTGTCATAACCGATGAA
1261 TACAAAGTAC CTTCAAAGAA ATTTAAGGTG TTGGGGAACA CAGACCGTCATTCGATTAAA
1321 AAGAATCTTA TCGGTGCCCT CCTATTCGAT AGTGGCGAAA CGGCAGAGGCGACTCGCCTG
1381 AAACGAACCG CTCGGAGAAG GTATACACGT CGCAAGAACC GAATATGTTACTTACAAGAA
1441 ATTTTTAGCA ATGAGATGGC CAAAGTTGAC GATTCTTTCT TTCACCGTTTGGAAGAGTCC
1501 TTCCTTGTCG AAGAGGACAA GAAACATGAA CGGCACCCCA TCTTTGGAAACATAGTAGAT
1561 GAGGTGGCAT ATCATGAAAA GTACCCAACG ATTTATCACC TCAGAAAAAAGCTAGTTGAC
1621 TCAACTGATA AAGCGGACCT GAGGTTAATC TACTTGGCTC TTGCCCATATGATAAAGTTC
1681 CGTGGGCACT TTCTCATTGA GGGTGATCTA AATCCGGACA ACTCGGATGTCGACAAACTG
1741 TTCATCCAGT TAGTACAAAC CTATAATCAG TTGTTTGAAG AGAACCCTATAAATGCAAGT
1801 GGCGTGGATG CGAAGGCTAT TCTTAGCGCC CGCCTCTCTA AATCCCGACGGCTAGAAAAC
1861 CTGATCGCAC AATTACCCGG AGAGAAGAAA AATGGGTTGT TCGGTAACCTTATAGCGCTC
1921 TCACTAGGCC TGACACCAAA TTTTAAGTCG AACTTCGACT TAGCTGAAGATGCCAAATTG
1981 CAGCTTAGTA AGGACACGTA CGATGACGAT CTCGACAATC TACTGGCACAAATTGGAGAT
2041 CAGTATGCGG ACTTATTTTT GGCTGCCAAA AACCTTAGCG ATGCAATCCTCCTATCTGAC
2101 ATACTGAGAG TTAATACTGA GATTACCAAG GCGCCGTTAT CCGCTTCAATGATCAAAAGG
2161 TACGATGAAC ATCACCAAGA CTTGACACTT CTCAAGGCCC TAGTCCGTCAGCAACTGCCT
2221 GAGAAATATA AGGAAATATT CTTTGATCAG TCGAAAAACG GGTACGCAGGTTATATTGAC
2281 GGCGGAGCGA GTCAAGAGGA ATTCTACAAG TTTATCAAAC CCATATTAGAGAAGATGGAT
2341 GGGACGGAAG AGTTGCTTGT AAAACTCAAT CGCGAAGATC TACTGCGAAAGCAGCGGACT
2401 TTCGACAACG GTAGCATTCC ACATCAAATC CACTTAGGCG AATTGCATGCTATACTTAGA
2461 AGGCAGGAGG ATTTTTATCC GTTCCTCAAA GACAATCGTG AAAAGATTGAGAAAATCCTA
2521 ACCTTTCGCA TACCTTACTA TGTGGGACCC CTGGCCCGAG GGAACTCTCGGTTCGCATGG
2581 ATGACAAGAA AGTCCGAAGA AACGATTACT CCATGGAATT TTGAGGAAGTTGTCGATAAA
2641 GGTGCGTCAG CTCAATCGTT CATCGAGAGG ATGACCAACT TTGACAAGAATTTACCGAAC
2701 GAAAAAGTAT TGCCTAAGCA CAGTTTACTT TACGAGTATT TCACAGTGTACAATGAACTC
2761 ACGAAAGTTA AGTATGTCAC TGAGGGCATG CGTAAACCCG CCTTTCTAAGCGGAGAACAG
2821 AAGAAAGCAA TAGTAGATCT GTTATTCAAG ACCAACCGCA AAGTGACAGTTAAGCAATTG
2881 AAAGAGGACT ACTTTAAGAA AATTGAATGC TTCGATTCTG TCGAGATCTCCGGGGTAGAA
2941 GATCGATTTA ATGCGTCACT TGGTACGTAT CATGACCTCC TAAAGATAATTAAAGATAAG
3001 GACTTCCTGG ATAACGAAGA GAATGAAGAT ATCTTAGAAG ATATAGTGTTGACTCTTACC
3061 CTCTTTGAAG ATCGGGAAAT GATTGAGGAA AGACTAAAAA CATACGCTCACCTGTTCGAC
3121 GATAAGGTTA TGAAACAGTT AAAGAGGCGT CGCTATACGG GCTGGGGACGATTGTCGCGG
3181 AAACTTATCA ACGGGATAAG AGACAAGCAA AGTGGTAAAA CTATTCTCGATTTTCTAAAG
3241 AGCGACGGCT TCGCCAATAG GAACTTTATG CAGCTGATCC ATGATGACTCTTTAACCTTC
3301 AAAGAGGATA TACAAAAGGC ACAGGTTTCC GGACAAGGGG ACTCATTGCACGAACATATT
3361 GCGAATCTTG CTGGTTCGCC AGCCATCAAA AAGGGCATAC TCCAGACAGTCAAAGTAGTG
3421 GATGAGCTAG TTAAGGTCAT GGGACGTCAC AAACCGGAAA ACATTGTAATCGAGATGGCA
3481 CGCGAAAATC AAACGACTCA GAAGGGGCAA AAAAACAGTC GAGAGCGGATGAAGAGAATA
3541 GAAGAGGGTA TTAAAGAACT GGGCAGCCAG ATCTTAAAGG AGCATCCTGTGGAAAATACC
3601 CAATTGCAGA ACGAGAAACT TTACCTCTAT TACCTACAAA ATGGAAGGGACATGTATGTT
3661 GATCAGGAAC TGGACATAAA CCGTTTATCT GATTACGACG TCGATCACATTGTACCCCAA
3721 TCCTTTTTGA AGGACGATTC AATCGACAAT AAAGTGCTTA CACGCTCGGATAAGAACCGA
3781 GGGAAAAGTG ACAATGTTCC AAGCGAGGAA GTCGTAAAGA AAATGAAGAACTATTGGCGG
3841 CAGCTCCTAA ATGCGAAACT GATAACGCAA AGAAAGTTCG ATAACTTAACTAAAGCTGAG
3901 AGGGGTGGCT TGTCTGAACT TGACAAGGCC GGATTTATTA AACGTCAGCTCGTGGAAACC
3961 CGCCAAATCA CAAAGCATGT TGCACAGATA CTAGATTCCC GAATGAATACGAAATACGAC
4021 GAGAACGATA AGCTGATTCG GGAAGTCAAA GTAATCACTT TAAAGTCAAAATTGGTGTCG
4081 GACTTCAGAA AGGATTTTCA ATTCTATAAA GTTAGGGAGA TAAATAACTACCACCATGCG
4141 CACGACGCTT ATCTTAATGC CGTCGTAGGG ACCGCACTCA TTAAGAAATACCCGAAGCTA
4201 GAAAGTGAGT TTGTGTATGG TGATTACAAA GTTTATGACG TCCGTAAGATGATCGCGAAA
4261 AGCGAACAGG AGATAGGCAA GGCTACAGCC AAATACTTCT TTTATTCTAACATTATGAAT
4321 TTCTTTAAGA CGGAAATCAC TCTGGCAAAC GGAGAGATAC GCAAACGACCTTTAATTGAA
4381 ACCAATGGGG AGACAGGTGA AATCGTATGG GATAAGGGCC GGGACTTCGCGACGGTGAGA
4441 AAAGTTTTGT CCATGCCCCA AGTCAACATA GTAAAGAAAA CTGAGGTGCAGACCGGAGGG
4501 TTTTCAAAGG AATCGATTCT TCCAAAAAGG AATAGTGATA AGCTCATCGCTCGTAAAAAG
4561 GACTGGGACC CGAAAAAGTA CGGTGGCTTC GATAGCCCTA CAGTTGCCTATTCTGTCCTA
4621 GTAGTGGCAA AAGTTGAGAA GGGAAAATCC AAGAAACTGA AGTCAGTCAAAGAATTATTG
4681 GGGATAACGA TTATGGAGCG CTCGTCTTTT GAAAAGAACC CCATCGACTTCCTTGAGGCG
4741 AAAGGTTACA AGGAAGTAAA AAAGGATCTC ATAATTAAAC TACCAAAGTATAGTCTGTTT
4801 GAGTTAGAAA ATGGCCGAAA ACGGATGTTG GCTAGCGCCG GAGAGCTTCAAAAGGGGAAC
4861 GAACTCGCAC TACCGTCTAA ATACGTGAAT TTCCTGTATT TAGCGTCCCATTACGAGAAG
4921 TTGAAAGGTT CACCTGAAGA TAACGAACAG AAGCAACTTT TTGTTGAGCAGCACAAACAT
4981 TATCTCGACG AAATCATAGA GCAAATTTCG GAATTCAGTA AGAGAGTCATCCTAGCTGAT
5041 GCCAATCTGG ACAAAGTATT AAGCGCATAC AACAAGCACA GGGATAAACCCATACGTGAG
5101 CAGGCGGAAA ATATTATCCA TTTGTTTACT CTTACCAACC TCGGCGCTCCAGCCGCATTC
5161 AAGTATTTTG ACACAACGAT AGATCGCAAA CGATACACTT CTACCAAGGAGGTGCTAGAC
5221 GCGACACTGA TTCACCAATC CATCACGGGA TTATATGAAA CTCGGATAGATTTGTCACAG
5281 CTTGGGGGTG ACTCTGGTGG TTCTGGAGGA TCTGGTGGTT CTACTAATCTGTCAGATATT
5341 ATTGAAAAGG AGACCGGTAA GCAACTGGTT ATCCAGGAAT CCATCCTCATGCTCCCAGAG
5401 GAGGTGGAAG AAGTCATTGG GAACAAGCCG GAAAGCGATA TACTCGTGCACACCGCCTAC
5461 GACGAGAGCA CCGACGAGAA TGTCATGCTT CTGACTAGCG ACGCCCCTGAATACAAGCCT
5521 TGGGCTCTGG TCATACAGGA TAGCAACGGT GAGAACAAGA TTAAGATGCTCTCTGGTGGT
5581 TCTGGAGGAT CTGGTGGTTC TACTAATCTG TCAGATATTA TTGAAAAGGAGACCGGTAAG
5641 CAACTGGTTA TCCAGGAATC CATCCTCATG CTCCCAGAGG AGGTGGAAGAAGTCATTGGG
5701 AACAAGCCGG AAAGCGATAT ACTCGTGCAC ACCGCCTACG ACGAGAGCACCGACGAGAAT
5761 GTCATGCTTC TGACTAGCGA CGCCCCTGAA TACAAGCCTT GGGCTCTGGTCATACAGGAT
5821 AGCAACGGTG AGAACAAGAT TAAGATGCTC TCTGGTGGTT CTCCCAAGAAGAAGAGGAAA
5881 GTCTAACCGG TCATCATCAC CATCACCATT GAGTTTAAAC CCGCTGATCAGCCTCGACTG
5941 TGCCTTCTAG TTGCCAGCCA TCTGTTGTTT GCCCCTCCCC CGTGCCTTCCTTGACCCTGG
6001 AAGGTGCCAC TCCCACTGTC CTTTCCTAAT AAAATGAGGA AATTGCATCGCATTGTCTGA
6061 GTAGGTGTCA TTCTATTCTG GGGGGTGGGG TGGGGCAGGA CAGCAAGGGGGAGGATTGGG
6121 AAGACAATAG CAGGCATGCT GGGGATGCGG TGGGCTCTAT GGCTTCTGAGGCGGAAAGAA
6181 CCAGCTGGGG CTCGATACCG TCGACCTCTA GCTAGAGCTT GGCGTAATCATGGTCATAGC
6241 TGTTTCCTGT GTGAAATTGT TATCCGCTCA CAATTCCACA CAACATACGAGCCGGAAGCA
6301 TAAAGTGTAA AGCCTAGGGT GCCTAATGAG TGAGCTAACT CACATTAATTGCGTTGCGCT
6361 CACTGCCCGC TTTCCAGTCG GGAAACCTGT CGTGCCAGCT GCATTAATGAATCGGCCAAC
6421 GCGCGGGGAG AGGCGGTTTG CGTATTGGGC GCTCTTCCGC TTCCTCGCTCACTGACTCGC
6481 TGCGCTCGGT CGTTCGGCTG CGGCGAGCGG TATCAGCTCA CTCAAAGGCGGTAATACGGT
6541 TATCCACAGA ATCAGGGGAT AACGCAGGAA AGAACATGTG AGCAAAAGGCCAGCAAAAGG
6601 CCAGGAACCG TAAAAAGGCC GCGTTGCTGG CGTTTTTCCA TAGGCTCCGCCCCCCTGACG
6661 AGCATCACAA AAATCGACGC TCAAGTCAGA GGTGGCGAAA CCCGACAGGACTATAAAGAT
6721 ACCAGGCGTT TCCCCCTGGA AGCTCCCTCG TGCGCTCTCC TGTTCCGACCCTGCCGCTTA
6781 CCGGATACCT GTCCGCCTTT CTCCCTTCGG GAAGCGTGGC GCTTTCTCATAGCTCACGCT
6841 GTAGGTATCT CAGTTCGGTG TAGGTCGTTC GCTCCAAGCT GGGCTGTGTGCACGAACCCC
6901 CCGTTCAGCC CGACCGCTGC GCCTTATCCG GTAACTATCG TCTTGAGTCCAACCCGGTAA
6961 GACACGACTT ATCGCCACTG GCAGCAGCCA CTGGTAACAG GATTAGCAGAGCGAGGTATG
7021 TAGGCGGTGC TACAGAGTTC TTGAAGTGGT GGCCTAACTA CGGCTACACTAGAAGAACAG
7081 TATTTGGTAT CTGCGCTCTG CTGAAGCCAG TTACCTTCGG AAAAAGAGTTGGTAGCTCTT
7141 GATCCGGCAA ACAAACCACC GCTGGTAGCG GTGGTTTTTT TGTTTGCAAGCAGCAGATTA
7201 CGCGCAGAAA AAAAGGATCT CAAGAAGATC CTTTGATCTT TTCTACGGGGTCTGACGCTC
7261 AGTGGAACGA AAACTCACGT TAAGGGATTT TGGTCATGAG ATTATCAAAAAGGATCTTCA
7321 CCTAGATCCT TTTAAATTAA AAATGAAGTT TTAAATCAAT CTAAAGTATATATGAGTAAA
7381 CTTGGTCTGA CAGTTACCAA TGCTTAATCA GTGAGGCACC TATCTCAGCGATCTGTCTAT
7441 TTCGTTCATC CATAGTTGCC TGACTCCCCG TCGTGTAGAT AACTACGATACGGGAGGGCT
7501 TACCATCTGG CCCCAGTGCT GCAATGATAC CGCGAGACCC ACGCTCACCGGCTCCAGATT
7561 TATCAGCAAT AAACCAGCCA GCCGGAAGGG CCGAGCGCAG AAGTGGTCCTGCAACTTTAT
7621 CCGCCTCCAT CCAGTCTATT AATTGTTGCC GGGAAGCTAG AGTAAGTAGTTCGCCAGTTA
7681 ATAGTTTGCG CAACGTTGTT GCCATTGCTA CAGGCATCGT GGTGTCACGCTCGTCGTTTG
7741 GTATGGCTTC ATTCAGCTCC GGTTCCCAAC GATCAAGGCG AGTTACATGATCCCCCATGT
7801 TGTGCAAAAA AGCGGTTAGC TCCTTCGGTC CTCCGATCGT TGTCAGAAGTAAGTTGGCCG
7861 CAGTGTTATC ACTCATGGTT ATGGCAGCAC TGCATAATTC TCTTACTGTCATGCCATCCG
7921 TAAGATGCTT TTCTGTGACT GGTGAGTACT CAACCAAGTC ATTCTGAGAATAGTGTATGC
7981 GGCGACCGAG TTGCTCTTGC CCGGCGTCAA TACGGGATAA TACCGCGCCACATAGCAGAA
8041 CTTTAAAAGT GCTCATCATT GGAAAACGTT CTTCGGGGCG AAAACTCTCAAGGATCTTAC
8101 CGCTGTTGAG ATCCAGTTCG ATGTAACCCA CTCGTGCACC CAACTGATCTTCAGCATCTT
8161 TTACTTTCAC CAGCGTTTCT GGGTGAGCAA AAACAGGAAG GCAAAATGCCGCAAAAAAGG
8221 GAATAAGGGC GACACGGAAA TGTTGAATAC TCATACTCTT CCTTTTTCAATATTATTGAA
8281 GCATTTATCA GGGTTATTGT CTCATGAGCG GATACATATT TGAATGTATTTAGAAAAATA
8341 AACAAATAGG GGTTCCGCGC ACATTTCCCC GAAAAGTGCC ACCTGACGTCGACGGATCGG
8401 GAGATCGATC TCCCGATCCC CTAGGGTCGA CTCTCAGTAC AATCTGCTCTGATGCCGCAT
8461 AGTTAAGCCA GTATCTGCTC CCTGCTTGTG TGTTGGAGGT CGCTGAGTAGTGCGCGAGCA
8521 AAATTTAAGC TACAACAAGG CAAGGCTTGA CCGACAATTG CATGAAGAATCTGCTTAGGG
8581 TTAGGCGTTT TGCGCTGCTT CGCGATGTAC GGGCCAGATA TACGCGTTGACATTGATTAT
8641 TGACTAGTTA TTAATAGTAA TCAATTACGG GGTCATTAGT TCATAGCCCATATATGGAGT
8701 TCCGCGTTAC ATAACTTACG GTAAATGGCC CGCCTGGCTG ACCGCCCAACGACCCCCGCC
8761 CATTGACGTC AATAATGACG TATGTTCCCA TAGTAACGCC AATAGGGACTTTCCATTGAC
8821 GTCAATGGGT GGAGTATTTA CGGTAAACTG CCCACTTGGC AGTACATCAA GTGTATC
在一些实施方案中,所述胞苷碱基编辑器是BE4,其具有选自以下之一的核酸序列:
原始BE4核酸序列:
ATGagctcagagactggcccagtggctgtggaccccacattgagacggcggatcgagccccatgagtttgaggtattcttcgatccgagagagctccgcaaggagacctgcctgctttacgaaattaattgggggggccggcactccatttggcgacatacatcacagaacactaacaagcacgtcgaagtcaacttcatcgagaagttcacgacagaaagatatttctgtccgaacacaaggtgcagcattacctggtttctcagctggagccgcgaatgtagtagggccatcactgaattcctgtcaaggtatccccacgtcactctgtttatttacatcgcaaggctgtaccaccacgctgacccccgcaatcgacaaggcctgcgggatttgatctcttcaggtgtgactatccaaattatgactgagcaggagtcaggatactgctggagaaactttgtgaattatagcccgagtaatgaagcccactggcctaggtatccccatctgtgggtacgactgtacgttcttgaactgtactgcatcatactgggcctgcctccttgtctcaacattctgagaaggaagcagccacagctgacattctttaccatcgctcttcagtcttgtcattaccagcgactgcccccacacattctctgggccaccgggttgaaatctggtggttcttctggtggttctagcggcagcgagactcccgggacctcagagtccgccacacccgaaagttctggtggttcttctggtggttctgataaaaagtattctattggtttagccatcggcactaattccgttggatgggctgtcataaccgatgaatacaaagtaccttcaaagaaatttaaggtgttggggaacacagaccgtcattcgattaaaaagaatcttatcggtgccctcctattcgatagtggcgaaacggcagaggcgactcgcctgaaacgaaccgctcggagaaggtatacacgtcgcaagaaccgaatatgttacttacaagaaatttttagcaatgagatggccaaagttgacgattctttctttcaccgtttggaagagtccttccttgtcgaagaggacaagaaacatgaacggcaccccatctttggaaacatagtagatgaggtggcatatcatgaaaagtacccaacgatttatcacctcagaaaaaagctagttgactcaactgataaagcggacctgaggttaatctacttggctcttgcccatatgataaagttccgtgggcactttctcattgagggtgatctaaatccggacaactcggatgtcgacaaactgttcatccagttagtacaaacctataatcagttgtttgaagagaaccctataaatgcaagtggcgtggatgcgaaggctattcttagcgcccgcctctctaaatcccgacggctagaaaacctgatcgcacaattacccggagagaagaaaaatgggttgttcggtaaccttatagcgctctcactaggcctgacaccaaattttaagtcgaacttcgacttagctgaagatgccaaattgcagcttagtaaggacacgtacgatgacgatctcgacaatctactggcacaaattggagatcagtatgcggacttatttttggctgccaaaaaccttagcgatgcaatcctcctatctgacatactgagagttaatactgagattaccaaggcgccgttatccgcttcaatgatcaaaaggtacgatgaacatcaccaagacttgacacttctcaaggccctagtccgtcagcaactgcctgagaaatataaggaaatattctttgatcagtcgaaaaacgggtacgcaggttatattgacggcggagcgagtcaagaggaattctacaagtttatcaaacccatattagagaagatggatgggacggaagagttgcttgtaaaactcaatcgcgaagatctactgcgaaagcagcggactttcgacaacggtagcattccacatcaaatccacttaggcgaattgcatgctatacttagaaggcaggaggatttttatccgttcctcaaagacaatcgtgaaaagattgagaaaatcctaacctttcgcataccttactatgtgggacccctggcccgagggaactctcggttcgcatggatgacaagaaagtccgaagaaacgattactccatggaattttgaggaagttgtcgataaaggtgcgtcagctcaatcgttcatcgagaggatgaccaactttgacaagaatttaccgaacgaaaaagtattgcctaagcacagtttactttacgagtatttcacagtgtacaatgaactcacgaaagttaagtatgtcactgagggcatgcgtaaacccgcctttctaagcggagaacagaagaaagcaatagtagatctgttattcaagaccaaccgcaaagtgacagttaagcaattgaaagaggactactttaagaaaattgaatgcttcgattctgtcgagatctccggggtagaagatcgatttaatgcgtcacttggtacgtatcatgacctcctaaagataattaaagataaggacttcctggataacgaagagaatgaagatatcttagaagatatagtgttgactcttaccctctttgaagatcgggaaatgattgaggaaagactaaaaacatacgctcacctgttcgacgataaggttatgaaacagttaaagaggcgtcgctatacgggctggggacgattgtcgcggaaacttatcaacgggataagagacaagcaaagtggtaaaactattctcgattttctaaagagcgacggcttcgccaataggaactttatgcagctgatccatgatgactctttaaccttcaaagaggatatacaaaaggcacaggtttccggacaaggggactcattgcacgaacatattgcgaatcttgctggttcgccagccatcaaaaagggcatactccagacagtcaaagtagtggatgagctagttaaggtcatgggacgtcacaaaccggaaaacattgtaatcgagatggcacgcgaaaatcaaacgactcagaaggggcaaaaaaacagtcgagagcggatgaagagaatagaagagggtattaaagaactgggcagccagatcttaaaggagcatcctgtggaaaatacccaattgcagaacgagaaactttacctctattacctacaaaatggaagggacatgtatgttgatcaggaactggacataaaccgtttatctgattacgacgtcgatcacattgtaccccaatcctttttgaaggacgattcaatcgacaataaagtgcttacacgctcggataagaaccgagggaaaagtgacaatgttccaagcgaggaagtcgtaaagaaaatgaagaactattggcggcagctcctaaatgcgaaactgataacgcaaagaaagttcgataacttaactaaagctgagaggggtggcttgtctgaacttgacaaggccggatttattaaacgtcagctcgtggaaacccgccaaatcacaaagcatgttgcacagatactagattcccgaatgaatacgaaatacgacgagaacgataagctgattcgggaagtcaaagtaatcactttaaagtcaaaattggtgtcggacttcagaaaggattttcaattctataaagttagggagataaataactaccaccatgcgcacgacgcttatcttaatgccgtcgtagggaccgcactcattaagaaatacccgaagctagaaagtgagtttgtgtatggtgattacaaagtttatgacgtccgtaagatgatcgcgaaaagcgaacaggagataggcaaggctacagccaaatacttcttttattctaacattatgaatttctttaagacggaaatcactctggcaaacggagagatacgcaaacgacctttaattgaaaccaatggggagacaggtgaaatcgtatgggataagggccgggacttcgcgacggtgagaaaagttttgtccatgccccaagtcaacatagtaaagaaaactgaggtgcagaccggagggttttcaaaggaatcgattcttccaaaaaggaatagtgataagctcatcgctcgtaaaaaggactgggacccgaaaaagtacggtggcttcgatagccctacagttgcctattctgtcctagtagtggcaaaagttgagaagggaaaatccaagaaactgaagtcagtcaaagaattattggggataacgattatggagcgctcgtcttttgaaaagaaccccatcgacttccttgaggcgaaaggttacaaggaagtaaaaaaggatctcataattaaactaccaaagtatagtctgtttgagttagaaaatggccgaaaacggatgttggctagcgccggagagcttcaaaaggggaacgaactcgcactaccgtctaaatacgtgaatttcctgtatttagcgtcccattacgagaagttgaaaggttcacctgaagataacgaacagaagcaactttttgttgagcagcacaaacattatctcgacgaaatcatagagcaaatttcggaattcagtaagagagtcatcctagctgatgccaatctggacaaagtattaagcgcatacaacaagcacagggataaacccatacgtgagcaggcggaaaatattatccatttgtttactcttaccaacctcggcgctccagccgcattcaagtattttgacacaacgatagatcgcaaacgatacacttctaccaaggaggtgctagacgcgacactgattcaccaatccatcacgggattatatgaaactcggatagatttgtcacagcttgggggtgactctggtggttctggaggatctggtggttctactaatctgtcagatattattgaaaaggagaccggtaagcaactggttatccaggaatccatcctcatgctcccagaggaggtggaagaagtcattgggaacaagccggaaagcgatatactcgtgcacaccgcctacgacgagagcaccgacgagaatgtcatgcttctgactagcgacgcccctgaatacaagccttgggctctggtcatacaggatagcaacggtgagaacaagattaagatgctctctggtggttctggaggatctggtggttctactaatctgtcagatattattgaaaaggagaccggtaagcaactggttatccaggaatccatcctcatgctcccagaggaggtggaagaagtcattgggaacaagccggaaagcgatatactcgtgcacaccgcctacgacgagagcaccgacgagaatgtcatgcttctgactagcgacgcccctgaatacaagccttgggctctggtcatacaggatagcaacggtgagaacaagattaagatgctctctggtggttctAAAAGGACGGCGGACGGATCAGAGTTCGAGAGTCCGAAAAAAAAACGAAAGGTCGAAtaa
BE4密码子优化1核酸序列:
ATGTCATCCGAAACCGGGCCAGTGGCCGTAGACCCAACACTCAGGAGGCGGATAGAACCCCATGAGTTTGAAGTGTTCTTCGACCCCAGAGAGCTGCGCAAAGAGACTTGCCTCCTGTATGAAATAAATTGGGGGGGTCGCCATTCAATTTGGAGGCACACTAGCCAGAATACTAACAAACACGTGGAGGTAAATTTTATCGAGAAGTTTACCACCGAAAGATACTTTTGCCCCAATACACGGTGTTCAATTACCTGGTTTCTGTCATGGAGTCCATGTGGAGAATGTAGTAGAGCGATAACTGAGTTCCTGTCTCGATATCCTCACGTCACGTTGTTTATATACATCGCTCGGCTTTATCACCATGCGGACCCGCGGAACAGGCAAGGTCTTCGGGACCTCATATCCTCTGGGGTGACCATCCAGATAATGACGGAGCAAGAGAGCGGATACTGCTGGCGAAACTTTGTTAACTACAGCCCAAGCAATGAGGCACACTGGCCTAGATATCCGCATCTCTGGGTTCGACTGTATGTCCTTGAACTGTACTGCATAATTCTGGGACTTCCGCCATGCTTGAACATTCTGCGGCGGAAACAACCACAGCTGACCTTTTTCACGATTGCTCTCCAAAGTTGTCACTACCAGCGATTGCCACCCCACATCTTGTGGGCTACTGGACTCAAGTCTGGAGGAAGTTCAGGCGGAAGCAGCGGGTCTGAAACGCCCGGAACCTCAGAGAGCGCAACGCCCGAAAGCTCTGGAGGGTCAAGTGGTGGTAGTGATAAGAAATACTCCATCGGCCTCGCCATCGGTACGAATTCTGTCGGTTGGGCCGTTATCACCGATGAGTACAAGGTCCCTTCTAAGAAATTCAAGGTTTTGGGCAATACAGACCGCCATTCTATAAAAAAAAACCTGATCGGCGCCCTTTTGTTTGACAGTGGTGAGACTGCTGAAGCGACTCGCCTGAAGCGAACTGCCAGGAGGCGGTATACGAGGCGAAAAAACCGAATTTGTTACCTCCAGGAGATTTTCTCAAATGAAATGGCCAAGGTAGATGATAGTTTTTTTCACCGCTTGGAAGAAAGTTTTCTCGTTGAGGAGGACAAAAAGCACGAGAGGCACCCAATCTTTGGCAACATAGTCGATGAGGTCGCATACCATGAGAAATATCCTACGATCTATCATCTCCGCAAGAAGCTGGTCGATAGCACGGATAAAGCTGACCTCCGGCTGATCTACCTTGCTCTTGCTCACATGATTAAATTCAGGGGCCATTTCCTGATAGAAGGAGACCTCAATCCCGACAATTCTGATGTCGACAAACTGTTTATTCAGCTCGTTCAGACCTATAATCAACTCTTTGAGGAGAACCCCATCAATGCTTCAGGGGTGGACGCAAAGGCCATTTTGTCCGCGCGCTTGAGTAAATCACGACGCCTCGAGAATTTGATAGCTCAACTGCCGGGTGAGAAGAAAAACGGGTTGTTTGGGAATCTCATAGCGTTGAGTTTGGGACTTACGCCAAACTTTAAGTCTAACTTTGATTTGGCCGAAGATGCCAAATTGCAGCTGTCCAAAGATACCTATGATGACGACTTGGATAACCTTCTTGCGCAGATTGGTGACCAATACGCGGATCTGTTTCTTGCCGCAAAAAATCTGTCCGACGCCATACTCTTGTCCGATATACTGCGCGTCAATACTGAGATAACTAAGGCTCCCCTCAGCGCGTCCATGATTAAAAGATACGATGAGCACCACCAAGATCTCACTCTGTTGAAAGCCCTGGTTCGCCAGCAGCTTCCAGAGAAGTATAAGGAGATATTTTTCGACCAATCTAAAAACGGCTATGCGGGTTACATTGACGGTGGCGCCTCTCAAGAAGAATTCTACAAGTTTATAAAGCCGATACTTGAGAAAATGGACGGTACAGAGGAATTGTTGGTTAAGCTCAATCGCGAGGACTTGTTGAGAAAGCAGCGCACATTTGACAATGGTAGTATTCCACACCAGATTCATCTGGGCGAGTTGCATGCCATTCTTAGAAGACAAGAAGATTTTTATCCGTTTCTGAAAGATAACAGAGAAAAGATTGAAAAGATACTTACCTTTCGCATACCGTATTATGTAGGTCCCCTGGCTAGAGGGAACAGTCGCTTCGCTTGGATGACTCGAAAATCAGAAGAAACAATAACCCCCTGGAATTTTGAAGAAGTGGTAGATAAAGGTGCGAGTGCCCAATCTTTTATTGAGCGGATGACAAATTTTGACAAGAATCTGCCTAACGAAAAGGTGCTTCCCAAGCATTCCCTTTTGTATGAATACTTTACAGTATATAATGAACTGACTAAAGTGAAGTACGTTACCGAGGGGATGCGAAAGCCAGCTTTTCTCAGTGGCGAGCAGAAAAAAGCAATAGTTGACCTGCTGTTCAAGACGAATAGGAAGGTTACCGTCAAACAGCTCAAAGAAGATTACTTTAAAAAGATCGAATGTTTTGATTCAGTTGAGATAAGCGGAGTAGAGGATAGATTTAACGCAAGTCTTGGAACTTATCATGACCTTTTGAAGATCATCAAGGATAAAGATTTTTTGGACAACGAGGAGAATGAAGATATCCTGGAAGATATAGTACTTACCTTGACGCTTTTTGAAGATCGAGAGATGATCGAGGAGCGACTTAAGACGTACGCACATCTCTTTGACGATAAGGTTATGAAACAATTGAAACGCCGGCGGTATACTGGCTGGGGCAGGCTTTCTCGAAAGCTGATTAATGGTATCCGCGATAAGCAGTCTGGAAAGACAATCCTTGACTTTCTGAAAAGTGATGGATTTGCAAATAGAAACTTTATGCAGCTTATACATGATGACTCTTTGACGTTCAAGGAAGACATCCAGAAGGCACAGGTATCCGGCCAAGGGGATAGCCTCCATGAACACATAGCCAACCTGGCCGGCTCACCAGCTATTAAAAAGGGAATATTGCAAACCGTTAAGGTTGTTGACGAACTCGTTAAGGTTATGGGCCGACACAAACCAGAGAATATCGTGATTGAGATGGCTAGGGAGAATCAGACCACTCAAAAAGGTCAGAAAAATTCTCGCGAAAGGATGAAGCGAATTGAAGAGGGAATCAAAGAACTTGGCTCTCAAATTTTGAAAGAGCACCCGGTAGAAAACACTCAGCTGCAGAATGAAAAGCTGTATCTGTATTATCTGCAGAATGGTCGAGATATGTACGTTGATCAGGAGCTGGATATCAATAGGCTCAGTGACTACGATGTCGACCACATCGTTCCTCAATCTTTCCTGAAAGATGACTCTATCGACAACAAAGTGTTGACGCGATCAGATAAGAACCGGGGAAAATCCGACAATGTACCCTCAGAAGAAGTTGTCAAGAAGATGAAAAACTATTGGAGACAATTGCTGAACGCCAAGCTCATAACACAACGCAAGTTCGATAACTTGACGAAAGCCGAAAGAGGTGGGTTGTCAGAATTGGACAAAGCTGGCTTTATTAAGCGCCAATTGGTGGAGACCCGGCAGATTACGAAACACGTAGCACAAATTTTGGATTCACGAATGAATACCAAATACGACGAAAACGACAAATTGATACGCGAGGTGAAAGTGATTACGCTTAAGAGTAAGTTGGTTTCCGATTTCAGGAAGGATTTTCAGTTTTACAAAGTAAGAGAAATAAACAACTACCACCACGCCCATGATGCTTACCTCAACGCGGTAGTTGGCACAGCTCTTATCAAAAAATATCCAAAGCTGGAAAGCGAGTTCGTTTACGGTGACTATAAAGTATACGACGTTCGGAAGATGATAGCCAAATCAGAGCAGGAAATTGGGAAGGCAACCGCAAAATACTTCTTCTATTCAAACATCATGAACTTCTTTAAGACGGAGATTACGCTCGCGAACGGCGAAATACGCAAGAGGCCCCTCATAGAGACTAACGGCGAAACCGGGGAGATCGTATGGGACAAAGGACGGGACTTTGCGACCGTTAGAAAAGTACTTTCAATGCCACAAGTGAATATTGTTAAAAAGACAGAAGTACAAACAGGGGGGTTCAGTAAGGAATCCATTTTGCCCAAGCGGAACAGTGATAAATTGATAGCAAGGAAAAAAGATTGGGACCCTAAGAAGTACGGTGGTTTCGACTCTCCTACCGTTGCATATTCAGTCCTTGTAGTTGCGAAAGTGGAAAAGGGGAAAAGTAAGAAGCTTAAGAGTGTTAAAGAGCTTCTGGGCATAACCATAATGGAACGGTCTAGCTTCGAGAAAAATCCAATTGACTTTCTCGAGGCTAAAGGTTACAAGGAGGTAAAAAAGGACCTGATAATTAAACTCCCAAAGTACAGTCTCTTCGAGTTGGAGAATGGGAGGAAGAGAATGTTGGCATCTGCAGGGGAGCTCCAAAAGGGGAACGAGCTGGCTCTGCCTTCAAAATACGTGAACTTTCTGTACCTGGCCAGCCACTACGAGAAACTCAAGGGTTCTCCTGAGGATAACGAGCAGAAACAGCTGTTTGTAGAGCAGCACAAGCATTACCTGGACGAGATAATTGAGCAAATTAGTGAGTTCTCAAAAAGAGTAATCCTTGCAGACGCGAATCTGGATAAAGTTCTTTCCGCCTATAATAAGCACCGGGACAAGCCTATACGAGAACAAGCCGAGAACATCATTCACCTCTTTACCCTTACTAATCTGGGCGCGCCGGCCGCCTTCAAATACTTCGACACCACGATAGACAGGAAAAGGTATACGAGTACCAAAGAAGTACTTGACGCCACTCTCATCCACCAGTCTATAACAGGGTTGTACGAAACGAGGATAGATTTGTCCCAGCTCGGCGGCGACTCAGGAGGGTCAGGCGGCTCCGGTGGATCAACGAATCTTTCCGACATAATCGAGAAAGAAACCGGCAAACAGTTGGTGATCCAAGAATCAATCCTGATGCTGCCTGAAGAAGTAGAAGAGGTGATTGGCAACAAACCTGAGTCTGACATTCTTGTCCACACCGCGTATGACGAGAGCACGGACGAGAACGTTATGCTTCTCACTAGCGACGCCCCTGAGTATAAACCATGGGCGCTGGTCATCCAAGATTCCAATGGGGAAAACAAGATTAAGATGCTTAGTGGTGGGTCTGGAGGGAGCGGTGGGTCCACGAACCTCAGCGACATTATTGAAAAAGAGACTGGTAAACAACTTGTAATACAAGAGTCTATTCTGATGTTGCCTGAAGAGGTGGAGGAGGTGATTGGGAACAAACCGGAGTCTGATATACTTGTTCATACCGCCTATGACGAATCTACTGATGAGAATGTGATGCTTTTaACGTCAGACGCTCCCGAGTACAAACCCTGGGCTCTGGTGATTCAGGACAGCAATGGTGAGAATAAGATTAAAATGTTGAGTGGGGGCTCAAAGCGCACGGCTGACGGTAGCGAATTTGAGAGCCCCAAAAAAAAACGAAAGGTCGAAtaa
BE4密码子优化2核酸序列:
ATGAGCAGCGAGACAGGCCCTGTGGCTGTGGATCCTACACTGCGGAGAAGAATCGAGCCCCACGAGTTCGAGGTGTTCTTCGACCCCAGAGAGCTGCGGAAAGAGACATGCCTGCTGTACGAGATCAACTGGGGCGGCAGACACTCTATCTGGCGGCACACAAGCCAGAACACCAACAAGCACGTGGAAGTGAACTTTATCGAGAAGTTTACGACCGAGCGGTACTTCTGCCCCAACACCAGATGCAGCATCACCTGGTTTCTGAGCTGGTCCCCTTGCGGCGAGTGCAGCAGAGCCATCACCGAGTTTCTGTCCAGATATCCCCACGTGACCCTGTTCATCTATATCGCCCGGCTGTACCACCACGCCGATCCTAGAAATAGACAGGGACTGCGCGACCTGATCAGCAGCGGAGTGACCATCCAGATCATGACCGAGCAAGAGAGCGGCTACTGCTGGCGGAACTTCGTGAACTACAGCCCCAGCAACGAAGCCCACTGGCCTAGATATCCTCACCTGTGGGTCCGACTGTACGTGCTGGAACTGTACTGCATCATCCTGGGCCTGCCTCCATGCCTGAACATCCTGAGAAGAAAGCAGCCTCAGCTGACCTTCTTCACAATCGCCCTGCAGAGCTGCCACTACCAGAGACTGCCTCCACACATCCTGTGGGCCACCGGACTTAAGAGCGGAGGATCTAGCGGCGGCTCTAGCGGATCTGAGACACCTGGCACAAGCGAGTCTGCCACACCTGAGAGTAGCGGCGGATCTTCTGGCGGCTCCGACAAGAAGTACTCTATCGGACTGGCCATCGGCACCAACTCTGTTGGATGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAATCTGATCGGCGCCCTGCTGTTCGACTCTGGCGAAACAGCCGAAGCCACCAGACTGAAGAGAACCGCCAGGCGGAGATACACCCGGCGGAAGAACCGGATCTGCTACCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGACAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGATGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGAGACTGATCTACCTGGCTCTGGCCCACATGATCAAGTTCCGGGGCCACTTTCTGATCGAGGGCGATCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCTCTGGCGTGGACGCCAAGGCTATCCTGTCTGCCAGACTGAGCAAGAGCAGAAGGCTGGAAAACCTGATCGCCCAGCTGCCTGGCGAGAAGAAGAATGGCCTGTTCGGCAACCTGATTGCCCTGAGCCTGGGACTGACCCCTAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAATCTGCTGGCCCAGATCGGCGATCAGTACGCCGACTTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGATATCCTGAGAGTGAACACCGAGATCACAAAGGCCCCTCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGATCTGACCCTGCTGAAGGCCCTCGTTAGACAGCAGCTGCCAGAGAAGTACAAAGAGATTTTCTTCGATCAGTCCAAGAACGGCTACGCCGGCTACATTGATGGCGGAGCCAGCCAAGAGGAATTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTGGTCAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAATGGCTCTATCCCTCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGAGACAAGAGGACTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCAGGATCCCCTACTACGTGGGACCACTGGCCAGAGGCAATAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACACCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCCAGCGCTCAGTCCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCTAACGAGAAGGTGCTGCCCAAGCACTCCCTGCTGTATGAGTACTTCACCGTGTACAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTTCTGAGCGGCGAGCAGAAAAAGGCCATTGTGGATCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACAGCGTGGAAATCAGCGGCGTGGAAGATCGGTTCAATGCCAGCCTGGGCACATACCACGACCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAACGAAGAGAACGAGGACATTCTCGAGGACATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACATACGCCCACCTGTTCGACGACAAAGTGATGAAGCAACTGAAGCGGAGGCGGTACACAGGCTGGGGCAGACTGTCTCGGAAGCTGATCAACGGCATCCGGGATAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAAGGCGATTCTCTGCACGAGCACATTGCCAACCTGGCCGGATCTCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTTGTGAAAGTGATGGGCAGACACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACACAGAAGGGCCAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGACGGGATATGTACGTGGACCAAGAGCTGGACATCAACCGGCTGAGCGACTACGATGTGGACCATATCGTGCCCCAGAGCTTTCTGAAGGACGACTCCATCGATAACAAGGTCCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGATAACGTGCCCTCCGAAGAGGTGGTCAAGAAGATGAAGAACTACTGGCGACAGCTGCTGAACGCCAAGCTGATTACCCAGCGGAAGTTCGATAACCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTTGATAAGGCCGGCTTCATTAAGCGGCAGCTGGTGGAAACCCGGCAGATCACCAAACACGTGGCACAGATTCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTCATCACCCTGAAGTCTAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTCTACAAAGTGCGGGAAATCAACAACTACCATCACGCCCACGACGCCTACCTGAATGCCGTTGTTGGAACAGCCCTGATCAAGAAGTATCCCAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAACAAGAGATCGGCAAGGCTACCGCCAAGTACTTTTTCTACAGCAACATCATGAACTTTTTCAAGACAGAGATCACCCTGGCCAACGGCGAGATCCGGAAAAGACCCCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCAGAGATTTTGCCACAGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAGAAAACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCTAAGCGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGATAGCCCTACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAAAAGCTCAAGAGCGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTTGAGAAGAACCCGATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTCAAGAAGGACCTCATCATCAAGCTCCCCAAGTACAGCCTGTTCGAGCTGGAAAATGGCCGGAAGCGGATGCTGGCCTCAGCAGGCGAACTGCAGAAAGGCAATGAACTGGCCCTGCCTAGCAAATACGTCAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCAGCCCCGAGGACAATGAGCAAAAGCAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAACCTGGATAAGGTGCTGTCTGCCTATAACAAGCACCGGGACAAGCCTATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAACCTGGGAGCCCCTGCCGCCTTCAAGTACTTCGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACACTGATCCACCAGTCTATCACCGGCCTGTACGAAACCCGGATCGACCTGTCTCAGCTCGGCGGCGATTCTGGTGGTTCTGGCGGAAGTGGCGGATCCACCAATCTGAGCGACATCATCGAAAAAGAGACAGGCAAGCAGCTCGTGATCCAAGAATCCATCCTGATGCTGCCTGAAGAGGTTGAGGAAGTGATCGGCAACAAGCCTGAGTCCGACATCCTGGTGCACACCGCCTACGATGAGAGCACCGATGAGAACGTCATGCTGCTGACAAGCGACGCCCCTGAGTACAAGCCTTGGGCTCTCGTGATTCAGGACAGCAATGGGGAGAACAAGATCAAGATGCTGAGCGGAGGTAGCGGAGGCAGTGGCGGAAGCACAAACCTGTCTGATATCATTGAAAAAGAAACCGGGAAGCAACTGGTCATTCAAGAGTCCATTCTCATGCTCCCGGAAGAAGTCGAGGAAGTCATTGGAAACAAACCCGAGAGCGATATTCTGGTCCACACAGCCTATGACGAGTCTACAGACGAAAACGTGATGCTCCTGACCTCTGACGCTCCCGAGTATAAGCCCTGGGCACTTGTTATCCAGGACTCTAACGGGGAAAACAAAATCAAAATGTTGTCCGGCGGCAGCAAGCGGACAGCCGATGGATCTGAGTTCGAGAGCCCCAAGAAGAAACGGAAGGTgGAGtaa
“碱基编辑活性”是指用于化学改变多核苷酸内的碱基。在一个实施方案中,第一碱基被转换为第二碱基。在一个实施方案中,所述碱基编辑活性是胞苷脱氨酶活性,例如,将靶C·G转化为T·A。在另一个实施方案中,所述碱基编辑活性是腺苷或腺嘌呤脱氨酶活性,例如将A·T转化为G·C。在另一个实施方案中,所述碱基编辑活性是胞苷脱氨酶活性,例如将靶C·G转化为T·A,和腺苷或腺嘌呤脱氨酶活性,例如将A·T转化为G·C。
术语“碱基编辑器系统”或“BE系统”是指用于编辑靶核苷酸序列的核碱基的系统。在各种实施方案中,所述碱基编辑器(BE)系统包括(1)用于使靶核苷酸序列中的核碱基脱氨的多核苷酸可编程核苷酸结合结构域、脱氨酶结构域和胞苷脱氨酶结构域;以及(2)一种或多种指导多核苷酸(例如,指导RNA)与多核苷酸可编程核苷酸结合结构域结合。在各种实施方案中,所述碱基编辑器(BE)系统包含两个或更多个选自腺苷脱氨酶和/或胞苷脱氨酶和DNA糖基化酶的核碱基编辑器结构域,以及具有核酸序列特异性结合活性的结构域。在一些实施方案中,所述碱基编辑器系统包括(1)碱基编辑器(BE),其包含多核苷酸可编程DNA结合结构域和一个或多个脱氨酶结构域,用于使靶核苷酸序列中的一个或多个核碱基脱氨基;以及(2)一种或多种指导RNA与多核苷酸可编程DNA结合结构域结合。在一些实施方案中,所述多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述碱基编辑器是胞苷碱基编辑器(CBE)。在一些实施方案中,所述碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)。在一些实施方案中,所述碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)和胞苷碱基编辑器(CBE),例如多效应碱基编辑器。
术语“Cas9”或“Cas9结构域”是指包含Cas9蛋白或其片段(例如,包含Cas9的活性、非活性或部分活性的DNA切割结构域和/或Cas9的gRNA结合域的蛋白质)。所述Cas9核酸酶有时也称为casnl核酸酶或CRISPR(聚类的规则间隔的短回文重复序列)相关的核酸酶。示例性的Cas9是化脓链球菌(Streptococcus pyogenes)Cas9(spCas9),其氨基酸序列如下:
Figure BDA0003005803140000321
Figure BDA0003005803140000331
Figure BDA0003005803140000332
(单下划线:HNH域;双下划线:RuvC域)
术语“保守氨基酸取代”或“保守突变”是指一个氨基酸被具有共同性质的另一氨基酸取代。定义单个氨基酸之间共有特性的一种功能方法是分析同源生物的相应蛋白质之间氨基酸变化的标准化频率(Schulz,GE和Schirmer,RH,蛋白质结构原理,Springer-Verlag,纽约(1979))。根据这样的分析,可以定义氨基酸组,其中组内的氨基酸优先彼此交换,因此在它们对整体蛋白质结构的影响上最相似(Schulz,GE.和Schirmer,R.H.,同上)。保守突变的非限制性实例包括氨基酸的氨基酸取代,例如赖氨酸取代精氨酸,反之亦然,使得可以保持正电荷;反之亦然。谷氨酸为天冬氨酸,反之亦然,从而可以保持负电荷;苏氨酸的丝氨酸,使游离的-OH得以维持;和谷氨酰胺用于天冬酰胺,从而可以维持游离的–NH2
本文可互换使用的术语“编码序列”或“蛋白质编码序列”是指编码蛋白质的多核苷酸的区段。所述区域或序列的起始密码子在5'末端附近,终止密码子在3'末端附近。编码序列也可以称为开放阅读框。
“胞苷脱氨酶”是指能够催化将氨基转化为羰基的脱氨反应的多肽或其片段。在一实施方案中,胞苷脱氨酶将胞嘧啶转化为尿嘧啶或将5-甲基胞嘧啶转化为胸腺嘧啶。衍生自海七鳃鳗(Petromyzon marinus cytosine deaminase 1)的PmCDA1或衍生自哺乳动物(例如人类、猪、牛、马、猴等)的AID(激活诱导的胞苷脱氨酶;AICDA),以及APOBEC是示例性的胞苷脱氨酶。
如本文所用,术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨反应的蛋白质或酶。在一些实施方案中,所述脱氨酶或脱氨酶结构域是胞苷脱氨酶,其分别催化胞苷或脱氧胞苷水解为尿苷或脱氧尿苷。在一些实施方案中,所述脱氨酶或脱氨酶结构域是胞嘧啶脱氨酶,其催化胞嘧啶水解脱氨为尿嘧啶。在一些实施方案中,所述脱氨酶是腺苷脱氨酶,其催化腺嘌呤水解为次黄嘌呤。在一些实施方案中,所述脱氨酶是腺苷脱氨酶,其催化腺苷或腺嘌呤(A)至肌苷(I)的水解脱氨。在一些实施方案中,所述脱氨酶或脱氨酶结构域是腺苷脱氨酶,其分别催化腺苷或脱氧腺苷水解为肌苷或脱氧肌苷。在一些实施方案中,所述腺苷脱氨酶催化脱氧核糖核酸(DNA)中腺苷的水解脱氨。本文提供的腺苷脱氨酶(例如,工程化腺苷脱氨酶,进化的腺苷脱氨酶)可以来自任何生物,例如细菌。在一些实施方案中,所述腺苷脱氨酶来自细菌,例如大肠杆菌、金黄色葡萄球菌、伤寒链球菌、腐烂链球菌、流感嗜血杆菌或新月形梭菌。在一些实施方案中,所述腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,所述脱氨酶或脱氨酶结构域是来自生物体例如人类、黑猩猩、大猩猩、猴子、牛、狗、大鼠或小鼠的天然存在的脱氨酶的变体。在一些实施方案中,所述脱氨酶或脱氨酶结构域不存在于自然中。例如,在一些实施方案中,所述脱氨酶或脱氨酶结构域为至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%或至少99.9%的相同性自然发生的脱氨酶。
“检测”是指识别要检测的分析物的存在、不存在或数量。在一个实施方案中,检测多核苷酸或多肽中的序列改变。在另一个实施方案中,检测到插入缺失的存在。
“可检测标记”是指一种组合物,当其与感兴趣的分子连接时,可以通过光谱、光化学、生物化学、免疫化学或化学手段使其检测。例如,有用的标记包括放射性同位素、磁珠、金属珠、胶体颗粒、荧光染料、电子致密试剂、酶(例如,通常在酶联免疫吸附测定(ELISA)中使用的酶)、生物素、洋地黄毒苷或半抗原
“疾病”是指损害或干扰细胞、组织或器官的正常功能的任何状况或病症。
“有效量”是指相对于未经治疗的患者或没有疾病的个体(即健康的),改善疾病的症状所需的试剂或活性化合物的量,例如本文所述的碱基编辑剂。试剂或活性化合物的量是否足以引起所需的生物学反应。用于实施本发明以治疗疾病的活性化合物的有效量取决于给药方式、年龄、体重和受试者的总体健康状况。最终,主治医师或兽医将决定适当的量和剂量方案。所述量称为“有效”量。在一个实施方案中,所述有效量是足以在细胞(例如体外或体内细胞)中引入目的基因改变的本发明的碱基编辑剂的量。在一个实施方案中,所述有效量是达到治疗效果所需的碱基编辑剂的量。这种治疗效果不必足以改变受试者组织或器官的所有细胞中的致病基因,而仅足以改变致病基因的约1%、5%、10%、25%、50%、75%或受试者组织或器官中存在更多的细胞。在一实施方案中,所述有效量足以缓解疾病的一种或多种症状。
在一些实施方案中,本文提供的融合蛋白的有效量,例如包含nCas9结构域和一个或多个脱氨酶结构域(例如,腺苷脱氨酶、胞苷脱氨酶)的多效应核碱基编辑器,是指足以诱导由本文所述的多效应核碱基编辑器特异性结合和编辑的靶位点的编辑。如本领域技术人员将理解的,试剂例如融合蛋白的有效量可以取决于各种因素而变化,例如取决于所需的生物学应答,例如特定的等位基因、基因组或靶标,要编辑的位点、在靶向的细胞或组织上和/或在使用的试剂上。
在一些实施方案中,本文提供的融合蛋白的有效量,例如包含nCas9结构域的融合蛋白的有效量,是指足以诱导对通过融合特异性结合和编辑的靶位点的编辑的融合蛋白的量。如本领域技术人员将理解的,试剂的有效量,例如融合蛋白、核酸酶、甲基化酶、杂合蛋白、蛋白二聚体、蛋白(或蛋白二聚体)和多核苷酸的复合物,所述多核苷酸或多核苷酸可以根据各种因素而变化,例如在要编辑的特定等位基因、基因组或靶位点上,在要靶向的细胞或组织上和/或在使用的试剂上。
“片段”是指多肽或核酸分子的一部分。所述部分包含参考核酸分子或多肽的全长的至少10%、20%、30%、40%、50%、60%、70%、80%或90%。片段可以包含10、20、30、40、50、60、70、80、90或100、200、300、400、500、600、700、800、900或1000个核苷酸或氨基酸。
“指导RNA”或“gRNA”是指对靶序列具有特异性并且可以与多核苷酸可编程核苷酸结合域蛋白(例如,Cas9或Cpf1)形成复合物的多核苷酸。在一个实施方案中,指导多核苷酸是指导RNA(gRNA)。gRNA可以以两个或多个RNA的复合体形式存在,也可以以单个RNA分子形式存在。尽管单个“gRNA”可互换使用,是指以单个分子或两个或多个分子的复合物形式存在的指导RNA,但以单个RNA分子形式存在的gRNA可以称为单指导RNA(sgRNA)。通常,以单个RNA种类存在的gRNA包含两个域:(1)与靶核酸具有同源性的域(例如,并指导Cas9复合物与靶标结合);(2)结合Cas9蛋白的结构域。在一些实施方案中,结构域(2)对应于称为tracrRNA的序列,并包含茎环结构。例如,在一些实施方案中,结构域(2)与Jinek等人,Science 337:816-821(2012)中提供的tracrRNA相同或同源,其全部内容通过引用并入本文。gRNA的其他实例(例如,包括结构域2的那些)可以在标题为“Switchable Cas9Nucleases and Uses”的美国第201620160208288号专利公开案和标题为“DeliverySystem For Functional Nucleases”的美国第9,737,604号专利中找到,每个文献的全部内容通过引用结合于此全文参考。在一些实施方案中,所述gRNA包含结构域(1)和(2)中的两个或更多个,并且可以被称为“延伸的gRNA”。如本文所述,所述延伸的gRNA将结合两个或更多个Cas9蛋白并且在两个或更多个不同的区域结合靶核酸。所述gRNA包含与靶位点互补的核苷酸序列,其介导核酸酶/RNA复合物与靶位点的结合,从而提供核酸酶:RNA复合物的序列特异性。
“杂交”是指互补核碱基之间的氢键,其可以是Watson-Crick、Hoogsteen或反向Hoogsteen氢键。例如,腺嘌呤和胸腺嘧啶是通过形成氢键而配对的互补核碱基。
“增加”是指至少10%、25%、50%、75%或100%的正变化。
术语“碱基修复的抑制剂”、“碱基修复抑制剂”、“IBR”或其语法等同物是指能够抑制核酸修复酶,例如碱基切除修复酶的活性的蛋白质。在一些实施方案中,所述IBR是肌苷碱基切除修复的抑制剂。碱基修复的示例性抑制剂包括APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGG1、hNEIL1、T7 Endol、T4PDG、UDG、hSMUG1和hAAG的抑制剂。在一些实施方案中,碱基修复抑制剂是Endo V或hAAG的抑制剂。在一些实施方案中,所述IBR是Endo V或hAAG的抑制剂。在一些实施方案中,所述IBR是催化失活的EndoV或催化失活的hAAG。在一些实施方案中,所述碱基修复抑制剂是催化失活的EndoV或催化失活的hAAG。在一些实施方案中,所述碱基修复抑制剂是尿嘧啶糖基化酶抑制剂(UGI)。UGI是指能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的蛋白质。在一些实施方案中,所述UGI结构域包含野生型UGI或野生型UGI的片段。在一些实施方案中,所述本文提供的UGI蛋白包括UGI的片段和与UGI或UGI片段同源的蛋白。在一些实施方案中,所述碱基修复抑制剂是肌苷碱基切除修复的抑制剂。在一些实施方案中,所述碱修复抑制剂是“催化失活的肌苷特异性核酸酶”或“死的肌苷特异性核酸酶”。不希望受任何特定理论的束缚,催化失活的肌苷糖基化酶(例如烷基腺嘌呤糖基化酶(AAG))可以结合肌苷,但不能产生无碱基位点或去除肌苷,从而在空间上阻止新形成的肌苷部分受到DNA损伤/修复机制。在一些实施方案中,催化失活的肌苷特异性核酸酶能够结合核酸中的肌苷,但不切割核酸。非限制性示例性的催化失活的肌苷特异性核酸酶包括例如来自人类的催化失活的烷基腺苷糖基化酶(AAG核酸酶)和例如来自大肠杆菌的催化失活的核酸内切酶V(EndoV核酸酶)。在一些实施方案中,催化失活的AAG核酸酶在另一个AAG核酸酶中包含E125Q突变或相应的突变。
“内含蛋白”是蛋白质的片段,其能够切除自身并以称为蛋白质剪接的过程将剩余的片段(外含肽)与肽键连接。内含子也称为“蛋白质内含子”。内含蛋白切除自身并连接蛋白质其余部分的过程在本文中称为“蛋白质剪接”或“内含蛋白介导的蛋白质剪接”。在一些实施方案中,前体蛋白的内含蛋白(在内含蛋白介导的蛋白剪接之前包含内含蛋白的蛋白)来自两个基因。这样的内含蛋白在本文中称为分裂内含蛋白(例如,分裂内含蛋白-N和分裂内含蛋白-C)。例如,在蓝细菌(Cyanobacteria),DnaE,DNA聚合酶III的催化亚基a,由两个单独的基因dnaE-n和dnaE-c编码。由dnaE-n基因编码的内含蛋白在本文中可以称为“内含蛋白-N”。由dnaE-c基因编码的内含蛋白在本文中可以称为“内含蛋白C”。
也可以使用其他内含蛋白系统。例如,已经描述了基于dnaE内含子、Cfa-N(例如,分裂内含蛋白-N)和Cfa-C(例如,分裂内含蛋白-C)内含蛋白对的合成内含蛋白(例如,在Stevens等人,J Am Chem Soc.2016Feb.24;138(7):2162-5,通过引用并入本文)。可以根据本发明使用的内含蛋白对的非限制性实例包括:Cfa DnaE内含蛋白、Ssp GyrB内含蛋白、Ssp DnaX内含蛋白、Ter DnaE3内含蛋白、Ter ThyX内含蛋白、Rma DnaB内含蛋白和CnePrp8内含蛋白(例如,在美国第8,394,604号专利中描述了这种方法,所述专利通过引用并入本文。
提供了内含蛋白的示例性核苷酸和氨基酸序列。
DnaE内含蛋白-N DNA:
TGCCTGTCATACGAAACCGAGATACTGACAGTAGAATATGGCCTTCTGCCAATCGGGAAGATTGTGGAGAAACGGATAGAATGCACAGTTTACTCTGTCGATAACAATGGTAACATTTATACTCAGCCAGTTGCCCAGTGGCACGACCGGGGAGAGCAGGAAGTATTCGAATACTGTCTGGAGGATGGAAGTCTCATTAGGGCCACTAAGGACCACAAATTTATGACAGTCGATGGCCAGATGCTGCCTATAGACGAAATCTTTGAGCGAGAGTTGGACCTCATGCGAGTTGACAACCTTCCTAAT
DnaE内含蛋白-N蛋白:
CLSYETEILTVEYGLLPIGKIVEKRIECTVYSVDNNGNIYTQPVAQW
HDR
GEQEVFEYCLEDGSLIRATKDHKFMTVDGQMLPIDEIFERELDLMRVDNL
PN
DnaE内含蛋白-C DNA:
ATGATCAAGATAGCTACAAGGAAGTATCTTGGCAAACAAAACGTTTA
TGA
TATTGGAGTCGAAAGAGATCACAACTTTGCTCTGAAGAACGGATTCATAG
CTTCTAAT
内含蛋白-C:MIKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN
Cfa-N DNA:
TGCCTGTCTTATGATACCGAGATACTTACCGTTGAATATGGCTTCTTGCCTATTGGAAAGATTGTCGAAGAGAGAATTGAATGCACAGTATATACTGTAGACAAGAATGGTTTCGTTTACACACAGCCCATTGCTCAATGGCACAATCGCGGCGAACAAGAAGTATTTGAGTACTGTCTCGAGGATGGAAGCATCATACGAGCAACTAAAGATCATAAATTCATGACCACTGACGGGCAGATGTTGCCAATAGATGAGATATTCGAGCGGGGCTTGGATCTCAAACAAGTGGATGGATTGCCA
Cfa-N蛋白:
CLSYDTEILTVEYGFLPIGKIVEERIECTVYTVDKNGFVYTQPIAQWHNRGEQEVFEYCLEDGSIIRATKDHKFMTTDGQMLPIDEIFERGLDLKQVDGLP
Cfa-C DNA:
ATGAAGAGGACTGCCGATGGATCAGAGTTTGAATCTCCCAAGAAGAAGAGGAAAGTAAAGATAATATCTCGAAAAAGTCTTGGTACCCAAAATGTCTATGATATTGGAGTGGAGAAAGATCACAACTTCCTTCTCAAGAACGGTCTCGTAGCCAGCAAC
Cfa-C蛋白:
MKRTADGSEFESPKKKRKVKIISRKSLGTQNVYDIGVEKDHNFLLKNGLVASN
内含蛋白-N和内含蛋白-C可以分别融合到分开的Cas9的N末端部分和分开的Cas9的C末端部分,以连接分开的Cas9的N末端部分和分开的Cas9的C末端部分。例如,在一些实施方案中,将内含蛋白-N融合至分开的Cas9的N末端部分的C末端,即,形成N-[Cas9的N末端部分]-[内含蛋白-N]-C的结构。在一些实施方案中,将内含蛋白-C融合至片段Cas9的C末端部分的N末端,即,形成N-[内含蛋白-C]-[Cas9的C末端部分]-C的结构。内含蛋白介导的蛋白质剪接连接内含蛋白所融合的蛋白质(例如,分开的Cas9)的机理在本领域是已知的,例如,如Shah等人,Chem Sci.Chem.Soc.Sci.2014;5(1):446-461,通过引用并入本文。设计和使用内含蛋白的方法在本领域中是已知的,并且例如由国际第WO2014004336号专利公开案、国际第WO2017132580号专利公开案、美国第US20150344549号专利公开案和美国US20180127780号专利公开案进行了描述,其通过引用整体并入本文。
术语“分离的”、“纯化的”或“生物学上纯净的”是指从其天然状态下通常与其伴随的组分不同程度地释放出来的材料。“隔离”表示与原始来源或环境的隔离度。“纯化”表示高于隔离的分离度。“纯化的”或“生物纯净的”蛋白质充分不含其他物质,以使任何杂质均不会实质性影响所述蛋白质的生物学特性或引起其他不利后果。即,如果本发明的核酸或肽在通过重组DNA技术生产时基本不含细胞材料、病毒材料或培养基,或者在化学合成时基本不含化学前体或其他化学品,则将其纯化。纯度和均质性通常使用分析化学技术确定,例如聚丙烯酰胺凝胶电泳或高效液相色谱法。术语“纯化的”可以表示核酸或蛋白质在电泳凝胶中基本上产生一个条带。对于可以进行修饰的蛋白质,例如磷酸化或糖基化,不同的修饰可以产生不同的分离的蛋白质,可以将其分别纯化。
“分离的多核苷酸”是指不含基因的核酸(例如DNA),所述基因在衍生本发明核酸分子的生物的天然存在的基因组中位于所述基因的侧翼。因此,所述术语包括,例如,掺入载体中的重组DNA;等等。进入自主复制的质粒或病毒;或进入原核生物或真核生物的基因组DNA;或以独立于其他序列的独立分子(例如,通过PCR或限制性核酸内切酶消化产生的cDNA或基因组或cDNA片段)形式存在。另外,所述术语包括从DNA分子转录的RNA分子,以及作为编码附加多肽序列的杂合基因的一部分的重组DNA。
“分离的多肽”是指已经与天然伴随的组分分离的本发明的多肽。通常,当多肽按重量计至少60%不含与之天然结合的蛋白质和天然存在的有机分子时,将其分离。在一些实施方案中,所述制剂是按重量计至少75%、至少90%或至少99%的本发明的多肽。本发明的分离的多肽可以例如通过从天然来源提取,通过表达编码这种多肽的重组核酸而获得。或通过化学合成蛋白质。可以通过任何合适的方法,例如柱色谱法、聚丙烯酰胺凝胶电泳或通过HPLC分析来测量纯度。
如本文所用,术语“连接子”可以指共价连接子(例如,共价键),非共价连接子,化学基团或连接两个分子或部分,例如蛋白质复合物的两个组分的分子,或核糖核酸复合物,或融合蛋白的两个结构域,例如多核苷酸可编程DNA结合结构域(例如,dCas9)和脱氨酶结构域(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)。连接子可以连接碱基编辑器系统的不同组件或组件的不同部分。例如,在一些实施方案中,连接子可以连接多核苷酸可编程核苷酸结合结构域的指导多核苷酸结合结构域和脱氨酶的催化结构域。在一些实施方案中,连接子可以连接CRISPR多肽和脱氨酶。在一些实施方案中,连接子可以连接Cas9和脱氨酶。在一些实施方案中,连接子可以连接dCas9和脱氨酶。在一些实施方案中,连接子可以连接nCas9和脱氨酶。在一些实施方案中,连接子可以连接指导多核苷酸和脱氨酶。在一些实施方案中,连接子可以连接碱基编辑器系统的脱氨基组分和多核苷酸可编程核苷酸结合组分。在一些实施方案中,连接子可以连接脱氨基成分的RNA结合部分和碱基编辑器系统的多核苷酸可编程核苷酸结合成分。在一些实施方案中,连接子可以连接无碱基组分的RNA结合部分和碱基编辑器系统的多核苷酸可编程核苷酸结合组分的RNA结合部分。连接子可位于两个基团、分子或其他部分之间或在其两侧,并通过共价键或非共价相互作用连接至每个,从而将两者连接。在一些实施方案中,连接子可以是有机分子,基团,聚合物或化学部分。在一些实施方案中,连接子可以是多核苷酸。在一些实施方案中,连接子可以是DNA连接子。在一些实施方案中,连接子可以是RNA连接子。在一些实施方案中,连接子可包含能够结合配体的适体。在一些实施方案中,配体可以是碳水化合物、肽、蛋白质或核酸。在一些实施方案中,连接子可包含可从核糖开关衍生的适体。衍生适体的核糖开关可选自茶碱核糖开关、硫胺焦磷酸(TPP)核糖开关、腺苷钴胺素(AdoCbl)核糖开关、S-腺苷甲硫氨酸(SAM)核糖开关、SAH核糖开关、黄素单核苷酸(FMN)核糖开关、四氢叶酸核糖开关、赖氨酸核糖开关、甘氨酸核糖开关、嘌呤核糖开关、GlmS核糖开关或pre-queosine1(PreQ1)核糖开关。在一些实施方案中,连接子可包含结合至多肽或蛋白质结构域例如多肽配体的适体。在一些实施方案中,多肽配体可以是K同源性(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白或RNA识别基序。在一些实施方案中,多肽配体可以是碱基编辑器系统组分的一部分。例如,核碱基编辑组分可包含脱氨酶结构域和RNA识别基序。
在一些实施方案中,连接子可以是氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子的长度可以是约5至100个氨基酸的长度,例如约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20至30、30至40、40至50、50至60、60至70、70至80、80至90或90至100个氨基酸的长度。在一些实施方案中,连接子的长度可以是约100至150、150至200、200至250、250至300、300至350、350至400、400至450或450至500个氨基酸的长度。也可以考虑更长或更短的连接子。
在一些实施方案中,连接子连接RNA可编程核酸酶的gRNA结合结构域,包括Cas9核酸酶结构域和核酸编辑蛋白的催化结构域(例如胞苷或腺苷脱氨酶)。在一些实施方案中,连接子连接dCas9和核酸编辑蛋白。例如,连接子位于两个基团,分子或其他部分之间或在两个基团、分子或其他部分的侧面,并通过共价键连接至每个,从而将两者连接。在一些实施方案中,连接子是氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子是有机分子、基团、聚合物或化学部分。在一些实施方案中,连接子的长度为5至200个氨基酸,例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、35、45、50、55、60、60、65、70、70、75、80、85、90、90、95、100、101、102、103、104、105、110、120、130、140、150、160、175、180、190或200个氨基酸的长度。
在一些实施方案中,碱基编辑器的结构域通过包含以下氨基酸序列的连接子进行融合:SGGSSGSETPGTSESATPESSGGS、SGGSSGGSSGSETPGTSESATPESSGGSSGGS或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS。在一些实施方案中,所述碱基编辑者的结构域通过包含氨基酸序列SGSETPGTSESATPES的连接子进行融合,所述连接子也被称为XTEN连接子。在一些实施方案中,所述连接子的长度为24个氨基酸。在一些实施方案中,所述连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPES。在一些实施方案中,所述连接子的长度为40个氨基酸。在一些实施方案中,所述连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS。在一些实施方案中,所述连接子的长度为64个氨基酸。在一些实施方案中,所述连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGSSGGS。在一些实施方案中,所述连接子的长度为92个氨基酸。在一些实施方案中,所述连接子包含氨基酸序列PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS。
“标记”是指具有与疾病或病症相关的表达水平或活性改变的任何蛋白质或多核苷酸。
如本文所用,术语“突变”是指序列例如核酸或氨基酸序列中的残基被另一残基取代,或序列中一个或多个残基的缺失或插入。突变通常在本文中通过鉴定原始残基,随后在序列中残基的位置以及通过新取代的残基的身份来描述。本文提供的各种用于进行氨基酸取代(突变)的方法是本领域众所周知的,并且例如由Green和Sambrook,MolecularCloning:A Laboratory Manual(4th ed.,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,纽约(2012))。在一些实施方案中,当前公开的碱基编辑器可以在核酸(例如,受试者的基因组内的核酸)中有效地产生“预期突变”,例如点突变,而不会产生大量的意外突变,例如意外的点突变。在一些实施方案中,预期的突变是由与专门设计用于产生预期的突变的指导多核苷酸(例如,gRNA)结合的特定碱基编辑器(例如,胞苷碱基编辑器或腺苷碱基编辑器)产生的突变。
通常,相对于参考(或野生型)序列,即不包含突变的序列、对序列(例如,本文所述的氨基酸序列)中产生或鉴定的突变进行编号。本领域技术人员将容易理解如何确定氨基酸和核酸序列中的突变相对于参考序列的位置。
术语“非保守突变”涉及不同基团之间的氨基酸取代,例如赖氨酸代表色氨酸或苯丙氨酸代表丝氨酸等。在这种情况下,非保守氨基酸取代最好不干扰,或抑制功能变体的生物活性。非保守氨基酸取代可增强功能变体的生物学活性,从而与野生型蛋白质相比,功能变体的生物学活性增加。
术语“核定位序列”、“核定位信号”或“NLS”是指促进蛋白质导入细胞核的氨基酸序列。核定位序列是本领域已知的,并且例如描述于Plank等人在2000年11月23日提交的国际第PCT/EP2000/011690号专利申请案,且于2001年5月31日公开,国际第WO/2001/038547号专利公开案,其内容通过示例性核定位序列的公开内容并入本文作为参考。在其他实施方案中,NLS是经优化的NLS,例如由Koblan等人,Nature Biotech.2018doi:10.1038/nbt.4172中描述者。可用于本发明方法示于图8A至8F(Koblan等人,同上)的优化序列。在一些实施方案中,NLS包含氨基酸序列KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRK、PKKKRKV或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。
本文可互换使用的术语“核碱基”、“氮碱基”或“碱基”是指形成核苷的含氮生物化合物,所述核苷又是核苷酸的组分。核碱基形成碱基对并彼此堆叠的能力直接导致长链螺旋结构,例如核糖核酸(RNA)和脱氧核糖核酸(DNA)。五个核碱基-腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)–被称为原代或标准。腺嘌呤和鸟嘌呤衍生自嘌呤、胞嘧啶、尿嘧啶和胸腺嘧啶衍生自嘧啶。DNA和RNA也可以包含其他修饰的(非主要)碱基。非限制性示例性修饰核碱基可包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶(m5C)和5-氢甲基胞嘧啶。次黄嘌呤和黄嘌呤可以通过诱变剂的存在而产生,它们都通过脱氨基作用(用羰基取代胺基)。次黄嘌呤可以由腺嘌呤修饰。黄嘌呤可以由鸟嘌呤修饰。尿嘧啶可以由胞嘧啶脱氨基产生。“核苷”由核碱基和五碳糖(核糖或脱氧核糖)组成。核苷的实例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷和脱氧胞苷。具有修饰的核碱基的核苷的实例包括肌苷(I)、黄嘌呤(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)和假尿苷(Ψ)。“核苷酸”由核碱基、五碳糖(核糖或脱氧核糖)和至少一个磷酸基团组成。
如本文所用,术语“核酸”和“核酸分子”是指包含核碱基和酸性部分(例如,核苷,核苷酸或核苷酸的聚合物)的化合物。通常,聚合核酸,例如包含三个或更多个核苷酸的核酸分子是线性分子,其中相邻的核苷酸通过磷酸二酯键彼此连接。在一些实施方案中,“核酸”是指单个核酸残基(例如,核苷酸和/或核苷)。在一些实施方案中,“核酸”是指包含三个或更多个个体核苷酸残基的寡核苷酸链。如本文所用,术语“寡核苷酸”、“多核苷酸”和“多核酸”可以互换使用,以指代核苷酸的聚合物(例如,至少三个核苷酸的串)。在一些实施方案中,“核酸”涵盖RNA以及单链和/或双链DNA。核酸可以是天然存在的,例如在基因组、转录本、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体或其他天然存在的核酸分子的背景下。另一方面,核酸分子可以是非天然存在的分子,例如重组DNA或RNA、人工染色体、工程基因组或其片段,或合成DNA、RNA、DNA/RNA杂种,或包括非天然存在的核苷酸或核苷。此外,术语“核酸”、“DNA”、“RNA”和/或类似术语包括核酸类似物,例如具有除磷酸二酯主链以外的类似物。核酸可以从天然来源中纯化,使用重组表达系统产生,并任选地纯化、化学合成等。在适当的情况下,例如在化学合成分子的情况下,核酸可以包含核苷类似物,例如具有化学修饰的碱基或糖和骨架修饰。除非另有说明,否则核酸序列以5'至3'方向显示。在一些实施方案中,核酸是或包含天然核苷(例如,腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷);或核苷类似物(例如2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基尿苷、C5-丙炔基胞苷、C5-甲基胞嘧啶、2-氨基腺苷、7-脱氮杂腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O6-甲基鸟嘌呤和2-硫代胞苷);化学修饰的碱;生物修饰的碱(例如甲基化的碱);插层基;修饰的糖(例如2'-氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖);和/或修饰的磷酸基团(例如,硫代磷酸酯和5'-N-亚磷酰胺键)。
术语“核酸可编程DNA结合蛋白”或“napDNAbp”可以与“多核苷酸可编程核苷酸结合域”互换使用,以指代与核酸(例如,DNA或RNA)缔合的蛋白质,例如指导核酸。可以将napDNAbp引导至特定核酸序列的核酸或指导多核苷酸(例如gRNA)。在一些实施方案中,所述多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述多核苷酸可编程核苷酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中,所述多核苷酸可编程核苷酸结合结构域是Cas9蛋白。Cas9蛋白可以与指导RNA结合,后者将Cas9蛋白引导至与指导RNA互补的特定DNA序列。在一些实施方案中,napDNAbp是Cas9结构域,例如核酸酶活性Cas9,Cas9切口酶(nCas9)或核酸酶非活性Cas9(dCas9)。核酸可编程DNA结合蛋白的非限制性实例包括Cas9(例如dCas9和nCas9)、Cas12a/Cpf1、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx、Csx14Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、II型Cas效应蛋白、V型Cas效应蛋白、VI型Cas效应子蛋白、CARF、DinG、其同源物或其修饰或工程化形式。其他核酸可编程的DNA结合蛋白也在本发明的范围内,尽管它们可能未在本发明中具体列出。参见,例如,Makarova等人,“Classification andNomenclature of CRISPR-Cas Systems:Where from Here?”CRISPR J.2018Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等人,“Functionally diverse type V CRISPR-Cas systems”Science.2019Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,每个文献的全部内容通过引用并入本文。
如本文所用,术语“核碱基编辑域”或“核碱基编辑蛋白”是指可以催化RNA或DNA中的核碱基修饰的蛋白质或酶,例如胞嘧啶(或胞苷)变为尿嘧啶(或尿苷)或胸腺嘧啶核苷(或胸苷)和腺嘌呤(或腺苷)进行次黄嘌呤(或肌苷)脱氨基,以及非模板化核苷酸添加和插入。在一些实施方案中,所述核碱基编辑结构域是脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶;或胞苷脱氨酶或胞嘧啶脱氨酶)。在一些实施方案中,所述核碱基编辑结构域是一个以上的脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶和胞苷或胞嘧啶脱氨酶)。在一些实施方案中,所述核碱基编辑结构域可以是天然存在的核碱基编辑结构域。在一些实施方案中,所述核碱基编辑结构域可以是来自天然存在的核碱基编辑结构域的经工程改造或进化的核碱基编辑结构域。核碱基编辑域可以来自任何生物,例如细菌、人类、黑猩猩、大猩猩、猴子、牛、狗、大鼠或小鼠。
如本文所用,如“获得试剂”中的“获得”包括合成,购买或以其他方式获得试剂。
如本文所用,“患者”或“受试者”是指被诊断患有,具有患上或发展中,或怀疑患有或发展成疾病或病症的哺乳动物受试者或个体。在一些实施方案中,术语“患者”是指患有疾病或病症的可能性高于平均可能性的哺乳动物受试者。示例性患者可以是人类、非人类灵长类动物、猫、狗、猪、牛、猫、马、骆驼、美洲驼、山羊、绵羊、啮齿动物(例如小鼠、兔子、大鼠或豚鼠)以及其他可以受益于本文公开的疗法。示例性的人类患者可以是男性和/或女性。
“有需要的患者”或“有需要的受试者”在本文中是指被诊断患有,处于危险中或具有,预定患有或怀疑患有疾病或病症的患者。
术语“致病性突变”、“致病性变异”、“疾病外壳变异”、“引起疾病的变异”、“有害突变”或“易感性突变”是指遗传变异或突变,可增加个体的易感性或易感性。某些疾病或失调。在一些实施方案中,所述致病性突变包含由基因编码的蛋白质中的至少一种致病性氨基酸取代的至少一种野生型氨基酸。
术语“蛋白质”、“肽”、“多肽”及其语法等同物在本文中可互换使用,是指通过肽(酰胺)键连接在一起的氨基酸残基的聚合物。所述术语是指任何大小、结构或功能的蛋白质、肽或多肽。通常,蛋白质、肽或多肽的长度至少为三个氨基酸。蛋白质、肽或多肽可以指单个蛋白质或蛋白质集合。蛋白质、肽或多肽中的一个或多个氨基酸可以被修饰,例如,通过添加化学实体,例如碳水化合物基团、羟基、磷酸基团、法尼基基团、异法尼基基团、氨基酸、脂肪酸基团,用于缀合、官能化或其他修饰的连接体等。蛋白质、肽或多肽也可以是单分子或可以是多分子复合物。蛋白质、肽或多肽可以只是天然存在的蛋白质或肽的片段。蛋白质、肽或多肽可以是天然存在的、重组的或合成的,或其任何组合。如本文所用,术语“融合蛋白”是指包含来自至少两种不同蛋白的蛋白结构域的杂合多肽。一种蛋白质可以位于融合蛋白的氨基末端(N-末端)部分或羧基末端(C-末端)蛋白质上,从而分别形成氨基末端融合蛋白或羧基末端融合蛋白。蛋白质可以包含不同的结构域,例如核酸结合结构域(例如,指导蛋白质与靶位点结合的Cas9的gRNA结合结构域)和核酸切割结构域或核酸的催化结构域酸编辑蛋白。在一些实施方案中,蛋白质包含例如构成核酸结合结构域的氨基酸序列的蛋白质部分例如可以充当核酸裂解剂的化合物的有机化合物。在一些实施方案中,蛋白质与核酸例如RNA或DNA复合或缔合。本文提供的任何蛋白质可以通过本领域已知的任何方法产生。例如,本文提供的蛋白可以通过重组蛋白表达和纯化产生,其特别适合于包含肽连接子的融合蛋白。重组蛋白表达和纯化的方法是众所周知的,包括Green和Sambrook在《分子克隆:实验室手册》(第4版,Cold Spring Harbor Laboratory Press,Cold SpringHarbor,纽约(2012))中描述的方法,全部内容其中的内容通过引用并入本文。
本文公开的多肽和蛋白质(包括其功能部分和功能变体)可包含合成氨基酸代替一种或多种天然存在的氨基酸。这样的合成氨基酸是本领域已知的,并且包括例如氨基环己烷羧酸、正亮氨酸、α-氨基正癸酸、高丝氨酸、S-乙酰氨基甲基-半胱氨酸、反式3-和反式4-羟基脯氨酸、4-氨基苯丙氨酸、4-硝基苯丙氨酸、4-氯苯丙氨酸、4-羧基苯丙氨酸、β-苯基丝氨酸β-羟基苯丙氨酸、苯基甘氨酸、α-萘丙氨酸、环己基丙氨酸、环己基甘氨酸、二氢吲哚-2-羧酸、1,2,3,4-四氢异喹啉-3-羧酸、氨基丙二酸、氨基丙二酸单酰胺、N'-苄基-N'-甲基赖氨酸、N'、N'-二苄基赖氨酸、6-羟基赖氨酸、鸟氨酸、α-氨基环戊烷羧酸、α-氨基环己烷羧酸、α-氨基环庚烷羧酸、α-(2-氨基-2-降冰片烷)-羧酸、α,γ-二氨基丁酸、α,β-二氨基丙酸、高苯丙氨酸和α-叔丁基甘氨酸。多肽和蛋白质可以与多肽构建体的一个或多个氨基酸的翻译后修饰相关。翻译后修饰的非限制性实例包括磷酸化、酰化(包括乙酰化和甲酰化)、糖基化(包括N-连接和O-连接)、酰胺化、羟基化、烷基化,包括甲基化和乙基化、泛素化,吡咯烷酮羧酸的添加,二硫键、硫酸化、肉豆蔻酰化、棕榈酰化、异戊二烯化、法尼基化、香叶酰化、糖化、脂酰化和碘化。
如本文在蛋白质或核酸的上下文中使用的,术语“重组”是指自然界中不存在而是人类工程产物的蛋白质或核酸。例如,在一些实施方案中,重组蛋白或核酸分子包含氨基酸或核苷酸序列,所述氨基酸或核苷酸序列与任何自然发生的序列相比,包含至少一个、至少两个、至少三个、至少四个、至少五个、至少六个或至少七个突变。
“减少”是指至少10%、25%、50%、75%或100%的负变化。
“参考”是指标准或对照条件。在一个实施方案中,参照是野生型或健康细胞。在其他实施方案中,但不限于,参比是未经处理的细胞,其未经受测试条件,或经受了不含目的多核苷酸的安慰剂或生理盐水、培养基、缓冲液和/或对照载体。
“参考序列”是用作序列比较基础的已定义序列。参考序列可以是指定序列的子集或全部。例如,全长cDNA或基因序列的片段,或完整的cDNA或基因序列。对于多肽,参考多肽序列的长度通常为至少约16个氨基酸、至少约20个氨基酸、至少约25个氨基酸、约35个氨基酸、约50个氨基酸或约100个氨基酸。对于核酸,参考核酸序列的长度通常将是至少约50个核苷酸、至少约60个核苷酸、至少约75个核苷酸、约100个核苷酸或约300个核苷酸或在其附近或之间的任何整数。在一些实施方案中,参考序列是目的蛋白质的野生型序列。在其他实施方案中,参考序列是编码野生型蛋白的多核苷酸序列。
术语“RNA可编程核酸酶”和“RNA指导的核酸酶”与不是切割靶标的一种或多种RNA一起使用(例如,结合或缔合)。在一些实施方案中,当RNA可编程的核酸酶与RNA复合时,可被称为核酸酶:RNA复合物。通常,结合的RNA被称为指导RNA(gRNA)。在一些实施方案中,RNA可编程核酸酶是(CRISPR相关系统)Cas9核酸内切酶,例如来自化脓链球菌的Cas9(Csnl)(参见,例如,“Complete genome sequence of an Ml strain of Streptococcuspyogenes.”Ferretti J.J.、McShan W.M.、Ajdic D.J.、Savic D.J.、Savic G.、Lyon K.、Primeaux C、Sezate S.、Suvorov A.N.、Kenton S.、Lai H.S.、Lin S.P.、Qian Y.、JiaH.G.、Najar F.Z.、Ren Q.、Zhu H.、Song L.、White J.、Yuan X.、Clifton S.W.、Roe B.A.、McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNAmaturation by trans-encoded small RNA and host factor RNase III.”DeltchevaE.、Chylinski K.、Sharma CM.、Gonzales K.、Chao Y.、Pirzada Z.A.、Eckert M.R.、VogelJ.、Charpentier E.,Nature 471:602-607(2011)。
术语“单核苷酸多态性(SNP)”是发生在基因组中特定位置的单个核苷酸中的变异,其中每个变异在种群中以一定程度存在(例如,>1%)。例如,在人类基因组的特定碱基位置,C核苷酸可以出现在大多数个体中,但在少数个体中,所述位置被A占据。这意味着在所述特定位置存在一个SNP,并且这两个可能的核苷酸变异C或A被认为是所述位置的等位基因。SNP是疾病易感性的基础。疾病的严重程度以及人体对治疗的反应方式也是遗传变异的表现。SNP可以落入基因的编码区域,基因的非编码区域或基因间区域(基因之间的区域)内。在一些实施方案中,由于遗传密码的简并性,编码序列内的SNP不一定改变所产生的蛋白质的氨基酸序列。编码区中的SNP有两种类型:同义和非同义SNP。同义SNP不会影响蛋白质序列,而非同义SNP会改变蛋白质的氨基酸序列。非同义SNP有两种类型:错义和无义。不在蛋白质编码区的SNP仍会影响基因剪接、转录因子结合、信使RNA降解或非编码RNA的序列。受这种SNP类型影响的基因表达称为eSNP(表达SNP),可以在基因的上游或下游。单核苷酸变异体(SNV)是单个核苷酸的变异体,没有频率限制,可以在体细胞中产生。体细胞单核苷酸变异也可以称为单核苷酸改变。
“特异性结合”是指识别并结合多肽的多肽和/或核酸分子的核酸分子、多肽或其复合物(例如,核酸可编程的DNA结合蛋白和指导核酸)、化合物或分子,且所述分子识别并结合本发明的多肽和/或核酸分子,但基本上不识别并结合样品,例如生物样品中的其他分子。
可用于本发明方法的核酸分子包括编码本发明多肽或其片段的任何核酸分子。这样的核酸分子不必与内源核酸序列100%相同,但是通常将显示出实质同一性。与内源序列具有“实质同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。可用于本发明方法的核酸分子包括编码本发明多肽或其片段的任何核酸分子。这样的核酸分子不必与内源核酸序列100%相同,但是通常将显示出实质同一性。与内源序列具有“基本同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。“杂交”是指在各种严格条件下在互补多核苷酸序列(例如,本文描述的基因)或其部分之间形成双链分子的对。(参见例如Wahl,G.M.和S.L.Berger(1987)Methods Enzymol.152:399;Kimmel,(1987)MethodsEnzymol.152:507)。
例如,严格的盐浓度通常将小于约750mM的NaCl和75mM的柠檬酸三钠,优选小于约500mM的NaCl和50mM的柠檬酸三钠,更优选小于约250mM的NaCl和25mM的柠檬酸三钠。在不存在有机溶剂例如甲酰胺的情况下可以获得低严格杂交,而在至少约35%的甲酰胺,更优选至少约50%的甲酰胺存在下可以得到高严格杂交。严格的温度条件通常将包括至少约30℃,更优选至少约37℃,最优选至少约42℃的温度。改变其他参数,例如杂交时间,去污剂的浓度,例如,十二烷基硫酸钠(SDS)以及包含或排除载体DNA是本领域技术人员众所周知的。通过根据需要组合这些各种条件来实现各种严格程度。在一个优选的实施方案中,杂交将在30℃在750mM NaCl、75mM柠檬酸三钠和1%SDS中发生。在一个更优选的实施方案中,杂交将在37℃下在500mM的NaCl、50mM的柠檬酸三钠、1%S的DS、35%的甲酰胺和100μg/ml的变性鲑鱼精DNA中进行。在最优选的实施方案中,杂交将在42℃在250mM NaCl、25mM柠檬酸三钠、1%SDS、50%甲酰胺和200μg/ml的ssDNA中发生。在这些条件下有用的变化对于本领域技术人员将是显而易见的。
对于大多数应用,杂交后的洗涤步骤的严格性也会有所不同。洗涤严格条件可以通过盐浓度和温度来定义。如上所述,可以通过降低盐浓度或通过提高温度来提高洗涤严格性。例如,洗涤步骤的严格盐浓度将优选小于约30mM的NaCl和3mM的柠檬酸三钠、最优选小于约15mM的NaCl和1.5mM的柠檬酸三钠。洗涤步骤的严格温度条件通常将包括至少约25℃,更优选至少约42℃,甚至更优选至少约68℃的温度。在一个实施方案中,将发生洗涤步骤。在25℃下于30mM的NaCl,3mM的柠檬酸三钠和0.1%的SDS中溶解。在另一个实施方案中,洗涤步骤将在42℃下在15mM NaCl,1.5mM柠檬酸三钠和0.1%SDS中进行。在更优选的实施方案中,洗涤步骤将在68℃下在15mM的NaCl,1.5mM的柠檬酸三钠和0.1%的SDS中进行。这些条件的其他变化对于本领域技术人员将是显而易见的。杂交技术是本领域技术人员众所周知的,并且描述于例如Benton和Davis(Science 196:180,1977);Grunstein和Hogness(Proc.Natl.Acad.Sci.,USA 72:3961,1975);Ausubel等人,(Current Protocols inMolecular Biology,Wiley Interscience,New York,2001);Berger和Kimmel(Guide toMolecular Cloning Techniques,1987,Academic Press,New York);和Sambrook等人,Molecular Cloning:A Laboratory Manual,Cold Spring Harbor Laboratory Press,纽约。
“分裂”是指分为两个或更多个片段。
“分裂的Cas9蛋白”或“分裂的Cas9”是指Cas9蛋白,其被提供为由两个单独的核苷酸序列编码的N末端片段和C末端片段。可以剪接与Cas9蛋白的N末端部分和C末端部分相对应的多肽,以形成“重构的”Cas9蛋白。在特定实施方案中,所述Cas9蛋白在所述蛋白的无序区域内被分成两个片段,例如,如Nishimasu等人,Cell,Volume 156,Issue 5,pp.935-949,2014中所述,或如Jiang等人,(2016)Science 351:867-871.PDB file:5F9R中所述,每个文件均通过引用并入本文。在一些实施方案中,所述蛋白质在SpCas9的区域内在约氨基酸A292-G364、F445-K483或E565-T637之间的任何C、T、A或S处或在任何其他位置处被分成两个片段。Cas9、Cas9变体(例如nCas9、dCas9)或其他napDNAbp。在一些实施方案中,蛋白质在SpCas9 T310、T313、A456、S469或C574处分为两个片段。在一些实施方案中,将蛋白质分为两个片段的过程称为“分裂”蛋白质。
在其他实施方案中,Cas9蛋白的N-末端部分包含化脓性链球菌Cas9野生型(SpCas9)的氨基酸1-573或1-637(NCBI参考序列:NC_002737.2,Uniprot参考序列:Q99ZW2),以及Cas9蛋白的C末端部分包含SpCas9野生型的氨基酸574-1368或638-1368的一部分。
拆分的Cas9的C末端部分可以与拆分的Cas9的N末端部分连接以形成完整的Cas9蛋白。在一些实施方案中,Cas9蛋白的C末端部分从Cas9蛋白的N末端部分结束的地方开始。这样,在一些实施方案中,分裂Cas9的C-末端部分包含spCas9的氨基酸(551-651)-1368的一部分。“(551-651)-1368”是指从氨基酸551-651(含)之间的一个氨基酸开始,到氨基酸1368结束。例如,拆分的Cas9的C末端部分可包含spCas9的氨基酸551-1368、552-1368、553-1368、554-1368、555-1368、556-1368、557-1368、558-1368、559-1368、560-1368、561-1368、562-1368,563-1368、564-1368、565-1368、566-1368、567-1368、568-1368、569-1368、570-1368、571-1368、572-1368、573-1368、574-1368、575-1368、576-1368、577-1368、578-1368、579-1368、580-1368、581-1368、582-1368、583-1368、584-1368、585-1368、586-1368、587-1368、588-1368、589-1368、590-1368、591-1368、592-1368、593-1368、594-1368、595-1368、596-1368、597-1368、598-1368、599-1368、600-1368、601-1368、602-1368、603-1368、604-1368、605-1368、606-1368、607-1368、608-1368、609-1368、610-1368、611-1368、612-1368、613-1368、614-1368、615-1368、616-1368、617-1368、618-1368、619-1368、620-1368、621-1368、622-1368、623-1368、624-1368、625-1368、626-1368、627-1368、628-1368,629-1368、630-1368、631-1368、632-1368、633-1368、634-1368、635-1368、636-1368、637-1368、638-1368、639-1368、640-1368、641-1368、642-1368、643-1368、644-1368、645-1368、646-1368、647-1368、648-1368、649-1368、650-1368或651-1368的任何一个的一部分。在一些实施方案中,分裂的Cas9蛋白的C末端部分包含SpCas9的氨基酸574-1368或638-1368的一部分。
“受试者”是指哺乳动物,包括但不限于人类或非人类哺乳动物,例如非人类、灵长类(猴子)、牛、马、犬、绵羊或猫。
“实质上相同”是指与参考氨基酸序列(例如,本文所述的任何氨基酸序列)或核酸序列(例如,以下任何一项)显示至少50%同一性的多肽或核酸分子。(本文所述的核酸序列)。在一些实施方案中,这样的序列在氨基酸水平或核酸水平上与用于比较的序列至少60%、80%、85%、90%、95%或至少99%相同。
序列同一性通常使用序列分析软件进行测量(例如,威斯康星大学生物技术中心(1710University Avenue,Madison,Wis.53705)遗传计算机组的序列分析软件包(BLAST,BESTFIT,GAP或PILEUP/PRETTYBOX程序)。这样的软件通过将同源性程度分配给各种取代,缺失和/或其他修饰来匹配相同或相似的序列。保守取代通常包括以下组内的取代:甘氨酸、丙氨酸;缬氨酸、异亮氨酸、亮氨酸;天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺;丝氨酸、苏氨酸赖氨酸、精氨酸;和苯丙氨酸、酪氨酸。在确定同一性程度的示例性方法中,可以使用BLAST程序,其中e-3和e-100之间的概率得分表示密切相关的序列。
例如,COBALT用于以下参数:
a)对齐参数:间隙惩罚值-11,-1和间隙惩罚值-5,-1,
b)CDD参数:在RPS BLAST上使用;Blast E值0.003;查找保守列并重新计算,以及
c)查询集群参数:使用查询集群;字长4;最大集群距离0.8;常规字母。
EMBOSS Needle例如使用以下参数:
a)矩阵:BLOSUM62;
b)间隙开放:10;
c)间隙扩展:0.5;
d)输出格式:成对;
e)最终间隙惩罚值:假;
f)终止间隙开放:10;和
g)终止间隙扩展:0.5。
术语“靶位点”是指核酸分子内被核碱基编辑器修饰的序列。在一个实施方案中,所述靶位点被脱氨酶或包含脱氨酶的融合蛋白(例如,本文公开的dCas9-腺苷脱氨酶融合蛋白或多效应核碱基编辑器)进行脱氨基。
因为RNA可编程核酸酶(例如Cas9)使用RNA:DNA杂交来靶向DNA切割位点,所以这些蛋白质原则上可以靶向指导RNA所指定的任何序列。使用RNA可编程核酸酶(例如Cas9)进行位点特异性切割(例如,修饰基因组)的方法是本领域已知的(参见,例如,Cong,L.等人,Multiplex genome engineering using CRISPR/Cas systems.Science 339,819-823(2013);Mali,P.等人,RNA-guided human genome engineering via Cas9.Science 339,823-826(2013);Hwang,W.Y.等人,Efficient genome editing in zebrafish using aCRISPR-Cas system.Nature biotechnology 31,227-229(2013);Jinek,M.等人,RNA-programmed genome editing in human cells.eLife 2,e00471(2013);Dicarlo,J.E.等人,Genome engineering in Saccharomyces cerevisiae using CRISPR-Cassystems.Nucleic acids research(2013);Jiang,W.等人,RNA-guided editing ofbacterial genomes using CRISPR-Cas systems.Nature biotechnology 31,233-239(2013);每个内容的全部内容通过引用并入本文)。
如本文所用,术语“治疗”是指减轻或改善与其相关的病症和/或症状或获得所需的药理和/或生理作用。应当理解,尽管没有排除,但是治疗疾病或病症并不需要完全消除与之相关的疾病,病症或症状。在一些实施方案中,所述作用是治疗性的,即,但不限于,所述作用部分或完全减轻、消除、废除、减轻、和缓、降低或治愈了疾病的强度和/或归因于所述疾病的不良症状。在一些实施方案中,所述作用是预防性的,即,所述作用保护或预防疾病或病症的发生或再发生。为此,本发明公开的方法包括给予治疗有效量的本文所述的组合物。
“尿嘧啶糖基化酶抑制剂”或“UGI”是指抑制尿嘧啶切除修复系统的药剂。在一个实施方案中,所述试剂是结合宿主尿嘧啶-DNA糖基化酶并防止从DNA去除尿嘧啶残基的蛋白质或其片段。在一个实施方案中,UGI是能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的蛋白质,其片段或结构域。在一些实施方案中,UGI结构域包含野生型UGI或其修饰形式。在一些实施方案中,UGI结构域包含以下列出的示例性氨基酸序列的片段。在一些实施方案中,UGI片段包含氨基酸序列,所述氨基酸序列包含至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%,下文提供的示例性UGI序列的至少95%、至少96%、至少97%、至少98%、至少99%或100%。在一些实施方案中,如下所述,UGI包含与示例性UGI氨基酸序列或其片段同源的氨基酸序列。在一些实施例中,如下所述,UGI或其一部分与野生型UGI或UGI序列或其部分的为至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%,至少97%,至少98%,至少99%,至少99.5%,至少99.9%或100%相同。示例性的UGI包含如下氨基酸序列:
>splP14739IUNGI_BPPB2尿嘧啶DNA糖基化酶抑制剂
MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVM LLT S D APEYKPW ALVIQDS NGENKIKML.
本文提供的范围应理解为所述范围内所有值的简写。例如,范围1到50应该理解为包括任何数字、数字的组合或选自1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50的子范围。
在本文对变量的任何定义中列举化学基团的列举包括将所述变量定义为所列基团的任何单个基团或组合。本文中对变量或方面的实施例的叙述包括所述实施例作为任何单个实施例或与任何其他实施例或其部分组合。
本文提供的任何组合物或方法可以与本文提供的任何其他组合物和方法中的一种或多种结合。
本文的描述和示例详细示出了本发明的实施例。应该理解的是,本发明不限于本文描述的特定实施例,并且因此可以变化。本领域技术人员将认识到,本发明有许多变化和修改,其被包含在其范围内。
如本领域技术人员将理解的,所有术语旨在被理解。除非另有定义,否则本文所使用的所有技术和科学术语具有与本领域技术人员通常所理解的相同含义。
除非另有说明,否则本文公开的一些实施方案的实施采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术,它们在本领域技术范围内。参见例如Sambrook和Green,Molecular Cloning:A Laboratory Manual,第4版(2012);the series Methods In Enzymology(Academic Press,Inc.),PCR 2:APractical Approach(M.J.MacPherson、B.D.Hames和G.R.Taylor eds.(1995)),Harlow和Lane編輯,(1988)Antibodies,A Laboratory Manual,and Culture of Animal Cells:AManual of Basic Technique and Specialized Applications,第6版(R.I.Freshney編輯(2010))。
尽管可以在单个实施例的上下文中描述本发明的各种特征,但是也可以单独地或以任何合适的组合来提供特征。相反,尽管为了清楚起见,本文中可以在单独的实施例的上下文中描述本发明,但是本发明也可以在单个实施例中实现。本文使用的章节标题仅用于组织目的,而不应解释为限制所描述的主题。
在所附权利要求中具体阐述了本发明的特征。通过参考下面的详细描述,将获得对本发明的特征和优点的更好的理解,下面的详细描述提出了说明性实施例,在其中利用了本发明的原理,并且考虑到下面描述的附图。
附图说明
图1显示常规碱基编辑器ABE7.10(上图)相对于pNMG-B79(中间)的碱基修饰活性相对于多处理核碱基编辑器的相对于未处理序列的比较(下图)。
图2提供了显示多效应核碱基编辑器的三个版本的示意图。
图3A和3B。图3A提供用于修饰图2所示的基因组DNA的多效应核碱基编辑器的示意图。图3B显示图3A所示的多效应核碱基编辑器的碱基修饰活性的比较。
图4A至4C。图4A提供显示存在于多效应核碱基编辑器中的结构域示意图,所述结构域用于修饰HBG1位点,如图4B和4C所示。
图5A至5C。图5A显示相对于未处理序列(底部)的常规碱基编辑器ABE7.10(顶部)相对于pNMG-B79(中间)的碱基编辑活性的比较。还提供了pNMG-B79多效应核碱基编辑器的示意图。图5B显示了图5A中总结的测序结果的示例性读段。图5C显示了比较常规碱基编辑器ABE7.10(上)相对于pNMG-B79的活性的实验的测序结果。
图6显示ABE7.10和pNMG-B79之间插入缺失(Indel)率的比较。
图7A和图7B显示了常规碱基编辑器ABE7.10的碱基编辑活性(上)相对于指定的多效应核碱基编辑器和未处理序列在图7B的底部的比较。图的最右边显示了生成的插入缺失的百分比。
图8A至8F。图8A和图8B分别是pCMV_ABEmax的质粒图和密码子优化的核苷酸序列。图8C和8D分别是pCMV_AncBE4max的质粒图和密码子优化的核苷酸序列。图8E和8F分别是pCMV_BE4max的质粒图和密码子优化的核苷酸序列。
具体实施方式
本发明的特征在于多效应核碱基编辑器以及使用它们在靶核碱基序列中产生修饰的方法。本发明至少部分基于令人惊讶的发现,即包含胞苷脱氨酶结构域,nCas9结构域和腺苷脱氨酶结构域的融合蛋白能够在靶序列中引入双碱基编辑。特别地,当在哺乳动物细胞,例如HEK293T细胞中表达时,单个多肽多效应核碱基编辑器将DNA中的A转化为G,将C转化为T。
本发明的多效应核碱基编辑器是融合蛋白,其尤其可用于核酸序列的靶向编辑。此类融合蛋白可用于体外DNA的靶向编辑,例如,引入可改变调控序列活性的突变,或可改变编码蛋白质(例如互补决定区(CDR))活性的突变抗体。
核基编辑器
本文公开了用于编辑,修饰或改变多核苷酸的靶核苷酸序列的碱基编辑器或核碱基编辑器。本文描述了包含多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域的核碱基编辑器或碱基编辑器。在一个特定的实施方案中,提供了一种多效应核碱基编辑器,其包含一个或多个(例如两个)腺苷脱氨酶结构域和胞苷脱氨酶结构域以及DNA糖基化酶结构域,其中上述结构域与多核苷酸结合域,从而形成能够诱导核酸分子内多个不同碱基发生改变的核碱基编辑器。当与结合的指导多核苷酸(例如,gRNA)结合时,多核苷酸可编程核苷酸结合结构域可以特异性地结合至靶多核苷酸序列(即,通过结合的指导核酸的碱基与靶多核苷酸的碱基之间的互补碱基配对)序列),从而将碱基编辑器定位到希望被编辑的靶核酸序列。在一些实施方案中,靶多核苷酸序列包含单链DNA或双链DNA。在一些实施方案中,靶多核苷酸序列包含RNA。在一些实施方案中,靶多核苷酸序列包含DNA-RNA杂合体。
多核苷酸可编程核苷酸结合域
应当理解,多核苷酸可编程核苷酸结合域也可以包括结合RNA的核酸可编程蛋白。例如,多核苷酸可编程核苷酸结合结构域可以与将多核苷酸可编程核苷酸结合结构域指导至RNA的核酸结合。其他核酸可编程的DNA结合蛋白也在本发明的范围内,尽管它们未在本发明中具体列出。
碱基编辑器的多核苷酸可编程核苷酸结合结构域本身可以包含一个或多个结构域。例如,多核苷酸可编程核苷酸结合结构域可包含一个或多个核酸酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可包含核酸内切酶或核酸外切酶。在本文中,术语“核酸外切酶”是指能够从自由端消化核酸(例如,RNA或DNA)的蛋白质或多肽,并且术语“核酸内切酶”是指能够催化(例如,切割)核酸中的区域(例如DNA或RNA)内部的蛋白质或多肽。在一些实施方案中,核酸内切酶可以切割双链核酸的单链。在一些实施方案中,核酸内切酶可以切割双链核酸分子的两条链。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是脱氧核糖核酸酶。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是核糖核酸酶。
在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以切割靶多核苷酸的零、一或两条链。在一些情况下,多核苷酸可编程核苷酸结合结构域可包含切口酶结构域。本文中,术语“切口酶”是指包含核酸酶结构域的多核苷酸可编程核苷酸结合结构域,所述核酸酶结构域能够切割双链核酸分子(例如DNA)中两条链中的仅一条链。在一些实施方案中,切口酶可通过将一种或多种突变引入活性多核苷酸可编程核苷酸结合域中而衍生自多核苷酸可编程核苷酸结合域的完全催化活性(例如天然)形式。例如,在多核苷酸可编程核苷酸结合结构域包含衍生自Cas9的切口酶结构域的情况下,源自Cas9的切口酶结构域可以在位置840处包含D10A突变和组氨酸。在这种情况下,H840残基保留催化活性,从而可以切割核酸双链体的单链。在另一个实例中,Cas9衍生的切口酶结构域可包含H840A突变,而位置10的氨基酸残基仍为D。在一些实施方案中,切口酶可通过去除切口酶活性不需要的全部或部分核酸酶结构域而衍生自多核苷酸可编程核苷酸结合域的完全催化活性(例如天然)形式。例如,在多核苷酸可编程核苷酸结合结构域包含衍生自Cas9的切口酶结构域的情况下,源自Cas9的切口酶结构域可包含RuvC结构域或HNH结构域的全部或部分的缺失。
示例性的催化活性Cas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD。
因此,包含具有切口酶结构域的多核苷酸可编程核苷酸结合结构域的碱基编辑器能够在特定的多核苷酸靶序列上(例如,由结合的指导核酸的互补序列确定)产生单链DNA断裂(切口)。在一些实施方案中,被包含切口酶结构域(例如,Cas9衍生的切口酶结构域)的碱基编辑器切割的核酸双链靶多核苷酸序列的链是未被碱基编辑器编辑的链(即,链由碱基编辑器切割的片段与包含要编辑的碱基的链相反)。在其他实施方案中,包含切口酶结构域(例如,Cas9衍生的切口酶结构域)的碱基编辑器可以切割靶向于编辑的DNA分子的链。在这种情况下,非靶向链不会被切割。
本文还提供了包含核苷酸的多核苷酸可编程核苷酸结合结构域的碱基编辑器,所述核苷酸结构域被催化性死亡(即,不能裂解靶多核苷酸序列)。在本文中,术语“催化死的”和“核酸酶死的”可互换使用,是指具有一个或多个导致其不能切割核酸链的突变和/或缺失的多核苷酸可编程核苷酸结合结构域。在一些实施方案中,由于一个或多个核酸酶结构域中的特定点突变,催化死亡的多核苷酸可编程核苷酸结合结构域碱基编辑器可缺乏核酸酶活性。例如,在碱基编辑器包含Cas9结构域的情况下,Cas9可同时包含D10A突变和H840A突变。这样的突变使两个核酸酶结构域失活,从而导致核酸酶活性的丧失。在其他实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域可包含全部或部分催化结构域(例如,RuvCl和/或HNH结构域)的一个或多个缺失。在进一步的实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域包含点突变(例如,D10A或H840A)以及核酸酶结构域的全部或部分的缺失。
本文还考虑了能够从多核苷酸可编程核苷酸结合结构域的先前功能形式产生催化死亡的多核苷酸可编程核苷酸结合结构域的突变。例如,在催化死亡的Cas9(“dCas9”)的情况下,提供了具有D10A和H840A以外的突变的变体,其导致核酸酶失活的Cas9。举例来说,此类突变包括在D10和H840处的其他氨基酸取代,或在Cas9的核酸酶结构域内的其他取代(例如,在HNH核酸酶子结构域和/或RuvC1子结构域中的取代)。基于本发明和本领域的知识,其他合适的核酸酶失活的dCas9结构域对本领域技术人员而言是显而易见的,并且在本发明的范围内。这样的另外的示例性的适合的核酸酶失活的Cas9结构域包括但不限于D10A/H840A,D10A/D839A/H840A和D10A/D839A/H840A/N863A突变域(参见,例如,Prashant等人,CAS9 transcriptional activators for target specificity screening andpaired nickases for cooperative genome engineering.Nature Biotechnology.2013;31(9):833-838,其全部内容通过引用并入本文)。
可以掺入碱基编辑器中的多核苷酸可编程核苷酸结合结构域的非限制性实例包括CRISPR蛋白衍生的结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。在一些情况下,碱基编辑器包含多核苷酸可编程核苷酸结合结构域,其包含天然或修饰的蛋白质或其部分,其通过结合的指导核酸能够在CRISPR过程中结合核酸序列(即,成簇的规则间隔的短回文重复序列)-介导的核酸修饰。这种蛋白质在本文中被称为“CRISPR蛋白质”。因此,本文公开的是包含多核苷酸可编程核苷酸结合结构域的碱基编辑器,所述多核苷酸可编程核苷酸结合结构域包含CRISPR蛋白的全部或部分(即,包含CRISPR蛋白的全部或部分作为结构域的碱基编辑器,也称为“CRISPR蛋白衍生结构域”)。与野生型或天然版本的CRISPR蛋白质相比,掺入碱基编辑器中的CRISPR蛋白质的域可以进行修饰。例如,如下所述,相对于野生型或天然形式的CRISPR蛋白,源自CRISPR蛋白的结构域可包含一个或多个突变、插入、缺失、重排和/或重组。
CRISPR是一种适应性免疫系统,可针对移动遗传组件(病毒、转座因子和结合质粒)提供保护。CRISPR簇包含间隔子,与先前的移动组件互补的序列以及靶向入侵的核酸。CRISPR簇被转录并加工成CRISPR RNA(crRNA)。在II型CRISPR系统中,pre-crRNA的正确处理需要反式编码的小RNA(tracrRNA),内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA可作为核糖核酸酶3辅助pre-crRNA加工的指南。随后,Cas9/crRNA/tracrRNA进行核酸内切裂解与间隔物互补的线性或环状dsDNA靶标。不与crRNA互补的靶链首先被核酸内切地切割,然后被核酸外切3'-5'。实际上,DNA结合和裂解通常需要蛋白质和两个RNA。但是,可以设计单个指导RNA(“sgRNA”或简称为“gNRA”),以便将crRNA和tracrRNA的各个方面都整合到单个RNA物种中。参见例如Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012),其全部内容通过引用结合于此。Cas9识别CRISPR重复序列中的短基序(PAM或原间隔子相邻基序),以帮助区分自身和非自身。
在一些实施方案中,本文描述的方法可以利用工程改造的Cas蛋白。指导RNA(gRNA)是一种简短的合成RNA,由Cas结合所需的支架序列和用户定义的~20个核苷酸间隔区组成,所述间隔区定义了要修饰的基因组靶标。因此,技术人员可以改变Cas蛋白的基因组靶标,部分地由与基因组的其余部分相比,gRNA靶向序列对基因组靶标的特异性来部分确定。
在一些实施方案中,gRNA支架序列如下:GUUUUAGAGC UAGAAAUAGC AAGUUAAAAUAAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU。
在一些实施方案中,并入碱基编辑器中的源自CRISPR蛋白的域是与结合的指导核酸结合时能够结合靶多核苷酸的核酸内切酶(例如,脱氧核糖核酸酶或核糖核酸酶)。在一些实施方案中,掺入碱基编辑器中的源自CRISPR蛋白质的域是当与结合的指导核酸结合时能够结合靶多核苷酸的切口酶。在一些实施方案中,掺入碱基编辑器中的源自CRISPR蛋白的域是与结合的指导核酸结合时能够结合靶多核苷酸的催化性死亡域。在一些实施方案中,与碱基编辑器的CRISPR蛋白衍生的域结合的靶多核苷酸是DNA。在一些实施方案中,与碱基编辑器的CRISPR蛋白来源的结构域结合的靶多核苷酸是RNA。
可在本文中使用的Cas蛋白包括1类和2类。Cas蛋白的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(也称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、Cs1、Cd、Cd Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、CARF、DinG,其同源物或它们的修饰版本。未经修饰的CRISPR酶可以具有DNA切割活性,例如Cas9,它具有两个功能性核酸内切酶结构域:RuvC和HNH。CRISPR酶可以指导在靶序列上例如在靶序列内和/或在靶序列的补体内切割一条或两条链。例如,CRISPR酶可以指导从靶序列的第一个或最后一个核苷酸在大约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或多个碱基对中切割一条或两条链。
可以使用编码相对于相应的野生型酶突变的CRISPR酶的载体,使得突变的CRISPR酶缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力。Cas9可指与野生型示例性Cas9多肽具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%,99%或100%的序列同一性和/或序列同源性的多肽(例如来自化脓性链球菌的Cas9)。Cas9可以指与野生型示例性Cas9多肽(例如,来自化脓链球菌)具有最多或最多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性的多肽。Cas9可指Cas9蛋白的野生型或修饰形式,其可包含氨基酸变化,例如缺失、插入、取代、变体、突变、融合、嵌合体或它们的任何组合。
在一些实施方案中,碱基编辑器的CRISPR蛋白来源的结构域可包括来自溃疡棒状杆菌(Corynebacterium ulcerans)的Cas9的全部或部分(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒状杆菌(Corynebacterium diphtheria)(NCBI Ref:NC_016782.1,NC_016786.1);栖蚜蝇螺原体(Spiroplasma syrphidicola)(NCBI Ref:NC_021284.1);中间型普氏杆菌(Prevotella intermedia)(NCBI Ref:NC_017861.1);台湾螺旋体(Spiroplasmataiwanense)(NCBI Ref:NC_021846.1);海豚链球菌(Streptococcus iniae)(NCBI Ref:NC_021314.1);含羞草伯克霍尔德氏菌(Belliella baltica)(NCBI Ref:NC_018010.1);扭曲冷弯曲菌I(Psychroflexus torquisI)(NCBI Ref:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBI Ref:YP_820832.1);无害李斯特菌(Listeriainnocua)(NCBI Ref:NP_472073.1);空肠弯曲菌(Campylobacter jejuni)(NCBI Ref:YP_002344900.1);脑膜炎双球菌(Neisseria meningitidis)(NCBI Ref:YP_002342100.1)、化脓性链球菌或金黄色葡萄球菌。
核碱基编辑器的Cas9域
Cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,例如,Ferretti等人,JJ,McShan WM,Ajdic DJ,Savic DJ,Savic G.,Lyon K.,Primeaux C,Sezate S.,Suvorov AN,Kenton S.,Lai HS,Lin SP,Qian Y.,Jia HG,Najar FZ,Ren Q.,Zhu H.,SongL.,White J.,Yuan X.,Clifton SW,Roe BA,McLaughlin RE发表的“Complete genomesequence of an Ml strain of Streptococcus pyogenes.”,Proc.Natl.Acad.Sci.USA98:4658-4663(2001);Deltcheva E.,Chylinski K.,Sharma CM,Gonzales K.,Chao Y.,Pirzada ZA,Eckert MR,Vogel J.,Charpentier E.发表的“CRISPR RNA maturation bytrans-encoded small RNA and host factor RNase III.”,Nature 471:602-607(2011);以及Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna JA,Charpentier E.发表的“A programmable dual-RNA-guided DNA endonuclease in adaptive bacterialimmunity.”Science 337:816-821(2012)。通过引用并入本文)。已经在各种物种中描述了Cas9直向同源物,包括但不限于化脓性链球菌和嗜热链球菌。基于所述公开,其他合适的Cas9核酸酶和序列对本领域技术人员将是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski、Rhun和Charpentier发表的“The tracrRNA and Cas9 families of type IICRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737;其全部内容通过引用并入本文。
在一些方面,核酸可编程DNA结合蛋白(napDNAbp)是Cas9结构域。本文提供了非限制性的示例性Cas9结构域。Cas9结构域可以是核酸酶活性Cas9结构域,核酸酶非活性Cas9结构域或Cas9切口酶。在一些实施方案中,Cas9结构域是核酸酶活性结构域。例如,Cas9结构域可以是切割双链核酸的两条链(例如,双链DNA分子的两条链)的Cas9结构域。在一些实施方案中,Cas9结构域包含如本文所述的任何氨基酸序列。在一些实施方案中,Cas9结构域包含的氨基酸序列与本文阐述的任何氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,Cas9结构域与本文列出的任一氨基酸序列相比,包含具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,Cas9结构域与本文列出的任何氨基酸序列相比,包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,提供了包含Cas9的片段的蛋白质。例如,在一些实施方案中,蛋白质包含两个Cas9结构域之一:(1)Cas9的gRNA结合结构域;或(2)Cas9的DNA切割结构域。在一些实施方案中,包含Cas9或其片段的蛋白质被称为“Cas9变体”。Cas9变体与Cas9或其片段具有同源性。例如,Cas9变体在以下条件下与野生型Cas9至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%、至少约99%的同一性、至少约99.5%的同一性或至少约99.9%的同一性。在一些实施方案中,Cas9变体与野生型Cas9相比可以具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的氨基酸变化。在一些实施方案中,Cas9变体包含Cas9的片段(例如,gRNA结合结构域或DNA切割结构域),使得所述片段与野生型Cas9的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,所述片段或相应野生型Cas9的氨基酸长度为至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%至少99.5%相同。在一些实施方案中,所述片段的长度为至少100个氨基酸。在一些实施方案中,片段长度是至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或至少1300个氨基酸。
在一些实施方案中,本文提供的Cas9融合蛋白包含Cas9蛋白的全长氨基酸序列,例如本文提供的Cas9序列之一。然而,在其他实施方案中,本文提供的融合蛋白不包含全长Cas9序列,而仅包含其一个或多个片段。本文提供了合适的Cas9结构域和Cas9片段的示例性氨基酸序列,并且Cas9结构域和片段的其他合适的序列对本领域技术人员而言是显而易见的。
Cas9蛋白可以与指导RNA结合,后者将Cas9蛋白引导至与指导RNA互补的特定DNA序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是Cas9结构域,例如核酸酶活性Cas9、Cas9切口酶(nCas9)或核酸酶失活Cas9(dCas9)。核酸可编程DNA结合蛋白的实例包括但不限于Cas9(例如dCas9和nCas9)、Cas12a/Cpf1、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i。
在一些实施方案中,野生型Cas9对应于来自化脓链球菌的Cas9(NCBI参考序列:NC_017053.1,如下的核苷酸和氨基酸序列)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003005803140000701
(单下划线:HNH域;双下划线:RuvC域)
在一些实施方案中,野生型Cas9对应于或包含以下核苷酸和/或氨基酸序列:
ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA
Figure BDA0003005803140000731
Figure BDA0003005803140000741
(单下划线:HNH域;双下划线:RuvC域)。
在一些实施方案中,野生型Cas9对应于来自链球菌的Cas9。
化脓(NCBI参考序列:NC_002737.2(核苷酸序列如下);Uniprot参考序列:Q99ZW2(氨基酸序列如下):
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003005803140000761
Figure BDA0003005803140000771
Figure BDA0003005803140000772
(单下划线:HNH域;双下划线:RuvC域)
在一些实施方案中,Cas9是指来自以下的Cas9:溃疡棒状杆菌(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒状杆菌(NCBI Ref:NC_016782.1,NC_016786.1);栖蚜蝇螺原体(NCBI Ref:NC_021284.1);中间型普氏杆菌(NCBI Ref:NC_017861.1);台湾螺旋体(NCBI Ref:NC_021846.1);海豚链球菌(NCBI Ref:NC_021314.1);含羞草伯克霍尔德氏菌(NCBI Ref:NC_018010.1);扭曲冷弯曲菌(NCBI Ref:NC_018721.1);嗜热链球菌(NCBIRef:YP_820832.1),无害李斯特菌(NCBI Ref:NP_472073.1),空肠弯曲菌(NCBI Ref:YP_002344900.1)或脑膜炎双球菌(NCBI Ref:YP_002342100.1)或来自其他任何基因的Cas9生物。
应当理解,包括其变体和同源物在内的其他Cas9蛋白(例如,核酸酶死亡的Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9),包括其变体和同源物。示例性的Cas9蛋白包括但不限于以下提供的那些。在一些实施方案中,Cas9蛋白是核酸酶死亡的Cas9(dCas9)。在一些实施方案中,Cas9蛋白是Cas9切口酶(nCas9)。在一些实施方案中,Cas9蛋白是核酸酶活性的Cas9。
在一些实施方案中,Cas9结构域是无核酸酶的Cas9结构域(dCas9)。例如,dCas9结构域可以结合双链核酸分子(例如,通过gRNA分子),而不切割双链核酸分子的任一链。在一些实施方案中,无核酸酶的dCas9结构域包含本文列出的氨基酸序列的D10X突变和H840X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸改变。在一些实施方案中,无核酸酶的dCas9结构域包含本文列出的氨基酸序列的D10A突变和H840A突变,或本文提供的任何氨基酸序列中的相应突变。作为一个实例,无核酸酶的Cas9结构域包含克隆载体pPlatTET-gRNA2(登录号BAV54124)中列出的氨基酸序列。
示例性的催化惰性Cas9(dCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
(参见,例如,Qi等人,“Repurposing CRISPR as an RNA-guided platform forsequence-specific control of gene expression.”Cell.2013;152(5):1173-83,其全部内容并入本文引用)。
在一些实施方案中,Cas9核酸酶具有失活的(例如,灭活的)DNA切割结构域,即,Cas9是切口酶,称为“nCas9”蛋白(对于“切口酶”Cas9)。核酸酶灭活的Cas9蛋白可以互换地称为“dCas9”蛋白(对于核酸酶“死”Cas9)或催化失活的Cas9。产生具有失活的DNA切割结构域的Cas9蛋白(或其片段)的方法是已知的(参见,例如,Jinek等人,Science.337:816-821(2012);Qi等人,“Repurposing CRISPR as an RNA-Guided Platform for Sequence-Specific Control of Gene Expression”(2013)Cell.,28;152(5):1173-83,其每一个的全部内容通过引用并入本文。例如,已知Cas9的DNA切割结构域包括两个亚结构域,即HNH核酸酶亚结构域和RuvC1亚结构域。HNH子域切割与gRNA互补的链,而RuvC1子域切割非互补链。这些亚结构域内的突变可以使Cas9的核酸酶活性沉默。例如,突变D10A和H840A完全灭活了化脓性链球菌Cas9的核酸酶活性(Jinek等人,Science.,337:816-821(2012);Qi等人,Cell.,28;152(5):1173-83(2013))。
在一些实施方案中,dCas9结构域包含的氨基酸序列与本文提供的任何dCas9结构域具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的同一性。在一些实施方案中,Cas9结构域与本文列出的任何氨基酸序列相比,包含具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个或更多突变。在一些实施方案中,Cas9结构域与本文列出的任何氨基酸序列相比,包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,dCas9对应于或部分或全部包含具有一种或多种使Cas9核酸酶活性失活的突变的Cas9氨基酸序列。例如,在一些实施方案中,dCas9结构域在另一个Cas9中包含D10A和H840A突变或相应的突变。
在一些实施方案中,dCas9包含dCas9的氨基酸序列(D10A和H840A):
Figure BDA0003005803140000801
Figure BDA0003005803140000811
Figure BDA0003005803140000812
(单下划线:HNH域;双下划线:RuvC域)。
在一些实施方案中,Cas9结构域包含D10A突变,而位置840处的残基在以上提供的氨基酸序列中或在本文提供的任何氨基酸序列中的相应位置处仍为组氨酸。
在其他实施方案中,提供了具有除D10A和H840A之外的突变的dCas9变体,其例如导致核酸酶灭活的Cas9(dCas9)。举例来说,此类突变包括在D10和H840处的其他氨基酸取代,或在Cas9的核酸酶结构域内的其他取代(例如,在HNH核酸酶子结构域和/或RuvC1子结构域中的取代)。在一些实施方案中,提供了dCas9的变体或同源物,其至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供的dCas9变体具有以下氨基酸序列,所述氨基酸序列较短或更长约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方案中,Cas9结构域是Cas9切口酶。Cas9切口酶可以是仅能够切割双链核酸分子(例如双链DNA分子)的一条链的Cas9蛋白。在一些实施方案中,Cas9切口酶切割双链核酸分子的靶链,这意味着Cas9切口酶切割与结合至Cas9的gRNA(例如,sgRNA)碱基配对(互补)的链。在一些实施方案中,Cas9切口酶包括D10A突变并且在840位具有组氨酸。在一些实施方案中,Cas9切口酶切割双链核酸分子的非靶标,非碱基编辑的链,这意味着Cas9切口酶。切割与Cas9结合的gRNA(例如,sgRNA)没有碱基配对的链。在一些实施方案中,Cas9切口酶包含H840A突变并且在位置10处具有天冬氨酸残基或相应的突变。在一些实施方案中,Cas9切口酶包含的氨基酸序列与本文提供的任何一种Cas9切口酶为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。基于本发明和本领域的知识,其他合适的Cas9切口酶对于本领域技术人员将是显而易见的,并且在本发明的范围内。
示例性的催化Cas9切口酶(nCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在一些实施方案中,Cas9是指来自古细菌(例如,纳米古细菌)的Cas9,其构成单细胞原核微生物的结构域和领域。在一些实施方案中,可编程核苷酸结合蛋白可以是CasX或CasY蛋白,其已经描述于例如Burstein等人,“New CRISPR-Cas systems fromuncultivated microbes.”,Cell Res.,doi:10.1038/cr.2017.21,其全部内容通过引用合并于此。使用基因组解析的宏基因组学,鉴定了许多CRISPR-Cas系统,包括生命古细菌域中首次报道的Cas9。这种差异化的Cas9蛋白是在鲜为研究的纳米古菌中发现的,是主动CRISPR-Cas系统的一部分。在细菌中,发现了两个以前未知的系统,即CRISPR-CasX和CRISPR-CasY,它们是迄今为止发现的最紧凑的系统。在一些实施例中,在本文描述的碱基编辑器系统中,Cas9被CasX或CasX的变体替代。在一些实施例中,在本文描述的碱基编辑器系统中,Cas9被CasY或CasY的变体替代。应当理解,其他RNA引导的DNA结合蛋白可以用作核酸可编程DNA结合蛋白(napDNAbp),并且在本发明的范围内。
在一些实施方案中,本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是CasX或CasY蛋白。在一些实施方案中,napDNAbp是CasX蛋白。在一些实施方案中,napDNAbp是CasY蛋白。
在一些实施方案中,napDNAbp与天然存在的CasX或CasY蛋白包含至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,可编程核苷酸结合蛋白是天然存在的CasX或CasY蛋白。
在一些实施方案中,可编程核苷酸结合蛋白与本文所述的任何CasX或CasY蛋白具有包含至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%。至少96%、至少97%、至少98%、至少99%或至少99.5%的氨基酸序列同一性。应当理解,根据本发明,也可以使用来自其他细菌物种的CasX和CasY。
示例性CasX((uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)tr|F0NN87|F0NN87_SULIHCRISPR相关的Casx蛋白OS=冰岛硫化叶菌(Sulfolobusislandicus)(菌株HVE10/4)GN=SiH_0402PE=4SV=1)氨基酸顺序如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTG SKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG。
示例性的CasX(>tr|F0NH53|F0NH53_SULIR CRISPR相关蛋白,Casx OS=冰岛硫化叶菌(菌株REY15A)GN=SiRe_0771PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG。
δ-变形菌纲(deltaproteobacteria)CasX
MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDfAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
示例性CasY((ncbi.nlm.nih.gov/protein/APG80656.1)>APG80656.1 CRISPR关联蛋白CasY[未培养的俭菌总门(Parcubacteria)群细菌])的氨基酸序列如下:
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI。
在一些实施方案中,核酸可编程DNA结合蛋白(napDNAbp)是微生物CRISPR-Cas系统的单个效应子。微生物CRISPR-Cas系统的单个效应子包括但不限于Cas9、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i。通常,微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应子复合物,而2类系统具有单个蛋白质效应子。例如,Cas9和Cpf1是2类效应器。除Cas9和Cpf1外,Shmakov等人发表的“Discovery and Functional Characterization of Diverse Class 2CRISPR CasSystems”(Mol.Cell,2015Nov.5;60(3):385-397)还描述了三个不同的2类CRISPR-Cas系统(Cas12b/C2c1和Cas12c/C2c3),其全部内容通过引用合并于此。两个系统的效应子Cas12b/C2c1和Cas12c/C2c3包含与Cpf1相关的RuvC样核酸内切酶结构域。第三系统包含具有两个谓词HEPN RNase结构域的效应子。与Cas12b/C2c1产生的CRISPR RNA不同,成熟的CRISPRRNA的产生不依赖tracrRNA。Cas12b/C2c1取决于CRISPR RNA和tracrRNA的DNA切割。
据报道,酸环脂双歧杆菌Cas12b/C2c1(AacC2c1)的晶体结构与嵌合单分子指导RNA(sgRNA)形成复合物。参见,例如,Liu等人发表的“C2c1-sgRNA Complex StructureReveals RNA-Guided DNA Cleavage Mechanism”,Mol.Cell,2017年1月19日;65(2):310-322,其全部内容通过引用合并于此。还已经报道了酸土脂环酸芽孢杆菌(Alicyclobacillus acidoterrestris)C2c1以三元复合物结合到靶DNA上的晶体结构。参见,例如,Yang等人发表的“PAM-dependent Target DNA Recognition and Cleavage byC2C1CRISPR-Cas endonuclease”,Cell,2016Dec.15;167(7):1814-1828,其全部内容通过引用结合于此。具有目标和非目标DNA链的AacC2c1具有催化能力的构象已被独立捕获,放置在单个RuvC催化口袋中,Cas12b/C2c1介导的裂解导致目标DNA错开七个核苷酸。Cas12b/C2c1三元复合物与先前鉴定的Cas9和Cpf1对应物之间的结构比较证明了CRISPR-Cas9系统使用的机制的多样性。
在一些实施方案中,本文提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp是Cas12b/C2c1蛋白。在一些实施方案中,napDNAbp是Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp与天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白包含至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,napDNAbp是天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp与本文提供的任何一种napDNAbp序列包含至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。应当理解,根据本发明,也可以使用来自其他细菌物种的Cas12b/C2c1或Cas12c/C2c3。
Cas12b/C2c1((uniprot.org/uniprot/T0D7A2#2)sp|T0D7A2|C2C1_ALIAG CRISPR关联的核酸内切酶C2c1 OS=酸土脂环酸芽孢杆菌(ATCC 49025/DSM 3922/CIP 106132/NCIMB 137137GD)c2c1 PE=1SV=1)氨基酸序列如下:
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMV NQRIEGYLVKQIRSRVPLQDSACENTGDI。
BhCas12b(外村尚芽孢杆菌,Bacillus hisashii)NCBI参考序列:WP_095142515
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK
在一些实施方案中,Cas12b是BvCas12B,其是BhCas12b的变体,并且相对于BhCas12B包含以下变化:S893R,K846R和E837G。
BvCas12b(芽孢杆菌V3-13)NCBI参考序列:WP_101661451.1
MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQEAIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLLEGMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKNNKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEIVQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPYVGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSDNNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL
Cas9核酸酶具有两个功能性核酸内切酶结构域:RuvC和HNH。Cas9在靶标结合后发生构象变化,使核酸酶结构域定位,以裂解靶标DNA的相对链。Cas9介导的DNA切割的最终结果是目标DNA(PAM序列上游约3至4个核苷酸)内的双链断裂(DSB)。然后通过两种一般的修复途径之一修复所得的DSB:(1)有效但容易出错的非同源末端连接(NHEJ)途径;或(2)效率较低但高保真同源性定向修复(HDR)途径。
可以通过任何方便的方法来计算非同源末端连接(NHEJ)和/或同源性定向修复(HDR)的“效率”。例如,在某些情况下,效率可以用成功HDR的百分比表示。例如,surveyor核酸酶测定可用于产生裂解产物,产物与底物的比例可用于计算百分比。例如,作为成功的HDR的结果,可以使用直接切割含有新整合的限制性序列的DNA的测量员核酸酶。裂解的底物越多,表明HDR百分比越高(HDR效率越高)。作为说明性实例,可以使用以下等式[(裂解产物)/(底物加上裂解产物)]计算HDR的分数(百分比)(例如,(b+c)/(a+b+c),其中“a”是DNA底物的条带强度,“b”和“c”是切割产物。
在某些情况下,效率可以用成功NHEJ的百分比来表示。例如,T7核酸内切酶I测定法可用于产生裂解产物,产物与底物的比率可用于计算NHEJ的百分比。T7核酸内切酶可切割由野生型和突变型DNA链杂交引起的错配异源双链DNA(NHEJ在原始断裂位点产生小的随机插入或缺失(indels))。裂解程度越高,表示NHEJ的百分比越高(NHEJ的效率越高)。作为说明性示例,可以使用以下等式计算NHEJ的分数(百分比):(1-(1-(b+c)/(a+b+c))1/2)×100,其中“a”是DNA底物的条带强度,“b”和“c”是切割产物(Ran等人,Cell,2013年九月12日;154(6):1380-9;Ran等人,Nat Protoc.2013年11月;8(11):2281–2308)。
NHEJ修复途径是最活跃的修复机制,它经常在DSB位点引起小的核苷酸插入或缺失(indels)。NHEJ介导的DSB修复的随机性具有重要的实际意义,因为表达Cas9和gRNA或指导多核苷酸的细胞群会导致各种各样的突变。在大多数情况下,NHEJ在靶DNA中产生小的indel,导致氨基酸缺失,插入或移码突变,导致靶基因开放阅读框(ORF)内的提前终止密码子。理想的最终结果是靶基因内的功能丧失突变。
尽管NHEJ介导的DSB修复经常破坏基因的开放阅读框,但同源直接修复(HDR)可用于产生特定的核苷酸变化,范围从单核苷酸变化到大插入,如添加荧光团或标签。
为了利用HDR进行基因编辑,可以将包含所需序列的DNA修复模板与gRNA和Cas9或Cas9切口酶一起传递到感兴趣的细胞类型中。修复模板可以包含期望的编辑以及紧接在靶标的上游和下游的其他同源序列(称为左和右同源臂)。每个同源臂的长度可以取决于引入的改变的大小,其中较大的插入需要更长的同源臂。修复模板可以是单链寡核苷酸,双链寡核苷酸或双链DNA质粒。即使在表达Cas9,gRNA和外源性修复模板的细胞中,HDR的效率通常也较低(<修饰等位基因的10%)。由于HDR发生在单元周期的S和G2阶段,因此可以通过同步单元来提高HDR的效率。NHEJ中涉及的化学或遗传抑制基因也可以增加HDR频率。
在一些实施方案中,Cas9是修饰的Cas9。给定的gRNA靶向序列在整个基因组中可能存在部分同源的其他位点。这些位点称为脱靶位点,在设计gRNA时需要加以考虑。除了优化gRNA设计外,还可以通过修饰Cas9来提高CRISPR特异性。Cas9通过两个核酸酶结构域RuvC和HNH的组合活性产生双链断裂(DSB)。Cas9切口酶是SpCas9的D10A突变体,保留一个核酸酶结构域并产生DNA切口而不是DSB。切口酶系统也可以与HDR介导的基因编辑结合起来进行特定的基因编辑。
在某些情况下,Cas9是Cas9的一种变体蛋白。当与野生型Cas9蛋白的氨基酸序列相比时,变体Cas9多肽具有的氨基酸序列相差一个氨基酸(例如,具有缺失、插入、取代、融合)。在一些情况下,变体Cas9多肽具有降低Cas9多肽的核酸酶活性的氨基酸变化(例如,缺失、插入或取代)。例如,在某些情况下,变体Cas9多肽具有小于50%、小于40%、小于30%、小于20%、小于10%、小于5%或小于1%的核酸酶。相应的野生型Cas9蛋白的活性。在某些情况下,变体Cas9蛋白没有实质的核酸酶活性。当主题Cas9蛋白是没有实质核酸酶活性的变体Cas9蛋白时,其可以被称为“dCas9”。
在某些情况下,变体Cas9蛋白具有降低的核酸酶活性。例如,变体Cas9蛋白展现出核酸内切酶活性的小于野生型Cas9蛋白(例如野生型Cas9蛋白)约20%、约15%、小于约10%、小于约5%、小于约1%或小于约0.1%。
在一些情况下,变体Cas9蛋白可以切割指导靶序列的互补链,但是具有降低的切割双链指导靶序列的非互补链的能力。例如,变体Cas9蛋白可具有降低RuvC结构域功能的突变(氨基酸取代)。作为非限制性实例,在一些实施方案中,变体Cas9蛋白具有D10A(在氨基酸位置10处的天冬氨酸为丙氨酸),因此可以切割双链指导靶序列的互补链,但是具有降低的切割双链指导靶序列的非互补链的能力。(因此,当变体Cas9蛋白切割双链靶核酸时,导致单链断裂(SSB)而不是双链断裂(DSB))(例如,参见Jinek等人,Science.2012年八月18日;337(6096):816-21)。
在一些情况下,变体Cas9蛋白可以切割双链指导靶序列的非互补链,但是具有降低的切割指导靶序列的互补链的能力。例如,变体Cas9蛋白可具有降低HNH结构域(RuvC/HNH/RuvC结构域基序)功能的突变(氨基酸取代)。作为非限制性实例,在一些实施方案中,变体Cas9蛋白具有H840A(在氨基酸位置840处的组氨酸至丙氨酸)突变,并因此可以切割指导靶序列的非互补链,但是具有降低的切割靶序列的能力。指导靶序列的互补链(因此,当变体Cas9蛋白切割双链指导靶序列时,将产生SSB而不是DSB)。这样的Cas9蛋白切割指导靶序列(例如单链指导靶序列)的能力降低,但是保留了结合指导靶序列(例如单链指导靶序列)的能力。
在某些情况下,变异的Cas9蛋白切割双链靶DNA的互补链和非互补链的能力降低。作为非限制性实例,在一些情况下,变体Cas9蛋白既具有D10A突变又具有H840A突变,使得所述多肽具有降低的切割双链靶DNA的互补链和非互补链的能力。这样的Cas9蛋白切割靶DNA(例如单链靶DNA)的能力降低,但是保留了结合靶DNA(例如单链靶DNA)的能力。
作为另一个非限制性实例,在一些情况下,变体Cas9蛋白具有W476A和W1126A突变,使得所述多肽具有降低的切割靶DNA的能力。这样的Cas9蛋白切割靶DNA(例如单链靶DNA)的能力降低,但是保留了结合靶DNA(例如单链靶DNA)的能力。
作为另一个非限制性实例,在一些情况下,变体Cas9蛋白带有P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得所述多肽切割靶DNA的能力降低。这样的Cas9蛋白切割靶DNA(例如单链靶DNA)的能力降低,但是保留了结合靶DNA(例如单链靶DNA)的能力。
作为另一个非限制性实例,在一些情况下,变体Cas9蛋白带有H840A、W476A和W1126A突变,使得所述多肽具有降低的切割靶DNA的能力。这样的Cas9蛋白切割靶DNA(例如单链靶DNA)的能力降低,但是保留了结合靶DNA(例如单链靶DNA)的能力。作为另一个非限制性实例,在某些情况下,变体Cas9蛋白带有H840A、D10A、W476A和W1126A突变,使得所述多肽切割靶DNA的能力降低。这样的Cas9蛋白切割靶DNA(例如单链靶DNA)的能力降低,但是保留了结合靶DNA(例如单链靶DNA)的能力。在一些实施方案中,变体Cas9已经在Cas9 HNH结构域(A840H)中的位置840处恢复了催化的His残基。
作为另一个非限制性实例,在一些情况下,变体Cas9蛋白带有H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得所述多肽切割靶DNA的能力降低。这样的Cas9蛋白切割靶DNA(例如单链靶DNA)的能力降低,但是保留了结合靶DNA(例如单链靶DNA)的能力。作为另一个非限制性实例,在一些情况下,变体Cas9蛋白具有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得所述多肽具有降低的切割靶DNA的能力。这样的Cas9蛋白切割靶DNA(例如单链靶DNA)的能力降低,但是保留了结合靶DNA(例如单链靶DNA)的能力。在某些情况下,当变异的Cas9蛋白带有W476A和W1126A突变,或者变异的Cas9蛋白带有P475A、W476A、N477A、D1125A、W1126A和D1127A突变时,变异的Cas9蛋白不能有效地与PAM序列结合。因此,在一些这样的情况下,当在结合方法中使用这种变体Cas9蛋白时,所述方法不需要PAM序列。换句话说,在某些情况下,当将这种Cas9变异蛋白用于结合方法时,所述方法可包含指导RNA,但所述方法可在不存在PAM序列的情况下进行(结合的特异性为因此由指导RNA的靶向片段提供)。可以使其他残基突变以获得上述效果(即,使一个或另一个核酸酶部分失活)。作为非限制性实例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即被取代)。同样,除丙氨酸取代以外的突变也是合适的。
在一些实施方案中,具有降低的催化活性的变体Cas9蛋白(例如,当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变时,例如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A),Cas9变体蛋白仍可以以位点特异性方式与靶DNA结合(因为仍然被指导RNA引导至目标DNA序列),只要其保留与指导RNA相互作用的能力即可。
在一些实施方案中,变体Cas蛋白可以是spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK或spCas9-LRVSQL。
化脓链球菌Cas9的替代物可以包括来自Cpf1家族的RNA指导的内切核酸酶,其在哺乳动物细胞中显示出切割活性。来自Prevotella和Francisella 1(CRISPR/Cpf1)的CRISPR是一种类似于CRISPR/Cas9系统的DNA编辑技术。Cpf1是II类CRISPR/Cas系统的RNA指导的核酸内切酶。在普氏杆菌(Prevotella)和弗朗西斯菌(Francisella1)中发现了这种获得性免疫机制。Cpf1基因与CRISPR基因座相关联,编码一种内切核酸酶,所述核酸内切酶使用指导RNA来发现和裂解病毒DNA。Cpf1是一种比Cas9小且简单的核酸内切酶,克服了CRISPR/Cas9系统的某些局限性。与Cas9核酸酶不同,Cpf1介导的DNA切割的结果是带有短3'突出端的双链断裂。Cpf1的交错切割模式可以打开方向性基因转移的可能性,类似于传统的限制性内切酶克隆,可以提高基因编辑的效率。像上述的Cas9变体和直向同源物一样,Cpf1还可以将CRISPR靶向的AT位富集区域或AT基因组缺少SpCas9支持的NGG PAM位点的位点数目扩展。Cpf1基因座包含一个混合的α/β域、一个RuvC-I接着为一个螺旋区域、一个RuvC-II和一个锌指状域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域。此外,Cpf1不具有HNH核酸内切酶结构域,并且Cpf1的N末端不具有Cas9的α螺旋识别叶。Cpf1 CRISPR-Cas域结构显示Cpf1在功能上是独特的,被归类为2类,V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2和Cas4蛋白与I型和III型相比更类似于II型系统。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA),因此只需要CRISPR(crRNA)。这有利于基因组编辑,因为Cpf1不仅比Cas9小,而且具有更小的sgRNA分子(约为Cas9的一半)。与Cas9靶向的富含G的PAM相比,Cpf1-crRNA复合物可通过鉴定与模板间隔区相邻的5'-YTN-3'来切割目标DNA或RNA。鉴定出PAM后,Cpf1引入了一个4或5个核苷酸突出端的粘性末端样DNA双链断裂。
本发明的一些方面提供了融合蛋白,其包含充当核酸可编程DNA结合蛋白的结构域,其可用于将蛋白质例如碱基编辑器引导至特定核酸(例如DNA或RNA)序列。在特定实施方案中,融合蛋白包含核酸可编程DNA结合蛋白结构域和脱氨酶结构域。DNA结合蛋白包括但不限于Cas9(例如dCas9和nCas9)、Cas12a/Cpf1、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i。具有与Cas9不同的PAM特异性的可编程多核苷酸结合蛋白的一个例子是成簇的来自普氏杆菌和弗朗西斯菌(Cpf1)的规则间隔的短回文重复序列。与Cas9相似,Cpf1也是2类CRISPR效应子。已经显示Cpf1介导具有不同于Cas9的特征的强大的DNA干扰。Cpf1是一种缺少tracrRNA的RNA指导的内切核酸酶,它利用了T富集的,与原间隔子相邻的基序(TTN、TTTN或YTN)。此外,Cpf1通过交错的DNA双链断裂切割DNA。在16种Cpf1家族蛋白中,来自酸性氨基球菌和毛螺菌的两种酶显示在人细胞中具有有效的基因组编辑活性。Cpf1蛋白在本领域中是已知的,并且先前已经进行了描述,例如Yamano等人,“Crystal structure of Cpf1 in complex with guide RNA and targetDNA.”,Cell(165)2016,p.949-962;其全部内容通过引用结合于此。
在本发明的组合物和方法中还有用的是无核酸酶的Cpf1(dCpf1)变体,其可用作指导核苷酸序列可编程的多核苷酸结合蛋白结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域,但不具有HNH核酸内切酶结构域,并且Cpf1的N末端不具有Cas9的α-螺旋识别叶。Zetsche等人在Cell,163,759-771,2015(通过引用并入本文)中显示,Cpf1的RuvC样结构域负责切割DNA链和RuvC样结构域的失活使Cpf1核酸酶活性失活。例如,与新弗朗西斯菌Cpf1中的D917A、E1006A或D1255A相对应的突变会失活Cpf1核酸酶活性。在一些实施方案中,本发明的dCpf1包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A或D917A/E1006A/D1255A的突变。应当理解,根据本发明,可以使用任何突变,例如使Cpf1的RuvC结构域失活的取代突变、缺失或插入。
在一些实施方案中,本文提供的任何融合蛋白的核酸可编程核苷酸结合蛋白可以是Cpf1蛋白。在一些实施方案中,Cpf1蛋白是Cpf1切口酶(nCpf1)。在一些实施方案中,Cpf1蛋白是核酸酶失活的Cpf1(dCpf1)。在一些实施方案中,Cpf1、nCpf1或dCpf1包含与本文公开的Cpf1序列具有至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的同一性。在一些实施方案中,dCpf1与本文公开的Cpf1序列至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列,并且包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A或D917A/E1006A/D1255A的突变。应当理解,根据本发明,也可以使用来自其他细菌物种的Cpf1。
野生型弗朗西斯菌新孢子Cpf1的氨基酸序列如下。(D917、E1006和D1255用粗体加下划线)。
Figure BDA0003005803140000961
随后是弗朗西斯菌新孢子Cpf1 D917A的氨基酸序列。(A917、E1006和D1255用粗体和下划线标出)。
Figure BDA0003005803140000962
Figure BDA0003005803140000971
随后是弗朗西斯菌新孢子Cpf1 E1006A的氨基酸序列。(D917、A1006和D1255用粗体和下划线标出)。
Figure BDA0003005803140000972
Figure BDA0003005803140000981
随后是弗朗西斯菌新孢子Cpf1 D1255A的氨基酸序列。(D917、E1006和A1255突变位置以黑体加下划线标出)。
Figure BDA0003005803140000982
Figure BDA0003005803140000991
弗朗西斯菌新孢子Cpf1 D917A/E1006A的氨基酸序列如下。(A917、A1006和D1255用粗体和下划线标出)。
Figure BDA0003005803140000992
Figure BDA0003005803140001001
随后是弗朗西斯菌新孢子Cpf1 D917A/D1255A的氨基酸序列。(A917、E1006和A1255用粗体和下划线标出)。
Figure BDA0003005803140001002
随后是弗朗西斯菌新孢子Cpf1 E1006A/D1255A的氨基酸序列。(D917、A1006和A1255用粗体和下划线标出)。
Figure BDA0003005803140001011
随后是新产线弗朗西斯菌Cpf1 D917A/E1006A/D1255A的氨基酸序列。(A917、A1006和A1255用粗体和下划线标出)。
Figure BDA0003005803140001012
Figure BDA0003005803140001021
在一些实施方案中,融合蛋白中存在的Cas9结构域之一可以用对PAM序列没有要求的指导核苷酸序列可编程DNA结合蛋白结构域代替。
在一些实施方案中,Cas结构域是来自金黄色葡萄球菌(SaCas9)的Cas9结构域。在一些实施方案中,SaCas9结构域是核酸酶活性SaCas9、核酸酶非活性SaCas9(SaCas9d)或SaCas9切口酶(SaCas9n)。在一些实施方案中,SaCas9结构域在本文提供的任何氨基酸序列中包含N579A突变或相应的突变。
在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合具有非规范PAM的核酸序列。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合具有NNGRRT或NNGRRT PAM序列的核酸序列。在一些实施方案中,SaCas9结构域在本文提供的任何氨基酸序列中包含E781X、N967X和R1014X突变或相应突变中的一个或多个,其中X是任何氨基酸。在一些实施方案中,SaCas9结构域包含本文提供的任何氨基酸序列中的一个或多个E781K、N967K和R1014H突变,或一个或多个相应突变。在一些实施方案中,SaCas9结构域在本文提供的任何氨基酸序列中包含E781K、N967K或R1014H突变或相应的突变。
示例性SaCas9的氨基酸序列如下:
Figure BDA0003005803140001031
在所述序列中,带下划线和粗体的残基N579可以被突变(例如,突变为A579)以产生SaCas9切口酶。
示例性SaCas9n的氨基酸序列如下:
Figure BDA0003005803140001032
Figure BDA0003005803140001041
在此序列中,可以从N579突变以产生SaCas9切口酶的残基A579用下划线加粗体标出。
示例性的SaKKH Cas9的氨基酸序列如下:
Figure BDA0003005803140001042
Figure BDA0003005803140001051
带有下划线并以粗体显示的是上述残基A579,可以从N579突变以产生SaCas9切口酶。可以从E781、N967和R1014突变以产生SaKKH Cas9的上述残基K781、K967和H1014用下划线和斜体标出。
高保真Cas9域
本发明的一些方面提供了高保真度的Cas9结构域。在一些实施方案中,高保真Cas9结构域是经工程改造的Cas9结构域,其包含相对于相应的野生型Cas9结构域降低Cas9结构域与DNA的糖-磷酸骨架之间的静电相互作用的一个或多个突变。与DNA的糖-磷酸主链的静电相互作用降低的高保真Cas9域可以具有较少的脱靶效应。在一些实施方案中,Cas9结构域(例如,野生型Cas9结构域)包含一种或多种降低Cas9结构域与DNA的糖-磷酸主链之间的缔合的突变。在一些实施方案中,Cas9结构域包含一种或多种突变,其使Cas9结构域与DNA的糖-磷酸主链之间的缔合降低至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%或至少70%。
在一些实施方案中,本文提供的任何Cas9融合蛋白在本文提供的任何氨基酸序列中包含N497X、R661X、Q695X和/或Q926X突变或相应突变中的一个或多个,其中X是任何氨基酸。在一些实施方案中,本文提供的任何Cas9融合蛋白在本文提供的任何氨基酸序列中包含N497A、R661A、Q695A和/或Q926A突变或相应突变中的一个或多个。在一些实施方案中,Cas9结构域在本文提供的任何氨基酸序列中包含D10A突变或相应的突变。具有高保真度的Cas9结构域是本领域已知的,并且对技术人员而言是显而易见的。例如,Kleinstiver,B.P.等人已经描述了具有高保真度的Cas9结构域。“High-fidelity CRISPR-Cas9 nucleaseswith no detectable genome-wide off-target effects.”Nature,529,490-495(2016);和Slaymaker,I.M.等人,“Rationally engineered Cas9 nucleases with improvedspecificity.”Science,351,84-88(2015);每个的全部内容通过引用并入本文。
在一些实施方案中,修饰的Cas9是高保真度Cas9酶。在一些实施方案中,高保真Cas9酶是SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1或超精确Cas9变体(HypaCas9)。修改后的Cas9 eSpCas9(1.1)包含丙氨酸取代,可削弱HNH/RuvC凹槽与非目标DNA链之间的相互作用,从而防止链分离和在脱靶位点切割。类似地,SpCas9-HF1通过丙氨酸取代降低了脱靶编辑,丙氨酸取代破坏了Cas9与DNA磷酸骨架之间的相互作用。HypaCas9在REC3域中包含突变(SpCas9N692A/M694A/Q695A/H698A),可增加Cas9校对和目标识别力。与野生型Cas9相比,所有三种高保真酶产生的脱靶编辑均更少。
下面提供了示例性的高保真度Cas9。
相对于Cas9的高保真Cas9域突变以粗体和下划线显示
Figure BDA0003005803140001061
Figure BDA0003005803140001071
指导多核苷酸
在一个实施方案中,指导多核苷酸是指导RNA。RNA/Cas复合物可以帮助将Cas蛋白“引导”至目标DNA。Cas9/crRNA/tracrRNA核酸内切切割与间隔物互补的线性或环状dsDNA靶标。不与crRNA互补的靶链首先在核酸内切,然后在核酸外切3'-5'。实际上,DNA结合和裂解通常需要蛋白质和两个RNA。但是,可以设计单个指导RNA(“sgRNA”或简称为“gNRA”),以便将crRNA和tracrRNA的各个方面都整合到单个RNA物种中。参见,例如,Jinek M.等人,Science 337:816-821(2012),其全部内容通过引用并入本文。Cas9识别CRISPR重复序列中的短基序(PAM或原间隔子相邻基序),以帮助区分自身和非自身。Cas9核酸酶序列和结构是本领域技术人员众所周知的(参见例如“Complete genome sequence of an M1 strain ofStreptococcus pyogenes.”,Ferretti,J.J.等人,Natl.Acad.Sci.美國98:4658-4663(2001);Deltcheva E.等人,“CRISPR RNA maturation by trans-encoded small RNA andhost factor RNase III.”,Nature 471:602-607(2011);和Jinek M.等人,“Programmabledual-RNA-guided DNA endonuclease in adaptive bacterial immunity.”,Science337:816-821(2012),其每一个的全部内容通过引用并入本文。已经在各种物种中描述了Cas9直向同源物,包括但不限于化脓性链球菌和嗜热链球菌。基于所述公开,其他合适的Cas9核酸酶和序列对本领域技术人员而言是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski、Rhun和Charpentier中公开的生物体和基因座的Cas9序列,“tracrRNA和Cas9家族II型CRISPR-Cas免疫系统研究”(2013)RNA Biology 10:5,726-737;其全部内容通过引用并入本文。在一些实施方案中,Cas9核酸酶具有失活的(例如,失活的)DNA切割结构域,即,Cas9是切口酶。
在一些实施方案中,指导多核苷酸是至少一个单一指导RNA(“sgRNA”或“gNRA”)。在一些实施方案中,指导多核苷酸是至少一种tracrRNA。在一些实施方案中,指导多核苷酸不需要PAM序列将多核苷酸可编程DNA结合结构域(例如,Cas9或Cpf1)引导至靶核苷酸序列。
本文公开的碱基编辑器的多核苷酸可编程核苷酸结合结构域(例如,CRISPR衍生的结构域)可通过与指导多核苷酸结合而识别靶多核苷酸序列。指导多核苷酸(例如,gRNA)通常是单链的,并且可以被编程为与多核苷酸的靶序列位点特异性结合(即,通过互补碱基配对),从而指导与指导结合的碱基编辑器靶序列的核酸。指导多核苷酸可以是DNA。指导多核苷酸可以是RNA。在某些情况下,指导多核苷酸包含天然核苷酸(例如,腺苷)。在某些情况下,指导多核苷酸包含非天然(或非天然)核苷酸(例如,肽核酸或核苷酸类似物)。在一些情况下,指导核酸序列的靶向区域在长度上可以是至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。指导核酸的靶向区域的长度可以在10至30个核苷酸之间、或者在15至25个核苷酸之间、或者在15至20个核苷酸之间。
在一些实施方案中,指导多核苷酸包含两个或更多个单独的多核苷酸,其可以通过例如互补碱基配对(例如双重指导多核苷酸)彼此相互作用。例如,指导多核苷酸可以包含CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)。例如,指导多核苷酸可以包含一种或多种反式激活CRISPR RNA(tracrRNA)。
在II型CRISPR系统中,通过CRISPR蛋白(例如Cas9)靶向核酸通常需要在包含识别靶序列的序列的第一RNA分子(crRNA)与包含识别靶序列的序列的第二RNA分子(trRNA)之间进行互补碱基配对。重复序列形成一个稳定指导RNA-CRISPR蛋白复合物的支架区域。这样的双重指导RNA系统可以用作指导多核苷酸,以将本文公开的碱基编辑器引导至靶多核苷酸序列。
在一些实施方案中,本文提供的碱基编辑器利用单个指导多核苷酸(例如,gRNA)。在一些实施方案中,本文提供的碱基编辑器利用双重指导多核苷酸(例如双重gRNA)。在一些实施方案中,本文提供的碱基编辑器利用一种或多种指导多核苷酸(例如,多种gRNA)。在一些实施方案中,单个指导多核苷酸用于本文所述的不同碱基编辑器。例如,单个指导多核苷酸可用于胞苷碱基编辑器和腺苷碱基编辑器。
在其他实施方案中,指导多核苷酸可在单个分子(即,单分子指导核酸)中同时包含核酸的多核苷酸靶向部分和核酸的支架部分。例如,单分子指导多核苷酸可以是单个指导RNA(sgRNA或gRNA)。在本文中,术语“指导多核苷酸序列”涵盖能够与靶标多核苷酸序列相互作用并将其引导至靶标多核苷酸序列的任何单分子、双分子或多分子核酸。
典型地,指导多核苷酸(例如crRNA/trRNA复合物或gRNA)包含“多核苷酸靶向片段”和“蛋白质结合片段”,所述“多核苷酸靶向片段”包括能够识别并结合至靶多核苷酸序列的序列。在碱基编辑器的多核苷酸可编程核苷酸结合结构域组分中指导多核苷酸。在一些实施方案中,指导多核苷酸的多核苷酸靶向区段识别并结合至DNA多核苷酸,从而促进DNA中碱基的编辑。在其他情况下,指导多核苷酸的多核苷酸靶向区段识别并结合至RNA多核苷酸,从而促进RNA中碱基的编辑。在本文中,“片段”是指分子的部分或区域,例如在指导多核苷酸中核苷酸的连续延伸;片段也可以指复合物的区域/部分,使得片段可以包含大于或等于1的区域。例如,在指导多核苷酸包含多个核酸分子的情况下,其蛋白质结合区段可以包括例如沿着互补区域杂交的多个单独分子的全部或一部分。包含两个单独分子的靶向DNA的RNA的结合片段可包含(i)第一个RNA分子的40-75个碱基对,长度为100个碱基对;和(ii)第二个RNA分子的10-25个碱基对长度为50个碱基对。“段”的定义,除非在特定上下文中另外明确定义,不限于特定数量的总碱基对,也不限于来自以下任何特定数量的碱基对。对于给定的RNA分子,不限于复合物中特定数量的单独分子,并且可以包括具有任何总长度的RNA分子区域,并且可以包括与其他分子互补的区域。
指导RNA或指导多核苷酸可包含两个或更多个RNA,例如,CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)。指导RNA或指导多核苷酸有时可以包含单链RNA,或通过crRNA和tracrRNA的一部分(例如功能部分)融合形成的单指导RNA(sgRNA)。指导RNA或指导多核苷酸也可以是包含crRNA和tracrRNA的双重RNA。此外,crRNA可以与靶DNA杂交。
如上所述,指导RNA或指导多核苷酸可以是表达产物。例如,编码指导RNA的DNA可以是包含编码指导RNA的序列的载体。可以通过用分离的指导RNA或包含编码指导RNA和启动子的序列的质粒DNA转染细胞来将指导RNA或指导多核苷酸转移到细胞中。指导RNA或指导多核苷酸也可以以其他方式转移到细胞中,例如使用病毒介导的基因递送。
可以分离指导RNA或指导多核苷酸。例如,指导RNA可以以分离的RNA的形式转染到细胞或生物体中。可以使用本领域已知的任何体外转录系统通过体外转录制备指导RNA。指导RNA可以以分离的RNA的形式而不是包含指导RNA的编码序列的质粒的形式转移至细胞。
指导RNA或指导多核苷酸可以包含三个区域:在5'端的第一区域,其可以与染色体序列中的靶位点互补;第二内部区域,其可以形成茎环结构;以及第三3'可以是单链的区域。每个指导RNA的第一区域也可以是不同的,使得每个指导RNA将融合蛋白引导至特定的靶位点。此外,每个指导RNA的第二和第三区域在所有指导RNA中可以相同。
指导RNA或指导多核苷酸的第一区域可与染色体序列中靶位点处的序列互补,使得指导RNA的第一区可与靶位点碱基配对。在一些情况下,指导RNA的第一区域可包含约10个核苷酸至25个核苷酸(即,10个核苷酸至核苷酸;或约10个核苷酸至约25个核苷酸;或10个核苷酸至约25个核苷酸;或10个核苷酸至约25个核苷酸;或大约10个核苷酸至25个核苷酸)或更多。例如,在指导RNA的第一区域和染色体序列中的靶位点之间的碱基配对区域可以是或可以是大约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25个或更多个核苷酸长度。有时,指导RNA的第一区域的长度可以是或可以是大约19、20或21个核苷酸。
指导RNA或指导多核苷酸还可包含形成二级结构的第二区域。例如,由指导RNA形成的二级结构可包含茎(或发夹)和环。环和茎的长度可以变化。例如,环的长度可以在约3至10个核苷酸的范围内或从约3至10个核苷酸,并且茎的长度可以在约6至20个碱基对的范围内或在长度上。茎可包含一个或多个1至10个或大约10个核苷酸的凸起。第二区域的总长度的长度可以在约16至60个核苷酸的范围内。例如,环的长度可以是或可以是约4个核苷酸,茎的长度可以是或可以是约12个碱基对。
指导RNA或指导多核苷酸还可以在3'端包含基本上是单链的第三区域。例如,第三区域有时与目的细胞中的任何染色体序列都不互补,并且有时与其余的指导RNA不互补。此外,第三区域的长度可以变化。第三区域的长度可以大于或大于约4个核苷酸。例如,第三区域的长度可以在约5至60个核苷酸的长度范围内。
指导RNA或指导多核苷酸可以靶向基因靶标的任何外显子或内含子。在某些情况下,所述指导可以靶向基因的第1外显子或第2外显子;所述指导可以靶向基因的外显子3或4。组合物可以包含全部靶向相同外显子的多个指导RNA,或者在某些情况下,可以包含可以靶向不同外显子的多个指导RNA。基因的外显子和内含子可以被靶向。
指导RNA或指导多核苷酸可靶向约20个核苷酸或约20个核苷酸的核酸序列。靶核酸可以小于或小于约20个核苷酸。靶核酸的长度可以是至少或至少约5、10、15、16、17、18、19、20、21、22、23、24、25、30,或长度在1至100个核苷酸之间。靶核酸可以是至多或至多约5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50或1至100之间的任意值核苷酸长度。靶核酸序列可以是或可以是PAM的第一个核苷酸5'的20个碱基。指导RNA可以靶向核酸序列。靶核酸可以是至少或至少约1至10、1至20、1至30、1至40、1至50、1至60、1至70、1至80、1至90或1至100个核苷酸。
指导多核苷酸,例如指导RNA,可以指可以与另一种核酸,例如细胞基因组中的靶核酸或原间隔子杂交的核酸。指导多核苷酸可以是RNA。指导多核苷酸可以是DNA。指导多核苷酸可以被编程或设计成与位点特异性地结合核酸序列。指导多核苷酸可以包含多核苷酸链,并且可以被称为单个指导多核苷酸。指导多核苷酸可以包含两条多核苷酸链,并且可以被称为双指导多核苷酸。指导RNA可以作为RNA分子引入细胞或胚胎中。例如,RNA分子可以在体外转录和/或可以化学合成。可以从合成DNA分子(例如
Figure BDA0003005803140001121
基因片段)转录RNA。然后可以将指导RNA作为RNA分子引入细胞或胚胎中。指导RNA也可以以非RNA核酸分子例如DNA分子的形式引入细胞或胚胎。例如,可以将编码指导RNA的DNA可操作地连接至启动子控制序列,以在目标细胞或胚胎中表达指导RNA。RNA编码序列可以可操作地连接至被RNA聚合酶III(Pol III)识别的启动子序列。可用于表达指导RNA的质粒载体包括但不限于px330载体和px333载体。在某些情况下,质粒载体(例如,px333载体)可包含至少两个编码指导RNA的DNA序列。
本文描述了选择,设计和验证指导多核苷酸(例如,指导RNA和靶向序列)的方法,并且是本领域技术人员已知的。例如,为了使无碱基酶结构域(例如,AID结构域)中的脱氨酶结构域的潜在底物混杂的影响最小化,可以无意地靶向脱氨的残基数量(例如,脱靶的C残基可能可以使在靶核酸基因座内的ssDNA上的残基最小化)。另外,可以使用软件工具来优化对应于靶核酸序列的gRNA,例如以最小化整个基因组的脱靶活性。例如,对于使用化脓链球菌Cas9进行的每个可能的靶向结构域选择,所有脱靶序列(在选定的PAM之前,例如NAG或NGG)可以在整个基因组中被识别出,所述基因组最多包含一定数目(例如1、2、3、4、5、6、7、8、9或10)个不匹配的碱基对。可以鉴定出与靶位点互补的gRNA的第一区域,并且可以根据其总的预测脱靶得分对所有第一区域(例如crRNA)进行排名;排名最高的定位域表示目标活动最多且目标最少的活动。可以通过使用本领域已知的和/或本文阐述的方法在功能上评估候选靶向gRNA。
作为非限制性实例,可以使用DNA序列搜索算法鉴定与Cas9一起使用的指导RNA的crRNA中的靶DNA杂交序列。可以使用基于公共工具cas-offer的定制gRNA设计软件来进行gRNA设计,如Bae S.、Park J.,和Kim J.-S中所述Cas-OFFinder:A fast and versatilealgorithm that searches for potential off-target sites of Cas9 RNA-guidedendonucleases.Bioinformatics 30,1473-1475(2014)。所述软件会在计算指南全基因组偏离目标的倾向后对指南进行评分。通常,对于长度范围从17到24的指导,会考虑从完全匹配到7个不匹配的匹配。一旦非目标位点通过计算确定后,便会为每个指南计算出总得分,并使用网络版汇总为表格输出界面。除了识别与PAM序列相邻的潜在靶位点外,所述软件还识别与所选靶位点相差1、2、3或3个以上核苷酸的所有PAM相邻序列。可以获得靶核酸序列(例如靶基因)的基因组DNA序列,并且可以使用公开可用的工具,例如RepeatMasker程序,筛选重复组件。RepeatMasker在输入的DNA序列中搜索重复元素和低复杂度的区域。输出是给定查询序列中存在的重复的详细注释。
鉴定后,可以基于它们与靶位点的距离,它们的正交性和与相关PAM序列(例如5'G)的紧密匹配的5'核苷酸的存在,将指导RNA的第一区域(例如crRNA)按等级进行分类。基于鉴定包含相关PAM的人类基因组中的紧密匹配,例如化脓性链球菌的NGG PAM,金黄色葡萄球菌的NNGRRT或NNGRRV PAM。如本文所用,正交性是指人类基因组中包含与靶序列的最小错配的最小数目的序列的数目。“高水平的正交性”或“良好的正交性”可以例如是指20聚体靶向结构域,除了预期的靶标之外,其在人类基因组中没有相同的序列,也没有在靶标中包含一个或两个错配的任何顺序。可以选择具有良好正交性的靶向结构域,以最大程度地减少脱靶DNA的切割。
在一些实施方案中,报道系统可用于检测碱基编辑活性并测试候选指导多核苷酸。在一些实施方案中,报道系统可以包括基于报道基因的测定,其中碱基编辑活性导致报道基因的表达。例如,报告系统可以包括报告基因,所述报告基因包含失活的起始密码子,例如模板链上从3'-TAC-5'到3'-CAC-5'的突变。靶C成功脱氨后,相应的mRNA将被转录为5'-AUG-3'而不是5'-GUG-3',从而能够翻译报告基因。合适的报道基因对于本领域技术人员将是显而易见的。报告基因的非限制性实例包括编码绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、萤光素酶、分泌性碱性磷酸酶(SEAP)的基因,或对本领域技术人员显而易见的表达的任何其他基因。报道系统可用于测试许多不同的gRNA,例如,以便确定相应脱氨酶将靶向靶DNA序列的哪个残基。还可以测试靶向非模板链的sgRNA,以评估特定碱基编辑蛋白(例如,Cas9脱氨酶融合蛋白)的脱靶作用。在一些实施方案中,可以设计这样的gRNA,使得突变的起始密码子不会与gRNA碱基配对。指导多核苷酸可包含标准核糖核苷酸、修饰的核糖核苷酸(例如假尿苷)、核糖核苷酸异构体和/或核糖核苷酸类似物。在一些实施方案中,指导多核苷酸可以包含至少一种可检测标记。可检测标记可以是荧光团(例如,FAM、TMR、Cy3、Cy5、Texas Red、Oregon Green、Alexa Fluors、Halo标签或合适的荧光染料),检测标签(例如生物素,洋地黄毒苷等)、量子点或金粒子。
指导多核苷酸可以化学合成,酶合成或其组合。例如,可以使用基于标准亚磷酰胺的固相合成方法合成指导RNA。或者,可通过将编码指导RNA的DNA与噬菌体RNA聚合酶识别的启动子控制序列可操作地连接,在体外合成指导RNA。合适的噬菌体启动子序列的实例包括T7、T3、SP6启动子序列或其变体。在其中指导RNA包含两个分开的分子(例如,crRNA和tracrRNA)的实施方案中,crRNA可以被化学合成并且tracrRNA可以被酶合成。
在一些实施方案中,碱基编辑器系统可包含多个指导多核苷酸,例如gRNA。例如,gRNA可以靶向一个或多个靶基因座(例如,至少1gRNA、至少2gRNA、至少5gRNA、至少10gRNA、至少20gRNA、至少30gRNA、至少50gRNA)包含在碱基编辑器系统中。多个gRNA序列可以串联排列,并且优选被直接重复隔开。
编码指导RNA或指导多核苷酸的DNA序列也可以是载体的一部分。此外,载体可包含其他表达控制序列(例如增强子序列、Kozak序列、聚腺苷酸化序列、转录终止序列等)、选择性标记序列(例如GFP或抗生素抗性基因,例如嘌呤霉素)、复制起点等等。编码指导RNA的DNA分子也可以是线性的。编码指导RNA或指导多核苷酸的DNA分子也可以是环状的。
在一些实施方案中,碱基编辑器系统的一个或多个组件可以由DNA序列编码。可以将这些DNA序列一起或分开引入表达系统,例如细胞。例如,可以将编码多核苷酸可编程核苷酸结合结构域和指导RNA的DNA序列引入细胞,每个DNA序列可以是单独分子的一部分(例如,一个包含多核苷酸可编程核苷酸结合结构域编码序列的载体和第二个载体包含指导RNA编码序列的载体或两者可以是同一分子的一部分(例如,一个包含多核苷酸可编程核苷酸结合域和指导RNA的编码(和调节)序列的载体)。
指导多核苷酸可以包含一个或多个修饰,以提供具有新的或增强的特征的核酸。指导多核苷酸可以包含核酸亲和标签。指导多核苷酸可以包含合成核苷酸,合成核苷酸类似物,核苷酸衍生物和/或修饰的核苷酸。
在某些情况下,gRNA或指导多核苷酸可包含修饰。可以在gRNA或指导多核苷酸的任何位置进行修饰。可以对单个gRNA或指导多核苷酸进行一个以上的修饰。修饰后,gRNA或指导多核苷酸可以进行质量控制。在某些情况下,质量控制可以包括PAGE、HPLC、MS或其任意组合。
gRNA或指导多核苷酸的修饰可以是取代,插入,缺失,化学修饰,物理修饰,稳定化,纯化或其任何组合。
gRNA或指导多核苷酸也可以被5'腺苷酸、5'鸟苷三磷酸帽、5'N7-甲基鸟苷三磷酸帽、5'三磷酸帽、3'磷酸、3'硫代磷酸、5'磷酸、5'修饰硫代磷酸酯、顺式胸腺嘧啶二聚体、三聚体、C12间隔基、C3间隔基、C6间隔基、dSpacer、PC间隔基、rSpacer、Spacer 18、Spacer 9、3'-3'修饰、5'-5'修饰、无碱基、a啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇基TEG、脱硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双重生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3'DABCYL、黑洞淬灭剂1、黑洞淬灭剂2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基连接子、硫醇连接子、2'-脱氧核糖核苷类似物嘌呤、2'-脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2'-O-甲基核糖核苷类似物、糖修饰的类似物、摆动/通用碱基、荧光染料标记、2'-氟RNA、2'-O-甲基RNA、膦酸甲酯、磷酸二酯DNA、磷酸磷酸二酯RNA、硫代磷酸酯DNA、硫代磷酸酯RNA、UNA、伪尿苷5'-三磷酸酯、5'-甲基胞苷5'-三磷酸酯或其任意组合。
在某些情况下,修改是永久性的。在其他情况下,修改是暂时的。在一些情况下,对gRNA或指导多核苷酸进行了多种修饰。gRNA或指导多核苷酸修饰可以改变核苷酸的物理化学性质,例如其构象、极性、疏水性、化学反应性、碱基配对相互作用或其任何组合。
PAM序列可以是本领域已知的任何PAM序列。合适的PAM序列包括但不限于NGG、NGA、NGC、NGN、NGT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NGRRR(N)、TTTV、TYCV、TYCV、TATV、NNNGTAT、NNAGAAW或NAAAAC。Y是嘧啶;N是任何核苷酸碱基;W是A或T。
修饰也可以是硫代磷酸酯替代物。在某些情况下,天然磷酸二酯键可能易于被细胞核酸酶快速降解,并且;使用硫代磷酸酯(PS)键替代物修饰核苷酸间键对通过细胞降解的水解更稳定。修饰可以增加gRNA或指导多核苷酸的稳定性。修饰还可以增强生物活性。在某些情况下,硫代磷酸酯增强的RNA gRNA可抑制RNase A、RNase T1、小牛血清核酸酶或它们的任何组合。这些特性可允许将PS-RNA gRNA用于在体内或体外极有可能暴露于核酸酶的应用中。例如,可以在gRNA的5'或”端的最后3至5个核苷酸之间引入硫代磷酸酯(PS)键,这可以抑制核酸外切酶降解。在某些情况下,可以在整个gRNA中添加硫代磷酸酯键,以减少核酸内切酶的攻击。
原间隔子相邻基序
术语“原间隔子相邻基序(PAM)”或PAM样基序是指紧随CRISPR细菌适应性免疫系统中Cas9核酸酶靶向的DNA序列后的2-6个碱基对的DNA序列。在一些实施例中,PAM可以是5′PAM(即,位于原间隔物的5′端的上游)。在其他实施例中,PAM可以是3’PAM(即,位于原间隔物的5’端的下游)。
PAM序列对于靶标结合至关重要,但是确切的序列取决于Cas蛋白的类型。
本文提供的碱基编辑器可以包含CRISPR蛋白衍生的结构域,所述结构域能够结合包含规范或非规范的原间隔子相邻基序(PAM)序列的核苷酸序列。PAM位点是接近靶多核苷酸序列的核苷酸序列。本发明的一些方面提供了包含全部或部分具有不同PAM特异性的CRISPR蛋白质的碱基编辑器。例如,典型的Cas9蛋白,例如化脓链球菌的Cas9(spCas9),需要规范的NGG PAM序列结合特定的核酸区域,其中“NGG”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),且G为鸟嘌呤。PAM可以是CRISPR蛋白质特异性的,并且在包含不同CRISPR蛋白质衍生域的不同碱基编辑器之间可以不同。PAM可以是靶序列的5'或3'。PAM可以在靶序列的上游或下游。PAM的长度可以是1、2、3、4、5、6、7、8、9、10个或更多个核苷酸。通常,PAM的长度在2至6个核苷酸之间。下表1中描述了几种PAM变体。
表1.Cas9蛋白和相应的PAM序列
Figure BDA0003005803140001171
Figure BDA0003005803140001181
在一些实施方案中,PAM是NGT。在一些实施方案中,NGT PAM是变体。在一些实施方案中,NGT PAM变体通过在一个或多个残基1335、1337、1135、1136、1218和/或1219处的靶向突变产生。在一些实施方案中,NGT PAM变体通过在一个或多个残基处的靶向突变产生。在一些实施方案中,NGT PAM变体是通过在一个或多个残基1135、1136、1218、1219和1335处的靶向突变产生的。在一些实施方案中,NGT PAM变体选自下表2和3提供了一组靶向突变。
表2:残基1219、1335、1337、1218的NGT PAM变异突变
变体 E1219V R1335Q T1337 G1218
1 F V T
2 F V R
3 F V Q
4 F V L
5 F V T R
6 F V R R
7 F V Q R
8 F V L R
9 L L T
10 L L R
11 L L Q
12 L L L
13 F I T
14 F I R
15 F I Q
16 F I L
17 F G C
18 H L N
19 F G C A
20 H L N V
21 L A W
22 L A F
23 L A Y
24 I A W
25 I A F
26 I A Y
表3:残基1135、1136、1218、1219和1335的NGT PAM变异突变
Figure BDA0003005803140001201
Figure BDA0003005803140001211
在一些实施方式中,NGT PAM变体选自表2和3中的变体5、7、28、31或36。在一些实施方式中,变体具有改善的NGT PAM识别。
在一些实施方案中,NGT PAM变体在残基1219、1335、1337和/或1218处具有突变。在一些实施方案中,选择具有突变的NGT PAM变体以从下表4中提供的变体中提高识别性。
表4:残基1219、1335、1337和1218的NGT PAM变异突变
变体 E1219V R1335Q T1337 G1218
1 F V T
2 F V R
3 F V Q
4 F V L
5 F V T R
6 F V R R
7 F V Q R
8 F V L R
在一些实施方案中,NGT PAM选自下表5中提供的变体。
表5.NGT PAM变体
Figure BDA0003005803140001221
在一些实施方案中,Cas9结构域是来自化脓链球菌(SpCas9)的Cas9结构域。在一些实施方案中,SpCas9结构域是核酸酶活性SpCas9、核酸酶非活性SpCas9(SpCas9d)或SpCas9切口酶(SpCas9n)。在一些实施方案中,SpCas9在本文提供的任何氨基酸序列中包含D9X突变或相应的突变,其中X是除D外的任何氨基酸。在一些实施方案中,SpCas9包括D9A突变或相应的突变。在本文提供的任何氨基酸序列中。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合具有非规范PAM的核酸序列。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合具有NGG、NGA或NGCG PAM序列的核酸序列。
在一些实施方案中,SpCas9结构域在本文提供的任何氨基酸序列中包含D1135X、R1335X和T1336X突变或相应突变中的一个或多个,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域在本文提供的任何氨基酸序列中包含D1135E、R1335Q和T1336R突变或相应突变中的一个或多个。在一些实施方案中,SpCas9结构域包含D1135E、R1335Q和T1336R突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域在本文提供的任何氨基酸序列中包含D1135X、R1335X和T1336X突变或相应突变中的一个或多个,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域在本文提供的任何氨基酸序列中包含D1135V、R1335Q和T1336R突变或相应突变中的一个或多个。在一些实施方案中,SpCas9结构域在本文提供的任何氨基酸序列中包含D1135V、R1335Q和T1336R突变或相应的突变。在一些实施方案中,SpCas9结构域在本文提供的任何氨基酸序列中包含D1135X、G1217X、R1335X和T1336X突变或相应突变中的一个或多个,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域在本文提供的任何氨基酸序列中包含D1135V、G1217R、R1335Q和T1336R突变或相应突变中的一个或多个。在一些实施方案中,SpCas9结构域在本文提供的任何氨基酸序列中包含D1135V、G1217R、R1335Q和T1336R突变或相应的突变。
在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域与本文所述的Cas9多肽相同包含至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域包含本文描述的任何Cas9多肽的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域由本文描述的任何Cas9多肽的氨基酸序列组成。
在一些实例中,可以将本文公开的碱基编辑器的源自CRISPR蛋白的域识别的PAM提供给编码碱基编辑器的插入物(例如AAV插入物)的单独寡核苷酸上的细胞。在此类实施方案中,在单独的寡核苷酸上提供PAM可允许切割原本无法被切割的靶序列,因为在与靶序列相同的多核苷酸上不存在相邻的PAM。
在一个实施方案中,化脓性链球菌Cas9(SpCas9)可用作用于基因组工程的CRISPR核酸内切酶。但是,可以使用其他方法。在一些实施方案中,不同的核酸内切酶可以用于靶向某些基因组靶标。在一些实施方案中,可以使用具有非NGG PAM序列的合成的SpCas9衍生的变体。另外,已经鉴定了来自各种物种的其他Cas9直向同源物,并且这些“非SpCas9s”可以结合多种PAM序列,这也可用于本发明。例如,相对较大的SpCas9大小(大约4kb(kb)编码序列)可能导致携带SpCas9 cDNA的质粒无法在细胞中有效表达。相反,金黄色葡萄球菌Cas9(SaCas9)的编码序列比SpCas9短约1千碱基,可能使其在细胞中有效表达。与SpCas9相似,SaCas9核酸内切酶能够在体外和体内修饰哺乳动物细胞中的靶基因。在一些实施方案中,Cas蛋白可以靶向不同的PAM序列。在一些实施方案中,靶基因可以例如与Cas9 PAM 5'-NGG相邻。在其他实施例中,其他Cas9直向同源物可以具有不同的PAM要求。例如,其他PAM,例如嗜热链球菌(对于CRISPR1为5'-NNAGAA,对于CRISPR3为5'-NGGNG)和奈瑟菌脑膜炎(5'-NNNNGATT)。
在一些实施方案中,对于化脓链球菌系统,靶基因序列可以在5'-NGG PAM之前(即5'至),并且20-nt指导RNA序列可以与相反链碱基配对以介导α-链霉菌。与PAM相邻的Cas9裂解。在一些实施方案中,相邻的切割可以是PAM上游或可以是PAM上游的约3个碱基对。在一些实施方案中,相邻的片段可以是PAM上游或可以是PAM上游的约10个碱基对。在一些实施方案中,相邻的切割可以是PAM上游或可以是PAM上游的约0-20个碱基对。例如,相邻的切割可以紧邻PAM上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个碱基对。相邻的片段也可以在PAM的下游1到30个碱基对。能够结合PAM序列的示例性SpCas9蛋白的序列如下:
示例性的PAM结合SpCas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD。
示例性的结合PAM的SpCas9n的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD。
示例性的PAM结合SpEQR Cas9的氨基酸序列如下:
Figure BDA0003005803140001261
Figure BDA0003005803140001271
Figure BDA0003005803140001272
在此序列中,可以从D1135、R1335和T1337突变以产生SpEQR Cas9的残基E1135、Q1335和R1337用下划线加黑体标出。
示例性的结合PAM的SpVQR Cas9的氨基酸序列如下:
Figure BDA0003005803140001273
Figure BDA0003005803140001281
Figure BDA0003005803140001282
在此序列中,可以从D1135、R1335和T1336突变以产生SpVQR Cas9的残基V1135、Q1335和R1336带有下划线并以粗体标出。
示例性的结合PAM的SpVRER Cas9的氨基酸序列如下:
Figure BDA0003005803140001283
在一些实施方案中,Cas9结构域是重组Cas9结构域。在一些实施方案中,重组Cas9结构域是SpyMacCas9结构域。在一些实施例中,SpyMacCas9域是核酸酶活性的SpyMacCas9,核酸酶无活性的SpyMacCas9(SpyMacCas9d)或SpyMacCas9切口酶(SpyMacCas9n)。在一些实施方案中,SaCas9结构域,SaCas9d结构域或SaCas9n结构域可以结合具有非规范PAM的核酸序列。在一些实施方案中,SpyMacCas9结构域,SpCas9d结构域或SpCas9n结构域可以结合具有NAA PAM序列的核酸序列。
示例性SpyMacCas9
MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLIGALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSLHEQIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEIQTVGQNGGLFDDNPKSPLEVTPSKLVPLKKELNPKKYGGYQKPTTAYPVLLITDTKQLIPISVMNKKQFEQNPVKFLRDRGYQQVGKNDFIKLPKYTLVDIGDGIKRLWASSKEIHKGNQLVVSKKSQILLYHAHHLDSDLSNDYLQNHNQQFDVLFNEIISFSKKCKLGKEHIQKIENVYSNKKNSASIEELAESFIKLLGFTQLGATSPFNFLGVKLNQKQYKGKKDYILPCTEGTLIRQSITGLYETRVDLSKIGED。
在一些情况下,变体Cas9蛋白带有H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得所述多肽具有降低的切割靶DNA或RNA的能力。这样的Cas9蛋白切割靶DNA(例如单链靶DNA)的能力降低,但是保留了结合靶DNA(例如单链靶DNA)的能力。作为另一个非限制性实例,在一些情况下,变体Cas9蛋白具有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得所述多肽切割靶DNA的能力降低。这样的Cas9蛋白切割靶DNA(例如单链靶DNA)的能力降低,但是保留了结合靶DNA(例如单链靶DNA)的能力。在某些情况下,当变异的Cas9蛋白带有W476A和W1126A突变,或者变异的Cas9蛋白带有P475A、W476A、N477A、D1125A、W1126A和D1218A突变时,变异的Cas9蛋白不能有效地与PAM序列结合。因此,在一些这样的情况下,当在结合方法中使用这种变体Cas9蛋白时,所述方法不需要PAM序列。换句话说,在某些情况下,当将这种Cas9变异蛋白用于结合方法时,所述方法可包含指导RNA,但所述方法可在不存在PAM序列的情况下进行(结合的特异性为因此由指导RNA的靶向片段提供)。可以使其他残基突变以获得上述效果(即,使一个或另一个核酸酶部分失活)。作为非限制性实例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即被取代)。同样,除丙氨酸取代以外的突变也是合适的。
在一些实施方案中,碱基编辑器的CRISPR蛋白来源的结构域可包含具有标准PAM序列(NGG)的Cas9蛋白的全部或一部分。在其他实施方案中,碱基编辑器的Cas9衍生的结构域可以采用非规范的PAM序列。这样的序列已在本领域中描述,并且对本领域技术人员而言是显而易见的。例如,在Kleinstiver,B.P.等人,“Engineered CRISPR-Cas9 nucleaseswith altered PAM specificities”,Nature 523,481-485(2015)中已经描述了结合非规范PAM序列的Cas9结构域。Kleinstiver,B.P.等人,“Broadening the targeting range ofStaphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”NatureBiotechnology 33,1293-1298(2015);每个的全部内容通过引用合并于此。
包含核定位序列(NLS)的融合蛋白
在一些实施方案中,本文提供的融合蛋白还包含一个或多个(例如2、3、4、5)核靶向序列,例如核定位序列(NLS)。在一实施例中,使用二分式NLS。在一些实施方案中,NLS包含氨基酸序列,所述氨基酸序列促进将包含NLS的蛋白质导入细胞核(例如,通过核转运)。在一些实施方案中,本文提供的任何融合蛋白还包含核定位序列(NLS)。在一些实施方案中,将NLS融合至融合蛋白的N末端。在一些实施方案中,将NLS融合至融合蛋白的C末端。在一些实施方案中,NLS与Cas9结构域的N-末端融合。在一些实施方案中,将NLS融合至nCas9结构域或dCas9结构域的C末端。在一些实施方案中,NLS与脱氨酶的N-末端融合。在一些实施方案中,NLS与脱氨酶的C-末端融合。在一些实施方案中,NLS通过一个或多个连接子与融合蛋白融合。在一些实施方案中,将NLS与没有连接子的融合蛋白融合。在一些实施方案中,NLS包含本文提供或引用的任何NLS序列的氨基酸序列。另外的核定位序列在本领域中是已知的,并且对本领域技术人员而言是显而易见的。例如,NLS序列在Plank等人,PCT/EP2000/011690中描述,其内容通过引用并入本文作为示例性核定位序列的参考。在一些实施方案中,NLS包含PKKKRKVEGADKRTADGSEFESPKKKRKV、KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRKPKKRKKVK或KMLKNRLCFLYQLY氨基酸序列。在一些实施方案中,NLS存在于连接子中或NLS侧接于连接子,例如本文所述的连接子。在一些实施方案中,N末端或C末端NLS是二分NLS。二分体NLS包含两个碱性氨基酸簇,它们由相对较短的间隔序列隔开(因此,二分体-2个部分,而单分体NLS没有)。核纤溶酶的NLS KR[PAATKKAGQA]KKKK是普遍存在的二分信号的原型:两个碱性氨基酸簇,由大约10个氨基酸的间隔区隔开。示例性两方NLS的序列如下:PKKKRKVEGADKRTADGSEFES PKKKRKV。
在一些实施方案中,本发明的融合蛋白不包含连接子序列。在一些实施方案中,存在一个或多个结构域或蛋白质之间的连接子序列。
应当理解,本发明的融合蛋白可以包含一个或多个附加特征。例如,在一些实施方案中,融合蛋白可包含抑制剂、细胞质定位序列、输出序列,例如核输出序列或其他定位序列,以及可用于融合的增溶、纯化或检测的序列标签。蛋白质。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签(也称为组氨酸标签)、或His标签、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、Softags(例如,Softag 1,Softag 3)、链球菌标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签。对于本领域技术人员而言,其他合适的序列将是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
可以使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如,可以使用或大约使用1、2、3、4、5、6、7、8、9、10个NLS。CRISPR酶可以在氨基末端或附近包含NLS,在羧基末端或附近约或大于约1、2、3、4、5、6、7、7、8、9、10个NLS或其組合(例如,在氨基末端的一个或多个NLS和在羧基末端的一个或多个NLS)。当存在一个以上的NLS时,可以彼此独立选择,这样一个NLS可以一个以上的副本存在和/或与一个或多个其他的NLS组合存在。
所述方法中使用的CRISPR酶可包含约6个NLS。当最接近NLS的氨基酸在距N末端或C末端的多肽链中约50个氨基酸以内时,例如在1、2、3、4、5、10、15、20、25、30、40或50个氨基酸内,则认为NLS接近N末端或C末端。
排他性降低的Cas9域
通常,Cas9蛋白(如化脓链球菌的Cas9(spCas9))需要规范的NGG PAM序列结合特定的核酸区域,其中“NGG”中的“N”是腺苷(A)、胸苷(T)、或胞嘧啶(C),而G为鸟苷。这可能会限制编辑基因组中所需碱基的能力。在一些实施方案中,本文提供的碱基编辑融合蛋白可能需要放置在精确的位置,例如包含在PAM上游的靶碱基的区域。参见例如,Komor,A.C.等人,“Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage”,Nature 533,420-424(2016),其全部内容通过引用并入本文。因此,在一些实施方案中,本文提供的任何融合蛋白可包含Cas9结构域,其能够结合不包含规范(例如NGG)PAM序列的核苷酸序列。结合非规范PAM序列的Cas9结构域已经在本领域中描述,并且对本领域技术人员而言是显而易见的。例如,在Kleinstiver,B.P.等人,“”,Nature523,481-485(2015)中已经描述了结合非规范PAM序列的Cas9结构域。Kleinstiver,B.P.等人,“Broadening the targeting range of Staphylococcus aureus CRISPR-Cas9 bymodifying PAM recognition”Nature Biotechnology 33,1293-1298(2015);Nishimasu,H.等人,“Engineered CRISPR-Cas9 nuclease with expanded targeting space”Science,2018Sep 21;361(6408):1259-1262,Chatterjee P.等人在2018年10月24日發表的“Minimal PAM specificity of a highly similar SpCas9 ortholog”Sci Adv;4(10):eaau0766。doi:10.1126/sciadv.aau0766,其各自的全部内容通过引用合并于此。
核碱基编辑域
本文描述了包含融合蛋白的碱基编辑器,所述融合蛋白包括多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,一个或多个脱氨酶结构域)。通过与能够识别靶序列的指导多核苷酸相互作用,可以对碱基编辑器进行编程以编辑靶多核苷酸序列中的一个或多个碱基。一旦识别了靶序列,就将碱基编辑器锚定在将要进行编辑的多核苷酸上,然后碱基编辑器的一个或多个脱氨酶结构域组分可以编辑靶碱基。
在一些实施方案中,核碱基编辑结构域包括一个或多个脱氨酶结构域。如本文特别描述的,脱氨酶域包括胞嘧啶脱氨酶或胞苷脱氨酶和腺嘌呤脱氨酶或腺苷脱氨酶(例如,多效应核碱基编辑器)。在一些实施方案中,术语“胞嘧啶脱氨酶”和“胞苷脱氨酶”可以互换使用。在一些实施方案中,术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”可以互换使用。核碱基编辑蛋白的细节在国际PCT申请PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中进行了描述,将其全部内容通过引用并入本文。另请参阅Komor,A.C.等人,“Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”,Nature 551,464-471(2017);和Komor,AC等人,“改Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”,Science Advances 3:eaao4774(2017),全文其内容通过引用合并于此。
A到G编辑
在一些实施方案中,本文所述的碱基编辑器可包含脱氨酶结构域,其包括腺苷脱氨酶。碱基编辑器的这种腺苷脱氨酶结构域可以通过使A脱氨基形成肌苷(I)来促进腺嘌呤(A)核苷碱基向鸟嘌呤(G)核苷碱基的编辑,表现出G的碱基配对特性。腺苷脱氨酶能够脱氧核糖核酸(DNA)中的脱氧腺苷残基的腺嘌呤脱氨(即除去胺基)的方法。
在一些实施方案中,可以通过将一个或多个蛋白结构域融合在一起,从而产生融合蛋白来制备本文提供的核碱基编辑器。在某些实施方案中,本文提供的融合蛋白包含改善融合蛋白的碱基编辑活性(例如,效率、选择性和特异性)的一种或多种特征。例如,本文提供的融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。不希望受到任何特定理论的束缚,催化残基(例如,H840)的存在维持了Cas9裂解含有与靶标A相对的T的未编辑(例如,未脱氨基)链的活性。Cas9的催化残基(例如,D10至A10)的“残基”阻止了含有目标A残基的编辑链的切割。此类Cas9变体能够基于gRNA定义的靶序列在特定位置产生单链DNA断裂(缺口),从而导致未编辑链的修复,最终导致非编辑的子线。在一些实施方案中,A至G碱基编辑器还包含肌苷碱基切除修复的抑制剂,例如尿嘧啶糖基化酶抑制剂(UGI)结构域或催化失活的肌苷特异性核酸酶。不希望受任何特定理论的束缚,UGI结构域或催化失活的肌苷特异性核酸酶可以抑制或阻止脱氨基腺苷残基(例如肌苷)的碱基切除修复,这可以提高碱基编辑器的活性或效率。
包含腺苷脱氨酶的碱基编辑器可以作用于任何多核苷酸,包括DNA、RNA和DNA-RNA杂种。在某些实施方案中,包含腺苷脱氨酶的碱基编辑器可以使包含RNA的多核苷酸的靶标A脱氨基。例如,碱基编辑器可以包含能够使RNA多核苷酸和/或DNA-RNA杂合多核苷酸的靶A脱氨基的腺苷脱氨酶结构域。在一个实施方案中,并入碱基编辑器中的腺苷脱氨酶包含作用于RNA(ADAR,例如,ADAR1或ADAR2)的全部或部分腺苷脱氨酶。在另一个实施方案中,掺入碱基编辑器中的腺苷脱氨酶包含作用于tRNA(ADAT)的全部或部分腺苷脱氨酶。包含腺苷脱氨酶结构域的碱基编辑器也能够使DNA多核苷酸的A核碱基脱氨基。在一个实施方案中,碱基编辑器的腺苷脱氨酶结构域包含ADAT的全部或一部分,其包含一个或多个突变,所述突变允许ADAT将DNA中的靶标A脱氨基。例如,碱基编辑器可以包含来自大肠杆菌(EcTadA)的ADAT的全部或一部分,其包含以下一个或多个突变:D108N、A106V、D147Y、E155V、L84F、H123Y、I157F,或另一个突变腺苷脱氨酶。
腺苷脱氨酶可以源自任何合适的生物体(例如,大肠杆菌)。在一些实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括与本文提供的任何突变相对应的一个或多个突变(例如,ecTadA中的突变)。任何同源蛋白质中的相应残基可以通过例如序列比对和测定同源残基来鉴定。可以相应地产生对应于本文所述的任何突变(例如,在ecTadA中鉴定的任何突变)的任何天然存在的腺苷脱氨酶中的突变(例如,与ecTadA具有同源性)。
TadA
在特定实施方案中,TadA是本文或PCT/US2017/045381(WO2018/027078)中描述的TadA中的任何一种,其通过引用整体并入本文。在一些实施方案中,腺苷脱氨酶包含的氨基酸序列与本文提供的任何腺苷脱氨酶中列出的任何氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的同一性。应当理解,本文提供的腺苷脱氨酶可包括一个或多个突变(例如,本文提供的任何突变)。本发明内容提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施方案中,腺苷脱氨酶与参考序列或本文提供的任何腺苷脱氨酶相比,包含具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变的氨基酸序列。在一些实施方案中,腺苷脱氨酶与本领域已知或本文描述的氨基酸序列中的任何一个相比,包含具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的连续氨基酸残基。
在一些实施方案中,TadA脱氨酶是全长大肠杆菌TadA脱氨酶。例如,在某些实施方案中,腺苷脱氨酶包含氨基酸序列:
MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD。
然而,应当理解,在本发明中有用的另外的腺苷脱氨酶对于本领域技术人员而言将是显而易见的,并且在本发明的范围内。例如,腺苷脱氨酶可以是作用于tRNA(ADAT)的腺苷脱氨酶的同源物。非限制性地,示例性AD AT同源物的氨基酸序列包括以下:
金黄色葡萄球菌TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMS
RIPRVVYGADDPKGGCSGS
LMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门氏菌(S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌F3031(H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTΑΗAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
弧形柄杆菌(Caulobacter vibrioides,C.vibrioides)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(G.sulfurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALF IDERKVPPEP
大肠杆菌TadA(ecTadA)的一个实施方案包括以下内容:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
在一些实施方案中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌、腐烂希瓦氏菌、流感嗜血杆菌、新月形杆菌或枯草芽孢杆菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌。
在一个实施方案中,本发明的融合蛋白包含与TadA7.10连接的野生型TadA,其与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA7.10结构域(例如,以单体形式提供)。在其他实施方式中,ABE7.10编辑器包括能够形成异源二聚体的TadA7.10和TadA(wt)。
在一些实施方案中,腺苷脱氨酶包含的氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的同一性。应当理解,本文提供的腺苷脱氨酶可包括一个或多个突变(例如,本文提供的任何突变)。本发明内容提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施方案中,腺苷脱氨酶与参考序列或本文提供的任何腺苷脱氨酶相比,包含具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变的氨基酸序列。在一些实施方案中,腺苷脱氨酶与本领域已知或本文描述的氨基酸序列中的任何一个相比,包含具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的连续氨基酸残基。
应当理解,可以将本文提供的任何突变(例如基于TadA参考序列)引入其他腺苷脱氨酶,例如大肠杆菌TadA(ecTadA)、金黄色葡萄球菌TadA(saTadA)或其他腺苷脱氨酶(例如细菌腺苷脱氨酶)。对于本领域技术人员显而易见的是,可以类似地比对额外的脱氨酶以鉴定可以如本文所提供的突变的同源氨基酸残基。因此,可以在具有同源氨基酸残基的其他腺苷脱氨酶(例如,ecTada)中进行在TadA参考序列中鉴定的任何突变。还应当理解,本文提供的任何突变可以在TadA参考序列或另一种腺苷脱氨酶中单独或以任何组合进行。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含D108X突变,或在另一腺苷脱氨酶(例如,ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中除相应氨基酸以外的任何氨基酸。。在一些实施方案中,腺苷脱氨酶包含D108G、D108N、D108V、D108A或D108Y突变,或另一种腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含A106X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含A106V突变,或在另一腺苷脱氨酶(例如,野生型TadA或ecTadA)中包含相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含E155X突变,或在另一个腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X的存在表示野生型中相应氨基酸以外的任何氨基酸。腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含E155D、E155G或E155V突变,或在另一腺苷脱氨酶(例如,ecTadA)中相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含D147X突变,或在另一个腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X的存在指示野生型中相应氨基酸以外的任何氨基酸。腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶包含D147Y、TadA参考序列中的突变或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含A106X、E155X或D147X突变,或在另一个腺苷脱氨酶中的相应突变(例如,ecTadA),其中X表示除相应氨基酸外的任何氨基酸。野生型腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶包含E155D、E155G或E155V突变。在一些实施方案中,腺苷脱氨酶包含D147Y。
例如,腺苷脱氨酶可在TadA参考序列中包含D108N、A106V、E155V和/或D147Y突变,或在另一腺苷脱氨酶(例如,ecTadA)中包含相应的突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含以下突变组(突变组由“;”分隔),或在另一腺苷脱氨酶(例如ecTadA)中的相应突变:D108N和A106V;D108N和E155V;D108N和D147Y;A106V和E155V;A106V和D147Y;E155V和D147Y;D108N,A106V和E55V;D108N,A106V和D147Y;D108N,E55V和D147Y;A106V,E55V和D 147Y;和D108N,A106V,E55V和D147Y。然而,应当理解,可以在腺苷脱氨酶(例如,ecTadA)中进行本文提供的相应突变的任何组合。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A106X、R107X、D108X、K110X、M118X、N127X、A138X、F149X、M151X、R153X、Q154X、I156X和/或K157X突变中的一种或多种,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X的存在表示任何氨基酸除了野生型腺苷脱氨酶中相应的氨基酸以外。在一些实施方案中,腺苷脱氨酶包括TadA参考序列中的H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E或A56S、E59G、E85K或E85G、M94L、1951、V102A、F104L、A106V、R107C、R107H、R107P、D108G或D108N、D108V或D108A或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D和/或K157R突变,或另一个腺苷脱氨酶中的一个或多个相应突变(例如ecTadA)。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个或多个H8X、D108X和/或N127X突变,或在另一个腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示存在任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H8Y、D108N和/或N127S突变中的一种或多种,或在另一种腺苷脱氨酶(例如,ecTadA)中一种或多种相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X和/或T166X突变中的一种或多种序列或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X表示野生型腺苷脱氨酶中存在除相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包括H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155G或E155V或E155D、K161Q、Q163H和/或一个或多个TadA参考序列中的T166P突变或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含1、2、3、4、5或6个选自TadA参考序列中的H8X、D108X、N127X、D147X、R152X和Q154X的突变,或相应的一个或多个突变。在另一种腺苷脱氨酶(例如ecTadA)中,其中X表示野生型腺苷脱氨酶中存在除对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考中包含1、2、3、4、5、6、7或8个突变,所述突变选自H8X、M61X、M70X、D108X、N127X、Q154X、E155X和Q163X序列,或另一种腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示野生型腺苷脱氨酶中存在除相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含1、2、3、4或5个突变,所述突变选自TadA参考序列中的H8X、D108X、N127X、E155X和T166X,或另一腺苷中的相应突变。脱氨酶(例如,ecTadA),其中X表示野生型腺苷脱氨酶中存在除相应氨基酸以外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含一个、两个、三个、四个、五个或六个突变,所述突变选自H8X、A106X、D108X,另一个腺苷脱氨酶中的一个或多个突变,其中X表示存在任何氨基酸除了野生型腺苷脱氨酶中相应的氨基酸以外。在一些实施方案中,腺苷脱氨酶包含1、2、3、4、5、6、7或8个选自以下的突变:H8X、R126X、L68X、D108X、N127X、D147X和E155X,或相应的突变或另一种腺苷脱氨酶的突变,其中X表示野生型腺苷脱氨酶中存在除相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含1、2、3、4或5个突变,所述突变选自TadA参考序列中的H8X、D108X、A109X、N127X和E155X,或另一个腺苷中的相应突变。脱氨酶(例如,ecTadA),其中X表示野生型腺苷脱氨酶中存在除对应氨基酸以外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含1、2、3、4、5或6个选自TadA参考序列中的H8Y、D108N、N127S、D147Y、R152C和Q154H的突变,或相应的一个或多个突变。在另一种腺苷脱氨酶中(例如,ecTadA)。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含选自H8Y、M61I、M70V、D108N、N127S、Q154R、E155G和Q163H的1、2、3、4、5、6、7或8个突变,或另一个腺苷脱氨酶的相应突变(例如ecTadA)。在一些实施方案中,腺苷脱氨酶包含1、2、3、4或5个突变,所述突变选自TadA参考序列中的H8Y、D108N、N127S、E155V和T166P,或另一种腺苷中的相应突变。脱氨酶(例如ecTadA)。在一些实施方案中,腺苷脱氨酶包含1、2、3、4、5或6个选自TadA参考序列中的H8Y、A106T、D108N、N127S、E155D和K161Q的突变,或相应的一个或多个突变。在另一种腺苷脱氨酶中(例如,ecTadA)。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含选自H8Y、R126W、L68Q、D108N、N127S、D147Y和E155V的一个、两个、三个、四个、五个、六个、七个或八个突变,或另一个腺苷脱氨酶的相应突变(例如ecTadA)。在一些实施方案中,腺苷脱氨酶包含1、2、3、4或5个突变,所述突变选自TadA参考序列中的H8Y、D108N、A109T、N127S和E155G,或另一个腺苷脱氨酶(例如ecTadA)中的相应突变。
可以将本文提供的任何突变和任何其他突变(例如,基于ecTadA氨基酸序列)引入任何其他腺苷脱氨酶中。本文提供的任何突变可以在TadA参考序列或另一种腺苷脱氨酶(例如ecTadA)中单独或以任何组合进行。
A至G核碱基编辑蛋白的详细信息在国际PCT申请PCT/2017/045381(WO2018/027078)和Gaudelli,N.M.等人中进行描述,“Programmable base editing of A·T toG·C in genomic DNA without DNA cleavage”,Nature,551,464-471(2017),其全部内容通过引用结合于此。
在一些实施方案中,腺苷脱氨酶在另一个腺苷脱氨酶(例如,ecTadA)中包含一个或多个相应的突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含D108N、D108G或D108V突变,或在另一个腺苷脱氨酶(例如,ecTadA)中相应的突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含A106V和D108N突变,或在另一个腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含R107C和D108N突变,或在另一腺苷脱氨酶(例如,ecTadA)中相应的突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H8Y、D108N、N127S、D147Y和Q154H突变,或在另一腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H8Y、R24W、D108N、N127S、D147Y和E155V突变,或在另一腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含D108N、D147Y和E155V突变,或在另一腺苷脱氨酶(例如,ecTadA)中相应的突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H8Y、D108N和N127S突变,或在另一腺苷脱氨酶(例如,ecTadA)中相应的突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含A106V、D108N、D147Y和E155V突变,或在另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变中的一种或多种,或另一种腺苷脱氨酶中的一种或多种相应突变,其中存在X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含S2A、H8Y、I49F、L84F、H123Y、N127S、I156F和/或K160S突变中的一种或多种,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应的突变。
在一些实施方案中,腺苷脱氨酶包含L84X突变腺苷脱氨酶,其中X表示野生型腺苷脱氨酶中除相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含L84F突变,或在另一腺苷脱氨酶(例如,ecTadA)中包含相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H123X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H123Y突变,或在另一腺苷脱氨酶(例如,ecTadA)中包含相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含I157X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含I157F突变,或在另一腺苷脱氨酶(例如,ecTadA)中包含相应的突变。
在一些实施方案中,腺苷脱氨酶包含选自TadA参考序列中的L84X、A106X、D108X、H123X、D147X、E155X和I156X的1、2、3、4、5、6或7个突变,或另一个腺苷脱氨酶(例如ecTadA)中相应的一个或多个突变,其中X表示野生型腺苷脱氨酶中存在除相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含1、2、3、4、5或6个选自TadA参考序列中的S2X、I49X、A106X、D108X、D147X和E155X的突变,或相应的一个或多个突变。在另一种腺苷脱氨酶(例如ecTadA)中,其中X表示野生型腺苷脱氨酶中存在除对应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含1、2、3、4或5个选自TadA参考序列中的H8X、A106X、D108X、N127X和K160X的突变,或另一腺苷中的相应突变。脱氨酶(例如,ecTadA),其中X表示野生型腺苷脱氨酶中存在除相应氨基酸以外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含选自TadA参考序列中的L84F、A106V、D108N、H123Y、D147Y、E155V和I156F的1、2、3、4、5、6或7个突变,或相应的一个或多个另一个腺苷脱氨酶的突变(例如ecTadA)。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含1、2、3、4、5或6个选自S2A、I49F、A106V、D108N、D147Y和E155V的突变。
在一些实施方案中,腺苷脱氨酶包含1、2、3、4或5个突变,所述突变选自TadA参考序列中的H8Y、A106T、D108N、N127S和K160S,或另一个腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含E25X、R26X、R107X、A142X和/或A143X突变中的一种或多种,或在另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应突变。X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R07K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含一种或多种本文所述的对应于TadA参考序列的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种对应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含E25X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含E25M、E25D、E25A、E25R、E25V、E25S或E25Y突变,或在另一个腺苷脱氨酶中的相应突变(例如,ecTadA)。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含R26X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含R26G、R26N、R26Q、R26C、R26L或R26K突变,或在另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含R107X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含R107P、R07K、R107A、R107N、R107W、R107H或R107S突变,或在另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含A142X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N、A142D、A142G、突变或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含A143X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或在另一个腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S146X、Q154X、K157X和/或K161X突变中的一种或多种或一种另一个腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X的存在表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N和/或K161T突变中的一种或多种,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H36X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含H36L突变,或在另一腺苷脱氨酶(例如,ecTadA)中相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含N37X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含N37T或N37S突变,或在另一腺苷脱氨酶(例如,ecTadA)中相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含P48X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含P48T或P48L突变,或在另一腺苷脱氨酶(例如,ecTadA)中包含相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含R51X突变,或在另一个腺苷脱氨酶中包括相应的突变,其中X表示野生型腺苷脱氨酶中除相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含R51H或R51L突变,或在另一个腺苷脱氨酶(例如,ecTadA)中相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含S146X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含S146R或S146C突变,或在另一腺苷脱氨酶(例如,ecTadA)中相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含K157X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含K157N突变,或在另一腺苷脱氨酶(例如,ecTadA)中相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含P48X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含P48S、P48T或P48A突变,或在另一个腺苷脱氨酶(例如,ecTadA)中相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含A142X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含A142N突变,或在另一腺苷脱氨酶(例如,ecTadA)中相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含W23X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含W23R或W23L突变,或在另一个腺苷脱氨酶(例如,ecTadA)中相应的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含R152X突变,或在另一个腺苷脱氨酶(例如ecTadA)中包含相应的突变,其中X表示野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含R152P或R52H突变,或在另一个腺苷脱氨酶(例如,ecTadA)中相应的突变。
在一个实施方案中,腺苷脱氨酶可包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F和K157N。在一些实施方案中,腺苷脱氨酶包含以下相对于TadA参考序列的突变组合,其中组合的每个突变用“_”分隔,并且每个突变的组合在括号之间:
(A106V_D108N),
(R107C_D108N),
(H8Y_D108N_N127S_D147Y_Q154H),
(H8Y_R24W_D108N_N127S_D147Y_E155V),
(D108N_D147Y_E155V),
(H8Y_D108N_N127S),
(H8Y_D108N_N127S_D147Y_Q154H),
(A106V_D108N_D147Y_E155V),
(D108Q_D147Y_E155V),
(D108M_D147Y_E155V),
(D108L_D147Y_E155V),
(D108K_D147Y_E155V),
(D108I_D147Y_E155V),
(D108F_D147Y_E155V),
(A106V_D108N_D147Y),
(A106V_D108M_D147Y_E155V),
(E59A_A106V_D108N_D147Y_E155V),
(E59A cat dead_A106V_D108N_D147Y_E155V),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(D103A_D104N),
(G22P_D103A_D104N),
(G22P_D103A_D104N_S138 A),
(D103A_D104N_S138A),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V
_I156F),
(E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_I156F),
(R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F),
(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V_I156F),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(A106V_D108N_A142N_D147Y_E155V),
(R26G_A106V_D108N_A142N_D147Y_E155V),
(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V),
(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V),
(E25D_R26G_A106V_D108N_A142N_D147Y_E155V),
(A106V_R107K_D108N_A142N_D147Y_E155V),
(A106V_D108N_A142N_A143G_D147Y_E155V),
(A106V_D108N_A142N_A143L_D147Y_E155V),
(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F),
(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T),
(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F),
(N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F),
(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F),
(H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),
(H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),
(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E),
(H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I156F),
(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F),
(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F),
(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F),
(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F),
(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F),
(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(P48S_A142N),
(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N),
(P48T_I49V_A142N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152H_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155V
_I156F_K157N)
在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性的特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。
腺苷脱氨酶
本发明的融合蛋白包含一种或多种腺苷脱氨酶。在一些实施方案中,本文提供的腺苷脱氨酶能够使腺嘌呤脱氨。在一些实施方案中,本文提供的腺苷脱氨基酶能够使DNA的脱氧腺苷残基中的腺嘌呤脱氨基。腺苷脱氨酶可以源自任何合适的生物(例如大肠杆菌)。在一些实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括与本文提供的任何突变相对应的一个或多个突变(例如,ecTadA中的突变)。本领域技术人员将能够例如通过序列比对和同源残基的确定来鉴定任何同源蛋白中的相应残基。因此,本领域技术人员将能够在任何天然存在的腺苷脱氨酶中产生突变(例如,与ecTadA具有同源性),其对应于本文所述的任何突变,例如,在ecTadA中鉴定的任何突变。在一些实施方案中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌、腐烂希瓦氏菌、流感嗜血杆菌、新月形杆菌或枯草芽孢杆菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌。
在一些实施方案中,本文提供的腺苷脱氨酶能够使腺嘌呤脱氨。在一些实施方案中,本文提供的腺苷脱氨酶能够使DNA的脱氧腺苷残基中的腺嘌呤脱氨基。在一些实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括与本文提供的任何突变相对应的一个或多个突变(例如,ecTadA中的突变)。本领域技术人员将能够例如通过序列比对和同源残基的确定来鉴定任何同源蛋白中的相应残基。因此,本领域技术人员将能够在任何天然存在的腺苷脱氨酶中产生突变(例如,与ecTadA具有同源性),其对应于本文所述的任何突变,例如,在ecTadA中鉴定的任何突变。在一些实施方案中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌、腐烂希瓦氏菌、流感嗜血杆菌、新月形杆菌或枯草芽孢杆菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌。
在一些实施方案中,腺苷脱氨酶包含的氨基酸序列与本文提供的任何腺苷脱氨酶中列出的任何氨基酸序列具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的同一性。应当理解,本文提供的腺苷脱氨酶可包括一个或多个突变(例如,本文提供的任何突变)。本发明提供具有一定百分比同一性的任何脱氨酶结构域,加上本文所述的任何突变或其组合。在一些实施方案中,腺苷脱氨酶与参考序列或本文提供的任何腺苷脱氨酶相比,包含具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变的氨基酸序列。在一些实施方案中,腺苷脱氨酶与本领域已知或本文描述的氨基酸序列中的任何一个相比,包含具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少至少170个相同的连续氨基酸残基。
C到T编辑
在一些实施方案中,本文公开的碱基编辑物包括包含胞苷脱氨酶的融合蛋白,所述胞嘧啶脱氨酶能够使多核苷酸的靶胞苷(C)碱基脱氨基以产生尿苷(U),所述尿苷具有胸腺嘧啶的碱基配对特性。在一些实施方案中,例如在多核苷酸是双链的(例如DNA)的情况下,然后可以将尿苷碱基用胸苷碱基取代(例如通过细胞修复机制)以产生C:G至T:过渡。在其他实施方案中,通过碱基编辑器将核酸中的C脱氨为U不能将U取代为T。
多核苷酸中靶C的脱氨基以产生U是可以由本文所述的碱基编辑器执行的碱基编辑类型的非限制性实例。在另一个实例中,包含胞苷脱氨酶结构域的碱基编辑器可以介导胞嘧啶(C)碱基向鸟嘌呤(G)碱基的转化。例如,可以通过碱基切除修复机制(例如,通过尿嘧啶DNA糖基化酶(UDG)结构域),从碱基编辑器的胞嘧啶脱氨酶结构域的胞嘧啶脱氨基所产生的多核苷酸的U,从多核苷酸中切除,产生一个无碱基的网站。然后,与无碱基位点相对的核碱基可以通过例如跨病变聚合酶被另一个碱基例如C取代(例如,通过碱基修复机制)。尽管通常将与无碱基位点相反的核碱基用C取代,但也可以发生其他取代(例如A、G或T)。
因此,在一些实施方案中,本文所述的碱基编辑器包含能够将多核苷酸中的靶C氨基化为U的脱氨基结构域(例如胞苷脱氨酶结构域)。此外,如下所述,碱基编辑器可包含促进由脱氨基产生的U转化为T或G的其他结构域。例如,包含胞苷脱氨酶域的碱基编辑器还可包含尿嘧啶糖基化酶抑制剂(UGI)域介导T取代U,完成C到T碱基编辑事件。在另一个实例中,碱基编辑器可以掺入跨病变聚合酶以提高C-to-G碱基编辑的效率,因为跨病变聚合酶可以促进与无碱基位点相对的C的掺入(即,导致在无碱基处掺入G,完成C-to-G碱基编辑事件)。
包含胞苷脱氨酶作为域的碱基编辑器可以使任何多核苷酸,包括DNA、RNA和DNA-RNA杂合体中的靶C脱氨基。通常,胞苷脱氨酶催化位于多核苷酸单链部分的上下文中的C核碱基。在一些实施方案中,包含靶标C的整个多核苷酸可以是单链的。例如,并入碱基编辑器中的胞苷脱氨酶可以使单链RNA多核苷酸中的靶C脱氨基。在其他实施方案中,包含胞苷脱氨酶结构域的碱基编辑物可以作用于双链多核苷酸,但是靶标C可以位于在脱氨反应时处于单链状态的多核苷酸的一部分中。例如,在其中NAGPB结构域包含Cas9结构域的实施方案中,在形成Cas9-gRNA-靶DNA复合物期间,几个核苷酸可以不成对,导致形成Cas9“R-环复合物”。这些未配对的核苷酸可以形成单链DNA的气泡,所述单链DNA可以用作单链特异性核苷酸脱氨酶(例如胞苷脱氨酶)的底物。
在一些实施方案中,碱基编辑器的胞苷脱氨酶可以包含载脂蛋白BmRNA编辑复合体(APOBEC)家族脱氨酶的全部或一部分。APOBEC是进化上保守的胞苷脱氨基酶家族。这个家族的成员是C-至-U编辑酶。像蛋白质一样,APOBEC的N末端结构域是催化结构域,而C末端结构域是伪催化结构域。更具体地说,催化结构域是锌依赖性胞苷脱氨酶结构域,并且对于胞苷脱氨是重要的。APOBEC家族成员包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D(现在是指“APOBEC3E”)、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4和激活诱导的(胞苷)脱氨酶。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC1脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC2脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC3脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包含APOBEC3A脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC3B脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC3C脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC3D脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC3E脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC3F脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC3G脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包含APOBEC3H脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC4脱氨酶的全部或一部分。在一些实施方案中,并入碱基编辑器中的脱氨酶包含全部或部分活化诱导的脱氨酶(AID)。在一些实施方案中,并入碱基编辑器中的脱氨酶包括全部或部分胞苷脱氨酶1(CDA1)。应当理解,碱基编辑器可以包含来自任何合适生物体(例如人或大鼠)的脱氨酶。在一些实施方案中,碱基编辑者的脱氨酶结构域来自人、黑猩猩、大猩猩、猴子、牛、狗、大鼠或小鼠。在一些实施方案中,碱基编辑器的脱氨酶结构域衍生自大鼠(例如大鼠APOBEC1)。在一些实施方案中,碱基编辑器的脱氨酶结构域是人APOBEC1。在一些实施方案中,碱基编辑器的脱氨酶结构域是pmCDA1。
PmCDA1的氨基酸和核酸序列在下文显示。
>tr|A5H718|A5H718_PETMA胞嘧啶脱氨酶OS=海藻Petromyzon OX=7757PE=2SV=1氨基酸序列:
MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSIMIQVKILHTTKSPAV
核酸序列:>EF094822.1海七鳃鳗分离物PmCDA.21胞嘧啶脱氨酶mRNA,完整cds:
TGACACGACACAGCCGTGTATATGAGGAAGGGTAGCTGGATGGGGGGGGGGGGAATACGTTCAGAGAGGACATTAGCGAGCGTCTTGTTGGTGGCCTTGAGTCTAGACACCTGCAGACATGACCGACGCTGAGTACGTGAGAATCCATGAGAAGTTGGACATCTACACGTTTAAGAAACAGTTTTTCAACAACAAAAAATCCGTGTCGCATAGATGCTACGTTCTCTTTGAATTAAAACGACGGGGTGAACGTAGAGCGTGTTTTTGGGGCTATGCTGTGAATAAACCACAGAGCGGGACAGAACGTGGAATTCACGCCGAAATCTTTAGCATTAGAAAAGTCGAAGAATACCTGCGCGACAACCCCGGACAATTCACGATAAATTGGTACTCATCCTGGAGTCCTTGTGCAGATTGCGCTGAAAAGATCTTAGAATGGTATAACCAGGAGCTGCGGGGGAACGGCCACACTTTGAAAATCTGGGCTTGCAAACTCTATTACGAGAAAAATGCGAGGAATCAAATTGGGCTGTGGAACCTCAGAGATAACGGGGTTGGGTTGAATGTAATGGTAAGTGAACACTACCAATGTTGCAGGAAAATATTCATCCAATCGTCGCACAATCAATTGAATGAGAATAGATGGCTTGAGAAGACTTTGAAGCGAGCTGAAAAACGACGGAGCGAGTTGTCCATTATGATTCAGGTAAAAATACTCCACACCACTAAGAGTCCTGCTGTTTAAGAGGCTATGCGGATGGTTTTC
人激活诱导的胞苷脱氨酶(AID)的编码序列(CDS)的氨基酸和核酸序列如下所示。
>tr|Q6QJ80|Q6QJ80_HUMAN激活诱导的胞苷脱氨酶OS=智人OX=9606GN=AICDAPE=2SV=1氨基酸序列:
MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKAPV
人激活诱导的胞苷脱氨酶(AID)的编码序列(CDS)的氨基酸和核酸序列如下所示。
>tr|Q6QJ80|Q6QJ80_HUMAN激活诱导的胞苷脱氨酶OS=智人OX=9606GN=AICDAPE=2SV=1氨基酸序列:
MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKAPV
核酸序列:>NG_011588.1:5001-15681智人激活诱导的胞苷脱氨酶(AICDA),RefSeqGene(LRG_17)在12号染色体上:
AGAGAACCATCATTAATTGAAGTGAGATTTTTCTGGCCTGAGACTTGCAGGGAGGCAAGAAGACACTCTGGACACCACTATGGACAGGTAAAGAGGCAGTCTTCTCGTGGGTGATTGCACTGGCCTTCCTCTCAGAGCAAATCTGAGTAATGAGACTGGTAGCTATCCCTTTCTCTCATGTAACTGTCTGACTGATAAGATCAGCTTGATCAATATGCATATATATTTTTTGATCTGTCTCCTTTTCTTCTATTCAGATCTTATACGCTGTCAGCCCAATTCTTTCTGTTTCAGACTTCTCTTGATTTCCCTCTTTTTCATGTGGCAAAAGAAGTAGTGCGTACAATGTACTGATTCGTCCTGAGATTTGTACCATGGTTGAAACTAATTTATGGTAATAATATTAACATAGCAAATCTTTAGAGACTCAAATCATGAAAAGGTAATAGCAGTACTGTACTAAAAACGGTAGTGCTAATTTTCGTAATAATTTTGTAAATATTCAACAGTAAAACAACTTGAAGACACACTTTCCTAGGGAGGCGTTACTGAAATAATTTAGCTATAGTAAGAAAATTTGTAATTTTAGAAATGCCAAGCATTCTAAATTAATTGCTTGAAAGTCACTATGATTGTGTCCATTATAAGGAGACAAATTCATTCAAGCAAGTTATTTAATGTTAAAGGCCCAATTGTTAGGCAGTTAATGGCACTTTTACTATTAACTAATCTTTCCATTTGTTCAGACGTAGCTTAACTTACCTCTTAGGTGTGAATTTGGTTAAGGTCCTCATAATGTCTTTATGTGCAGTTTTTGATAGGTTATTGTCATAGAACTTATTCTATTCCTACATTTATGATTACTATGGATGTATGAGAATAACACCTAATCCTTATACTTTACCTCAATTTAACTCCTTTATAAAGAACTTACATTACAGAATAAAGATTTTTTAAAAATATATTTTTTTGTAGAGACAGGGTCTTAGCCCAGCCGAGGCTGGTCTCTAAGTCCTGGCCCAAGCGATCCTCCTGCCTGGGCCTCCTAAAGTGCTGGAATTATAGACATGAGCCATCACATCCAATATACAGAATAAAGATTTTTAATGGAGGATTTAATGTTCTTCAGAAAATTTTCTTGAGGTCAGACAATGTCAAATGTCTCCTCAGTTTACACTGAGATTTTGAAAACAAGTCTGAGCTATAGGTCCTTGTGAAGGGTCCATTGGAAATACTTGTTCAAAGTAAAATGGAAAGCAAAGGTAAAATCAGCAGTTGAAATTCAGAGAAAGACAGAAAAGGAGAAAAGATGAAATTCAACAGGACAGAAGGGAAATATATTATCATTAAGGAGGACAGTATCTGTAGAGCTCATTAGTGATGGCAAAATGACTTGGTCAGGATTATTTTTAACCCGCTTGTTTCTGGTTTGCACGGCTGGGGATGCAGCTAGGGTTCTGCCTCAGGGAGCACAGCTGTCCAGAGCAGCTGTCAGCCTGCAAGCCTGAAACACTCCCTCGGTAAAGTCCTTCCTACTCAGGACAGAAATGACGAGAACAGGGAGCTGGAAACAGGCCCCTAACCAGAGAAGGGAAGTAATGGATCAACAAAGTTAACTAGCAGGTCAGGATCACGCAATTCATTTCACTCTGACTGGTAACATGTGACAGAAACAGTGTAGGCTTATTGTATTTTCATGTAGAGTAGGACCCAAAAATCCACCCAAAGTCCTTTATCTATGCCACATCCTTCTTATCTATACTTCCAGGACACTTTTTCTTCCTTATGATAAGGCTCTCTCTCTCTCCACACACACACACACACACACACACACACACACACACACACACACAAACACACACCCCGCCAACCAAGGTGCATGTAAAAAGATGTAGATTCCTCTGCCTTTCTCATCTACACAGCCCAGGAGGGTAAGTTAATATAAGAGGGATTTATTGGTAAGAGATGATGCTTAATCTGTTTAACACTGGGCCTCAAAGAGAGAATTTCTTTTCTTCTGTACTTATTAAGCACCTATTATGTGTTGAGCTTATATATACAAAGGGTTATTATATGCTAATATAGTAATAGTAATGGTGGTTGGTACTATGGTAATTACCATAAAAATTATTATCCTTTTAAAATAAAGCTAATTATTATTGGATCTTTTTTAGTATTCATTTTATGTTTTTTATGTTTTTGATTTTTTAAAAGACAATCTCACCCTGTTACCCAGGCTGGAGTGCAGTGGTGCAATCATAGCTTTCTGCAGTCTTGAACTCCTGGGCTCAAGCAATCCTCCTGCCTTGGCCTCCCAAAGTGTTGGGATACAGTCATGAGCCACTGCATCTGGCCTAGGATCCATTTAGATTAAAATATGCATTTTAAATTTTAAAATAATATGGCTAATTTTTACCTTATGTAATGTGTATACTGGCAATAAATCTAGTTTGCTGCCTAAAGTTTAAAGTGCTTTCCAGTAAGCTTCATGTACGTGAGGGGAGACATTTAAAGTGAAACAGACAGCCAGGTGTGGTGGCTCACGCCTGTAATCCCAGCACTCTGGGAGGCTGAGGTGGGTGGATCGCTTGAGCCCTGGAGTTCAAGACCAGCCTGAGCAACATGGCAAAACGCTGTTTCTATAACAAAAATTAGCCGGGCATGGTGGCATGTGCCTGTGGTCCCAGCTACTAGGGGGCTGAGGCAGGAGAATCGTTGGAGCCCAGGAGGTCAAGGCTGCACTGAGCAGTGCTTGCGCCACTGCACTCCAGCCTGGGTGACAGGACCAGACCTTGCCTCAAAAAAATAAGAAGAAAAATTAAAAATAAATGGAAACAACTACAAAGAGCTGTTGTCCTAGATGAGCTACTTAGTTAGGCTGATATTTTGGTATTTAACTTTTAAAGTCAGGGTCTGTCACCTGCACTACATTATTAAAATATCAATTCTCAATGTATATCCACACAAAGACTGGTACGTGAATGTTCATAGTACCTTTATTCACAAAACCCCAAAGTAGAGACTATCCAAATATCCATCAACAAGTGAACAAATAAACAAAATGTGCTATATCCATGCAATGGAATACCACCCTGCAGTACAAAGAAGCTACTTGGGGATGAATCCCAAAGTCATGACGCTAAATGAAAGAGTCAGACATGAAGGAGGAGATAATGTATGCCATACGAAATTCTAGAAAATGAAAGTAACTTATAGTTACAGAAAGCAAATCAGGGCAGGCATAGAGGCTCACACCTGTAATCCCAGCACTTTGAGAGGCCACGTGGGAAGATTGCTAGAACTCAGGAGTTCAAGACCAGCCTGGGCAACACAGTGAAACTCCATTCTCCACAAAAATGGGAAAAAAAGAAAGCAAATCAGTGGTTGTCCTGTGGGGAGGGGAAGGACTGCAAAGAGGGAAGAAGCTCTGGTGGGGTGAGGGTGGTGATTCAGGTTCTGTATCCTGACTGTGGTAGCAGTTTGGGGTGTTTACATCCAAAAATATTCGTAGAATTATGCATCTTAAATGGGTGGAGTTTACTGTATGTAAATTATACCTCAATGTAAGAAAAAATAATGTGTAAGAAAACTTTCAATTCTCTTGCCAGCAAACGTTATTCAAATTCCTGAGCCCTTTACTTCGCAAATTCTCTGCACTTCTGCCCCGTACCATTAGGTGACAGCACTAGCTCCACAAATTGGATAAATGCATTTCTGGAAAAGACTAGGGACAAAATCCAGGCATCACTTGTGCTTTCATATCAACCATGCTGTACAGCTTGTGTTGCTGTCTGCAGCTGCAATGGGGACTCTTGATTTCTTTAAGGAAACTTGGGTTACCAGAGTATTTCCACAAATGCTATTCAAATTAGTGCTTATGATATGCAAGACACTGTGCTAGGAGCCAGAAAACAAAGAGGAGGAGAAATCAGTCATTATGTGGGAACAACATAGCAAGATATTTAGATCATTTTGACTAGTTAAAAAAGCAGCAGAGTACAAAATCACACATGCAATCAGTATAATCCAAATCATGTAAATATGTGCCTGTAGAAAGACTAGAGGAATAAACACAAGAATCTTAACAGTCATTGTCATTAGACACTAAGTCTAATTATTATTATTAGACACTATGATATTTGAGATTTAAAAAATCTTTAATATTTTAAAATTTAGAGCTCTTCTATTTTTCCATAGTATTCAAGTTTGACAATGATCAAGTATTACTCTTTCTTTTTTTTTTTTTTTTTTTTTTTTTGAGATGGAGTTTTGGTCTTGTTGCCCATGCTGGAGTGGAATGGCATGACCATAGCTCACTGCAACCTCCACCTCCTGGGTTCAAGCAAAGCTGTCGCCTCAGCCTCCCGGGTAGATGGGATTACAGGCGCCCACCACCACACTCGGCTAATGTTTGTATTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTCAAACTCCTGACCTCAGAGGATCCACCTGCCTCAGCCTCCCAAAGTGCTGGGATTACAGATGTAGGCCACTGCGCCCGGCCAAGTATTGCTCTTATACATTAAAAAACAGGTGTGAGCCACTGCGCCCAGCCAGGTATTGCTCTTATACATTAAAAAATAGGCCGGTGCAGTGGCTCACGCCTGTAATCCCAGCACTTTGGGAAGCCAAGGCGGGCAGAACACCCGAGGTCAGGAGTCCAAGGCCAGCCTGGCCAAGATGGTGAAACCCCGTCTCTATTAAAAATACAAACATTACCTGGGCATGATGGTGGGCGCCTGTAATCCCAGCTACTCAGGAGGCTGAGGCAGGAGGATCCGCGGAGCCTGGCAGATCTGCCTGAGCCTGGGAGGTTGAGGCTACAGTAAGCCAAGATCATGCCAGTATACTTCAGCCTGGGCGACAAAGTGAGACCGTAACAAAAAAAAAAAAATTTAAAAAAAGAAATTTAGATCAAGATCCAACTGTAAAAAGTGGCCTAAACACCACATTAAAGAGTTTGGAGTTTATTCTGCAGGCAGAAGAGAACCATCAGGGGGTCTTCAGCATGGGAATGGCATGGTGCACCTGGTTTTTGTGAGATCATGGTGGTGACAGTGTGGGGAATGTTATTTTGGAGGGACTGGAGGCAGACAGACCGGTTAAAAGGCCAGCACAACAGATAAGGAGGAAGAAGATGAGGGCTTGGACCGAAGCAGAGAAGAGCAAACAGGGAAGGTACAAATTCAAGAAATATTGGGGGGTTTGAATCAACACATTTAGATGATTAATTAAATATGAGGACTGAGGAATAAGAAATGAGTCAAGGATGGTTCCAGGCTGCTAGGCTGCTTACCTGAGGTGGCAAAGTCGGGAGGAGTGGCAGTTTAGGACAGGGGGCAGTTGAGGAATATTGTTTTGATCATTTTGAGTTTGAGGTACAAGTTGGACACTTAGGTAAAGACTGGAGGGGAAATCTGAATATACAATTATGGGACTGAGGAACAAGTTTATTTTATTTTTTGTTTCGTTTTCTTGTTGAAGAACAAATTTAATTGTAATCCCAAGTCATCAGCATCTAGAAGACAGTGGCAGGAGGTGACTGTCTTGTGGGTAAGGGTTTGGGGTCCTTGATGAGTATCTCTCAATTGGCCTTAAATATAAGCAGGAAAAGGAGTTTATGATGGATTCCAGGCTCAGCAGGGCTCAGGAGGGCTCAGGCAGCCAGCAGAGGAAGTCAGAGCATCTTCTTTGGTTTAGCCCAAGTAATGACTTCCTTAAAAAGCTGAAGGAAAATCCAGAGTGACCAGATTATAAACTGTACTCTTGCATTTTCTCTCCCTCCTCTCACCCACAGCCTCTTGATGAACCGGAGGAAGTTTCTTTACCAATTCAAAAATGTCCGCTGGGCTAAGGGTCGGCGTGAGACCTACCTGTGCTACGTAGTGAAGAGGCGTGACAGTGCTACATCCTTTTCACTGGACTTTGGTTATCTTCGCAATAAGGTATCAATTAAAGTCGGCTTTGCAAGCAGTTTAATGGTCAACTGTGAGTGCTTTTAGAGCCACCTGCTGATGGTATTACTTCCATCCTTTTTTGGCATTTGTGTCTCTATCACATTCCTCAAATCCTTTTTTTTATTTCTTTTTCCATGTCCATGCACCCATATTAGACATGGCCCAAAATATGTGATTTAATTCCTCCCCAGTAATGCTGGGCACCCTAATACCACTCCTTCCTTCAGTGCCAAGAACAACTGCTCCCAAACTGTTTACCAGCTTTCCTCAGCATCTGAATTGCCTTTGAGATTAATTAAGCTAAAAGCATTTTTATATGGGAGAATATTATCAGCTTGTCCAAGCAAAAATTTTAAATGTGAAAAACAAATTGTGTCTTAAGCATTTTTGAAAATTAAGGAAGAAGAATTTGGGAAAAAATTAACGGTGGCTCAATTCTGTCTTCCAAATGATTTCTTTTCCCTCCTACTCACATGGGTCGTAGGCCAGTGAATACATTCAACATGGTGATCCCCAGAAAACTCAGAGAAGCCTCGGCTGATGATTAATTAAATTGATCTTTCGGCTACCCGAGAGAATTACATTTCCAAGAGACTTCTTCACCAAAATCCAGATGGGTTTACATAAACTTCTGCCCACGGGTATCTCCTCTCTCCTAACACGCTGTGACGTCTGGGCTTGGTGGAATCTCAGGGAAGCATCCGTGGGGTGGAAGGTCATCGTCTGGCTCGTTGTTTGATGGTTATATTACCATGCAATTTTCTTTGCCTACATTTGTATTGAATACATCCCAATCTCCTTCCTATTCGGTGACATGACACATTCTATTTCAGAAGGCTTTGATTTTATCAAGCACTTTCATTTACTTCTCATGGCAGTGCCTATTACTTCTCTTACAATACCCATCTGTCTGCTTTACCAAAATCTATTTCCCCTTTTCAGATCCTCCCAAATGGTCCTCATAAACTGTCCTGCCTCCACCTAGTGGTCCAGGTATATTTCCACAATGTTACATCAACAGGCACTTCTAGCCATTTTCCTTCTCAAAAGGTGCAAAAAGCAACTTCATAAACACAAATTAAATCTTCGGTGAGGTAGTGTGATGCTGCTTCCTCCCAACTCAGCGCACTTCGTCTTCCTCATTCCACAAAAACCCATAGCCTTCCTTCACTCTGCAGGACTAGTGCTGCCAAGGGTTCAGCTCTACCTACTGGTGTGCTCTTTTGAGCAAGTTGCTTAGCCTCTCTGTAACACAAGGACAATAGCTGCAAGCATCCCCAAAGATCATTGCAGGAGACAATGACTAAGGCTACCAGAGCCGCAATAAAAGTCAGTGAATTTTAGCGTGGTCCTCTCTGTCTCTCCAGAACGGCTGCCACGTGGAATTGCTCTTCCTCCGCTACATCTCGGACTGGGACCTAGACCCTGGCCGCTGCTACCGCGTCACCTGGTTCACCTCCTGGAGCCCCTGCTACGACTGTGCCCGACATGTGGCCGACTTTCTGCGAGGGAACCCCAACCTCAGTCTGAGGATCTTCACCGCGCGCCTCTACTTCTGTGAGGACCGCAAGGCTGAGCCCGAGGGGCTGCGGCGGCTGCACCGCGCCGGGGTGCAAATAGCCATCATGACCTTCAAAGGTGCGAAAGGGCCTTCCGCGCAGGCGCAGTGCAGCAGCCCGCATTCGGGATTGCGATGCGGAATGAATGAGTTAGTGGGGAAGCTCGAGGGGAAGAAGTGGGCGGGGATTCTGGTTCACCTCTGGAGCCGAAATTAAAGATTAGAAGCAGAGAAAAGAGTGAATGGCTCAGAGACAAGGCCCCGAGGAAATGAGAAAATGGGGCCAGGGTTGCTTCTTTCCCCTCGATTTGGAACCTGAACTGTCTTCTACCCCCATATCCCCGCCTTTTTTTCCTTTTTTTTTTTTTGAAGATTATTTTTACTGCTGGAATACTTTTGTAGAAAACCACGAAAGAACTTTCAAAGCCTGGGAAGGGCTGCATGAAAATTCAGTTCGTCTCTCCAGACAGCTTCGGCGCATCCTTTTGGTAAGGGGCTTCCTCGCTTTTTAAATTTTCTTTCTTTCTCTACAGTCTTTTTTGGAGTTTCGTATATTTCTTATATTTTCTTATTGTTCAATCACTCTCAGTTTTCATCTGATGAAAACTTTATTTCTCCTCCACATCAGCTTTTTCTTCTGCTGTTTCACCATTCAGAGCCCTCTGCTAAGGTTCCTTTTCCCTCCCTTTTCTTTCTTTTGTTGTTTCACATCTTTAAATTTCTGTCTCTCCCCAGGGTTGCGTTTCCTTCCTGGTCAGAATTCTTTTCTCCTTTTTTTTTTTTTTTTTTTTTTTTTTTAAACAAACAAACAAAAAACCCAAAAAAACTCTTTCCCAATTTACTTTCTTCCAACATGTTACAAAGCCATCCACTCAGTTTAGAAGACTCTCCGGCCCCACCGACCCCCAACCTCGTTTTGAAGCCATTCACTCAATTTGCTTCTCTCTTTCTCTACAGCCCCTGTATGAGGTTGATGACTTACGAGACGCATTTCGTACTTTGGGACTTTGATAGCAACTTCCAGGAATGTCACACACGATGAAATATCTCTGCTGAAGACAGTGGATAAAAAACAGTCCTTCAAGTCTTCTCTGTTTTTATTCTTCAACTCTCACTTTCTTAGAGTTTACAGAAAAAATATTTATATACGACTCTTTAAAAAGATCTATGTCTTGAAAATAGAGAAGGAACACAGGTCTGGCCAGGGACGTGCTGCAATTGGTGCAGTTTTGAATGCAACATTGTCCCCTACTGGGAATAACAGAACTGCAGGACCTGGGAGCATCCTAAAGTGTCAACGTTTTTCTATGACTTTTAGGTAGGATGAGAGCAGAAGGTAGATCCTAAAAAGCATGGTGAGAGGATCAAATGTTTTTATATCAACATCCTTTATTATTTGATTCATTTGAGTTAACAGTGGTGTTAGTGATAGATTTTTCTATTCTTTTCCCTTGACGTTTACTTTCAAGTAACACAAACTCTTCCATCAGGCCATGATCTATAGGACCTCCTAATGAGAGTATCTGGGTGATTGTGACCCCAAACCATCTCTCCAAAGCATTAATATCCAATCATGCGCTGTATGTTTTAATCAGCAGAAGCATGTTTTTATGTTTGTACAAAAGAAGATTGTTATGGGTGGGGATGGAGGTATAGACCATGCATGGTCACCTTCAAGCTACTTTAATAAAGGATCTTAAAATGGGCAGGAGGACTGTGAACAAGACACCCTAATAATGGGTTGATGTCTGAAGTAGCAAATCTTCTGGAAACGCAAACTCTTTTAAGGAAGTCCCTAATTTAGAAACACCCACAAACTTCACATATCATAATTAGCAAACAATTGGAAGGAAGTTGCTTGAATGTTGGGGAGAGGAAAATCTATTGGCTCTCGTGGGTCTCTTCATCTCAGAAATGCCAATCAGGTCAAGGTTTGCTACATTTTGTATGTGTGTGATGCTTCTCCCAAAGGTATATTAACTATATAAGAGAGTTGTGACAAAACAGAATGATAAAGCTGCGAACCGTGGCACACGCTCATAGTTCTAGCTGCTTGGGAGGTTGAGGAGGGAGGATGGCTTGAACACAGGTGTTCAAGGCCAGCCTGGGCAACATAACAAGATCCTGTCTCTCAAAAAAAAAAAAAAAAAAAAGAAAGAGAGAGGGCCGGGCGTGGTGGCTCACGCCTGTAATCCCAGCACTTTGGGAGGCCGAGCCGGGCGGATCACCTGTGGTCAGGAGTTTGAGACCAGCCTGGCCAACATGGCAAAACCCCGTCTGTACTCAAAATGCAAAAATTAGCCAGGCGTGGTAGCAGGCACCTGTAATCCCAGCTACTTGGGAGGCTGAGGCAGGAGAATCGCTTGAACCCAGGAGGTGGAGGTTGCAGTAAGCTGAGATCGTGCCGTTGCACTCCAGCCTGGGCGACAAGAGCAAGACTCTGTCTCAGAAAAAAAAAAAAAAAAGAGAGAGAGAGAGAAAGAGAACAATATTTGGGAGAGAAGGATGGGGAAGCATTGCAAGGAAATTGTGCTTTATCCAACAAAATGTAAGGAGCCAATAAGGGATCCCTATTTGTCTCTTTTGGTGTCTATTTGTCCCTAACAACTGTCTTTGACAGTGAGAAAAATATTCAGAATAACCATATCCCTGTGCCGTTATTACCTAGCAACCCTTGCAATGAAGATGAGCAGATCCACAGGAAAACTTGAATGCACAACTGTCTTATTTTAATCTTATTGTACATAAGTTTGTAAAAGAGTTAAAAATTGTTACTTCATGTATTCATTTATATTTTATATTATTTTGCGTCTAATGATTTTTTATTAACATGATTTCCTTTTCTGATATATTGAAATGGAGTCTCAAAGCTTCATAAATTTATAACTTTAGAAATGATTCTAATAACAACGTATGTAATTGTAACATTGCAGTAATGGTGCTACGAAGCCATTTCTCTTGATTTTTAGTAAACTTTTATGACAGCAAATTTGCTTCTGGCTCACTTTCAATCAGTTAAATAAATGATAAATAATTTTGGAAGCTGTGAAGATAAAATACCAAATAAAATAATATAAAAGTGATTTATATGAAGTTAAAATAAAAAATCAGTATGATGGAATAAACTTG
下面提供了根据本发明的方面可以与Cas9融合的其他示例性脱氨基酶。在实施方案中,所述脱氨酶是激活诱导的脱氨酶(AID)。应当理解,在一些实施方案中,可以使用相应序列的活性结构域,例如没有定位信号的结构域(核定位序列,没有核输出信号,胞质定位信号)。
人类AID:
Figure BDA0003005803140001631
Figure BDA0003005803140001632
(下划线:核定位顺序;双下划线:核输出信号)
鼠类AID:
Figure BDA0003005803140001641
Figure BDA0003005803140001642
(下划线:核定位顺序;双下划线:核输出信号)
犬类AID:
Figure BDA0003005803140001643
Figure BDA0003005803140001644
(下划线:核定位顺序;双下划线:核输出信号)
牛类AID:
Figure BDA0003005803140001645
Figure BDA0003005803140001646
(下划线:核定位顺序;双下划线:核出口信号)
大鼠AID:
Figure BDA0003005803140001647
Figure BDA0003005803140001648
(下划线:核定位顺序;双下划线:核输出信号)
鼠类APOBEC-3-(2):
Figure BDA0003005803140001649
Figure BDA0003005803140001651
(斜体:核酸编辑域)
大鼠APOBEC-3:
Figure BDA0003005803140001652
Figure BDA0003005803140001653
(斜体:核酸编辑域)
恒河猴APOBEC-3G:
MVEPMDPRTFVSNFNNRPILSGLNTVWLCCEVKTKDPSGPPLDAKIFQGKVYSKAKYHPEMRFLRWFHKWRQLHHDQEYKVTWYVSWSPCTRCANSVATFLAKDPKVTLTIFVARLYYFWKPDYQQALRILCQKRGGPHATMKIMNYNEFQDCWNKFVDGRGKPFKPRNNLPKHYTLLQATLGELLRHLMDPGTFTSNFNNKPWVSGQHETYLCYKVERLHNDTWVPLNQHRGFLRNQAPNIHGFPKGRHAELCFLDLIPFWKLDGQQYRVTCFTSWSPCFSCAQEMAKFISNNEHVSLCIFAARIYDDQGRYQEGLRALHRDGAKIAMMNYSEFEYCWDTFVDRQGRPFQPWDGLDEHSQALSGRLRAI(斜体:核酸编辑域;下划线:胞质定位信号)
黑猩猩APOBEC-3G:
Figure BDA0003005803140001654
Figure BDA0003005803140001655
(斜体:核酸编辑域;下划线:胞质定位信号)
绿猴APOBEC-3G:
Figure BDA0003005803140001656
Figure BDA0003005803140001661
Figure BDA0003005803140001662
(斜体:核酸编辑域;下划线:胞质定位信号)
人类APOBEC-3G:
Figure BDA0003005803140001663
(斜体:核酸编辑域;下划线:胞质定位信号)
人类APOBEC-3F:
Figure BDA0003005803140001664
(斜体:核酸编辑域)
人类APOBEC-3B:
Figure BDA0003005803140001665
(斜体:核酸编辑域)
大鼠APOBEC-3B:
MQPQGLGPNAGMGPVCLGCSHRRPYSPIRNPLKKLYQQTFYFHFKNVRYAWGRKNNFLCYEVNGMDCALPVPLRQGVFRKQGHIHAELCFIYWFHDKVLRVLSPMEEFKVTWYMSWSPCSKCAEQVARFLAAHRNLSLAIFSSRLYYYLRNPNYQQKLCRLIQEGVHVAAMDLPEFKKCWNKFVDNDGQPFRPWMRLRINFSFYDCKLQEIFSRMNLLREDVFYLQFNNSHRVKPVQNRYYRRKSYLCYQLERANGQEPLKGYLLYKKGEQHVEILFLEKMRSMELSQVRITCYLTWSPCPNCARQLAAFKKDHPDLILRIYTSRLYFWRKKFQKGLCTLWRSGIHVDVMDLPQFADCWTNFVNPQRPFRPWNELEKNSWRIQRRLRRIKESWGL
牛APOBEC-3B:
DGWEVAFRSGTVLKAGVLGVSMTEGWAGSGHPGQGACVWTPGTRNTMNLLREVLFKQQFGNQPRVPAPYYRRKTYLCYQLKQRNDLTLDRGCFRNKKQRHAERFIDKINSLDLNPSQSYKIICYITWSPCPNCANELVNFITRNNHLKLEIFASRLYFHWIKSFKMGLQDLQNAGISVAVMTHTEFEDCWEQFVDNQSRPFQPWDKLEQYSASIRRRLQRILTAPI
黑猩猩APOBEC-3B:
MNPQIRNPMEWMYQRTFYYNFENEPILYGRSYTWLCYEVKIRRGHSNLLWDTGVFRGQMYSQPEHHAEMCFLSWFCGNQLSAYKCFQITWFVSWTPCPDCVAKLAKFLAEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVKIMDDEEFAYCWENFVYNEGQPFMPWYKFDDNYAFLHRTLKEIIRHLMDPDTFTFNFNNDPLVLRRHQTYLCYEVERLDNGTWVLMDQHMGFLCNEAKNLLCGFYGRHAELRFLDLVPSLQLDPAQIYRVTWFISWSPCFSWGCAGQVRAFLQENTHVRLRIFAARIYDYDPLYKEALQMLRDAGAQVSIMTYDEFEYCWDTFVYRQGCPFQPWDGLEEHSQALSGRLRAILQVRASSLCMVPHRPPPPPQSPGPCLPLCSEPPLGSLLPTGRPAPSLPFLLTASFSFPPPASLPPLPSLSLSPGHLPVPSFHSLTSCSIQPPCSSRIRETEGWASVSKEGRDLG
人类APOBEC-3C:
Figure BDA0003005803140001671
(斜体:核酸编辑域)
大猩猩APOBEC-3C:
Figure BDA0003005803140001681
(斜体:核酸编辑域)
人类APOBEC-3A:
Figure BDA0003005803140001682
(斜体:核酸编辑域)
猕猴APOBEC-3A:
Figure BDA0003005803140001683
(斜体:核酸编辑域)
牛APOBEC-3A:
Figure BDA0003005803140001684
Figure BDA0003005803140001685
Figure BDA0003005803140001686
(斜体:核酸编辑域)
猕猴APOBEC-3H:
MALLTAKTFSLQFNNKRRVNKPYYPRKALLCYQLTPQNGSTPTRGHLKNKKKDHAEIRFINKIKSMGLDETQCYQVTCYLTWSPCPSCAGELVDFIKAHRHLNLRIFASRLYYHWRPNYQEGLLLLCGSQVPVEVMGLPEFTDCWENFVDHKEPPSFNPSEKLEELDKNSQAIKRRLERIKSRSVDVLENGLRSLQLGPVTPSSSIRNSR
人类APOBEC-3D:
Figure BDA0003005803140001691
(斜体:核酸编辑域)
人类APOBEC-1:
MTSEKGPSTGDPTLRRRIEPWEFDVFYDPRELRKEACLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERDFHPSMSCSITWFLSWSPCWECSQAIREFLSRHPGVTLVIYVARLFWHMDQQNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLTFFRLHLQNCHYQTIPPHILLATGLIHPSVAWR(斜体:核酸编辑域)
鼠类APOBEC-1:
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSVWRHTSQNTSNHVEVNFLEKFTTERYFRPNTRCSITWFLSWSPCGECSRAITEFLSRHPYVTLFIYIARLYHHTDQRNRQGLRDLISSGVTIQIMTEQEYCYCWRNFVNYPPSNEAYWPRYPHLWVKLYVLELYCIILGLPPCLKILRRKQPQLTFFTITLQTCHYQRIPPHLLWATGLK
大鼠APOBEC-1:
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK
人类APOBEC-2:
MAQKEEAAVATEAASQNGEDLENLDDPEKLKELIELPPFEIVTGERLPANFFKFQFRNVEYSSGRNKTFLCYVVEAQGKGGQVQASRGYLEDEHAAAHAEEAFFNTILPAFDPALRYNVTWYVSSSPCAACADRIIKTLSKTKNLRLLILVGRLFMWEEPEIQAALKKLKEAGCKLRIMKPQDFEYVWQNFVEQEEGESKAFQPWEDIQENFLYYEEKLADILK
鼠类APOBEC-2:
MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEVQSKGGQAQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRLFMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK
大鼠APOBEC-2:
MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEAQSKGGQVQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRLFMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYLWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK
牛类APOBEC-2:
MAQKEEAAAAAEPASQNGEEVENLEDPEKLKELIELPPFEIVTGERLPAHYFKFQFRNVEYSSGRNKTFLCYVVEAQSKGGQVQASRGYLEDEHATNHAEEAFFNSIMPTFDPALRYMVTWYVSSSPCAACADRIVKTLNKTKNLRLLILVGRLFMWEEPEIQAALRKLKEAGCRLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK
海七鳃鳗CDA1(pmCDAl):
MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSFMIQVKILHTTKSPAV
人APOBEC3G D316R D317R:
MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPPLDAKIFRGQVYSELKYHPEMRFFHWFSKWRKLHRDQEYEVTWYISWSPCTKCTRDMATFLAEDPKVTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKFNYDEFQHCWSKFVYSQRELFEPWNNLPKYYILLHFMLGEILRHSMDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKKHVSLCIFTARIYRRQGRCQEGLRTLAEAGAKISFTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQNQEN
人类APOBEC3G链A:
MDPPTFTFNFNNEPWWGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYDDQGRCQEGLRTLAEAGAKISFTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQ
人APOBEC3G链A D120R D121R:
MDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYRRQGRCQEGLRTLAEAGAKISFMTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQ
本发明的一些方面基于以下认识:调节本文所述的任何融合蛋白的脱氨酶结构域催化活性,例如通过在脱氨酶结构域中进行点突变来影响融合蛋白的合成能力(例如,碱基编辑器)。例如,减少但不消除碱基编辑融合蛋白中脱氨酶结构域催化活性的突变可使脱氨酶结构域催化邻近靶残基的残基脱氨的可能性降低,从而缩小了脱氨窗口。缩小脱氨窗口的能力可以防止与特定目标残基相邻的残基发生不希望的脱氨基,这可以减少或防止脱靶效应。
例如,在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶可包含一种或多种选自rAPOBEC1的H121X、H122X、R126X、R126X、R118X、W90X、W90X和R132X的突变,或一个或多个另一个APOBEC脱氨酶中的相应突变,其中X是任何氨基酸。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含一种或多种选自rAPOBEC1的H121R、H122R、R126A、R126E、R118A、W90A、W90Y和R132E的突变,或一种或多种相应的突变。另一个APOBEC脱氨酶。
在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含选自hAPOBEC3G的D316X、D317X、R320X、R320X、R313X、W285X、W285X、R326X的一个或多个突变,或另一个中的一个或多个对应突变。APOBEC脱氨酶,其中X是任何氨基酸。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含选自hAPOBEC3G的D316R、D317R、R320A、R320E、R313A、W285A、W285Y、R326E的一个或多个突变,或一个或多个相应突变。在另一个APOBEC脱氨酶中。
在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含rAPOBEC1的H121R和H122R突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含rAPOBEC1的R126A突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含rAPOBEC1的R126E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含rAPOBEC1的R118A突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含rAPOBEC1的W90A突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含rAPOBEC1的W90Y突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含rAPOBEC1的R132E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含rAPOBEC1的W90Y和R126E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可以包含APOBEC脱氨酶,其包含rAPOBEC1的R126E和R132E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可以包含APOBEC脱氨酶,其包含rAPOBEC1的W90Y和R132E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含rAPOBEC1的W90Y、R126E和R132E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。
在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含hAPOBEC3G的D316R和D317R突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含hAPOBEC3G的R320A突变,或另一APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含hAPOBEC3G的R320E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含hAPOBEC3G的R313A突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含hAPOBEC3G的W285A突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含hAPOBEC3G的W285Y突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含hAPOBEC3G的R326E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含hAPOBEC3G的W285Y和R320E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含hAPOBEC3G的R320E和R326E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含hAPOBEC3G的W285Y和R326E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。在一些实施方案中,并入碱基编辑器中的APOBEC脱氨酶可包含APOBEC脱氨酶,其包含hAPOBEC3G的W285Y、R320E和R326E突变,或另一APOBEC脱氨酶中的一个或多个对应突变。
许多修饰的胞苷脱氨酶是可商购的,包括但不限于SaBE3、SaKKH-BE3、VQR-BE3、EQR-BE3、VRER-BE3、YE1-BE3、EE-BE3、YE2-BE3和YEE-BE3,其可以从Addgene获得(质粒85169、85170、85171、85172、85173、85174、85175、85176、85177)。在一些实施方案中,并入碱基编辑器中的脱氨酶包括APOBEC1脱氨酶的全部或一部分。
C到T核碱基编辑蛋白的详细信息在国际PCT申请PCT/US2016/058344(WO2017/070632)和Komor,A.C.等人中进行了描述,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016),其全部内容通过引用结合于此。
胞嘧啶脱氨酶
本文提供的融合蛋白包含一种或多种胞苷脱氨酶。在一些实施方案中,本文提供的胞苷脱氨酶能够将胞嘧啶或5-甲基胞嘧啶脱氨为尿嘧啶或胸腺嘧啶。在一些实施方案中,本文提供的胞苷脱氨酶能够使DNA中的胞嘧啶脱氨基。胞苷脱氨酶可以源自任何合适的生物。在一些实施方案中,胞苷脱氨酶是天然存在的胞苷脱氨酶,其包括一个或多个对应于本文提供的任何突变的突变。本领域技术人员将能够例如通过序列比对和同源残基的确定来鉴定任何同源蛋白中的相应残基。因此,本领域技术人员将能够在对应于本文描述的任何突变的任何天然存在的胞苷脱氨酶中产生突变。在一些实施方案中,胞苷脱氨酶来自原核生物。在一些实施方案中,胞苷脱氨酶来自细菌。在一些实施方案中,胞苷脱氨酶来自哺乳动物(例如人)。
在一些实施方案中,胞苷脱氨酶包含的氨基酸序列与本文所述的任何胞苷脱氨酶氨基酸序列具有至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的同一性。应当理解,本文提供的胞苷脱氨酶可以包括一个或多个突变(例如,本文提供的任何突变)。本发明提供具有一定百分比同一性的任何脱氨酶结构域,加上本文所述的任何突变或其组合。在一些实施方案中,胞苷脱氨酶与参考序列或本文提供的任何胞苷脱氨基酶相比,包含具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变的氨基酸序列。在一些实施方案中,胞苷脱氨酶与本领域已知或本文描述的氨基酸序列中的任何一个相比,包含具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160、至少170个相同的连续氨基酸残基。
本发明的融合蛋白包含两个或更多个核酸编辑域。在一些实施方案中,核酸编辑域可以催化C到U碱基的改变。在一些实施方案中,核酸编辑结构域是脱氨酶结构域,特别是两个脱氨酶结构域。在一些实施方案中,脱氨酶是胞苷脱氨酶和腺苷脱氨酶。在一些实施方案中,脱氨酶是胞苷脱氨酶或腺苷脱氨酶。在一些实施方案中,脱氨酶是载脂蛋白B mRNA编辑复合体(APOBEC)家族脱氨酶。在一些实施方案中,脱氨酶是APOBEC1脱氨酶。在一些实施方案中,脱氨酶是APOBEC2脱氨酶。在一些实施方案中,脱氨酶是APOBEC3脱氨酶。在一些实施方案中,脱氨酶是APOBEC3A脱氨酶。在一些实施方案中,脱氨酶是APOBEC3B脱氨酶。在一些实施方案中,脱氨酶是APOBEC3C脱氨酶。在一些实施方案中,脱氨酶是APOBEC3D脱氨酶。在一些实施方案中,脱氨酶是APOBEC3E脱氨酶。在一些实施方案中,脱氨酶是APOBEC3F脱氨酶。在一些实施方案中,脱氨酶是APOBEC3G脱氨酶。在一些实施方案中,脱氨酶是APOBEC3H脱氨酶。在一些实施方案中,脱氨酶是APOBEC4脱氨酶。在一些实施方案中,脱氨酶是激活诱导的脱氨酶(AID)。在一些实施方案中,脱氨酶是脊椎动物脱氨酶。在一些实施方案中,脱氨酶是无脊椎动物脱氨酶。在一些实施方案中,脱氨酶是人类、黑猩猩、大猩猩、猴子、牛、狗、大鼠或小鼠的脱氨酶。在一些实施方案中,脱氨酶是人脱氨酶。在一些实施方案中,脱氨酶是大鼠脱氨酶,例如rAPOBEC1。在一些实施方案中,脱氨酶是马油双胞胎胞嘧啶核苷脱氨酶1(pmCDA1)。在一些实施方案中,脱氨酶是人类APOBEC3G。在一些实施方案中,脱氨酶是人类APOBEC3G的片段。在一些实施方案中,脱氨酶是包含D316R D317R突变的人类APOBEC3G变体。在一些实施方案中,脱氨酶是人类APOBEC3G的片段,并且包含对应于D316R D317R突变的突变。在一些实施方案中,核酸编辑结构域与本文所述的任何脱氨酶的脱氨酶结构域具有至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的同一性。
在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性的特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。
具有指导RNA的Cas9复合物
本发明的一些方面提供了复合物,其包含本文提供的任何融合蛋白和结合至融合蛋白的Cas9结构域(例如,dCas9,核酸酶活性Cas9或Cas9切口酶)的指导RNA。在一些实施方案中,指导核酸(例如,指导RNA)长为15-100个核苷酸,并且包含与靶序列互补的至少10个连续核苷酸的序列。在一些实施方案中,指导RNA是15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35,36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,指导RNA包含15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34的序列,35、36、37、38、39或40个与靶序列互补的连续核苷酸。在一些实施方案中,靶序列是DNA序列。在一些实施方案中,靶序列是细菌,酵母,真菌,昆虫,植物或动物的基因组中的序列。在一些实施方案中,靶序列是人基因组中的序列。在一些实施方案中,靶序列的3'末端紧邻规范PAM序列(NGG)。在一些实施方案中,靶序列的3'末端紧邻非规范的PAM序列(例如,表1或5'-NAA-3'中列出的序列)。在一些实施方案中,所述指导核酸(例如,指导RNA)与目的基因(例如,与疾病或病症相关的基因)中的序列互补。
本发明的一些方面提供了使用本文提供的融合蛋白或复合物的方法。例如,本发明的一些方面提供了包括使DNA分子与本文提供的任何融合蛋白以及至少一个指导RNA接触的方法,其中所述指导RNA长约15至100个核苷酸,并且包含至少一个序列。与靶序列互补的10个连续核苷酸。在一些实施方案中,靶序列的3'末端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶序列的3′末端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5′(TTTV)序列。
将理解的是,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如在成熟蛋白的前体和成熟蛋白本身中,编号之间的差异可能会影响编号。本领域技术人员将能够通过本领域公知的方法,例如通过序列比对和同源残基的确定,来鉴定任何同源蛋白和各自编码核酸中的各自残基。
对于本领域技术人员而言显而易见的是,为了将本文公开的任何融合蛋白靶向至靶位点,例如,包含待编辑的突变的位点,通常必须共表达融合物蛋白质和指导RNA。如本文其他地方更详细地解释的,指导RNA通常包含允许Cas9结合的tracrRNA框架和指导序列,其赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性。备选地,指导RNA和tracrRNA可以作为两个核酸分子分开提供。在一些实施方案中,指导RNA包含结构,其中指导序列包含与靶序列互补的序列。指导序列通常为20个核苷酸长。基于本发明内容,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶位点的合适的指导RNA的序列对于本领域技术人员将是显而易见的。此类合适的指导RNA序列通常包含与待编辑靶核苷酸上游或下游50个核苷酸内的核酸序列互补的指导序列。本文提供了一些适用于将任何提供的融合蛋白靶向特定靶序列的示例性指导RNA序列。
其他结构域
本文所述的碱基编辑器可包括有助于促进多核苷酸的核碱基的编辑,修饰或改变的任何结构域。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域(例如,Cas9),核苷碱基编辑结构域(例如,脱氨酶结构域)和一个或多个其他结构域。在某些情况下,额外的结构域可以促进碱基编辑器的酶促或催化功能,碱基编辑器的结合功能,或者是可能干扰所需碱基编辑结果的细胞机器抑制剂(例如酶)。在一些实施方案中,碱基编辑器可包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰基酶、乙酰基转移酶、转录激活剂或转录阻遏物结构域。
在一些实施方案中,碱基编辑器可包含尿嘧啶糖基化酶抑制剂(UGI)结构域。UGI结构域可以例如通过抑制由C的脱氨基形成的U向C核碱基的转化来提高包含胞苷脱氨酶结构域的碱基编辑器的效率。在某些情况下,对U:G异源双链DNA的存在的细胞DNA修复反应可能导致细胞中核碱基编辑效率的降低。在这种情况下,尿嘧啶DNA糖基化酶(UDG)可以催化细胞中DNA的U去除,从而可以启动碱基切除修复(BER),主要导致U:G对还原为C:G对。在这种情况下,可以在包含一个或多个结合单链,阻断编辑的碱基,抑制UGI,抑制BER,保护编辑的碱基和/或促进未编辑的链的一个或多个域的碱基编辑器中抑制BER。因此,本发明涵盖了包含UGI结构域的碱基编辑器融合蛋白。
在一些实施方案中,碱基编辑器包含全部或部分双链断裂(DSB)结合蛋白作为结构域。例如,DSB结合蛋白可以包括噬菌体Mu的Gam蛋白,其可以结合到DSB的末端并可以保护它们免于降解。参见Komor,A.C.等人,“Improved base excision repair inhibitionand bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017),全文其内容通过引用合并于此。
在一些实施方案中,碱基编辑器可包含全部或部分核酸聚合酶(NAP)作为域。例如,碱基编辑器可以包含真核NAP的全部或一部分。在一些实施方案中,掺入碱基编辑器中的NAP或其部分是DNA聚合酶。在一些实施方案中,并入碱基编辑器中的NAP或其部分具有跨病变聚合酶活性。在某些情况下,掺入碱基编辑器中的NAP或其部分是转病DNA聚合酶。在一些实施方案中,并入碱基编辑器中的NAP或其部分是Rev7、Rev1复合物、聚合酶ι、聚合酶κ或聚合酶η。在一些实施方案中,并入碱基编辑器中的NAP或其部分是真核聚合酶α、β、γ、δ、ε、γ、η、ι、κ、λ、μ或ν组分。在一些实施方案中,并入碱基编辑器中的NAP或其部分与核酸聚合酶(例如,跨损伤(translesion)DNA聚合酶)具有包含至少75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%的同一性。
碱基编辑器系统
本文提供的碱基编辑器系统包括以下步骤:(a)使受试者的多核苷酸(例如,双链DNA或RNA、单链DNA或RNA)的靶核苷酸序列与包含以下内容的碱基编辑器系统接触:包含腺苷脱氨酶结构域、胞苷脱氨酶结构域和DNA糖基化酶结构域中的两个或更多个的多效应核碱基编辑器,其中上述结构域与多核苷酸结合结构域融合,从而形成能够在多个位点引起变化的核碱基编辑器如本文所述的核酸分子内的不同碱基和至少一个指导多核酸(例如,gRNA),其中靶核苷酸序列包含靶核碱基对;(b)诱导靶区域的链分离;(c)将靶区域的单链中的靶核碱基对的第一核碱基转化为第二核碱基;(d)切割不超过靶区域的一条链,其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基替代。应当理解,在一些实施例中,步骤(b)被省略。在一些实施方案中,靶向的核碱基对是一个或多个基因中的多个核碱基对。在一些实施方案中,本文提供的碱基编辑器系统能够对一个或多个基因中的多个核碱基对进行多重编辑。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因中,其中至少一个基因位于不同的基因座中。
在一些实施方案中,所述切割的单链(带切口的链)与指导核酸杂交。在一些实施方案中,所述切割的单链与包含第一核碱基的链相反。在一些实施方案中,所述碱基编辑器包括Cas9域。在一些实施方案中,所述第一碱基是腺嘌呤,而所述第二碱基不是G、C、A或T。在一些实施方案中,第二碱基是肌苷。
本文提供的碱基编辑系统提供了一种新的基因组编辑方法,所述方法使用的融合蛋白包含催化缺陷型化脓性链球菌Cas9,胞苷脱氨酶和碱基切除修复抑制剂以诱导可编程的单核苷酸(C→T或A→G)DNA的变化而不会产生双链DNA断裂,不需要供体DNA模板,也不会引起过多的随机插入和缺失。
本文提供了使用碱基编辑器系统编辑核碱基的系统,组合物和方法。在一些实施方案中,碱基编辑器系统包括碱基编辑器(BE),其包含多核苷酸可编程核苷酸结合结构域和一个或多个例如两个核碱基编辑域(例如两个脱氨酶域),用于编辑核碱基。以及与多核苷酸可编程核苷酸结合域结合的指导多核苷酸(例如,指导RNA)。在一些实施方案中,碱基编辑器系统包括碱基编辑器(BE),其包含多核苷酸可编程核苷酸结合结构域和一个或多个例如两个核碱基编辑域(例如两个相同或不同的脱氨酶域)用于编辑核碱基;以及与多核苷酸可编程核苷酸结合域结合的指导多核苷酸(例如,指导RNA)。在一些实施方案中,碱基编辑器系统包括胞嘧啶碱基编辑器(CBE)和腺苷碱基编辑器(ABE)。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中,核碱基编辑结构域包括一个或多个,例如两个脱氨酶结构域。在某些情况下,脱氨酶结构域可以是胞嘧啶脱氨酶或胞苷脱氨酶和腺嘌呤脱氨酶或腺苷脱氨酶。在一些实施方案中,术语“胞嘧啶脱氨酶”和“胞苷脱氨酶”可以互换使用。在一些实施方案中,术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”可以互换使用。在某些情况下,脱氨酶结构域可以是胞嘧啶脱氨酶或胞苷脱氨酶。在某些情况下,脱氨酶结构域可以是腺嘌呤脱氨酶或腺苷脱氨酶。核碱基编辑蛋白的细节在国际PCT申请PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中进行了描述,将其全部内容通过引用并入本文。另请参阅Komor,A.C.等人,“Programmable editing of a target base in genomic DNA without double-strandedDNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.等人,“Programmable baseediting of A·T to G·C in genomic DNA without DNA cleavage”,Nature 551,464-471(2017);和Komor,A.C.等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”,Science Advances 3:eaao4774(2017),全文其内容通过引用合并于此。
在一些实施方案中,核碱基编辑器系统可以包括一个以上的碱基编辑组件。例如,如本文所述,核碱基编辑器系统可包括不止一种脱氨酶。在一些实施方案中,核酸酶碱基编辑器系统可包括一种或多种胞苷脱氨酶和/或一种或多种腺苷脱氨酶。在一些实施方案中,可以使用单个指导多核苷酸将不同的脱氨酶靶向靶核酸序列。在一些实施方案中,可以利用一对指导多核苷酸将不同的脱氨酶靶向靶核酸序列。
碱基编辑器系统的核碱基组分和多核苷酸可编程核苷酸结合组分可以彼此共价或非共价结合。例如,在一些实施方案中,可以通过多核苷酸可编程核苷酸结合结构域将脱氨酶结构域靶向靶核苷酸序列。在一些实施方案中,可将多核苷酸可编程核苷酸结合结构域融合或连接至脱氨酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可通过与脱氨酶结构域非共价相互作用或与其缔合而将脱氨酶结构域靶向靶核苷酸序列。例如,在一些实施方案中,核碱基编辑成分,例如脱氨酶成分,可以包含能够与其他异源部分或结构域相互作用,缔合或与之形成复合物的其他异源部分或结构域。多核苷酸可编程核苷酸结合结构域的一部分。在一些实施方案中,另外的异源部分可能能够与多肽结合,与多肽相互作用,与多肽缔合或与其形成复合物。在一些实施方案中,另外的异源部分可能能够与多核苷酸结合,与多核苷酸相互作用,与其缔合或与其形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合至指导多核苷酸。在一些实施方案中,另外的异源部分可能能够结合多肽连接子。在一些实施方案中,另外的异源部分可能能够结合多核苷酸连接子。额外的异源部分可以是蛋白质结构域。在一些实施方案中,所述额外的异源部分可以是K同源性(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无体α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白或RNA识别基序。
碱基编辑器系统可以进一步包含指导多核苷酸组分。应当理解,碱基编辑器系统的组件可以经由共价键,非共价相互作用,或它们的缔合和相互作用的任何组合彼此关联。在一些实施方案中,脱氨酶结构域可以被指导多核苷酸靶向靶核苷酸序列。例如,在一些实施方案中,碱基编辑器系统的核碱基编辑组件,例如脱氨酶组件,可以包含能够进行修饰的另外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)。与指导多核苷酸的一部分或区段(例如,多核苷酸基序)相互作用,缔合或能够与之形成复合物。在一些实施方案中,可以将另外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)融合或连接至脱氨酶结构域。在一些实施方案中,另外的异源部分可能能够与多肽结合,与多肽相互作用,与多肽缔合或与其形成复合物。在一些实施方案中,另外的异源部分可能能够与多核苷酸结合,与多核苷酸相互作用,与其缔合或与其形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合至指导多核苷酸。在一些实施方案中,另外的异源部分可能能够结合多肽连接子。在一些实施方案中,另外的异源部分可能能够结合多核苷酸连接子。额外的异源部分可以是蛋白质结构域。在一些实施方案中,另外的异源部分可以是K同源性(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白或RNA识别基序。
在一些实施例中,碱基编辑器系统可以进一步包括碱基切除修复(BER)成分的抑制剂。应当理解,碱基编辑器系统的组件可以经由共价键,非共价相互作用,或它们的缔合和相互作用的任何组合彼此关联。BER组分的抑制剂可以包括碱基切除修复抑制剂。在一些实施方案中,碱基切除修复的抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中,碱基切除修复抑制剂可以是肌苷碱基切除修复抑制剂。在一些实施方案中,碱基切除修复的抑制剂可以通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。在一些实施方案中,可将多核苷酸可编程核苷酸结合结构域融合或连接至碱基切除修复的抑制剂。在一些实施方案中,可将多核苷酸可编程核苷酸结合结构域融合或连接至脱氨酶结构域和碱基切除修复的抑制剂。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可通过与碱基切除修复抑制剂非共价相互作用或与其缔合而将碱基切除修复抑制剂靶向靶核苷酸序列。例如,在一些实施方案中,碱基切除修复组分的抑制剂可包含能够与作为多核苷酸可编程核苷酸结合结构域一部分的另外的异源部分或结构域相互作用,与其缔合或与其形成复合物的另外的异源部分或结构域。多核苷酸可编程核苷酸结合结构域。在一些实施方案中,碱基切除修复的抑制剂可以被指导多核苷酸靶向靶核苷酸序列。例如,在一些实施方案中,碱基切除修复的抑制剂可以包含能够与,与之相互作用或能够形成的另外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)。与指导多核苷酸的一部分或区段(例如,多核苷酸基序)的复合物。在一些实施方案中,指导多核苷酸的另外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与碱基切除修复的抑制剂融合或连接。在一些实施方案中,另外的异源部分可能能够与多核苷酸结合,与多核苷酸相互作用,与其缔合或与其形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合至指导多核苷酸。在一些实施方案中,另外的异源部分可能能够结合多肽连接子。在一些实施方案中,另外的异源部分可能能够结合多核苷酸连接子。额外的异源部分可以是蛋白质结构域。在一些实施方案中,另外的异源部分可以是K同源性(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白或RNA识别基序。
在一些实施方案中,碱基编辑器抑制编辑的链的碱基切除修复。在一些实施方案中,碱基编辑者保护或结合未编辑的链。在一些实施例中,碱基编辑器包括UGI活动。在一些实施方案中,碱基编辑物包含催化失活的肌苷特异性核酸酶。在一些实施例中,碱基编辑器包括切口酶活性。在一些实施方案中,碱基对的预期编辑在PAM位点的上游。在一些实施方案中,碱基对的预期编辑为在PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,碱基对的预期编辑在PAM位点的下游。在一些实施例中,预期的经编辑碱基对是在PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20的核苷酸。
在一些实施例中,所述方法不需要规范的(例如,NGG)PAM位点。在一些实施方案中,所述核碱基编辑器包含连接子或间隔子。在一些实施方案中,所述连接子或间隔区的长度为1至25个氨基酸。在一些实施方案中,所述连接子或间隔区的长度是5至20个氨基酸。在一些实施方案中,所述连接子或间隔区的长度为10、11、12、13、14、15、16、17、18、19或20个氨基酸。
在一些实施方案中,所述靶区域包括靶窗口,其中所述靶窗口包括靶核碱基对。在一些实施方案中,所述靶标窗口包含1至10个核苷酸。在一些实施方案中,所述靶标窗口是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。在一些实施例中,碱基对的预期编辑在目标窗口内。在一些实施例中,目标窗口包括碱基对的预期编辑。在一些实施例中,使用本文提供的任何碱基编辑器来执行所述方法。在一些实施例中,目标窗口是脱氨窗口。
在一些实施方案中,非限制性示例性胞苷碱基编辑器(CBE)包括BE1(APOBEC1-XTEN-dCas9)、BE2(APOBEC1-XTEN-dCas9-UGI)、BE3(APOBEC1-XTEN-dCas9(A840H)-UGI)、BE3-Gam、saBE3、saBE4-Gam、BE4、BE4-Gam、saBE4或saB4E-Gam。BE4将APOBEC1-Cas9n(D10A)连接子延伸至32个氨基酸,将Cas9n-UGI连接子延伸至9个氨基酸,并将UGI的第二个副本与另一个9个氨基酸连接子连接到构建体的C末端。碱基编辑器构造。碱基编辑器saBE3和saBE4将化脓性链球菌Cas9n(D10A)替换为较小的金黄色葡萄球菌Cas9n(D10A)。BE3-Gam、saBE3-Gam、BE4-Gam和saBE4-Gam具有174个残基,通过16个氨基酸XTEN连接子与BE3、saBE3、BE4和saBE4的N末端融合。
在一些实施方案中,腺苷碱基编辑器(ABE)可以使DNA中的腺嘌呤脱氨基。在一些实施方案中,通过用天然或工程改造的大肠杆菌TadA、人类ADAR2、小鼠ADA或人类ADAT2代替BE3的APOBEC1组分来产生ABE。在一些实施方案中,ABE包含进化的TadA变体。在一些实施方案中,ABE是ABE 1.2(TadA*-XTEN-nCas9-NLS)。在一些实施方案中,TadA*包含A106V和D108N突变。
在一些实施例中,ABE是第二代ABE。在一些实施方案中,ABE是ABE2.1,其在TadA*(TadA*2.1)中包含另外的突变D147Y和E155V。在一些实施方案中,ABE是与人烷基腺嘌呤DNA糖基化酶(具有E125Q突变的AAG)的催化失活形式融合的ABE2.2、ABE2.1。在一些实施方案中,所述ABE是与催化灭活的大肠杆菌Endo V(被D35A突变灭活)的ABE2.3、ABE2.1融合。在一些实施方案中,ABE是ABE2.6,其具有比ABE2.1中的连接子长两倍的连接子(32个氨基酸、(SGGS)2-XTEN-(SGGS)2)。在一些实施方案中,ABE是ABE2.7,其是与另外的野生型TadA单体束缚的ABE2.1。在一些实施方案中,ABE是ABE2.8,其是与另外的TadA*2.1单体束缚的ABE2.1。在一些实施方案中,ABE是ABE2.9,其是进化的TadA(TadA*2.1)与ABE2.1的N末端的直接融合。在一些实施方案中,ABE是ABE2.10,其是野生型TadA与ABE2.1的N-末端的直接融合。在一些实施方案中,ABE是ABE2.11,其是在TadA*单体的N末端具有失活的E59A突变的ABE2.9。在一些实施方案中,ABE是ABE2.12,其是在内部TadA*单体中具有失活的E59A突变的ABE2.9。
在一些实施例中,ABE是第三代ABE。在一些实施方案中,ABE是ABE3.1,其是具有三个另外的TadA突变(L84F、H123Y和I157F)的ABE2.3。
在一些实施例中,ABE是第四代ABE。在一些实施方案中,ABE是ABE4.3,其是具有额外的TadA突变A142N(TadA*4.3)的ABE3.1。
在一些实施例中,ABE是第五代ABE。在一些实施方案中,ABE是ABE5.1,其通过将来自存活克隆(H36L、R51L、S146C和K157N)的共有突变集合导入ABE3.1中而产生。在一些实施方案中,ABE是ABE5.3,其具有包含与内部进化的TadA*融合的野生型大肠杆菌TadA的异源二聚体构建体。在一些实施方案中,ABE是ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13或ABE5.14,如下表6所示。在某些实施例中,ABE是第六代ABE。在一些实施例中,ABE是ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5或ABE6.6,如下表6所示。在一些实施例中,ABE是第七代ABE。在一些实施方案中,ABE为ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE 7.9或ABE7.10,如图下表6。
表6.ABE的基因型
Figure BDA0003005803140001851
Figure BDA0003005803140001861
Figure BDA0003005803140001871
在一些实施方案中,碱基编辑器进一步包含包含全部或部分尿嘧啶糖基化酶抑制剂(UGI)的结构域。在一些实施方案中,碱基编辑器包含包含尿嘧啶结合蛋白(UBP)的全部或一部分的结构域,例如尿嘧啶DNA糖基化酶(UDG)。在一些实施方案中,碱基编辑器包含包含全部或部分核酸聚合酶的结构域。在一些实施方案中,掺入碱基编辑器中的核酸聚合酶或其部分是转损DNA聚合酶。
在一些实施例中,碱基编辑器的域可以包括多个域。例如,包含衍生自Cas9的多核苷酸可编程核苷酸结合结构域的碱基编辑器可以包含REC叶和对应于野生型或天然Cas9的REC叶和NUC叶的NUC叶。在另一个示例中,碱基编辑器可以包括RuvCI域、BH域、REC1域、REC2域、RuvCII域、L1域、HNH域、L2域、RuvCIII域、WED域、TOPO域或CTD域中的一个或多个。在一些实施方案中,相对于包含所述结构域的多肽的野生型版本,碱基编辑器的一个或多个结构域包含突变(例如,取代、插入、缺失)。例如,多核苷酸可编程DNA结合结构域的HNH结构域可包含H840A取代。在另一个实例中,多核苷酸可编程DNA结合结构域的RuvCI结构域可包含D10A取代。
本文公开的碱基编辑器的不同域(例如,相邻域)可以在使用或不使用一个或多个连接子域(例如,XTEN连接子域)的情况下彼此连接。在一些实施方案中,连接子结构域可以是键(例如,共价键),化学基团或连接两个分子或部分的分子,例如融合蛋白的两个结构域,例如,第一结构域(例如,Cas9衍生的结构域)和第二结构域(例如,腺苷脱氨酶结构域或胞苷脱氨酶结构域)。在一些实施方案中,连接基为共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,连接基是酰胺键的碳氮键。在某些实施方案中,连接基是环状或无环,取代或未取代,支链或直链的脂族或杂脂族连接基。在某些实施方案中,连接体是聚合物的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,连接基包含氨基链烷酸的单体、二聚体或聚合物。在一些实施方案中,连接基包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些实施方案中,连接子包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,连接基基于碳环部分(例如环戊烷、环己烷)。在其他实施方案中,连接子包含聚乙二醇部分(PEG)。在某些实施方案中,连接基包含芳基或杂芳基部分。在某些实施方案中,连接基基于苯环。连接子可以包括官能化的部分,以促进亲核试剂(例如,巯基、氨基)从肽到连接子的连接。任何亲电子试剂都可以用作连接子的一部分。示例性的亲电试剂包括但不限于活化的酯、活化的酰胺、迈克尔受体、烷基卤化物、芳基卤化物、酰基卤化物和异硫氰酸酯。在一些实施方案中,连接子连接RNA可编程核酸酶的gRNA结合结构域,包括Cas9核酸酶结构域,和核酸编辑蛋白的催化结构域。在一些实施方案中,连接子连接dCas9和第二结构域(例如,UGI、胞苷脱氨酶等)。
通常,连接子位于两个基团、分子或其他部分之间或两侧,并通过共价键连接至每个,从而将两者连接。在一些实施方案中,连接子是氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接基是有机分子、基团、聚合物或化学部分。在一些实施方案中,连接子的长度是2-100个氨基酸,例如长度为2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30至35、35至40、40至45、45至50、50至60、60至70、70至80、80至90、90至100、100至150或150至200个氨基酸。在一些实施方案中,连接子为约3至约104(例如长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95或100个氨基酸。也可以考虑更长或更短的连接子。在一些实施方案中,连接子结构域包含氨基酸序列SGSETPGTSESATPES,其也可以称为XTEN连接子。可以使用任何用于连接融合蛋白结构域的方法(例如,从形式非常灵活的连接子(SGGS)n、(GGGS)n、(GGGGS)n和(G)n到形式更刚性的连接子(EAAAK)n、(GGS)n、SGSETPGTSESATPES(参见例如Guilinger JP、Thompson DB、Liu DR,Fusion ofcatalytically inactive Cas9 to FokI nuclease improves the specificity ofgenome modification.Nat.Biotechnol.2014;32(6):577-82;全部内容通过引用并入本文),或(XP)n基序,以实现核碱基编辑者的最佳活性长度。在一些实施方案中,n为1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,连接子包含(GGS)n基序,其中n为1、3或7。在一些实施方案中,本文提供的融合蛋白的Cas9结构域通过包含氨基酸序列SGSETPGTSESATPES的连接子融合。在一些实施方案中,连接子包含多个脯氨酸残基并且是5至21、5至14、5至9、5至7个氨基酸长度,例如PAPAP、PAPAPA、PAPAPAP、PAPAPAPA、P(AP)4、P(AP)7、P(AP)10(请参见例如Tan J,Zhang F,Karcher D,Bock R.,Engineering of high-precision base editors for site-specific single nucleotide replacement.,NatCommun.;2019年1月25日10(1):439;整个内容在此引为参考)。这种富含脯氨酸的连接子也被称为“刚性”连接子。
连接子
在某些实施方案中,连接子可用于连接本发明的任何肽或肽结构域。所述连接基可以简单至共价键,或者可以是长度很多原子的聚合连接基。在某些实施方案中,连接子是多肽或基于氨基酸。在其他实施方案中,连接子不是肽样的。在某些实施方案中,连接子是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,连接基是酰胺键的碳-氮键。在某些实施方案中,连接基是环状或无环、取代或未取代、支链或直链的脂族或杂脂族连接基。在某些实施方案中,连接子是聚合物的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,连接基包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中,连接基包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中,连接子包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,连接基基于碳环部分(例如,环戊烷、环己烷)。在其他实施方案中,连接子包含聚乙二醇部分(PEG)。在其他实施方案中,连接子包含氨基酸。在某些实施方案中,连接子包含肽。在某些实施方案中,连接基包含芳基或杂芳基部分。在某些实施方案中,连接基基于苯环。连接子可以包括官能化的部分,以促进亲核试剂(例如硫醇、氨基)从肽到连接子的连接。任何亲电子试剂都可以用作连接子的一部分。示例性的亲电试剂包括但不限于活化的酯、活化的酰胺、迈克尔受体、烷基卤化物、芳基卤化物、酰基卤化物和异硫氰酸酯。
在一些实施方案中,连接子是氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子是键(例如,共价键)、有机分子、基团、聚合物或化学部分。在一些实施方案中,连接子为约3至约104(例如长度为5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95或100个氨基酸。
在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶和napDNAbp通过长度为4、16、32或104个氨基酸的连接子融合。在一些实施方案中,连接子的长度为约3至约104个氨基酸。在一些实施方案中,本文提供的任何融合蛋白均包含经由连接子彼此融合的胞苷脱氨酶,腺苷脱氨酶和Cas9结构域。可以使用胞苷脱氨酶和腺苷脱氨酶结构域(例如,经过工程改造的ecTadA)与Cas9域之间的各种连接子长度和灵活性(例如,从形式非常灵活的连接子(GGGS)n、(GGGGS)n和(G)n与(EAAAK)n、(SGGS)n、SGSETPGTSESATPES形式的更刚性的连接子(参见,例如,Guilinger JP,Thompson DB,Liu DR.,催化无活性的Cas9与FokI核酸酶的融合改善了基因组修饰的特异性,Nat。Biotechnol。2014;32(6):577-82;通过引用将全部内容并入本文)和(XP)n),以便为多效应物核碱基编辑器获得最佳的活性长度。在一些实施方案中,n为1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,连接子包含(GGS)n基序,其中n为1、3或7。在一些实施方案中,通过包含氨基酸序列的连接子(例如,XTEN连接子)将胞苷脱氨酶和腺苷脱氨酶和本文提供的任何融合蛋白的Cas9结构域融合。SGSETPGTSESATPES。
在一些实施方案中,靶区域包括靶窗口,其中靶窗口包括靶核碱基对。在一些实施方案中,靶标窗口包含1-10个核苷酸。在一些实施方案中,靶标窗口是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。在一些实施例中,碱基对的预期编辑在目标窗口内。在一些实施例中,目标窗口包括碱基对的预期编辑。在一些实施例中,使用本文提供的任何碱基编辑器来执行所述方法。在一些实施例中,目标窗口是脱氨窗口。
另外,在某些情况下,Gam蛋白可以与碱基编辑器的N末端融合。在某些情况下,Gam蛋白可以融合到碱基编辑器的C末端。噬菌体Mu的Gam蛋白可以结合到双链断裂(DSB)的末端,并保护其免于降解。在一些实施方案中,使用Gam结合DSB的自由端可以减少碱基编辑过程中插入缺失的形成。在一些实施方案中,将174个残基的Gam蛋白融合至碱基编辑者的N末端。参见Komor,A.C.等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在某些情况下,一个或多个突变可以改变碱基编辑域相对于野生型域的长度。例如,在至少一个结构域中至少一个氨基酸的缺失可以减少碱基编辑器的长度。在另一种情况下,相对于野生型结构域,一个或多个突变不改变结构域的长度。例如,任何域中的替换都不会更改碱基编辑器的长度。
在一些实施方案中,本文提供的碱基编辑融合蛋白需要被定位在精确的位置,例如,靶碱基被放置在限定的区域内(例如,“脱氨窗口”)。在某些情况下,目标可以在4个碱基区域内。在某些情况下,这样定义的目标区域可以在PAM上游约15个碱基处。参见Komor,A.C.等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”,Nature 551,464-471(2017);和Komor,AC等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”,Science Advances 3:eaao4774(2017),全文其内容通过引用合并于此。
定义的目标区域可以是脱氨窗口。脱氨窗口可以是碱基编辑器作用于靶核苷酸并使其脱氨基的定义区域。在一些实施例中,脱氨窗在2、3、4、5、6、7、8、9或10个基本区域内。在一些实施例中,脱氨窗为在PAM的上游5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。
本发明内容的碱基编辑器可包含有助于靶多核苷酸序列的编辑的任何结构域,特征或氨基酸序列。例如,在一些实施例中,碱基编辑器包括核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS位于脱氨酶结构域和多核苷酸可编程核苷酸结合结构域之间。在一些实施方案中,碱基编辑器的NLS位于C末端至多核苷酸可编程核苷酸结合结构域。
如本文所公开的,可存在于碱基编辑器中的其他示例性特征是定位序列,例如细胞质定位序列,输出序列,例如核输出序列或其他定位序列,以及可用于增溶、纯化的序列标签,或检测融合蛋白。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签、也称为组氨酸标签。或His标签、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、Softags(例如,Softag 1、Softag3)、链球菌标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签。对于本领域技术人员而言,其他合适的序列将是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
可以包含在融合蛋白中的蛋白结构域的非限制性实例包括脱氨酶结构域(例如胞苷脱氨酶和/或腺苷脱氨酶),尿嘧啶糖基化酶抑制剂(UGI)结构域,表位标签,报告基因序列和/或蛋白。具有以下一种或多种活性的结构域:甲基化酶活性、脱甲基化酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA裂解活性和核酸结合活性。其他域可以是异源功能域。这样的异源功能域可以赋予功能活性,例如DNA甲基化、DNA损伤、DNA修复、与靶DNA相关的靶多肽(例如组蛋白、DNA结合蛋白等)的修饰,导致例如,组蛋白甲基化、组蛋白乙酰化、组蛋白泛素化等。
赋予的其他功能可以包括甲基转移酶活性、脱甲基酶活性、脱氨活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光解酶活性或糖基化酶活性、乙酰基转移酶活性、脱乙酰基酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、去甲烯基化活性、SUMO酰化活性、脱SUMO酰化活性、核糖基化活性、去核糖基化活性、肉豆蔻酰基化活性、重塑活性、蛋白酶活性、氧化还原酶活性、转移酶活性、水解酶活性、裂解酶活性、异构酶活性、合酶活性、合成酶活性和脱豆蔻烷基化活性,或其任何组合。
表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报告基因的实例包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰基转移酶(CAT)β-半乳糖苷酶、β-葡糖醛酸糖苷酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和包括蓝色荧光蛋白(BFP)的自发荧光蛋白。其他蛋白质序列可包括结合DNA分子或结合其他细胞分子的氨基酸序列,包括但不限于麦芽糖结合蛋白(MBP)、S标签、Lex A DNA结合域(DBD)融合物、GAL4 DNA结合域融合物,和单纯疱疹病毒(HSV)BP16蛋白融合物。
其他核碱基编辑器
本发明提供了模块化的多效应核碱基编辑器,其中实际上本领域已知的任何核碱基编辑器都可以插入本文所述的融合蛋白中或交换成胞苷脱氨酶或腺苷脱氨酶,或胞苷脱氨酶和腺苷脱氨酶两者。在一个实施方案中,本发明特征在于一种多效应核碱基编辑器,其包含无碱基核碱基编辑器域。无碱基的核碱基编辑物是本领域已知的,并且例如由Kavli等人,EMBO J.15:3442-3447,1996描述,其通过引用并入本文。
包含Cas9域,腺苷脱氨酶和胞苷脱氨酶的融合蛋白
本发明的一些方面提供了融合蛋白,其包含Cas9结构域或其他核酸可编程DNA结合蛋白以及一个或多个腺苷脱氨酶结构域,胞苷脱氨酶结构域和/或DNA糖基化酶结构域。应当理解,Cas9结构域可以是本文提供的任何Cas9结构域或Cas9蛋白(例如,dCas9或nCas9)。在一些实施方案中,本文提供的任何Cas9结构域或Cas9蛋白(例如,dCas9或nCas9)可以与本文提供的任何胞苷脱氨酶和腺苷脱氨酶融合。本文公开的碱基编辑器的域可以以任何顺序布置。例如但不限于,在一些实施方案中,所述融合蛋白包含以下结构:
NH2-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[Cas9结构域-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;;或者
NH2-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH。
在一些实施方案中,包含胞苷脱氨酶,无碱基编辑器和腺苷脱氨酶和napDNAbp(例如,Cas9结构域)的融合蛋白不包括连接子序列。在一些实施方案中,在胞苷脱氨酶和腺苷脱氨酶结构域与napDNAbp之间存在连接子。在一些实施例中,以上通用架构中使用的“-”表示存在可选的连接子。在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶与napDNAbp通过本文提供的任何连接子融合。例如,在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶与napDNAbp通过以下标题为“连接子”的部分中提供的任何连接子融合。
在一些实施方案中,具有胞苷脱氨酶,腺苷脱氨酶和Cas9结构域的示例性Cas9融合蛋白的一般结构包含以下结构中的任一个,其中NLS是核定位序列(例如,本文提供的任何NLS),NH2是融合蛋白的N末端,而COOH是融合蛋白的C末端。
NH2-NLS-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-NLS-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-NLS-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-NLS-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-NLS-[Cas9结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;
NH2-NLS-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-NLS-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-NL2-COOH;
NH2-[腺苷脱氨酶][胞苷脱氨酶]-[Cas9结构域]-NLS-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-NLS-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-NLS-COOH;或者
NH2-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-NLS-COOH。
在一些实施方案中,NLS存在于连接子中或NLS侧接连接子,例如本文所述。在一些实施方案中,N末端或C末端NLS是二分NLS。二分体NLS包含两个碱性氨基酸簇,它们被相对较短的间隔序列隔开(因此,二分体-2个部分,而单分体NLS没有)。核纤溶酶的NLS KR[PAATKKAGQA]KKKK是普遍存在的二分信号的原型:两个碱性氨基酸簇,由大约10个氨基酸的间隔区隔开。示例性两方NLS的序列如下:PKKKRKVEGADKRTADGSEFES PKKKRKV。
在一些实施方案中,包含胞苷脱氨酶,腺苷脱氨酶,Cas9结构域和NLS的融合蛋白不包含连接子序列。在一些实施方案中,存在一个或多个结构域或蛋白质(例如胞苷脱氨酶,腺苷脱氨酶,Cas9结构域或NLS)之间的连接子序列。
应当理解,本发明的融合蛋白可以包含一个或多个附加特征。例如,在一些实施方案中,融合蛋白可包含抑制剂、细胞质定位序列、输出序列,例如核输出序列或其他定位序列,以及可用于融合的增溶、纯化或检测的序列蛋白质。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签(也称为组氨酸标签)或His标签、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、Softags(例如,Softag 1、Softag 3)、链球菌标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签。对于本领域技术人员而言,其他合适的序列将是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
碱基编辑效率
CRISPR-Cas9核酸酶已被广泛用于介导靶向基因组编辑。在大多数基因组编辑应用中,Cas9与指导多核苷酸(例如单指导RNA(sgRNA))形成复合物,并在由sgRNA序列指定的靶位点诱导双链DNA断裂(DSB)。细胞主要通过非同源末端连接(NHEJ)修复途径对DSB作出反应,这会导致随机插入或缺失(indels),从而导致移码突变破坏基因。在存在与DSB侧翼具有高度同源性的供体DNA模板的情况下,可以通过称为同源性定向修复(HDR)的另一种途径实现基因校正。不幸的是,在大多数非摄动条件下,HDR效率低下,取决于细胞状态和细胞类型,并以更大频率的插入/缺失为主导。由于与人类疾病相关的大多数已知遗传变异都是点突变,因此需要可以更有效,更干净地进行精确点突变的方法。本文提供的碱基编辑系统提供了一种新的提供基因组编辑的方式,而不会产生双链DNA断裂,不需要供体DNA模板,并且不会引起过多的随机插入和缺失。
本文提供的碱基编辑器能够修饰特定的核苷酸碱基而不会产生显着比例的插入缺失。如本文所用,术语“插入/缺失”是指核酸内核苷酸碱基的插入或缺失。此类插入或缺失可导致基因编码区内的移码突变。在一些实施方案中,期望产生有效地修饰(例如,突变或脱氨基)核酸内的特定核苷酸而不在靶核苷酸序列中产生大量插入或缺失(即,插入缺失)的碱基编辑器。在某些实施方案中,与插入缺失相比,本文提供的任何碱基编辑器能够产生更大比例的预期修饰(例如,点突变或脱氨基)。
在一些实施例中,本文提供的任何碱基编辑器系统导致在目标多核苷酸序列中形成小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%或小于0.01%的插入缺失。
本发明的一些方面基于以下认识:本文提供的任何碱基编辑器均能够在核酸(例如,受试者的基因组内的核酸)中有效产生预期的突变,例如点突变。而不会产生大量的意外突变,例如意外的点突变。在一些实施方案中,本文提供的任何碱基编辑器均能够产生至少0.01%的预期突变(即,至少0.01%的碱基编辑效率)。在一些实施例中,本文提供的任何碱基编辑器均能够产生至少0.01%、1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、40%、45%、50%、60%、70%、80%、90%、95%或99%的预期突变。
在一些实施方案中,本文提供的碱基编辑器能够产生预期的点突变与插入缺失的比率大于1:1。在一些实施方案中,本文提供的碱基编辑器能够产生预期的点突变与插入缺失的比率为至少1.5∶1、至少2∶1、至少2.5∶1、至少3∶1、至少3.5、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少8.5:1、至少9:1、至少10:1、至少11:1、至少12:1、至少13:1、至少14:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少200:1、至少3001:1、至少400:1、至少500:1、至少600:1、至少700:1、至少800:1、至少900:1或至少1000:1或更多。
可以使用任何合适的方法来确定预期的突变和插入/缺失的数目,例如,如国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中所述。Komor,A.C.等人,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”,Nature 551,464-471(2017);和Komor,A.C.等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Progresss 3:eaao4774(2017);其全部内容通过引用结合于此。
在一些实施方案中,为了计算插入缺失频率,扫描测序读数以寻找与两个10-bp序列的精确匹配,所述两个10-bp序列位于可能发生插入缺失的窗口的两侧。如果未找到完全匹配的内容,则将其从分析中排除。如果此插入缺失窗口的长度与参考序列完全匹配,则将读数分类为不包含插入缺失。如果插入缺失窗口比参考序列长或短两个或多个碱基,则测序读段分别分类为插入或缺失。在一些实施方案中,本文提供的碱基编辑器可以限制核酸区域中插入缺失的形成。在一些实施方案中,所述区域在碱基编辑者靶向的核苷酸处或碱基编辑者靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。
在靶核苷酸区域形成的插入缺失的数量可以取决于核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施方案中,将目标核苷酸序列(例如,细胞基因组内的核酸)暴露于碱基的插入缺失的数量或比例在至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天编辑。应当理解,如本文所述的碱基编辑器的特征可以应用于任何融合蛋白,或使用本文提供的融合蛋白的方法。
多重编辑
在一些实施方案中,本文提供的碱基编辑器系统能够对一个或多个基因中的多个核碱基对进行多重编辑。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因中,其中至少一个基因位于不同的基因座中。在一些实施方案中,多重编辑可包含一个或多个指导多核苷酸。在一些实施例中,多重编辑可以包括一个或多个碱基编辑器系统。在一些实施方案中,多重编辑可包括具有单个指导多核苷酸的一个或多个碱基编辑器系统。在一些实施方案中,多重编辑可以包括具有多个指导多核苷酸的一个或多个碱基编辑器系统。在一些实施方案中,多重编辑可包含具有单个碱基编辑器系统的一个或多个指导多核苷酸。在一些实施方案中,多重编辑可包含至少一种不需要PAM序列靶向结合靶多核苷酸序列的指导多核苷酸。在一些实施方案中,多重编辑可包含至少一种需要PAM序列以靶向结合靶多核苷酸序列的指导多核苷酸。在一些实施方案中,多重编辑可包含至少一种不需要PAM序列靶向结合靶多核苷酸序列的指导多核苷酸和至少一种需要PAM序列靶向结合靶多核苷酸的指导多核苷酸的混合物顺序。应当理解,使用本文所述的任何碱基编辑器的多路编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任意组合。还应当理解,使用如本文所述的任何碱基编辑器的多重编辑可以包括多个核碱基对的顺序编辑。
在一些实施方案中,多个核碱基对在一个以上的基因中。在一些实施方案中,多个核碱基对在同一基因中。在一些实施方案中,一个或更多个基因中的至少一个基因位于不同的基因座中。
在一些实施方案中,所述编辑是在至少一个蛋白质编码区中的多个核碱基对的编辑。在一些实施方案中,所述编辑是编辑至少一个蛋白质非编码区中的多个核碱基对。在一些实施方案中,编辑是在至少一个蛋白质编码区和至少一个蛋白质非编码区中的多个核碱基对的编辑。
在一些实施方案中,所述编辑与一种或多种指导多核苷酸结合。在一些实施例中,碱基编辑器系统可以包括一个或多个碱基编辑器系统。在一些实施方案中,碱基编辑器系统可包括与单个指导多核苷酸结合的一个或多个碱基编辑器系统。在一些实施方案中,碱基编辑器系统可包含一个或多个碱基编辑器系统以及多个指导多核苷酸。在一些实施方案中,使用单个碱基编辑器系统将编辑与一个或多个指导多核苷酸结合。在一些实施方案中,编辑与至少一种不需要PAM序列靶向结合靶多核苷酸序列的指导多核苷酸结合。在一些实施方案中,所述编辑与至少一种需要PAM序列以靶向结合靶多核苷酸序列的指导多核苷酸结合。在一些实施方案中,所述编辑与至少一种不需要PAM序列靶向结合靶多核苷酸序列的指导多核苷酸和至少一种需要PAM序列靶向结合靶标的指导多核苷酸的混合物结合。多核苷酸序列。应当理解,使用本文所述的任何碱基编辑器的多路编辑的特性可以应用于使用本文提供的任何碱基编辑器的方法的任意组合。还应当理解,编辑可以包括多个核碱基对的顺序编辑。
碱基编辑器的使用方法
使用包含胞苷脱氨酶,腺苷脱氨酶和Cas9结构域的融合蛋白的方法
本文提供了使用融合蛋白或复合物的方法(例如,多效应核碱基编辑器)。例如,本发明的一些方面提供了包括使DNA分子与本文提供的任何融合蛋白以及至少一个指导RNA接触的方法,其中所述指导RNA长约15至100个核苷酸,并且包含至少一个序列。与靶序列互补的10个连续核苷酸。在一些实施方案中,靶序列的3'末端紧邻规范PAM序列(NGG)。在一些实施方案中,靶序列的3'末端不直接与规范PAM序列(NGG)相邻。在一些实施方案中,靶序列的3'末端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶序列的3'末端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5'(TTTV)序列。
在一些实施方案中,本发明的融合蛋白用于诱变目的靶标。特别地,本文描述的多效应核碱基编辑器能够在靶序列内进行多个突变。这些突变可能影响靶标的功能。例如,当使用多效应核碱基编辑器靶向调节区时,调节区的功能被改变并且下游蛋白质的表达降低。
在一些实施方案中,本文提供的方法的目的是通过基因组编辑来恢复功能异常的基因的功能。可以例如通过校正人细胞培养物中多核苷酸(基因)序列中与疾病相关的突变来验证本文提供的多效应核碱基编辑器融合蛋白用于体外基于基因编辑的人治疗剂。本领域技术人员将理解,本文提供的融合蛋白,例如,包含Cas9结构域,胞苷脱氨酶和腺苷脱氨酶结构域的融合蛋白可以用于例如纠正任何单点突变,例如G到T或C到A突变。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如在成熟蛋白的前体和成熟蛋白本身中,编号之间的差异可能会影响编号。本领域技术人员将能够通过本领域公知的方法,例如通过序列比对和同源残基的确定,来鉴定任何同源蛋白和各自编码核酸中的各自残基。
对于本领域技术人员将显而易见的是,为了将本文所公开的包含Cas9结构域和胞苷脱氨酶和腺苷脱氨酶的任何融合蛋白靶向靶位点,例如,包含以下突变的位点:为了进行编辑,通常需要将融合蛋白与指导RNA,例如sgRNA一起共表达。如本文其他地方更详细地解释的,指导RNA通常包含允许Cas9结合的tracrRNA框架和指导序列,其赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性。备选地,指导RNA和tracrRNA可以作为两个核酸分子分开提供。在一些实施方案中,指导RNA包含结构,其中指导序列包含与靶序列互补的序列。不受限制的是,指导序列通常为20个核苷酸长。基于本发明内容,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶位点的合适的指导RNA的序列对于本领域技术人员将是显而易见的。此类合适的指导RNA序列通常包含与待编辑靶核苷酸上游或下游50个核苷酸内的核酸序列互补的指导序列。本文提供了一些适用于将任何提供的融合蛋白靶向特定靶序列的示例性指导RNA序列。
核酸编辑方法
本发明的一些方面提供了用于编辑核酸的方法。在一些实施方案中,所述方法是用于编辑核酸的核碱基(例如,双链DNA序列的碱基对)的方法。在一些实施方案中,所述方法包括以下步骤:a)使核酸的靶区域(例如,双链DNA序列)与包含碱基编辑器(例如,与胞苷脱氨酶融合的Cas9结构域和腺苷脱氨酶)和指导核酸(例如gRNA),其中靶标区域包含靶标核碱基对,b)诱导所述靶标区域的链分离,c)将所述靶标核苷碱基对的第一核苷碱基转化为单链d)切割不超过所述靶区域的一条链,其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基替代。在一些实施方案中,所述方法导致核酸中少于20%的插入缺失形成。应当理解,在一些实施例中,步骤b被省略。在一些实施例中,所述方法导致小于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或少于0.1%的插入缺失形成。在一些实施方案中,所述方法进一步包括用与第四核碱基互补的第五核碱基替代第二核碱基,从而产生预期的经编辑的碱基对(例如,G·C至A·T)。在一些实施方案中,至少5%的预期碱基对被编辑。在一些实施方案中,至少10%、15%、20%、25%、30%、35%、40%、45%或50%的预期碱基对被编辑。
在一些实施方案中,靶核苷酸中预期产物与非预期产物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或200:1或更高。在一些实施方案中,预期的突变与插入缺失形成的比率大于1:1、10:1、50:1、100:1、500:1或1000:1或更高。在一些实施方案中,切割的单链(带切口的链)与指导核酸杂交。在一些实施方案中,切割的单链与包含第一核碱基的链相反。在一些实施例中,碱基编辑器包括Cas9域。在一些实施方案中,碱基编辑者保护或结合未编辑的链。在一些实施例中,碱基编辑器包括切口酶活性。在一些实施方案中,预期的经编辑的碱基对在PAM位点的上游。在一些实施例中,预期的经编辑的碱基对是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20PAM位点上游的核苷酸。在一些实施方案中,预期的经编辑的碱基对在PAM位点的下游。在一些实施例中,预期的经编辑的碱基对是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20的核苷酸。在一些实施例中,所述方法不需要规范的(例如,NGG)PAM位点。在一些实施方案中,核碱基编辑器包含连接子。在一些实施方案中,连接子的长度为1至25个氨基酸。在一些实施方案中,连接子的长度为5至20个氨基酸。在一些实施方案中,连接子的长度为10、11、12、13、14、15、16、17、18、19或20个氨基酸。在一实施方案中,连接子的长度为32个氨基酸。在另一个实施方案中,“长连接子”的长度为至少约60个氨基酸。在其他实施方案中,连接子的长度为约3至100个氨基酸。在一些实施方案中,靶区域包括靶窗口,其中靶窗口包括靶核碱基对。在一些实施方案中,靶标窗口包含1至10个核苷酸。在一些实施方案中,靶标窗口的长度为1至9、1至8、1至7、1至6、1至5、1至4、1至3、1至2或1个核苷酸。在一些实施方案中,靶标窗口是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。在一些实施例中,预期的经编辑的碱基对在目标窗口内。在一些实施例中,目标窗口包括预期的经编辑的碱基对。在一些实施例中,使用本文提供的任何碱基编辑器来执行所述方法。
在一些实施方案中,本发明提供了用于编辑核苷酸的方法。在一些实施方案中,本发明内容提供了一种用于编辑双链DNA序列的核碱基对的方法。在一些实施方案中,所述方法包括a)使双链DNA序列的靶区域与包含碱基编辑器和指导核酸(例如,gRNA)的复合物接触,其中所述靶区域包含靶核碱基对,b)诱导所述靶区域的链分离,c)将所述靶区域的单链中的所述靶核碱基对的第一核碱基转化为第二核碱基,d)切割不超过所述靶区域的一条链,其中第三核碱基互补第一核苷碱基的第一碱基被替换为与第二核碱基互补的第四核碱基,并且第二核碱基被与第四核碱基互补的第五核碱基替换,从而产生了预期的编辑碱基对,其中产生预期目的的效率编辑的碱基对至少为5%。应当理解,在一些实施例中,步骤b被省略。在一些实施方案中,至少5%的预期碱基对被编辑。在一些实施方案中,至少10%、15%、20%、25%、30%、35%、40%、45%或50%的预期碱基对被编辑。在一些实施例中,所述方法导致小于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或更小比0.1%的插入缺失形成。在一些实施方案中,在靶核苷酸处预期产物与非预期产物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或200:1或更高。在一些实施方案中,预期的突变与插入缺失形成的比率大于1:1、10:1、50:1、100:1、500:1或1000:1或更高。在一些实施方案中,切割的单链与指导核酸杂交。在一些实施方案中,切割的单链与包含第一核碱基的链相反。在一些实施方案中,核碱基编辑物包括切口酶活性。在一些实施方案中,预期的经编辑的碱基对在PAM位点的上游。在一些实施例中,预期的经编辑的碱基对是PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20的核苷酸。在一些实施方案中,预期的经编辑的碱基对在PAM位点的下游。在一些实施例中,预期的经编辑的碱基对是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20的核苷酸。在一些实施例中,所述方法不需要规范的(例如,NGG)PAM位点。在一些实施方案中,核碱基编辑器包含连接子。在一些实施方案中,连接子的长度为1-25个氨基酸。在一些实施方案中,连接子的长度为5至20个氨基酸。在一些实施方案中,连接子的长度为10、11、12、13、14、15、16、17、18、19或20个氨基酸。在一些实施方案中,靶区域包括靶窗口,其中靶窗口包括靶核碱基对。在一些实施方案中,靶标窗口包含1-10个核苷酸。在一些实施方案中,靶标窗口的长度为1至9、1至8、1至7、1至6、1至5、1至4、1至3、1至2或1个核苷酸。在一些实施方案中,靶标窗口是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸长度。在一些实施例中,预期的经编辑的碱基对在目标窗口内发生。在一些实施例中,目标窗口包括预期的经编辑的碱基对。在一些实施方案中,核碱基编辑器是本文提供的任何碱基编辑器。
融合蛋白在宿主细胞中的表达
使用本领域技术人员已知的常规方法,本发明的融合蛋白实际上可以在任何目的宿主细胞中表达,包括但不限于细菌、酵母、真菌、昆虫、植物和动物细胞。融合蛋白是通过将编码一个或多个具有核碱基修饰活性的域的一个或多个多核苷酸(例如,腺苷脱氨酶、胞苷脱氨酶、DNA糖基化酶)有效连接至编码napDNAbp的多核苷酸,从而制备编码所述蛋白的融合蛋白的多核苷酸而产生的发明。在一些实施方案中,可以将编码napDNAbp的多核苷酸和编码具有核碱基修饰活性的结构域的DNA各自与编码结合域或其结合伴侣的DNA融合,或者可以将两个DNA与编码分离内含肽的DNA融合,由此在宿主细胞中翻译核酸序列识别转化模块和核酸碱基转化酶以形成复合物。在这些情况下,当需要时,可以将连接子和/或核定位信号连接至DNA之一或两者的合适位置。
可以通过本领域已知的任何方法,例如通过化学合成DNA链,通过PCR或通过Gibson Assembly方法来获得编码本文描述的蛋白质结构域的DNA。通过化学合成或PCR方法或Gibson Assembly方法的组合来构建全长DNA的优势在于,可以优化密码子以确保融合蛋白在宿主细胞中高水平表达。可以使用遗传密码使用频率数据库(http://www.kazusa.or.jp/codon/index.html)选择最优化的密码子,所述数据库在Kazusa DNA研究所的主页上进行了披露。一旦获得,将编码融合蛋白的多核苷酸掺入合适的表达载体中。
合适的表达载体包括大肠杆菌来源的质粒(例如,pBR322、pBR325、pUC12、pUC13);和枯草芽孢杆菌来源的质粒(例如pUB110、pTP5、pC194);酵母来源的质粒(例如pSH19、pSH15);适用于在昆虫细胞中表达的质粒(例如pFast-Bac);适用于在哺乳动物细胞中表达的质粒(例如pA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo);还包括噬菌体,例如λ-噬菌体等。可以使用的其他载体包括昆虫病毒载体,例如杆状病毒等(例如,BmNPV、AcNPV);适于在哺乳动物细胞中表达的病毒载体,例如逆转录病毒、牛痘病毒、腺病毒等。
编码融合蛋白的多核苷酸通常在合适的启动子的控制下表达,所述启动子可用于在所需宿主细胞中表达。例如,当宿主是动物细胞时,使用以下任一启动子:SRα启动子、SV40启动子、LTR启动子、CMV(巨细胞病毒)启动子、RSV(鲁氏肉瘤病毒)启动子、MoMuLV(莫罗尼小鼠白血病病毒)使用LTR、HSV-TK(单纯疱疹病毒胸苷激酶)启动子等。在一个实施方案中,启动子是CMV启动子或SRα启动子。当宿主细胞是大肠杆菌时,可以使用以下任何启动子:trp启动子、lac启动子、recA启动子、λPL启动子、lpp启动子、T7启动子等。当宿主是芽孢杆菌属时,可以使用以下任何启动子:SPO1启动子、SPO2启动子、penP启动子等。当宿主是酵母时,可以使用以下任何启动子:Gal1/10启动子、PHO5启动子、PGK启动子、GAP启动子、ADH启动子等。当宿主是昆虫细胞时,可以使用以下任何启动子作为多角体蛋白启动子、P10启动子等。当宿主是植物细胞时,可以使用以下任何启动子:CaMV35S启动子、CaMV19S启动子、NOS启动子等。
如果需要,表达载体还包括增强子、剪接信号、终止子、polyA添加信号,选择标记(例如抗药性基因、营养缺陷型互补基因等)或复制起点中的任何一种或多种。
可以通过例如通过在体外转录系统中转录mRNA来制备编码本文所述的蛋白结构域的RNA。
本发明的融合蛋白可以通过将编码融合蛋白的表达载体导入宿主细胞并进行培养来表达。可用于本发明的宿主细胞包括细菌细胞、酵母、昆虫细胞、哺乳动物细胞等。
埃希氏菌属包括大肠杆菌K12.cndot.DH1[Proc.Natl.Acad.Sci.USA,60,160(1968)]、大肠杆菌JM103[Nucleic Acids Research,9,309(1981)]、大肠杆菌JA221[Journal of Molecular Biology,120,517(1978)]、大肠杆菌HB101[Journal ofMolecular Biology,41,459(1969)]、大肠杆菌C600[Genetics,39,440(1954)]等。
芽孢杆菌属包括枯草芽孢杆菌M1114[Gene,24,255(1983)]、枯草芽孢杆菌207-21[Journal of Biochemistry,95,87(1984)]等。
可用于表达本发明融合蛋白的酵母包括酿酒酵母AH22、AH22R-、NA87-11A、DKD-5D、20B-12、粟酒裂殖酵母NCYC1913、NCYC2036、巴斯德毕赤酵母KM71等。
使用例如病毒载体,例如AcNPV,在昆虫细胞中表达融合蛋白。昆虫宿主细胞包括以下任何细胞系:白菜夜蛾幼虫衍生的既定系(Spodoptera frugiperda细胞;Sf细胞),源自Trichoplusiani肠中部的MG1细胞,High Five,源自Trichoplusiani卵,Mamestra的细胞使用芸苔科来源的细胞,迷迭香属的来源的细胞等。当病毒是BmNPV时,使用家蚕衍生系的细胞(家蚕N细胞;BmN细胞)等。Sf细胞包括,例如,Sf9细胞(ATCC CRL1711)、Sf21细胞[以上,In Vivo,13,213-217(1977)]等。
关于昆虫,使用家蚕的幼虫、果蝇等来表达融合蛋白[Nature,315,592(1985)]。
哺乳动物细胞系可用于表达融合蛋白。这些细胞系包括猴COS-7细胞、猴Vero细胞、中国仓鼠卵巢(CHO)细胞、dhfr基因缺陷型CHO细胞、小鼠L细胞、小鼠AtT-20细胞、小鼠骨髓瘤细胞、大鼠GH3细胞、人FL细胞等等。使用多能干细胞,例如人和其他哺乳动物的iPS细胞、ES细胞等,以及从各种组织制备的原代培养细胞。此外,也可以使用斑马鱼胚胎、非洲爪蟾卵母细胞等。
可以使用本领域技术人员熟知的方法在培养物中维持植物细胞。植物细胞培养涉及悬浮培养的细胞、愈伤组织、原生质体、叶段、根段等,这些细胞是从各种植物(例如大米、小麦、玉米、西红柿、黄瓜、茄子、康乃馨、罗汉桔、烟草、拟南芥。
所有上述宿主细胞可以是单倍体(单倍体)或多倍体(例如二倍体、三倍体、四倍体等)。
使用任何转染方法(例如,使用溶菌酶、PEG、CaCl2共沉淀、电穿孔、显微注射、粒子枪、脂转染、土壤杆菌等)将编码本发明融合蛋白的表达载体引入宿主细胞。基于要转染的宿主细胞选择转染方法。大肠杆菌可以根据例如Proc.Natl.Acad.Sci.USA,69,2110(1972),Gene,17,107(1982)等所述的方法转化。转导芽孢杆菌属的方法描述于例如Molecular&General Genetics,168,111(1979)。
使用例如在Methods in Enzymology,194,182-187(1991),Proc.Natl.Acad.Sci.USA,75,1929(1978)等中描述的方法转导酵母细胞。。
使用例如在Bio/Technology,6,47-55(1988)等中描述的方法转染昆虫细胞。
使用例如在《细胞工程》(Cell Engineering)第8卷,《新细胞工程实验方案》(NewCell Engineering Experiment Protocol),263-267(1995)(由Shujunsha出版)和《病毒学》(Virology)52,456(1973)中描述的方法转染哺乳动物细胞。
根据已知方法培养包含本发明表达载体的细胞,所述方法根据宿主而变化。
例如,当培养大肠杆菌或芽孢杆菌属细胞时,使用液体培养基。培养基优选包含碳源、氮源、无机物质和转化体生长所需的其他组分。碳源的例子包括葡萄糖、糊精、可溶性淀粉、蔗糖等;氮源的实例包括无机或有机物质,例如铵盐、硝酸盐、玉米浆、蛋白ept、酪蛋白、肉提取物、豆饼、马铃薯提取物等;无机物质的实例包括氯化钙、磷酸二氢钠、氯化镁等。培养基还可以包含酵母提取物、维生素、生长促进因子等。介质的pH优选在约5至约8之间。
作为培养大肠杆菌的培养基,例如使用含有葡萄糖、酪蛋白氨基酸的M9培养基[Journal of Experiments in Molecular Genetics,431-433,Cold Spring HarborLaboratory,New York 1972]。大肠杆菌通常在约15-约43℃下培养。必要时,可进行通气和搅拌。
芽孢杆菌属通常在约30至约40℃下培养。必要时进行充气和搅拌。
适合于培养酵母的培养基的例子包括Burkholder基本培养基[Proc.Natl.Acad.Sci.USA,77,4505(1980)],含有0.5%酪蛋白氨基酸的SD培养基[Proc.Natl.Acad.Sci.USA,81,5330(1984)]等。培养基的pH优选为约5-约8。培养通常在约20℃至约35℃下进行。必要时,可进行通气和搅拌。
作为培养昆虫细胞或昆虫的培养基,使用了含有添加剂如失活的10%牛血清等的Grace's Insect培养基(Nature,195,788(1962))。介质的pH优选为约6.2至约6.4。细胞在约27℃下培养。必要时,可进行通气和搅拌。
哺乳动物细胞的培养方法是,例如,在含有约5%至约20%胎牛血清的最低必需培养基(MEM),Dulbecco改良的Eagle培养基(DMEM)(Virology,8,396(1959)),RPMI 1640培养基(The Journal of the American Medical Association,199,519(1967)),199培养基(Proceeding of the Society for the Biological Medicine,73,1(1950))等。培养基的pH优选为约6至约8。培养在约30℃至约40℃下进行。必要时,可进行通气和搅拌。
作为用于培养植物细胞的培养基,例如使用MS培养基,LS培养基,B5培养基等。培养基的pH优选为约5至约8。培养通常在约20℃至约30℃下进行。必要时,可进行通气和搅拌。
融合蛋白的表达可以使用诱导型启动子(例如金属硫蛋白启动子(由重金属离子诱导)、热激蛋白启动子(由热激诱导)、Tet-ON/Tet-OFF系统启动子(通过添加或去除四环素或其衍生物)、类固醇响应性启动子(由类固醇激素或其衍生物等诱导),在适当的阶段将诱导剂添加到培养基中(或从培养基中去除)以诱导融合蛋白的表达蛋白质。
诸如大肠杆菌等的原核细胞可以利用诱导型启动子。诱导型启动子的实例包括但不限于lac启动子(由IPTG诱导)、cspA启动子(由冷休克诱导)、araBAD启动子(由阿拉伯糖诱导)等。
输送系统
可以通过本领域已知的方法或如本文所述将编码根据本发明的多效应核碱基编辑器的核酸施用于受试者或递送至细胞中。例如,可以通过例如载体(例如,病毒或非病毒载体),基于非载体的方法(例如,使用裸DNA或DNA复合物)或其组合来递送多效应核碱基编辑器。
本文公开的多效应核碱基编辑器可以编码在病毒载体中包含的核酸上。示例性病毒载体包括逆转录病毒载体(例如马洛尼鼠白血病病毒、MML-V)、腺病毒载体(例如AD100)、慢病毒载体(例如基于HIV和FIV的载体)、疱疹病毒载体(例如HSV-2)和腺相关病毒载体。
腺相关病毒载体(AAV)
腺相关病毒(“AAV”)载体也可用于在靶标核酸和肽的体外生产中,以及在体内和离体基因治疗程序中,用靶核酸转导细胞。West等,Virology 160:38-47(1987);美国专利号4,797,368;WO 93/24641;Kotin,Human Gene Therapy 5:793-801(1994);Muzyczka,J.Clin.Invest.94:重组AAV载体的构建描述于许多出版物中,包括美国专利号5,173,414;Tratschin等人,Mol.Cell.Biol.5:3251-3260(1985);Tratschin等人。Mol.Cell.Biol.4:2072-2081(1984);Hermonat&Muzyczka,PNAS 81:6466-6470(1984);和Samulski等人,J.Virol.63:03382-3828(1989)。
就体内递送而言,AAV可能优于其他病毒载体。在一些实施方案中,AAV载体具有低毒性。当纯化方法不需要对可激活免疫反应的细胞颗粒进行超速离心时,可能会发生毒性反应。在一些实施方案中,AAV载体由于不整合到宿主基因组中而导致插入诱变的可能性低。
AAV是一种细小单链DNA依赖病毒,属于细小病毒家族。4.7kb野生型(wt)AAV基因组由分别编码四个复制蛋白和三个衣壳蛋白的两个基因组成,并且在两侧均带有145-bp反向末端重复序列(ITR)。病毒体由三种衣壳蛋白Vp1、Vp2和Vp3组成,它们以1:1:10的比例由同一开放阅读框产生,但由差异剪接(Vp1)和其他翻译起始位点(分别为Vp2和Vp3)产生。Vp3是病毒体中最丰富的亚基,并参与细胞表面的受体识别,从而定义了病毒的向性。在Vp1的唯一N末端已鉴定出有助于病毒感染性的磷脂酶结构域。
AAV的包装限制为4.5或4.75Kb。因此,可以在单个病毒载体中包含公开的多效应核碱基编辑器以及启动子和转录终止子。大于4.5或4.75Kb的构建体可能导致病毒产生明显减少。例如,SpCas9很大,基因本身超过4.1Kb,这使其很难包装到AAV中。因此,本发明的实施例包括利用公开的碱基编辑器,所述碱基编辑器的长度比常规碱基编辑器的长度短。在某些示例中,碱基编辑器小于4kb。公开的碱基编辑器可以小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.2kb、3.1kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb或1.5kb。在一些实施例中,公开的碱基编辑器的长度为4.5kb或更短。
AAV可以是AAV1、AAV2、AAV5或其任何组合。可以针对要靶向的细胞选择AAV的类型。例如,可以选择AAV血清型1、2、5或混合衣壳AAV1、AAV2、AAV5或其任何组合以靶向脑或神经元细胞;并且可以选择AAV4靶向心脏组织。AAV8可用于递送至肝脏。关于这些细胞的某些AAV血清型的列表可以在Grimm,D.等人,J.Virol.82:5887-5911(2008)中找到。
与野生型AAV类似,重组AAV(rAAV)利用顺式作用145bp的ITR修饰载体转基因盒的侧翼,可提供最多4.5kb的外源DNA包装。感染后,rAAV可以表达本发明的融合蛋白,并且通过游离形式存在于圆环头尾连接体中而持续存在而不会整合到宿主基因组中。尽管在体外和体内使用所述系统成功进行rAAV成功的例子很多,但当基因编码序列的长度等于或大于wt AAV基因组的长度时,有限的包装能力限制AAV介导的基因递送的使用。
AAV载体的小包装能力使得超过所述大小的许多基因的递送和/或使用大的生理调节组件的挑战成为挑战。这些挑战可以例如通过使用例如分裂内含肽系统将待递送的蛋白质分成两个或更多个片段来解决。
内含蛋白
内含蛋白(插入蛋白)是在各种生物中发现的自动加工域,它们执行称为蛋白剪接的过程。蛋白质剪接是一个多步骤的生化反应,包括裂解和形成肽键。尽管蛋白质剪接的内源性底物是在含内含肽的生物体中发现的蛋白质,但内含肽也可用于化学操作几乎任何多肽骨架。
在蛋白质剪接中,内含肽通过切割两个肽键将自身从前体多肽中切除,从而通过形成新的肽键将侧翼内含肽(外部蛋白)序列连接起来。这种重排发生在翻译后(或可能是翻译后)。内含肽介导的蛋白质剪接自发发生,仅需折叠内含肽结构域即可。
约5%的内含肽是分裂的内含肽,它们转录并翻译为两个独立的多肽,N-内含肽和C-内含肽,每个多肽都融合到一个内含肽上。翻译后,内含肽片段自发地和非共价地组装成规范的内含肽结构以进行反式剪接。蛋白质剪接的机制需要一系列酰基转移反应,从而导致内含肽-蛋白质连接蛋白处的两个肽键断裂,并在N-和C-蛋白质之间形成新的肽键。所述过程通过激活连接内含蛋白N-蛋白和N-末端的肽键来启动。几乎所有内含肽在其N末端都有一个半胱氨酸或丝氨酸,可攻击C末端N-蛋白质残基的羰基碳。保守的苏氨酸和组氨酸(称为TXXH基序)以及常见的天冬氨酸促进了这种N到O/S的酰基转移,导致形成线性(硫代)酯中间体。接下来,所述中间体通过亲核攻击第一个C-蛋白残基(+1)进行反式(硫)酯化,所述残基是半胱氨酸,丝氨酸或苏氨酸。生成的支链(硫代)酯中间体可通过独特的转化方式进行拆分:内含肽高度保守的C末端天冬酰胺的环化。组氨酸(存在于高度保守的HNF基序中)和倒数第二个组氨酸可促进所述过程,也可能涉及天冬氨酸。所述琥珀酰亚胺形成反应从反应性复合物中切出内含肽,并留下通过非肽键连接的内含肽。所述结构以与内含肽无关的方式迅速重排成稳定的肽键。
在一些实施方案中,将碱基编辑器的N末端片段(例如ABE、CBE)融合至分裂的内含子-N,而将C末端片段融合至分裂的intein-C。然后将这些片段包装成两个或多个AAV载体。某些内含肽用于连接异源蛋白片段的用途描述于例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中。例如,当融合至分离的蛋白质片段时,内含肽IntN和IntC相互识别,将自身剪接在一起,并同时连接与之融合的蛋白质片段的侧翼N和C末端蛋白,从而重建全长来自两个蛋白质片段的蛋白质。其他合适的内含肽对于本领域技术人员将是显而易见的。
选择spCas9的三个区域,其中ABE融合蛋白在SpCas9的选定区域内的Ala、Ser、Thr或Cys残基处分成N末端和C末端片段。这些区域对应于通过Cas9晶体结构分析确定的环区域。每个片段的N末端与intein-N融合,每个片段的C末端与intein C融合在氨基酸位置S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589和S590,以下顺序在粗体字中表示。
Figure BDA0003005803140002121
Figure BDA0003005803140002131
Figure BDA0003005803140002141
本发明的融合蛋白的片段的长度可以变化。在一些实施方案中,蛋白质片段的长度范围为2个氨基酸至约1000个氨基酸。在一些实施方案中,蛋白质片段的长度范围为约5个氨基酸至约500个氨基酸。在一些实施方案中,蛋白质片段的长度范围为约20个氨基酸至约200个氨基酸。在一些实施方案中,蛋白质片段的长度范围为约10个氨基酸至约100个氨基酸。其他长度的合适的蛋白质片段对本领域技术人员将是显而易见的。
在一些实施方案中,核酸酶(例如,Cas9)的一部分或片段与内含肽融合。核酸酶可以融合到内含肽的N末端或C末端。在一些实施方案中,融合蛋白的一部分或片段与内含蛋白融合并且与AAV衣壳蛋白融合。内含子、核酸酶和衣壳蛋白可以以任何排列融合在一起(例如,核酸酶-内含蛋白-衣壳、内含子-核酸酶-衣壳、衣壳-内含子-核酸酶等)。在一些实施方案中,将内含肽的N末端融合至融合蛋白的C末端,并且将内含蛋白的C末端融合至AAV衣壳蛋白的N末端。
在一个实施方案中,通过将大的转基因表达盒分成两半(5'和3'端,或头和尾),产生双AAV载体,其中盒的每一半包装在单个AAV载体中(≤5kb)。然后,通过两个双重AAV载体共同感染同一细胞,然后进行以下操作:完成全长转基因表达盒的重组:(1)5'和3'基因组之间的同源重组(HR)(双重AAV重叠向量);(2)ITR介导的5'和3'基因组的尾对头串联连接(双重AAV转拼载体);或(3)这两种机制的组合(双重AAV混合载体)。体内使用双重AAV载体可导致全长蛋白质的表达。双重AAV载体平台的使用代表了大小大于4.7kb的转基因的有效且可行的基因转移策略。
其他病毒载体
基于RNA或DNA病毒的系统用于传递碱基编辑器的方法利用了高度进化的过程,所述过程可将病毒靶向培养物中或宿主中的特定细胞,并将病毒有效载荷转运至细胞核或宿主细胞基因组。病毒载体可直接施用于培养中的细胞(患者)(体内),或它们可用于体外处理细胞,并且修饰的细胞可任选地施用于患者(离体)。基于病毒的常规系统可以包括逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体,用于基因转移。用逆转录病毒、慢病毒和腺相关病毒基因转移方法可以将其整合到宿主基因组中,这通常会导致插入的转基因长期表达。另外,已经在许多不同的细胞类型和靶组织中观察到高转导效率。
所公开的用于设计碱基编辑器的策略对于产生能够被包装到病毒载体中的碱基编辑器可能是有用的。基于RNA或DNA病毒的系统用于传递碱基编辑器的方法利用了高度进化的过程,所述过程可将病毒靶向培养物中或宿主中的特定细胞,并将病毒有效载荷转运至细胞核或宿主细胞基因组。病毒载体可直接施用于培养中的细胞(患者)(体内),或它们可用于体外处理细胞,并且修饰的细胞可任选地施用于患者(离体)。基于病毒的常规系统可以包括逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体,用于基因转移。用逆转录病毒、慢病毒和腺相关病毒基因转移方法可以将其整合到宿主基因组中,这通常会导致插入的转基因长期表达。另外,已经在许多不同的细胞类型和靶组织中观察到高转导效率。
逆转录病毒的嗜性可以通过掺入外来包膜蛋白,扩大靶细胞的潜在靶标群体来改变。慢病毒载体是能够转导或感染非分裂细胞并通常产生高病毒滴度的逆转录病毒载体。因此,逆转录病毒基因转移系统的选择将取决于靶组织。逆转录病毒载体由顺式作用的长末端重复序列组成,其包装能力可容纳6-10kb的外源序列。最小的顺式作用LTR足以复制和包装载体,然后将其用于将治疗性基因整合到靶细胞中以提供永久性转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人免疫缺陷病毒(HIV)及其组合的载体(参见,例如,Buchscher等人,J.Virol.66:2731-2739(1992);Johann等人,J.Virol.66:1635-1640(1992);Sommnerfelt等人,Virol.176:58-59(1990);Wilson等人,J.Virol.63:2374-2378(1989);Miller等人,J.Virol.65:2220-2224(1991);PCT/US94/05700)。
逆转录病毒载体,尤其是慢病毒载体,可能需要小于给定长度的多核苷酸序列以有效整合到靶细胞中。例如,与较小的逆转录病毒载体相比,长度大于9kb的逆转录病毒载体可导致较低的病毒滴度。在一些方面,本发明的碱基编辑器具有足够的大小,以使得能够有效地包装和经由逆转录病毒载体递送至靶细胞。在某些情况下,碱基编辑器的大小应使得即使与指导核酸和/或可靶向核酸酶系统的其他组分一起表达时也可以有效包装和递送。
在优选瞬时表达的应用中,可以使用基于腺病毒的系统。基于腺病毒的载体在许多细胞类型中都具有很高的转导效率,并且不需要细胞分裂。使用这样的载体,已经获得了高滴度和表达水平。所述载体可以在相对简单的系统中大量产生。腺相关病毒(“AAV”)载体还可用于在靶标核酸和肽的体外生产中,以及在体内和离体基因治疗程序中,用靶核酸转导细胞(参见,例如,West等人,Virology 160:38-47(1987);美国专利号4,797,368;WO 93/24641;Kotin,Human Gene Therapy 5:793-801(1994);Muzyczka,J.Clin.Invest.94:1351(1994)。在许多出版物中描述了重组AAV载体的构建,包括美国专利号5,173,414;Tratschin等人,Mol.Cell.Biol.5:3251-3260(1985);Tratschin等人,Mol.Cell.Biol.4:2072-2081(1984);Hermonat&Muzyczka,PNAS 81:6466-6470(1984);和Samulski等人,J.Virol.63:03822-3828(1989)。
因此,本文所述的多效应核碱基编辑器可以与病毒载体一起递送。碱基编辑器系统的一个或多个组件可以被编码在一个或多个病毒载体上。例如,碱基编辑器和指导核酸可以被编码在单个病毒载体上。在其他情况下,碱基编辑器和指导核酸被编码在不同的病毒载体上。在任一种情况下,碱基编辑者和指导核酸均可以可操作地连接至启动子和终止子。
编码在病毒载体上的成分的组合可以通过所选病毒载体的货物大小限制来确定。
可以使用任何合适的启动子来驱动碱基编辑器以及在适当的情况下指导多核苷酸的表达。对于普遍表达,可以使用的启动子包括CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链等的启动子。对于大脑或其他CNS细胞表达,合适的启动子可以包括:所有神经元的突触蛋白I、CaMKIIα启动子对于兴奋性神经元,对于GABA能神经元、GAD67、GAD65或VGAT启动子等。对于肝细胞表达,合适的启动子包括白蛋白启动子。对于肺细胞表达,合适的启动子可以包括SP-B启动子。对于内皮细胞,合适的启动子可以包括ICAM启动子。对于造血细胞,合适的启动子可以包括IFNβ或CD45启动子。对于成骨细胞,合适的启动子可以包括OG-2启动子。
用于驱动碱基编辑器编码核酸分子表达的启动子可以包括AAV ITR。这对于消除对额外的启动子组件的需求可能是有利的,所述额外的启动子组件可以占用载体中的空间。释放的额外空间可用于驱动其他元素的表达,例如指导核酸或选择标记。ITR活性相对较弱,因此由于所选核酸酶的过表达,它可用于减少潜在的毒性。
在一些实施方案中,本发明的碱基编辑器的大小足够小以允许分开的启动子驱动碱基编辑器和在同一核酸分子内的兼容性指导多核苷酸的表达。例如,载体或病毒载体可包含可操作地连接至编码碱基编辑器的核酸的第一启动子和可操作地连接至指导核酸的第二启动子。
用于驱动指导多核苷酸表达的启动子可以包括:Pol III启动子,例如U6或H1 PolII启动子和内含子盒的使用,以表达gRNA腺相关病毒(AAV)。
可以使用腺相关病毒(AAV)、慢病毒、腺病毒或其他质粒或病毒载体类型来递送本文所述的具有或不具有一个或多个指导核酸的多效应核碱基编辑器,特别是使用例如来自以下制剂和剂量的形式,美国专利号8,454,972(腺病毒的制剂,剂量)、美国专利号8,404,658(AAV的制剂,剂量)、美国专利号5,846,946(DNA质粒的制剂,剂量)以及有关临床的临床试验和出版物涉及慢病毒、AAV和腺病毒的试验。例如,对于AAV、给药途径、制剂和剂量可以如美国专利号8,454,972和涉及AAV的临床试验中所述。对于腺病毒、给药途径、制剂和剂量可以如美国专利号8,404,658中以及涉及腺病毒的临床试验中所述。对于质粒递送、给药途径、制剂和剂量可以如美国专利号5,846,946中以及涉及质粒的临床研究中所述。剂量可以基于或推断为平均70公斤的个体(例如,成年男性),并且可以针对不同体重和物种的患者、受试者、哺乳动物进行调整。给药频率在医学或兽医(例如医师、兽医)的能力范围内,这取决于通常的因素,包括年龄、性别、总体健康状况,患者或受试者的其他状况以及要解决的特定状况或症状。可以将病毒载体注射到目标组织中。对于细胞类型特异性碱基编辑,可以由细胞类型特异性启动子驱动碱基编辑器和任选的指导核酸的表达。
慢病毒是复杂的逆转录病毒,具有在有丝分裂和有丝分裂后细胞中感染并表达其基因的能力。最常见的慢病毒是人类免疫缺陷病毒(HIV),它使用其他病毒的包膜糖蛋白靶向广泛的细胞类型。
慢病毒可以如下制备。克隆包含慢病毒转移质粒主链的pCasES10后,将低传代率(p=5)的HEK293FT接种到T-75烧瓶中,直至转染前一天在含10%胎牛血清且无抗生素的DMEM中接种至50%汇合。20小时后,将培养基更改为OptiMEM(无血清)培养基,并在4小时后转染。用10μg的慢病毒转移质粒(pCasES10)和以下包装质粒转染细胞:5μg的pMD2.G(VSV-g假型)和7.5μg的psPAX2(gag/pol/rev/tat)。转染可在带有阳离子脂质输送剂(50μl的Lipofectamine 2000和100μl的Plus试剂)的4ml的OptiMEM中进行。6小时后,将培养基更换为含10%的胎牛血清的无抗生素DMEM。这些方法在细胞培养期间使用血清,但是无血清方法是首选。慢病毒可以如下纯化。48小时后收集病毒上清液。首先清除上清液中的碎屑,然后通过0.45μm的低蛋白结合(PVDF)过滤器进行过滤。然后将它们在超速离心机中以24,000rpm旋转2小时。将病毒沉淀在4℃下重悬于50μl的DMEM中过夜,然后等分并立即冷冻在-80℃下。
在另一个实施方案中,还考虑了基于马传染性贫血病毒(EIAV)的最少的非灵长类慢病毒载体。在另一个实施方案中,是基于马传染性贫血病毒的慢病毒基因治疗载体,其表达血管抑制蛋白内皮抑素和血管抑素,预期通过视网膜下注射来递送。在另一个实施方案中,考虑使用自我灭活的慢病毒载体。
任何指导多核苷酸或编码碱基编辑器的多核苷酸都可以以RNA的形式传递到细胞中。可以通过体外转录产生编码碱基编辑器的mRNA。例如,可以使用包含以下组件的PCR盒合成核酸酶mRNA:T7启动子,可选的Kozak序列(GCCACC)、核酸酶序列和3'UTR,例如来自β珠蛋白-polyA尾巴的3'UTR。所述盒可以通过T7聚合酶转录。指导多核苷酸(例如,gRNA)也可以使用体外转录从包含T7启动子,随后为序列“GG”和指导多核苷酸序列的盒中转录。
为了增强表达并减少可能的毒性,可以将碱基编辑者编码序列和/或指导核酸进行修饰以包括一种或多种修饰的核苷,例如伪U或5-甲基-C。
在一些实施方案中,本发明内容涵盖修饰细胞或生物的方法。所述细胞可以是原核细胞或真核细胞。所述细胞可以是哺乳动物细胞。哺乳动物细胞可以是非人类的灵长类、牛、猪、啮齿动物或小鼠细胞。由本发明内容的碱基编辑者,组合物和方法引入细胞的修饰可以是使得改变细胞和细胞的后代以改善生物产物如抗体、淀粉、醇或其他所需细胞输出的产生。通过本发明的方法引入细胞的修饰可以是使得细胞和细胞的后代包括改变产生的生物产物的改变。
所述系统可以包括一个或多个不同的载体。一方面,对碱基编辑器进行密码子优化以在所需细胞类型中表达。在一些实施方案中,碱基编辑物在真核细胞如哺乳动物细胞或人细胞中表达。
通常,密码子优化是指通过替换至少一个密码子(例如,天然序列约或大于约1、2、3、4、5、10、15、20、25、50或更多密码子),以及在维持天然氨基酸序列的同时,在所述宿主细胞的基因中更频繁或最常用的密码子。各种物种对特定氨基酸的某些密码子表现出偏见。密码子偏倚(生物体之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关,而信使RNA(mRNA)的翻译效率又被认为尤其取决于翻译的密码子的特性和特定信息的可用性。转移RNA(tRNA)分子。所选tRNA在细胞中的优势通常反映了肽合成中最常使用的密码子。因此,可以基于密码子优化来定制基因以在给定生物中最佳基因表达。密码子使用表很容易获得,例如,可在www.kazusa.orjp/codon/上的“密码子使用数据库”(2002年7月9日访问)上找到,并且这些表可以通过多种方式进行修改。参见Nakamura,Y.等人,“Codon usagetabulated from the international DNA sequence databases:status for the year2000”,Nucl.Acids Res.28:292(2000)。也可获得用于优化特定序列以在特定宿主细胞中表达的密码子的计算机算法,例如Gene Forge(Aptagen;Jacobuss,Pa)。在一些实施方案中,编码工程化核酸酶的序列中的一个或多个密码子(例如1、2、3、4、5、10、15、20、25、50或更多或所有密码子)对应于最频繁的用于特定氨基酸的密码子。
包装细胞通常用于形成能够感染宿主细胞的病毒颗粒。这样的细胞包括包装腺病毒的293细胞和包装逆转录病毒的psi.2细胞或PA317细胞。基因疗法中使用的病毒载体通常是通过产生将核酸载体包装成病毒颗粒的细胞系而产生的。载体通常包含包装和随后整合入宿主所需的最小病毒序列,其他病毒序列被表达盒替代以表达多核苷酸。缺失的病毒功能通常由包装细胞系反式提供。例如,用于基因治疗的AAV载体通常仅具有来自AAV基因组的ITR序列,所述ITR序列是包装和整合入宿主基因组所需的。病毒DNA可以包装在细胞系中,所述细胞系包含编码其他AAV基因(即rep和cap)但缺少ITR序列的辅助质粒。所述细胞系也可以被腺病毒作为辅助感染。辅助病毒可以促进AAV载体的复制和辅助质粒中AAV基因的表达。在一些实施方案中,由于缺乏ITR序列,因此没有以大量包装辅助质粒。腺病毒的污染可以通过例如腺病毒比AAV更敏感的热处理来减少。
碱基编辑的非病毒式交付
编码多效应核碱基编辑器的核酸可以以裸露的DNA或RNA的形式直接传递给细胞,例如通过转染或电穿孔,或者可以与促进靶细胞摄取的分子(例如N-乙酰半乳糖胺)缀合。也可以使用核酸载体,例如载体。
核酸载体可包含一个或多个编码本文所述融合蛋白的结构域的序列。载体还可包含编码信号肽的序列(例如,用于核定位、核仁定位或线粒体定位),所述序列与编码蛋白质的序列相关(例如,插入或融合至所述序列)。作为一个实例,核酸载体可以包括Cas9编码序列,其包括一个或多个核定位序列(例如,来自SV40的核定位序列)和一个或多个脱氨酶。
核酸载体还可包含任何合适数量的调节/控制组件,例如启动子、增强子、内含子、聚腺苷酸化信号、Kozak共有序列或内部核糖体进入位点(IRES)。这些组件在本领域中是众所周知的。
根据本发明的核酸载体包括重组病毒载体。示例性病毒载体在上文中列出。也可以使用本领域已知的其他病毒载体。另外,病毒颗粒可用于递送核酸和/或肽形式的基因组编辑系统组件。例如,“空”病毒颗粒可以被组装以容纳任何合适的货物。病毒载体和病毒颗粒也可以被工程化以掺入靶向配体以改变靶组织特异性。
除了病毒载体,还可以使用用于公开的碱基编辑器的非病毒递送方法。非病毒核酸递送的一个重要类别是纳米颗粒,其可以是有机或无机的。纳米颗粒是本领域众所周知的。任何合适的纳米颗粒设计可用于递送基因组编辑系统组件或编码此类组件的核酸。例如,在本发明的某些实施方案中,有机(例如脂质和/或聚合物)纳米颗粒可以用作递送载体。下表7中显示了用于纳米颗粒制剂和/或基因转移的示例性脂质。
表7
Figure BDA0003005803140002211
Figure BDA0003005803140002221
Figure BDA0003005803140002231
下表8列出了用于基因转移和/或纳米颗粒制剂的示例性聚合物。
表8
Figure BDA0003005803140002232
Figure BDA0003005803140002241
表9总结了编码本文描述的融合蛋白的多核苷酸的递送方法。
表9
Figure BDA0003005803140002242
在另一方面,递送碱基编辑系统组分或编码此类组分的核酸,例如,多重碱基编辑器和/或核酸结合蛋白,例如Cas9或其变体,以及靶向基因组的gRNA感兴趣的核酸序列可以通过将核糖核蛋白(RNP)递送至细胞来完成。RNP包含与靶向gRNA复合的核酸结合蛋白,例如Cas9。可以使用已知方法将NP递送到细胞中,例如电穿孔,核转染或阳离子脂质介导的方法,例如Zuris,J.A.等人,2015,Nat.Biotechnology,33(1):73-80。RNP有利于在CRISPR碱基编辑系统中使用,特别是对于难以转染的细胞,例如原代细胞。另外,RNP还可以减轻细胞中蛋白质表达可能出现的困难,特别是当不能很好地表达在CRISPR质粒中使用的真核启动子例如CMV或EF1A时。有利地,使用RNP不需要将外源DNA递送到细胞中。而且,由于包含核酸结合蛋白和gRNA复合物的RNP随时间降解,因此使用RNP具有限制脱靶作用的潜力。以类似于基于质粒的技术的方式,RNP可用于递送结合蛋白(例如,Cas9变体)并指导同源性定向修复(HDR)。
多效应物核碱基编辑器的筛选
可以通过多种筛选方法评估候选多效应核碱基编辑器的适用性。将每种待测试的融合蛋白与少量编码报告基因的载体(例如,GFP)一起转染到目的细胞中。在初步实验中,这些细胞可以在293T、K562或U20S等人类细胞系中永生。或者,可以使用原代人细胞。在这种情况下,细胞可能与最终的治疗性细胞靶标有关。
转染可使用脂质转染(例如脂质转染胺或Fugene)或通过电穿孔进行。转染后,可以通过荧光显微镜或流式细胞术确定GFP的表达,以确认一致和高水平的转染。这些初步转染可以包含不同的核碱基编辑器,以确定哪些编辑器组合提供最大的活性。
如本文所述评估核碱基编辑器的活性,即通过对细胞的基因组测序以检测靶序列的改变。对于Sanger测序,将纯化的PCR扩增子克隆到质粒主链中,进行转化,微量制备并用单个引物测序。测序也可以使用下一代测序技术进行。使用下一代测序时,扩增子可能为300-500bp,预期的切割位点不对称放置。PCR之后,可以将下一代测序适配器和条形码(例如Illumina多重适配器和索引)添加到扩增子的末端,例如用于高通量测序(例如在Illumina MiSeq上)。
可以选择在初始测试中诱导最大水平的靶标特异性改变的融合蛋白,以进行进一步评估。
多效应器核碱基编辑器的应用程序
多效应核碱基编辑器可用于靶向目标多核苷酸,以产生修饰蛋白质表达的改变。在一个实施方案中,多效应核碱基编辑器用于修饰非编码或调控序列,包括但不限于剪接位点,增强子和转录调控组件。然后使用本领域已知的任何方法测定改变对受调控组件控制的基因表达的影响。在一个特定的实施方案中,多效应核碱基编辑器能够实质上改变调节序列,从而废除其调节基因表达的能力。有利地,与其他RNA可编程核酸酶相比,这可以在基因组靶序列中不产生双链断裂的情况下完成。
多效应核碱基编辑器可用于靶向目标多核苷酸以产生修饰蛋白质活性的改变。例如,在诱变的背景下,多效应核碱基编辑器比易错PCR和其他基于聚合酶的方法具有许多优势。因为本发明的多效应核碱基编辑器在靶区域的多个碱基处产生改变,所以相对于易错PCR引入的突变,这种突变更可能在蛋白质水平上表达,而在易错PCR中所述突变不太可能在蛋白质水平上表达。假定密码子中的单个核苷酸变化仍可以编码相同的氨基酸(例如,由于密码子简并性),则蛋白质水平较高。与容易出错的PCR(其引起整个多核苷酸的随机改变)不同,本发明的多效应核碱基编辑器可用于靶向目的蛋白质的小或限定区域内的特定氨基酸。
在其他实施方案中,本发明的多效应核碱基编辑器用于靶向生物体基因组内的目标多核苷酸。在一个实施方案中,生物是微生物组的细菌(例如,拟杆菌门(Bacteriodetes)、疣微菌门(Verrucomicrobia)、厚壁菌门(Firmicutes);γ-变形菌纲(Gammaproteobacteria)、α-变形菌纲(Alphaproteobacteria)、拟杆菌纲(Bacteriodetes)、梭菌纲(Clostridia)、丹毒丝菌纲(Erysipelotrichia)、芽孢杆菌纲(Bacilli);肠杆菌目(Enterobacteriales)、拟杆菌目(Bacteriodales)、疣微菌目(Verrucomicrobiales)、梭菌目(Clostridiales)、(Erysiopelotrichales)、乳杆菌目(Lactobacillales);肠杆菌科(Enterobacteriaceae)、拟杆菌科(Bacteroidaceae)、丹毒絲菌科(Erysiopelotrichaceae)、普氏杆菌科(Prevotellaceae)、红蝽菌科(Coriobacteriaceae)和产碱菌科(Alcaligenaceae);埃希氏菌属(Escherichia)、拟杆菌属(Bacteroides)、另枝菌属(Alistipes)、艾克曼嗜黏蛋白菌属(Akkermansia)、梭菌属(Clostridium)、乳杆菌属(Lactobacillus))。在另一个实施方案中,生物是农业上重要的动物(例如牛、绵羊、山羊、马、鸡、火鸡)或植物(例如大豆、小麦、玉米、水稻、烟草、苹果、葡萄、桃子、李子、樱桃)。在一个实施方案中,本发明的多效应核碱基编辑器与指导RNA的文库一起被递送至细胞,所述指导RNA被用于靶向细胞基因组内的多种序列,从而系统地改变整个基因组的序列。在一个实施方案中,本发明的多效应核碱基编辑器与指导RNA的文库一起被递送至细胞,所述指导RNA被用于靶向细胞基因组内的多种序列,从而系统地改变整个基因组的序列。
可以在多种蛋白质中的任何一种中进行突变,以促进结构功能分析或改变蛋白质的内源活性。可以例如在酶(例如,激酶、磷酸酶、羧化酶、磷酸二酯酶)中或在酶底物中,在受体或其配体中,以及在抗体及其抗原中进行突变。在一个实施方案中,多效应核碱基编辑器靶向编码酶的活性位点,受体的配体结合位点或抗体或抗原结合分子的互补决定区(CDR)的核酸分子。就酶而言,在活性位点诱导突变可能会增加,减少或取消酶的活性。突变对酶的影响的特征在于进行酶活性测定,包括本领域已知的和/或本领域技术人员显而易见的许多测定中的任何一种。就受体而言,在配体结合位点发生的突变可能会增加,减少或废除受体对其配体的亲和力。通常在受体/配体结合测定法中测定此类突变的作用,包括本领域已知的和/或对本领域技术人员显而易见的许多测定法。在抗体CDR的情况下,在CDR内进行的突变可增加,减少或消除与同源抗原的结合。备选地,在CDR内进行的突变可改变抗体或抗原结合分子对抗原的特异性。然后,例如,通过测量CDR与其抗原的特异性结合,或通过任何其他类型的免疫测定来测定这些改变对CDR功能的影响,这对于本领域技术人员而言是显而易见的,并且通常在相关领域中使用。
药物成分
本发明的其他方面涉及药物组合物,其包含本文所述的任何多效应核碱基编辑器、融合蛋白或融合蛋白-指导多核苷酸复合物。如本文所用,术语“药物组合物”是指配制用于药物用途的组合物。在一些实施方案中,药物组合物还包含药学上可接受的载体。在一些实施方案中,药物组合物包含其他试剂(例如,用于特异性递送、增加的半衰期或其他治疗性化合物)。
如本文所用,术语“药学上可接受的载体”是指药学上可接受的材料,组合物或媒介物,例如液体或固体填充剂、稀释剂、赋形剂、制造助剂(例如润滑剂、滑石粉镁、硬脂酸钙或硬脂酸锌,或将其从身体的一个部位(例如,递送部位)携带或运输到另一部位(例如,人体的器官、组织或身体部位)所涉及的溶剂包封材料。在与制剂的其他成分兼容并且对受试者的组织无害的意义上(例如,生理兼容性、无菌、生理pH等),药学上可接受的载体是“可接受的”。
可以用作药学上可接受的载体的材料的一些非限制性实例包括:(1)糖,例如乳糖、葡萄糖和蔗糖;(2)淀粉,例如玉米淀粉和马铃薯淀粉;(3)纤维素及其衍生物,例如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素和乙酸纤维素;(4)黄芪粉;(5)麦芽;(6)明胶;(7)润滑剂,如硬脂酸镁、十二烷基硫酸钠和滑石粉;(8)赋形剂,例如可可脂和栓剂蜡;(9)花生油、棉籽油、红花油、芝麻油、橄榄油、玉米油、大豆油等油;(10)二醇,例如丙二醇;(11)多元醇,例如甘油、山梨糖醇、甘露糖醇和聚乙二醇(PEG);(12)酯,例如油酸乙酯和月桂酸乙酯;(13)琼脂;(14)缓冲剂,例如氢氧化镁和氢氧化铝;(15)海藻酸;(16)无热原水;(17)等渗盐水;(18)林格的解答;(19)乙醇;(20)pH缓冲溶液;(21)聚酯,聚碳酸酯和/或聚酐;(22)填充剂,例如多肽和氨基酸;(23)血清醇,例如乙醇;(23)药物制剂中使用的其他无毒兼容性物质。制剂中还可存在润湿剂、着色剂、脱模剂、包衣剂、甜味剂、调味剂、加香剂、防腐剂和抗氧化剂。诸如“赋形剂”、“载体”、“药学上可接受的载体”、“载体”等的术语在本文中可互换使用。
药物组合物可以包含一种或多种pH缓冲化合物,以将制剂的pH维持在反映生理pH的预定水平,例如在约5.0至约8.0的范围内。用于水性液体制剂的pH缓冲化合物可以是氨基酸或氨基酸混合物,例如组氨酸、或氨基酸混合物,例如组氨酸和甘氨酸。或者,pH缓冲化合物是将制剂的pH保持在预定水平(例如在约5.0至约8.0的范围内)并且不螯合钙离子的试剂。这种pH缓冲化合物的说明性实例包括但不限于咪唑和乙酸根离子。pH缓冲化合物可以以适合将制剂的pH维持在预定水平的任何量存在。
药物组合物还可包含一种或多种渗透调节剂,即将制剂的渗透特性(例如张度、重量克分子渗透压浓度和/或渗透压)调节至接收者的血流和血细胞可接受的水平的化合物。渗透调节剂可以是不螯合钙离子的试剂。渗透调节剂可以是本领域技术人员已知或可获得的调节制剂的渗透性能的任何化合物。本领域技术人员可以凭经验确定给定的渗透调节剂用于本发明制剂的适用性。合适类型的渗透调节剂的说明性实例包括但不限于:盐,例如氯化钠和乙酸钠;或糖,如蔗糖,葡萄糖和甘露醇;氨基酸,例如甘氨酸;以及这些试剂和/或试剂类型中的一种或多种的混合物。渗透调节剂可以以足以调节制剂的渗透特性的任何浓度存在。
在一些实施方案中,配制药物组合物以递送至受试者,例如用于基因编辑。施用本文所述药物组合物的合适途径包括但不限于:局部、皮下、经皮、皮内、病变内、关节内、腹膜内、膀胱内、经粘膜、牙龈、齿内、耳蜗内、耳蜗、鼓膜内、器官内、硬膜外、鞘内、鞘内、肌内、静脉内、血管内、骨内、眼周、肿瘤内、脑内和脑室内给药。
在一些实施方案中,本文所述的药物组合物局部施用于患病部位(例如,CNS、运动神经元)。在一些实施方案中,本文所述的药物组合物通过注射、通过导管、通过栓剂或通过植入物施用于受试者,所述植入物为多孔、无孔或凝胶状材料。包括诸如唾液弹性膜的膜或纤维。
在其他实施方案中,本文所述的药物组合物以控释系统递送。在一个实施方案中,可以使用泵(参见,例如,Langer,1990,Science 249:1527-1533;Sefton,1989,CRCCrit.Ref.Biomed.Eng.14:201;Buchwald等,1980,Surgery 88:507;Saudek等人,1989,N.Engl.J.Med.321:574)。在另一个实施方案中,可以使用聚合物材料。(参见,例如,Controlled Release(Langer和Wise编辑,CRC出版社,佛罗里达州博卡拉顿,1974);Controlled Drug Bioavailability,Drug Product Design and Performance(Smolen和Ball编辑,Wiley纽约,1984);Ranger and Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61。另见Levy等人,1985,Science 228:190;During等人,1989,Ann.Neurol.25:351;Howard等人,1989,J.Neurosurg.71:105。)其他控释系统例如在上文的Langer中讨论。
在一些实施方案中,按照常规程序将药物组合物配制成适于静脉内或皮下施用给受试者例如人的组合物。在一些实施方案中,用于注射给药的药物组合物是无菌等渗用途的溶液作为增溶剂和局部麻醉剂如利诺卡因以减轻注射部位的疼痛。通常,将成分分别或以单位剂型混合在一起提供,例如,作为干燥的冻干粉或无水浓缩物在指示活性剂的量的密闭容器中,例如安瓿或小药囊中。如果要通过输液方式给药,可以用装有无菌药物级水或盐水的输液瓶分配。在通过注射施用药物组合物的情况下,可以提供安瓿瓶的无菌注射用水或盐水,以便可以在施用之前将成分混合。
用于全身给药的药物组合物可以是液体,例如无菌盐水,乳酸林格氏液或汉克氏溶液。另外,药物组合物可以是固体形式,并在使用前立即重新溶解或悬浮。也可以考虑冻干形式。药物组合物可以包含在脂质颗粒或囊泡中,例如脂质体或微晶,其也适合于肠胃外给药。颗粒可以具有任何合适的结构,例如单层或多层,只要其中包含组合物即可。可以将化合物截留在“稳定的质粒-脂质颗粒”(SPLP)中,所述颗粒包含融合脂质二油酰基磷脂酰乙醇胺(DOPE)、低含量(5-10mol%)的阳离子脂质,并通过聚乙二醇(PEG)涂层使其稳定(Zhang Y.P.等人,Gene Ther.1999,6:1438-47)。带正电荷的脂质,例如N-[1-(2,3-二羟乙基)丙基]-N,N,N-三甲基-铵甲基硫酸盐或“DOTAP”,对于此类颗粒和囊泡是特别优选的。这种脂质颗粒的制备是众所周知的。参见,例如,美国专利号4,880,635;和4,906,477;4,911,928;4,917,951;4,920,016;4,921,757;每一个均通过引用并入本文。
例如,本文描述的药物组合物可以作为单位剂量施用或包装。当涉及本发明内容的药物组合物时,术语“单位剂量”是指适合作为对象的单位剂量的物理上离散的单位,每个单位包含预定量的活性物质,所述活性物质经计算可产生期望的治疗效果并与之结合。所需的稀释剂;即载体或载具。
此外,可以将药物组合物作为药物试剂盒提供,其包括(a)包含冻干形式的本发明化合物的容器,和(b)包含药学上可接受的稀释剂(例如用于重构或稀释的无菌的无菌容器)的第二容器。任选地与这样的容器结合的可以是由规范药品或生物制品的制造,使用或销售的政府机构规定的形式的告示,该告示反映了制造,使用机构的批准。或出售给人为管理。
在另一方面,包括一种制品,所述制品包含可用于治疗上述疾病的材料。在一些实施例中,制品包括容器和标签。合适的容器包括例如瓶、小瓶、注射器和试管。容器可以由多种材料形成,例如玻璃或塑料。在一些实施方案中,所述容器容纳可有效治疗本文所述疾病的组合物,并且可具有无菌进入口。例如,容器可以是静脉注射溶液袋或具有可被皮下注射针刺穿的塞子的小瓶。组合物中的活性剂是本发明的化合物。在一些实施方案中,容器上或与容器相关的标签指示所述组合物用于治疗选择的疾病。所述制品可以进一步包括第二容器,所述第二容器包含药学上可接受的缓冲剂,例如磷酸盐缓冲盐水、林格氏溶液或右旋糖溶液。从商业和用户的角度来看,它还可以包括其他所需材料,包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装说明书。
在一些实施方案中,本文描述的任何融合蛋白,gRNA和/或复合物作为药物组合物的一部分提供。在一些实施方案中,药物组合物包含本文提供的任何融合蛋白。在一些实施方案中,药物组合物包含本文提供的任何复合物。在一些实施方案中,药物组合物包含核糖核蛋白复合物,其包含与gRNA和阳离子脂质形成复合物的RNA引导的核酸酶(例如,Cas9)。在一些实施方案中,药物组合物包含gRNA,核酸可编程DNA结合蛋白,阳离子脂质和药学上可接受的赋形剂。药物组合物可以任选地包含一种或多种其他治疗活性物质。
为了使组合物适合于向各种动物给药,适合于对人给药的药物组合物的修饰是众所周知的,并且普通技术的兽医药理师可以仅通过普通的实验来设计和/或进行这种修饰。预期给予药物组合物的受试者包括但不限于人類和/或其他灵长类;或人类。哺乳动物、家养动物、宠物和与商业有关的哺乳动物,例如牛、猪、马、绵羊、猫、狗、小鼠和/或大鼠;和/或鸟类,包括与商业相关的鸟类,例如鸡、鸭、鹅和/或火鸡。
本文描述的药物组合物的制剂可以通过药理学领域中已知的或以后开发的任何方法来制备。通常,这样的制备方法包括以下步骤:使一种或多种活性成分与赋形剂和/或一种或多种其他辅助成分结合,然后,如果必要和/或期望的话,将产品成形和/或包装成粉末。所需的单剂量或多剂量单位。药物制剂可以另外包含药学上可接受的赋形剂,如本文所用,其包括任何和所有溶剂,分散介质、稀释剂或其他液体媒介物、分散或悬浮助剂、表面活性剂、等渗剂、增稠剂或乳化剂、防腐剂。适用于所需特定剂型的固体粘合剂、润滑剂等。Remington的The Science and Practice of Pharmacy,第21版,A.R.Gennaro(Lippincott,Williams&Wilkins,Baltimore,MD,2006,通过引用整体并入),公开了用于配制药物组合物的各种赋形剂及其制备的已知技术。关于用于产生包含核酸酶的药物组合物的其他合适的方法,试剂,赋形剂和溶剂,也参见通过引用整体并入本文的PCT申请PCT/US2010/055131(公开号WO2011053982 A8,于2010年11月2日提交)。
除非任何常规的赋形剂介质与某种物质或其衍生物不兼容,例如通过产生任何不良的生物学作用或以有害的方式与药物组合物的任何其他成分相互作用,否则预期其使用范围是本发明的范围。
如上所述的组合物可以有效量施用。有效量将取决于给药方式,所治疗的特定病症和期望的结果。它还可能取决于状况的阶段、受试者的年龄和身体状况,同时治疗的性质(如果有)以及执业医生众所周知的类似因素。对于治疗应用,所述量足以达到医学上理想的结果。
治疗疾病或病症的方法
还提供了治疗疾病或病症的方法,所述方法包括向受试者(例如哺乳动物,例如人)施用治疗有效量的药物组合物,所述药物组合物包含编码碱基编辑系统(例如多效应碱基编辑器和gRNA)的多核苷酸。如本文所述。在一些实施方案中,碱基编辑器是融合蛋白,其包含多核苷酸可编程DNA结合结构域,一个或多个脱氨酶结构域(例如,腺苷脱氨酶结构域和胞苷脱氨酶结构域)。用多效应核碱基编辑器和一种或多种靶向碱基编辑器的指导多核苷酸转导受试者的细胞,以实现A·T到G·C的改变和C·G到U·A的改变(如果细胞是用腺苷脱氨酶结构域和胞苷脱氨酶结构域转导的)。
本文的方法包括向受试者(包括被鉴定为需要这种治疗的受试者,或怀疑患有疾病的风险和需要这种治疗的受试者)给予有效量的本文所述的组合物。鉴定需要这种治疗的受试者可以在受试者或卫生保健专业人员的判断中,并且可以是主观的(例如,意见)或客观的(例如,可以通过测试或诊断方法测量)。
通常,所述治疗方法包括给予治疗有效量的药物组合物,所述药物组合物包括例如编码多效碱基编辑器的载体和靶向多核苷酸序列(例如,多核苷酸序列(基因))的gRNA。与有需要的受试者(例如人类患者)的疾病或病症有关。这样的治疗将适当地施用于患有,患有所述疾病或病症,具有所述疾病或病症或具有所述疾病或病症的风险的受试者,特别是人类受试者。
在一个实施方案中,提供了一种监视治疗进度的方法。所述方法包括以下步骤:确定患有或易患疾病或病症或其症状的受试者中的诊断标记物(Marker)或诊断测量值(例如,筛选、测定)的水平,其中已向所述受试者施用了治疗剂。足以治疗疾病或其症状的组合物的量。所述方法确定的标志物水平可以与健康正常对照者或其他患病患者的已知标志物水平进行比较,以确定受试者的疾病状况。在优选的实施方案中,在确定第一水平之后的时间点确定受试者中第二水平的标志物,并且比较这两个水平以监测疾病的进程或治疗的功效。在某些优选的实施方案中,在根据本发明开始治疗之前确定受试者中标志物的治疗前水平。然后可以将所述治疗前的标志物水平与治疗开始后受试者中标志物的水平进行比较,以确定治疗的功效。
在一些实施方案中,将如本文提供的包括多效应核碱基编辑器的组合物施用于受试者,例如人类受试者,以在受试者内实现靶向的基因组修饰。在一些实施方案中,细胞获自受试者,并与本文提供的任何药物组合物接触。在一些实施方案中,任选地,在已经在细胞中实现或检测到所需的基因组修饰之后,将从受试者中取出并与药物组合物离体接触的细胞重新引入受试者中。
递送包含核酸酶的药物组合物的方法是已知的,并且描述于例如美国专利号6,453,242;美国专利号6,453,242;美国专利号5,644,242。6,503,717;6,534,261;6,599,692;6,607,882;6,689,558;6,824,978;6,933,113;6,979,539;7,013,219;和7,163,824,其全部公开内容通过引用整体并入本文。尽管本文提供的药物组合物的描述主要针对适合于向人给药的药物组合物,但是本领域技术人员应理解,此类组合物通常适合于向各种动物或生物体给药,例如,兽医用途。
套件
本发明的各个方面提供了包括碱基编辑器系统的套件。在一个实施方案中,试剂盒包含核酸构建体,所述核酸构建体包含编码能够使脱氧核糖核酸(DNA)分子中的核碱基脱氨基的多效应核碱基编辑器的核苷酸序列。在某些实施方案中,多效应核碱基编辑器具有胞苷脱氨酶和/或腺苷脱氨酶活性。在一些实施方案中,核苷酸序列包含异源启动子,所述异源启动子驱动多效应核碱基编辑器的表达。
在一方面,一种试剂盒,其包含核酸构建体,其包含(a)编码(a)与本文提供的腺苷脱氨酶和胞苷脱氨酶融合的Cas9结构域的核苷酸序列;(b)提供了驱动(a)的序列表达的异源启动子。
在另一方面,提供了包含本文提供的任何多效应核碱基编辑器/融合蛋白的细胞。在一些实施方案中,细胞包含本文提供的任何核苷酸或载体。
在一些实施方案中,试剂盒提供了使用所述试剂盒来使用本文公开的系统进行多效应子碱基编辑的说明书。说明书通常将包括有关使用试剂盒编辑核酸分子的信息。在其他实施例中,所述指令包括以下至少之一:注意事项;警告;临床研究;和/或参考。这些说明可以直接打印在容器上(如果有的话),或者作为粘贴在容器上的标签,或者作为单独的纸页、小册子、卡片或与容器一起提供的文件夹。在另一个实施方案中,试剂盒可以包括标签或单独的插入物(包装插入物)形式的用于合适的操作参数的说明书。在又一个实施方案中,试剂盒可以包含一个或多个带有适当的阳性和阴性对照或对照样品的容器,以用作检测、校准或归一化的标准。所述试剂盒可以进一步包括第二容器,所述第二容器包含药学上可接受的缓冲液,例如(无菌)磷酸盐缓冲盐水、林格氏溶液或右旋糖溶液。从商业和用户的角度来看,它还可以包括其他所需材料,包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装说明书。
除非另有说明,否则本发明的实施采用分子生物学的常规技术(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学,其在本领域技术人员的能力范围内。在诸如“Molecular Cloning:A Laboratory Manual”,第二版(Sambrook,1989);“Oligonucleotide Synthesis”(Gait,1984);“Animal Cell Culture”(Freshney,1987);“Methods in Enzymology”“Handbook of Experimental Immunology”(Weir,1996);“GeneTransfer Vectors for Mammalian Cells”(Miller and Calos,1987);“CurrentProtocols in Molecular Biology”(Ausubel,1987);“PCR:The Polymerase ChainReaction”,(Mullis,1994);“Current Protocols in Immunology”(Coligan,1991)的文献中对这些技术进行充分的解释。这些技术适用于本发明的多核苷酸和多肽的产生,并且因此可以在进行和实施本发明时考虑。在以下部分中将讨论用于特定实施例的特别有用的技术。
实施例
提出以下实施例以向本领域技术人员提供有关如何进行和使用本发明的测定,筛选和治疗方法的完整公开和描述,而无意限制本发明的范围。发明人认为他们的发明。
实施例1:多效应核碱基编辑器
在称为pNMG-B79的质粒构建体中,开发了一种多效应核碱基编辑器,所述编辑器包含Cas9核酸可编程DNA结合结构域、野生型TadA和TadA7.10的异源二聚体、海七鳃鳗胞苷脱氨酶和两个尿嘧啶DNA糖基化酶抑制剂结构域。TadA7.10域具有腺苷脱氨酶活性。化脓链球菌nCas9(D10A)域具有切口酶活性。蕨类植物胞嘧啶脱氨酶(pmCDA)具有胞苷脱氨酶活性。它还包括两个尿嘧啶DNA糖基化酶抑制剂域(UGI)。UGI是来自枯草芽孢杆菌噬菌体PBS1的83个残基蛋白,可有效阻断人UDG活性(IC50=12pM)。pNMG-B79多肽在其N末端和C末端包括核定位信号。
pNMG-B79的序列如下:
pNMG-B79:-NLS以粗体-wtTadA下划线-32a.a.连接子斜体-TadA*7.10下划线-23.a.a.连接子斜体-nCas9-32 a.a.连接子斜体-pmCDA-UGI-UGI粗体和下划线-NLS-BP-NLS粗体斜体
Figure BDA0003005803140002361
Figure BDA0003005803140002371
pNMG-B92:-NLS粗体–wtTadA下划线-32a.a.连接子斜体-TadA*7.10下划线-23.a.a.连接子斜体-nCas9-105 a.a.连接子斜体-pmCDA下划线-连接子斜体-UGI-UGI粗体下划线-NLS-BP-NLS粗斜体
Figure BDA0003005803140002372
Figure BDA0003005803140002381
Figure BDA0003005803140002391
pNMG-B93:-NLS-wtTadA-32a.a.连接子斜体-TadA*7.10下划线-23.a.a.连接子斜体-nCas9-105 a.a.连接子斜体-rAPOBEC1下划线连接子斜体-UGI-UGI粗体下划线-NLS-BP-NLS粗体斜体
Figure BDA0003005803140002392
Figure BDA0003005803140002401
用pNMG-B79或编码ABE7.10的质粒和适当的sgRNA共转染HEK293T细胞。所述载体包括CMV启动子以驱动融合蛋白的表达。使细胞保留在培养物中五天,以允许进行核碱基编辑。此后,从细胞中提取基因组DNA,并通过高通量测序(HTS)分析基因座。sgRNA靶向PAM序列的20个碱基对的5′,如图1所示。腺嘌呤碱基编辑器(ABE)7.10是一种腺苷脱氨酶,在大约80%的多核苷酸序列中(图1)将位置5(A5)的腺苷转化为G,并在29%的多核苷酸中将A7转化为G(图1)。在相似条件下但没有任何碱基编辑物的情况下孵育的未处理的多核苷酸被作为对照,并且没有这种修饰(图1,底部)。
令人惊讶地,pNMG-B79显示了腺苷脱氨酶活性和胞嘧啶脱氨酶活性(图1,中)。pNMG-B79在41%的多核苷酸中将C4转化为T,在66%的多核苷酸中将A5转化为G,在约35%的多核苷酸中将C6转化为T;并在约15%的多核苷酸序列中将A转换为G。这标志着碱基编辑器的首次展示,所述编辑器可以在靶多核苷酸上产生所有过渡突变。
测试了pNMG-B79变体的碱基编辑活性。在碱基编辑器pNMG-90和92中,nCas9(D10A)结构域和胞苷脱氨酶结构域之间的连接子长度从pNMG-B79中的32个增加到104个氨基酸。在另一个示例中,使用碱基编辑器pNMG-91和93,将pmCDA交换为rAPOBEC1,并且在nCas9(D10A)和rAPOBEC1之间包含一个长连接子(图2)。如图3A提供了多效应核碱基编辑器的示意图。测定了碱基编辑者修饰基因组DNA的能力(图3B)。pNMG-B79在58%的已测序多核苷酸中将A5转化为G,在约25%的多核苷酸中将C6转化为T。pNMG-90和92显示出不同程度的活性。pNMG-92在测序的多核苷酸的50%中将A5转化为G,在测序的多核苷酸的约9.8%中将C6转化为T。pNMG-90不会在任何测序的多核苷酸中将A5转化为G,而是在大约13%的测序多核苷酸中将C6转化为T。在另一个实例中,碱基编辑器pNMG-93在77%的测序多核苷酸中将A5转化为G,而在约13%的测序多核苷酸中将C6转化为T。在另一个实例中,碱基编辑器pNMG-91在大约17%的多核苷酸中将C6转化为G,并且在58%的多核苷酸中将C6转化为T。其他碱基编辑器包括CDA BEmax、CDAmax和ABE。ABEmax分别在约8%或61%的测序多核苷酸中将C6转化为G或T(图8A、8B)。CDAmax将C转化为G或T的比例分别约为5%或43%。ABE在大约80%的多核苷酸序列中将A5转化为G,将大约10%的多核苷酸的A8转化为G。
图4A中所示的各种碱基编辑器的碱基编辑活动包括:在HBG1靶位点(图4B,4C)上评估。pNMG-B79在约23%的多核苷酸中将A5转化为G,在约8%的多核苷酸中将C6转化为T。pNMG-B92在测序的多核苷酸的15%中将A5转化为G,在测序的多核苷酸的约9.8%中将C6转化为T。pNMG-90不会在任何已测序的多核苷酸中将A5转化为G,但会在大约4%的多核苷酸中将C6转化为T,在大约15%的多核苷酸中将C7转化为T,并在大约2%的A8中转化为G多核苷酸测序。在另一个例子中,碱基编辑器pNMG-B93在19%的多核苷酸序列中将A5转化为G,在约20%的多核苷酸序列中将C6转化为T,在约18%的多核苷酸序列中将C7转化为T,在16中将A8转化为G。%的多核苷酸测序。在另一个实例中,碱基编辑器pNMG-90在约8%的测序多核苷酸中将C6转化为G,而在28%的多核苷酸中将C7转化为T。BEmax在大约27%的多核苷酸序列中将C6转化为T,将大约35%的多核苷酸的C7转化为T。ABE在大约35%的多核苷酸序列中将A5转化为G;在大约47%的多核苷酸中,A8至G已测序;8.6%的多核苷酸中的A9至G。
在HBG1位点测试了双核碱基编辑器pNMG-79和常规核碱基编辑器ABE7.10的活性。ABE7.10结果显示在图5A,5B的顶部,和未处理的对照结果显示在图的底部。pNMG-B79在41%的多核苷酸序列中将C4转化为T;将67%的多核苷酸序列中的A5转换为G,将35%的多核苷酸序列中的C6转换为T,将约15%的多核苷酸序列中的A转换为G。如图5B提供了对图5A中总结的结果的示例性测序读数。图5C提供了相对于ABE7.10的pNMG-B79测序读段的完整列表。在相似条件下,pNMG-B79以2.68%的速率产生插入缺失,而ABE7.10在0.56%的速率下产生插入缺失(图6)。
针对HBG1靶标测试了多种多效核碱基编辑器。这些碱基编辑器修改目标的能力在图7A和7B中示出。图的最右边显示了生成的插入缺失的百分比。
结果证明,经测试的核碱基编辑器在给定靶标的编辑窗口中成功地将As和Cs脱氨。扩增子在同一扩增子上显示A→G和C→T。还可以在所需位点上测试使用CDA或载脂蛋白B mRNA编辑催化多肽样(rAPOBEC1)。
通过将尿嘧啶-DNA糖基化酶插入载体中,可以进一步修饰上述的多效应核碱基编辑器。
其他实施方式
从前面的描述中,将显而易见的是,可以对本文描述的发明进行变化和修改,以将其应用于各种用途和条件。这样的实施例也在所附权利要求的范围内。
本文对变量的任何定义中的元素列表的列举包括将所述变量定义为所列元素的任何单个元素或组合(或子组合)。本文对实施例的叙述包括所述实施例作为任何单个实施例或与任何其他实施例或其部分组合。
合并引用
本说明书中提到的所有出版物,专利和专利申请都以引用的方式并入本文,就好像每个单独的出版物,专利或专利申请被明确地并单独地指出通过引用并入一样。除非另有说明,否则本说明书中提及的出版物,专利和专利申请通过引用整体并入本文。

Claims (66)

1.一种多效应核碱基编辑器多肽,其包含具有核酸序列特异性结合活性的结构域和两个或更多个选自由腺苷脱氨酶、胞苷脱氨酶和无碱基编辑器组成的群组的核碱基编辑器结构域。
2.根据权利要求1所述的多肽,其进一步包含一个或多个核定位信号(NLS)。
3.根据权利要求2所述的多肽,其中所述NLS是二分NLS。
4.根据权利要求3所述的多肽,其中所述多肽包含N末端NLS和C末端NLS。
5.根据权利要求1所述的多肽,其进一步包含一种或多种尿嘧啶DNA糖基化酶抑制剂(UGI)。
6.根据权利要求1所述的多肽,其中所述核碱基编辑器包含腺苷脱氨酶或其催化活性片段。
7.根据权利要求6所述的多肽,其中所述腺苷脱氨酶是TadA脱氨酶。
8.根据权利要求7所述的多肽,其中所述TadA脱氨酶是自然界中不存在的修饰的腺苷脱氨酶。
9.根据权利要求8所述的多肽,其中所述多肽包含两个相同或不同的腺苷脱氨酶。
10.根据权利要求9所述的多肽,其中所述两个腺苷脱氨基酶能够形成异源二聚体或同源二聚体。
11.根据权利要求10所述的多肽,其中所述两个腺苷脱氨酶结构域是野生型TadA和TadA7.10。
12.根据权利要求1所述的多肽,其中具有核酸序列特异性结合活性的结构域是核酸可编程DNA结合蛋白(napDNAbp)。
13.根据权利要求12所述的多肽,其中所述napDNAbp结构域包含核酸酶死亡的Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。
14.根据权利要求13所述的多肽,其中所述napDNAbp是选自由Cas9、Cas12a/Cpf1、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i或其活性片段组成的群组。
15.根据权利要求14所述的多肽,其中所述napDNAbp结构域包含催化结构域,其能够切割核酸序列的反向互补链。
16.根据权利要求14所述的多肽,其中所述napDNAbp结构域不包含能够切割核酸序列的催化结构域。
17.根据权利要求14所述的多肽,其中所述Cas9是dCas9或nCas9。
18.根据权利要求14所述的多肽,其中所述Cas9是dCas9。
19.根据权利要求14所述的多肽,其中所述Cas9是nCas9。
20.根据权利要求1所述的多肽,其中所述胞苷脱氨酶是海七鳃鳗胞嘧啶脱氨酶1(pCDM)或活化诱导的胞苷脱氨酶(AICDA)。
21.根据权利要求1所述的多肽,其中所述多肽包含无碱基核碱基编辑器。
22.根据权利要求5所述的多肽,其中所述一种或多种UGI衍生自枯草芽孢杆菌噬菌体PBS1,并抑制人类UDG活性。
23.一种多效应核碱基编辑器多肽,其包含一个或多个核定位信号(NLS)、napDNAbp、尿嘧啶DNA糖基化酶抑制剂、腺苷脱氨酶和胞苷脱氨酶。
24.根据权利要求23所述的多肽,其中所述多肽包含两个NLS。
25.根据权利要求23所述的多肽,其中一个NLS是二分NLS。
26.根据权利要求23所述的多肽,其中所述多肽包含两个尿嘧啶DNA糖基化酶抑制剂。
27.根据权利要求23所述的多肽,其中所述多肽包含两个腺苷脱氨酶和一个胞苷脱氨酶,或一个无碱基核碱基编辑器和一个胞苷脱氨酶,或一个无碱基核碱基编辑器和一个腺苷脱氨酶。
28.一种包含以下结构域A-C、A-D或A-E的多效应核碱基编辑器多肽:
NH2-[A-B-C]-COOH,
NH2-[A-B-C-D]-COOH,或
NH2-[A-B-C-D-E]-COOH
其中A和C或A、C和E各自包含以下一种或多种:
腺苷脱氨酶结构域或其活性片段,
胞苷脱氨酶结构域或其活性片段,
DNA糖基化酶结构域或其活性片段;和
其中B或B和D各自包含一个或多个具有核酸序列特异性结合活性的结构域。
29.根据权利要求28所述的多效应核碱基编辑器多肽,其包含:
NH2-[An-Bo-Cn]-COOH,
NH2-[An-Bo-Cn-Do]-COOH,或
NH2-[An-Bo-Cp-Do-Eq]-COOH;
其中A和C或A、C和E各自包含以下一种或多种:
腺苷脱氨酶结构域或其活性片段,
胞苷脱氨酶结构域或其活性片段,和
DNA糖基化酶结构域或其活性片段;和
其中n是整数:1、2、3、4或5,其中p是整数:0、1、2、3、4或5;其中q是0、1、2、3、4或5的整数;和
其中B或B和D各自包含具有核酸序列特异性结合活性的结构域;并且其中o是整数:1、2、3、4或5。
30.根据权利要求28或29所述的多效应核碱基编辑器多肽,其包含一个或多个核定位序列。
31.根据权利要求30所述的多效应核碱基编辑器多肽,其中所述核定位序列中的至少一个在N-末端或C-末端。
32.根据权利要求31所述的多效应核碱基编辑器多肽,其中所述核定位信号是二分核定位信号。
33.根据权利要求28或29所述的多效应核碱基编辑器多肽,其中一个或多个结构域通过连接子连接。
34.根据权利要求28或29所述的多效应核碱基编辑器多肽,其中所述腺苷脱氨酶是TadA脱氨酶。
35.根据权利要求34所述的多效应核碱基编辑器多肽,其中所述TadA是自然界中不存在的修饰的腺苷脱氨酶。
36.根据权利要求35所述的多效应核碱基编辑器多肽,其中所述多肽包含两个相同或不同的腺苷脱氨酶结构域。
37.根据权利要求36所述的多效应核碱基编辑器多肽,其中所述两个腺苷脱氨酶结构域能够形成异源或同源二聚体。
38.根据权利要求36所述的多效应核碱基编辑器多肽,其中所述腺苷脱氨酶结构域是野生型TadA和TadA7.10。
39.根据权利要求28或29所述的多效应核碱基编辑器多肽,其中所述具有核酸序列特异性结合活性的结构域是核酸可编程DNA结合蛋白(napDNAbp)。
40.根据权利要求39所述的多效应核碱基编辑器多肽,其中所述napDNAbp结构域包含核酸酶死亡的Cas9(dCas9),Cas9切口酶(nCas9)或核酸酶活性Cas9。
41.根据权利要求40所述的多效应核碱基编辑器多肽,其中所述napDNAbp选自由Cas9、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i或其活性片段組成的群組。
42.根据权利要求41所述的多效应核碱基编辑器多肽,其中,所述napDNAbp结构域包含催化结构域,其能够切割所述核酸序列的反向互补链。
43.根据权利要求41所述的多效应核碱基编辑器多肽,其中,所述napDNAbp结构域不包含能够切割所述核酸序列的催化结构域。
44.根据权利要求41所述的多效应物核碱基编辑器多肽,其中所述Cas9是dCas9或nCas9。
45.根据权利要求41所述的多效应核碱基编辑器多肽,其中所述napDNAbp包括核碱基编辑器。
46.根据权利要求45所述的多效应核碱基编辑器多肽,其中所述核碱基编辑器包含胞苷脱氨酶或腺苷脱氨酶。
47.根据权利要求46所述的多效应核碱基编辑器多肽,其中所述胞苷脱氨酶是海七鳃鳗胞嘧啶脱氨酶1(pCDM)或激活诱导的胞苷脱氨酶(AICDA)。
48.根据权利要求23所述的多效应核碱基编辑器多肽,其中所述多肽包含两个尿嘧啶DNA糖基化酶抑制剂。
49.一种编码权利要求1至48中任一项所述的多效应核碱基编辑器多肽的多核苷酸分子。
50.根据权利要求49所述的多核苷酸分子,其中所述多核苷酸是密码子优化的。
51.一种表达载体,其包含权利要求49或权利要求50所述的多核苷酸分子。
52.根据权利要求51所述的表达载体,其中所述表达载体是哺乳动物表达载体。
53.根据权利要求51所述的表达载体,其中,所述载体是选自由腺相关病毒(AAV)、逆转录病毒载体、腺病毒载体、慢病毒载体、仙台病毒载体和疱疹病毒载体组成的群组的病毒载体。
54.根据权利要求51至53中任一项所述的表达载体,其中所述载体包含启动子。
55.一种细胞,其包含权利要求49或权利要求50所述的多核苷酸或权利要求51至54中任一项所述的载体。
56.根据权利要求55所述的细胞,其中所述细胞是细菌细胞、植物细胞、昆虫细胞或哺乳动物细胞。
57.一种分子复合物,其包含权利要求1至48中任一项所述的多效应核碱基编辑器多肽和一种或多种指导RNA、tracrRNA或靶DNA分子。
58.一种试剂盒,其包含权利要求1至48中任一项所述的多效应核碱基编辑器多肽、权利要求49或权利要求50所述的多核苷酸、权利要求51至54中任一项所述的表达载体或权利要求57所述的分子复合物。
59.一种编辑核酸序列的核碱基的方法,所述方法包括使核酸序列与碱基编辑器接触,所述碱基编辑器包括:权利要求1至48中任一项所述的多效应核碱基编辑器多肽,并将所述核酸序列的第一核碱基转化为第二核碱基。
60.如权利要求59所述的方法,所述第一核碱基是胞嘧啶,且所述第二核碱基是胸苷,或者所述第一核碱基是腺嘌呤,且所述第二核碱基是鸟嘌呤。
61.根据权利要求59所述的方法,其中所述方法进一步包括将第三核碱基转化为第四核碱基。
62.根据权利要求61所述的方法,其中所述第三核碱基是鸟嘌呤,并且所述第四核碱基是腺嘌呤,或者所述第三核碱基是胸腺嘧啶,并且所述第四核碱基是胞嘧啶。
63.根据权利要求59所述的方法,其中所述核酸序列编码互补决定区(CDR)。
64.一种编辑存在于细胞基因组中的调节序列的方法,所述方法包括使调节序列与碱基编辑器接触,所述碱基编辑器包含:权利要求1至48中任一项所述的多效应核碱基编辑器多肽,并将DNA序列的第一和第二核碱基转换为第三和第四核碱基。
65.一种编辑细胞基因组的方法,所述方法包括使所述基因组与碱基编辑器接触,所述碱基编辑器包括:权利要求1至48中任一项的多效应核碱基编辑器多肽,并将DNA序列的第一和第二核碱基转换为第三和第四核碱基。
66.根据权利要求65所述的方法,进一步包括表征所述编辑对所述基因组的作用。
CN201980065595.XA 2018-08-03 2019-08-02 多效应核碱基编辑器和使用其修饰核酸靶序列的方法 Pending CN112805379A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201862714550P 2018-08-03 2018-08-03
US62/714,550 2018-08-03
PCT/US2019/044935 WO2020028823A1 (en) 2018-08-03 2019-08-02 Multi-effector nucleobase editors and methods of using same to modify a nucleic acid target sequence

Publications (1)

Publication Number Publication Date
CN112805379A true CN112805379A (zh) 2021-05-14

Family

ID=69232046

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201980065595.XA Pending CN112805379A (zh) 2018-08-03 2019-08-02 多效应核碱基编辑器和使用其修饰核酸靶序列的方法

Country Status (9)

Country Link
US (1) US20210277379A1 (zh)
EP (1) EP3830263A4 (zh)
JP (1) JP2021532794A (zh)
KR (1) KR20210041008A (zh)
CN (1) CN112805379A (zh)
AU (1) AU2019316094A1 (zh)
BR (1) BR112021001904A2 (zh)
CA (1) CA3108281A1 (zh)
WO (1) WO2020028823A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114582419A (zh) * 2022-01-29 2022-06-03 苏州大学 一种基于滑动窗口的基因序列多聚腺苷酸尾巴提取方法
CN114606227A (zh) * 2022-02-22 2022-06-10 复旦大学 高精度腺嘌呤碱基编辑器及其应用
CN115704015A (zh) * 2021-08-12 2023-02-17 清华大学 基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统
WO2023050169A1 (zh) * 2021-09-29 2023-04-06 深圳先进技术研究院 一种在基因组上高通量实现tag到taa转换的方法
CN116836962A (zh) * 2023-06-28 2023-10-03 微光基因(苏州)有限公司 工程化的腺苷脱氨酶及碱基编辑器

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3592853A1 (en) 2017-03-09 2020-01-15 President and Fellows of Harvard College Suppression of pain by gene editing
JP2020534795A (ja) 2017-07-28 2020-12-03 プレジデント アンド フェローズ オブ ハーバード カレッジ ファージによって支援される連続的進化(pace)を用いて塩基編集因子を進化させるための方法および組成物
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
US11795443B2 (en) 2017-10-16 2023-10-24 The Broad Institute, Inc. Uses of adenosine base editors
HRP20230828T1 (hr) * 2018-03-14 2023-11-10 Arbor Biotechnologies, Inc. Novi sustavi i enzimi koji ciljaju na crispr dna
US20210198664A1 (en) 2018-05-16 2021-07-01 Arbor Biotechnologies, Inc. Novel crispr-associated systems and components
WO2020163396A1 (en) 2019-02-04 2020-08-13 The General Hospital Corporation Adenine dna base editor variants with reduced off-target rna editing
CA3128878A1 (en) * 2019-02-13 2020-08-20 Beam Therapeutics Inc. Compositions and methods for treating alpha-1 antitrypsin deficiency
SG11202107045PA (en) 2019-02-13 2021-07-29 Beam Therapeutics Inc Compositions and methods for treating hemoglobinopathies
WO2020191153A2 (en) 2019-03-19 2020-09-24 The Broad Institute, Inc. Methods and compositions for editing nucleotide sequences
WO2020241869A1 (ja) * 2019-05-30 2020-12-03 国立大学法人東京大学 2種の核酸塩基変換酵素が融合されたCasタンパク質を利用したゲノム編集システム
WO2021042062A2 (en) * 2019-08-30 2021-03-04 Joung J Keith Combinatorial adenine and cytosine dna base editors
AU2021212189A1 (en) * 2020-01-30 2022-08-04 Pairwise Plants Services, Inc. Compositions, systems, and methods for base diversification
CA3170326A1 (en) * 2020-02-13 2021-08-19 Beam Therapeutics Inc. Compositions and methods for engraftment of base edited cells
EP4103705A4 (en) * 2020-02-14 2024-02-28 Ohio State Innovation Foundation NUCLEOBASE EDITORS AND METHODS OF USE THEREOF
WO2021222318A1 (en) 2020-04-28 2021-11-04 The Broad Institute, Inc. Targeted base editing of the ush2a gene
KR20230019843A (ko) 2020-05-08 2023-02-09 더 브로드 인스티튜트, 인코퍼레이티드 표적 이중 가닥 뉴클레오티드 서열의 두 가닥의 동시 편집을 위한 방법 및 조성물
US20230235305A1 (en) * 2020-06-16 2023-07-27 Arbor Biotechnologies, Inc. Cells modified by a cas12i polypeptide
WO2022242660A1 (en) * 2021-05-17 2022-11-24 Wuhan University System and methods for insertion and editing of large nucleic acid fragments
AU2022307018A1 (en) * 2021-07-05 2024-02-15 Genkore Inc. Cleavage-inactive cas12f1, cleavage-inactive cas12f1-based fusion protein, crispr gene-editing system comprising same, and preparation method and use thereof
WO2023102550A2 (en) 2021-12-03 2023-06-08 The Broad Institute, Inc. Compositions and methods for efficient in vivo delivery

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070117114A1 (en) * 2005-07-07 2007-05-24 Quanta Biosciences, Inc. Compositions and methods for increasing amplification efficiency
US20170073670A1 (en) * 2014-03-05 2017-03-16 National University Corporation Kobe University Genomic sequence modification method for specifically converting nucleic acid bases of targeted dna sequence, and molecular complex for use in same
US20170191082A1 (en) * 2012-12-06 2017-07-06 Sigma-Aldrich Co. Llc Crispr-based genome modification and regulation
US20180073012A1 (en) * 2016-08-03 2018-03-15 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
US20180179503A1 (en) * 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection
CN108271385A (zh) * 2015-09-09 2018-07-10 国立大学法人神户大学 用于特异性转变靶向dna序列的核酸碱基的基因组序列的修饰方法、及其使用的分子复合体

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9737604B2 (en) * 2013-09-06 2017-08-22 President And Fellows Of Harvard College Use of cationic lipids to deliver CAS9
DK3079725T3 (da) * 2013-12-12 2020-01-20 Broad Inst Inc Administration, brug og terapeutiske anvendelser af crispr-cas-systemerne og sammensætninger til genomredigering
WO2016072399A1 (ja) * 2014-11-04 2016-05-12 国立大学法人神戸大学 脱塩基反応により標的化したdna配列に特異的に変異を導入する、ゲノム配列の改変方法、並びにそれに用いる分子複合体
IL258821B (en) * 2015-10-23 2022-07-01 Harvard College Nucleobase editors and their uses

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070117114A1 (en) * 2005-07-07 2007-05-24 Quanta Biosciences, Inc. Compositions and methods for increasing amplification efficiency
US20170191082A1 (en) * 2012-12-06 2017-07-06 Sigma-Aldrich Co. Llc Crispr-based genome modification and regulation
US20170073670A1 (en) * 2014-03-05 2017-03-16 National University Corporation Kobe University Genomic sequence modification method for specifically converting nucleic acid bases of targeted dna sequence, and molecular complex for use in same
CN108271385A (zh) * 2015-09-09 2018-07-10 国立大学法人神户大学 用于特异性转变靶向dna序列的核酸碱基的基因组序列的修饰方法、及其使用的分子复合体
US20180073012A1 (en) * 2016-08-03 2018-03-15 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
US20180179503A1 (en) * 2016-12-23 2018-06-28 President And Fellows Of Harvard College Editing of ccr5 receptor gene to protect against hiv infection

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
FANG YAN等: "Highly Efficient A T to G C Base Editing by Cas9n-Guided tRNA Adenosine Deaminase in Rice", 《MOLECULAR PLAN》, vol. 11, no. 4, pages 631 - 634, XP055655066, DOI: 10.1016/j.molp.2018.02.008 *

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115704015A (zh) * 2021-08-12 2023-02-17 清华大学 基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统
WO2023050169A1 (zh) * 2021-09-29 2023-04-06 深圳先进技术研究院 一种在基因组上高通量实现tag到taa转换的方法
CN114582419A (zh) * 2022-01-29 2022-06-03 苏州大学 一种基于滑动窗口的基因序列多聚腺苷酸尾巴提取方法
CN114606227A (zh) * 2022-02-22 2022-06-10 复旦大学 高精度腺嘌呤碱基编辑器及其应用
CN114606227B (zh) * 2022-02-22 2024-03-08 复旦大学 高精度腺嘌呤碱基编辑器及其应用
CN116836962A (zh) * 2023-06-28 2023-10-03 微光基因(苏州)有限公司 工程化的腺苷脱氨酶及碱基编辑器
CN116836962B (zh) * 2023-06-28 2024-04-05 微光基因(苏州)有限公司 工程化的腺苷脱氨酶及碱基编辑器

Also Published As

Publication number Publication date
EP3830263A1 (en) 2021-06-09
KR20210041008A (ko) 2021-04-14
JP2021532794A (ja) 2021-12-02
CA3108281A1 (en) 2020-02-06
EP3830263A4 (en) 2022-05-04
AU2019316094A1 (en) 2021-02-25
WO2020028823A1 (en) 2020-02-06
US20210277379A1 (en) 2021-09-09
BR112021001904A2 (pt) 2021-05-04

Similar Documents

Publication Publication Date Title
CN112805379A (zh) 多效应核碱基编辑器和使用其修饰核酸靶序列的方法
US11155803B2 (en) Adenosine deaminase base editors and methods of using same to modify a nucleobase in a target sequence
US20210380955A1 (en) Methods of editing single nucleotide polymorphism using programmable base editor systems
US20210371858A1 (en) Methods of suppressing pathogenic mutations using programmable base editor systems
US20220136012A1 (en) Nucleobase editors having reduced off-target deamination and methods of using same to modify a nucleobase target sequence
US20230140953A1 (en) Methods of editing a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease
US20230017979A1 (en) Compositions and methods for non-toxic conditioning
US20220098593A1 (en) Splice acceptor site disruption of a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease
US20220313799A1 (en) Compositions and methods for editing a mutation to permit transcription or expression
US20230070861A1 (en) Compositions and methods for treating hepatitis b
JP2022533673A (ja) プログラム可能塩基エディターシステムを用いた一塩基多型編集法
CN116685684A (zh) 用于治疗1a型糖原贮积症的组合物和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination