CN114206395A - 使用可编程碱基编辑器系统编辑单核苷酸多态性的方法 - Google Patents

使用可编程碱基编辑器系统编辑单核苷酸多态性的方法 Download PDF

Info

Publication number
CN114206395A
CN114206395A CN202080052684.3A CN202080052684A CN114206395A CN 114206395 A CN114206395 A CN 114206395A CN 202080052684 A CN202080052684 A CN 202080052684A CN 114206395 A CN114206395 A CN 114206395A
Authority
CN
China
Prior art keywords
tada
abe
rett
amino acid
adenosine deaminase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080052684.3A
Other languages
English (en)
Inventor
J·M·格尔克
N·彼得罗相
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bim Medical Co ltd
Original Assignee
Bim Medical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bim Medical Co ltd filed Critical Bim Medical Co ltd
Publication of CN114206395A publication Critical patent/CN114206395A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • C12N15/902Stable introduction of foreign DNA into chromosome using homologous recombination
    • C12N15/907Stable introduction of foreign DNA into chromosome using homologous recombination in mammalian cells
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • A61K48/005Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy characterised by an aspect of the 'active' part of the composition delivered, i.e. the nucleic acid delivered
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K31/00Medicinal preparations containing organic active ingredients
    • A61K31/70Carbohydrates; Sugars; Derivatives thereof
    • A61K31/7088Compounds having three or more nucleosides or nucleotides
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K48/00Medicinal preparations containing genetic material which is inserted into cells of the living body to treat genetic diseases; Gene therapy
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P25/00Drugs for disorders of the nervous system
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Veterinary Medicine (AREA)
  • Epidemiology (AREA)
  • Cell Biology (AREA)
  • Mycology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Neurology (AREA)
  • Neurosurgery (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)
  • Peptides Or Proteins (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)

Abstract

本公开描述用于改变与Rett综合征(RETT)相关的突变的组合物和方法。本文提供使用与向导多核苷酸协同作用的碱基编辑器(例如,ABE8)的组合物和方法,所述碱基编辑器包含多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域。本文还提供用于编辑靶标核苷酸序列的核碱基的碱基编辑器系统。

Description

使用可编程碱基编辑器系统编辑单核苷酸多态性的方法
相关申请的交叉引用
本国际PCT申请主张2019年5月21日提交的临时专利申请第62/850,919号的和优先权权益,所述申请的整体内容通过引用而以其整体并入本文。
背景技术
Rett综合征(RTT或RETT)是甲基-CpG-结合蛋白2(Mecp2)基因中的突变的异质群体,其在中枢神经系统(CNS)中损坏或废止被编码蛋白质修饰染色质和转录状态的能力。当在整个CNS广泛地递送时,功能性Mecp2或使用RNA编辑来修复内源Mecp2(MECP2)mRNA转录物的基因疗法是有前景的方法。然而,两种反复必须克服重大挑战以实现治疗效能。Mecp2基因疗法必须严格控制被递送到单细胞基质上的基因的剂量或模仿Mecp2复制综合征表型的风险。RNA编辑平台不能精确地校正造成45%以上RTT诊断病例的最常见的Mecp2突变,而且诱导有效的非引导性脱靶编辑。
引起Rett综合征(RTT)的Mecp2中的基因突变是高度异源的。因此,受欢迎的治疗策略是递送由重组腺相关病毒(rAAV)携带的Mecp2。由于这一策略对每个个体的因果突变是不可知的,因此成功的基因疗法将会为大部分的RTT患者群体提供治疗选择。然而,迄今为止,这一策略取得的成功有限。RTT患者几乎全是杂合子女性,由于随机X染色体失活,导致中枢神经系统(CNS)内的特征性野生型和突变X联锁MeCP2嵌合表达。因此,野生型MeCP2的递送和在已经表达野生型MeCP2的神经元中的表达似乎部分地模拟MeCP2复制综合征的表型。与此相一致,在RTT模型小鼠的CNS中的高转导效率产生比在野生型小鼠中发现的高大约2倍的MeCP2表达。
因此,需要新颖的组合物和方法来治疗患有Rett综合征的患者。
通过引用并入
本说明书中提及的全部出版物、专利和专利申请通过引用并入本文,其并入程度与各独立的出版物、专利或专利申请具体且独立地指明以待通过引用并入相同。如果不另外指明,则本说明书中提及的出版物、专利和专利申请通过引用而以其整体并入本文。
发明内容
如下文所述,本发明的特征在于使用可编程核碱基编辑器来精确校正致病氨基酸的组合物和方法。特别地,本发明的组合物和方法可用于治疗Rett综合征(RTT或RETT)。因此,本发明提供用于治疗Rett综合征的组合物和方法,其使用腺苷(A)碱基编辑器(ABE)(例如,ABE8)来精确地校正內源Mecp2基因中的单核苷酸多态性,以校正有害的突变(例如,R106W、R133C、T158M、R255*、R270*、R306C)。
一方面,提供了一种编辑受试者的甲基CpG结合蛋白2(MECP2)基因或其调节元件的方法,其中所述方法包括向有此需要的受试者给药:(i)腺苷碱基编辑器或编码所述腺苷碱基编辑器的核酸序列和(ii)向导多核苷酸或编码所述向导多核苷酸的核酸序列,其中腺苷碱基编辑器包含可编程DNA结合结构域和腺苷脱氨酶结构域,其中所述腺苷脱氨酶结构域包含位于相对于TadA参考序列的氨基酸位置82或166处或其对应位置处的氨基酸置换,并且其中向导多核苷酸引导腺苷碱基编辑器以在包含与Rett综合征(RETT)相关的SNP的MECP2基因或其调节元件内产生A到G核碱基改变;其中所述A到G核碱基改变位于与RETT相关的SNP处,所述SNP在由所述MECP2基因编码的MECP2多肽或其变体中导致R133C或R306C氨基酸突变。在一种实施方案中,TadA参考序列不包含氨基酸序列MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD。在一种实施方案中,A到G核碱基改变使得与RETT相关的SNP变为野生型核碱基。在一种实施方案中,A到G核碱基改变将与RETT相关的SNP变为非野生型核碱基,这使得RETT的一种或多种症状减轻。在一种实施方案中,在与RETT相关的SNP处的A到G核碱基改变将甲基CpG结合蛋白2(MECP2)多肽中的半胱氨酸变为精氨酸或将终止密码子变为精氨酸。在一种实施方案中,与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。在一种实施方案中,向导多核苷酸包含与包含与RETT相关的SNP的MECP2基因或其调节元件互补的核酸序列。在一种实施方案中,腺苷碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含与RETT相关的SNP的MECP2基因或其调节元件互补的核酸序列。在一种实施方案中,向导多核苷酸包含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
一方面,提供了一种碱基编辑器系统,其中所述碱基编辑器系统包含:(i)腺苷碱基编辑器或编码所述腺苷碱基编辑器的核酸序列和(ii)向导多核苷酸或编码所述向导多核苷酸的核酸序列,其中腺苷碱基编辑器包含可编程DNA结合结构域和腺苷脱氨酶结构域,其中所述腺苷脱氨酶结构域包含位于相对于TadA参考序列的氨基酸位置82或166处或其对应位置处的氨基酸置换,并且其中向导多核苷酸引导腺苷碱基编辑器以在包含与Rett综合征(RETT)相关的SNP的甲基CpG结合蛋白2(MECP2)基因或其调节元件内产生A到G核碱基改变;其中A到G核碱基改变位于与RETT相关的SNP处,所述SNP在由MECP2基因编码的MECP2多肽或其变体中导致R133C或R306C氨基酸突变。在一种实施方案中,A到G核碱基改变使得与RETT相关的SNP变为野生型核碱基。在一种实施方案中,A到G核碱基改变将与RETT相关的SNP变为非野生型核碱基,这使得RETT的一种或多种症状减轻。在一种实施方案中,与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。在一种实施方案中,向导多核苷酸包含与包含与RETT相关的SNP的MECP2基因或其调节元件互补的核酸序列。在一种实施方案中,腺苷碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含与RETT相关的SNP的MECP2基因或其调节元件互补的核酸序列。在一种实施方案中,向导多核苷酸包含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
另一方面,提供了一种编辑包含与Rett综合征(RETT)相关的单核苷酸多态性(SNP)的MECP2多核苷酸的方法,其中所述方法包括:使MECP2多核苷酸与腺苷脱氨酶碱基编辑器8(ABE8)和一种或多种向导多核苷酸的复合物接触,其中ABE8包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域,并且其中一种或多种向导多核苷酸将碱基编辑器靶向以使与RETT相关的MECP2多核苷酸中的SNP发生A·T到G·C改变,其中所述改变是R133C或R306C中的一者或两者。在一种实施方案中,接触是在细胞、真核细胞、哺乳动物细胞或人细胞中。在一种实施方案中,细胞是体内的或离体的。在一种实施方案中,在与RETT相关的SNP处的A·T到G·C改变将甲基CpG结合蛋白2(Mecp2)多肽中的半胱氨酸变为精氨酸或将终止密码子变为精氨酸。在一种实施方案中,与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。在一种实施方案中,多核苷酸可编程DNA结合结构域是选自以下的Cas9:化脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、犬链球菌Cas9(ScCas9)、或其变体。在一种实施方案中,多核苷酸可编程DNA结合结构域包含与改变的前间隔序列邻近基序(PAM)结合的经修饰的SpCas9。在一种实施方案中,经修饰的SpCas9结合至包含选自5'-NGT-3'或5'-NGG-3'的核酸序列的PAM。在一种实施方案中,经修饰的SpCas9结合至NGT PAM变体。在一种实施方案中,NGT PAM变体包含位于经修饰的SpCas9的一个或多个氨基酸残基1335、1337、1135、1136、1218和/或1219处的氨基酸置换,或其相应的氨基酸置换。在一种实施方案中,经修饰的SpCas9包含氨基酸置换L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R以及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337、T1337L、T1337Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换。在一种实施方案中,经修饰的SpCas9包含氨基酸置换D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q和T1337,以及L1111R、G1218R、E1219F、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、T1337L、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换。在一些实施方案中,多核苷酸可编程DNA结合结构域是无核酸活性的或切口酶变体。在一种实施方案中,切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。在一种实施方案中,腺苷脱氨酶结构域能够将脱氧核糖核酸(DNA)中的腺苷脱氨。在一种实施方案中,腺苷脱氨酶结构域包含位于MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处的改变。在一种实施方案中,腺苷脱氨酶结构域包含位于M氨基酸位置82和166处的改变。在一种实施方案中,腺苷脱氨酶结构域包含选自以下的改变:V82S改变、T166R改变、或V82S和T166R改变两者。在一些实施方案中,腺苷脱氨酶结构域进一步包含以下突变中的一种或多种:Y147T、Y147R、Q154S、Y123H和Q154R。在一些实施方案中,腺苷脱氨酶结构域包含选自由以下项组成的组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。在一种实施方案中,ABE8包含腺苷脱氨酶变体单体,其中腺苷脱氨酶单体包含V82S和T166R改变。在一种实施方案中,ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。在一种实施方案中,腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。在一种实施方案中,ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含TadA*8结构域和野生型TadA结构域。在一种实施方案中,腺苷脱氨酶变体进一步包含选自由以下所组成的组的改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。在一种实施方案中,ABE8碱基编辑器包含异二聚体,所述异二聚体包含野生型TadA结构域和腺苷脱氨酶变体,所述腺苷脱氨酶变体包含选自由以下所组成的组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;以及I76Y+V82S+Y123H+Y147R+Q154R。在一种实施方案中,向导多核苷酸包含选自以下的核酸序列:AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。在一种实施方案中,腺苷脱氨酶是TadA脱氨酶。在一种实施方案中,TadA脱氨酶是TadA*8变体。在一种实施方案中,TadA*8变体选自以下组成的组:TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23和TadA*8.24。在一种实施方案中,ABE8碱基编辑器选自以下组成的组:ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d和ABE8.24。在一种实施方案中,一种或多种向导RNA包含CRISPR RNA(crRNA)和反式编码小RNA(tracrRNA),其中crRNA包含与包含与RETT相关的SNP的MECP2核酸序列互补的核酸序列。在一种实施方案中,ABE8碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含与RETT相关的SNP的MECP2核酸序列互补的核酸序列。在一些实施方案中,ABE8碱基编辑器包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
另一方面,提供了一种细胞,其通过将以下项引入所述细胞或其祖先中产生:(i)ABE8碱基编辑器或编码所述碱基编辑器的多核苷酸,其中所述ABE8碱基编辑器包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域;以及(ii)一种或多种向导多核苷酸,其将碱基编辑器靶向以使与RETT综合征(RETT)相关的MECP2多核苷酸中的SNP发生A·T到G·C改变,其中改变是R133C或R306C中的一者或两者。在一种实施方案中,细胞是神经元。在一种实施方案中,神经元表达MECP2多肽。在一种实施方案中,细胞来自患有RETT的受试者。在一种实施方案中,细胞是哺乳动物细胞或人细胞。在一种实施方案中,在与RETT相关的SNP处的A·T到G·C改变将甲基CpG结合蛋白2(MECP2)多肽中的半胱氨酸变为精氨酸,将终止密码子变为精氨酸。在一种实施方案中,与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。在一种实施方案中,多核苷酸可编程DNA结合结构域是选自以下的Cas9:化脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、犬链球菌Cas9(ScCas9)、或其变体。在一种实施方案中,多核苷酸可编程DNA结合结构域包含与改变的前间隔序列邻近基序(PAM)结合的经修饰的SpCas9。在一种实施方案中,经修饰的SpCas9结合至包含选自5'-NGT-3'或5'-NGG-3'的核酸序列的PAM。在一种实施方案中,经修饰的SpCas9结合至NGT PAM变体。在一种实施方案中,NGT PAM变体包含位于经修饰的SpCas9的一个或多个氨基酸残基1335、1337、1135、1136、1218和/或1219处的氨基酸置换,或其相应的氨基酸置换。在一种实施方案中,经修饰的SpCas9包含氨基酸置换L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R以及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337、T1337L、T1337Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换。在一种实施方案中,经修饰的SpCas9包含氨基酸置换D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q和T1337,以及L1111R、G1218R、E1219F、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、T1337L、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换。在一些实施方案中,多核苷酸可编程DNA结合结构域是无核酸活性的或切口酶变体。在一种实施方案中,切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。在一种实施方案中,腺苷脱氨酶结构域能够将脱氧核糖核酸(DNA)中的腺苷脱氨。在一种实施方案中,腺苷脱氨酶结构域包含位于MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处的改变。在一些实施方案中,腺苷脱氨酶进一步包含以下突变中的一种或多种:Y147T、Y147R、Q154S、Y123H和Q154R。在一些实施方案中,腺苷脱氨酶结构域包含选自由以下项组成的组的改变的组合的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。在一种实施方案中,ABE8包含腺苷脱氨酶变体单体,其中腺苷脱氨酶单体包含V82S和T166R改变。在一种实施方案中,ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。在一种实施方案中,腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。在一种实施方案中,ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含TadA*7.10结构域和TadA*8结构域。在一种实施方案中,腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。在一种实施方案中,ABE8碱基编辑器包含异二聚体,所述异二聚体包含TadA*7.10结构域和腺苷脱氨酶变体,所述腺苷脱氨酶变体包含选自由以下所组成的组的改变:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;以及I76Y+V82S+Y123H+Y147R+Q154R。在一种实施方案中,向导多核苷酸包含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。在一种实施方案中,腺苷脱氨酶是TadA脱氨酶。在一种实施方案中,TadA脱氨酶是TadA*8变体。在一种实施方案中,TadA*8变体选自以下组成的组:TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23和TadA*8.24。在一种实施方案中,ABE8碱基编辑器选自以下组成的组:ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d和ABE8.24。在一种实施方案中,一种或多种向导RNA包含CRISPR RNA(crRNA)和反式编码小RNA(tracrRNA),其中crRNA包含与包含与RETT相关的SNP的MECP2核酸序列互补的核酸序列。在一种实施方案中,碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含与RETT相关的SNP的MECP2核酸序列互补的核酸序列。在一些实施方案中,ABE8碱基编辑器包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。在一种实施方案中,IgRNA包含具有以下序列的支架:GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT。
另一方面,提供了一种治疗受试者的RETT综合征(RETT)的方法,其中所述方法包括向所述受试者给药:(i)ABE8碱基编辑器或编码所述碱基编辑器的多核苷酸,其中所述ABE8碱基编辑器包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域;以及(ii)一种或多种向导多核苷酸,其将碱基编辑器靶向以使与RETT综合征(RETT)相关的MECP2多核苷酸中的SNP发生A·T到G·C改变,其中改变是R133C或R306C中的一者或两者。在一种实施方案中,受试者是哺乳动物或人。在一种实施方案中,所述方法包括将ABE8碱基编辑器或编码所述ABE8碱基编辑器的多核苷酸、以及所述一种或多种向导多核苷酸递送至受试者的细胞,任选地,其中细胞是神经元。在所述方法的一种实施方案中,在与RETT相关的SNP处的A·T到G·C改变将甲基CpG结合蛋白2(MECP2)多肽中的半胱氨酸变为精氨酸或将终止密码子变为精氨酸。在一种实施方案中,与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。在一种实施方案中,多核苷酸可编程DNA结合结构域是选自以下的Cas9:化脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、犬链球菌Cas9(ScCas9)、或其变体。在一种实施方案中,多核苷酸可编程DNA结合结构域包含与改变的前间隔序列邻近基序(PAM)结合的经修饰的SpCas9。在一种实施方案中,经修饰的SpCas9结合至包含选自5'-NGT-3'或5'-NGG-3'的核酸序列的PAM。在一种实施方案中,经修饰的SpCas9结合至NGT PAM变体。在一种实施方案中,NGT PAM变体包含位于经修饰的SpCas9的一个或多个氨基酸残基1335、1337、1135、1136、1218和/或1219处的氨基酸置换,或其相应的氨基酸置换。在一种实施方案中,经修饰的SpCas9包含氨基酸置换L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R以及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、R1335Q、T1337、T1337L、T1337Q、T1337I、T1337V、T1337F和T1337M中的一者或多者,或其相应的氨基酸置换。在一种实施方案中,经修饰的SpCas9包含氨基酸置换D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q和T1337,以及L1111R、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337、T1337L、T1337Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换。在一些实施方案中,多核苷酸可编程DNA结合结构域是无核酸活性的或切口酶变体。在一种实施方案中,切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。在一种实施方案中,腺苷脱氨酶结构域能够将脱氧核糖核酸(DNA)中的腺苷脱氨。在一种实施方案中,腺苷脱氨酶结构域包含位于MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处的改变。在一种实施方案中,腺苷脱氨酶结构域包含位于M氨基酸位置82和166处的改变。在一种实施方案中,腺苷脱氨酶结构域包含选自以下的改变:V82S改变、T166R改变、或V82S和T166R改变两者。在一些实施方案中,腺苷脱氨酶结构域进一步包含以下突变中的一种或多种:Y147T、Y147R、Q154S、Y123H和Q154R。在一些实施方案中,腺苷脱氨酶结构域包含选自由以下项组成的组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。在一种实施方案中,ABE8包含腺苷脱氨酶变体单体,其中腺苷脱氨酶单体包含V82S和T166R改变。在一种实施方案中,ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。在一种实施方案中,腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。在一种实施方案中,ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含TadA*7.10结构域和TadA*8结构域。在一种实施方案中,腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。在一种实施方案中,ABE8碱基编辑器包含异二聚体,所述异二聚体包含TadA7.10结构域和腺苷脱氨酶变体,所述腺苷脱氨酶变体包含选自由以下所组成的组的改变:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;以及I76Y+V82S+Y123H+Y147R+Q154R。在一种实施方案中,向导多核苷酸具有含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。在一种实施方案中,腺苷脱氨酶是TadA脱氨酶。在一种实施方案中,TadA脱氨酶是TadA*8变体。在一种实施方案中,TadA*8变体选自以下组成的组:TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23和TadA*8.24。在一种实施方案中,ABE8碱基编辑器选自以下组成的组:ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d和ABE8.24。在一种实施方案中,一种或多种向导RNA包含CRISPR RNA(crRNA)和反式编码小RNA(tracrRNA),其中crRNA包含与包含与RETT相关的SNP的MECP2核酸序列互补的核酸序列。在一种实施方案中,碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含与RETT相关的SNP的MECP2核酸序列互补的核酸序列。
另一方面,提供了一种治疗受试者的Rett综合征(RETT)的方法,其中所述方法包括向有此需要的受试者给药:(i)腺苷碱基编辑器或编码所述腺苷碱基编辑器的核酸序列和(ii)向导多核苷酸或编码所述向导多核苷酸的核酸序列,其中腺苷碱基编辑器包含可编程DNA结合结构域和腺苷脱氨酶结构域,其中腺苷脱氨酶结构域包含位于相对于TadA参考序列的氨基酸位置82或166处或其对应位置处的氨基酸置换,其中向导多核苷酸引导腺苷碱基编辑器以在包含与受试者的Rett综合征(RETT)相关的SNP的甲基CpG结合蛋白2(MECP2)基因或其调节元件内产生A到G核碱基改变,从而治疗受试者的RETT;并且其中与RETT相关的SNP在由MECP2基因编码的MECP2多肽或其变体中导致R133C或R306C氨基酸突变。在所述方法的一种实施方案中,给药减轻了至少一种与RETT相关的症状。在所述方法的一种实施方案中,与使用在腺苷脱氨酶中没有氨基酸置换的碱基编辑器的治疗相比,给药导致与RETT相关的至少一种症状的减轻。在所述方法的一种实施方案中,A到G核碱基改变使得与RETT相关的SNP变为野生型核碱基。在一种实施方案中,A到G核碱基改变将与Rett综合征相关的SNP变为非野生型核碱基,这使得RETT综合征的症状减轻。在一种实施方案中,向导多核苷酸包含与包含与RETT相关的SNP的MECP2基因或其调节元件互补的核酸序列。在一种实施方案中,腺苷碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含与RETT相关的SNP的MECP2基因或其调节元件互补的核酸序列。在一种实施方案中,向导多核苷酸包含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
在上述编辑方法的实施方案和碱基编辑器系统的上述方面及其实施方案中,向导多核苷酸包含核酸序列,所述核酸序列包含与MECP2基因或其调节元件互补的至少10个连续核苷酸。在一种实施方案中,向导多核苷酸包含核酸序列,所述核酸序列包含与MECP2基因或其调节元件互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸。
在上述编辑或治疗方法的实施方案和细胞的上述方面及其实施方案中,向导多核苷酸包含核酸序列,所述核酸序列包含与MECP2多核苷酸互补的至少10个连续核苷酸。在一种实施方案中,向导多核苷酸包含核酸序列,所述核酸序列包含与MECP2多核苷酸互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸。
在上述治疗RETT的方法及其实施方案的实施方案中,与RETT相关的SNP在由MECP2基因编码的MECP2多肽或其变体中导致R133C和/或R306C氨基酸突变。在一种实施方案中,与RETT相关的SNP在由MECP2基因编码的MECP2多肽或其变体中导致R133C氨基酸突变。在一种实施方案中,与RETT相关的SNP在由MECP2基因编码的MECP2多肽或其变体中导致R306C氨基酸突变。
在上述碱基编辑器系统及其实施方案的实施方案中,在与RETT相关的SNP处的A到G核碱基改变在由MECP2基因编码的MECP2多肽或其变体中导致R133C氨基酸突变。在碱基编辑器系统的一种实施方案中,在与RETT相关的SNP处的A到G核碱基改变在由MECP2基因编码的MECP2多肽或其变体中导致R306C氨基酸突变。
在上述编辑MECP2多核苷酸的方法或治疗RETT综合征(RETT)的方法及其实施方案的实施方案中,与RETT相关的SNP的改变包含R133C和R306C两者。在一种实施方案中,与RETT相关的SNP的改变是R133C。在一种实施方案中,与RETT相关的SNP的改变是R306C。
在上述细胞及其实施方案的实施方案中,与RETT综合征(RETT)相关的SNP的改变是R133C。在一种实施方案中,与RETT综合征(RETT)相关的SNP的改变是R306C。
另一方面,提供了一种向导多核苷酸或向导RNA,其中向导多核苷酸或向导RNA(gRNA)包含与编码MECP2蛋白的MECP2基因完美互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个连续核苷酸。在一种实施方案中,向导多核苷酸或向导RNA包含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。在一种实施方案中,向导多核苷酸或向导RNA进一步包含支架序列,其中支架序列任选地如下:GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT。
另一方面,提供了一种包含腺苷脱氨酶碱基编辑器8(ABE8)和向导RNA的组合物,其中在组合物中,ABE8包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域,并且其中向导RNA将碱基编辑器靶向以使与RETT综合征相关的MECP2多核苷酸中的SNP发生A·T到G·C改变,并且其中改变是R133C或R306C中的一者或两者。在所述组合物的一种实施方案中,在与RETT相关的SNP处的A·T到G·C改变将甲基CpG结合蛋白2(MECP2)多肽中的半胱氨酸变为精氨酸或将终止密码子变为精氨酸。在一种实施方案中,与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。在一种实施方案中,多核苷酸可编程DNA结合结构域是选自以下的Cas9:化脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、犬链球菌Cas9(ScCas9)、或其变体。在一种实施方案中,多核苷酸可编程DNA结合结构域包含与改变的前间隔序列邻近基序(PAM)结合的经修饰的SpCas9。在一些实施方案中,多核苷酸可编程DNA结合结构域是无核酸活性的或切口酶变体。在一种实施方案中,切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。在一种实施方案中,腺苷脱氨酶结构域能够将脱氧核糖核酸(DNA)中的腺苷脱氨。在组合物的一种实施方案中,腺苷脱氨酶结构域包含位于MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处的改变。在一种实施方案中,腺苷脱氨酶结构域包含选自以下的改变:V82S改变、T166R改变、或V82S和T166R改变两者。在一些实施方案中,腺苷脱氨酶结构域进一步包含以下突变中的一种或多种:Y147T、Y147R、Q154S、Y123H和Q154R。在一些实施方案中,腺苷脱氨酶结构域包含选自由以下项组成的组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。在一种实施方案中,ABE8包含腺苷脱氨酶变体单体,其中腺苷脱氨酶单体包含V82S和T166R改变。在一种实施方案中,ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。在一种实施方案中,腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。在一种实施方案中,ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含TadA*8结构域和野生型TadA结构域。在一种实施方案中,腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。在一种实施方案中,ABE8碱基编辑器包含异二聚体,所述异二聚体包含野生型TadA结构域和腺苷脱氨酶变体,所述腺苷脱氨酶变体包含选自由以下所组成的组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;以及I76Y+V82S+Y123H+Y147R+Q154R。在一种实施方案中,向导RNA包含选自以下的核酸序列:AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。在一种实施方案中,腺苷脱氨酶是TadA脱氨酶。在一种实施方案中,TadA脱氨酶是TadA*8变体。在一种实施方案中,TadA*8变体选自以下组成的组:TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23和TadA*8.24。在一种实施方案中,ABE8碱基编辑器选自以下组成的组:ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d和ABE8.24。在组合物的一种实施方案中,向导RNA包含CRISPR RNA(crRNA)和反式编码小RNA(tracrRNA),其中crRNA包含与包含与RETT相关的SNP的MECP2核酸序列互补的核酸序列。在一种实施方案中,ABE8碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含与RETT相关的SNP的MECP2核酸序列互补的核酸序列。在一些实施方案中,ABE8碱基编辑器包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。在一种实施方案中,组合物进一步包含脂质,任选地其中脂质是阳离子脂质。
在组合物及其实施方案的上述方面的实施方案中,组合物是包含药学上可接受的赋形剂或稀释剂的药物组合物。在一种实施方案中,药物组合物用于治疗RETT综合征。在药物组合物的一种实施方案中,gRNA和ABE8碱基编辑器配制在一起或单独配制。在药物组合物的一种实施方案中,进一步包含适用于在哺乳动物细胞中表达的载体,其中载体包含编码ABE8碱基编辑器的多核苷酸。在药物组合物的一种实施方案中,载体是病毒载体。在药物组合物的一种实施方案中,病毒载体是逆转录病毒载体、腺病毒载体、慢病毒载体、疱疹病毒载体或腺相关病毒载体(AAV)。在一种实施方案中,药物组合物进一步包含适用于在哺乳动物细胞中表达的核糖核粒子。
另一方面,提供了一种治疗RETT综合征的方法,其中所述方法包括向有此需要的受试者给药如上述任何方面和实施方案中所述的药物组合物。在所述方法的一种实施方案中,受试者是哺乳动物或人。
另一方面,提供了上述任何方面和实施方案中所述的药物组合物的用于治疗受试者的RETT综合征的用途。在所述用途的一种实施方案中,受试者是哺乳动物或人。
一方面,提供了一种包含上述任何方面和实施方案中所述的细胞的组合物。在一种实施方案中,组合物进一步包含药学可接受的载剂或稀释剂。
另一方面,提供了一种药物组合物,其包含:(i)编码ABE8碱基编辑器的核酸;和(ii)根据上述方面和实施方案中所述的向导多核苷酸或向导RNA。在一种实施方案中,药物组合物进一步包含脂质。在一种实施方案中,脂质是阳离子脂质。在药物组合物的一种实施方案中,编码碱基编辑器的核酸是mRNA。
另一方面,提供了一种ABE8碱基编辑器,其中ABE8碱基编辑器包含:(i)经修饰的SpCas9,其包含氨基酸置换L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R以及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337、T1337L、T1337Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换,以及(ii)TadA*8腺苷脱氨酶。
另一方面,提供了一种ABE8碱基编辑器,其中ABE8碱基编辑器包含:(i)经修饰的SpCas9,其包含氨基酸置换D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q和T1337,以及L1111R、G1218R、E1219F、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、T1337L、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换,以及(ii)TadA*8腺苷脱氨酶。
附图说明
本公开的特征在所附权利要求书中具体阐述。参考以下阐述例示性实施方案的具体实施方式(其中利用了本公开的原理),并且参考附图,可以获得对本公开的特征和优点的更佳理解,其中:
图1是基于RTT突变描绘运动行为评估的图。
图2示例性说明MECP2蛋白的每个结构域的功能和常见RTT突变的定位。
图3是描绘使ABE8碱基编辑器变体并使用gRNA1、gRNA2和gRNA5进行R106W RTT突变的精确校正百分比的图。显示了与每种gRNA配对的每种碱基编辑器的结果,从左到右为ABE8.14(最左)到Neg.Ct(最右)。
具体实施方式
本发明的特征在于使用可编程核碱基编辑器(例如,ABE8)来精确校正与RTT相关的致病氨基酸的组合物和方法。
本发明至少部分地基于以下发现:以腺苷脱氨酶变体为特征的碱基编辑器(本文中称为腺苷碱基编辑器8或“ABE8”)精确地校正內源Mecp2基因中的单核苷酸多态性(SNP)(例如,R106W、R133C、T158M、R255*、R270*、R306C)。在一种实施方案中,Mecp2基因中的SNP是R133C。在一种实施方案中,Mecp2基因中的SNP是R306C。
本文描述了组合物和方法,其提供碱基编辑和碱基编辑系统以精确地校正甲基-CpG-结合蛋白2(Mecp2)基因中的一个或多个突变,所述突变与进行性神经发育疾患Rett综合征(RTT或RETT)及其症状因果性地相关。RTT是X连锁显性疾患,其主要累及女性,与96%的在Mecp2基因中具有突变的受累个体相关,并且其特征在于早期发育明显正常,随后退化并伴有精细运动机能以及有效沟通能力的丧失、动作僵硬以及失用症或步态的完全缺乏(参见图1)。受累个体的其他临床特征包括出生后头部生长速度的异常减速、周期性呼吸、胃肠功能障碍、癫痫和脊柱侧弯。
最常见的导致RTT的突变是胞嘧啶到胸腺嘧啶(C→T)转换型突变,其导致C·G到T·A碱基对置换。这种置换可以使用催化A·T到G·C置换的腺苷碱基编辑器(ABE)逆转回野生型非致病基因组序列。引申开来,常见的造成RTT的突变对于使用ABE逆转为野生型序列而言是潜在的靶标,没有引起像使用基因疗法时可能发生的Mecp2基因过表达的风险。因此,A·T到G·C DNA碱基编辑具有精确地修正Mecp2基因中常见的造成RTT的突变中的一个或多个的潜力。
以下说明和实施例详细地例示性说明本公开的实施方案。应理解,本公开不限于本文所述的特定实施方案并因此可变。本领域技术人员应了解,存在大量关于本公开的改变和修改,而这些改变和修改还该在本公开范畴内。
本文使用的章节标题仅用于组织性目的,而不视为限制所描述的主题。
尽管本公开的多个特征可以在单实施方案上下文中描述,但这些特征也可以单独提供或以任何合适的组合方式提供。相反,尽管为了清楚起见,本公开可以在本文的单独实施方案上下文中描述,但本公开也可以在单实施方案中实现。
定义
以下定义补充了本领域中的定义且针对本申请,并且不归咎于任何相关或不相关的情况,例如,任何共同拥有的专利或申请。尽管与本文中揭示者类似或等效的方法和材料可用于测试本公开的实践中,但优选的方法和材料在本文中描述。据此,本文所使用的技术仅用于描述特定实施方案的目的,而非试图限制。
除非另做定义,否则本公开及其实施方案中使用的全部科技术语具有所属领域技术人员所一般理解的意义。下述参考文献对技术人员提供本公开中使用的多个术语的一般性定义:Singleton等人所著《微生物学和分子生物学词典(第二版)》(Singleton等人,Dictionary of Microbiology and Molecular Biology(2nd ed.1994));《剑桥科技词典》(The Cambridge Dictionary of Science and Technology(Walker ed.,1988));Rieger等人编撰的《遗传性术语表(第五版)》(The Glossary of Genetics,5th Ed.,R.Rieger等人(eds.),Springer Verlag(1991));以及Hale和Marham所著《哈珀·柯林斯生物学词典》(Hale&Marham,The Harper Collins Dictionary of Biology(1991)).
在本申请中,除非具体地另做指定,否则单数的使用包括复数。必须注意,如本说明书中所用,除非上下文中明确排除,否则单数形式“一”和“所述”包括复数个对象。在本申请中,除非另做指定,否则“或”的使用意为“和/或”并且理解为包含性的。此外,术语“包括”以及其他形式(诸如主动形式和被动形式)不是限制性的。
如本说明书和权利要求书中所用,词语“包含”(以及其他形式的包含,诸如复数形式和单数形式)、“具有”(以及其他形式的具有,诸如复数形式和单数形式)、“包括”(以及其他形式的包括,诸如复数形式和单数形式)或“含有”(以及其他形式的含有,诸如单数形式和复数形式)是包含性的或开放性的,并且不排除另外的、未引用的元件或方法步骤。设想本说明书中讨论的任何实施方案可以关于本公开的任何方法或组合物来实现,反之亦然。此外,本公开的组合物可用来实现本公开的方法。
术语“约”或“大约”意为处于特定数值的可接受的误差范围内,如由本领域技术人员所确定的,其将部分地取决于所述数值如何测量或测定,即,测量系统的限制。例如,根据本领域的实践,“约”可以意为处于一(1)个或超过一(1)个标准偏差内。另选地,“约”可以意为给定值的至多20%、至多10%、至多5%或至多1%的范围。另选地,特别是关于生物系统或过程,所述术语可以意为处于数值的数量级内,优选5倍以内,更优选2倍以内。如果在申请和权利要求中描述特定数值,除非另做指定,否则应假设术语“约”意为处于所述特定数值的可接受的误差范围内。
本文中提供的范围理解为所述范围内所有值的略写。例如,1至50的范围理解为包括来自由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50所组成的组的任意数字、数字组合或子范围。
说明书中对“一些实施方案”、“实施方案”、“一个实施方案”或“其他实施方案”的引用意味着,与这些实施方案关联描述的特定特征、结构或特点包括在本公开的至少一些实施方案中,但不必包括在全部实施方案中。
“腺苷脱氨酶”意为能够催化腺嘌呤或腺苷的水解性脱氨反应的多肽或其片段。在一些实施方案中,脱氨酶或脱氨酶结构域是催化腺苷到肌苷的水解性脱氨反应或腺苷到脱氧肌苷的脱氧反应的腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶催化脱氧核糖核酸(DNA)中的腺嘌呤或腺苷的水解性脱氨反应。本文提供的腺苷脱氨酶(例如,经工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可以来自任何生物体诸如细菌。
在一些实施方案中,脱氨酶或脱氨酶结构域是来自生物体诸如人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然出现脱氨酶的变体。在一些实施方案中,脱氨酶或脱氨酶结构域不出现在自然界中。例如,在一些实施方案中,脱氨酶或脱氨酶结构域与天然出现的脱氨酶具有至少50%、至少55%、至少60%、至少65%、至少70%、至少75%至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%或至少99.9%的同一性。
在一些实施方案中,腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,TadA脱氨酶是TadA变体。在一些实施方案中,TadA变体是TadA*8。野生型TadA(wt)腺苷脱氨酶具有以下序列(也称为TadA参考序列):
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD。
在一些实施方案中,腺苷脱氨酶包含以下序列中的改变:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
(也称为TadA*7.10)。
在一些实施方案中,TadA*7.10包含至少一个改变。在一些实施方案中,TadA*7.10包含位于氨基酸82和/或166处的改变。在特定实施方案中,上文述参考的序列的变体包含以下改变变中的一种或多种:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R。在其他实施方案中,TadA*7.10序列的变体包含选自以下项的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H、I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;或I76Y+V82S+Y123H+Y147R+Q154R。
在其他实施方案中,相对于TadA*7.10(TadA参考序列),腺苷脱氨酶变体提供为包括缺失,所述缺失包含C端的缺失,所述缺失起始于残基149、150、151、152、153、154、155、156或157,或另一TadA中的对应突变。在其他实施方案中,腺苷脱氨酶变体是TadA(例如,TadA*8)单体,其包含以下改变中的一种或多种:相对于TadA*7.10(TadA参考序列),Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,或另一TadA中的相应突变。在其他实施方案中,腺苷脱氨酶变体是TadA(例如,TadA*8)单体,其包含选自以下项的改变组合:相对于TadA*7.10(TadA参考序列),Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H、I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;或I76Y+V82S+Y123H+Y147R+Q154R,或另一TadA中的相应突变。
在又其他实施方案中,腺苷脱氨酶变体是均二聚体,其包含两个腺苷脱氨酶结构域(例如,TadA*8),每个腺苷脱氨酶结构域具有以下突变中的一种或多种:相对于TadA*7.10(TadA参考序列),Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,或另一TadA中的相应突变。在其他实施方案中,腺苷脱氨酶变体是均二聚体,其包含两个腺苷脱氨酶结构域(例如,TadA*8),每个腺苷脱氨酶结构域具有选自以下项的改变组合:相对于TadA*7.10(TadA参考序列),Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H、I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;或I76Y+V82S+Y123H+Y147R+Q154R,或另一TadA中的相应突变。
在其他实施方案中,腺苷脱氨酶变体是异二聚体,其包含野生型TadA腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*8),所述腺苷脱氨酶变体结构域包含以下突变中的一种或多种:相对于TadA*7.10(TadA参考序列),Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,或另一TadA中的相应突变。在其他实施方案中,腺苷脱氨酶变体是异二聚体,其包含野生型TadA腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如,TadA*8),所述腺苷脱氨酶变体结构域包含选自由以下项的组的改变的组合:相对于TadA*7.10(TadA参考序列),Y147T+Q154R、Y147T+Q154S、Y147R+Q154S、V82S+Q154S、V82S+Y147R、V82S+Q154R、V82S+Y123H、I76Y+V82S、V82S+Y123H+Y147T、V82S+Y123H+Y147R、V82S+Y123H+Q154R、Y147R+Q154R+Y123H、Y147R+Q154R+I76Y、Y147R+Q154R+T166R、Y123H+Y147R+Q154R+I76Y、V82S+Y123H+Y147R+Q154R、和I76Y+V82S+Y123H+Y147R+Q154R,或另一TadA中的相应突变。
在其他实施方案中,腺苷脱氨酶变体是异二聚体,其包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如,TadA*8),所述腺苷脱氨酶变体结构域包含以下突变中的一种或多种:相对于TadA*7.10(TadA参考序列),Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,或另一TadA中的相应突变。在其他实施方案中,腺苷脱氨酶变体是异二聚体,其包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如,TadA*8),所述腺苷脱氨酶变体结构域包含以下改变的组合:相对于TadA*7.10(TadA参考序列),Y147T+Q154R、Y147T+Q154S、Y147R+Q154S、V82S+Q154S、V82S+Y147R、V82S+Q154R、V82S+Y123H、I76Y+V82S、V82S+Y123H+Y147T、V82S+Y123H+Y147R、V82S+Y123H+Q154R、Y147R+Q154R+Y123H、Y147R+Q154R+I76Y、Y147R+Q154R+T166R、Y123H+Y147R+Q154R+I76Y、V82S+Y123H+Y147R+Q154R、和I76Y+V82S+Y123H+Y147R+Q154R,或另一TadA中的相应突变。
在一个实施方案中,腺苷脱氨酶是TadA*8,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在一些实施方案中,TadA*8是经截短的。在一些实施方案中,相对于全长度TadA*8,经截短的TadA*8失去了1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个N端氨基酸残基。在一些实施方案中,相对于全长度TadA*8,经截短的TadA*8失去了1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个C端氨基酸残基。在一些实施方案中,腺苷脱氨酶变体是全长度TadA*8。
在特定实施方案中,腺苷脱氨酶异二聚体包含TadA*8结构域和选自以下的腺苷脱氨酶结构域:
金黄色葡萄球菌(Staphylococcus aureus(S.aureus))TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAH AEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌(Bacillus subtilis(B.subtilis))TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEML VIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门氏菌(Salmonella typhimurium(S.typhimurium))TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(Shewanella putrefaciens(S.putrefaciens))TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌(Haemophilus influenzae)F3031(H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTΑΗAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
新月柄杆菌(Caulobacter crescentus(C.crescentus))TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(Geobacter sulfurreducens(G.sulfurreducens))TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
TadA*7.10
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
“腺苷脱氨酶碱基编辑器8(ABE8)多肽”或“ABE8”意为一种如本文所定义的碱基编辑器,其包含腺苷脱氨酶变体,所述变体包含位于以下参考序列的氨基酸位置82和/或166处的改变:MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
在一些实施方案中,ABE8包含进一步的改变,如本文所述,相对于参考序列。
“腺苷脱氨酶碱基编辑器8(ABE8)多核苷酸”意为编码ABE8的多核苷酸。
本文中,“给药”是指向患者或受试者提供本文所述的一种或多种组合物。举例而言且并非限制,可通过静脉内(i.v.)注射、皮下(s.c.)注射、皮内(i.d.)注射、腹膜内(i.p.)注射或肌肉内(i.m.)注射来执行组合物给药(例如,注射)。可采用一种或多种此类途径。例如,可通过单次快速注射或通过随时间渐进灌注进行肠胃外给药。在一些实施方案中,肠胃外给药包括血管内、静脉内、肌肉内、动脉内、鞘内、肿瘤内、皮内、腹膜内、经气管、皮下、表皮下、关节内、被膜下、蛛网膜下和胸骨内输液或注射。另选地,或同时,可通过口服途径给药。
“剂”意为任何小分子化学化合物、抗体、核酸分子、或肽、或其片段。
“改变”意为基因或多肽的表达水平或活性的变化(增加或减少),如通过标准领域(standard art)已知的方法如本文所述的那些方法所检测。如本文中所用,改变包括表达水平变化至少10%,优选变化25%,更优选变化40%,且最优选表达水平变化50%或更高。“缓解”意为减少、阻抑、衰减、缩减、迟滞或稳定化疾病的发展或进展。
“类似物”意为不相同但具有类似的功能或结构特征的分子。例如,多肽类似物保留相对应的天然多肽的生物学活性,但具有某些令所述类似物功能相对于天然多肽增强的生化修饰。此类生化修饰将会增加类似物的蛋白酶抗性、膜渗透性和/或半衰期,而不改变例如配体结合。类似物可以包括非天然氨基酸。
“甲基CpG结合蛋白2(Mecp2)蛋白”意为一种多肽或其片段,其与NCBI登录号NP_004983具有至少约95%的氨基酸序列一致性并且具有去甲基酶活性。在特定实施方案中,Mecp2蛋白包含相对于以下参考序列的一个或多个改变。在特定实施方案中,与RTT相关的Mecp2蛋白包含选自R106W、R168*、R133C、T158M、R255*、R270*和R306C的一个或多个突变。例示性的Mecp氨基酸序列提供于下。
Figure BDA0003480255960000281
“Mecp2多核苷酸”意为编码Mecp2蛋白或其片段的核酸分子。示例性的Mecp2多核苷酸的序列(其可以NCBI参考序列:NM_004992获得)提供于下。在特定实施方案中,Mecp2多核苷酸包含相对于以下参考序列的一个或多个改变。在特定实施方案中,与RTT相关的Mecp2多核苷酸包含选自316C>T、397C>T、473C>T、763C>T、808C>T和916C>T的一个或多个突变。
Figure BDA0003480255960000291
Figure BDA0003480255960000301
Figure BDA0003480255960000311
Figure BDA0003480255960000321
Figure BDA0003480255960000331
“碱基编辑器(BE)”或“核碱基编辑器(NBE)意为结合多核苷酸并且具有核碱基修饰活性的试剂。在多个实施方案中,碱基编辑器包含核碱基修饰多肽(例如,脱氨酶)和核酸可编程核苷酸结合结构域,其与向导多核苷酸(例如,向导RNA)协力。在多个实施方案中,所述试剂是生物分子复合物,其包含具有碱基编辑活性的蛋白结构域,即能够修饰核酸分子(例如,DNA)中的碱基(例如,A、T、C、G或U)的结构域。在一些实施方案中,多核苷酸可编程DNA结合结构域融合或连接至脱氨酶结构域。在一个实施方案中,所述试剂是融合蛋白,其包含具有碱基编辑活性的结构域。在另一实施方案中,具有碱基编辑活性的蛋白结构域连接至向导RNA(例如,经由向导RNA上的RNA结合基序和融合至脱氨酶的RNA结合结构域)。在一些实施方案中,具有碱基编辑活性的结构域能够将核酸分子内的碱基脱氨。在一些实施方案中,碱基编辑器能够将DNA分子内的一个或多个碱基脱氨。在一些实施方案中,碱基编辑器能够将DNA内的腺苷(A)脱氨。在一些实施方案中,碱基编辑器是腺苷碱基编辑器(ABE)。
在一些实施方案中,通过将腺苷脱氨酶变体(例如,TadA*8)克隆到包括环状完全突变体(permutant)Cas9(例如,spCAS9或saCAS9)和二分体核定位序列的支架中而产生碱基编辑器(例如,ABE8)。环状完全突变体Cas9是本领域中已知的,并且在例如Oakes等人,Cell176,254–267,2019中有所描述。示例性的环状完全突变体如下,其中粗体序列指示来源于Cas9的序列,斜体序列表示连接子序列,而下划线序列表示二分体核定位序列。
CP5(具有MSP“NGC=具有规则Cas9突变如NGG的Pam变体”、PID=蛋白质相互作用结构域和“D10A”切口酶):
Figure BDA0003480255960000332
Figure BDA0003480255960000341
在一些实施方案中,碱基编辑器是腺苷碱基编辑器8(ABE8).在一些实施方案中,BE8选自来自上文表9的碱基编辑器。在一些实施方案中,ABE8含有从TadA进化的腺苷脱氨酶变体。在一些实施方案中,ABE8的腺苷脱氨酶变体是如上文表9中所述的TadA*8变体。在一些实施方案中,腺苷脱氨酶变体是TadA*7.10变体(例如,TadA*8),其包含选自由以下项所组成的组的一种或多种改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R。在多个实施方案中,ABE8包含TadA*7.10变体(例如,TadA*8),其具有选自由以下项所组成的组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H、I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;以及I76Y+V82S+Y123H+Y147R+Q154R。在一些实施方案中,ABE8是单体构建体。在一些实施方案中,ABE8是异二聚体构建体。一些实施方式中,ABE8碱基编辑器包含序列:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在一些实施方案中,多核苷酸可编程DNA结合结构域是CRISPR相关(例如,Cas或Cpf1)酶。在一些实施方案中,碱基编辑器是融合至脱氨酶结构域的催化死亡(catalytically dead)Cas9(dCas9)。在一些实施方案中,碱基编辑器是融合至脱氨酶结构域的Cas9切口酶(nCas9)。在一些实施方案中,碱基编辑器融合至碱基切除修复(BER)的抑制剂。在一些实施方案中,碱基切除修复的抑制剂是尿嘧啶DNA糖苷酶抑制剂(UGI)。在一些实施方案中,碱基切除修复的抑制剂是肌苷碱基切除修复抑制剂。碱基编辑器的细节在国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述,其各自通过引用而整体并入本文。也参见,Komor,A.C.,等人,“Programmableediting of a target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNA cleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excision repair inhibition and bacteriophage Mu Gamprotein yields C:G-to-T:A base editors with higher efficiency and productpurity”Science Advances 3:eaao4774(2017))和Rees,H.A.,等人,“Base editing:precision chemistry on the genome and transcriptome of living cells.”Nat RevGenet.2018 Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其整体内容通过引用并入本文。
举例而言,如本文所述的碱基编辑组合物、系统和方法中使用的腺苷碱基编辑器ABE具有如下文提供的核酸序列(8877个碱基对)(Addgene,Watertown,MA.;Gaudelli NM,等人,Nature.2017 Nov 23;551(7681):464-471.doi:10.1038/nature24644;Koblan LW,等人,Nat Biotechnol.2018 Oct;36(9):843-846.doi:10.1038/nbt.4172.)。也包括与ABE核酸序列具有至少95%或更高同一性的多核苷酸序列。
ATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACCATGAAACGGACAGCCGACGGAAGCGAGTTCGAGTCACCAAAGAAGAAGCGGAAAGTCTCTGAAGTCGAGTTTAGCCACGAGTATTGGATGAGGCACGCACTGACCCTGGCAAAGCGAGCATGGGATGAAAGAGAAGTCCCCGTGGGCGCCGTGCTGGTGCACAACAATAGAGTGATCGGAGAGGGATGGAACAGGCCAATCGGCCGCCACGACCCTACCGCACACGCAGAGATCATGGCACTGAGGCAGGGAGGCCTGGTCATGCAGAATTACCGCCTGATCGATGCCACCCTGTATGTGACACTGGAGCCATGCGTGATGTGCGCAGGAGCAATGATCCACAGCAGGATCGGAAGAGTGGTGTTCGGAGCACGGGACGCCAAGACCGGCGCAGCAGGCTCCCTGATGGATGTGCTGCACCACCCCGGCATGAACCACCGGGTGGAGATCACAGAGGGAATCCTGGCAGACGAGTGCGCCGCCCTGCTGAGCGATTTCTTTAGAATGCGGAGACAGGAGATCAAGGCCCAGAAGAAGGCACAGAGCTCCACCGACTCTGGAGGATCTAGCGGAGGATCCTCTGGAAGCGAGACACCAGGCACAAGCGAGTCCGCCACACCAGAGAGCTCCGGCGGCTCCTCCGGAGGATCCTCTGAGGTGGAGTTTTCCCACGAGTACTGGATGAGACATGCCCTGACCCTGGCCAAGAGGGCACGCGATGAGAGGGAGGTGCCTGTGGGAGCCGTGCTGGTGCTGAACAATAGAGTGATCGGCGAGGGCTGGAACAGAGCCATCGGCCTGCACGACCCAACAGCCCATGCCGAAATTATGGCCCTGAGACAGGGCGGCCTGGTCATGCAGAACTACAGACTGATTGACGCCACCCTGTACGTGACATTCGAGCCTTGCGTGATGTGCGCCGGCGCCATGATCCACTCTAGGATCGGCCGCGTGGTGTTTGGCGTGAGGAACGCAAAAACCGGCGCCGCAGGCTCCCTGATGGACGTGCTGCACTACCCCGGCATGAATCACCGCGTCGAAATTACCGAGGGAATCCTGGCAGATGAATGTGCCGCCCTGCTGTGCTATTTCTTTCGGATGCCTAGACAGGTGTTCAATGCTCAGAAGAAGGCCCAGAGCTCCACCGACTCCGGAGGATCTAGCGGAGGCTCCTCTGGCTCTGAGACACCTGGCACAAGCGAGAGCGCAACACCTGAAAGCAGCGGGGGCAGCAGCGGGGGGTCAGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACACTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATC
“碱基编辑活性”意为发挥作用以化学地改变多核苷酸内的碱基。在一个实施方案中,将第一碱基转化为第二碱基。在一种实施方案中,碱基编辑活性是腺苷或腺嘌呤脱氨酶活性,例如,将A·T转化为G·C。
在一些实施方案中,通过编辑的效率评估碱基编辑活性。碱基编辑效率可以通过任何合适的手段测量,例如,通过桑格(sanger)测序或下一代测序测量。在一些实施方案中,碱基编辑效率通过具有碱基编辑器所致的核碱基转化的测序读取的总百分比测量,例如,具有靶标A·T碱基对被转化为G·C碱基对的测序读取的总百分比。在一些实施例中,当在细胞群中执行碱基编辑时,碱基编辑效率通过具有碱基编辑器所致的核碱基转化的细胞的总百分比测量。术语“碱基编辑器系统”是指用于编辑靶标核苷酸序列的核碱基的系统。在多种实施方案中,碱基编辑器(BE)系统包含:(1)多核苷酸可编程核苷酸结合结构域(例如,Cas9);(2)用于将所述核碱基脱氨的脱氨酶结构域(例如,腺苷脱氨酶);和(3)一种或多种向导多核苷酸(例如,向导RNA)。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)。在一些实施方案中,碱基编辑器系统是腺苷碱基编辑器(ABE8).在一些实施方案中,ABE8是单体构建体。在一些实施方案中,ABE8是ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m。在一些实施方案中,ABE8是异聚构建体。在一些实施方案中,ABE8是ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d。
在一些实施方案中,核碱基编辑器系统包含超过一个碱基编辑组分。例如,碱基编辑器系统可以包括一种或多种腺苷脱氨酶。在一些实施方案中,单向导多核苷酸可用将不同的脱氨酶靶向靶标核酸序列。在一些实施方案中,一对向导多核苷酸可用将不同的脱氨酶靶向靶标核酸序列。
碱基编辑器系统的脱氨酶结构域和多核苷酸可编程核苷酸结合组分可以彼此共价或非共价地缔合,或者是其缔合和相互作用的任意组合。例如,在一些实施方案中,脱氨酶结构域可以通过多核苷酸可编程核苷酸结合结构域被靶向至靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以融合或连接至脱氨酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与脱氨酶结构域非共价地相互作用或缔合而将脱氨酶结构域靶向至核苷酸序列。例如,在一些实施方案中,脱氨酶结构域可以包含额外的异源部分或结构域,所述异源部分或结构域能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够结合至向导多核苷酸。在一些实施方案中,额外异源部分可以能够结合至多肽连接子。在一些实施方案中,额外异源部分可以能够结合至多核苷酸连接子。额外异源部分可以是蛋白结构域。在一些实施方案中,额外异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu外壳蛋白结构域、不育α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白、或RNA识别基序。
碱基编辑器系统可以进一步包含向导多核苷酸组分。应知悉,碱基编辑器系统的组分可以彼此经由共价键彼此缔合、非共价相互作用、或其缔合及相互作用的任何组合。在一些实施方案中,脱氨酶结构域可以通过向导多核苷酸被靶向至靶标核苷酸序列。例如,在一些实施方案中,脱氨酶结构域可以包含额外异源部分或结构域(例如,多核苷酸结合结构域诸如RNA或DNA结合蛋白),所述额外异源部分或结构域能够与向导多核苷酸的部分或链段(例如,多核苷酸基序)相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分或结构域(例如,多核苷酸结合结构域诸如RNA或DNA结合蛋白)可以融合或连接至脱氨酶结构域。在一些实施方案中,额外异源部分可以能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够结合至向导多核苷酸。在一些实施方案中,额外异源部分可以能够结合至多肽连接子。在一些实施方案中,额外异源部分可以能够结合至多核苷酸连接子。额外异源部分可以是蛋白结构域。在一些实施方案中,额外异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu外壳蛋白结构域、不育α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白、或RNA识别基序。
在一些实施方案中,碱基编辑器系统可以进一步包含碱基切除修复(BER)组分的抑制剂。应知悉,碱基编辑器系统的组分可以彼此经由共价键彼此缔合、非共价相互作用、或其缔合及相互作用的任何组合。BER组分的抑制剂可以包含碱基切除修复(BER)抑制剂。在一些实施方案中,碱基切除修复(BER)的抑制剂可以是尿嘧啶DNA糖苷酶抑制剂(UGI)。在一些实施方案中,碱基切除修复的抑制剂可以是肌苷碱基切除修复(BER)抑制剂。在一些实施方案中,碱基切除修复(BER)的抑制剂可以通过多核苷酸可编程核苷酸结合结构域被靶向至靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以融合或连接至碱基切除修复(BER)的抑制剂。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以融合或连接至脱氨酶结构域和碱基切除修复(BER)的抑制剂。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与碱基切除修复的抑制剂非共价地相互作用或缔合而将碱基切除修复(BER)的抑制剂靶向至核苷酸序列。例如,在一些实施方案中,碱基切除修复(BER)组分的抑制剂可以包含额外的异源部分或结构域,所述异源部分或结构域能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,碱基切除修复(BER)的抑制剂可以通过向导多核苷酸被靶向至靶标核苷酸序列。例如,在一些实施方案中,碱基切除修复(BER)的抑制剂可以包含额外异源部分或结构域(例如,多核苷酸结合结构域诸如RNA或DNA结合蛋白),所述额外异源部分或结构域能够与向导多核苷酸的部分或链段(例如,多核苷酸基序)相互作用、缔合或形成复合物。在一些实施方案中,向导多核苷酸的额外异源部分或结构域(例如,多核苷酸结合结构域诸如RNA或DNA结合蛋白)可以融合或连接至碱基切除修复(BER)的抑制剂。在一些实施方案中,额外异源部分可以能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够结合至向导多核苷酸。在一些实施方案中,额外异源部分可以能够结合至多肽连接子。在一些实施方案中,额外异源部分可以能够结合至多核苷酸连接子。额外异源部分可以是蛋白结构域。在一些实施方案中,额外异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu外壳蛋白结构域、不育α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白、或RNA识别基序。
术语“Cas9”或“Cas9结构域”是指包含Cas9蛋白的RNA引导的核酸酶或其片段(例如,一种蛋白质,其包含Cas9的活性、失活或部分活性的DNA裂解结构域和/或Cas9的gRMA结合结构域)。Cas9核酸酶有时也称为Casn1核酸酶或CRISPR(成簇规则间隔短回文重复序列)相关核酸酶。CRISPR是适应性免疫系统,其提供针对可动遗传因子(病毒、转座因子和接合质粒)的保护。CRISPR簇含有间隔序列、与祖先可动因子互补的序列和侵入靶标的核酸。CRISPR簇被转录并加工为CRISPR RNA(crRNA)。在II型CRISPR系统中,正确加工pre-crRNA需要反式编码的小RNA(tracrRNA)、內源核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA在核糖核酸酶3辅助的pre-crRNA加工中充当向导。随后,Cas9/crRNA/tracrRNA核酸内切溶解地裂解与间隔序列互补的线性或环状dsDNA靶标。不与crRNA互补的靶标链首先被核酸内切溶解地切割,然后被3'-5'核酸外切溶解地修剪。本质上中,DNA结合和裂解通常需要蛋白质和两种RNA。但是,单向导RNA(“sgRNA”,或简称为“gRNA”)可以工程化改造,以将crRNA和tracrRNA两者的各个方面合并到单个RNA物种中。参见例如,Jinek M.,等人,Science 337:816-821(2012),其整体内容通过引用并入本文。Cas9识别CRISPR重复序列中的短基序(PAM或前间隔序列邻近基序)以帮助区分自己(self)与非己(non-self)。Cas9核酸酶序列和结构是本领域技术人员已知的(参见例如,“Complete genome sequence of an M1 strain ofStreptococcus pyogenes.”Ferretti等人,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factorRNase III.”Deltcheva E.,等人,Nature 471:602-607(2011);和“A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.”Jinek M.,等人,Science 337:816-821(2012),其各自的整体内容通过引用并入本文)。Cas9直接同源物已经在多种物种中描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开,其他合适的Cas9核酸酶和序列对于本领域技术人员将是显而易见的,并且此类Cas9核酸酶和序列包括来自生物体的Cas9序列和以下文献中公开的基因座:Chylinski,Rhun,and Charpentier,“The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737;其整体内容通过引用并入本文。
示例性Cas9是化脓链球菌(Streptococcus pyogenes)Cas9(spCas9),其氨基酸序列提供于下:
Figure BDA0003480255960000431
Figure BDA0003480255960000441
Figure BDA0003480255960000442
(单下划线:HNH结构域;双下划线:RuvC结构域)
经核酸酶灭活的Cas9蛋白可以互换地称为“dCas9”蛋白(对于核酸酶“死亡的”Cas9)或无催化活性的Cas9。用于产生具有无活性的DNA裂解结构域的Cas9蛋白(或其片段)的方法是已知的(参见例如,Jinek等人,Science.337:816-821(2012);Qi等人,“Repurposing CRISPR as an RNA-Guided Platform for Sequence-Specific Controlof Gene Expression”(2013)Cell.28;152(5):1173-83,其各自的整体内容通过引用并入本文)。例如,Cas9的DNA裂解结构域已知包括两个亚结构域,HNH核酸酶亚结构域和RuvC1亚结构域。HNH亚结构域裂解与gRNA互补的链,而RuvC1亚结构域裂解非互补链。这些亚结构域中的突变可以静默Cas9的核酸酶活性。例如,突变D10A和H840A将化脓链球菌Cas9的核酸酶活性完全灭活(Jinek等人,Science.337:816-821(2012);Qi等人,Cell.28;152(5):1173-83(2013))。在一些实施方案中,Cas9核酸酶具有无活性的(例如,灭活的)DNA裂解结构域,换言之,Cas9是切口酶,称为“nCas9”蛋白(对于“切口酶”Cas9)。在一些实施方案中,提供了包含Cas9的片段的蛋白质。例如,在一些实施方案中,蛋白质包含一个或两个Cas9结构域:(1)Cas9的gRNA结合结构域;或(2)Cas9的DNA切割结构域。在一些实施方案中,包含Cas9或其片段的蛋白质称为“Cas9变体”。Cas9变体享有与Cas9或其片段的同源性。例如,Cas9变体与野生型Cas9至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约96%相同,至少约97%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。在一些实施方案中,与野生型Cas9相比,Cas9变体可以具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多氨基酸变化。在一些实施方案中,Cas9变体包含Cas9的片段(例如,gRNA结合结构域或DNA切割结构域),使得所述片段与野生型Cas9的相应片段至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约96%相同,至少约97%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。在一些实施方案中,所述片段是相应野生型Cas9的氨基酸长度的至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%。
在一些实施方案中,所述片段为至少100个氨基酸的长度。一些实施方式中,所述片段为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250个或至少1300个氨基酸的长度。
在一些实施方案中,野生型Cas9对应于来自化脓链球菌(Streptococcuspyogenes)的Cas9(NCBI参考序列:NC_017053.1,核苷酸和氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003480255960000481
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方案中,野生型Cas9对应于或包含以下核苷酸和/或氨基酸序列:
ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA
Figure BDA0003480255960000511
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方案中,野生型Cas9对应于来自化脓链球菌(Streptococcuspyogenes)的Cas9(NCBI参考序列:NC_002737.2(核苷酸序列如下);和Uniprot参考序列:Q99ZW2(氨基酸序列如下))。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003480255960000541
Figure BDA0003480255960000551
Figure BDA0003480255960000552
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方案中,Cas9是指来自以下的Cas9:溃疡棒状杆菌(Corynebacteriumulcerans)(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒状杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);栖蚜蝇螺原体(Spiroplasmasyrphidicola)(NCBI Ref:NC_021284.1);中间普雷沃氏菌(Prevotella intermedia)(NCBI Ref:NC_017861.1);中国台湾螺原体(Spiroplasma taiwanense,China)(NCBI Ref:NC_021846.1);海豚链球菌(Streptococcus iniae)(NCBI Ref:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Ref:NC_018010.1);扭曲冷弯曲菌(PsychroflexustorquisI)(NCBI Ref:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBIRef:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Ref:NP_472073.1);空肠弯曲杆菌(Campylobacter jejuni)(NCBI Ref:Yp_002344900.1);或脑膜炎奈瑟氏菌(Neisseria meningitidis)(NCBI Ref:YP_002342100.1)或者是指来自任何其他生物体的Cas9。
在一些实施方案中,Cas9来自脑膜炎奈瑟氏菌(Nme)。在一些实施方案中,Cas9是Nme1、Nme2或Nme3。在一些实施方案中,针对Nme1、Nme2或Nme3的PAM相互作用结构域分别是N4GAT、N4CC和N4CAAA(参见例如,Edraki,A.,等人,A Compact,High-Accuracy Cas9 with aDinucleotide PAM for In Vivo Genome Editing,Molecular Cell(2018))。示例性脑膜炎奈瑟氏菌Cas9蛋白,Nme1Cas9(NCBI参考:WP_002235162.1;II型CRISPR RNA引导的核酸内切酶Cas9)具有以下氨基酸序列:
Figure BDA0003480255960000553
Figure BDA0003480255960000561
另一种示例性脑膜炎奈瑟氏菌Cas9蛋白,Nme2Cas9(NCBI参考:WP_002230835;II型CRISPR RNA引导的核酸内切酶Cas9)具有以下氨基酸序列:
Figure BDA0003480255960000562
在一些实施方案中,dCas9部分地或完整地对应于或包含具有一个或多个突变的Cas9氨基酸序列,所述突变将Cas9核酸酶活性灭活。例如,在一些实施方案中,dCas9结构域包含D10A和H840A突变或另一Cas9中的相应突变。在一些实施方案中,dCas9包含dCas9的氨基酸序列(D10A和H840A):
Figure BDA0003480255960000571
(单下划线:HNH结构域;双下划线:RuvC结构域)。
在一些实施方案中,Cas9结构域包含D10A突变,而位于位置840处的残基保持为上文提供的氨基酸序列中的组氨酸,或者位于本文提供的任何氨基酸序列中的相应位置处。
在其他实施方案中,提供了具有除D10A和H840A之外的突变的dCas9变体,所述突变例如导致经核酸酶灭活的Cas9(dCas9)。举例而言,此类突变包括位于D10和H840处的其他氨基酸置换,或Cas9的核酸酶结构域内的其他置换(例如,HNH核酸酶亚结构域和/或RuvC1亚结构域中的置换)。在一些实施方案中,提供了dCas9的变体或同源物,所述变体或同源物至少约70%相同,至少约80%相同,至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。在一些实施方案中,提供了dCas9的变体,所述变体的氨基酸序列更短或更长,短了或长了约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方案中,如本文所提供的Cas9融合蛋白包含Cas9蛋白的全长度氨基酸序列,例如,本文所提供的Cas9序列之一。然而,在其他实施方案中,如本文所提供的融合蛋白不包含全长度Cas9序列,而仅包含其一个或多个片段。合适的Cas9结构域和Cas9片段的示例性氨基酸序列在本文中提供,并且Cas9结构域和片段的其他合适的序列对于本领域技术人员而言将会是显而易见的。
应知悉,其他Cas9蛋白(例如,核酸酶死亡的Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性的Cas9),包括其变体和同源物,处于本公开的范畴内。示例性Cas9蛋白包括而不限于下文提供的那些。在一些实施方案中,Cas9蛋白是核酸酶死亡的Cas9(dCas9)。在一些实施方案中,Cas9蛋白是Cas9切口酶(nCas9)。在一些实施方案中,Cas9蛋白是核酸酶活性的Cas9。
示例性无催化活性的Cas9(dCas9):
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性催化Cas9切口酶(nCas9):
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性催化活性Cas9:
DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD。
在一些实施方案中,Cas9是指来自古生菌(例如,纳古菌)的Cas9,其构建单细胞原核微生物的结构域和界。在一些实施方案中,Cas9是指CasX或CasY,它们已经在例如Burstein等人,"New CRISPR-Cas systems from uncultivated microbes."CellRes.2017Feb 21.doi:10.1038/cr.2017.21中有所描述,所述文献的整体内容通过引用并入本文。使用基因组解析的宏基因组学,鉴定了大量CRISPR-Cas系统,包括在古生菌生命结构域中首次报道的Cas9。这种趋异Cas9蛋白是作为活性CRISPR-Cas系统的一部分在很少研究的纳古菌中被发现的。在细菌中,发现了两种先前未知的系统,CRISPR-CasX和CRISPR-CasY,它们是迄今为止所发现的最紧凑的系统之一。在一些实施方案中,Cas9是指CasX或CasX的变体。在一些实施方案中,Cas9是指CasY或CasY的变体。应知悉,其他RNA引导的DNA结合蛋白可以用作核酸可编程DNA结合蛋白(napDNAbp),并且处于本公开的范畴内。
在特定实施方案中,可用于本公开方法的napDNAbp包括环状完全突变体,其是本领域中已知的并且例如通过Oakes等人,Cell 176,254–267,2019描述。示例性的环状完全突变体如下,其中粗体序列指示来源于Cas9的序列,斜体序列表示连接子序列,而下划线序列表示二分体核定位序列。
CP5(具有MSP“NGC=具有规则Cas9突变如NGG的Pam变体”、PID=蛋白质相互作用结构域和“D10A”切口酶):
Figure BDA0003480255960000611
Figure BDA0003480255960000621
可并入碱基编辑器中的多核苷酸可编程核苷酸结合结构域的非限制性示例包括源自CRISPR蛋白的结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。
在一些实施方案中,本文所提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是CasX或CasY蛋白。在一些实施方案中,napDNAbp是CasX蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp包含氨基酸序列,所述氨基酸序列与天然出现的CasX或CasY蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,napDNAbp是天然出现的CasX或CasY蛋白。在一些实施方案中,napDNAbp包含氨基酸序列,所述氨基酸序列与本文描述的任何CasX或CasY蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。应知悉,来自其他细菌物种的Cas12b/C2c1、CasX和CasY也可以根据本公开使用。
Cas12b/C2c1(uniprot.org/uniprot/T0D7A2#2)
sp|T0D7A2|C2C1_ALIAG CRISPR相关核酸内切酶C2c1 OS=嗜酸耐热菌(Alicyclobacillus acido-terrestris)(菌株ATCC 49025/DSM 3922/CIP 106132/NCIMB13137/GD3B)GN=c2c1 PE=1 SV=1
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMV NQRIEGYLVKQIRSRVPLQDSACENTGDI
CasX(uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)
>tr|F0NN87|F0NN87_SULIH CRISPR相关Casx蛋白OS=冰岛硫化叶菌(Sulfolobusislandicus)(菌株HVE10/4)GN=SiH_0402 PE=4 SV=1
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTG SKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG
>tr|F0NH53|F0NH53_SULIR CRISPR相关蛋白,Casx OS=冰岛硫化叶菌(Sulfolobus islandicus)(菌株REY15A)GN=SiRe_0771 PE=4 SV=1
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG
δ 变形菌CasX
MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
CasY(ncbi.nlm.nih.gov/protein/APG80656.1)
>APG80656.1 CRISPR相关蛋白CasY[未培养的俭菌(Parcubacteria)组细菌]
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI
术语“Cas12”或“Cas12结构域”是指包含Cas12蛋白的RNA引导的核酸酶或其片段(例如,一种蛋白质,其包含Cas12的活性、失活或部分活性的DNA裂解结构域和/或Cas12的gRMA结合结构域)。Cas12属于2类V型CRISPR/Cas系统。Cas12核酸酶有时也称为CRISPR(成簇规则间隔短回文重复序列)相关核酸酶。示例性外村尚芽孢杆菌(Bacillus hisashii)Cas 12b(BhCas12b)Cas 12结构域的序列提供于下:
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK。
与BhCas12b氨基酸序列具有至少85%或更高同一性的氨基酸序列也可用于本公开的方法中。
术语“保守氨基酸置换”或“保守突变”是指一种氨基酸被另一种具有共同特性的氨基酸替换。一种定义个体氨基酸之间的共同特性的功能性途径是分析同源生物体的相应蛋白质之间的氨基酸变化的标准化频率(Schulz,G.E.and Schirmer,R.H.,Principles ofProtein Structure,Springer-Verlag,New York(1979))。根据此类分析,可定义多组氨基酸,其中一个组内的氨基酸优先彼此交换,并因此在对于总体蛋白质结构的影响中与彼此最为类似(Schulz,G.E.and Schirmer,R.H.,如前)。保守突变的非限制性示例包括以下氨基酸的氨基酸置换:例如,氨基酸置换精氨酸且反之亦然,使得正电荷可得以保持;谷氨酸置换天冬氨酸且反之亦然,使得负电荷可得以保持;丝胺酸置换苏氨酸,使得游离–OH可得以保持;以及谷氨酰胺置换天冬酰胺,使得游离–NH2可得以保持。
如本文中可互换使用的术语“编码序列”或“蛋白质编码序列”是指编码蛋白质的多核苷酸链段。所述区域或序列的起始密码子在5'末端附近合,并且终止密码子在3'末端附近。编码序列也可以称为开放阅读框。
如本文中所用,术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨反应的蛋白质或酶。在一些实施方案中,脱氨酶是腺苷脱氨酶,其催化腺嘌呤至次黄嘌呤的水解性脱氨反应。在一些实施方案中,脱氨酶是腺苷脱氨酶,其催化腺苷或腺嘌呤(A)至肌苷(I)的水解性脱氨反应。在一些实施方案中,脱氨酶或脱氨酶结构域是分别催化腺苷或脱氧肌苷到肌苷或脱氧肌苷的脱氧反应的腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶催化脱氧核糖核酸(DNA)中的腺苷的水解性脱氨反应。本文提供的腺苷脱氨酶(例如,经工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可以来自任何生物体诸如细菌。在一些实施方案中,腺苷脱氨酶来自细菌,诸如大肠杆菌(Escherichia coli)、金黄色葡萄球菌(Staphylococcus aureus)、鼠伤寒沙门氏菌(Salmonella typhimurium)、腐败希瓦氏菌(Shewanella putrefaciens)、流感嗜血杆菌(Haemophilus influenzae)或新月柄杆菌(Caulobacter crescentus)。
在一些实施方案中,腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,TadA脱氨酶是TadA*7.10变体。在一些实施方案中,TadA*7.10变体是TadA*8。在一些实施方案中,TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。在一些实施方案中,脱氨酶或脱氨酶结构域是来自生物体诸如人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然出现脱氨酶的变体。在一些实施方案中,脱氨酶或脱氨酶结构域不出现在自然界中。例如,在一些实施方案中,脱氨酶或脱氨酶结构域与天然出现的脱氨酶具有至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%或至少99.9%的同一性。例如,脱氨酶结构域在国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述,其各自通过引用而整体并入本文。也参见,Komor,A.C.,等人,“Programmable editing ofa target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·Cin genomic DNA without DNA cleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excision repair inhibition and bacteriophage Mu Gam proteinyields C:G-to-T:A base editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017))和Rees,H.A.,等人,“Base editing:precisionchemistry on the genome and transcriptome of living cells.”Nat Rev Genet.2018Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其整体内容通过引用并入本文。
“可检测的标记”意为一种组合物,当连接至感兴趣的分子时,所述组合物使得后者可经由光谱学、光化学、生物化学、免疫化学或化学手段检测。例如,有用的标记包括放射性同位素、磁性微珠、金属微珠、胶体离子、荧光染料、高电子密度试剂、酶(例如,一般用于酶联免疫吸收试验(ELISA))、生物素、地高辛或半抗原。
“疾病”意为损害或干扰细胞、组织或器官的正常功能的任何病症或病变。疾病的一种实例包括Rett综合征。
如本文中所用,术语“有效量”是指生物活性剂的足以引起生物学应答的量。在一些实施方案中,有效量意为相对于未治疗患者缓解疾病症状所需的量。用来实践本文所述方法和用途的用于治疗性处理疾病的活性化合物的有效量可变,取决于给药模式以及受试者的年龄、体重和一般健康情况。基本上,主治医生或兽医将决定适宜的量和用药方案。这一量被称为“有效”量。在一种实施方案中,有效量是本文所述碱基编辑器(例如,包含可编程DNA结合蛋白、核碱基编辑器和gRNA的融合蛋白)的足以向细胞(例如,体外或体内的细胞)内的感兴趣基因(例如,Mecp2)引入改变的量。在一种实施方案中,有效量是实现治疗效果(例如,削弱或控制Rett综合征或其症状或症状)所需的碱基编辑器的量。此类治疗效果不必足以改变受试者、组织或器官中所有细胞中的Mecp2,而仅改变受试者、组织或器官中存在的大约1%、5%、10%、25%、50%、75%或更多的细胞中的Mecp2。在一些实施方案中,有效量足以缓解Rett综合征的一种或多种症状。
在一些实施方案中,本文所提供的融合蛋白(例如,包含nCas9结构域和脱氨酶结构域(例如,腺苷脱氨酶)的核碱基编辑器)的有效量,是指融合蛋白的足以诱导对于通过本文所述的核碱基编辑器特异性地结合并编辑的靶标位点进行编辑的量。如本领域技术人员将会知悉的,药剂例如融合蛋白、核碱基、杂交蛋白、蛋白二聚体、蛋白质(或蛋白二聚体)与多核苷酸的复合物、或多核苷酸的有效量可以基于多种因素而变,例如,基于所希望的生物学响应,例如,基于待编辑的具体等位基因、基因组或靶标为点,基于所靶向的细胞或组装,和/或基于所使用的药剂。
“片段”意为多肽或核酸分子的一部分。这一部分优选地含有参考核酸分子或多肽总长度的至少约10%、20%、30%、40%、50%、60%、70%、80%或90%。片段可包含10、20、30、40、50、60、70、80、90、或100、200、300、400、500、600、700、800、900、或1000个核苷酸或氨基酸。
“向导RNA”或“gRNA”意为多核苷酸,其可以对于靶标序列为特异性的并且可与多核苷酸可编程核苷酸结合结构域蛋白(例如,Cas9或Cas12)形成复合物。在一种实施方案中,向导多核苷酸是向导RNA(gRNA)。gRNA可作为两种或更多种RNA的复合物存在,或作为单RNA分子存在。作为单RNA分子存在的gRNA可以称为单向导RNA(sgRNA),但“gRNA”用来可互换地指代作为单分子存在或作为两个或更多个分子的复合物存在的向导RNA。典型地,作为单RNA物质存在的gRNA包含两个结构域:(1)与靶标核酸共享同源性的结构域(例如,并且引导Cas9或Cas12复合物结合至靶标);和(2)结合Cas9或Cas12蛋白的结构域。在一些实施方案中,结构域(2)对应于作为tracrRNA而为人所知的序列,并且包括茎环结构。例如,在一些实施方案中,结构域(2)与Jinek等人,Science 337:816-821(2012)中提供的tracrRNA相同或同源,所述文献的整体内容通过引用并入本文。gRNA(例如,包括结构域(2)的那些)可以见于2013年9月6日提交的题为《Switchable Cas9 Nucleases and Uses Thereof》的美国临时专利申请序列号61/874,682和《Delivery System For Functional Nucleases》的美国临时专利申请序列号61/874,746,所述临时专利申请各自的整体内容通过引用而以其整体并入本文。在一些实施方案中,gRNA包含两个或更多个结构域(1)和(2),并且可以称为“扩展的gRNA”。扩展的gRNA将会在两个或更多个不同的区域结合两个或更多个Cas9或Cas12蛋白并且结合靶标核酸,如本文所述。gRNA包含与靶标位点互补的核苷酸序列,所述核苷酸序列介导核酸酶/RNA复合物与所述靶标位点的结合,提供核酸酶:RNA复合物的序列特异性。
“异二聚体”意为一种融合蛋白,其包含两个结构域,诸如野生型TadA结构域和TadA结构域的变体(例如,TadA*8),或者两个变体TadA结构域(例如,TadA*7.10和TadA*8,或者两个TadA*8结构域)。
“杂交”意为互补核碱基之间的氢键键合,其可以是沃森-克里克(Watson-Crick)、胡斯坦(Hoogsteen)和反向胡斯坦氢键键合。例如,腺嘌呤和胸腺嘧啶是通过形成氢键而配对的互补核碱基。
“增加”意为至少10%、25%、50%、75%或100%的正向改变。
术语“碱基修复的抑制剂”或“IBR”是指一种蛋白质,其能够抑制核酸修复酶(例如,碱基切除修复酶)的活性。在一些实施方案中,IBR是肌苷碱基切除修复(BER)的抑制剂。示例性的碱基修复抑制剂包括APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGGl、hNEILl、T7 Endol、T4PDG、UDG、hSMUGl和hAAG的抑制剂。在一些实施方案中,IBR是Endo V或hAAG的抑制剂。在一些实施方案中,IBR是无催化活性的EndoV或无催化活性的hAAG。在一些实施方案中,碱基修复抑制剂是Endo V或hAAG的抑制剂。在一些实施方案中,碱基修复抑制剂是无催化活性的EndoV或无催化活性的hAAG。
在一些实施方案中,碱基修复抑制剂是尿嘧啶糖苷酶抑制剂(UGI)。UGI是指一种蛋白质,其能够抑制尿嘧啶-DNA糖苷酶碱基切除修复酶。在一些实施方案中,UGI结构域包含野生型UGI或野生型UGI的片段。在一些实施方案中,本文所提供的UGI蛋白包括UGI的片段和与UGI或UGI片段同源的蛋白质。在一些实施方案中,碱基修复抑制剂是肌苷碱基切除修复的抑制剂。在一些实施方案中,碱基修复抑制剂是“无催化活性的肌苷特异性核酸酶”或“死亡的肌苷特异性核酸酶”。不欲受缚于任何特定理论,无催化活性的肌苷糖苷酶(例如,烷基腺嘌呤糖苷酶(AAG))可以结合肌苷,但不能创建无碱基位点或移除所述肌苷,从而在空间上阻断DNA损坏/修复机制对新形成的肌苷部分的影响。在一些实施方案中,无催化活性的肌苷特异性核酸酶可以能够结合核酸内的肌苷但不裂解所述核酸。非限制性的示例性无催化活性的肌苷特异性核酸酶包括例如来自人的无催化活性的烷基腺苷糖苷酶(AAG核酸酶),和例如来自大肠杆菌的无催化活性的核酸内切酶V(EndoV核酸酶)。在一些实施方案中,无催化活性的AAG核酸酶包含E125Q突变或另一AAG核酸酶中的相应突变。
“内含肽”是蛋白质的片段,在一个名为蛋白质剪接的过程中,其能够切除自身并且将剩余片段(外显肽)通过肽键接合。内含肽也称为“蛋白质内含子”。内含肽切除自身并且将蛋白质的剩余部分接合的过程在本文中称为“蛋白质剪接”或“内含肽介导的蛋白质剪接”。在一些实施方案中,前体蛋白质(在内含肽介导的蛋白质剪接之前的含有内含肽的蛋白质)的内含肽来自两个基因。本文中,此类内含肽称为分裂内含肽(例如,分裂内含肽-N和分裂内含肽-C)。例如,在蓝细菌中,DnaE(DNA聚合酶III的催化性亚基)由两个独立的基因(dnaE-n和dnaE-c)编码。由dnaE-n基因编码的内含肽在本文中可以称为“内含肽-N”。由dnaE-c基因编码的内含肽在本文中可以称为“内含肽-C”。
也可使用其他内含肽系统。例如,基于dnaE内含肽的合成内含肽,Cfa-N(例如,分裂内含肽-N)和Cfa-C(例如,分裂内含肽-C)内含肽对,已经有所描述(例如,在Stevens等人,J Am Chem Soc.2016 Feb.24;138(7):2162-5中,所述文献通过引用并入本文)。可根据本公开使用的内含肽对的非限制性示例包括:Cfa DnaE内含肽、Ssp GyrB内含肽、Ssp DnaX内含肽、Ter DnaE3内含肽、Ter ThyX内含肽、Rma DnaB内含肽和Cne Prp8内含肽(例如,如美国专利号8,394,604中所述,所述专利通过耐用并入本文)。
提供了内含肽的示例性核苷酸和氨基酸序列。
DnaE内含肽-N DNA:TGCCTGTCATACGAAACCGAGATACTGACAGTAGAATATGGCCTTCTGCCAATCGGGAAGATTGTGGAGAAACGGATAGAATGCACAGTTTACTCTGTCGATAACAATGGTAACATTTATACTCAGCCAGTTGCCCAGTGGCACGACCGGGGAGAGCAGGAAGTATTCGAATACTGTCTGGAGGATGGAAGTCTCATTAGGGCCACTAAGGACCACAAATTTATGACAGTCGATGGCCAGATGCTGCCTATAGACGAAATCTTTGAGCGAGAGTTGGACCTCATGCGAGTTGACAACCTTCCTAAT
DnaE内含肽-N蛋白:CLSYETEILTVEYGLLPIGKIVEKRIECTVYSVDNNGNIYTQPVAQWHDRGEQEVFEYCLEDGSLIRATKDHKFMTVDGQMLPIDEIFERELDLMRVDNLPN
DnaE内含肽-C DNA:ATGATCAAGATAGCTACAAGGAAGTATCTTGGCAAACAAAACGTTTATGATATTGGAGTCGAAAGAGATCACAACTTTGCTCTGAAGAACGGATTCATAGCTTCTAAT
内含肽-C:MIKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN
Cfa-N DNA:TGCCTGTCTTATGATACCGAGATACTTACCGTTGAATATGGCTTCTTGCCTATTGGAAAGATTGTCGAAGAGAGAATTGAATGCACAGTATATACTGTAGACAAGAATGGTTTCGTTTACACACAGCCCATTGCTCAATGGCACAATCGCGGCGAACAAGAAGTATTTGAGTACTGTCTCGAGGATGGAAGCATCATACGAGCAACTAAAGATCATAAATTCATGACCACTGACGGGCAGATGTTGCCAATAGATGAGATATTCGAGCGGGGCTTGGATCTCAAACAAGTGGATGGATTGCCA
Cfa-N蛋白:
CLSYDTEILTVEYGFLPIGKIVEERIECTVYTVDKNGFVYTQPIAQWHNRGEQEVFEYCLEDGSIIRATKDHKFMTTDGQMLPIDEIFERGLDLKQVDGLP
Cfa-C DNA:ATGAAGAGGACTGCCGATGGATCAGAGTTTGAATCTCCCAAGAAGAAGAGGAAAGTAAAGATAATATCTCGAAAAAGTCTTGGTACCCAAAATGTCTATGATATTGGAGTGGAGAAAGATCACAACTTCCTTCTCAAGAACGGTCTCGTAGCCAGCAAC
Cfa-C蛋白:MKRTADGSEFESPKKKRKVKIISRKSLGTQNVYDIGVEKDHNFLLKNGLVASN
内含肽-N和内含肽-C可以分别融合至分裂Cas9的N端部分和分裂Cas9的C端部分,以将分裂Cas9的N端部分和分裂Cas9的C端部分接合。例如,在一些实施方案中,内含肽-N融合至分裂Cas9的N端部分的C端,即,以形成N--[分裂Cas9的N端部分]-[内含肽-N]--C的结构。在一些实施方案中,内含肽-C融合至分裂Cas9的C端部分的N端,即,以形成N-[内含肽-C]--[分裂Cas9的C端部分]-C的结构。用于将内含肽所融合的蛋白质(例如,分裂Cas9)接合的内含肽介导的蛋白质剪接的机制是本领域中已知的,例如,如Shah等人,Chem Sci.2014;5(1):446-461中所述,所述文献通过引用并入本文。用于设计和使用内含肽的方法是本领域中已知的,并且在例如WO2014004336、WO2017132580、US20150344549和US20180127780中描述,所述专利各自通过引用而以其整体并入本文。
术语“分离的”、“纯化的”或“生物学纯的”指的是物质没有不同程度的在其天然状态下发现的正常伴生组分。“分离”表示与原始来源或周围物质分隔的程度。“纯化”表示高于“分离”的分隔程度。“纯化的”或“生物学纯的”蛋白质最够不含其它材料,使得任何杂质均不在材料上影响所述蛋白质的生物学性质或不造成其它负面后果。换言之,如果本文所述的核酸或肽基本上在通过重组DNA技术生产时不含细胞物质、病毒物质或培养基,或者当化学合成时不含化学前体或其它化学品,则所述核酸或肽是纯化的。典型使用分析化学技术例如聚丙烯酰胺凝胶电泳或高效液相色谱来测定纯度和均质性。术语“纯化的”可表示核酸或蛋白质在电泳凝胶中给出实质上的一条谱带。对于可进行修饰如磷酸化或糖基化的蛋白质,不同的修饰可给出不同的分离的蛋白,它们可独立纯化。
“分离的多核苷酸”意为一种核酸(例如,DNA),其不含在本文所述的核酸分子所源自的有机体的天然出现的基因组中位于所述基因侧翼的基因。所述术语因此包括,举例而言,重组DNA,其被并入载体内、并入自主复制质粒或病毒内、或并入原核生物或真核生物的基因组DNA内,或作为独立于其它序列的单独分子而存在(举例而言,通过PCR或限制性内切酶消化制备的cDNA或基因组或cDNA片段)。此外,所述术语包括从DNA分子转录的RNA分子,以及作为编码附加多肽序列的杂交基因的一部分的重组DNA。
“分离的多肽”意为已经与其天然伴随组分分离的本文所述的多肽。典型地,以重量计,当多肽的至少60%不含其天然关联的蛋白质和天然出现的有机分子时,则所述多肽是分离的。以重量计,优选所述制剂含有至少75%、更优选至少90%、最优选至少99%的本文所述的多肽。可通过例如从天然来源提取、编码多肽的重组核酸的表达、或化学合成蛋白质来获得本公开的分离的多肽。可通过任何适宜的方法例如柱层析、聚丙烯酰胺凝胶电泳或HPLC分析来测量纯度。
如本文中所用,术语“连接子”可以指共价连接子(例如,共价键)、非共价连接子、化学基团或分子,其连接两个分子或部分,例如,蛋白复合网或核糖核酸复合物的两个组分,或者融合蛋白的两个结构域,例如,多核苷酸可编程DNA结合结构域(例如,dCas9)和脱氨酶结构域(例如,腺苷脱氨酶)。连接子可以接合碱基编辑器系统的不同组分或者多个组分的不同部分。例如,在一些实施方案中,连接子可以接合多核苷酸可编程核苷酸接合结构域的向导多核苷酸接合结构域与脱氨酶的催化结构域。在一些实施方案中,连接子可以接合CRISPR多肽与脱氨酶。在一些实施方案中,连接子可以接合Cas9与脱氨酶。在一些实施方案中,连接子可以接合dCas9与脱氨酶。在一些实施方案中,连接子可以接合nCas9与脱氨酶。在一些实施方案中,连接子可以接合向导多核苷酸与脱氨酶。在一些实施方案中,连接子可以接合碱基编辑器系统的脱氨组分与多核苷酸可编程核苷酸结合组分。在一些实施方案中,连接子可以结合碱基编辑器的脱氨组分的RNA结合部分与多核苷酸可编程核苷酸结合组分。在一些实施方案中,连接子可以结合碱基编辑器的脱氨组分的RNA结合部分与多核苷酸可编程核苷酸结合组分的RNA结合部分。连接子可以定位在两个基团、分子或其他部分之间或者侧翼具有两个基团、分子或其他部分,并且经由共价键或非共价相互作用与每个基团、分子或其他部分连结,从而将两者连结。在一些实施方案中,连接子可以是有机分子、基团、聚合物或化学部分。在一些实施方案中,连接子可以是多核苷酸。在一些实施方案中,连接子可以是DNA连接子。在一些实施方案中,连接子可以是RNA连接子。在一些实施方案中,连接子可以包含能够结合至配体的适配体。在一些实施方案中,配体可以是碳水化合物、肽、蛋白质或核酸。在一些实施方案中,连接子可以包含可以衍生自核糖开关的适配体。适配体自其衍生的核糖开关可以选自茶碱核糖开关、硫胺素焦磷酸(TPP)核糖开关、腺苷钴胺素(AdoCbl)核糖开关、S-腺苷甲硫氨酸(SAM)核糖开关、SAH核糖开关、黄素单核苷酸(FMN)核糖开关、四氢叶酸核糖开关、赖氨酸核糖开关、甘氨酸核糖开关、嘌呤核糖开关、GlmS核糖开关或前-去氮鸟苷1(pre-queosine 1(PreQ1))核糖开关。在一些实施方案中,连接子可以包含键合之多肽或蛋白质结构域诸如多肽配体的适配体。在一些实施方案中,多肽配体可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu外壳蛋白结构域、不育α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白、或RNA识别基序。在一些实施方案中,多肽配体可以是碱基编辑器系统组分的一部分。例如,核碱基编辑组分可以包含脱氨酶结构域和RNA识别基序。
在一些实施方案中,连接子可以是氨基酸或多个氨基酸(例如,肽或蛋白质)。一些实施方式中,连接子可以是约5-100个氨基酸的长度,例如,约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20-30、30-40、40-50、50-60、60-70、70-80、80-90或90-100个氨基酸的长度。在一些实施方案中,连接子可以是约100-150、150-200、200-250、250-300、300-350、350-400、400-450或450-500个氨基酸的长度。也可以设想更长或更短的连接子。
在一些实施方案中,连接子接合RNA可编程核酸酶的gRNA接合结构域(包括Cas9核酸酶结构域)与核酸编辑蛋白(例如,腺苷脱氨酶)的催化结构域。在一些实施方案中,连接子接合dCas9与核酸编辑蛋白。例如,连接子可以定位在两个基团、分子或其他部分之间或者侧翼具有两个基团、分子或其他部分,并且经由共价键与每个基团、分子或其他部分连结,从而将两者连结。在一些实施方案中,连接子是氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子是有机分子、基团、聚合物或化学部分。在一些实施方案中,连接子为5-200个氨基酸的长度,例如,5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、35、45、50、55、60、60、65、70、70、75、80、85、90、90、95、100、101、102、103、104、105、110、120、130、140、150、160、175、180、190或200个氨基酸的长度。也设想了更长或更短的连接子。在一些实施方案中,连接子包含氨基酸序列SGSETPGTSESATPES,其也可以称为XTEN连接子。在一些实施方案中,连接子包含氨基酸序列SGGS。在一些实施方案中,连接子包含(SGGS)n、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES或(XP)n基序,或者这些基序中任何基序的组合,其中n独立地为介于1至30之间的整数,并且其中X是任何氨基酸。在一些实施方案中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,连接子包含多个脯氨酸残基并且为5-21、5-14、5-9、5-7个氨基酸的长度,例如,PAPAP、PAPAPA、PAPAPAP、PAPAPAPA、P(AP)4、P(AP)7、P(AP)10。此类富含脯氨酸的连接子也称为“刚性”连接子。
在一些实施方案中,碱基编辑器的多个结构域经由连接子融合,所述连接子包含氨基酸序列:
SGGSSGSETPGTSESATPESSGGS、
SGGSSGGSSGSETPGTSESATPESSGGSSGGS或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS。
在一些实施方案中,碱基编辑器的多个结构域经由连接子融合,所述连接子包含氨基酸序列SGSETPGTSESATPES,其也可称为XTEN连接子。在一些实施方案中,连接子为24个氨基酸的长度。在一些实施方案中,连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPES。在一些实施方案中,连接子为40个氨基酸的长度。在一些实施方案中,连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS。在一些实施方案中,连接子为64个氨基酸的长度。在一些实施方案中,连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGSSGGS。
在一些实施方案中,连接子为92个氨基酸的长度。在一些实施方案中,连接子包含氨基酸序列PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS。
如本文中所用,术语“突变”是指序列(例如,核酸或氨基酸序列)内的残基被置换为另一残基,或序列内一个或多个残基的缺失或插入。典型地,本文中通过下述来描述突变:鉴定原始残基,然后鉴定所述残基在序列内的位置和新置换的残基的身份。用于进行本文所提供的氨基酸置换(突变)的方法是本领域中众所周知的,并且提供在例如《分子克隆:实验室手册(第四版)》(Green and Sambrook,Molecular Cloning:A Laboratory Manual(4th ed.,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(2012)))中。在一些实施方案中,本文公开的碱基编辑器可以在核酸(例如,受试者基因组内的核酸)中有效地产生“预期突变”诸如点突变,而不产生显著数量的非预期突变诸如非预期点突变。在一些实施方案中,预期突变是通过结合至向导多核苷酸(例如,gRNA)的特异性碱基编辑器(例如,腺苷碱基编辑器)产生的突变,所述特异性碱基编辑器经过特异性地涉及以产生预期突变。通常,在序列(例如,本文所述的氨基酸序列)中进行或鉴定的突变是相对于参考(或野生型)序列即不含有所述突变的序列进行编号的。本领域技术人员将会容易地理解如何相对于参考序列确定氨基酸序列和核酸序列中突变的位置。
术语“非保守突变”包括不同组之间的氨基酸置换,例如,赖氨酸置换色氨酸,或苯丙氨酸置换丝氨酸等。在这种情况下,优选所述非保守氨基酸置换不干扰或抑制功能性变体的生物学活性。非保守氨基酸置换可以增强功能性变体的生物学活性,使得所述功能性变体的生物学活性比野生型蛋白质增加。
术语“核定位序列”、“核定位信号”或“NLS”是指促使蛋白质进入细胞核内的氨基酸序列。核定位序列是本领域中已知的,并且在例如Plank等人在2000年11月23日提交的国际PCT申请PCT/EP2000/011690并且在2001年5月31日公布为WO/2001/038547中有所描述,所述专利通过引用其对于示例性核定位序列的公开内容而并入本文。在其他实施方案中,NLS是经优化的NLS,例如,Koblan等人,Nature Biotech.2018doi:10.1038/nbt.4172中所述。在一些实施方案中,NLS包含氨基酸序列
KRTADGSEFESPKKKRKV、
KRPAATKKAGQAKKKK、
KKTELQTTNAENKTKKL、
KRGINDRNFWRGENGRKTR、
RKSGKIAAIVVKRPRK、
PKKKRKV或
MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。
如本文中所用,术语“核酸”和“核酸分子”是指一种化合物,其包含核碱基和酸性部分,例如,核苷、核苷酸或核苷酸的聚合物。典型地,包含三个或更多个核苷酸的聚合性核酸(例如,核酸分子)是线性分子,其中相邻的核苷酸经由磷酸二酯链接而彼此连接。在一些实施方案中,“核酸”是指个体核酸残基(例如,核苷酸和/或核苷)。在一些实施方案中,“核酸”是指包含三个或更多个个体核苷酸残基的寡核苷酸链。如本文中所用,术语“寡核苷酸”和“多核苷酸”可以互换地使用,是指核苷酸的聚合物(例如,一串至少三个核苷酸)。在一些实施方案中,“核酸”涵盖RNA以及单链和/或双链DNA。核酸可以天然地出现在例如基因组、转录物、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体或其他天然出现的核酸分子的情境中。另一方面,核酸分子可以是非天然出现的分子,例如,重组DNA或RNA、人工染色体、经工程化的基因组、或其片段,或者合成DNA、RNA、DNA/RNA杂交物,或者包括非天然出现的核苷酸或核苷。此外,术语“核酸”、“DNA”、“RNA”和/或类似术语包括核酸类似物,例如,具有除磷酸二酯以外的主链的类似物。核酸可以从天然来源纯化,使用重组表达系统生产并任选地进行纯化,化学地合成等。如果合适,例如,在化学合成的分子的情况下,核酸可以包含核苷类似物诸如具有经化学修饰的碱基或糖以及主链修饰的类似物。除非另做说明,否则核酸序列以5'至3'方向呈现。在一些实施方案中,核酸是或包含天然核苷(例如,腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧尿苷和脱氧胞苷);核苷类似物(例如,2-氨基腺苷、2-硫代胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基尿苷、C5-丙炔基胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤和2-硫代胞苷);经化学修饰的碱基;经生物学修饰的碱基(例如,经甲基化的碱基);经插入的碱基;经修饰的糖(2'修饰,例如,氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖);和/或经修饰的磷酸酯基团(例如,硫代磷酸酯和5'-N-亚磷酰胺链接)。
本文中,术语“核碱基”、“含氮碱基”或“碱基”可互换地使用,是指含有氮的生物化合物,其形成核苷,核苷继而成为核苷酸的组分。核碱基形成碱基对并且一个接一个堆叠的能力直接导致长链螺旋结构,诸如核糖核酸(RNA)和脱氧核糖核酸(DNA)。五种核碱基,即,腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U),被称为基本碱基或标准碱基。腺嘌呤和鸟嘌呤衍生自嘌呤,而胞嘧啶、尿嘧啶和胸腺嘧啶衍生自嘧啶。DNA和RNA也可以含有经修饰的其他(非基本)碱基。非限制性的示例性经修饰的核碱基可以包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶(m5C)和5-羟甲基胞嘧啶。次黄嘌呤和黄嘌呤可以通过诱变剂的存在而产生,两者都是通过脱氨反应(将氨基替换为羰基)产生的。次黄嘌呤可以从腺嘌呤修饰而得。黄嘌呤可以从鸟嘌呤修饰而得。尿嘧啶可以从胞嘧啶的脱氨反应获得。“核苷”由核碱基和五碳糖(或核糖或脱氧核糖)组成。核苷的示例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷和脱氧胞苷。具有经修饰的核碱基的核苷的示例包括肌苷(I)、黄苷(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)和假尿苷(Ψ)。“核苷酸”由核碱基、五碳糖(或核糖或脱氧核糖)和至少一个磷酸酯基团组成。
术语“核酸可编程DNA结合蛋白”或“napDNAbp”可以与“多核苷酸可编程核苷酸结合结构域”互换地使用,是指与核酸缔合的蛋白质(例如,DNA或RNA),诸如将napDNAbp引导至具体核酸序列的向导核酸(例如,gRNA)。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是Cas9蛋白。Cas9蛋白可以与将所述Cas9蛋白引导至具体DNA序列的向导RNA缔合,所述DNA序列与向导RNA互补。在一些实施方案中,napDNAbp是Cas9结构域,例如,核酸酶活性Cas9、Cas9切口酶(nCas9)或无核酸酶活性的Cas9(dCas9)。核酸可编程DNA结合蛋白的非限制性示例包括而不限于,Cas9(例如,dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i。Cas酶的非限制性示例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、II型Cas效应蛋白、V型Cas效应蛋白、VI型Cas效应蛋白、CARF、DinG、其同源物、或其经修饰或工程化的版本。其他核酸可编程DNA结合蛋白也处于本公开的范畴内,但它们可能不在本公开中具体地列举。参见,例如,Makarova等人“Classification and Nomenclature of CRISPR-Cas Systems:Where from Here?”CRISPR J.2018Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等人,“Functionallydiverse type V CRISPR-Cas systems”Science.2019Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,其各自的整体内容通过引用并入本文。
如本文中所用,术语“核碱基编辑结构域”或“核碱基编辑蛋白”是指一种蛋白质或酶,其可以催化RNA或DNA中的核碱基修饰,诸如胞嘧啶(或胞苷)到尿嘧啶(或尿苷)或胸腺嘧啶(或胸苷)以及腺嘌呤(或腺苷)到次黄嘌呤(或肌苷),以及非模板化的核苷酸加成和插入。在一些实施方案中,核碱基编辑结构域是脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶)。在一些实施方案中,核碱基编辑结构域可以是天然出现的核碱基编辑结构域。在一些实施方案中,核碱基编辑结构域可以是从天然出现的核碱基编辑结构域工程化或进化的核碱基编辑结构域。核碱基编辑结构域可以来自任何生物体,诸如细菌、人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠。
如本文中所用,如“获得一剂”中的“获得”包括合成、购买或以其它方法取得所述剂。
如本文中所用,“患者”或“受试者”是指哺乳动物受试者或个体,其被诊断患有疾病或疾患、处于患有或发展出疾病或疾患的风险下或易患或发展出疾病或疾患。在一些实施方案中,术语“患者”是指哺乳动物受试者,其具有高于平均水平的发展出疾病或疾患的可能性。示例性患者可以是人、非人灵长动物、猫、狗、猪、牛、猫、马、骆驼、骆马、山羊、绵羊、啮齿动物(例如,小鼠、兔、大鼠或豚鼠)和其他哺乳动物,其可能受益于本文所公开的疗法。示例性人类患者可以是男性和/或女性。
本文中,“有此需要的患者”或“有此需要的受试者”是指患者,其被诊断患有疾病或疾患、处于患有疾病或疾患的风险下、预先查明患有疾病或疾患或易患疾病或疾患,例如但不限于Rett综合征(RTT)。
术语“致病突变”、“致病变体”、“造成疾病的突变”、“造成疾病的变体”、“有害突变”或“诱因性突变”是指基因突变或改变,其增加个体对某种疾病或疾患的易感性或患病倾向。在一些实施方案中,致病突变包含由基因编码的蛋白质中的至少一个野生型氨基酸被置换为至少一个致病氨基酸。
术语“药学上可接受的载剂”意为药学上可接受的材料、组合物或媒介物,诸如液体或固体填充物、稀释剂、赋形剂、制造助剂(例如,润滑剂、滑石、硬脂酸镁、硬脂酸钙、硬脂酸锌或硬脂酸)或溶剂胶囊化材料,其牵涉入将化合物从身体的一个位点(例如,递送位点)携带或运输至身体的另一位点(例如,器官、组织或胜肽的部分)。就与制剂的其他成分的相容性而言,药学上可接受的载剂是“可接受的”并且对受试者的组织无害(例如,生理学上相容的、无菌的、生理pH等)。术语诸如“赋形剂”、“载剂”、“药学上可接受的载剂”、“媒介物”等在本文中可互换地使用。
术语“药物组合物”意为配制为用于药学用途的组合物。
本文中,术语“蛋白质”、“肽”、“多肽”及其语法等效物可互换地使用,并且是指通过肽(酰胺)键连接在一起的氨基酸残基的聚合物。这些术语是指任何大小、结构或功能的蛋白质、肽或多肽。典型地,蛋白质、肽或多肽的长度将会为至少三个氨基酸。蛋白质、肽或多肽可以指单个蛋白质或蛋白质的集合。可例如通过加入化学整体诸如碳水化合物基团、羟基、磷酸根、法尼基、异法尼基、脂肪酸基团、用于缀合、功能化或其他修饰等的链接基或其它修饰而修饰蛋白质、肽或多肽中的一个或多个氨基酸。蛋白质、肽或多肽也可以为单分子或可以为多分子复合物。蛋白质、肽或多肽可以仅为天然出现的蛋白质或肽的片段。蛋白质、肽或多肽可以为天然出现的、重组的或合成的,或其任意组合。如本文所用,术语“融合蛋白”是指一种杂交多肽,其包含来自至少两种不同蛋白质的蛋白结构域。一个蛋白质可以定位在融合蛋白的氨基端(N端)部分或定位在羧基端(C端)蛋白,从而分别形成氨基端融合蛋白或羧基端融合蛋白。蛋白质可以包含不同的结构域,例如,核酸结合结构域(例如,Cas9的引导所述蛋白质结合至靶标位点的gRNA结合结构域)和核酸编辑蛋白的核酸裂解结构域或催化结构域。在一些实施方案中,蛋白质包含蛋白部分(例如,构成核酸结合结构域的氨基酸序列)和有机化合物(例如,可充当核酸裂解剂的化合物)。在一些实施方案中,蛋白质与核酸例如RNA或DNA复合或缔合。本文所提供的任何蛋白质均可通过本领域已知的任何方法生产。例如,本文所提供的蛋白质可以经由重组蛋白质表达和纯化生产,所述方法尤其适用于包含肽连接子的融合蛋白。用于重组蛋白表达和纯化的方法是周知的,并且包括《分子克隆:实验室手册(第四版)》(Green and Sambrook,Molecular Cloning:A LaboratoryManual(4th ed.,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.(2012)))中描述的那些,所述文献的整体内容通过引用并入本文。
本文所公开的多肽和蛋白质(包括其功能性部分和功能性变体)可以包含合成氨基酸来代替一个或多个天然出现的氨基酸。此类合成氨基酸是本领域中已知的,并且包括例如氨基环己烷甲酸、正亮氨酸、α-氨基正癸酸、高丝氨酸、S-乙酰基氨基甲基-半胱氨酸、反式-3-和反式-4-羟基脯氨酸、4-氨基苯丙氨酸、4-硝基苯丙氨酸、4-氯苯丙氨酸、4-羧基苯丙氨酸、β-苯基丝氨酸、β-羟基苯丙氨酸、苯基甘氨酸、α-萘基丙氨酸、环己基丙氨酸、环己基甘氨酸、吲哚啉-2-甲酸、1,2,3,4-四氢异喹啉-3-甲酸、氨基阿洛糖酸、氨基阿洛糖酸单酰胺、N'-苄基-N'-甲基-赖氨酸、N',N'-二苄基-赖氨酸、6-羟基赖氨酸、鸟氨酸、α-氨基环戊烷甲酸、α-氨基环己烷甲酸、α-氨基环庚烷甲酸、α-(2-氨基-2-降莰烷)-甲酸、α,γ-二氨基丁酸、α,β-二氨基丙酸、高苯丙氨酸和α-叔丁基甘氨酸。多肽和蛋白质可以与多肽构建体的一个或多个氨基酸的转录后修饰缔合。转录后修饰的非限制性示例包括磷酸化、酰化(包括乙酰化和甲酰化)、糖基化(包括N-联糖基化和O-联糖基化)、酰胺化、羟基化、烷基化(包括甲基化和乙基化)、泛素化、吡咯烷酮甲酸的加成、二硫桥的形成、硫酸化、豆蔻酰化、棕榈酰化、异戊二烯化、法尼基化、香叶基化、糖基磷脂酰肌醇化、脂化和碘化。
如本文所用,术语“重组”在蛋白质或核酸的语境中是指不出现在自然界中而是作为人工工程化产物的蛋白质或核酸。例如,在一些实施方案中,重组蛋白质或核酸包含氨基酸或核苷酸序列,与任何天然出现的序列相比,所述氨基酸或核苷酸序列包含至少一个、至少两个、至少三个、至少四个、至少五个、至少六个或至少七个突变。
“降低”意为至少10%、25%、50%、75%或100%的负向改变。
“参考”意为标准或对照条件。在一种实施方案中,参考是野生型或健康的细胞。在其他实施方案中且并非限制,参考是未经处理的细胞,其未经历测试条件,或经历了安慰剂或不携带感兴趣的多核苷酸的生理盐水、培养基、缓冲液和/或对照载体。
“参考序列”是用作序列比对基础的定义序列。参考序列可以是特定序列的一部分或整体;例如,全长度cDNA或基因序列的链段、或完整的cDNA或基因序列。对于多肽,参考多肽序列的长度将通常为至少约16个氨基酸,优选至少约20个氨基酸,更优选至少约25个氨基酸,且甚至更优选约35个氨基酸、约50个氨基酸或约100个氨基酸。对于核酸,参考核酸序列的长度将通常为至少约50个核苷酸,优选至少约60个核苷酸,更优选至少约75个核苷酸,且甚至更优选约100个核苷酸或约300个核苷酸或与之接近或之间的任何整数。在一些实施方案中,参考序列是感兴趣的蛋白质的野生型序列。在其他实施方案中,参考序列是编码野生型蛋白质的多核苷酸序列。
术语“RNA可编程核酸酶”和“RNA引导的核酸酶”与并非裂解靶标的一种或多种RNA合用(例如,与之结合或缔合)。在一些实施方案中,当与RNA复合时,RNA可编程核酸酶可以称为核酸酶:RNA复合物。典型地,所结合的RNA称为向导RNA(gRNA)。gRNA可作为两种或更多种RNA的复合物存在,或作为单RNA分子存在。作为单RNA分子存在的gRNA可以称为单向导RNA(sgRNA),但“gRNA”用来可互换地指代作为单分子存在或作为两个或更多个分子的复合物存在的向导RNA。典型地,作为单RNA物质存在的gRNA包含两个结构域:(1)与靶标核酸共享同源性的结构域(例如,并且引导Cas9复合物结合至靶标);和(2)结合Cas9蛋白的结构域。在一些实施方案中,结构域(2)对应于作为tracrRNA而为人所知的序列,并且包括茎环结构。例如,在一些实施方案中,结构域(2)与Jinek等人,Science 337:816-821(2012)中提供的tracrRNA相同或同源,所述文献的整体内容通过引用并入本文。gRNA(例如,包括结构域(2)的那些)可以见于2013年9月6日提交的题为《Switchable Cas9 Nucleases and UsesThereof》的美国临时专利申请序列号61/874,682和《Delivery System For FunctionalNucleases》的美国临时专利申请序列号61/874,746,所述临时专利申请各自的整体内容通过引用而以其整体并入本文。在一些实施方案中,gRNA包含两个或更多个结构域(1)和(2),并且可以称为“扩展的gRNA”。例如,扩展的gRNA将会例如在两个或更多个不同的区域结合两个或更多个Cas9蛋白并且结合靶标核酸,如本文所述。gRNA包含与靶标位点互补的核苷酸序列,所述核苷酸序列介导核酸酶/RNA复合物与所述靶标位点的结合,提供核酸酶:RNA复合物的序列特异性。
在一些实施方案中,RNA可编程核酸酶是(CRISPR相关系统)Cas9内切酶,例如,来自化脓链球菌的Cas9(Casnl)(参见,例如,Complete genome sequence of an Ml strainof Streptococcus pyogenes.Ferretti J.J.,等人,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);CRISPR RNA maturation by trans-encoded small RNA and hostfactor RNase III.Deltcheva E.,等人,Nature 471:602-607(2011))。
因为RNA可编程核酸酶(例如,Cas9)使用RNA:DNA杂交作用来靶向DNA裂解位点,所以这些蛋白质原则上能够被靶向至向导RNA所特异化的任何序列。使用RNA可编程核酸酶诸如Cas9进行位点特异性裂解(例如,以修饰基因组)的方法是本领域中已知的(参见,例如,Cong,L.等人,Multiplex genome engineering using CRISPR/Cas systems.Science339,819-823(2013);Mali,P.等人,RNA-guided human genome engineering viaCas9.Science 339,823-826(2013);Hwang,W.Y.等人,Efficient genome editing inzebrafish using a CRISPR-Cas system.Nature biotechnology 31,227-229(2013);Jinek,M.等人,RNA-programmed genome editing in human cells.eLife 2,e00471(2013);Dicarlo,J.E.等人,Genome engineering in Saccharomyces cerevisiae usingCRISPR-Cas systems.Nucleic acids research(2013);Jiang,W.等人,RNA-guidedediting of bacterial genomes using CRISPR-Cas systems.Nature biotechnology31,233-239(2013);其各自的整体内容通过引用并入本文)。
术语“单核苷酸多态性(SNP)”是发生在基因组具体位置处的单核苷酸变异,其中每种变异在群体内以某种可感知的程度(例如,>1%)存在。例如,在人类基因组中的一个具体碱基位置处,C核苷酸可以出现在大多数个体中,但在少数个体中,所述位置被A占据。这意味着在这一具体位置处存在SNP,并且两种可能的核苷酸变异,即C或A,被称为这一位置的等位基因。SNP构成了对疾病的易感性差异的基础。疾病的严重程度和我们的身体响应治疗的方式也是基因变异的表现。SNP可以落入基因的编码区、基因的非编码区内,或落入基因间区(基因之间的区域)内。在一些实施方案中,由于基因密码的简并性,编码序列内的SNP不一定改变所生产蛋白质的氨基酸序列。编码区中的SNP有两种类型:同义SNP和非同义SNP。同义SNP不影响蛋白质序列,而非同义SNP改变蛋白质的氨基酸序列。非同义SNP有两种类型:错义和无义。不在蛋白质编码区中的SNP可能仍然影响基因剪接、转录因子结合、信使RNA降解、或非编码RNA的序列。受这一类型SNP影响的基因表达称为eSNP(表达SNP)并且可以位于基因的上游或下游。单核苷酸变体(SNV)是单核苷酸中的变异,没有任何频率限制,并且可出现在体细胞中。体细胞单核苷酸变异(例如,与癌症相关)也可以称为单核苷酸改变。
“特异性地结合”意为核酸分子、多肽或其复合物(例如,核酸可编程DNA结合结构域和向导核酸)、化合物或分子识别并且结合本公开的多肽和/或核酸分子,但它们基本上不识别并且结合样品例如生物样品中的其他分子。
可用于本文所述方法的核酸分子包括编码本公开的多肽或其片段的任何核酸分子。此类核酸分子无须与内源性核酸序列100%一致,但典型将会展现基本一致性。具有与内源性序列“基本一致性”的多核苷酸典型能与双链核酸分子的至少一条链杂交。可用于本文所述方法的核酸分子包括编码本公开的多肽或其片段的任何核酸分子。此类核酸分子无须与内源性核酸序列100%一致,但典型将会展现基本一致性。具有与内源性序列“基本一致性”的多核苷酸典型能与双链核酸分子的至少一条链杂交。“杂交”意为在互补多核苷酸序列(例如,本文所述的基因)或其部分在多种严格条件下配对以形成双链分子。(参见,例如,Wahl,G.M.and S.L.Berger(1987)Methods Enzymol.152:399;Kimmel,A.R.(1987)Methods Enzymol.152:507)。
举例而言,严格的盐浓度一般为少于约750mM NaCl和75mM柠檬酸三钠,优选少于约500mM NaCl和50mM柠檬酸三钠,且更优选少于约250mM NaCl和25mM柠檬酸三钠。低严格度杂交可在不存在有机溶剂如甲酰胺的情况下获得,而高严格度杂交可在存在至少约35%甲酰胺且更优选至少约50%甲酰胺的情况下获得。严格的温度条件一般将包括至少约30℃,更优选至少约37℃,且最优选至少约42℃的温度。可变的附加因素,如杂交时间、洗涤剂如十二烷基硫酸钠(SDS)的浓度、以及包含或不饱和载剂DNA,是本领域技术人员所周知的。通过按需要组合这些多种条件来实施各种水平的严格度。在某些实施方案中,杂交将出现在30℃的750mM NaCl、75mM柠檬酸三钠和1%SDS中。在更优选的实施方式中,杂交将出现在37℃的500mM NaCl、50mM柠檬酸三钠、1%SDS、35%甲酰胺和100μg/ml变性鲑鱼精DNA(ssDNA)中。在最优选的实施方案中,杂交将出现在42℃的250mM NaCl、25mM柠檬酸三钠、1%SDS、50%甲酰胺和200μg/ml ssDNA中。对这些条件的有用改变对于本领域技术人员是显而易见的。
对于大多数应用,杂交后的洗涤步骤的严格度也将改变。可通过盐浓度和温度来界定洗涤严格度条件。如上,可通过降低盐浓度或增加温度来增加洗涤严格度。举例而言,洗涤步骤的严格的盐浓度优选为少于约30mM NaCl和3mM柠檬酸三钠,且最优选少于约15mMNaCl和1.5mM柠檬酸三钠。用于洗涤步骤的严格的温度条件一般将包括至少约25℃,更优选至少约42℃,且甚至更优选至少约68℃的温度。在优选的实施方式中,洗涤步骤将出现在25℃的30mM NaCl、3mM柠檬酸三钠和0.1%SDS中。在更优选的实施方案中,洗涤步骤将出现在42℃的15mM NaCl、1.5mM柠檬酸三钠和0.1%SDS中。在更优选的实施方案中,洗涤步骤将出现在68℃的15mM NaCl、1.5mM柠檬酸三钠和0.1%SDS中。对这些条件的额外改变对于本领域技术人员是显而易见的。杂交技术是本领域技术人员所周知的,且揭示在例如Bentonand Davis(Science 196:180,1977);Grunstein and Hogness(Proc.Natl.Acad.Sci.,USA72:3961,1975);Ausubel等人(Current Protocols in Molecular Biology,WileyInterscience,New York,2001));《分子克隆技术指南》(Berger and Kimmel(Guide toMolecular Cloning Techniques,1987,Academic Press,New York));以及《分子克隆:实验室手册》(Sambrook等人,Molecular Cloning:A Laboratory Manual,Cold SpringHarbor Laboratory Press,New York)。
“分裂”意为分为两个或更多个片段。
“分裂Cas9蛋白”或“分裂Cas9”是指一种Cas9蛋白,其作为由两个独立的核苷酸序列编码的N端片段和C端片段而提供。对应于Cas9蛋白的N端部分和C端部分的多肽可以被分裂以形成“重建”Cas9蛋白。在特定实施方案中,Cas9蛋白被分为处于所述蛋白质的无序区内的两个片段,例如,如Nishimasu等人,Cell,Volume 156,Issue 5,pp.935-949,2014中所述或如Jiang等人(2016)Science 351:867-871.PDB file:5F9R中所述,其各自通过引用并入本文。在一些实施方案中,在位于SpCas9的介于大约氨基酸A292-G364、F445-K483或E565-T637之间的区域内的任何C、T、A或S处,或在任何其他Cas9、Cas9变体(例如,nCas9、dCas9)或其他napDNAbp的相应位置处,将蛋白质分为两个片段。在一些实施方案中,在SpCas9 T310、T313、A456、S469或C574处,将蛋白质分为两个片段。在一些实施方案中,将蛋白质分为两个片段的过程称为“剪接”所述蛋白质。
在其他实施方案中,Cas9蛋白的N端部分包含化脓链球菌Cas9野生型(SpCas9)(NCBI参考序列:NC_002737.2,Uniprot参考序列:Q99ZW2)的氨基酸1-573或1-637,并且Cas9蛋白的C端部分包含SpCas9野生型的氨基酸574-1368或638-1368部分,或其相应位置。
分裂Cas9的C端部分可以与分裂Cas9的N端部分接合以形成完全的Cas9蛋白。在一些实施方案中,Cas9蛋白的C端部分始于Cas9蛋白的N端部分结束之处。因此,在一些实施方案中,分裂Cas9的C端部分包含spCas9的氨基酸(551-651)-1368部分。“(551-651)-1368”意为始于氨基酸551-651(含)之间的氨基酸处并且终于氨基酸1368处。例如,分裂Cas9的C端部分可包含spCas9的氨基酸551-1368、552-1368、553-1368、554-1368、555-1368、556-1368、557-1368、558-1368、559-1368、560-1368、561-1368、562-1368、563-1368、564-1368、565-1368、566-1368、567-1368、568-1368、569-1368、570-1368、571-1368、572-1368、573-1368、574-1368、575-1368、576-1368、577-1368、578-1368、579-1368、580-1368、581-1368、582-1368、583-1368、584-1368、585-1368、586-1368、587-1368、588-1368、589-1368、590-1368、591-1368、592-1368、593-1368、594-1368、595-1368、596-1368、597-1368、598-1368、599-1368、600-1368、601-1368、602-1368、603-1368、604-1368、605-1368、606-1368、607-1368、608-1368、609-1368、610-1368、611-1368、612-1368、613-1368、614-1368、615-1368、616-1368、617-1368、618-1368、619-1368、620-1368、621-1368、622-1368、623-1368、624-1368、625-1368、626-1368、627-1368、628-1368、629-1368、630-1368、631-1368、632-1368、633-1368、634-1368、635-1368、636-1368、637-1368、638-1368、639-1368、640-1368、641-1368、642-1368、643-1368、644-1368、645-1368、646-1368、647-1368、648-1368、649-1368、650-1368或651-1368中任一者的部分。在一些实施方案中,分裂Cas9蛋白的C端部分包含spCas9的氨基酸574-1368或638-1368部分。
“受试者”意为哺乳动物,包括但不限于人类和非人哺乳动物,诸如牛、马、犬、羊或猫科动物。受试者包括用于产生劳力和提供商品诸如食品的家畜、驯养动物,包括而不限于,牛、山羊、鸡、马、猪、兔和绵羊。
“基本相同”意为多肽或核酸分子展现与参考氨基酸序列(例如,任何一种本文所述的氨基酸序列)或核酸序列(例如,任何一种本文所述的核酸序列)的至少50%一致性。优选地,此序列在氨基酸水平或核酸水平上与用于比较的序列的一致性为至少60%,更优选80%或85%,且更优选90%、95%或甚至99%。
通常使用序列分析软件(例如,威斯康星大学生物技术中心的遗传学计算机公司(Genetics Computer Group,University of Wisconsin Biotechnology Center,1710University Avenue,Madison,Wis.53705)的序列分析软件包BLAST、BESTFIT、COBALT、EMBOSS Needle、GAP、或PILEUP/PRETTYBOX程序)测量序列一致性。所述软件通过设定多种替换、删除、及/或其它修饰的同源性程度来匹配一致或相似的序列。保守替换典型包括下述各组的组内替换:甘氨酸、丙氨酸;缬氨酸、异亮氨酸、亮氨酸;天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺;丝氨酸、苏氨酸;赖氨酸、精氨酸;以及苯丙氨酸、酪氨酸。在例示性的测定一致性程度的途径中,可使用BLAST程序,其中介于e-3与e-100之间的可能性得分指示密切相关的序列。使用了例如具有以下参数的COBALT:
a)比对参数:空位罚分为-11、-1,并且末端空位罚分为-5、-1,
b)CDD参数:使用RPS BLAST开启;Blast E-值0.003;找到保存的列并重新计算(Find Conserved columns and Recompute)开启,和
c)查询聚类参数:使用查询簇开启;字长4;最大簇间距离0.8;自体风格为Regular。
使用了例如具有以下参数的EMBOSS Needle:
a)基质:BLOSUM62;
b)空位开头(GAP OPEN):10;
c)空位延长(GAP EXTEND):0.5;
d)输出格式:对;
e)末端空位罚分:错;
f)末端空位开头:10;和
g)末端空位延长:0.5。
术语“靶标位点”是指核酸分子内的被核碱基编辑器修饰的序列。在一种实施方案中,靶标位点被脱氨酶或包含脱氨酶(例如,腺嘌呤脱氨酶)的融合蛋白脱氨基。
如本文中所用,“治疗”(动词、动名词、名称)等指的是减轻或缓解与其相关的病变和/或一种或多种症状或者获得所希望的药理学和/或生理学效果。应知晓,尽管未排除,但治疗病症或病情(condition)并不需要完全消除与所述病症或病情相关的病症、病情或症状。在一些实施方案中,所述效果是治疗性的,即,而不限于,部分地或完全地削弱、减少、废止、减弱、减轻、降低疾病和/或可归因于疾病的不良症状的强度或治愈所述疾病和/或可归因于疾病的不良症状。在一些实施方案中,所述效果是预防性的,即,保护或防止疾病或病情的发作或复发的效果。就此而言,本发明公开的方法包括给药治疗有效量的如本文所述的组合物。
“尿嘧啶糖苷酶抑制剂”或“UGI”意为抑制尿嘧啶切除修复系统的药剂。在一种实施方案中,所述药剂是蛋白质或其片段,其结合宿主尿嘧啶-DNA糖苷酶并且防止尿嘧啶残基被从DNA中移除。在一种实施方案中,UGI是指一种蛋白质、其片段或结构域,其能够抑制尿嘧啶-DNA糖苷酶碱基切除修复酶。在一些实施方案中,UGI结构域包含野生型UGI或其经修饰的版本。在一些实施方案中,UGI结构域包含下文详述的示例性氨基酸序列的片段。在一些实施方案中,UGI片段包含氨基酸序列,所述氨基酸序列包含下文提供的示例性UGI序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%。在一些实施方案中,UGI包含与示例性GI氨基酸序列或其片段同源的氨基酸序列,如下文详述。在一些实施方案中,UGI或其部分与野生型UGI或UGI序列或其部分为至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.5%、至少99.9%或100%相同,如下文详述。示例性UGI包含以下氨基酸序列:
>splP14739IUNGI_BPPB2尿嘧啶-DNA糖苷酶抑制剂
MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML.
术语“载体”是指将核酸序列引入细胞内而获得转化细胞的意义。载体包括质粒、转座子、噬菌体、病毒、脂质体和附加体。“表达载体”是核酸序列,其包含待于接纳者细胞内表达的核苷酸序列。表达载体可以包括额外的核酸序列以促进和/或促使所引入的序列的表达,诸如起始子、终止子、启动子和分泌序列。
本文中,对任何变量定义中一系列化学基团的描述包括所述变量作为任何单一基团或作为所列基团的组合的定义。对本文中变量或方面的实施方案的描述包括所述实施方案作为任何单一输送方案或作为与任何其它实施方案或其部分的组合。
本文中提供和描述的任何组合物或方法可与本文中提供和描述的一种或多种任何其他组合物和方法组合。
DNA编辑已经成为一种可行的手段,用来通过在基因水平上校正致病突变而修正疾病状态。直到最近,所有的DNA编辑平台都是通过将DNA双链断裂(DSB)引入特定基因组位点并且依靠内源性DNA修复途径以半随机方式确定产物结局而发挥功能,导致基因产物的复杂群体。尽管可以通过同源定向修复(HDR)途径实现精确的、用户定义的修复结局,但存在的众多挑战阻止了使用HDR在治疗相关细胞类型中实现高效率修复。在实践中,相对于竞争性的、易出错的非同源末端接合途径,这一途径效率低下。再者,HDR被严格地限定在细胞周期的G1期和S期,阻止了有丝分裂后细胞中的精确修复。结果,已经证实难以或不可能在这些群体中以用户定义的可编程方式高效率地改变基因组序列。
核碱基编辑器
本文公开了一种用于编辑、修饰或改变多核苷酸的靶标核苷酸序列的碱基编辑器或核碱基编辑器。本文描述了核碱基编辑器或碱基编辑器,其包含多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,腺苷脱氨酶)。当与向导多核苷酸(例如,gRNA)结合时,多核苷酸可编程核苷酸结合结构域可以特异性地结合至靶标多核苷酸序列(即,经由所结合的向导核酸的碱基与靶标多核苷酸序列的碱基之间的互补碱基配对),并因此将碱基编辑器定位在希望进行编辑的靶标核酸序列处。在一些实施方案中,靶标多核苷酸序列包含单链DNA或双链DNA。在一些实施方案中,靶标多核苷酸序列包含RNA。在一些实施方案中,靶标多核苷酸序列包含DNA-RNA杂交物。
多核苷酸可编程核苷酸结合结构域
应知悉,多核苷酸可编程核苷酸结合结构域也可以包括结合RNA的核酸可编程蛋白质。例如,多核苷酸可编程核苷酸结合结构域可以与核酸缔合,所述核酸将所述多核苷酸可编程核苷酸结合结构域引导至RNA。其他核酸可编程DNA结合蛋白也处于本公开的范畴内,但它们不在本公开中具体地列举。
碱基编辑器的多核苷酸可编程核苷酸结合结构域自身可以包含一个或多个结构域。例如,多核苷酸可编程核苷酸结合结构域可以包含一个或多个核酸酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以包含核酸内切酶或核酸外切酶。本文中,术语“核酸外切酶”是指能够从游离末端消化核酸(例如,RNA或DNA)的蛋白质或多肽,而术语“核酸内切酶”是指能够催化(例如,裂解)核酸(例如,DNA或RNA)中的内部区域的蛋白质或多肽。在一些实施方案中,核酸内切酶可以裂解双链核酸的一条链。在一些实施方案中,核酸内切酶可以裂解双链核酸分子的两条链。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是脱氧核糖核酸酶。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是核糖核酸酶。
在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以切割靶标多核苷酸的零、一或两条链。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以包含切口酶结构域。本文中,术语“切口酶”是指包含核酸酶结构域的多核苷酸可编程核苷酸结合结构域,其能够仅裂解双链体核酸分子(例如,DNA)中的两条链中的一条链。在一些实施方案中,切口酶可以通过经一个或多个突变引入活性多核苷酸可编程核苷酸结合结构域中而衍生自完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,如果多核苷酸可编程核苷酸结合结构域包含衍生自Cas9的切口酶结构域,则衍生自Cas9的切口酶结构域可以包括D10A突变和位于位置840处的组氨酸。在此类实施方案中,残基H840保持催化活性并且因此可以裂解核酸双链体的一条链。在另一实施例中,衍生自Cas9的切口酶结构域可以包含H840A突变,而位于位置10处的氨基酸保持为D。在一些实施方案中,切口酶可以通过去除切口酶活性所不需要的全部或部分核酸酶结构域而衍生自完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,如果多核苷酸可编程核苷酸结合结构域包含衍生自Cas9的切口酶结构域,则衍生自Cas9的切口酶结构域可以包含RuvC结构域或HNH结构域的全部或部分缺失。
示例性的催化活性Cas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD。
包含切口酶结构域的包含多核苷酸可编程核苷酸结合结构域的碱基编辑器能够在特定的(例如,通过所结合的向导核酸的互补序列确定的)多核苷酸靶标序列处产生单链DNA断裂(切口)。在一些实施方案中,被包含切口酶结构域(例如,衍生自Cas9的切口酶结构域)的碱基编辑器裂解的核酸双链体靶标多核苷酸序列的链是没有通过所述碱基编辑器编辑的链(即,被碱基编辑器裂解的链与包含待编辑甲基的链相对)。在其他实施方案中,包含切口酶结构域(例如,衍生自Cas9的切口酶结构域)的碱基编辑器可以裂解被靶向以进行编辑的DNA分子的链。在此类实施方案中,非靶向链不被裂解。
本文中还提供包含碱基编辑器,其包含催化死亡(catalytically dead)(即,不能够裂解靶标多核苷酸序列)的多核苷酸可编程核苷酸结合结构域。本文中,术语“催化死亡的”和“核酸酶死亡的”可互换使用,并且是指一种多核苷酸可编程核苷酸结合结构域,其具有一个或多个突变和/或缺失,导致其失去了裂解核酸的链的能力。在一些实施方案中,作为一个或多个核酸酶结构域中特异性点突变的结果,催化死亡的多核苷酸可编程核苷酸结合结构域碱基编辑器可能缺乏核酸酶活性。例如,在碱基编辑器包含Cas9结构域的情况下,所述Cas9可以包含D10A突变和H840A突变两者。此类突变令两个核酸酶结构域失去活性,从而导致核酸酶活性的丧失。在其他实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域可以包含全部或部分的催化结构域(例如RuvC1结构域和/或HNH结构域)的一个或多个缺失。在进一步的实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域包含点突变(例如,D10A或H840A)以及全部或部分的核酸酶结构域的缺失。
本文还设想了能够从多核苷酸可编程核苷酸结合结构域的先前功能性版本产生催化死亡的多核苷酸可编程核苷酸结合结构域的突变。例如,在催化死亡的Cas9(“dCas9”)的情况下,提供了具有除D10A和H840A外的突变的变体,其得到无核酸酶活性的Cas9。举例而言,此类突变包括位于D10和H840处的其他氨基酸置换,或Cas9的核酸酶结构域内的其他置换(例如,HNH核酸酶亚结构域和/或RuvC1亚结构域中的置换)。基于本公开和本领域的知识,其他合适的无核酸酶活性的dCas9结构域对于本领域技术人员是显而易见的,并且处于本公开的范畴内。此类其他示例性的合适的无核酸酶活性的Cas9结构域包括但不限于,D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变结构域(参见例如,Prashant等人,CAS9 transcriptional activators for target specificity screeningand paired nickases for cooperative genome engineering.NatureBiotechnology.2013;31(9):833-838,其整体内容通过引用并入本文)。
可并入碱基编辑器中的多核苷酸可编程核苷酸结合结构域的非限制性示例包括源自CRISPR蛋白的结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。在一些实施方案中,碱基编辑器包含具有天然或修饰的蛋白质或其部分的多核苷酸可编程核苷酸结合结构域,在CRISPR(即,成簇规律间隔短回文重复序列)介导的核酸修饰期间,其能够经由所结合的向导核酸结合至核酸序列。本文中,此类蛋白质称为“CRISPR蛋白”。据此,本文公开了包含具有全部或部分的CRISPR蛋白的多核苷酸可编程核苷酸结合结构域的碱基编辑器(即,包含全部或部分的CRISPR蛋白作为结构域的碱基编辑器,所述结构域也称为碱基编辑器的“衍生自CRISPR蛋白的结构域”)。与CRISPR蛋白的野生型或天然版本相比,被并入碱基编辑器中的衍生自CRISPR蛋白的结构域可以经修饰。例如,如下文所述,衍生自CRISPR蛋白的结构域可以包含性对于CRISPR蛋白的野生型或天然版本的一个或多个突变、插入、缺失、重排和/或重组。
CRISPR是适应性免疫系统,其提供针对可动遗传因子(病毒、转座因子和接合质粒)的保护。CRISPR簇含有间隔序列、与祖先可动因子互补的序列和侵入靶标的核酸。CRISPR簇被转录并加工为CRISPR RNA(crRNA)。在II型CRISPR系统中,正确加工pre-crRNA需要反式编码的小RNA(tracrRNA)、內源核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA在核糖核酸酶3辅助的pre-crRNA加工中充当向导。随后,Cas9/crRNA/tracrRNA核酸内切溶解地裂解与间隔序列互补的线性或环状dsDNA靶标。不与crRNA互补的靶标链首先被核酸内切溶解地切割,然后被3'-5'核酸外切溶解地修剪。本质上中,DNA结合和裂解通常需要蛋白质和两种RNA。但是,单向导RNA(“sgRNA”,或简称为“gRNA”)可以工程化改造,以将crRNA和tracrRNA两者的各个方面合并到单个RNA物种中。参见例如,Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012),其整体内容通过引用并入本文。Cas9识别CRISPR重复序列中的短基序(PAM或前间隔序列邻近基序)以帮助区分自己(self)与非己(non-self)。
在一些实施方案中,本文所述的方法可以利用经工程化的Cas蛋白。向导RNA(gRNA)是短合成RNA,由Cas结合所必需的支架序列和使用者定义的约20个核苷酸的定义待修饰的基因组靶标的间隔序列构成。因此,技术人员可以改变Cas蛋白的基因组靶标,特异性部分地由gRNA靶向序列对于基因组靶标与基因组剩余部分的特异性如何而决定。
在一些实施方案中,gRNA支架序列如下:GUUUUAGAGC UAGAAAUAGC AAGUUAAAAUAAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU。
在一些实施方案中,被并入碱基编辑器中的衍生自CRISPR蛋白的结构域是核酸内切酶(例如,脱氧核糖核酸酶或核糖核酸酶),当与所结合的向导核酸协同作用时,所述核酸内切酶能够结合靶标多核苷酸。在一些实施方案中,被并入碱基编辑器中的衍生自CRISPR蛋白的结构域是切口酶,当与所结合的向导核酸协同作用时,所述切口酶能够结合靶标多核苷酸。在一些实施方案中,被并入碱基编辑器中的衍生自CRISPR蛋白的结构域是催化死亡的结构域,当与所结合的向导核酸协同作用时,所述催化死亡的结构域能够结合靶标多核苷酸。在一些实施方案中,本衍生自碱基编辑器的CRISPR蛋白结合的靶标多核苷酸是DNA。在一些实施方案中,本衍生自碱基编辑器的CRISPR蛋白结合的靶标多核苷酸是RNA。
本文中可使用的Cas蛋白包括1类和2类。Cas蛋白的非限制性示例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(也称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i、CARF、DinG、其同源物、或其经修饰的版本。未经修饰的CRISPR酶可能具有DNA裂解活性,诸如Cas9,其具有两个功能性核酸内切酶结构域:RuvC和HNH。CRISPR酶可以引导一条或两条链在靶标序列处(诸如靶标序列内和/或靶标序列的补体内)的裂解。例如,CRISPR酶可以引导从靶标序列的第一个或最后一个核苷酸起约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500个或更多个碱基对内的一条或两条链。
可以使用一种载体,所述载体编码CRISPR酶,所述酶被关于野生型酶突变以使得经突变的CRISPR酶缺乏裂解含有靶标序列的靶标多核苷酸的一条或两条链的能力。Cas9可以指与野生型示例性Cas9多肽(例如,来自化脓链球菌的Cas9)具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性和/或序列同源性的多肽。Cas9可以指与野生型示例性Cas9多肽(例如,来自化脓链球菌)具有至多或至多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性和/或序列同源性的多肽。Cas9可以指野生型或经修饰形式的Cas9蛋白,其可以包含氨基酸变化诸如缺失、插入、置换、变异、突变、融合、嵌合或其任意组合。
在一些实施方案中,碱基编辑器的衍生自CRISPR蛋白的结构域可以包括来自以下的Cas9的全部或部分:溃疡棒状杆菌(Corynebacterium ulcerans)(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒状杆菌(Corynebacterium diphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);栖蚜蝇螺原体(Spiroplasma syrphidicola)(NCBI Ref:NC_021284.1);中间普雷沃氏菌(Prevotella intermedia)(NCBI Ref:NC_017861.1);中国台湾螺原体(Spiroplasma taiwanense,China)(NCBI Ref:NC_021846.1);海豚链球菌(Streptococcus iniae)(NCBI Ref:NC_021314.1);波罗的海贝尔氏菌(Belliellabaltica)(NCBI Ref:NC_018010.1);扭曲冷弯曲菌(Psychroflexus torquis)(NCBI Ref:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBI Ref:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Ref:NP_472073.1);空肠弯曲杆菌(Campylobacterjejuni)(NCBI Ref:YP_002344900.1);脑膜炎奈瑟氏菌(Neisseria meningitidis)(NCBIRef:YP_002342100.1);化脓链球菌(Streptococcus pyogenes)或金黄色葡萄球菌(Staphylococcus aureus)。
核碱基编辑器的Cas9结构域
Cas9核酸酶序列和结构是本领域技术人员已知的(参见例如,“Complete genomesequence of an M1 strain of Streptococcus pyogenes.”Ferretti等人,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.,等人,Nature 471:602-607(2011);和“A programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.,等人,Science 337:816-821(2012),其各自的整体内容通过引用并入本文)。Cas9直接同源物已经在多种物种中描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开,其他合适的Cas9核酸酶和序列对于本领域技术人员将是显而易见的,并且此类Cas9核酸酶和序列包括来自生物体的Cas9序列和以下文献中公开的基因座:Chylinski,Rhun,and Charpentier,“The tracrRNA and Cas9 families of type IICRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737;其整体内容通过引用并入本文。
在一些方面,核酸可编程DNA结合蛋白(napDNAbp)是Cas9结构域。本文中提供了非限制性的示例性Cas9结构域。Cas9结构域可以是核酸酶活性Cas9结构域、无核酸酶活性的Cas9结构域(dCas9)或Cas9切口酶(nCas9)。在一些实施方案中,Cas9结构域是核酸酶活性结构域。例如,Cas9结构域可以是切割双链体核酸的两条链(例如,双链体DNA分子的两条链)的Cas9结构域。在一些实施方案中,Cas9结构域包含本文所详述的任何一个氨基酸序列。在一些实施方案中,Cas9结构域包含氨基酸序列,所述氨基酸序列与本文详述的任何一个氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或99.5%相同。在一些实施方案中,Cas9结构域包含氨基酸序列,与本文详述的任何一个氨基酸序列相比,所述氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,Cas9结构域包含氨基酸序列,与本文详述的任何一个氨基酸序列相比,所述氨基酸序列具有至少10个、至少15个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少150个、至少200个、至少250个、至少300个、至少350个、至少400个、至少500个、至少600个、至少700个、至少800个、至少900个、至少1000个、至少1100个或至少1200个相同的毗邻氨基酸残基。
在一些实施方案中,提供了包含Cas9的片段的蛋白质。例如,在一些实施方案中,蛋白质包含一个或两个Cas9结构域:(1)Cas9的gRNA结合结构域;或(2)Cas9的DNA切割结构域。在一些实施方案中,包含Cas9或其片段的蛋白质称为“Cas9变体”。Cas9变体享有与Cas9或其片段的同源性。例如,Cas9变体与野生型Cas9至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约96%相同,至少约97%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。在一些实施方案中,与野生型Cas9相比,Cas9变体可以具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多氨基酸变化。
在一些实施方案中,Cas9变体包含Cas9的片段(例如,gRNA结合结构域或DNA切割结构域),使得所述片段与野生型Cas9的相应片段至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约96%相同,至少约97%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。在一些实施方案中,所述片段是相应野生型Cas9的氨基酸长度的至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%。在一些实施方案中,所述片段为至少100个氨基酸的长度。一些实施方式中,所述片段为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250个或至少1300个氨基酸的长度。
在一些实施方案中,如本文所提供的Cas9融合蛋白包含Cas9蛋白的全长度氨基酸序列,例如,本文所提供的Cas9序列之一。然而,在其他实施方案中,如本文所提供的融合蛋白不包含全长度Cas9序列,而仅包含其一个或多个片段。合适的Cas9结构域和Cas9片段的示例性氨基酸序列在本文中提供,并且Cas9结构域和片段的其他合适的序列对于本领域技术人员而言将会是显而易见的。
在一些实施方案中,野生型Cas9对应于来自化脓链球菌(Streptococcuspyogenes)的Cas9(NCBI参考序列:NC_017053.1)。示例性核苷酸和氨基酸序列如下:
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003480255960001031
Figure BDA0003480255960001041
Figure BDA0003480255960001042
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方案中,野生型Cas9对应于或包含以下核苷酸和/或氨基酸序列:
ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA
Figure BDA0003480255960001061
Figure BDA0003480255960001071
Figure BDA0003480255960001072
(单下划线:HNH结构域;双下划线:RuvC结构域)。
在一些实施方案中,野生型Cas9对应于来自化脓链球菌(Streptococcuspyogenes)的Cas9(NCBI参考序列:NC_002737.2(核苷酸序列如下);和Uniprot参考序列:Q99ZW2(氨基酸序列如下)):
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003480255960001091
Figure BDA0003480255960001101
Figure BDA0003480255960001102
(单下划线:HNH结构域;双下划线:RuvC结构域)。
在一些实施方案中,Cas9是指来自以下的Cas9:溃疡棒状杆菌(Corynebacteriumulcerans)(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒状杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);栖蚜蝇螺原体(Spiroplasmasyrphidicola)(NCBI Ref:NC_021284.1);中间普雷沃氏菌(Prevotella intermedia)(NCBI Ref:NC_017861.1);中国台湾螺原体(Spiroplasma taiwanense,China)(NCBI Ref:NC_021846.1);海豚链球菌(Streptococcus iniae)(NCBI Ref:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Ref:NC_018010.1);扭曲冷弯曲菌(PsychroflexustorquisI)(NCBI Ref:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBIRef:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Ref:NP_472073.1);空肠弯曲杆菌(Campylobacter jejuni)(NCBI Ref:Yp_002344900.1);或脑膜炎奈瑟氏菌(Neisseria meningitidis)(NCBI Ref:YP_002342100.1)或者是指来自任何其他生物体的Cas9。
应知悉,其他Cas9蛋白(例如,核酸酶死亡的Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性的Cas9),包括其变体和同源物,处于本公开的范畴内。示例性Cas9蛋白包括而不限于下文提供的那些。在一些实施方案中,Cas9蛋白是核酸酶活性的Cas9。在一些实施方案中,Cas9蛋白是核酸酶死亡的Cas9(dCas9)。在一些实施方案中,Cas9蛋白是Cas9切口酶(nCas9)。
在一些实施方案中,Cas9结构域是无核酸酶活性的Cas9结构域(dCas9)。例如,dCas9结构域可以结合至双链体核酸分子(例如,经由gRNA分子)而不裂解所述双链体核酸分子的任何链。经核酸酶灭活的Cas9蛋白可以互换地称为“dCas9”蛋白(对于核酸酶“死亡的”Cas9)或无催化活性的Cas9。用于产生具有无活性的DNA裂解结构域的Cas9蛋白(或其片段)的方法是已知的(参见例如,Jinek等人,Science.337:816-821(2012);Qi等人,“Repurposing CRISPR as an RNA-Guided Platform for Sequence-Specific Controlof Gene Expression”(2013)Cell.28;152(5):1173-83,其各自的整体内容通过引用并入本文)。例如,Cas9的DNA裂解结构域已知包括两个亚结构域,HNH核酸酶亚结构域和RuvC1亚结构域。HNH亚结构域裂解与gRNA互补的链,而RuvC1亚结构域裂解非互补链。这些亚结构域中的突变可以静默Cas9的核酸酶活性。例如,突变D10A和H840A将化脓链球菌Cas9的核酸酶活性完全灭活(Jinek等人,Science.337:816-821(2012);Qi等人,Cell.28;152(5):1173-83(2013))。
在一些实施方案中,dCas9部分地或完整地对应于或包含具有一个或多个突变的Cas9氨基酸序列,所述突变将Cas9核酸酶活性灭活。在一些实施方案中,无核酸酶活性的dCas9结构域包含本文所详述的氨基酸序列的D10X突变和H840X突变,或本文所提供的任何氨基酸序列的相应突变,其中X为任何氨基酸变化。在一些实施方案中,无核酸酶活性的dCas9结构域包含本文所详述的氨基酸序列的D10A突变和H840A突变,或本文所提供的任何氨基酸序列的相应突变。在一些实施方案中,无核酸酶活性的Cas9结构域包含克隆载体pPlatTET-gRNA2(登录号BAV54124)中详述的氨基酸序列。在一些实施方案中,dCas9包含dCas9的氨基酸序列(D10A和H840A):
Figure BDA0003480255960001121
Figure BDA0003480255960001122
(单下划线:HNH结构域;双下划线:RuvC结构域)。
在一些实施方案中,示例性的无催化活性的Cas9(dCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
(参见例如,Qi等人,“Repurposing CRISPR as an RNA-guided platform forsequence-specific control of gene expression.”Cell.2013;152(5):1173-83,其整体内容通过引用并入本文)。
在一些实施方案中,示例性的无催化活性的Cas9(dCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在一些实施方案中,Cas9结构域包含D10A突变,而位于位置840处的残基保持为上文提供的氨基酸序列中的组氨酸,或者位于本文提供的任何氨基酸序列中的相应位置处。在其他实施方案中,提供了具有除D10A和H840A之外的突变的dCas9变体,所述突变例如导致经核酸酶灭活的Cas9(dCas9)。举例而言,此类突变包括位于D10和H840处的其他氨基酸置换,或Cas9的核酸酶结构域内的其他置换(例如,HNH核酸酶亚结构域和/或RuvC1亚结构域中的置换)。在一些实施方案中,提供了dCas9的变体或同源物,所述变体或同源物至少约70%相同、至少约80%相同、至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供了dCas9的变体,所述变体的氨基酸序列更短或更长,短了或长了约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
基于本公开和本领域的知识,其他合适的无核酸酶活性的dCas9结构域对于本领域技术人员将是显而易见的,并且处于本公开的范畴内。此类其他示例性的合适的无核酸酶活性的Cas9结构域包括但不限于,D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变结构域(参见例如,Prashant等人,CAS9 transcriptional activators fortarget specificity screening and paired nickases for cooperative genomeengineering.Nature Biotechnology.2013;31(9):833-838,其整体内容通过引用并入本文)。
在一些实施方案中,Cas9核酸酶具有无活性的(例如,灭活的)DNA裂解结构域,换言之,Cas9是切口酶,称为“nCas9”蛋白(对于“切口酶”Cas9)。在一些实施方案中,Cas9结构域是Cas9切口酶。Cas9切口酶可以是能够仅裂解双链体核酸分子(例如,双链体DNA分子)的一条链的Cas9蛋白。在一些实施方案中,Cas9切口酶裂解双链体核酸分子的靶标链,意味着Cas9切口酶裂解与结合至Cas9的gRNA(例如,sgRNA)碱基配对(互补)的链。在一些实施方案中,Cas9切口酶包含D10A突变并且具有位于位置840处的组氨酸。在一些实施方案中,Cas9切口酶裂解双链体核酸分子的非靶标、未经碱基编辑的链,意味着Cas9切口酶裂解与结合至Cas9的gRNA(例如,sgRNA)不进行碱基配对(互补)的链。在一些实施方案中,Cas9切口酶包含H840A突变并且具有位于位置10处的天冬氨酸残基,或相应突变。在一些实施方案中,Cas9切口酶包含氨基酸序列,所述氨基酸序列与本文提供的任何一个Cas9切口酶为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。基于本公开和本领域的知识,其他合适的Cas9切口酶对于本领域技术人员将是显而易见的,并且处于本公开的范畴内。
示例性的催化Cas9切口酶(nCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在一些实施方案中,Cas9是指来自古生菌(例如,纳古菌)的Cas9,其构建单细胞原核微生物的结构域和界。在一些实施方案中,核酸可编程DNA结合蛋白可以是CasX或CasY蛋白,它们已经在例如Burstein等人,"New CRISPR-Cas systems from uncultivatedmicrobes."Cell Res.2017Feb 21.doi:10.1038/cr.2017.21中有所描述,所述文献的整体内容通过引用并入本文。使用基因组解析的宏基因组学,鉴定了大量CRISPR-Cas系统,包括在古生菌生命结构域中首次报道的Cas9。这种趋异Cas9蛋白是作为活性CRISPR-Cas系统的一部分在很少研究的纳古菌中被发现的。在细菌中,发现了两种先前未知的系统,CRISPR-CasX和CRISPR-CasY,它们是迄今为止所发现的最紧凑的系统之一。在一些实施方案中,在本文所述的碱基编辑器系统中,Cas9被替换为CasX或CasX的变体。在一些实施方案中,在本文所述的碱基编辑器系统中,Cas9被替换为CasY或CasY的变体。应知悉,其他RNA引导的DNA结合蛋白可以用作核酸可编程DNA结合蛋白(napDNAbp),并且处于本公开的范畴内。
在一些实施方案中,本文所提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是CasX或CasY蛋白。在一些实施方案中,napDNAbp是CasX蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp包含氨基酸序列,所述氨基酸序列与天然出现的CasX或CasY蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,napDNAbp是天然出现的CasX或CasY蛋白。在一些实施方案中,napDNAbp包含氨基酸序列,所述氨基酸序列与本文描述的任何CasX或CasY蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。应知悉,来自其他细菌物种的CasX和CasY也可以根据本公开使用。
示例性CasX((uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)tr|F0NN87|F0NN87_SULIHCRISPR-相关Casx蛋白OS=冰岛硫化叶菌(菌株HVE10/4)GN=SiH_0402PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTG SKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG
示例性CasX(>tr|F0NH53|F0NH53_SULIR CRISPR相关蛋白,Casx OS=冰岛硫化叶菌(Sulfolobus islandicus)(菌株REY15A)GN=SiRe_0771PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG
δ变形菌CasX
MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDfAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
示例性CasY((ncbi.nlm.nih.gov/protein/APG80656.1)>APG80656.1 CRISPR-相关蛋白CasY[未培养的俭菌(Parcubacteria)组细菌])氨基酸序列如下:
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI
Cas9核酸酶具有两个功能性核酸内切酶结构域:RuvC和HNH。当靶向结合核酸酶结构域的那些位置以裂解靶标DNA的相对链时,Cas9经历构型变化。Cas9介导的DNA裂解的最终结果是靶标DNA内(PAM序列上游大约3-4个核苷酸)的双链断裂(DSB)。然后,通过两种常规修复途径中的一种修复所得DSB:(1)高效但易错的非同源末端接合(NHEJ)途径;或(2)低效但高保真同源导向的修复(HDR)途径。
非同源末端接合(NHEJ)和/或同源导向的修复(HDR)的“效率”可以通过任何传统方法计算。例如,效率可以表达为成功的HDR的百分比。例如,检验员核酸酶测定可用来产生裂解结果,并且产物与底物的比率可以用来计算所述百分比。例如,可以使用检验员核酸酶,所述核酸酶直接裂解含有新并入的限制序列的作为成功HDR的结果的DNA。更多被裂解的底物表明更高百分比的HDR(更高的HDR效率)。作为说明性示例,可以使用以下方程计算HDR的分数(百分比):[(裂解产物)/(底物加上裂解产物)](例如,(b+c)/(a+b+c),其中“a”是DNA底物的条带强度,而“b”和“c”是裂解产物)。
在一些实施方案中,效率可以表达为成功的NHEJ的百分比。例如,T7核酸内切酶I测定可用来产生裂解结果,并且产物与底物的比率可以用来计算所述百分比NHEJ。T7核酸内切酶I裂解误配的异源双链体DNA,其来自野生型与突变DNA链的杂交(NHEJ在原始段落的位点处产生小的随机插入或缺失(插入缺失(indel)))。更多裂解表明更高百分比的NHEJ(更高的NHEJ效率)。作为说明性示例,可使用以下方程计算NHEJ的分数(百分比):(1-(1-(b+c)/(a+b+c))1/2)×100,其中“a”是DNA底物的条带强度,而“b”和“c”是裂解产物(Ranet.al.,Cell.2013Sep.12;154(6):1380-9;和Ran等人,Nat Protoc.2013 Nov.;8(11):2281–2308)。
NHEJ修复途径是最具活性的修复机制,并且它经常在DSB位点处造成小核苷酸插入或缺失(indel)。NHEJ介导的DSB修复的随机性具有重要的实践意义,因为表达Cas9和gRNA的细胞群或向导多核苷酸可以导致多样化的突变。在一些实施方案中,NHEJ在靶标DNA中给出了小indel,其导致氨基酸缺失、插入或框移突变,这些突变导致所靶向基因的开放阅读框(ORF)内的提取终止密码子。理想的最终结果是所靶向的基因内的失能性突变。
尽管NHEJ介导的DSB修复常常中断基因的开放阅读框,当同源导向的修复(HDR)可以用来产生从单个核苷酸变化到大插入如添加荧光团或标签范围内的特异性核苷酸变化。
为了利用HDR进行基因编辑,可以使用gRNA以及Cas9或Cas9切口酶将含有所希望序列的DNA修复模板递送至感兴趣的细胞类型中。修复模板可以含有所希望的编辑以及位于紧邻靶标的上游或下游的额外同源序列(称为左侧同源臂和右侧同源臂)。每个同源臂的长度可能取决于所引入的变化尺寸,越大的插入需要越长的同源臂。修复模板可以是单链寡核苷酸、双链寡核苷酸或双链DNA质粒。即便在表达Cas9、gRNA和外源息服务模板的细胞中,HDR的效率通常也较低(<10%的经修饰的等位基因)。HDR的效率可以通过将细胞同步化而提升,因为HDR在细胞周期的S期和G2期发生。NHEJ中牵涉的化学或遗传学地抑制基因也可能增加HDR频率。
在一些实施方案中,Cas9是经修饰的Cas9。贯穿存在部分同源性的基因组范围内,给定的gRNA靶向序列可能具有额外位点。这些位点称为脱靶,并且在设计gRNA时需要考虑这些位点。除了优化gRNA设计之外,CRISPR特异性也可应通过对Cas9的修饰而得以增加。Cas9通过两个核酸酶结构域RuvC和HNH的组合活性而产生双链断裂(DSB)。Cas9切口酶,SpCas9的D10A突变体,保留一个核酸酶结构域并且产生DNA切口而非DSB。所述切口酶系统也可以与HDR介导的基因编辑组合以进行特异性基因编辑。
在一些实施方案中,Cas9是变体Cas9蛋白。变体Cas9多肽具有当与野生型Cas9蛋白的氨基酸序列比较时相异一个氨基酸(例如,具有缺失、插入、置换、融合)的氨基酸序列。在一些实例中,变体Cas9多肽具有降低Cas9多肽的核酸酶活性的氨基酸变化(例如,缺失、插入或置换)。例如,在一些实例中,变体Cas9多肽具有相应野生型Cas9蛋白的低于50%、低于40%、低于30%、低于20%、低于10%、低于5%或低于1%的核酸酶活性。在一些实施方案中,变体Cas9蛋白没有实质性的核酸酶活性。当受试Cas9蛋白是没有实质性核酸酶活性的变体Cas9蛋白时,它可以称为“dCas9”。
在一些实施方案中,变体Cas9蛋白具有降低的核酸酶活性。例如,变体Cas9蛋白表现出野生型Cas9蛋白(例如,野生型Cas9蛋白)的低于约20%、低于约15%、低于约10%、低于约5%、低于约1%或低于约0.1%的核酸内切酶活性。
在一些实施方案中,变体Cas9蛋白可以裂解向导靶标序列的互补链,但裂解双链向导靶标序列的非互补链的能力降低。例如,变体Cas9蛋白可以具有降低RuvC结构域的功能的突变(氨基酸置换)。作为非限制性示例,在一些实施方案中,变体Cas9蛋白具有D10A(在氨基酸位置10处的天冬氨酸变为丙氨酸),并且因此可以裂解双链向导靶标序列的互补链但裂解双链向导靶标序列的非互补链的能力降低(因此,当所述变体Cas9蛋白裂解双链靶标核酸时,导致单链断裂(SSB)而非双链断裂(DSB))(参见例如,Jinek等人,Science.2012Aug.17;337(6096):816-21)。
在一些实施方案中,变体Cas9蛋白可以裂解双链向导靶标序列的非互补链,但裂解所述向导靶标序列的互补链的能力降低。例如,变体Cas9蛋白可以具有降低HNH结构域(RuvC/HNH/RuvC结构域基序)的功能的突变(氨基酸置换)。作为非限制性示例,在一些实施方案中,变体Cas9蛋白具有H840A(在氨基酸位置840处的组氨酸变为丙氨酸)突变,并且因此可以裂解所述向导靶标序列的非互补链但裂解所述向导靶标序列的互补链的能力降低(因此,当所述变体Cas9蛋白裂解靶标序列时,导致SSB而非DSB)。此类Cas9蛋白裂解向导靶标序列(例如,单链向导靶标序列)的能力降低,但保留结合向导靶标序列(例如,单链向导靶标序列)的能力。
在一些实施方案中,变体Cas9蛋白裂解双链靶标DNA的互补链和非互补链两者的能力降低。作为非限制性示例,在一些实施方案中,变体Cas9蛋白荷有D10A和H840A两种突变,使得所述多肽裂解双链靶标DNA的互补链和非互补链的能力降低。此类Cas9蛋白裂解靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一种非限制性示例,在一些实施方案中,变体Cas9蛋白荷有W476A和W1126A突变,使得所述多肽裂解靶标DNA的能力降低。此类Cas9蛋白裂解靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一种非限制性示例,在一些实施方案中,变体Cas9蛋白荷有P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得所述多肽裂解靶标DNA的能力降低。此类Cas9蛋白裂解靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一种非限制性示例,在一些实施方案中,变体Cas9蛋白荷有H840A、W476A和W1126A突变,使得所述多肽裂解靶标DNA的能力降低。此类Cas9蛋白裂解靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一种非限制性示例,在一些实施方案中,变体Cas9蛋白荷有H840A、D10A、W476A和W1126A突变,使得所述多肽裂解靶标DNA的能力降低。此类Cas9蛋白裂解靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些实施方案中,变体Cas9具有位于Cas9 HNH结构域中位置840处的经修复的His残基(A840H)。
作为另一种非限制性示例,在一些实施方案中,变体Cas9蛋白荷有H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得所述多肽裂解靶标DNA的能力降低。此类Cas9蛋白裂解靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一种非限制性示例,在一些实施方案中,变体Cas9蛋白荷D10A、有H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得所述多肽裂解靶标DNA的能力降低。此类Cas9蛋白裂解靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些实施方案中,当变体Cas9蛋白荷有W476A和W1126A突变时或当变体Cas9蛋白荷有P475A、W476A、N477A、D1125A、W1126A和D1127A突变时,变体Cas9蛋白不与PAM序列有效地结合。因此,在一些此类实施方案中,当在结合方法中使用此类变体Cas9蛋白时,所述方法不需要PAM序列。换言之,在一些实施方案中,当在接恶化方法中使用此类变体Cas9蛋白时,所述方法可以包括向导RNA,但所述方法可以在不存在PAM序列的情况下执行(因此,由向导RNA的靶向链段提供结合的特异性)。可以突变其他残基以实现上述效果(即,将一个或另一股核酸酶部分灭活)。作为非限制性示例,可以改变(即,置换)残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987。而且,除丙氨酸置换之外的突变是合适的。
在一些实施方案中,具有降低的催化活性的变体Cas9蛋白(例如,当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变例如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A时),变体Cas9蛋白仍可以位点特异性的方式结合至靶标DNA(因为它仍然被向导RNA引导至靶标DNA序列),只要它保留与向导RNA相互作用的能力即可。
在一些实施方案中,变体Cas蛋白可以是spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK或spCas9-LRVSQL。
在一些实施方案中,使用了包括氨基酸置换D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)并且具有针对改变的PAM 5'-NGC-3'的特异性的经修饰的SpCas9。
作为化脓链球菌Cas9的替代品,可以包括来自Cpf1家族的RNA引导的核酸内切酶,其在哺乳动物细胞中展示裂解活性。来自普雷沃氏菌(Prevotella)和弗朗西斯氏菌属1的CRISPR(CRISPR/Cpf1)是CRISPR/Cas9系统的DNA编辑技术同源物。Cpf1是II类CRISPR/Cas系统的RNA引导的核酸内切酶。这一获得性免疫机制见于普雷沃氏菌(Prevotella)和弗朗西斯氏菌属细菌中。Cpf1基因与CRISPR基因座缔合,编码使用向导RNA来发现并裂解病毒DNA的核酸内切酶。Cpf1是比Cas9更小且更简单的核酸内切酶,克服了CRISPR/Cas9系统的一些限制。不同于Cas9核酸酶,Cpf1介导的DNA裂解结果是具有短3'核苷酸的双链断裂。Cpf1的交错裂解模式可以打开定向基因转移的可能性,类似于传统的限制酶克隆,这可能增加基因编辑的效率。与上述Cas9变体和直系同源物类似,Cpf1也可以扩充能被CRISPR靶向至富AT区域或富AT基因组的位点的数目,所述区域或基因组缺乏SpCas9所青睐的NGGPAM位点。Cpf1基因座含有混合的α/β结构域、后面跟随一个螺旋区域的RuvC-I、RuvC-II和锌指样结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域。
此外,不同于Cas9,Cpf1不具有HNH核酸内切酶结构域,并且Cpf1的N端不具有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构显示,Cpf1在功能上是独特的,归类为2类V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2和Cas4蛋白,相较于II型系统,更类似于I型和III型系统。功能性Cpf1不需要反向激活CRISPR RNA(tracrRNA),因此,仅需要CRISPR(crRNA)。这有益于基因组编辑,因为Cpf1不仅比Cas9小,而且它具有较小的sgRNA分子(核苷酸数大约为Cas9的一半)。与被Cas9靶向的富G的PAM不同,Cpf1-crRNA复合物通过鉴定前间隔序列邻近基序5'-YTN-3'或5'-TTN-3'来裂解靶标DNA或RNA。在鉴定PAM之后,Cpf1引入具有4或5个核苷酸突出的粘性末端样DNA双链断裂。
在一些实施方案中,Cas9是Cas9变体,其具有针对改变的PAM序列的特异性。在一些实施方案中,额外的Cas9变体和PAM序列在Miller,S.M.,等人Continuous evolution ofSpCas9 variants compatible with non-G PAMs,Nat.Biotechnol.(2020)中有所描述,其整体内容通过引用并入本文。在一些实施方案中,Cas9变体没有特异性PAM要求。在一些实施方案中,Cas9变体,例如,SpCas9变体具有针对NRNH PAM的特异性,其中R是A或G,并且H是A、C或T。在一些实施方案中,SpCas9变体具有针对PAM序列AAA、TAA、CAA、GAA、TAT、GAT或CAC的特异性。在一些实施方案中,SpCas9变体包含位于以下位置处的氨基酸置换:如SEQ IDNO:1中编号的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、1256、1264、1290、1318、1317、1320、1321、1323、1332、1333、1335、1337或1339,或其相应位置。在一些实施方案中,SpCas9变体包含位于以下位置处的氨基酸置换:如SEQ ID NO:1中编号的位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335或1337,或其相应位置。在一些实施方案中,SpCas9变体包含位于以下位置处的氨基酸置换:如SEQ ID NO:1中编号的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333,或其相应位置。在一些实施方案中,SpCas9变体包含位于以下位置处的氨基酸置换:如SEQ ID NO:1中编号的位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339,或其相应位置。在一些实施方案中,SpCas9变体包含位于以下位置处的氨基酸置换:如SEQ ID NO:1中编号的位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349,或其相应位置。SpCas9变体的示例性氨基酸置换和PAM特异性显示在表1A至1D中。
表1A
Figure BDA0003480255960001261
表1B
Figure BDA0003480255960001271
表1C
Figure BDA0003480255960001272
表1D
Figure BDA0003480255960001281
在一些实施方案中,Cas9是脑膜炎奈瑟氏菌Cas9(NmeCas9)或其变体。在一些实施方案中,NmeCas9具有针对NNNNGAYW PAM的特异性,其中Y是C或T,并且W是A或T。在一些实施方案中,NmeCas9具有针对NNNNGYTT PAM的特异性,其中Y是C或T。在一些实施方案中,NmeCas9结构域具有针对NNNNGTCT PAM的特异性。在一些实施方案中,NmeCas9是Nme1Cas9。在一些实施方案中,NmeCas9具有针对NNNNGATT PAM、NNNNCCTA PAM、NNNNCCTC PAM、NNNNCCTT PAM、NNNNCCTG PAM、NNNNCCGT PAM、NNNNCCGGPAM、NNNNCCCA PAM、NNNNCCCT PAM、NNNNCCCC PAM、NNNNCCAT PAM、NNNNCCAG PAM、NNNNCCAT PAM或NNNGATT PAM的特异性。在一些实施方案中,Nme1Cas9具有嗯对NNNNGATT PAM、NNNNCCTA PAM、NNNNCCTC PAM、NNNNCCTTPAM或NNNNCCTG PAM的特异性。在一些实施方案中,NmeCas9具有针对CAA PAM、CAAA PAM或CCA PAM的特异性。在一些实施方案中,NmeCas9是Nme2 Cas9。在一些实施方案中,NmeCas9具有针对NNNNCC(N4CC)PAM的特异性,其中N是A、G、C或T中的任一个。在一些实施方案中,NmeCas9具有针对NNNNCCGT PAM、NNNNCCGGPAM、NNNNCCCA PAM、NNNNCCCT PAM、NNNNCCCCPAM、NNNNCCAT PAM、NNNNCCAG PAM、NNNNCCAT PAM或NNNGATT PAM的特异性。在一些实施方案中,NmeCas9是Nme3Cas9。在一些实施方案中,NmeCas9具有针对NNNNCAAA PAM、NNNNCCPAM或NNNNCNNN PAM的特异性。如Edraki等人Mol.Cell.(2019)73(4):714-726中所述的额外的NmeCas9特征和PAM序列通过引用以其整体并入本文。
示例性的Nme1Cas9氨基酸序列提供于下:
II型CRISPR RNA引导的核酸内切酶Cas9[脑膜炎奈瑟氏菌]WP_002235162.1
Figure BDA0003480255960001291
示例性的Nme2Cas9氨基酸序列提供于下:
II型CRISPR RNA引导的核酸内切酶Cas9[脑膜炎奈瑟氏菌]WP_002230835.1
Figure BDA0003480255960001292
Figure BDA0003480255960001301
核碱基编辑器的Cas12结构域
典型地,微生物CRISPR-Cas系统被分为1类系统和2类系统。1类系统具有多亚基效应子复合物,而2类系统具有单蛋白效应子。例如,Cas9和Cpf1是2类效应子,但属于不同的类型(分别为II型和V型)。除了Cpf1之外,2类V型CRISPR-Cas系统还包含Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i。参见例如,Shmakov等人,“Discovery and Functional Characterization of Diverse Class2CRISPR Cas Systems,”Mol.Cell,2015Nov.5;60(3):385-397;Makarova等人,“Classification and Nomenclature of CRISPR-Cas Systems:Where from Here?”CRISPR Journal,2018,1(5):325-336;和Yan等人,“Functionally Diverse Type VCRISPR-Cas Systems,”Science,2019 Jan.4;363:88-91;各自的整体内容通过引用并入本文。V型Cas蛋白含有RuvC(或RuvC样)核酸内切酶结构域。尽管成熟CRISPR RNA(crRNA)的产生通常不依赖于tracrRNA,但是,例如,Cas12b/C2c1需要tracrRNA来产生crRNA。Cas12b/C2c1依赖crRNA和tracrRNA两者进行DNA裂解。
本公开设想的核酸可编程DNA结合蛋白包括被归类为2类V型的Cas蛋白(Cas12蛋白)。2类V型Cas蛋白的非限制性示例包括Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i、其同源物或其经修饰的版本。如本文所用,Cas12蛋白也可以称为Cas12核酸酶、Cas12结构域或Cas12蛋白结构域。在一些实施方案中,本公开的Cas12蛋白包含被内部融合的蛋白结构域诸如脱氨酶结构域打断的氨基酸序列。
在一些实施方案中,Cas12结构域是无核酸酶活性的Cas12结构域或Cas12切口酶。在一些实施方案中,Cas12结构域是核酸酶活性结构域。例如,Cas12结构域可以是将双链体核酸(例如,双链体DNA分子)的一条链切口的Cas12结构域。在一些实施方案中,Cas12结构域包含本文所详述的任何一个氨基酸序列。在一些实施方案中,Cas12结构域包含氨基酸序列,所述氨基酸序列与本文详述的任何一个氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或99.5%相同。在一些实施方案中,Cas12结构域包含氨基酸序列,与本文详述的任何一个氨基酸序列相比,所述氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,Cas12结构域包含氨基酸序列,与本文详述的任何一个氨基酸序列相比,所述氨基酸序列具有至少10个、至少15个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少150个、至少200个、至少250个、至少300个、至少350个、至少400个、至少500个、至少600个、至少700个、至少800个、至少900个、至少1000个、至少1100个或至少1200个相同的毗邻氨基酸残基。
在一些实施方案中,提供了包含Cas12的片段的蛋白质。例如,在一些实施方案中,蛋白质包含一个或两个Cas12结构域:(1)Cas12的gRNA结合结构域;或(2)Cas12的DNA切割结构域。在一些实施方案中,包含Cas12或其片段的蛋白质称为“Cas12变体”。Cas12变体享有与Cas12或其片段的同源性。例如,Cas12变体与野生型Cas12至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约96%相同,至少约97%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。在一些实施方案中,与野生型Cas12相比,Cas12变体可以具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多氨基酸变化。在一些实施方案中,Cas12变体包含Cas12的片段(例如,gRNA结合结构域或DNA切割结构域),使得所述片段与野生型Cas12的相应片段至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约96%相同,至少约97%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。在一些实施方案中,所述片段是相应野生型Cas12的氨基酸长度的至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%。在一些实施方案中,所述片段为至少100个氨基酸的长度。一些实施方式中,所述片段为至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250个或至少1300个氨基酸的长度。
在一些实施方案中,Cas12部分地或完整地对应于或包含具有一个或多个突变的Cas12氨基酸序列,所述突变改变Cas12核酸酶活性。举例而言,此类突变包括为Cas2的RuvC核酸酶结构域内的氨基酸置换。在一些实施方案中,提供了Cas12的变体或同源物,所述变体或同源物与野生型Cas12至少约70%相同,至少约80%相同,至少约70%相同,至少约80%相同,至少约90%相同,至少约95%相同,至少约98%相同,至少约99%相同,至少约99.5%相同,或至少约99.9%相同。在一些实施方案中,提供了Cas12的变体,所述变体的氨基酸序列更短或更长,短了或长了约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方案中,如本文所提供的Cas12融合蛋白包含Cas12蛋白的全长度氨基酸序列,例如,本文所提供的Cas12序列之一。然而,在其他实施方案中,如本文所提供的融合蛋白不包含全长度Cas12序列,而仅包含其一个或多个片段。合适的Cas12结构域的示例性氨基酸序列在本文中提供,并且Cas12结构域和片段的其他合适的序列对于本领域技术人员而言将会是显而易见的。
通常,2类V型Cas蛋白具有单个功能性RuvC核酸内切酶结构域(参见例如,Chen等人,“CRISPR-Cas12a target binding unleashes indiscriminate single-strandedDNase activity,”Science 360:436-439(2018))。在一些情况下,Cas12蛋白是变体Cas12蛋白。(参见,Strecker等人,Nature Communications,2019,10(1):Art.No.:212)。在一种实施方案中,变体Cas12多肽具有当与野生型Cas12蛋白的氨基酸序列比较时相异1、2、3、4、5或更多个氨基酸(例如,具有缺失、插入、置换、融合)的氨基酸序列。在一些实例中,变体Cas12多肽具有降低Cas12多肽的活性的氨基酸变化(例如,缺失、插入或置换)。例如,在一些实例中,变体Cas12多肽是Cas2b多肽,其具有相应野生型Cas9蛋白的低于50%、低于40%、低于30%、低于20%、低于10%、低于5%或低于1%的核酸酶活性。在一些情况下,变体Cas12b蛋白没有实质性的切口酶活性。
在一些情况下,变体Cas12b蛋白具有降低的切口酶活性。例如,变体Cas12蛋白表现出野生型Cas12b蛋白的低于约20%、低于约15%、低于约10%、低于约5%、低于约1%或低于约0.1%的切口酶活性。
在一些实施方案中,Cas12蛋白包括来自Cas12a/Cpf1家族的RNA引导的核酸内切酶,其在哺乳动物细胞中展示活性。来自普雷沃氏菌(Prevotella)和弗朗西斯氏菌属1的CRISPR(CRISPR/Cpf1)是CRISPR/Cas9系统的DNA编辑技术同源物。Cpf1是II类CRISPR/Cas系统的RNA引导的核酸内切酶。这一获得性免疫机制见于普雷沃氏菌(Prevotella)和弗朗西斯氏菌属细菌中。Cpf1基因与CRISPR基因座缔合,编码使用向导RNA来发现并裂解病毒DNA的核酸内切酶。Cpf1是比Cas9更小且更简单的核酸内切酶,克服了CRISPR/Cas9系统的一些限制。不同于Cas9核酸酶,Cpf1介导的DNA裂解结果是具有短3'核苷酸的双链断裂。Cpf1的交错裂解模式可以打开定向基因转移的可能性,类似于传统的限制酶克隆,这可能增加基因编辑的效率。与上述Cas9变体和直系同源物类似,Cpf1也可以扩充能被CRISPR靶向至富AT区域或富AT基因组的位点的数目,所述区域或基因组缺乏SpCas9所青睐的NGGPAM位点。Cpf1基因座含有混合的α/β结构域、后面跟随一个螺旋区域的RuvC-I、RuvC-II和锌指样结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域。此外,不同于Cas9,Cpf1不具有HNH核酸内切酶结构域,并且Cpf1的N端不具有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构显示,Cpf1在功能上是独特的,归类为2类V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2和Cas4蛋白,相较于II型系统,更类似于I型和III型系统。功能性Cpf1不需要反向激活CRISPR RNA(tracrRNA),因此,仅需要CRISPR(crRNA)。这有益于基因组编辑,因为Cpf1不仅比Cas9小,而且它具有较小的sgRNA分子(核苷酸数大约为Cas9的一半)。与被Cas9靶向的富G的PAM不同,Cpf1-crRNA复合物通过鉴定前间隔序列邻近基序5'-YTN-3'或5'-TTTN-3'来裂解靶标DNA或RNA。在鉴定PAM之后,Cpf1引入具有4或5个核苷酸突出的粘性末端样DNA双链断裂。
在本公开的一些方面,可以使用一种载体,所述载体编码CRISPR酶,所述酶被关于野生型酶突变以使得经突变的CRISPR酶缺乏裂解含有靶标序列的靶标多核苷酸的一条或两条链的能力。Cas12可以指与野生型示例性Cas12多肽(例如,来自外村尚芽孢杆菌的Cas12)具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性和/或序列同源性的多肽。Cas12可以指与野生型示例性Cas12多肽(例如,来自外村尚芽孢杆菌(BhCas12b)、来自芽孢杆菌属V3-13(BvCas12b)和来自嗜酸性脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)(AaCas12b))具有至多或至多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性和/或序列同源性的多肽。Cas12可以指野生型或经修饰形式的Cas12蛋白,其可以包含氨基酸变化诸如缺失、插入、置换、变异、突变、融合、嵌合或其任意组合。
核酸可编程DNA结合蛋白本公开的一些方面提供包含充当核酸可编程DAN结合蛋白的结构域的融合蛋白,其可以被用来将蛋白质诸如碱基编辑器引导至特定核酸(例如,DNA或RNA)序列。在特定实施方案中,融合蛋白包含核酸可编程DNA结合蛋白结构域或脱氨酶结构域。核酸可编程DNA结合蛋白的非限制性示例包括Cas9(例如,dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i。Cas酶的非限制性示例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、II型Cas效应蛋白、V型Cas效应蛋白、VI型Cas效应蛋白、CARF、DinG、其同源物、或其经修饰或工程化的版本。其他核酸可编程DNA结合蛋白也处于本公开的范畴内,但它们可能不在本公开中具体地列举。参见,例如,Makarova等人“Classification and Nomenclature of CRISPR-Cas Systems:Wherefrom Here?”CRISPR J.2018 Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等人,“Functionally diverse type V CRISPR-Cas systems”Science.2019 Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,其各自的整体内容通过引用并入本文。
具有不同于Cas9的PAM特异性的核酸可编程DNA结合蛋白的一个示例是来自普雷沃氏菌(Prevotella)和弗朗西斯氏菌(Francisella)1(Cpf1)的成簇规则间隔短回文重复序列。类似于Cas9,Cpf1也是2类CRISPR效应子。已经显示,Cpf1介导强劲的DNA干扰,其特征与Cas9截然不同。Cpf1是单个RNA引导的核酸内切酶缺乏性tracrRNA,并且其利用富T的前间隔序列邻近基序(TTN、TTTN或YTN)。此外,Cpf1经由交错的DNA双链断裂来裂解DNA。16种Cpf1家族蛋白质中,来自氨基酸球菌属(Acidaminococcus)和毛螺菌科(Lachnospiraceae)的两种酶显示在人类细胞中具备有效的基因组编辑活性。Cpf1蛋白是本领域中已知的,并且先前已经描述在例如Yamano等人,“Crystal structure of Cpf1 in complex withguide RNA and target DNA.”Cell(165)2016,p.949-962中,其整体内容通过引用并入本文。
可用于本发明组合物和方法中的是无核酸酶活性的Cpf1(dCpf1)变体,这些变体可以用作向导核苷酸序列可编程DNA结合蛋白结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域但不具有HNH核酸内切酶结构域,并且Cpf1的N端不具有Cas9的α-螺旋识别叶。Zetsche等人,Cell,163,759-771,2015(其通过引用并入本文)中显示,Cpf1的RuvC样结构域的主要责任是裂解两条DNA链,并且RuvC样结构域的灭活将Cpf1核酸酶活性灭活。例如,对应于新弗朗西斯氏菌(Francisella novicida)Cpf1中的D917A、E1006A或D1255A的突变将Cpf1核酸酶活性灭活。在一些实施方案中,本公开的dCpf1包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A或D917A/E1006A/D1255A的突变。应理解,任何将Cpf1的RuvC结构域灭活的突变,例如,置换突变、缺失或插入,均可根据本公开使用。
在一些实施方案中,本文所提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cpf1蛋白。在一些实施方案中,Cpf1蛋白是Cpf1切口酶(nCpf1)。在一些实施方案中,Cpf1蛋白是无核酸酶活性的Cpf1(dCpf1)。在一些实施方案中,Cpf1、nCpf1或dCpf1包含氨基酸序列,所述氨基酸序列与本文公开的Cpf1序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,dCpf1包含氨基酸序列,所述氨基酸序列与本文公开的Cpf1序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同,并且包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A或D917A/E1006A/D1255A的突变。应知悉,来自其他细菌物种的Cpf1也可以根据本公开使用。
野生型新弗朗西斯氏菌Cpf1(D917、E1006和D1255加粗并加下划线)
Figure BDA0003480255960001361
Figure BDA0003480255960001371
新弗朗西斯氏菌Cpf1 D917A(A917、E1006和D1255加粗并加下划线)
Figure BDA0003480255960001372
Figure BDA0003480255960001381
新弗朗西斯氏菌Cpf1 E1006A(D917、A1006和D1255加粗并加下划线)
Figure BDA0003480255960001382
Figure BDA0003480255960001391
新弗朗西斯氏菌Cpf1 D1255A(D917、E1006和A1255加粗并加下划线)
Figure BDA0003480255960001392
新弗朗西斯氏菌Cpf1 D917A/E1006A(A917、A1006和D1255加粗并加下划线)
Figure BDA0003480255960001401
新弗朗西斯氏菌Cpf1 D917A/D1255A(A917、E1006和A1255加粗并加下划线)
Figure BDA0003480255960001402
Figure BDA0003480255960001411
新弗朗西斯氏菌Cpf1 E1006A/D1255A(D917、A1006和A1255加粗并加下划线)
Figure BDA0003480255960001412
Figure BDA0003480255960001421
新弗朗西斯氏菌Cpf1 D917A/E1006A/D1255A(A917、A1006和A1255加粗并加下划线)
Figure BDA0003480255960001422
Figure BDA0003480255960001431
在一些实施方案中,存在于融合蛋白中的Cas9结构域之一可以替换为不需要PAM序列的向导核苷酸序列可编程DNA结合蛋白结构域。
在一些实施方案中,核酸可编程DNA结合蛋白(napDNAbp)是微生物CRISPR-Cas系统的单个效应子。微生物CRISPR-Cas系统的单个效应子包括而不限于,Cas9、Cpf1、Cas12b/C2c1和Cas12c/C2c3。典型地,微生物CRISPR-Cas系统被分为1类系统和2类系统。1类系统具有多亚基效应子复合物,而2类系统具有单蛋白效应子。例如,Cas9和Cpf1是2类效应子。除了Cas9和Cpf1之外,三种截然不同的2类CRISPR-Cas系统(Cas12b/C2c1和Cas12c/C2c3)已经由Shmakov等人,“Discovery and Functional Characterization of Diverse Class 2CRISPR Cas Systems”,Mol.Cell,2015Nov.5;60(3):385-397描述,其整体内容通过引用并入本文。两种系统Cas12b/C2c1和Cas12c/C2c3的效应子含有与Cpf1相关的Ruv样核酸内切酶结构域。第三种系统含有具有两个称为HEPN RNase的结构域的效应子。不同于通过Cas12b/C2c1产生CRISPR RNA,成熟CRISPR RNA的产生不依赖于tracrRNA。Cas12b/C2c1依赖CRISPR RNA和tracrRNA两者进行DNA裂解。
嗜酸耐热性脂环酸芽孢杆菌(Alicyclobaccillus acidoterrastris)Cas12b/C2c1(AacC2c1)的晶体结构已经作为具有嵌合单分子向导RNA(sgRNA)的复合物而有所报导。参见例如,Liu等人,“C2c1-sgRNA Complex Structure Reveals RNA-Guided DNACleavage Mechanism”,Mol.Cell,2017Jan.19;65(2):310-322,其整体内容通过引用并入本文。晶体结构已经作为结合至靶标DNA的嗜酸耐热性脂环酸芽孢杆菌(Alicyclobaccillus acidoterrastris)C2c1三元络合物(ternary complexes)有所报导。参见例如,Yang等人,“PAM-dependent Target DNA Recognition and Cleavage by C2C1CRISPR-Cas endonuclease”,Cell,2016Dec.15;167(7):1814-1828,其整体内容通过引用并入本文。AacC2c1的带有靶标和非靶标DNA链的具有催化活性的构象,已经被捕获并独立地定位在单个RuvC催化带中,且Cas12b/C2c1介导的裂解导致靶标DNA的交错的七核苷酸断裂。Cas12b/C2c1三元络合物与先前鉴定的Cas9和Cpf1配对物之间的结构比较表明了CRISPR-Cas9系统所使用的机制的多样性。
在一些实施方案中,本文所提供的任何融合蛋白的核酸可编程DNA结合蛋白(napDNAbp)可以是Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp是Cas12b/C2c1蛋白。在一些实施方案中,napDNAbp是Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp包含氨基酸序列,所述氨基酸序列与天然出现的Cas12b/C2c1或Cas12c/C2c3蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,napDNAbp是天然出现的Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp包含氨基酸序列,所述氨基酸序列与本文所提供的任何一种napDNAbp序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。应知悉,来自其他细菌物种的Cas12b/C2c1或Cas12c/C2c3也可以根据本公开使用。
Cas 12b/C2c1((uniprot.org/uniprot/T0D7A2#2)sp|T0D7A2|C2C1_ALIAGCRISPR相关核酸内切酶C2c1 OS=嗜酸耐热性脂环酸芽孢杆菌(Alicyclobacillus acido-terrestris)(菌株ATCC 49025/DSM 3922/CIP 106132/NCIMB 13137/GD3B)GN=c2c1 PE=1 SV=1)氨基酸序列如下:
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMV NQRIEGYLVKQIRSRVPLQDSACENTGDI
BhCas12b(外村尚芽孢杆菌(Bacillus hisashii))NCBI参考序列:WP_095142515
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK
在一些实施方案中,Cas12b是BvCas12b V4,其是BhCas12b的变体并且包含以下相对于BhCas12B的变化:S893R、K846R和E837G。BhCas12b(V4)表达如下:5'mRNA Cap---5'UTR---bhCas12b---STOP序列---3'UTR---120polyA尾部
5'UTR:
GGGAAATAAGAGAGAAAAGAAGAGTAAGAAGAAATATAAGAGCCACC
3'UTR(TriLink标准UTR)
GCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTTCCTGCACCCGTACCCCCGTGGTCTTTGAATAAAGTCTGA
bhCas12b(V4)的核酸序列
ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCCGCCACCAGATCCTTCATCCTGAAGATCGAGCCCAACGAGGAAGTGAAGAAAGGCCTCTGGAAAACCCACGAGGTGCTGAACCACGGAATCGCCTACTACATGAATATCCTGAAGCTGATCCGGCAAGAGGCCATCTACGAGCACCACGAGCAGGACCCCAAGAATCCCAAGAAGGTGTCCAAGGCCGAGATCCAGGCCGAGCTGTGGGATTTCGTGCTGAAGATGCAGAAGTGCAACAGCTTCACACACGAGGTGGACAAGGACGAGGTGTTCAACATCCTGAGAGAGCTGTACGAGGAACTGGTGCCCAGCAGCGTGGAAAAGAAGGGCGAAGCCAACCAGCTGAGCAACAAGTTTCTGTACCCTCTGGTGGACCCCAACAGCCAGTCTGGAAAGGGAACAGCCAGCAGCGGCAGAAAGCCCAGATGGTACAACCTGAAGATTGCCGGCGATCCCTCCTGGGAAGAAGAGAAGAAGAAGTGGGAAGAAGATAAGAAAAAGGACCCGCTGGCCAAGATCCTGGGCAAGCTGGCTGAGTACGGACTGATCCCTCTGTTCATCCCCTACACCGACAGCAACGAGCCCATCGTGAAAGAAATCAAGTGGATGGAAAAGTCCCGGAACCAGAGCGTGCGGCGGCTGGATAAGGACATGTTCATTCAGGCCCTGGAACGGTTCCTGAGCTGGGAGAGCTGGAACCTGAAAGTGAAAGAGGAATACGAGAAGGTCGAGAAAGAGTACAAGACCCTGGAAGAGAGGATCAAAGAGGACATCCAGGCTCTGAAGGCTCTGGAACAGTATGAGAAAGAGCGGCAAGAACAGCTGCTGCGGGACACCCTGAACACCAACGAGTACCGGCTGAGCAAGAGAGGCCTTAGAGGCTGGCGGGAAATCATCCAGAAATGGCTGAAAATGGACGAGAACGAGCCCTCCGAGAAGTACCTGGAAGTGTTCAAGGACTACCAGCGGAAGCACCCTAGAGAGGCCGGCGATTACAGCGTGTACGAGTTCCTGTCCAAGAAAGAGAACCACTTCATCTGGCGGAATCACCCTGAGTACCCCTACCTGTACGCCACCTTCTGCGAGATCGACAAGAAAAAGAAGGACGCCAAGCAGCAGGCCACCTTCACACTGGCCGATCCTATCAATCACCCTCTGTGGGTCCGATTCGAGGAAAGAAGCGGCAGCAACCTGAACAAGTACAGAATCCTGACCGAGCAGCTGCACACCGAGAAGCTGAAGAAAAAGCTGACAGTGCAGCTGGACCGGCTGATCTACCCTACAGAATCTGGCGGCTGGGAAGAGAAGGGCAAAGTGGACATTGTGCTGCTGCCCAGCCGGCAGTTCTACAACCAGATCTTCCTGGACATCGAGGAAAAGGGCAAGCACGCCTTCACCTACAAGGATGAGAGCATCAAGTTCCCTCTGAAGGGCACACTCGGCGGAGCCAGAGTGCAGTTCGACAGAGATCACCTGAGAAGATACCCTCACAAGGTGGAAAGCGGCAACGTGGGCAGAATCTACTTCAACATGACCGTGAACATCGAGCCTACAGAGTCCCCAGTGTCCAAGTCTCTGAAGATCCACCGGGACGACTTCCCCAAGGTGGTCAACTTCAAGCCCAAAGAACTGACCGAGTGGATCAAGGACAGCAAGGGCAAGAAACTGAAGTCCGGCATCGAGTCCCTGGAAATCGGCCTGAGAGTGATGAGCATCGACCTGGGACAGAGACAGGCCGCTGCCGCCTCTATTTTCGAGGTGGTGGATCAGAAGCCCGACATCGAAGGCAAGCTGTTTTTCCCAATCAAGGGCACCGAGCTGTATGCCGTGCACAGAGCCAGCTTCAACATCAAGCTGCCCGGCGAGACACTGGTCAAGAGCAGAGAAGTGCTGCGGAAGGCCAGAGAGGACAATCTGAAACTGATGAACCAGAAGCTCAACTTCCTGCGGAACGTGCTGCACTTCCAGCAGTTCGAGGACATCACCGAGAGAGAGAAGCGGGTCACCAAGTGGATCAGCAGACAAGAGAACAGCGACGTGCCCCTGGTGTACCAGGATGAGCTGATCCAGATCCGCGAGCTGATGTACAAGCCTTACAAGGACTGGGTCGCCTTCCTGAAGCAGCTCCACAAGAGACTGGAAGTCGAGATCGGCAAAGAAGTGAAGCACTGGCGGAAGTCCCTGAGCGACGGAAGAAAGGGCCTGTACGGCATCTCCCTGAAGAACATCGACGAGATCGATCGGACCCGGAAGTTCCTGCTGAGATGGTCCCTGAGGCCTACCGAACCTGGCGAAGTGCGTAGACTGGAACCCGGCCAGAGATTCGCCATCGACCAGCTGAATCACCTGAACGCCCTGAAAGAAGATCGGCTGAAGAAGATGGCCAACACCATCATCATGCACGCCCTGGGCTACTGCTACGACGTGCGGAAGAAGAAATGGCAGGCTAAGAACCCCGCCTGCCAGATCATCCTGTTCGAGGATCTGAGCAACTACAACCCCTACGAGGAAAGGTCCCGCTTCGAGAACAGCAAGCTCATGAAGTGGTCCAGACGCGAGATCCCCAGACAGGTTGCACTGCAGGGCGAGATCTATGGCCTGCAAGTGGGAGAAGTGGGCGCTCAGTTCAGCAGCAGATTCCACGCCAAGACAGGCAGCCCTGGCATCAGATGTAGCGTCGTGACCAAAGAGAAGCTGCAGGACAATCGGTTCTTCAAGAATCTGCAGAGAGAGGGCAGACTGACCCTGGACAAAATCGCCGTGCTGAAAGAGGGCGATCTGTACCCAGACAAAGGCGGCGAGAAGTTCATCAGCCTGAGCAAGGATCGGAAGTGCGTGACCACACACGCCGACATCAACGCCGCTCAGAACCTGCAGAAGCGGTTCTGGACAAGAACCCACGGCTTCTACAAGGTGTACTGCAAGGCCTACCAGGTGGACGGCCAGACCGTGTACATCCCTGAGAGCAAGGACCAGAAGCAGAAGATCATCGAAGAGTTCGGCGAGGGCTACTTCATTCTGAAGGACGGGGTGTACGAATGGGTCAACGCCGGCAAGCTGAAAATCAAGAAGGGCAGCTCCAAGCAGAGCAGCAGCGAGCTGGTGGATAGCGACATCCTGAAAGACAGCTTCGACCTGGCCTCCGAGCTGAAAGGCGAAAAGCTGATGCTGTACAGGGACCCCAGCGGCAATGTGTTCCCCAGCGACAAATGGATGGCCGCTGGCGTGTTCTTCGGAAAGCTGGAACGCATCCTGATCAGCAAGCTGACCAACCAGTACTCCATCAGCACCATCGAGGACGACAGCAGCAAGCAGTCTATGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG
在一些实施方案中,Cas12b是BvCas12B。在一些实施方案中,Cas12b包含氨基酸置换S893R、K846R和E837G,如下文提供的BvCas12b示例性序列中的编号。
BvCas12b(芽孢杆菌属种V3-13)NCBI参考序列:WP_101661451.1
MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQEAIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLLEGMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKNNKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEIVQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPYVGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSDNNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL。
在一些实施方案中,Cas12b是BTCas12b。BTCas12b(热噬淀粉芽孢杆菌(Bacillusthermoamylovorans))NCBI参考序列:WP_041902512
MATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDVVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPFTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEHKTLEERIKEDIQAFKSLEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKFVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKLVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWGNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSM
在一些实施方案中,napDNAbp是指Cas12c。在一些实施方案中,Cas12c蛋白是Cas12c1或Cas12c1的变体。在一些实施方案中,Cas12蛋白是Cas12c2或Cas12c2的变体。在一些实施方案中,Cas12蛋白是来自嗜油菌属(Oleiphilus sp.)HI0009的Cas12c蛋白(即,OspCas12c)或OspCas12c的变体。这些Cas12c分子已经在Yan等人,“Functionally DiverseType V CRISPR-Cas Systems,”Science,2019 Jan.4;363:88-91中有所描述,其整体内容通过引用并入本文。在一些实施方案中,napDNAbp包含氨基酸序列,所述氨基酸序列与天然出现的Cas12c1、Cas12c2或OspCas12c蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,napDNAbp是天然出现的Cas12c1、Cas12c2或OspCas12c蛋白。在一些实施方案中,napDNAbp包含氨基酸序列,所述氨基酸序列与本文描述的任何Cas12c1、Cas12c2或OspCas12c蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。应知悉,来自其他细菌物种的Cas12c1、Cas12c2或OspCas12c也可以根据本公开使用。
Cas12c1
MQTKKTHLHLISAKASRKYRRTIACLSDTAKKDLERRKQSGAADPAQELSCLKTIKFKLEVPEGSKLPSFDRISQIYNALETIEKGSLSYLLFALILSGFRIFPNSSAAKTFASSSCYKNDQFASQIKEIFGEMVKNFIPSELESILKKGRRKNNKDWTEENIKRVLNSEFGRKNSEGSSALFDSFLSKFSQELFRKFDSWNEVNKKYLEAAELLDSMLASYGPFDSVCKMIGDSDSRNSLPDKSTIAFTNNAEITVDIESSVMPYMAIAALLREYRQSKSKAAPVAYVQSHLTTTNGNGLSWFFKFGLDLIRKAPVSSKQSTSDGSKSLQELFSVPDDKLDGLKFIKEACEALPEASLLCGEKGELLGYQDFRTSFAGHIDSWVANYVNRLFELIELVNQLPESIKLPSILTQKNHNLVASLGLQEAEVSHSLELFEGLVKNVRQTLKKLAGIDISSSPNEQDIKEFYAFSDVLNRLGSIRNQIENAVQTAKKDKIDLESAIEWKEWKKLKKLPKLNGLGGGVPKQQELLDKALESVKQIRHYQRIDFERVIQWAVNEHCLETVPKFLVDAEKKKINKESSTDFAAKENAVRFLLEGIGAAARGKTDSVSKAAYNWFVVNNFLAKKDLNRYFINCQGCIYKPPYSKRRSLAFALRSDNKDTIEVVWEKFETFYKEISKEIEKFNIFSQEFQTFLHLENLRMKLLLRRIQKPIPAEIAFFSLPQEYYDSLPPNVAFLALNQEITPSEYITQFNLYSSFLNGNLILLRRSRSYLRAKFSWVGNSKLIYAAKEARLWKIPNAYWKSDEWKMILDSNVLVFDKAGNVLPAPTLKKVCEREGDLRLFYPLLRQLPHDWCYRNPFVKSVGREKNVIEVNKEGEPKVASALPGSLFRLIGPAPFKSLLDDCFFNPLDKDLRECMLIVDQEISQKVEAQKVEASLESCTYSIAVPIRYHLEEPKVSNQFENVLAIDQGEAGLAYAVFSLKSIGEAETKPIAVGTIRIPSIRRLIHSVSTYRKKKQRLQNFKQNYDSTAFIMRENVTGDVCAKIVGLMKEFNAFPVLEYDVKNLESGSRQLSAVYKAVNSHFLYFKEPGRDALRKQLWYGGDSWTIDGIEIVTRERKEDGKEGVEKIVPLKVFPGRSVSARFTSKTCSCCGRNVFDWLFTEKKAKTNKKFNVNSKGELTTADGVIQLFEADRSKGPKFYARRKERTPLTKPIAKGSYSLEEIERRVRTNLRRAPKSKQSRDTSQSQYFCVYKDCALHFSGMQADENAAINIGRRFLTALRKNRRSDFPSNVKISDRLLDN
Cas12c2MTKHSIPLHAFRNSGADARKWKGRIALLAKRGKETMRTLQFPLEMSEPEAAAINTTPFAVAYNAIEGTGKGTLFDYWAKLHLAGFRFFPSGGAATIFRQQAVFEDASWNAAFCQQSGKDWPWLVPSKLYERFTKAPREVAKKDGSKKSIEFTQENVANESHVSLVGASITDKTPEDQKEFFLKMAGALAEKFDSWKSANEDRIVAMKVIDEFLKSEGLHLPSLENIAVKCSVETKPDNATVAWHDAPMSGVQNLAIGVFATCASRIDNIYDLNGGKLSKLIQESATTPNVTALSWLFGKGLEYFRTTDIDTIMQDFNIPASAKESIKPLVESAQAIPTMTVLGKKNYAPFRPNFGGKIDSWIANYASRLMLLNDILEQIEPGFELPQALLDNETLMSGIDMTGDELKELIEAVYAWVDAAKQGLATLLGRGGNVDDAVQTFEQFSAMMDTLNGTLNTISARYVRAVEMAGKDEARLEKLIECKFDIPKWCKSVPKLVGISGGLPKVEEEIKVMNAAFKDVRARMFVRFEEIAAYVASKGAGMDVYDALEKRELEQIKKLKSAVPERAHIQAYRAVLHRIGRAVQNCSEKTKQLFSSKVIEMGVFKNPSHLNNFIFNQKGAIYRSPFDRSRHAPYQLHADKLLKNDWLELLAEISATLMASESTEQMEDALRLERTRLQLQLSGLPDWEYPASLAKPDIEVEIQTALKMQLAKDTVTSDVLQRAFNLYSSVLSGLTFKLLRRSFSLKMRFSVADTTQLIYVPKVCDWAIPKQYLQAEGEIGIAARVVTESSPAKMVTEVEMKEPKALGHFMQQAPHDWYFDASLGGTQVAGRIVEKGKEVGKERKLVGYRMRGNSAYKTVLDKSLVGNTELSQCSMIIEIPYTQTVDADFRAQVQAGLPKVSINLPVKETITASNKDEQMLFDRFVAIDLGERGLGYAVFDAKTLELQESGHRPIKAITNLLNRTHHYEQRPNQRQKFQAKFNVNLSELRENTVGDVCHQINRICAYYNAFPVLEYMVPDRLDKQLKSVYESVTNRYIWSSTDAHKSARVQFWLGGETWEHPYLKSAKDKKPLVLSPGRGASGKGTSQTCSCCGRNPFDLIKDMKPRAKIAVVDGKAKLENSELKLFERNLESKDDMLARRHRNERAGMEQPLTPGNYTVDEIKALLRANLRRAPKNRRTKDTTVSEYHCVFSDCGKTMHADENAAVNIGGKFIADIEK
OspCas12c
MTKLRHRQKKLTHDWAGSKKREVLGSNGKLQNPLLMPVKKGQVTEFRKAFSAYARATKGEMTDGRKNMFTHSFEPFKTKPSLHQCELADKAYQSLHSYLPGSLAHFLLSAHALGFRIFSKSGEATAFQASSKIEAYESKLASELACVDLSIQNLTISTLFNALTTSVRGKGEETSADPLIARFYTLLTGKPLSRDTQGPERDLAEVISRKIASSFGTWKEMTANPLQSLQFFEEELHALDANVSLSPAFDVLIKMNDLQGDLKNRTIVFDPDAPVFEYNAEDPADIIIKLTARYAKEAVIKNQNVGNYVKNAITTTNANGLGWLLNKGLSLLPVSTDDELLEFIGVERSHPSCHALIELIAQLEAPELFEKNVFSDTRSEVQGMIDSAVSNHIARLSSSRNSLSMDSEELERLIKSFQIHTPHCSLFIGAQSLSQQLESLPEALQSGVNSADILLGSTQYMLTNSLVEESIATYQRTLNRINYLSGVAGQINGAIKRKAIDGEKIHLPAAWSELISLPFIGQPVIDVESDLAHLKNQYQTLSNEFDTLISALQKNFDLNFNKALLNRTQHFEAMCRSTKKNALSKPEIVSYRDLLARLTSCLYRGSLVLRRAGIEVLKKHKIFESNSELREHVHERKHFVFVSPLDRKAKKLLRLTDSRPDLLHVIDEILQHDNLENKDRESLWLVRSGYLLAGLPDQLSSSFINLPIITQKGDRRLIDLIQYDQINRDAFVMLVTSAFKSNLSGLQYRANKQSFVVTRTLSPYLGSKLVYVPKDKDWLVPSQMFEGRFADILQSDYMVWKDAGRLCVIDTAKHLSNIKKSVFSSEEVLAFLRELPHRTFIQTEVRGLGVNVDGIAFNNGDIPSLKTFSNCVQVKVSRTNTSLVQTLNRWFEGGKVSPPSIQFERAYYKKDDQIHEDAAKRKIRFQMPATELVHASDDAGWTPSYLLGIDPGEYGMGLSLVSINNGEVLDSGFIHINSLINFASKKSNHQTKVVPRQQYKSPYANYLEQSKDSAAGDIAHILDRLIYKLNALPVFEALSGNSQSAADQVWTKVLSFYTWGDNDAQNSIRKQHWFGASHWDIKGMLRQPPTEKKPKPYIAFPGSQVSSYGNSQRCSCCGRNPIEQLREMAKDTSIKELKIRNSEIQLFDGTIKLFNPDPSTVIERRRHNLGPSRIPVADRTFKNISPSSLEFKELITIVSRSIRHSPEFIAKKRGIGSEYFCAYSDCNSSLNSEANAAANVAQKFQKQLFFEL
在一些实施方案中,napDNAbp是指Cas12g、Cas12h或Cas12i,其已经在例如Yan等人,“Functionally Diverse Type V CRISPR-Cas Systems,”Science,2019 Jan.4;363:88-91中有所描述,各自的整体内容通过引用并入本文。通过汇集超过10TB的序列数据,鉴定了V型Cas蛋白的新分类,这些蛋白质显示了与先前表征的V型蛋白质(包括Cas12g、Cas12h和Cas12i)的弱相似性。在一些实施方案中,Cas12蛋白是Cas12g或Cas12g的变体。在一些实施方案中,Cas12蛋白是Cas12h或Cas12h的变体。在一些实施方案中,Cas12蛋白是Cas12i或Cas12i的变体。应知悉,其他RNA引导的DNA结合蛋白可以用作napDNAbp,并且处于本公开的范畴内。在一些实施方案中,napDNAbp包含氨基酸序列,所述氨基酸序列与天然出现的Cas12g、Cas12h或Cas12i蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,napDNAbp是天然出现的Cas12g、Cas12h或Cas12i蛋白。在一些实施方案中,napDNAbp包含氨基酸序列,所述氨基酸序列与本文描述的任何Cas12g、Cas12h或Cas12i蛋白为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。应知悉,来自其他细菌物种的Cas12g、Cas12h或Cas12i也可以根据本公开使用。在一些实施方案中,Cas12i蛋白是Cas12i1或Cas12i2。
Cas12g1
MAQASSTPAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAEPTETFWKFFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRLKDYQPAHRMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRICPAARLLQNKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRYMNLKEETLRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSVKRHSIAKIFGENYFQADFKNSVVGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRVPHKRSRFDCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQAFPLKIVKIEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAAKKATLQPFDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRIRRKVTEKAVERGMRVVTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEIELPTAIP
Cas12h1
MKVHEIPRSQLLKIKQYEGSFVEWYRDLQEDRKKFASLLFRWAAFGYAAREDDGATYISPSQALLERRLLLGDAEDVAIKFLDVLFKGGAPSSSCYSLFYEDFALRDKAKYSGAKREFIEGLATMPLDKIIERIRQDEQLSKIPAEEWLILGAEYSPEEIWEQVAPRIVNVDRSLGKQLRERLGIKCRRPHDAGYCKILMEVVARQLRSHNETYHEYLNQTHEMKTKVANNLTNEFDLVCEFAEVLEEKNYGLGWYVLWQGVKQALKEQKKPTKIQIAVDQLRQPKFAGLLTAKWRALKGAYDTWKLKKRLEKRKAFPYMPNWDNDYQIPVGLTGLGVFTLEVKRTEVVVDLKEHGKLFCSHSHYFGDLTAEKHPSRYHLKFRHKLKLRKRDSRVEPTIGPWIEAALREITIQKKPNGVFYLGLPYALSHGIDNFQIAKRFFSAAKPDKEVINGLPSEMVVGAADLNLSNIVAPVKARIGKGLEGPLHALDYGYGELIDGPKILTPDGPRCGELISLKRDIVEIKSAIKEFKACQREGLTMSEETTTWLSEVESPSDSPRCMIQSRIADTSRRLNSFKYQMNKEGYQDLAEALRLLDAMDSYNSLLESYQRMHLSPGEQSPKEAKFDTKRASFRDLLRRRVAHTIVEYFDDCDIVFFEDLDGPSDSDSRNNALVKLLSPRTLLLYIRQALEKRGIGMVEVAKDGTSQNNPISGHVGWRNKQNKSEIYFYEDKELLVMDADEVGAMNILCRGLNHSVCPYSFVTKAPEKKNDEKKEGDYGKRVKRFLKDRYGSSNVRFLVASMGFVTVTTKRPKDALVGKRLYYHGGELVTHDLHNRMKDEIKYLVEKEVLARRVSLSDSTIKSYKSFAHV
Cas12i1
MSNKEKNASETRKAYTTKMIPRSHDRMKLLGNFMDYLMDGTPIFFELWNQFGGGIDRDIISGTANKDKISDDLLLAVNWFKVMPINSKPQGVSPSNLANLFQQYSGSEPDIQAQEYFASNFDTEKHQWKDMRVEYERLLAELQLSRSDMHHDLKLMYKEKCIGLSLSTAHYITSVMFGTGAKNNRQTKHQFYSKVIQLLEESTQINSVEQLASIILKAGDCDSYRKLRIRCSRKGATPSILKIVQDYELGTNHDDEVNVPSLIANLKEKLGRFEYECEWKCMEKIKAFLASKVGPYYLGSYSAMLENALSPIKGMTTKNCKFVLKQIDAKNDIKYENEPFGKIVEGFFDSPYFESDTNVKWVLHPHHIGESNIKTLWEDLNAIHSKYEEDIASLSEDKKEKRIKVYQGDVCQTINTYCEEVGKEAKTPLVQLLRYLYSRKDDIAVDKIIDGITFLSKKHKVEKQKINPVIQKYPSFNFGNNSKLLGKIISPKDKLKHNLKCNRNQVDNYIWIEIKVLNTKTMRWEKHHYALSSTRFLEEVYYPATSENPPDALAARFRTKTNGYEGKPALSAEQIEQIRSAPVGLRKVKKRQMRLEAARQQNLLPRYTWGKDFNINICKRGNNFEVTLATKVKKKKEKNYKVVLGYDANIVRKNTYAAIEAHANGDGVIDYNDLPVKPIESGFVTVESQVRDKSYDQLSYNGVKLLYCKPHVESRRSFLEKYRNGTMKDNRGNNIQIDFMKDFEAIADDETSLYYFNMKYCKLLQSSIRNHSSQAKEYREEIFELLRDGKLSVLKLSSLSNLSFVMFKVAKSLIGTYFGHLLKKPKNSKSDVKAPPITDEDKQKADPEMFALRLALEEKRLNKVKSKKEVIANKIVAKALELRDKYGPVLIKGENISDTTKKGKKSSTNSFLMDWLARGVANKVKEMVMMHQGLEFVEVNPNFTSHQDPFVHKNPENTFRARYSRCTPSELTEKNRKEILSFLSDKPSKRPTNAYYNEGAMAFLATYGLKKNDVLGVSLEKFKQIMANILHQRSEDQLLFPSRGGMFYLATYKLDADATSVNWNGKQFWVCNADLVAAYNVGLVDIQKDFKKK
Cas12i2
MSSAIKSYKSVLRPNERKNQLLKSTIQCLEDGSAFFFKMLQGLFGGITPEIVRFSTEQEKQQQDIALWCAVNWFRPVSQDSLTHTIASDNLVEKFEEYYGGTASDAIKQYFSASIGESYYWNDCRQQYYDLCRELGVEVSDLTHDLEILCREKCLAVATESNQNNSIISVLFGTGEKEDRSVKLRITKKILEAISNLKEIPKNVAPIQEIILNVAKATKETFRQVYAGNLGAPSTLEKFIAKDGQKEFDLKKLQTDLKKVIRGKSKERDWCCQEELRSYVEQNTIQYDLWAWGEMFNKAHTALKIKSTRNYNFAKQRLEQFKEIQSLNNLLVVKKLNDFFDSEFFSGEETYTICVHHLGGKDLSKLYKAWEDDPADPENAIVVLCDDLKNNFKKEPIRNILRYIFTIRQECSAQDILAAAKYNQQLDRYKSQKANPSVLGNQGFTWTNAVILPEKAQRNDRPNSLDLRIWLYLKLRHPDGRWKKHHIPFYDTRFFQEIYAAGNSPVDTCQFRTPRFGYHLPKLTDQTAIRVNKKHVKAAKTEARIRLAIQQGTLPVSNLKITEISATINSKGQVRIPVKFDVGRQKGTLQIGDRFCGYDQNQTASHAYSLWEVVKEGQYHKELGCFVRFISSGDIVSITENRGNQFDQLSYEGLAYPQYADWRKKASKFVSLWQITKKNKKKEIVTVEAKEKFDAICKYQPRLYKFNKEYAYLLRDIVRGKSLVELQQIRQEIFRFIEQDCGVTRLGSLSLSTLETVKAVKGIIYSYFSTALNASKNNPISDEQRKEFDPELFALLEKLELIRTRKKKQKVERIANSLIQTCLENNIKFIRGEGDLSTTNNATKKKANSRSMDWLARGVFNKIRQLAPMHNITLFGCGSLYTSHQDPLVHRNPDKAMKCRWAAIPVKDIGDWVLRKLSQNLRAKNIGTGEYYHQGVKEFLSHYELQDLEEELLKWRSDRKSNIPCWVLQNRLAEKLGNKEAVVYIPVRGGRIYFATHKVATGAVSIVFDQKQVWVCNADHVAAANIALTVKGIGEQSSDEENPDGSRIKLQLTS
碱基编辑器的代表性核酸和蛋白质序列如下:
BhCas12b GGSGGS-ABE8-位于P153处的Xten20
Figure BDA0003480255960001551
Figure BDA0003480255960001561
Figure BDA0003480255960001571
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-位于K255处的Xten20
Figure BDA0003480255960001581
Figure BDA0003480255960001591
Figure BDA0003480255960001601
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-位于D306处的Xten20
Figure BDA0003480255960001611
Figure BDA0003480255960001621
Figure BDA0003480255960001631
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-位于D980处的Xten20
Figure BDA0003480255960001641
Figure BDA0003480255960001651
Figure BDA0003480255960001661
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-位于K1019处的Xten20
Figure BDA0003480255960001671
Figure BDA0003480255960001681
Figure BDA0003480255960001691
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
对于上述序列,Kozak序列加粗并加下划线;
Figure BDA0003480255960001701
标记N端核定位信号(NLS);小写字母表示GGGSGGS连接子;标记编码ABE8的序列,未做修饰的序列编码BhCas12b;双下划线表示Xten20连接子;单下划线表示C端NLS;
Figure BDA0003480255960001702
表示GS连接子;并且斜体字母表示3x血细胞凝集素(HA)标签的编码序列。
在一些实施方案中,Cas9结构域是来自金黄色葡萄球菌(Staphylococcusaureus)的Cas9结构域(SaCas9)。在一些实施方案中,SaCas9结构域是核酸酶活性SaCas9、无核酸酶活性的SaCas9(SaCas9d)或SaCas9切口酶(SaCas9n)。在一些实施方案中,SaCas9包含N579A突变,或本文所提供的任何氨基酸序列中的相应突变。
在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合至具有非经典PAM的核酸序列。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合至具有NNGRRT或NNNRRT PAM的核酸序列。在一些实施方案中,SaCas9结构域包含E781X、N967X和R1014X突变中的一种或多种,或本文所提供的任何氨基酸序列的相应突变,其中X是任何氨基酸。在一些实施方案中,SaCas9结构域包含E781K、N967K和R1014H突变中的一种或多种,或本文所提供的任何氨基酸序列的相应突变。在一些实施方案中,SaCas9结构域包含E781K、N967K或R1014H突变,或本文所提供的任何氨基酸序列的相应突变。
在一些实施方案中,变体Cas蛋白可以是SpCas9、SpCas9-VRQR、SspCas9-VRER、xCas9(sp)、SaCas9、SaCas9-KKH、SpCas9-MQKSER、SpCas9-LRKIQK或SpCas9-LRVSQL。
示例性SaCas9序列
Figure BDA0003480255960001711
上述加下划线并以粗体显示的残基N579,可以经突变(例如,突变为A579)以得到SaCas9切口酶。
示例性SaCas9n序列
Figure BDA0003480255960001712
Figure BDA0003480255960001721
上述可以从N579突变以得到SaCas9切口酶的残基A579加下划线并以粗体显示。
示例性SaKKH Cas9
Figure BDA0003480255960001722
Figure BDA0003480255960001731
上述可以从N579突变以得到SaCas9切口酶的残基A579加下划线并以粗体显示。上述可以从E781、N967和R1014突变以得到SaKKH Cas9的残基K781、K967和H1014加下划线并以斜体显示。
碱基编辑器的多核苷酸可编程核苷酸结合结构域自身可以包含一个或多个结构域。例如,多核苷酸可编程核苷酸结合结构域可以包含一个或多个核酸酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以包含核酸内切酶或核酸外切酶。本文中,术语“核酸外切酶”是指能够从游离末端消化核酸(例如,RNA或DNA)的蛋白质或多肽,而术语“核酸内切酶”是指能够催化(例如,裂解)核酸(例如,DNA或RNA)中的内部区域的蛋白质或多肽。在一些实施方案中,核酸内切酶可以裂解双链核酸的一条链。在一些实施方案中,核酸内切酶可以裂解双链核酸分子的两条链。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是脱氧核糖核酸酶。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是核糖核酸酶。
在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以切割靶标多核苷酸的零、一或两条链。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以包含切口酶结构域。本文中,术语“切口酶”是指包含核酸酶结构域的多核苷酸可编程核苷酸结合结构域,其能够仅裂解双链体核酸分子(例如,DNA)中的两条链中的一条链。在一些实施方案中,切口酶可以通过经一个或多个突变引入活性多核苷酸可编程核苷酸结合结构域中而衍生自完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,如果多核苷酸可编程核苷酸结合结构域包含衍生自Cas9的切口酶结构域,则衍生自Cas9的切口酶结构域可以包括D10A突变和位于位置840处的组氨酸。在此类实施方案中,残基H840保持催化活性并且因此可以裂解核酸双链体的一条链。在另一实施例中,衍生自Cas9的切口酶结构域可以包含H840A突变,而位于位置10处的氨基酸保持为D。在一些实施方案中,切口酶可以通过去除切口酶活性所不需要的全部或部分核酸酶结构域而衍生自完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,如果多核苷酸可编程核苷酸结合结构域包含衍生自Cas9的切口酶结构域,则衍生自Cas9的切口酶结构域可以包含RuvC结构域或HNH结构域的全部或部分缺失。
包含切口酶结构域的包含多核苷酸可编程核苷酸结合结构域的碱基编辑器能够在具体的(例如,通过所结合的向导核酸的互补序列确定的)多核苷酸靶标序列处产生单链DNA断裂(切口)。在一些实施方案中,被包含切口酶结构域(例如,衍生自Cas9的切口酶结构域)的碱基编辑器裂解的核酸双链体靶标多核苷酸序列的链是没有通过所述碱基编辑器编辑的链(即,被碱基编辑器裂解的链与包含待编辑甲基的链相对)。在其他实施方案中,包含切口酶结构域(例如,衍生自Cas9的切口酶结构域)的碱基编辑器可以裂解被靶向以进行编辑的DNA分子的链。在此类实施方案中,非靶向链不被裂解。
本文中还提供包含碱基编辑器,其包含催化死亡(即,不能够裂解靶标多核苷酸序列)的多核苷酸可编程核苷酸结合结构域。本文中,术语“催化死亡的”和“核酸酶死亡的”可互换使用,并且是指一种多核苷酸可编程核苷酸结合结构域,其具有一个或多个突变和/或缺失,导致其失去了裂解核酸的链的能力。在一些实施方案中,作为一个或多个核酸酶结构域中特异性点突变的结果,催化死亡的多核苷酸可编程核苷酸结合结构域碱基编辑器可能缺乏核酸酶活性。例如,在碱基编辑器包含Cas9结构域的情况下,所述Cas9可以包含D10A突变和H840A突变两者。此类突变令两个核酸酶结构域失去活性,从而导致核酸酶活性的丧失。在其他实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域可以包含全部或部分的催化结构域(例如RuvC1结构域和/或HNH结构域)的一个或多个缺失。在进一步的实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域包含点突变(例如,D10A或H840A)以及全部或部分的核酸酶结构域的缺失。
本文还设想了能够从多核苷酸可编程核苷酸结合结构域的先前功能性版本产生催化死亡的多核苷酸可编程核苷酸结合结构域的突变。例如,在催化死亡的Cas9(“dCas9”)的情况下,提供了具有除D10A和H840A外的突变的变体,其得到无核酸酶活性的Cas9。举例而言,此类突变包括位于D10和H840处的其他氨基酸置换,或Cas9的核酸酶结构域内的其他置换(例如,HNH核酸酶亚结构域和/或RuvC1亚结构域中的置换)。
基于本公开和本领域的知识,其他合适的无核酸酶活性的dCas9结构域对于本领域技术人员是显而易见的,并且处于本公开的范畴内。此类其他示例性的合适的无核酸酶活性的Cas9结构域包括但不限于,D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变结构域(参见例如,Prashant等人,CAS9 transcriptional activators fortarget specificity screening and paired nickases for cooperative genomeengineering.Nature Biotechnology.2013;31(9):833-838,其整体内容通过引用并入本文)。在一些实施方案中,dCas9结构域包含氨基酸序列,所述氨基酸序列与本文提供的任何一个dCas9结构域为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或99.5%相同。在一些实施方案中,Cas9结构域包含氨基酸序列,与本文详述的任何一个氨基酸序列相比,所述氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,Cas9结构域包含氨基酸序列,与本文详述的任何一个氨基酸序列相比,所述氨基酸序列具有至少10个、至少15个、至少20个、至少30个、至少40个、至少50个、至少60个、至少70个、至少80个、至少90个、至少100个、至少150个、至少200个、至少250个、至少300个、至少350个、至少400个、至少500个、至少600个、至少700个、至少800个、至少900个、至少1000个、至少1100个或至少1200个相同的毗邻氨基酸残基。
可并入碱基编辑器中的多核苷酸可编程核苷酸结合结构域的非限制性示例包括源自CRISPR蛋白的结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。在一些实施方案中,碱基编辑器包含具有天然或修饰的蛋白质或其部分的多核苷酸可编程核苷酸结合结构域,在CRISPR(即,成簇规律间隔短回文重复序列)介导的核酸修饰期间,其能够经由所结合的向导核酸结合至核酸序列。本文中,此类蛋白质称为“CRISPR蛋白”。据此,本文公开了包含具有全部或部分的CRISPR蛋白的多核苷酸可编程核苷酸结合结构域的碱基编辑器(即,包含全部或部分的CRISPR蛋白作为结构域的碱基编辑器,所述结构域也称为碱基编辑器的“衍生自CRISPR蛋白的结构域”)。与CRISPR蛋白的野生型或天然版本相比,被并入碱基编辑器中的衍生自CRISPR蛋白的结构域可以经修饰。例如,如下文所述,衍生自CRISPR蛋白的结构域可以包含性对于CRISPR蛋白的野生型或天然版本的一个或多个突变、插入、缺失、重排和/或重组。
在一些实施方案中,被并入碱基编辑器中的衍生自CRISPR蛋白的结构域是核酸内切酶(例如,脱氧核糖核酸酶或核糖核酸酶),当与所结合的向导核酸协同作用时,所述核酸内切酶能够结合靶标多核苷酸。在一些实施方案中,被并入碱基编辑器中的衍生自CRISPR蛋白的结构域是切口酶,当与所结合的向导核酸协同作用时,所述切口酶能够结合靶标多核苷酸。在一些实施方案中,被并入碱基编辑器中的衍生自CRISPR蛋白的结构域是催化死亡的结构域,当与所结合的向导核酸协同作用时,所述催化死亡的结构域能够结合靶标多核苷酸。在一些实施方案中,本衍生自碱基编辑器的CRISPR蛋白结合的靶标多核苷酸是DNA。在一些实施方案中,本衍生自碱基编辑器的CRISPR蛋白结合的靶标多核苷酸是RNA。
在一些实施方案中,碱基编辑器的衍生自CRISPR蛋白的结构域可以包括来自以下的Cas9的全部或部分:溃疡棒状杆菌(Corynebacterium ulcerans)(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒状杆菌(Corynebacterium diphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);栖蚜蝇螺原体(Spiroplasma syrphidicola)(NCBI Ref:NC_021284.1);中间普雷沃氏菌(Prevotella intermedia)(NCBI Ref:NC_017861.1);中国台湾螺原体(Spiroplasma taiwanense,China)(NCBI Ref:NC_021846.1);海豚链球菌(Streptococcus iniae)(NCBI Ref:NC_021314.1);波罗的海贝尔氏菌(Belliellabaltica)(NCBI Ref:NC_018010.1);扭曲冷弯曲菌(Psychroflexus torquis)(NCBI Ref:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBI Ref:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Ref:NP_472073.1);空肠弯曲杆菌(Campylobacterjejuni)(NCBI Ref:YP_002344900.1);脑膜炎奈瑟氏菌(Neisseria meningitidis)(NCBIRef:YP_002342100.1);化脓链球菌(Streptococcus pyogenes)或金黄色葡萄球菌(Staphylococcus aureus)。
在一些实施方案中,碱基编辑器的Cas9衍生结构域是来自金黄色葡萄球菌(Staphylococcus aureus)的Cas9结构域(SaCas9)。在一些实施方案中,SaCas9结构域是核酸酶活性SaCas9、无核酸酶活性的SaCas9(SaCas9d)或SaCas9切口酶(SaCas9n)。在一些实施方案中,SaCas9结构域包含N579X突变。在一些实施方案中,SaCas9结构域包含N579A突变。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合至具有非经典PAM的核酸序列。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合至具有NNGRRT PAM序列的核酸序列。在一些实施方案中,SaCas9结构域包含E781X、N967X和R1014X突变中的一个或多个。
碱基编辑器可包含衍生自Cas9的全部或部分的结构域,是高保真度Cas9。在一些实施方案中,碱基编辑器的高保真度Cas9结构域是经工程化的Cas9结构域,相对于相应的野生型Cas9结构域,所述高保真度Cas9结构域包含一种或多种减少Cas9结构域与DNA的糖-磷酸酯主链之间的静电相互作用的突变。与DNA的糖-磷酸酯主链的静电相互作用减少的高保真度Cas9结构域可能具有较低的脱靶效应。在一些实施方案中,Cas9结构域(例如,野生型Cas9结构域)包含一种或多种突变,所述突变减少Cas9结构域与DNA的糖-磷酸酯主链之间的缔合。在一些实施方案中,Cas9结构域包含一种或多种突变,所述突变将Cas9结构域与DNA的糖-磷酸酯主链之间的缔合减少至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%或更多。
在一些实施方案中,经修饰的Cas9是高保真度Cas9酶。在一些实施方案中,高保真度Cas9酶是SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1或超高精度Cas9变体(HypaCas9)。经修饰的Cas9eSpCas9(1.1)含有谷氨酸置换,所述置换弱化了HNH/RuvC凹槽与非靶标DNA链之间的相互作用,防止链分离和在脱靶位点切割。类似地,SpCas9-HF1通过丙氨酸置换降低了脱靶编辑,所述丙氨酸置换中断了Cas9与DNA磷酸酯主链的相互作用。HypaCas9含有位于REC3结构域中的突变(SpCas9 N692A/M694A/Q695A/H698A),所述突变增加Cas9校对和靶标辨别力。全部三种高保真度酶都产生比野生型Cas9少的脱靶编辑。示例性的高保真度Cas9提供于下。
相对于Cas9的高保真度Cas9结构域突变以黑体并加下划线显示。
Figure BDA0003480255960001781
Figure BDA0003480255960001791
向导多核苷酸
在一种实施方案中,向导多核苷酸是向导RNA。如本文所用,术语“向导RNA(gRNA)”及其语法等效物可以指RNA,其可以是对于靶标DNA为特异性的并且可以与Cas蛋白形成复合物。RNA/Cas复合物可以辅助将Cas蛋白“引导”至靶标DNA。Cas9/crRNA/tracrRNA核酸内切溶解地裂解与间隔序列互补的线性或环状dsDNA靶标。不与crRNA互补的靶标链首先被核酸内切溶解地切割,然后被3'-5'核酸外切溶解地修剪。本质上中,DNA结合和裂解通常需要蛋白质和两种RNA。但是,单向导RNA(“sgRNA”,或简称为“gRNA”)可以工程化改造,以将crRNA和tracrRNA两者的各个方面合并到单个RNA物种中。参见例如,Jinek M.,等人,Science 337:816-821(2012),其整体内容通过引用并入本文。Cas9识别CRISPR重复序列中的短基序(PAM或前间隔序列邻近基序)以帮助区分自己(self)与非己(non-self)。Cas9核酸酶序列和结构是本领域技术人员已知的(参见例如,“Complete genome sequence of anM1 strain of Streptococcus pyogenes.”Ferretti,J.J.等人,Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等人,Nature 471:602-607(2011);和“Programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.等人,Science 337:816-821(2012),其各自的整体内容通过引用并入本文)。Cas9直接同源物已经在多种物种中描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开,其他合适的Cas9核酸酶和序列对于本领域技术人员可以是显而易见的,并且此类Cas9核酸酶和序列包括来自生物体的Cas9序列和以下文献中公开的基因座:Chylinski,Rhun,and Charpentier,“The tracrRNA and Cas9 families of type IICRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737;其整体内容通过引用并入本文。在一些实施方案中,Cas9核酸酶具有无活性的(例如,灭活的)DNA裂解结构域,换言之,Cas9是切口酶。
在一些实施方案中,向导多核苷酸是至少一个单向导RNA(“sgRNA”或“gRNA”)。在一些实施方案中,向导多核苷酸是至少一个tracrRNA。在一些实施方案中,向导多核苷酸不需要PAM序列将多核苷酸可编程DNA结合结构域(例如,Cas9或Cpf1)引导至靶标核苷酸序列。
本文所公开的碱基编辑器的多核苷酸可编程核苷酸结合结构域(例如,衍生自CRISPR的结构域)可以通过与向导多核苷酸缔合而识别靶标多核苷酸序列。向导多核苷酸(例如,gRNA)典型是单链的,并且可以编程以位点特异性地结合(即,经由互补碱基配对)至多核苷酸的靶标序列,从而将与所述向导核酸协同作用的碱基编辑器导向至所述靶标序列。向导多核苷酸可以是DNA。向导多核苷酸可以是RNA。如本领域技术人员将会理解的,在向导多核苷酸序列中,尿嘧啶(U)替换序列中的胸腺嘧啶(T)。在一些实施方案中,向导多核苷酸包含天然核苷酸(例如,腺苷)。在一些实施方案中,向导多核苷酸包含非天然(非自然)核苷酸(例如,肽核酸或核苷酸类似物)。在一些实施方案中,向导核酸序列的靶向区域可以是至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸的长度。向导核酸的靶向区域可以是10-30个核苷酸之间的长度,或15-25个核苷酸之间的长度,或15-20个核苷酸之间的长度。在一些实施方案中,向导多核苷酸可能被截掉1、2、3、4个等核苷酸,尤其是在5'末端。作为非限制性实例,长度为20个核苷酸的向导多核苷酸可能被截掉1、2、3、4个等核苷酸,尤其是在5'末端。
在一些实施方案中,向导多核苷酸包含两个或更多个个体多核苷酸,这些多核苷的可以经由例如互补性碱基配对(例如,双向导多核苷酸)而彼此相互作用。例如,向导多核苷酸可以包含CRISPR RNA(crRNA)和反向激活CRISPR RNA(tracrRNA)。例如,向导多核苷酸可以包含一个或多个反向激活CRISPR RNA(tracrRNA)。
在II型CRISPR系统中,通过CRISPR蛋白(例如,Cas9)靶向核酸典型需要在包含识别靶标序列的序列的第一RNA分子(crRNA)与包含重复序列的第二RNA分子(trRNA)之间进行互补性碱基配对,这形成了稳定化向导RNA-CRISPR蛋白复合物的支架区域。此类双向导RNA系统可以用作向导多核苷酸来将本文所公开的碱基编辑器导向至靶标多核苷酸序列。
在一些实施方案中,本文所提供的碱基编辑器利用单向导多核苷酸(例如,sgRNA)。在一些实施方案中,本文所提供的碱基编辑器利用双向导多核苷酸(例如,双gRNA)。在一些实施方案中,本文所提供的碱基编辑器利用一个或多个向导多核苷酸(例如,多gRNA)。在一些实施方案中,将单向导多核苷酸用于不同的本文所述碱基编辑器中。例如,单向导多核苷酸可用于腺苷碱基编辑器。
在其他实施方案中,向导多核苷酸可以在单分子(即,单分子向导核酸)中包含核酸的多核苷酸靶向部分和核酸的支架部分两者。例如,单分子向导多核苷酸可以是单向导RNA(sgRNA或gRNA)。本文中,术语向导多核苷酸设想了能够与碱基编辑器相互作用并将其导向至靶标多核苷酸序列的任何单、双或多分子核酸。
典型地,向导多核苷酸(例如,crRNA/trRNA复合物或gRNA)包含包括能够识别并结合至靶标多核苷酸序列的序列的“多核苷酸靶向链段”和将碱基编辑器的多核苷酸可编程核苷酸结合结构域内的向导多核苷酸“蛋白质结合链段”。在一些实施方案中,向导多核苷酸的多核苷酸靶向链段识别并结合至DNA多核苷酸,从而促进DNA内碱基的编辑。在其他实施方案中,向导多核苷酸的多核苷酸靶向链段识别并结合至RNA多核苷酸,从而促进RNA内碱基的编辑。本文中,“链段”是指分子的节段或区域,例如,向导多核苷酸中的核苷酸的连续延伸。链段也可以指复合物的区域/节段,使得链段可以包含超过一个分子的区域。例如,若向导多核苷酸包含多个核酸分子,则蛋白结合链段可以包括多个独立分子的全部或部分,这些独立分子例如沿着互补性区域杂交。在一些实施方案中,包含两个独立分子的靶向DNA的RNA的蛋白结合链段可以包含:(i)长度为100个碱基对的第一RNA分子的碱基对40-75;和(ii)长度为50个碱基对的第一RNA分子的碱基对10-25。除非在特定语境中具体地另做定义,否则“链段”的定义不限于具体数目的总碱基对,不限于来自给定RNA分子的任何特定数目的碱基对,不限于复合物内的特定数目的独立分子,并且可以包括任何总长度的RNA分子的区域并且可以包括与其他分子具有互补性的区域。
向导RNA或向导多核苷酸可以包含两个或更多个RNA,例如,CRISPR RNA(crRNA)和反向激活crRNA(tracrRNA)。向导RNA或向导多核苷酸有时可以包含单链RNA,或通过融合crRNA与tracrRNA的部分(例如,功能性部分)形成的单向导RNA(sgRNA)。向导RNA或向导多核苷酸也可以是包含crRNA和tracrRNA的双RNA。此外,crRNA可以与靶标DNA杂交。
如上所述,向导RNA或向导多核苷酸可以是表达产物。例如,编码向导RNA的DNA可以是包含编码向导RNA的序列的载体。可以通过用分离的向导RNA或包含编码向导RNA的序列和启动子的质粒DNA转染细胞而将向导RNA或向导多核苷酸转移到所述细胞内。也可以通过其他途径诸如使用病毒介导的基因递送将向导RNA或向导多核苷酸转移到细胞内。
向导RNA或向导多核苷酸可以是经分离的。例如,可以将向导RNA以经分离的RNA的形式转移到细胞或生物体内。向导RNA可以使用本领域中已知的体外转录系统通过体外转录制备。可以将向导RNA以经分离的RNA的形式而不是以包含向导RNA的编码序列的质粒的形式转移到细胞内。
向导RNA或向导多核苷酸可以包含三个区域:位于5'末端的可以与染色体序列中的靶标位点互补的第一区域、可以形成茎环结构的第二内部区域、和可以为单链的第三3'区域。每个向导RNA的第一区域也可以是不同的,使得每个向导RNA将融合蛋白引导至特定的靶标位点。再者,在全部向导RNA中,每个向导RNA的第二区域和第三区域可以是相同的。
向导RNA或向导多核苷酸的第一区域可以与位于染色体序列中的靶标位点处的序列互补,适当向导RNA的第一区域可以与靶标位点进行碱基配对。在一些实施方案中,向导RNA的第一区域可以包含或包含约10个核苷酸至25个核苷酸(即,10个核苷酸至核苷酸;或约10个核苷酸至约25个核苷酸;或10个核苷酸至约25个核苷酸;或约10个核苷酸至25个核苷酸)或更多。例如,在向导RNA的第一区域与染色体序列的靶标位点之间进行碱基配对的区域可以是或可以是约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25或更多个核苷酸的长度。在一些实施方案中,向导RNA的第一区域可以是或可以是约19、20或21个核苷酸的长度。
向导RNA或向导多核苷酸也可以包含形成二级结构的第二区域。例如,由向导RNA形成的二级结构可以包含茎(或发夹)和环。环和茎的长度可变。例如,环的长度范围可以是或可以是约3至10个核苷酸,并且茎的长度范围可以是或可以是约6至20个碱基对。茎可以包含一个或多个1至10个或约10个核苷酸的凸起部。第二区域的总体长度可以在或可以在约16至60个核苷酸的长度范围内。例如,环可以是或可以是约4个核苷酸的长度,并且茎可以是或可以是约12个碱基对。
向导RNA或向导多核苷酸也可以包含位于3'末端的第三区域,所述第三区域可以基本上是单链的。例如,第三区域有时不与感兴趣的细胞中的任何染色体序列互补,而有时不与向导RNA的剩余部分互补。再者,第三区域的长度可变。第三区域可以是超过或是超过约4个核苷酸的长度。例如,第三区域的总体长度可以在或可以在约5至60个核苷酸的长度范围内。
向导RNA或向导多核苷酸可以靶向基因靶标的任何外显子或内含子。在一些实施方案中,向导可以靶向基因的外显子1或2;在其他实施方案中,向导可以靶向基因的外显子3或4。组合物可以包含多个全部靶向相同外显子的RNA,或者在一些实施方案中,包含多个可以靶向不同外显子的RNA。基因的外显子和内含子可以被靶向。
向导RNA或向导多核苷酸可以靶向约20个核苷酸的核酸序列。靶标核酸可以少于约20个核苷酸。靶标核酸可以是至少(约)5、10、15、16、17、18、19、20、21、22、23、24、25、30个核苷酸或1-100个核苷酸之间任一处的长度。靶标核酸可以是至多(约)5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50个核苷酸或1-100个核苷酸之间任一处的长度。靶标核酸序列可以是紧邻PAM的5'第一个核苷酸的(约)20个碱基。向导RNA可以靶向核酸序列。靶标核酸可以是至少(约)1-10、1-20、1-30、1-40、1-50、1-60、1-70、1-80、1-90或1-100个核苷酸。
向导多核苷酸,例如,向导RNA,可以指能与细胞基因组中的另一核酸(例如,靶标核酸或前间隔序列)杂交的核酸。向导多核苷酸可以是RNA。向导多核苷酸可以是DNA。向导多核苷酸可以被编程或设计为位点特异性地结合至核酸序列。向导多核苷酸可以包含一个多核苷酸链并且可以称为单向导多核苷酸。向导多核苷酸可以包含两个多核苷酸链并且可以称为双向导多核苷酸。向导RNA可以作为RNA分子被引入细胞或胚胎内。例如,RNA分子可以在体外被转录和/或化学合成。RNA可以从合成的DNA分子(例如,
Figure BDA0003480255960001841
基因片段)转录。然后,向导RNA可以作为RNA分子被引入细胞或胚胎中。也可以将向导RNA以非RNA核酸分子(例如,DNA分子)的形式引入细胞或胚胎内。例如,可以将编码向导RNA的DNA可操作地连接至启动子控制序列,以在感兴趣的细胞或胚胎内进行向导RNA的表达。可以将RNA编码序列可操作地连接至被RNA聚合酶III(Pol III)识别的启动子序列。可用于表达向导RNA的质粒载体包括但不限于,px330载体和px333载体。在一些实施方案中,质粒载体(例如,px333载体)可以包含至少两个编码向导RNA的DNA序列。
用于选择、设计和验证向导多核苷酸(例如,向导RNA和靶向序列)的方法在本文中描述并且是本领域技术人员已知的。例如,为了最小化核碱基编辑器系统中脱氨酶结构域(例如,AID结构域)的潜在底物混杂性的影响,可以最小化可能无意中被脱氨反应所靶向的残基(例如,可能潜在地驻留在靶标核酸基因座内的ssDNA上的脱靶C残基)的数目。此外,可以使用软件工具来优化对应于靶标核酸序列的gRNA,例如,以最小化跨基因座的总脱靶活性。例如,对于使用化脓链球菌Cas9的每种可能的靶向结构域选择,可以跨基因组鉴定全部脱靶序列(先前选定的PAM,例如,NAG或NGG),所述序列含有多达某一数目(例如,1、2、3、4、5、6、7、8、9或10个)的误配碱基对。可以鉴定与靶标位点互补的gRNA的第一区域,并且可以根据预测的总脱靶得分将全部第一区域(例如,crRNA)排序;排序靠前的靶向结构域代表那些可能具有最大上靶活性和最小脱靶活性的结构域。可以使用本领域已知和/或如本文详述的方法对候选靶向gRNA进行功能性评估。
作为非限制性示例,用于与Cas9合用的向导RNA的crRNA中的靶标DNA杂交序列可以使用DNA序列检索算法鉴定。可以使用自定义gRNA设计软件基于公共工具cas-offinder完成gRNA设计,如Bae S.,Park J.,&Kim J.-S.Cas-OFFinder:A fast and versatilealgorithm that searches for potential off-target sites of Cas9 RNA-guidedendonucleases.Bioinformatics 30,1473-1475(2014)中所述。这一软件在计算向导的全基因组脱靶倾向性之后对向导进行评分。典型地,对于17到24长度的向导范围,考虑从完美匹配到存在7个误配的匹配范围。一旦通过计算确定了脱靶位点,就计算每个向导的聚集得分并使用web界面将其汇总到表格输出中。除了鉴定邻近PAM序列的潜在靶标位点之外,所述软件还鉴定全部PAM邻近序列,这些序列与所选择的靶标位点相异1、2、3或超过3个核苷酸。可以使用公共可获得的总结例如RepeatMasker程序,获得靶标核酸序列(例如,靶标基因)的基因组DNA序列和重复元件。RepeatMasker检索输入DNA序列的重复元件和低复杂度区域。输出是给定查询序列中存在的重复序列的详细注释。
鉴定之后,可以将向导RNA(例如,crRNA)的第一区域基于以下各项排序为几个层次:它们与靶标位点的距离、它们的正交性和用于与相关PAM序列密切匹配的5'核苷酸(例如,基于对含有相关PAM(例如,对于化脓链球菌是NGG PAM,对于金黄色葡萄球菌是NNGRRT或NNGRRV PAM)的人类基因组中的密切匹配的鉴定的5'G)的存在。如本文所用,正交性是指人类基因组中含有最低数目的与靶标序列的误配的序列的数目。例如,“高水平的正交性”或“良好正交性”可以指20聚体靶向结构域,所述结构域除了预期靶标之外没有人类基因组中的相同序列,也不存在任何含有靶标序列中一个或两个误配的序列。可以选择具有良好正交性的靶向结构域以最小化脱靶DNA裂解。
在一些实施方案中,可以使用报告系统来检测碱基编辑活性和测试候选向导多核苷酸。在一些实施方案中,报告系统可以包含基于报告基因的测定,其中碱基编辑活性导致所述报告基因的表达。例如,报告系统可以包括包含经灭活的启动密码子(例如,在模板链上的3'-TAC-5'到3'-CAC-5'的突变)的报告基因。当对靶标C成功脱氨基后,相应mRNA将被转录为5'-AUG-3'而不是5'-GUG-3',使得报告基因能够翻译。合适的报告基因对于本领域技术人员将是显而易见的。报告基因的非限制性示例包括编码绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、荧光素酶、分泌的碱性磷酸酯酶(SEAP)的基因,或其表达可检测并且对于本领域技术人员显而易见的任何其他基因。报告系统可用于测试众多不同的gRNA,例如,以便确定相应的脱氨酶将会靶向关于靶标DNA序列的哪个/些核苷酸残基。也可以测试靶向非模板链核苷酸残基的sgRNA,以便评估特异性碱基编辑蛋白(例如,Cas9脱氨酶融合蛋白)的脱靶效应。在一些实施方案中,可以设计此类gRNA,使得突变的起始密码子将不与gRNA进行碱基配对。向导多核苷酸可以包含标准核苷酸、经修饰的核苷酸(例如,假尿苷)、核苷酸异构体和/或核苷酸类似物。在一些实施方案中,向导多核苷酸可以包含至少一个可检测的标记物。可检测的表及其可以是荧光团(例如,FAM、TMR、Cy3、Cy5、德克萨斯红、俄勒冈绿、AlexaFluors、Halo标签或任何其他合适的荧光染料)、检测标签(例如,生物素、地高辛等)、量子点或金粒子。
向导多核苷酸可以化学合成和/或酶促合成。例如,向导RNA可以使用基于亚磷酰胺的标准固相合成方法合成。作为另一种选择,向导RNA可以通过将编码向导RNA的DNA可操作地连接至被噬菌体RNA聚合酶识别的启动子控制序列而体外合成。合适的是具体启动子序列的示例包括T7、T3、SP6启动子序列或其变种。在其中向导RNA包含两个独立分子(例如,crRNA和tracrRNA)的实施方案中,crRNA可以化学地合成,而tracrRNA可以酶促地合成。
在一些实施方案中,碱基编辑器系统可以包含多个向导多核苷酸,例如,gRNA。例如,gRNA可以靶向一个或多个靶标基因座(例如,至少一(1)个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30g RNA、或至少50个gRNA)。在一些实施方案中,多个gRNA序列可以随机排列,并且优选通过直接重复序列分隔。
编码向导RNA或向导多核苷酸的DNA序列也可以是载体的一部分。在一些实施方案中,载体包含额外的表达控制序列(例如,增强子序列、Kozak序列、聚腺苷酸化序列、转录终止序列等)、可选择的标志物序列(例如,GFP或抗生素耐药基因诸如嘌呤霉素)、复制起点等。编码向导RNA或向导多核苷酸的DNA分子也可以是线性或环状的。
在一些实施方案中,碱基编辑器系统的一个或多个组分可以由DNA序列编码。此类DNA序列可以被一起或单独地引入表达系统(例如,细胞)中。例如,编码多核苷酸可编程核苷酸结合结构域和向导RNA的DNA序列可以被引入细胞中,每个DNA序列可以是独立分子(例如,一个含有多核苷酸可编程核苷酸结合结构域编码序列的载体和含有向导RNA编码序列的第二载体)的一部分,或者两者都可以是同一分子(例如,一个含有用于多核苷酸可编程核苷酸结合结构域和向导RNA两者的编码(和调节)序列的载体)的一部分。
向导多核苷酸可以包含一种或多种修饰以向核酸提供新的或增强的特征。向导多核苷酸可以包含核酸亲和性标签。向导多核苷酸可以包含合成核苷酸、合成核苷酸类似物、核苷酸衍生物和/或经修饰的核苷酸。
在一些实施方案中,gRNA或向导多核苷酸可以包含修饰。修饰可以在gRNA或向导多核苷酸的任意位置处做出。可以对单gRNA或向导多核苷酸做出超过一种修饰。gRNA或向导多核苷酸可以在修饰后经历质量控制。在一些实施方案中,质量控制可以包括PAGE、HPLC、MS或其任何组合。
gRNA或向导多核苷酸的修饰可以是置换、插入、缺失、化学修饰、物理修饰、稳定化、纯化或其任何组合。
gRNA或向导多核苷酸也可以通过以下进行修饰:5'腺苷酸化、5'鸟苷-三磷酸酯封端、5'N7-甲基鸟苷-三磷酸酯封端、5'三磷酸酯封端、3'磷酸酯、3'硫代磷酸酯、5'粒氨酸酯、5'硫代磷酸酯、Cis-Syn胸腺嘧啶二聚体、三聚体(trimers)、C12间隔序列(spacer)、C3间隔序列、C6间隔序列、d间隔序列(dSpacer)、PC间隔序列、r间隔序列(rSpacer)、间隔序列18、间隔序列9、3'-3'修饰、5'-5'修饰、无碱基、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆甾醇基TEG、脱硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3'DABCYL、黑洞淬灭剂1、黑洞淬灭剂2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基连接子、硫醇连接子、2'-脱氧核糖核苷类似物嘌呤、2'-脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2'-O-甲基核糖核苷类似物、糖修饰的类似物、摆动/通用碱基、荧光染料标记物、2'-氟RNA、2'-O-甲基RNA、甲基磷酸酯、磷酸二酯DNA、磷酸二酯RNA、硫代磷酸酯DNA、硫代磷酸酯RNA、UNA、假尿苷-5'-三磷酸酯、5'-甲基胞苷-5'-三磷酸酯或其任何组合。
在一些实施方案中,修饰是永久的。在其他实施方案中,修饰是暂时的。在一些实施方案中,对gRNA或向导多核苷酸做出多种修饰。gRNA或向导多核苷酸修饰可以改变核苷酸的生理化学性质,诸如它们的构象、极性、疏水性、化学反应性、碱基配对相互作用或其任何组合。
修饰也可以是硫代磷酸酯替代物。在一些实施方案中,天然磷酸二酯键可能易受细胞核酸酶造成的快速降解;并且,使用硫代磷酸酯(PS)键替代物对核苷酸间链接进行修饰可能对于通过细胞降解进行的水解而言更为稳定。修饰可以增加gRNA或向导多核苷酸中的稳定性。修饰也可以增强生物学活性。在一些实施方案中,经硫代磷酸酯增强的RNA gRNA可以抑制RNase A、RNase T1、牛血清核酸酶或其任何组合。这些性质可以运行将PS-RNAgRNA用于在体内或体外暴露于核酸酶的可能性很高的应用中。例如,硫代磷酸酯(PS)键可以被引入到位于gRNA的5'-或‘'-末端的l3-5个核苷酸之间,这可以抑制核酸外切酶降解。在一些实施方案中,硫代磷酸酯键可以添加到整个gRNA中的任何位置处以减少被核酸内切酶攻击。
前间隔序列邻近基序
术语“前间隔序列邻近基序(PAM)”或PAM样基序是指紧跟在被CRISPR细菌适应性免疫系统中的Cas9核酸酶所靶向的DNA序列会后的2-6个碱基对DNA序列。在一些实施方案中,PAM可以是5'PAM(即,定位在前间隔序列的5'末端的上游)。在其他实施方案中,PAM可以是5'PAM(即,定位在前间隔序列的3'末端的下游)。PAM序列对于靶标结合而言是必不可少的,但确切的序列取决于Cas蛋白的类型。PAM序列可以是本领域中已知的任何PAM序列。合适的PAM序列包括但不限于,NGG、NGA、NGC、NGN、NGT、NGTT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW或NAAAAC。Y是嘧啶;N是任何核苷酸碱基;W是A或T。
本文所提供的碱基编辑器可以包含衍生自CRISPR蛋白的结构域,其能够结合含有经典的或非经典的前间隔序列邻近基序(PAM)序列的核苷酸序列。PAM位点是接近多核苷酸序列的核苷酸序列。本公开的一些方面提供碱基编辑器,这些碱基编辑器包含具有不同PAM特异性的CRISPR蛋白质的全部或部分。
例如,典型地,Cas9蛋白诸如来自化脓链球菌的Cas9(spCas9)需要经典的NGG PAM序列来结合特定的核酸区域,其中“NGG”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),并且G是鸟苷。PAM可以是CRISPR蛋白特异性的,并且在包含不同的衍生自CRISPR蛋白的结构域的不同碱基编辑器之间可以是不同的。PAM可以位于靶标序列的5'或3'。PAM可以在靶标序列的上游或下游。PAM可以是1、2、3、4、5、6、7、8、9、10个或更多个核苷酸的长度。通常,PAM是2-6个核苷酸之间的长度。
在一些实施方案中,PAM是“NRN”PAM,其中“NRN”种的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),并且R是腺嘌呤(A)或鸟嘌呤(G);或者PAM是“NYN”PAM,其中NYN中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),并且Y是胞嘧啶(C)或胸腺嘧啶(T),例如,如R.T.Walton等人,2020,Science,10.1126/science.aba8853(2020)中所述,其整体内容通过引用并入本文。
几种PAM变体在下表2中描述。
表2:Cas9蛋白和相应PAM序列
变体 PAM
spCas9 NGG
spCas9-VRQR NGA
spCas9-VRER NGCG
xCas9(sp) NGN
saCas9 NNGRRT
saCas9-KKH NNNRRT
spCas9-MQKSER NGCG
spCas9-MQKSER NGCN
spCas9-LRKIQK NGTN
spCas9-LRVSQK NGTN
spCas9-LRVSQL NGTN
SpyMacCas9 NAA
Cpf1 5'(TTTV)
在一些实施方案中,PAM是NGC。在一些实施方案中,NGC PAM被Cas9变体识别。在一些实施方案中,NGC PAM变体包括选自下列的一种或多种氨基酸置换:D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(统称“MQKFRAER”)。
在一些实施方案中,PAM是NGT。在一些实施方案中,NGT PAM被Cas9变体识别。在一些实施方案中,通过在一个或多个残基1335、1337、1135、1136、1218和/或1219处的靶向突变来产生NGT PAM变体。在一些实施方案中,通过在一个或多个残基1219、1335、1337、1218处的靶向突变来产生NGT PAM变体。在一些实施方案中,通过在一个或多个残基1135、1136、1218、1219和/或1335处的靶向突变来产生NGT PAM变体。在一些实施方案中,NGT PAM变体选自下表3和表4中提供的靶向突变的集合。
表3:位于残基1219、1335、1337、1218处的NGT PAM变体突变
Figure BDA0003480255960001911
表4:位于残基1135、1136、1218、1219和1335处的NGT PAM变体突变
Figure BDA0003480255960001921
在一些实施方案中,NGT PAM变体选自表3和表4中的变体5、7、28、31或36。在一些实施方案中,变体具有改善的NGT PAM识别。
在一些实施方案中,NGT PAM变体具有位于残基1219、1335、1337和/或1218处的突变。在一些实施方案中,从下表5中提供的变体中选择具有用于改善的识别的突变的NGTPAM变体。
表5:位于残基1219、1335、1337和1218处的NGT PAM变体突变
Figure BDA0003480255960001931
在一些实施方案中,可如下表6中所提供的来产生具有针对NGT PAM的特异性的碱基编辑器。
表6:NGT PAM变体
NGTN变体 D1135 S1136 G1218 E1219 A1322R R1335 T1337
变体1 LRKIQK L R K I - Q K
变体2 LRSVQK L R S V - Q K
变体3 LRSVQL L R S V - Q L
变体4 LRKIRQK L R K I R Q K
变体5 LRSVRQK L R S V R Q K
变体6 LRSVRQL L R S V R Q L
在一些实施方案中,NGTN变体是变体1。在一些实施方案中,NGTN变体是变体2。在一些实施方案中,NGTN变体是变体3。在一些实施方案中,NGTN变体是变体4。在一些实施方案中,NGTN变体是变体5。在一些实施方案中,NGTN变体是变体6。
在一些实施方案中,Cas9结构域是来自化脓链球菌(Streptococcus pyogenes)的Cas9结构域(SpCas9)。在一些实施方案中,SpCas9结构域是核酸酶活性SpCas9、无核酸酶活性的SpCas9(SpCas9d)或SpCas9切口酶(SpCas9n)。在一些实施方案中,SaCas9包含N579A突变,或本文所提供的任何氨基酸序列中的相应突变,其中X是除D以外的任何氨基酸。在一些实施方案中,SpCas9包含D9A突变,或本文所提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合至具有非经典PAM的核酸序列。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合至具有NGG、NGA或NGCG PAM的核酸序列。在一些实施方案中,SpCas9结构域包含D1135X、R1335X和T1337X突变中的一种或多种,或本文所提供的任何氨基酸序列的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135E、R1335Q和T1337R突变中的一种或多种,或本文所提供的任何氨基酸序列的相应突变。在一些实施方案中,SpCas9结构域包含D1135E、R1335Q和T1337R突变,或本文所提供的任何氨基酸序列的相应突变。在一些实施方案中,SpCas9结构域包含D1135X、R1335X和T1337X突变中的一种或多种,或本文所提供的任何氨基酸序列的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135V、R1335Q和T1337R突变中的一种或多种,或本文所提供的任何氨基酸序列的相应突变。在一些实施方案中,SpCas9结构域包含D1135V、R1335Q和T1337R突变,或本文所提供的任何氨基酸序列的相应突变。在一些实施方案中,SpCas9结构域包含D1135X、G1218X、R1335X和T1337X突变中的一种或多种,或本文所提供的任何氨基酸序列的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变中的一种或多种,或本文所提供的任何氨基酸序列的相应突变。在一些实施方案中,SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变,或本文所提供的任何氨基酸序列的相应突变。
在一些实施方案中,本文所提供的任何融合蛋白的Cas9结构域包含氨基酸序列,所述氨基酸序列与本文所述的Cas9多肽为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。在一些实施方案中,本文所提供的任何融合蛋白的Cas9结构域包含本文所述的任何Cas9多肽的氨基酸序列。在一些实施方案中,本文所提供的任何融合蛋白的Cas9结构域由本文所述的任何Cas9多肽的氨基酸序列组成。
在一些实施例中,被本文所公开的碱基编辑器的衍生自CRISPR蛋白的结构域识别的PAM可在独立于编码碱基编辑器的插入物(例如,AAV插入物)的寡核苷酸上提供至细胞。在此类实施方案中,提供位于独立的寡核苷酸上的PAM可以允许靶标序列的裂解,所述靶标序列不能以其他方式裂解,因为同一多核苷酸上不存在作为靶标序列的邻近PAM。
在一种实施方案中,化脓链球菌(S.pyogenes)Cas9(SpCas9)可以用作CRISPR核酸内切酶以进行基因组工程化。但是,可以使用其他的。在一些实施方案中,不同的核酸内切酶可以用来靶向某些基因组靶标。在一些实施方案中,可以使用具有非NGG PAM序列的衍生自SpCas9的合成变体。此外,已经鉴定了来自多个物种的其他Cas9直系同源物,并且这些“非SpCas9”可以结合也能用于本公开的多种PAM序列。例如,相对大尺寸的SpCas9(大约4kb编码序列)可能导致质粒携带不能在细胞中有效表达的SpCas9 cDNA。相反,金黄色葡萄球菌(Staphylococcus aureus)Cas9(SaCas9)的编码序列比SpCas9短大约1千碱基,可能使得它在细胞中被有效地表达。类似于SpCas9,SaCas9核酸内切酶能够在体外修饰哺乳动物细胞中的靶标基因,并且在小鼠体内修饰细胞中的靶标基因。在一些实施方案中,Cas蛋白可以靶向不同的PAM序列。在一些实施方案中,靶标基因可以邻近Cas9PAM,例如,5'-NGG。在其他实施方案中,其他Cas9直系同源物可能具有不同的PAM要求。例如,其他PAM诸如嗜热链球菌(S.thermophilus)的PAM(对于CRISPR1是5'-NNAGAA,而对于CRISPR3是5'-NGGNG)和脑膜炎奈瑟氏菌(Neisseria meningiditis)的PAM(5'-NNNNGATT)也可以被发现邻近靶标基因。
在一些实施方案中,对于化脓链球菌系统,靶标基因序列可能位于5'-NGG PAM之前(即,位于其5),并且20-nt向导RNA序列可以与相对链碱基配对以介导邻近PAM的Cas9裂解。在一些实施方案中,邻近切割可以在PAM上游的(约)3个碱基对处。在一些实施方案中,邻近切割可以在PAM上游的(约)10个碱基对处。在一些实施方案中,邻近切割可以在PAM上游的(约)0-20个碱基对处。例如,邻近切割可以在PAM上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个碱基对旁边。邻近切割也可以在PAM下游1至30个碱基对处。能够结合PAM序列的示例性SpCas9蛋白的序列如下:
示例性PAM结合SpCas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性PAM结合SpCas9n的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性PAM结合SpEQR Cas9的氨基酸序列如下:
Figure BDA0003480255960001971
Figure BDA0003480255960001981
在上述序列中,可能从D1135、R1335和T1337突变以得到SpEQR Cas9的残基E1135、Q1335和R1337加下划线并以粗体显示。
示例性PAM结合SpVQR Cas9的氨基酸序列如下:
Figure BDA0003480255960001982
Figure BDA0003480255960001991
上述可能从D1135、R1335和T1337突变以得到SpVQR Cas9的残基V1135、Q1335和R1337加下划线并以粗体显示。
示例性PAM结合SpVRER Cas9的氨基酸序列如下:
Figure BDA0003480255960001992
Figure BDA0003480255960002001
上述可能从D1135、G1218、R1335和T1337突变以得到SpVRER Cas9的残基V1135、R1218、E1335和R1337加下划线并以粗体显示。
示例性PAM结合SpVRQR Cas9的氨基酸序列如下:示例性SpVRQR Cas9
Figure BDA0003480255960002002
上述可能从D1135、G1218、R1335和T1337突变以得到SpVRQR Cas9的残基V1135、R1218、Q1335和R1337加下划线并以粗体显示。
在一些实施方案中,工程化的SpCas9变体能够识别侧翼具有3'H的前间隔序列邻近基序(PAM)(非-G PAM)(参见表1A-1D)。在一些实施方案中,SpCas9变体识别NRNH PAM(其中R是A或G,并且H是A、C或T)。在一些实施方案中,非-G PAM是NRRH、NRTH或NRCH(参见例如,Miller,S.M.,等人Continuous evolution of SpCas9 variants compatible with non-GPAMs,Nat.Biotechnol.(2020),其内容通过引用而整体并入本文)。
在一些实施方案中,Cas9结构域是重组Cas9结构域。在一些实施方案中,重组Cas9结构域是SpyMacCas9结构域。在一些实施方案中,SpyMacCas9结构域是核酸酶活性SpyMacCas9、无核酸酶活性的SpyMacCas9(SpyMacCas9d)或SpyMacCas9切口酶(SpyMacCas9n)。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可以结合至具有非经典PAM的核酸序列。在一些实施方案中,SpyMacCas9结构域、SpCas9d结构域或SpCas9n结构域可以结合至具有NAA PAM序列的核酸序列。
The sequence of an exemplary homolog of in猴链球菌(Streptococcusmacacae)中的Spy Cas9的具有天然5'-NAAN-3'PAM特异性的示例性Cas9 A同源物的序列是本领域中已知的,并且由例如Jakimo等人描述(www.biorxiv.org/content/biorxiv/early/2018/09/27/429654.ful l.pdf),提供于下。
示例性SpyMacCas9
MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLIGALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSLHEQIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEIQTVGQNGGLFDDNPKSPLEVTPSKLVPLKKELNPKKYGGYQKPTTAYPVLLITDTKQLIPISVMNKKQFEQNPVKFLRDRGYQQVGKNDFIKLPKYTLVDIGDGIKRLWASSKEIHKGNQLVVSKKSQILLYHAHHLDSDLSNDYLQNHNQQFDVLFNEIISFSKKCKLGKEHIQKIENVYSNKKNSASIEELAESFIKLLGFTQLGATSPFNFLGVKLNQKQYKGKKDYILPCTEGTLIRQSITGLYETRVDLSKIGED。
在一些实施方案中,变体Cas9蛋白荷有H840A、P475A、W476A、N477A、D1125A、W1126A和D1118A突变,使得所述多肽裂解靶标DNA或RNA的能力降低。此类Cas9蛋白裂解靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一种非限制性示例,在一些实施方案中,变体Cas9蛋白荷D10A、有H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得所述多肽裂解靶标DNA的能力降低。此类Cas9蛋白裂解靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些实施方案中,当变体Cas9蛋白荷有W476A和W1126A突变时或当变体Cas9蛋白荷有P475A、W476A、N477A、D1125A、W1126A和D1218A突变时,变体Cas9蛋白不与PAM序列有效地结合。因此,在一些此类情况下,当在结合方法中使用此类变体Cas9蛋白时,所述方法不需要PAM序列。换言之,在一些实施方案中,当在接恶化方法中使用此类变体Cas9蛋白时,所述方法可以包括向导RNA,但所述方法可以在不存在PAM序列的情况下执行(因此,由向导RNA的靶向链段提供结合的特异性)。可以突变其他残基以实现上述效果(即,将一个或另一股核酸酶部分灭活)。作为非限制性示例,可以改变(即,置换)残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987。而且,除丙氨酸置换之外的突变是合适的。
在一些实施方案中,碱基编辑器的衍生自CRISPR蛋白的结构域可以包含具有经典PAM序列(NGG)的Cas9蛋白的全部或一部分。在其他实施方案中,碱基编辑器的衍生自Cas9的结构域可以采用非经典PAM序列。此类序列已经在本领域中有所描述并且对于技术人员将会是显而易见的。例如,结合非经典PAM序列的Cas9结构域已经在以下文献中有所描述:Kleinstiver,B.P.,等人,“Engineered CRISPR-Cas9 nucleases with altered PAMspecificities”Nature 523,481-485(2015);和Kleinstiver,B.P.,等人,“Broadeningthe targeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAMrecognition”Nature Biotechnology 33,1293-1298(2015);各自的整体内容通过引用并入本文。
具有降低的PAM排他性的Cas9结构域
典型地,Cas9蛋白诸如来自化脓链球菌的Cas9(spCas9)需要经典的NGG PAM序列来结合特定的核酸区域,其中“NGG”中的“N”是腺苷(A)、胸苷(T)或胞苷(C),并且G是鸟苷。这可能限制了编辑基因组内所希望的碱基的能力。在一些实施方案中,本文所提供的碱基编辑融合蛋白可能需要被放置在精确位置处,例如,在包含位于PAM上游的靶标碱基的区域。参见例如,Komor,A.C.,等人,“Programmable editing of a target base in genomicDNA without double-stranded DNA cleavage”Nature 533,420-424(2016),其整体内容通过引用并入本文。据此,在一些实施方案中,本文所提供的任何融合蛋白可以含有能够结合不含经典(例如,NGG)PAM序列的核苷酸序列的Cas9结构域。结合至非经典PAM序列的Cas9结构域已经在本领域中有所描述并且对于技术人员将会是显而易见的。例如,结合非经典PAM序列的Cas9结构域已经在以下文献中有所描述:Kleinstiver,B.P.,等人,“EngineeredCRISPR-Cas9 nucleases with altered PAM specificities”Nature 523,481-485(2015);和Kleinstiver,B.P.,等人,“Broadening the targeting range ofStaphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”NatureBiotechnology 33,1293-1298(2015);各自的整体内容通过引用并入本文。
高保真度Cas9结构域
本公开的一些方面提供高保真度Cas9结构域。在一些实施方案中,高保真度Cas9结构域是经工程化的Cas9结构域,与相应的野生型Cas9结构域相比,所述高保真度Cas9结构域包含一种或多种减少Cas9结构域与DNA的糖-磷酸酯主链之间的静电相互作用的突变。不欲受缚于任何特定理论,与DNA的糖-磷酸酯主链的静电相互作用减少的高保真度Cas9结构域可能具有较低的脱靶效应。在一些实施方案中,Cas9结构域(例如,野生型Cas9结构域)包含一种或多种突变,所述突变减少Cas9结构域与DNA的糖-磷酸酯主链之间的缔合。在一些实施方案中,Cas9结构域包含一种或多种突变,所述突变将Cas9结构域与DNA的糖-磷酸酯主链之间的缔合减少至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%或至少70%。
在一些实施方案中,本文所提供的任何Cas9融合蛋白包含N497X、R661X、Q695X和/或Q926X突变中的一种或多种,或本文所提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,本文所提供的任何Cas9融合蛋白包含N497A、R661A、Q695A和/或Q926A突变中的一种或多种,或本文所提供的任何氨基酸序列中的相应突变。在一些实施方案中,Cas9结构域包含D10A突变,或本文所提供的任何氨基酸序列中的相应突变。具有高保真度的Cas9结构域是本领域中已知的并且对于技术人员将会是显而易见的。例如,具有高保真度的Cas9结构域已经在以下文献中有所描述:Kleinstiver,B.P.,等人“High-fidelity CRISPR-Cas9 nucleases with no detectable genome-wide off-targeteffects.”Nature 529,490-495(2016);和Slaymaker,I.M.,等人“Rationally engineeredCas9 nucleases with improved specificity.”Science 351,84-88(2015);各自的整体内容通过引用并入本文。
在一些实施方案中,经修饰的Cas9是高保真度Cas9酶。在一些实施方案中,高保真度Cas9酶是SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1或超高精度Cas9变体(HypaCas9)。经修饰的Cas9 eSpCas9(1.1)含有谷氨酸置换,所述置换弱化了HNH/RuvC凹槽与非靶标DNA链之间的相互作用,防止链分离和在脱靶位点切割。类似地,SpCas9-HF1通过丙氨酸置换降低了脱靶编辑,所述丙氨酸置换中断了Cas9与DNA磷酸酯主链的相互作用。HypaCas9含有位于REC3结构域中的突变(SpCas9 N692A/M694A/Q695A/H698A),所述突变增加Cas9校对和靶标辨别力。全部三种高保真度酶都产生比野生型Cas9少的脱靶编辑。
示例性的高保真度Cas9提供于下。相对于Cas9的高保真度Cas9结构域突变以黑体并加下划线显示。
Figure BDA0003480255960002051
Figure BDA0003480255960002061
包含核定位序列(NLS)的融合蛋白
在一些实施方案中,本文所提供的融合蛋白进一步包含一个或多个(例如,2、3、4、5个)核靶向序列,例如,核定位序列(NLS)。在一种实施方案中,使用二分NLS。在一些实施方案中,NLS包含促进将包含NLS的蛋白质并入细胞核(例如,通过核转运)中的氨基酸序列。在一些实施方案中,本文所提供的任何融合蛋白进一步包含核定位序列(NLS)。在一些实施方案中,NLS融合至融合蛋白的N端。在一些实施方案中,NLS融合至融合蛋白的C端。在一些实施方案中,NLS融合至Cas9结构域的N端。在一些实施方案中,NLS融合至Cas9结构域或dCas9结构域的C端。在一些实施方案中,NLS融合至脱氨酶的N端。在一些实施方案中,NLS融合至脱氨酶的C端。在一些实施方案中,NLS经由一个或多个连接子融合至融合蛋白。在一些实施方案中,NLS融合至融合蛋白而没有连接子。在一些实施方案中,NLS包含本文所提供或引用的任何一种NLS序列的氨基酸序列。额外的核定位序列是本领域中已知的并且对于技术人员将会是显而易见的。例如,NLS序列在Plank等人的PCT/EP2000/011690中有所描述,其内容通过引用其对于示例性核定位序列的公开而并入本文。在一些实施方案中,NLS包含氨基酸序列
PKKKRKVEGADKRTADGSEFESPKKKRKV、
KRTADGSEFESPKKKRKV、
KRPAATKKAGQAKKKK、
KKTELQTTNAENKTKKL、
KRGINDRNFWRGENGRKTR、
RKSGKIAAIVVKRPRKPKKKRKV或
MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。
在一些实施方案中,NLS存在于连接子中,或者NLS侧翼具有连接子,例如,本文所述的连接子。在一些实施方案中,NLS的N端或C端是二分NLS。二分NLS包含两个碱性氨基酸簇,这两个簇被相对较短的间隔序列分隔(因此,二分即2个部分,而单分NLS则不然)。核质蛋白的NLS,KR[PAATKKAGQA]KKKK,是普遍存在的二分信号的原型:两个碱性氨基酸簇,通过约10个氨基酸的间隔序列分隔。示例性二分NLS的序列如下:PKKKRKVEGADKRTADGSEFESPKKKRKV。
在一些实施方案中,如本文所述的融合蛋白不包含连接子序列。在一些实施方案中,存在位于一个或多个结构域或蛋白质之间的连接子序列。在一些实施方案中,具有腺苷脱氨酶以及Cas9结构域的示例性Cas9融合蛋白的通用结构包含下列结构中的任何一种,其中NLS是核定位序列(例如,本文所提供的任何NLS),NH2是融合蛋白的N端,而COOH是融合蛋白的C端:
NH2-NLS-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-NLS-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-NLS-[腺苷脱氨酶]-[Cas9结构域]-NLS-COOH;或
NH2-NLS-[Cas9结构域]-[腺苷脱氨酶]-NLS-COOH。
应知悉,本公开的融合蛋白可以包含一个或多个额外特征。例如,在一些实施方案中,融合蛋白可以包含抑制剂、细胞质定位序列、输出序列诸如核输出序列、或其他定位序列,以及可用于融合蛋白的溶解、纯化或检测的序列标签。本文所提供的合适的蛋白标签包括但不限于,生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血细胞凝集素(HA)标签、聚组氨酸标签(也称为组氨酸标签或His标签)、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、Softag(例如,Softag 1、Softag 3)、链霉素标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签。其他合适的序列对于本领域技术人员将是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
可使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如,可存在(约)1、2、3、4、5、6、7、8、9、10个被使用的NLS。CRISPR酶可以包含位于氨基端处或附近的NLS,大约或超过大约1、2、3、4、5、6、7、8、9、10个位于羧基端处或附近的NLS,或其任何组合(例如,一个或多个位于氨基端处的NLS和一个或多个位于羧基端处的NLS)。当存在超过一个NLS时,每一个NLS可以独立于其他NLS而选择,使得单个NLS可以存在于超过一个拷贝中及/或与一个或多个其他NLS组合存在于一个或多个拷贝中。
所述方法中使用的CRISPR酶可以包含大约6个NLS。当最接近NLS的氨基酸处于沿着多肽链从N端或C端起约50个氨基酸内,例如,1、2、3、4、5、10、15、20、25、30、40或50个氨基酸内时,则将NLS视为位于N端或C端附近。
具有降低的排他性的Cas9结构域
典型地,Cas9蛋白诸如来自化脓链球菌的Cas9(spCas9)需要经典的NGG PAM序列来结合特定的核酸区域,其中“NGG”中的“N”是腺苷(A)、胸苷(T)或胞苷(C),并且G是鸟苷。这可能限制了编辑基因组内所希望的碱基的能力。在一些实施方案中,本文所提供的碱基编辑融合蛋白可能需要被放置在精确位置处,例如,在包含位于PAM上游的靶标碱基的区域。参见例如,Komor,A.C.,等人,“Programmable editing of a target base in genomicDNA without double-stranded DNA cleavage”Nature 533,420-424(2016),其整体内容通过引用并入本文。据此,在一些实施方案中,本文所提供的任何融合蛋白可以含有能够结合不含经典(例如,NGG)PAM序列的核苷酸序列的Cas9结构域。结合至非经典PAM序列的Cas9结构域已经在本领域中有所描述并且对于技术人员将会是显而易见的。例如,结合非经典PAM序列的Cas9结构域已经在以下文献中有所描述:Kleinstiver,B.P.,等人,“EngineeredCRISPR-Cas9 nucleases with altered PAM specificities”Nature 523,481-485(2015);Kleinstiver,B.P.,等人,“Broadening the targeting range ofStaphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”NatureBiotechnology 33,1293-1298(2015);Nishimasu,H.,等人,“Engineered CRISPR-Cas9nuclease with expanded targeting space”Science.2018Sep 21;361(6408):1259-1262;Chatterjee,P.,等人,Minimal PAM specificity of a highly similar SpCas9ortholog”Sci Adv.2018 Oct 24;4(10):eaau0766.doi:10.1126/sciadv.aau0766,各自的整体内容通过引用并入本文。
具有内部插入物的融合蛋白
本文提供融合蛋白,所述融合蛋白包含与核酸可编程核酸集合蛋白(例如,napDNAbp)融合的异源多肽。异源多肽可以是未见于天然或野生型napDNAbp多肽序列中的多肽。异源多肽可以在napDNAbp的C端、napDNAbp的N-端与napDNAbp融合,或者可以插入到napDNAbp的内部位置处。在一些实施方案中,异源多肽插入到napDNAbp的内部位置处。
在一些实施方案中,异源多肽是脱氨酶或其功能性片段。例如,融合蛋白可包含位于Cas9或Cas12(例如,Cas12b/C2c1)多肽的N端片段和C端片段的两侧。融合蛋白中的脱氨酶可以是腺苷脱氨酶。在一些实施方案中,腺苷脱氨酶是TadA(例如,TadA7.10或TadA*8)。在一些实施方案中,TadA是TadA*8。本文所述的TadA序列(例如,TadA7.10或TadA*8)是用于上述融合蛋白的合适脱氨酶。
脱氨酶可以是环状完全突变脱氨酶。例如,脱氨酶可以是环状完全突变脱氨酶。在一些实施方案中,脱氨酶是环状完全突变TadA,在如TadA参考序列中编号的氨基酸残基116处被环状完全突变。在一些实施方案中,脱氨酶是环状完全突变TadA,在如TadA参考序列中编号的氨基酸残基136处被环状完全突变。在一些实施方案中,脱氨酶是环状完全突变TadA,在如TadA参考序列中编号的氨基酸残基65处被环状完全突变。
融合蛋白可以包含超过一种脱氨酶。融合蛋白可包含,例如,1、2、3、4、5或更多种脱氨酶。在一些实施方案中,融合蛋白包含一种脱氨酶。在一些实施方案中,融合蛋白包含两种脱氨酶。两种或更多种脱氨酶可以是同二聚体。两种或更多种脱氨酶可以是异二聚体。两种或更多种脱氨酶可以串联插入napDNAbp中。在一些实施方案中,两种或更多种脱氨酶可以不串联插入napDNAbp中。
在一些实施方案中,融合蛋白中的napDNAbp是Cas9多肽或其片段。Cas9多肽可以是变体Cas9多肽。在一些实施方案中,Cas9多肽是Cas9切口酶(nCas9)多肽或其片段。在一些实施方案中,Cas9多肽是核酸酶死亡的Cas9(dCas9)多肽或其片段。融合蛋白中的Cas9多肽可以是全长Cas9多肽。在一些情况下,融合蛋白中的Cas9多肽可以不是全长Cas9多肽。Cas9多肽可以在例如N端或C端相对于天然出现的Cas9蛋白截短。Cas9多肽可以是环状完全突变的Cas9蛋白。Cas9多肽可以是Cas9多肽的片段、部分或结构域,其仍能够结合靶标多核苷酸和向导核酸序列。
在一些实施方案中,Cas9多肽是化脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9),或其片段或变体。
融合蛋白的Cas9可以包含氨基酸序列,所述氨基酸序列与天然出现的Cas9多肽为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。
融合蛋白的Cas9可包含氨基酸序列,所述氨基酸序列与下文详述的Cas9氨基酸序列(下文称为“Cas9参考序列”)为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同:
Figure BDA0003480255960002101
Figure BDA0003480255960002111
Figure BDA0003480255960002112
(单下划线:HNH结构域;双下划线:RuvC结构域)。
包含侧翼具有Cas9多肽的N端和C端的异源催化结构域的融合蛋白也可用于进行本文所述方法中的碱基编辑。包含Cas9和一种或多种脱氨酶结构域(例如,腺苷脱氨酶)或包含侧翼具有Cas9序列的腺苷脱氨酶结构域的融合蛋白也可用于对靶标序列进行高度特异性的有效碱基编辑。在一种实施方案中,嵌合Cas9融合蛋白含有插入Cas9多肽内的异源催化结构域(例如,腺苷脱氨酶)。在一些实施方案中,融合蛋白包含腺苷脱氨酶结构域和插入到Cas9内的腺苷脱氨酶结构域。在一些实施方案中,腺苷脱氨酶融合在Cas9内,并且腺苷脱氨酶融合至C端。在一些实施方案中,腺苷脱氨酶融合在Cas9内,并且腺苷脱氨酶融合至N端。在一些实施方案中,腺苷脱氨酶融合在Cas9内,并且腺苷脱氨酶融合至C端。在一些实施方案中,腺苷脱氨酶融合在Cas9内,并且腺苷脱氨酶融合至N端。
在多种实施方案中,催化机构与具有DNA修饰活性(例如,脱氨酶活性),诸如腺苷脱氨酶活性。在一些实施方案中,腺苷脱氨酶是TadA(例如,TadA7.10)。在一些实施方案中,TadA是TadA*8。在一些实施方案中,TadA*8融合在Cas9内,并且腺苷脱氨酶融合至C端。在一些实施方案中,TadA*8融合在Cas9内,并且腺苷脱氨酶融合至N端。在一些实施方案中,腺苷脱氨酶融合在Cas9内,并且TadA*8融合至C端。在一些实施方案中,腺苷脱氨酶融合在Cas9内,并且TadA*8融合至N端。具有TadA*8和腺苷脱氨酶以及Cas9的融合蛋白的示例性结构提供如下:
NH2-[Cas9(TadA*8)]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9(TadA*8)]-COOH;
NH2-[Cas9(腺苷脱氨酶)]-[TadA*8]-COOH;或
NH2-[TadA*8]-[Cas9(腺苷脱氨酶)]-COOH。
在一些实施方案中,上述通用结构中使用的“-”表示存在任选的连接子。
可以将异源多肽(例如,脱氨酶)插入napDNAbp(例如,Cas9或Cas12(例如,Cas12b/C2c1))的合适位置处,例如,使得napDNAbp保留其结合靶标多核苷酸和向导核酸的能力。可以将脱氨酶(例如,腺苷脱氨酶)插入napDNAbp中而不破坏所述脱氨酶的功能(例如,碱基编辑活性)或所述napDNAbp的功能(例如,结合至靶标核酸和向导核酸的能力)。可以将脱氨酶(例如,腺苷脱氨酶)插入napDNAbp的例如无序区域内或包含高温因子或B-因子的区域中,如通过晶体学研究所示。蛋白质的不太有序、无序或非结构化区域,例如暴露于溶剂的区域和环,可以用于插入而不破坏结构或功能。可以将脱氨酶(例如,腺苷脱氨酶)插入napDNAbp的柔性环区域中或暴露于溶剂的区域中。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入Cas9或Cas12b/C2c1多肽的柔性环中。
在一些实施方案中,通过对Cas9多肽晶体结构的B-因子分子来确定脱氨酶(例如,腺苷脱氨酶)的插入位置。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入Cas9肽的包含高于平均值的B因子(例如,与总蛋白或包含无序区域的蛋白结构域相比,更高的B因子)的区域中。B-因子或温度因子可以表明原子从其平均位置的波动(例如,作为温度依赖性原子振动或晶格中的静态无序的结果)。主链原子的高B-因子(例如,高于平均B-因子)可以指示具有相对高的局部迁移率的区域的标志。此类区域可用于插入脱氨酶而不破坏结构和功能。可以将脱氨酶(例如,腺苷脱氨酶)插入某一位置处,所述位置具有含Cα原子的残基且B-因子比总蛋白的平均B因子高50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或超过200%。可以将脱氨酶(例如,腺苷脱氨酶)插入某一位置处,所述位置具有含Cα原子的残基且B-因子比包含所述残基的Cas9蛋白结构域的平均B因子高50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或超过200%。包含高于平均值的B因子的Cas9多肽位置可以包括,例如,残基768、792、1052、1015、1022、1026、1029、1067、1040、1054、1068、1246、1247和1248,如上述Cas9参考序列中编号。包含高于平均值的B因子的Cas9多肽区域可以包括,例如,残基792-872、792-906和2-791,如上述Cas9参考序列中编号。
可以将异源多肽(例如,脱氨酶)插入napDNAbp中的选自由以下所组成的组的氨基酸残基处:768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。在一些实施方案中,将异源多肽插入如上述Cas9参考序列中编号的氨基酸位置768-769、791-792、792-793、1015-1016、1022-1023、1026-1027、1029-1030、1040-1041、1052-1053、1054-1055、1067-1068、1068-1069、1247-1248或1248-1249之间或其相应的氨基酸位置处。在一些实施方案中,将异源多肽插入如上述Cas9参考序列中编号的氨基酸位置769-770、792-793、793-794、1016-1017、1023-1024、1027-1028、1030-1031、1041-1042、1053-1054、1055-1056、1068-1069、1069-1070、1248-1249或1249-1250之间或其相应的氨基酸位置处。在一些实施方案中,异源多肽代替选自由下列组成的组的氨基酸残基:768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。应理解,关于插入位置而对上述Cas9参考序列的引用仅用于例示性说明目的。本文所讨论的插入不限于上述Cas9参考序列的Cas9多肽序列,而是包括在变体Cas9多肽(例如,Cas9切口酶(nCas9)、核酸酶死亡的Cas9(dCas9)、缺乏核酸酶结构域的Cas9变体、截短的Cas9、或缺乏部分或完整的HNH结构域的Cas9结构域)中相应位置处的插入。
可以将异源多肽(例如,脱氨酶)插入napDNAbp中的选自由以下所组成的组的氨基酸残基处:768、792、1022、1026、1040、1068和1247,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。在一些实施方案中,将异源多肽插入如上述Cas9参考序列中编号的氨基酸位置768-769、792-793、1022-1023、1026-1027、1029-1030、1040-1041、1068-1069或1247-1248之间或其相应的氨基酸位置处。在一些实施方案中,将异源多肽插入如上述Cas9参考序列中编号的氨基酸位置769-770、793-794、1023-1024、1027-1028、1030-1031、1041-1042、1069-1070或1248-1249之间或其相应的氨基酸位置处。在一些实施方案中,异源多肽代替选自由下列组成的组的氨基酸残基:768、792、1022、1026、1040、1068和1247,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。
异源多肽(例如,脱氨酶)可以在如本文所述的氨基酸残基处或另一Cas9多肽的相应氨基酸残基处插入napDNAbp内。在一种实施方案中,可以将异源多肽(例如,脱氨酶)插入napDNAbp中的选自由以下所组成的组的氨基酸残基处:1002、1003、1025、1052-1056、1242-1247、1061-1077、943-947、686-691、569-578、530-539和1060-1077,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。可将脱氨酶(例如,腺苷脱氨酶)插入在残基的N端或C端或替换所述残基。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入在残基的C端。
在一些实施方案中,将腺苷脱氨酶(例如,TadA)插入选自由下列组成的组的氨基酸残基处:1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。在一些实施方案中,将腺苷脱氨酶(例如,TadA)插入在残基792-872、792-906或2-791的位置处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将腺苷脱氨酶插入选自由下列所组成的组的氨基酸的N端:1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。在一些实施方案中,将腺苷脱氨酶插入选自由下列所组成的组的氨基酸的C端:1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。在一些实施方案中,将腺苷脱氨酶插入以替换选自由下列所组成的组的氨基酸:1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。
在一些实施方案中,将CBE(例如,APOBEC1)插入选自由下列组成的组的氨基酸残基处:1016、1023、1029、1040、1069和1247,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。在一些实施方案中,将ABE插入选自由下列所组成的组的氨基酸的N端:1016、1023、1029、1040、1069和1247,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。在一些实施方案中,将ABE插入选自由下列所组成的组的氨基酸的C端:1016、1023、1029、1040、1069和1247,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。在一些实施方案中,将ABE插入以替换选自由下列所组成的组的氨基酸:1016、1023、1029、1040、1069和1247,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。
在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基768处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基768的N端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基768的C端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入以替换氨基酸残基768,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。
在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基791处或插入氨基酸残基792处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基791的N端处或插入氨基酸792的N端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸791的C端处或插入氨基酸792的N端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入以替换氨基酸791或插入以替换氨基酸792,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。
在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1016处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1016的N端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1016的C端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入以替换氨基酸残基1016,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。
在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1022处或插入氨基酸残基1023处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1022的N端处或插入氨基酸残基1023的N端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1022的C端处或插入氨基酸残基1023的C端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入以替换氨基酸残基1022或插入以替换氨基酸残基1023,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。
在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1026处或插入氨基酸残基1029处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1026的N端处或插入氨基酸残基1029的N端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1026的C端处或插入氨基酸残基1029的C端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入以替换氨基酸残基1026或插入以替换氨基酸残基1029,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。
在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1040处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1040的N端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1040的C端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入以替换氨基酸残基1040,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。
在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1052处或插入氨基酸残基1054处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1052的N端处或插入氨基酸残基1054的N端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1052的C端处或插入氨基酸残基1054的C端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入以替换氨基酸残基1052或插入以替换氨基酸残基1054,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。
在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1067处或插入氨基酸残基1068处或插入氨基酸残基1069处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1067的N端处或插入氨基酸残基1068的N端处或插入氨基酸残基1069的N端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1067的C端处或插入氨基酸残基1068的C端处或插入氨基酸残基1069的C端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入以替换氨基酸残基1067或插入以替换氨基酸残基1068或插入以替换氨基酸残基1069,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。
在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1246处或插入氨基酸残基1247处或插入氨基酸残基1248处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1246的N端处或插入氨基酸残基1247的N端处或插入氨基酸残基1248的N端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入氨基酸残基1246的C端处或插入氨基酸残基1247的C端处或插入氨基酸残基1248的C端处,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。在一些实施方案中,将脱氨酶(例如,腺苷脱氨酶)插入以替换氨基酸残基1246或插入以替换氨基酸残基1247或插入以替换氨基酸残基1248,如上述Cas9参考序列中编号,或者另一Cas9多肽的对应氨基酸残基处。
在一些实施方案中,将异源多肽(例如,脱氨酶)插入Cas9多肽的柔性环中。柔性环部分可以选自下列所组成的组:如上述Cas9参考序列中编号的530-537、569-570、686-691、943-947、1002-1025、1052-1077、1232-1247或1298-1300,或另一Cas9肽的相应氨基酸残基。柔性环部分可以选自由下列所组成的组:1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231或1248-1297,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。
异源多肽(例如,腺苷脱氨酶)可以被插入对应于以下氨基酸残基的Cas9多肽区域中:如上述Cas9参考序列中编号的1017-1069、1242-1247、1052-1056、1060-1077、1002-1003、943-947、530-537、568-579、686-691、1242-1247、1298-1300、1066-1077、1052-1056或1060-1077,或另一Cas9多肽的相应氨基酸残基。
可以将异源多肽(例如,腺苷脱氨酶)插入Cas9多肽的被删除区域的位置处。被删除区域可以对应于Cas9多肽的N端或C端。在一些实施方案中,被删除区域对应于如上述Cas9参考序列中编号的残基792-872,或另一Cas9多肽的相应氨基酸残基。在一些实施方案中,被删除区域对应于如上述Cas9参考序列中编号的残基792-906,或另一Cas9多肽的相应氨基酸残基。在一些实施方案中,被删除区域对应于如上述Cas9参考序列中编号的残基2-791,或另一Cas9多肽的相应氨基酸残基。在一些实施方案中,被删除区域对应于如上述Cas9参考序列中编号的残基1017-1069,或其相应氨基酸残基。
示例性的内部融合碱基编辑器提供在下表7A中:
表7A:Cas9蛋白中的插入基因座
BE ID 修饰 其他ID
IBE001 Cas9 TadA ins 1015 ISLAY01
IBE002 Cas9 TadA ins 1022 ISLAY02
IBE003 Cas9 TadA ins 1029 ISLAY03
IBE004 Cas9 TadA ins 1040 ISLAY04
IBE005 Cas9 TadA ins 1068 ISLAY05
IBE006 Cas9 TadA ins 1247 ISLAY06
IBE007 Cas9 TadA ins 1054 ISLAY07
IBE008 Cas9 TadA ins 1026 ISLAY08
IBE009 Cas9 TadA ins 768 ISLAY09
IBE020 delta HNH TadA 792 ISLAY20
IBE021 N端融合单TadA螺旋截短165-末端 ISLAY21
IBE029 TadA-环状完全突变体116 ins 1067 ISLAY29
IBE031 TadA-环状完全突变体136 ins 1248 ISLAY31
IBE032 TadA-环状完全突变体136 ins 1052 ISLAY32
IBE035 δ792-872 TadA ins ISLAY35
IBE036 δ792-906 TadA ins ISLAY36
IBE043 TadA-环状完全突变体65 ins 1246 ISLAY43
IBE044 TadA ins C端截短2 791 ISLAY44
可以将异源多肽(例如,脱氨酶)插入Cas9多肽的结构性或功能性结构域内。可以将异源多肽(例如,脱氨酶)插入Cas9多肽的两个结构性或功能性结构域之间。可以将异源多肽(例如,脱氨酶)插入Cas9多肽的结构性或功能性结构域的位置处,例如,在从Cas9多肽删除所述结构域之后。Cas9多肽的结构性或功能性结构域可以包括,例如,RuvC I、RuvCII、RuvC III、Rec1、Rec2、PI或HNH。
在一些实施方案中,Cas9多肽缺少选自以下所组成的组的一个或多个结构域:RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI或HNH结构域。在一些实施方案中,Cas9多肽缺少核酸酶结构域。在一些实施方案中,Cas9多肽缺少HNH结构域。在一些实施方案中,Cas9多肽缺少HNH结构域的一部分,使得所述Cas9多肽的HNH活性下降或消失。在一些实施方案中,Cas9多肽包含核酸酶结构域的缺失,并且插入脱氨酶以代替所述核酸酶结构域。在一些实施方案中,HNH结构域被删除,并且脱氨酶被插入到其位置处。在一些实施方案中,一个或多个RuvC结构域被删除,并且脱氨酶被插入到其位置处。
包含异源多肽的融合蛋白侧翼可以具有napDNAbp的N端和C端片段。在一些实施方案中,融合蛋白包含侧翼具有napDNAbp的N端和C端片段的脱氨酶。所述N端片段或C端片段可以结合靶标多核苷酸序列。所述N端片段的C端或所述C端片段的N端可以包含Cas9多肽的柔性环的一部分。所述N端片段的C端或所述C端片段的N端可以包含Cas9多肽的α-螺旋结构的一部分。所述C端片段的N端可以包含DNA结合结构域。所述C端片段的N端可以包含RuvC结构域。所述C端片段的N端可以包含HNH结构域。在一些实施方案中,所述N端片段和C端片段都不包含HNH结构域。
在一些实施方案中,所述N端Cas9片段的C端包含一个氨基酸,当融合蛋白将靶标核碱基脱氨基时,所述氨基酸接近所述靶标核碱基。在一些实施方案中,所述C端Cas9片段的N端包含一个氨基酸,当融合蛋白将靶标核碱基脱氨基时,所述氨基酸接近所述靶标核碱基。不同脱氨酶的插入位置可以不同,以便在靶标核碱基与N端Cas9片段的C端或C端Cas9片段的N端之间具有近距离。例如,ABE的插入位置可以位于选自由以下组成的组的氨基酸残基处:1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。
融合蛋白的N端Cas9片段(即,位于融合蛋白中脱氨酶侧翼的N端Cas9片段)可以包含Cas9多肽的N端。融合蛋白的N端Cas9片段可以包含至少约下列的长度:100、200、300、400、500、600、700、800、900、1000、1100、1200或1300个氨基酸。融合蛋白的N端Cas9片段可以包含对应于以下氨基酸残基的序列:如上述Cas9参考序列中编号的1至56、1至95、1至200、1至300、1至400、1至500、1至600、1至700、1至718、1至765、1至780、1至906、1至918或1至1100,或另一Cas9多肽的相应氨基酸残基。融合蛋白的N端Cas9片段可以包含序列,所述序列包含与以下氨基酸序列至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%序列同一性:如上述Cas9参考序列中编号的1至56、1至95、1至200、1至300、1至400、1至500、1至600、1至700、1至718、1至765、1至780、1至906、1至918或1至1100,或另一Cas9多肽的相应氨基酸残基。
融合蛋白的C端Cas9片段(即,位于融合蛋白中脱氨酶侧翼的C端Cas9片段)可以包含Cas9多肽的C端。融合蛋白的C端Cas9片段可以包含至少约下列的长度:100、200、300、400、500、600、700、800、900、1000、1100、1200或1300个氨基酸。融合蛋白的C端Cas9片段可以包含对应于以下氨基酸残基的序列:1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。融合蛋白的N端Cas9片段可以包含序列,所述序列包含与以下氨基酸序列至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%序列同一性:1099至1368、918至1368、906至1368、780至1368、765至1368、718至1368、94至1368或56至1368,如上述Cas9参考序列中编号,或者另一Cas9多肽的相应氨基酸残基处。
融合蛋白的N端Cas9片段和C端Cas9片段整体看来可能并不对应于全长度天然出现的Cas9多肽序列,例如,如上述Cas9参考序列中详述的。
本文所述的融合蛋白可以实现靶向脱氨基,并且在非靶标位点(例如,脱靶位点)处的脱氨基作用减少,诸如全基因组假脱氨基作用减少。本文所述的融合蛋白可以实现靶向脱氨基,并且在非靶标位点的旁观者脱氨基作用减少。与例如包含融合至Cas9多肽的N端或C端的脱氨酶的末端融合蛋白相比,不希望的脱氨基作用或脱靶脱氨基作用可以减少至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或至少99%。与例如包含融合至Cas9多肽的N端或C端的脱氨酶的末端融合蛋白相比,不希望的脱氨基作用或脱靶脱氨基作用可以减少1倍、至少2倍、至少3倍、至少4倍、至少5倍、至少10倍、至少15倍、至少20倍、至少30倍、至少40倍、至少50倍、至少60倍、至少70倍、至少80倍、至少90倍或至少100倍。
在一些实施方案中,融合蛋白的脱氨酶(例如,腺苷脱氨酶)将R环范围内的不超过两个核碱基脱氨基。在一些实施方案中,融合蛋白的脱氨酶将R环范围内的不超过三个核碱基脱氨基。在一些实施方案中,融合蛋白的脱氨酶将R环范围内的不超过2、3、4、5、6、7、8、9或10个核碱基脱氨基。R环是一种三链核酸结构,其包括DNA:RNA杂交物、DNA:DNA或RNA:RNA互补结构亦即与单链DNA缔合。如本文所用,R环可在靶标多核苷酸与CRISPR复合物或碱基编辑复合物接触时形成,其中向导多核苷酸(例如,向导RNA)的一部分与靶标多核苷酸(例如,靶标DNA)的一部分杂交并替换所述靶标多核苷酸的一部分。在一些实施方案中,R环包含间隔序列与靶标DNA互补序列的经杂交区域。R环区域可以为约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核碱基对的长度。在一些实施方案中,R环区域为约20个核碱基对的长度。应理解,如本文所用,R环区域不限于与向导多核苷酸杂交的靶标DNA链。例如,R环区域内靶标核碱基的编辑可以是对包含与向导RNA的互补链的DNA链的编辑,或者可以是对作为与向导RNA的互补链相反的链的DNA链的编辑。在一些实施方案中,R环区域中的编辑包含编辑靶标DNA序列中向导RNA的非互补链(前间隔序列链)上的核碱基。
本文所述的融合蛋白可以在不同于经典碱基编辑的编辑窗内实现靶标脱氨基。在一些实施方案中,靶标核碱基位于靶标多核苷酸序列中PAM序列的上游约1至约20个碱基处。在一些实施方案中,靶标核碱基位于靶标多核苷酸序列中PAM序列的上游约2至约12个碱基处。在一些实施方案中,靶标核碱基位于与PAM序列相距或所述PAM序列上游约1至9个碱基对、约2至10个碱基对、约3至11个碱基对、约4至12个碱基对、约5至13个碱基对、约6至14个碱基对、约7至15个碱基对、约8至16个碱基对、约9至17个碱基对、约10至18个碱基对、约11至19个碱基对、约12至20个碱基对、约1至7个碱基对、约2至8个碱基对、约3至9个碱基对、约4至10个碱基对、约5至11个碱基对、约6至12个碱基对、约7至13个碱基对、约8至14个碱基对、约9至15个碱基对、约10至16个碱基对、约11至17个碱基对、约12至18个碱基对、约13至19个碱基对、约14至20个碱基对、约1至5个碱基对、约2至6个碱基对、约3至7个碱基对、约4至8个碱基对、约5至9个碱基对、约6至10个碱基对、约7至11个碱基对、约8至12个碱基对、约9至13个碱基对、约10至14个碱基对、约11至15个碱基对、约12至16个碱基对、约13至17个碱基对、约14至18个碱基对、约15至19个碱基对、约16至20个碱基对、约1至3个碱基对、约2至4个碱基对、约3至5个碱基对、约4至6个碱基对、约5至7个碱基对、约6至8个碱基对、约7至9个碱基对、约8至10个碱基对、约9至11个碱基对、约10至12个碱基对、约11至13个碱基对、约12至14个碱基对、约13至15个碱基对、约14至16个碱基对、约15至17个碱基对、约16至18个碱基对、约17至19个碱基对、约18至20个碱基对处。在一些实施方案中,靶标核碱基位于与PAM序列相距或所述PAM序列上游约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个碱基对处。在一些实施方案中,靶标核碱基位于PAM序列上游约1、2、3、4、5、6、7、8或9个碱基对处。在一些实施方案中,靶标核碱基位于PAM序列上游约2、3、4或6个碱基对处。
融合蛋白可以包含超过一种异源多肽。例如,融合蛋白可以额外地包含一种或多种UGI结构域和/或一种或多种核定位信号。所述两种或更多种异源结构域可以串联插入。可以将两种或更多种异源结构域插入多个位置处,使得它们在NapDNAbp中不是串联的。
融合蛋白可包含位于脱氨酶与napDNAbp多肽之间的连接子。连接子可以是肽或非肽连接子。例如,连接子可以是XTEN、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES。在一些实施方案中,融合蛋白包含位于N端Cas9片段与脱氨酶之间的连接子。在一些实施方案中,融合蛋白包含位于C端Cas9片段与脱氨酶之间的连接子。在一些实施方案中,napDNAbp的N端和C端片段通过连接子连结至脱氨酶。在一些实施方案中,N端和C端片段不通过连接子连结至脱氨酶结构域。在一些实施方案中,融合蛋白包含位于N端Cas9片段与脱氨酶之间的连接子,但不包含位于C端Cas9片段与脱氨酶之间的连接子。在一些实施方案中,融合蛋白包含位于C端Cas9片段与脱氨酶之间的连接子,但不包含位于N端Cas9片段与脱氨酶之间的连接子。
在一些实施方案中,融合蛋白中的napDNAbp是Cas12多肽(例如,Cas12b/C2c1)或其片段。Cas12多肽可以是变体Cas12多肽。在其他实施方案中,Cas12多肽的N端或C端片段包含核酸可编程DNA结合结构域或RuvC结构域。在其他实施方案中,融合蛋含有位于Cas12多肽与催化结构域之间的连接子。在其他实施方案中,连接子的氨基酸序列是GGSGGS或GSSGSETPGTSESATPESSG。在其他实施方案中,连接子是刚性连接子。在上述方面的其他实施方案中,连接子由GGAGGCTCTGGAGGAAGC或GGCTCTTCTGGATCTGAAACACCTGGCACAAGCGAGAGCGCCACCCCTGAGAGCTCTGGC编码。
包含侧翼具有Cas12多肽的N端和C端的异源催化结构域的融合蛋白也可用于进行本文所述方法中的碱基编辑。包含Cas12和一种或多种脱氨酶结构域(例如,腺苷脱氨酶)或包含侧翼具有Cas12序列的腺苷脱氨酶结构域的融合蛋白也可用于对靶标序列进行高度特异性的有效碱基编辑。在一种实施方案中,嵌合Cas12融合蛋白含有插入Cas12多肽内的异源催化结构域(例如,腺苷脱氨酶)。在一些实施方案中,融合蛋白包含腺苷脱氨酶结构域和插入到Cas12内的腺苷脱氨酶结构域。在一些实施方案中,腺苷脱氨酶融合在Cas12内,并且腺苷脱氨酶融合至C端。在一些实施方案中,腺苷脱氨酶融合在Cas12内,并且腺苷脱氨酶融合至N端。在一些实施方案中,腺苷脱氨酶融合在Cas12内,并且腺苷脱氨酶融合至C端。在一些实施方案中,腺苷脱氨酶融合在Cas12内,并且腺苷脱氨酶融合至N端。具有腺苷脱氨酶和腺苷脱氨酶以及Cas12的融合蛋白的示例性结构提供如下:
NH2-[Cas12(腺苷脱氨酶)]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas12(腺苷脱氨酶)]-COOH;
NH2-[Cas12(腺苷脱氨酶)]-[腺苷脱氨酶]-COOH;或
NH2-[腺苷脱氨酶]-[Cas12(腺苷脱氨酶)]-COOH;
在一些实施方案中,上述通用结构中使用的“-”表示存在任选的连接子。
在多种实施方案中,催化机构与具有DNA修饰活性(例如,脱氨酶活性),诸如腺苷脱氨酶活性。在一些实施方案中,腺苷脱氨酶是TadA(例如,TadA7.10)。在一些实施方案中,TadA是TadA*8。在一些实施方案中,TadA*8融合在Cas12内,并且腺苷脱氨酶融合至C端。在一些实施方案中,TadA*8融合在Cas12内,并且腺苷脱氨酶融合至N端。在一些实施方案中,腺苷脱氨酶融合在Cas12内,并且TadA*8融合至C端。在一些实施方案中,腺苷脱氨酶融合在Cas12内,并且TadA*8融合至N端。具有TadA*8和腺苷脱氨酶以及Cas12的融合蛋白的示例性结构提供如下:
N-[Cas12(TadA*8)]-[腺苷脱氨酶]-C;
N-[腺苷脱氨酶]-[Cas12(TadA*8)]-C;
N-[Cas12(腺苷脱氨酶)]-[TadA*8]-C;或
N-[TadA*8]-[Cas12(腺苷脱氨酶)]-C。
在一些实施方案中,上述通用结构中使用的“-”表示存在任选的连接子。
在其他实施方案中,融合蛋白含有一个或多个催化结构域。在其他实施方案中,一个或多个催化结构域中的至少一个插入到Cas12多肽内或融合在Cas12 N端或C端。在其他实施方案中,一个或多个催化结构域中的至少一个插入到Cas12多肽的环、α螺旋区、非结构化部分或溶剂可及部分。在其他实施方案中,Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i。在其他实施方案中,Cas12多肽与外村尚芽孢杆菌Cas12b、热噬淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸性脂环酸芽孢杆菌Cas12b具有至少约85%的氨基酸序列同一性。在其他实施方案中,Cas12多肽与外村尚芽孢杆菌Cas12b、热噬淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸性脂环酸芽孢杆菌Cas12b具有至少约90%的氨基酸序列同一性。在其他实施方案中,Cas12多肽与外村尚芽孢杆菌Cas12b、热噬淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸性脂环酸芽孢杆菌Cas12b具有至少约95%的氨基酸序列同一性。在其他实施方案中,Cas12多肽含有外村尚芽孢杆菌Cas12b、热噬淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸性脂环酸芽孢杆菌Cas12b的片段或基本上尤其组成。
在其他实施方案中,将催化结构域插入BhCas12b的氨基酸位置153-154、255-256、306-307、980-981、1019-1020、534-535、604-605或344-345之间或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的相应的氨基酸残基处。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸P153和S154之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K255和E256之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸D980和G981之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K1019和L1020之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸F534和P535之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K604和G605之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸H344和F345之间。在其他实施方案中,催化结构域插入在BvCas12b的位置147和148,248和249,299和300,991和992、或者1031和1032之间,或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的对应氨基酸残基处。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸P147和D148之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸G248和G249之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸P299和E300之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸G991和E992之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸K1031和M1032之间。在其他实施方案中,催化结构域插入在AaCas12b的位置157和158、258和259、310和311、1008和1009、或者1044和1045之间,或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的对应氨基酸残基处。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸P157和G158之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸V258和G259之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸D310和P311之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸G1008和E1009之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸G1044和K1045之间。
在其他实施方案中,融合蛋白含有核定位信号(例如,二分体核定位信号)。在其他实施方案中,核定位信号的氨基酸序列是MAPKKKRKVGIHGVPAA。在上述方面的其他实施方案中,核定位信号由以下序列编码:
ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCC。在其他实施方案中,Cas12b多肽含有突变,所述突变静默RuvC结构域的催化活性。在其他实施方案中,Cas12b多肽含有D574A、D829A和/或D952A突变。在其他实施方案中,融合蛋白进一步含有标签(例如,流感病毒血凝素标签)。
在一些实施方案中,融合蛋白包含napDNAbp结构域(例如,衍生自Cas12的结构域)和内部融合的核碱基编辑结构域(例如,脱氨酶结构域(例如,腺苷脱氨酶够用)的全部或一部分)的融合蛋白。在一些实施方案中,napDNAbp是Cas12b。在一些实施方案中,碱基编辑器包含BhCas12b结构域和插入在下表7B中提供的基因座处的内部融合的TadA*8结构域。
表7B:Cas12b蛋白中的插入基因座
BhCas12b 插入位点 在aa之间插入
位置1 153 PS
位置2 255 KE
位置3 306 DE
位置4 980 DG
位置5 1019 KL
位置6 534 FP
位置7 604 KG
位置8 344 HF
BvCas12b 插入位点 在aa之间插入
位置1 147 PD
位置2 248 GG
位置3 299 PE
位置4 991 GE
位置5 1031 KM
AaCas12b 插入位点 在aa之间插入
位置1 157 PG
位置2 258 VG
位置3 310 DP
位置4 1008 GE
位置5 1044 GK
作为非限制性示例,可以将腺苷脱氨酶(例如,ABE8.13)插入到BhCas12b内以产生融合蛋白(例如,ABE8.13-BhCas12b),所述融合蛋白有效地编辑核酸序列。
在一些实施方案中,本文所述的碱基编辑系统包含具有插入到Cas9中的TadA的ABE。提供了相关的具有插入到Cas9中的TadA的ABE的序列。
101 Cas9 TadAins 1015
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
102 Cas9 TadAins 1022
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
103 Cas9 TadAins 1029
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
103 Cas9 TadAins 1040
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
105 Cas9 TadAins 1068
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDTGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
106 Cas9 TadAins 1247
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
107 Cas9 TadAins 1054
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
108 Cas9 TadAins 1026
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
109 Cas9 TadAins 768
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.1 Cas9 TadAins 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPREDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.2 Cas9 TadAins 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPREDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.3 Cas9 TadAins 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPREDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.4 Cas9 TadAins 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMRREDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.5 Cas9 TadAins 1249
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMRRPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.5 Cas9 TadAinsδ59-66 1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSSGSETPGTSESATPESGSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.6 Cas9 TadAins 1251
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMRRDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.7 Cas9 TadAins 1252
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMRRNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.8Cas9 TadAinsδ59-66 C-截短1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
111.1 Cas9 TadAins 997
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
111.2 Cas9 TadAins 997
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSSGSETPGTSESATPESSGGSSIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
112 δHNH TadA
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
113 N端单TadA螺旋截短165-末端
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
114 N端单TadA螺旋截短165-末端δ59-65
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
115.1 Cas9 TadAins 1004
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
115.2 Cas9 TadAins 1005
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
115.3 Cas9 TadAins 1006
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQSEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
115.4 Cas9 TadAins 1007
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
116.1Cas9 TadAins C-端截短2 792
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
116.2 Cas9 TadAins C-端截短2 791
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
116.3 Cas9 TadAins C-端截短2 790
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQLGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
117 Cas9 δ 1017-1069
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
118 Cas9 TadA-CP116ins 1067
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
119 Cas9 TadAins 701
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
120 Cas9 TadACP136ins 1248
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
121 Cas9 TadACP136ins 1052
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGNGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
122 Cas9 TadACP136ins 1041
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
123 Cas9 TadACP139ins 1299
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
124 Cas9 δ 792-872 TadAins
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
125 Cas9 δ 792-906 TadAins
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
126 TadA CP65ins 1003
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
127 TadA CP65ins 1016
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
128 TadA CP65ins 1022
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMITAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
129 TadA CP65ins 1029
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEITAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
130 TadA CP65ins 1041
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
131 TadA CP65ins 1054
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
132 TadA CP65ins 1246
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在一些实施方案中,产生了腺苷脱氨酶碱基编辑器,以将TadA或其变体在经鉴定位置处插入到Cas9多肽中。
示例性但非限制性的融合蛋白在国际PCT申请号PCT/US2020/016285以及美国专利临时申请号62/852,228和62/852,224中有所描述,其内容通过引用而以其整体并入本文。
核碱基编辑结构域
本文描述了包含融合蛋白的碱基编辑器,所述融合蛋白包括多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,脱氨酶结构域)。可将碱基编辑器编程,以通过与能够识别靶标序列的向导多核苷酸相互作用来编辑靶标多核苷酸序列中的一个或多个碱基。一旦靶标序列被识别,碱基编辑器就被锚定在待发生编辑之处的多核苷酸上,然后,碱基编辑器脱氨酶结构域组分可以编辑靶标碱基。
在一些实施方案中,核碱基编辑结构域包括脱氨酶结构域。在一些实施方案中,脱氨酶结构域可以是腺嘌呤脱氨酶或腺苷脱氨酶。在一些实施方案中,“腺嘌呤脱氨酶”和“腺苷脱氨酶”可以互换地使用。核碱基编辑蛋白的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述,其各自通过引用而整体并入本文。也参见,Komor,A.C.,等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage”Nature 551,464-471(2017)和Komor,A.C.,等人,“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),其整体内容通过引用并入本文。
A到G的编辑
在一些实施方案中,本文所述的碱基编辑器可以包含脱氨酶结构域,所述脱氨酶结构域包括腺苷脱氨酶。碱基编辑器的此类腺苷脱氨酶结构域可以促进通过将腺嘌呤(A)脱氨基以形成肌苷(I)而A核碱基编辑为鸟嘌呤(G)核碱基,肌苷展现了G的碱基配对特性。腺苷脱氨酶能够将脱氧核糖核酸(DNA)中的脱氧腺苷残基的腺嘌呤脱氨基(即,移除氨基团)。
在一些实施方案中,本文所提供的核碱基编辑器可以通过将一个或多个蛋白结构域融合在一起从而产生融合蛋白而制备。在某些实施方案中,本文所提供的融合蛋白包含一种或多种特征,所述特征改善融合蛋白的碱基编辑活性(例如,效率、选择性和特异性)。例如,本文所提供的融合蛋白可以包含具有削弱的核酸酶活性的Cas9结构域。在一些实施方案中,本文所提供的融合蛋白可以具有不具有核酸酶活性的Cas9结构域(dCas9)或者被称为Cas9切口酶(nCas9)的切割双链体DNA分子一条链的Cas9结构域。不受缚于任何特定理论,催化残基(例如,H840)的存在保持了Cas9裂解含有与所靶向的A相对的T的未经编辑(例如,未经脱氨)的链。Cas9的催化残基的突变(例如,D10到A10)防止含有所靶向的A残基的经编辑的链的裂解。此类Cas9变体能够基于gRNA定义的靶标序列而在具体位置处生成单链DNA断裂(切口),导致未经编辑的链的修复,最终造成未经编辑的链上T到C的变化。在一些实施方案中,A到G碱基编辑器进一步包含肌苷碱基切除修复的抑制剂,例如,尿嘧啶糖苷酶抑制剂(UGI)结构域或无催化活性的肌苷特异性核酸酶。不受缚于任何特定理论,UGI结构域或无催化活性的肌苷特异性核酸酶可以抑制或防止经脱氨基的腺苷残基(例如,肌苷)的碱基切除修复,这可以改善碱基编辑器的活性或效率。
包含腺苷脱氨酶的碱基编辑器可以作用于任何多核苷酸,包括DNA、RNA和DNA-RNA杂交物。在某些实施方案中,包含腺苷脱氨酶的碱基编辑器可以将包含RNA的多核苷酸的靶标A脱氨基。例如,碱基编辑器可以包含能够将RNA多核苷酸和/或DNA-RNA杂交多核苷酸的靶标A脱氨基的腺苷脱氨酶结构域。在一种实施方案中,被并入碱基编辑器中的腺苷脱氨酶包含作用于RNA的腺苷脱氨酶(ADAR,例如,ADAR1或ADAR2)的全部或一部分。在另一实施方案中,被并入碱基编辑器中的腺苷脱氨酶包含作用于tRNA的腺苷脱氨酶(ADAT)的全部或一部分。包含腺苷脱氨酶结构域的碱基编辑器也可以能够将DNA多核苷酸的A核碱基脱氨基。在一种实施方案中,碱基编辑器的腺苷脱氨酶包含ADAT的全部或一部分,其包含一个或多个允许ADAT将DNA中的靶标A脱氨基的突变。例如,碱基编辑器可以包含来自大肠杆菌的ADAT(EcTadA)的全部或一部分,其包含以下突变中的一个或多个:D108N、A106V、D147Y、E155V、L84F、H123Y、I156F或另一腺苷脱氨酶中的相应突变。
腺苷脱氨酶可以源自任何合适的生物体(例如,大肠杆菌)。在一些实施方案中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、新月柄杆菌或枯草芽孢杆菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌。在一些实施方案中,腺苷脱氨酶是天然出现的腺苷脱氨酶,其包括对应于本文所提供的任何突变(例如,ecTadA中的突变)的一个或多个突变。任何同源蛋白质中的相应残基可以通过例如序列比对和同源残基的确定而鉴定。可以据此产生任何天然出现的腺苷脱氨酶(例如,具有与ecTadA的同源性)的对应于本文所述任何突变(例如,ecTadA中鉴定的任何突变)的突变。
腺苷脱氨酶
在一些实施方案中,本文所述的融合蛋白可以包含脱氨酶结构域,所述脱氨酶结构域包括腺苷脱氨酶。碱基编辑器的此类腺苷脱氨酶结构域可以促进通过将腺嘌呤(A)脱氨基以形成肌苷(I)而A核碱基编辑为鸟嘌呤(G)核碱基,肌苷展现了G的碱基配对特性。腺苷脱氨酶能够将脱氧核糖核酸(DNA)中的脱氧腺苷残基的腺嘌呤脱氨基(即,移除氨基团)。
在一些实施方案中,本文所提供的腺苷脱氨酶能够将腺嘌呤脱氨基。在一些实施方案中,本文所提供的腺苷脱氨酶能够将DNA的脱氧腺苷残基中的腺嘌呤脱氨基。在一些实施方案中,腺苷脱氨酶是天然出现的腺苷脱氨酶,其包括对应于本文所提供的任何突变(例如,ecTadA中的突变)的一个或多个突变。本领域技术人员将能够鉴定任何同源蛋白质中的相应残基,例如,通过序列比对和同源残基的确定。据此,本领域技术人员将能够产生任何天然出现的腺苷脱氨酶(例如,具有与ecTadA的同源性)的对应于本文所述任何突变(例如,ecTadA中鉴定的任何突变)的突变。在一些实施方案中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、新月柄杆菌或枯草芽孢杆菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌。
本公开提供具有增加的效率(>50-60%)和特异性的腺苷脱氨酶变体。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所希望的碱基,并且更不可能编辑不预期改变的碱基(即,“旁观者”)。
在一些实施方案中,腺苷脱氨酶是TadA脱氨酶。在特定实施方案中,TadA是PCT/US2017/045381(WO 2018/027078)中描述的任何一种TadA,所述专利通过引用以其整体并入本文。
在一些实施方案中,本公开的核碱基编辑器是腺苷脱氨酶变体,其包含以下序列中的改变:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(也称为TadA*7.10)。
在特定实施方案中,融合蛋白包含单个(例如,作为单体提供)TadA*8变体。在一些实施方案中,TadA*8与Cas9切口酶连接。在一些实施方案中,本公开的融合蛋白包含,作为异二聚体,野生型TadA(TadA(wt))与TadA*8变体连接。在一些实施方案中,本公开的融合蛋白包含,作为异二聚体,TadA*7.10与TadA*8变体连接。在一些实施方案中,碱基编辑器是包含TadA*8变体单体的ABE8。在一些实施方案中,碱基编辑器是ABE8,其包含TadA*8变体与TadA(wt)的异二聚体。在一些实施方案中,碱基编辑器是ABE8,其包含TadA*8变体与TadA*7.10的异二聚体。在一些实施方案中,碱基编辑器是ABE8,其包含TadA*8变体的异二聚体。在一些实施方案中,TadA*8选自表9。
在一些实施方案中,ABE8选自表8、9、10或11。相关序列如下:
野生型TadA(TadA(wt))或“TadA参考序列”
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
TadA*7.10:
MSEVEFSHEYW MRHALTLAKR ARDEREVPVG AVLVLNNRVI GEGWNRAIGL HDPTAHAEIMALRQGGLVMQ NYRLIDATLY VTFEPCVMCA GAMIHSRIGR VVFGVRNAKT GAAGSLMDVL HYPGMNHRVEITEGILADEC AALLCYFFRM PRQVFNAQKK AQSSTD
在一些实施方案中,腺苷脱氨酶包含氨基酸序列,所述氨基酸序列与下文提供的任何腺苷脱氨酶中详述的任何一个氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。应知悉,本文所提供的腺苷脱氨酶可以包括一个或多个突变(例如,本文所提供的任何突变)。本公开提供任何具有某一百分比的同一性加上任何本文所述突变或其组合的脱氨酶结构域。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,与参考序列或本文所提供的任何腺苷脱氨酶相比,所述氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,与本领域中已知或本文所述的任何一种氨基酸序列相比,所述氨基酸序列具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的毗邻氨基酸残基。
在一些实施方案中,TadA脱氨酶是全长大肠杆菌TadA脱氨酶。例如,在某些实施方案中,腺苷脱氨酶包含氨基酸序列:
MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD。
但应知悉,可用于本申请的其他腺苷脱氨酶对于技术人员是显而易见的并且处于本公开范畴内。例如,腺苷脱氨酶可以是作用于tRNA(ADAT)的腺苷脱氨酶同源物。非限制性地,示例性ADAT同源物的氨基酸序列包括以下:
金黄色葡萄球菌(Staphylococcus aureus)TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌(Bacillus subtilis)TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门氏菌(Salmonella typhimurium(S.typhimurium))TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(Shewanella putrefaciens(S.putrefaciens))TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌(Haemophilus influenzae)F3031(H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTΑΗAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
新月柄杆菌(Caulobacter crescentus(C.crescentus))TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(Geobacter sulfurreducens(G.sulfurreducens))TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
大肠杆菌TadA(ecTadA)的一种实施方案包括以下:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
在一些实施方案中,腺苷脱氨酶来自原核生物。在一些实施方案中,腺苷脱氨酶来自细菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、新月柄杆菌或枯草芽孢杆菌。在一些实施方案中,腺苷脱氨酶来自大肠杆菌。
在一种实施方案中,本公开的融合蛋白包含与TadA*7.10连接的野生型TadA,TadA*7.10与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*7.10结构域(例如,作为单体提供)。在其他实施方案中,ABE7.10编辑器包含TadA*7.10和TadA(wt),它们能够形成异二聚体。
在一些实施方案中,腺苷脱氨酶包含氨基酸序列,所述氨基酸序列与下文提供的任何腺苷脱氨酶中详述的任何一个氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。应知悉,本文所提供的腺苷脱氨酶可以包括一个或多个突变(例如,本文所提供的任何突变)。本公开提供任何具有某一百分比的同一性加上任何本文所述突变或其组合的脱氨酶结构域。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,与参考序列或本文所提供的任何腺苷脱氨酶相比,所述氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,与本领域中已知或本文所述的任何一种氨基酸序列相比,所述氨基酸序列具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的毗邻氨基酸残基。
应知悉,本文所提供的任何突变(例如,基于TadA参考序列)可以被引入其他腺苷脱氨酶中,诸如大肠杆菌TadA(ecTadA)、金黄色葡萄球菌TadA(saTadA)或其他腺苷脱氨酶(例如,细菌腺苷脱氨酶)。对于技术人员将会是显而易见的是,可以类似地比对其他脱氨酶以鉴定可能如本文所提供的那样突变的同源氨基酸残基。因此,可以在具有同源氨基酸残基的其他腺苷脱氨酶(例如,ecTadA)中做出在TadA参考序列中鉴定的任何突变。也应知悉,本文所提供的任何突变均可以独立地或以任何组合形式在TadA参考序列或另一腺苷脱氨酶中做出。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案汇总,腺苷脱氨酶包含D108G、D108N、D108V、D108A或D108Y突变,或者另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V突变,或另一腺苷脱氨酶(例如,野生型TadA或ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E155X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X的存在表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E155D、E155G或E155V突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D147X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X的存在表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D147Y突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X、E155X或D147X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含E155D、E155G或E155V突变。在一些实施方案中,腺苷脱氨酶包含D147Y。
例如,腺苷脱氨酶可以含有包含TadA参考序列中的D108N、A106V、155V和/或D147Y突变,或另一腺苷脱氨酶(例如,野生型TadA或ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的以下突变组(突变组通过“;”分隔),或另一腺苷脱氨酶(例如,或ecTadA)中的相应突变:D108N和A106V;D108N和E155V;D108N和D147Y;A106V和E155V;A106V和D147Y;E155V和D147Y;D108N、A106V和E155V;D108N、A106V和D147Y;D108N、E155V和D147Y;A106V、E155V和D147Y;以及D108N、A106V、E155V和D147Y。但应知悉,本文所提供的相应突变的任何组合均可以在腺苷脱氨酶(例如,ecTadA)中做出。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A106X、R107X、D108X、K110X、M118X、N127X、A138X、F149X、M151X、R153X、Q154X、I156X和/或K157X突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X的存在表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E、或A56S、E59G、E85K、或E85G、M94L、I95L、V102A、F104L、A106V、R107C、或R107H、或R107P、D108G、或D108N、或D108V、或D108A、或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D和/或K157R突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8X、D108X和/或N127X突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N和/或N127S突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X和/或T166X突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155G或E155V或E155D、K161Q、Q163H和/或T166P突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8X、D108X、N127X、D147X、R152X和Q154所组成的组中的一个、两个、三个、四个、五个或六个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8X、M61X、M70X、D108X、N127X、Q154X、E155X和Q163X突变所组成的组中的一个、两个、三个、四个、五个、六个、七个或八个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8X、D108X、N127X、E155X和T166X所组成的组中的一个、两个、三个、四个或五个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸的存在。
在一些实施方案中,腺苷脱氨酶包含选自由的H8X、A106X、D108X、另一腺苷脱氨酶中的一个或多个突变所组成的组中的一个、两个、三个、四个、五个或六个突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自由H8X、R26X、L68X、D108X、N127X、D147X和E155X突变所组成的组中的一个、两个、三个、四个、五个、六个、七个或八个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8X、D108X、A109X、N127X和E155X所组成的组中的一个、两个、三个、四个或五个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸的存在。
在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8Y、D108N、N127S、D147Y、R152C和Q154H所组成的组中的一个、两个、三个、四个、五个或六个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8Y、M61I、M70V、D108N、N127S、Q154R、E155G和Q163H所组成的组中的一个、两个、三个、四个、五个、六个、七个或八个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8Y、D108N、N127S、E155V和T166P所组成的组中的一个、两个、三个、四个或五个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8Y、A106T、D108N、N127S、E155D和K161Q所组成的组中的一个、两个、三个、四个、五个或六个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8Y、R26W、L68Q、D108N、N127S、D147Y和E155V所组成的组中的一个、两个、三个、四个、五个、六个、七个或八个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8Y、D108N、A109T、N127S和E155G所组成的组中的一个、两个、三个、四个或五个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
本文所提供的任何突变和任何其他突变(例如,基于ecTadA氨基酸序列)可以被引入任何其他腺苷脱氨酶中。本文所提供的任何突变均可以独立地或以任何组合形式在TadA参考序列或另一腺苷脱氨酶(例如,ecTadA)中做出。
A到G的核碱基编辑蛋白质的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C ingenomic DNA without DNA cleavage”Nature,551,464-471(2017)中有所描述,其整体内容通过引用并入本文。
在一些实施方案中,腺苷脱氨酶包含另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D108G或D108V突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V和D108N突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107C和D108N突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和Q154H突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和E155V突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D147Y和E155V突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N和N127S突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V、D108N、D147Y和E155V突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变中的一个或多个,或另一腺苷脱氨酶中的一个或多个相应突变,其中X的存在表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S2A、H8Y、I49F、L84F、H123Y、N127S、I156F和/或K160S突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含L84X突变腺苷脱氨酶,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的L84F突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H123X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H123Y突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的I156X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的I156F突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的L84X、A106X、D108X、H123X、D147X、E155X和I156X突变所组成的组中的一个、两个、三个、四个、五个、六个或七个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的S2X、I49X、A106X、D108X、D147X和E155X所组成的组中的一个、两个、三个、四个、五个或六个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8X、A106X、D108X、N127X和K160X所组成的组中的一个、两个、三个、四个或五个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸的存在。
在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的L84F、A106V、D108N、H123Y、D147Y、E155V和I156F所组成的组中的一个、两个、三个、四个、五个、六个或七个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的S2A、I49F、A106V、D108N、D147Y和E155V所组成的组中的一个、两个、三个、四个、五个或六个突变。
在一些实施方案中,腺苷脱氨酶包含选自由TadA参考序列中的H8Y、A106T、D108N、N127S和K160S所组成的组中的一个、两个、三个、四个或五个突变,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25X、R26X、R107X、A142X和/或A143X突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X的存在表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R107K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含对应于TadA参考序列中的本文所述突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S或E25Y突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R26X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R26G、R26N、R26Q、R26C、R26L或R26K突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107P、R107K、R107A、R107N、R107W、R107H或R107S突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N、A142D、A142G突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A143X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S S146X、Q154X、K157X和/或K161X突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X的存在表示除野生型腺苷脱氨酶中的相应氨基酸外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N和/或K161T突变中的一个或多个,或另一腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36L突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的N37X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的N37T或N37S突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48T或P48L突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R51X突变或另一腺苷脱氨酶中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R51H或R51L突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S146X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S146R或S146C突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的K157X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的K157N突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48S、P48T或P48A突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的W23X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的W23R或W23L突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R152X突变或另一腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸以外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R152P或R52H突变,或另一腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一种实施方案中,腺苷脱氨酶可以包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F和K157N。在一些实施方案中,腺苷脱氨酶包含相对于TadA参考序列的突变的下列组合,其中组合的每个突变通过“_”分隔并且突变的每个组合位于括号内:
(A106V_D108N)、
(R107C_D108N)、
(H8Y_D108N_N127S_D147Y_Q154H)、
(H8Y_D108N_N127S_D147Y_E155V)、
(D108N_D147Y_E155V)、
(H8Y_D108N_N127S)、
(H8Y_D108N_N127S_D147Y_Q154H)、
(A106V_D108N_D147Y_E155V)、
(D108Q_D147Y_E155V)、
(D108M_D147Y_E155V)、
(D108L_D147Y_E155V)、
(D108K_D147Y_E155V)、
(D108I_D147Y_E155V)、
(D108F_D147Y_E155V)、
(A106V_D108N_D147Y)、
(A106V_D108M_D147Y_E155V)、
(E59A_A106V_D108N_D147Y_E155V)、
(E59A催化死亡(cat dead)_A106V_D108N_D147Y_E155V)、
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y)、
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(D103A_D104N)、
(G22P_D103A_D104N)、
(D103A_D104N_S138A)、
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、
(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V
_I156F)、(E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_
I156F)、
(R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、
(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V
_I156F)、
(R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F)、(L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F)、
(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、
(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V
_I156F)、
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F)、
(A106V_D108N_A142N_D147Y_E155V)、
(R26G_A106V_D108N_A142N_D147Y_E155V)、
(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V)、
(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V)、
(E25D_R26G_A106V_D108N_A142N_D147Y_E155V)、
(A106V_R107K_D108N_A142N_D147Y_E155V)、
(A106V_D108N_A142N_A143G_D147Y_E155V)、
(A106V_D108N_A142N_A143L_D147Y_E155V)、
(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、
(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F)、
(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T)、
(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F)、
(N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F)、
(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F)、
(H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N)、(H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F)、
(L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、
(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N)、
(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E)、
(H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I156F)、
(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F)、
(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L)、
(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F)、
(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L)、
(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、
(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T)、
(L84F_A106V_D108N_D147Y_E155V_I156F)、
(R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K161T)、
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T)、
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E_K161T)、
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E)、
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F)、
(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F)、
(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F)、
(P48S_A142N)、
(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N)、
(P48T_I49V_A142N)、
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N)、
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152H_E155V_I156F_K157N)、
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V
_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N)、
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T)、
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N)、
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155V
_I156F_K157N)。
在某些实施方案中,本文所提供的融合蛋白包含一种或多种特征,所述特征改善融合蛋白的碱基编辑活性。例如,本文所提供的任何融合蛋白可以包含具有削弱的核酸酶活性的Cas9结构域。在一些实施方案中,本文所提供的任何融合蛋白可以具有不具有核酸酶活性的Cas9结构域(dCas9)或者被称为Cas9切口酶(nCas9)的切割双链体DNA分子一条链的Cas9结构域。
在一些实施方案中,腺苷脱氨酶是TadA*7.10。在一些实施方案中,TadA*7.10包含至少一个改变。在特定实施方案中,TadA*7.10包含以下改变中的一种或多种:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。本文中,改变Y123H也称为H123H(TadA*7.10中的改变H123Y修复为Y123H(wt))。在其他实施方案中,TadA*7.10包含选自以下组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。在特定实施方案中,相对于TadA*7.10(TadA参考序列),腺苷脱氨酶变体包含C端的缺失,所述缺失起始于残基149、150、151、152、153、154、155、156和157,或另一TadA中的对应突变。
在其他实施方案中,本公开的碱基编辑器是包含腺苷脱氨酶变体(例如,TadA*8)的单体,所述腺苷脱氨酶变体包含一种或多种以下改变:相对于TadA*7.10(TadA参考序列),Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,或另一TadA中的相应突变。在其他实施方案中,腺苷脱氨酶变体(TadA*8)是单体,其包含选自以下组的改变的组合:相对于TadA*7.10(TadA参考序列),Y147T+Q154R、Y147T+Q154S、Y147R+Q154S、V82S+Q154S、V82S+Y147R、V82S+Q154R、V82S+Y123H、I76Y+V82S、V82S+Y123H+Y147T、V82S+Y123H+Y147R、V82S+Y123H+Q154R、Y147R+Q154R+Y123H、Y147R+Q154R+I76Y、Y147R+Q154R+T166R、Y123H+Y147R+Q154R+I76Y、V82S+Y123H+Y147R+Q154R、和I76Y+V82S+Y123H+Y147R+Q154R,或另一TadA中的相应突变。在其他实施方案中,碱基编辑器是异二聚体,其包含野生型腺苷脱氨酶和腺苷脱氨酶变体(例如,TadA*8),所述腺苷脱氨酶变体结构域包含以下突变中的一种或多种:相对于TadA*7.10(TadA参考序列),Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,或另一TadA中的相应突变。在其他实施方案中,碱基编辑器是异二聚体,其包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如,TadA*8),所述腺苷脱氨酶变体结构域包含选自以下组的改变的组合:相对于TadA*7.10(TadA参考序列),Y147T+Q154R、Y147T+Q154S、Y147R+Q154S、V82S+Q154S、V82S+Y147R、V82S+Q154R、V82S+Y123H、I76Y+V82S、V82S+Y123H+Y147T、V82S+Y123H+Y147R、V82S+Y123H+Q154R、Y147R+Q154R+Y123H、Y147R+Q154R+I76Y、Y147R+Q154R+T166R、Y123H+Y147R+Q154R+I76Y、V82S+Y123H+Y147R+Q154R、和I76Y+V82S+Y123H+Y147R+Q154R,或另一TadA中的相应突变。
在一个实施方案中,腺苷脱氨酶是TadA*8,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD
在一些实施方案中,TadA*8是经截短的。在一些实施方案中,相对于全长度TadA*8,经截短的TadA*8失去了1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个N端氨基酸残基。在一些实施方案中,相对于全长度TadA*8,经截短的TadA*8失去了1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个C端氨基酸残基。在一些实施方案中,腺苷脱氨酶变体是全长度TadA*8。
在一些实施方案中,TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。
在一种实施方案中,本公开的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如,TadA*8)连接的野生型TadA,所述腺苷脱氨酶变体与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*8结构域(例如,作为单体提供)。在其他实施方案中,碱基编辑器包含TadA*8和TadA(wt),它们能够形成异二聚体。示例性序列如下:
TadA(wt)或“TadA参考序列”:
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
TadA*7.10:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
TadA*8:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD.
在一些实施方案中,腺苷脱氨酶包含氨基酸序列,所述氨基酸序列与下文提供的任何腺苷脱氨酶中详述的任何一个氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。应知悉,本文所提供的腺苷脱氨酶可以包括一个或多个突变(例如,本文所提供的任何突变)。本公开提供任何具有某一百分比的同一性加上任何本文所述突变或其组合的脱氨酶结构域。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,与参考序列或本文所提供的任何腺苷脱氨酶相比,所述氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个突变。在一些实施方案中,腺苷脱氨酶包含氨基酸序列,与本领域中已知或本文所述的任何一种氨基酸序列相比,所述氨基酸序列具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的毗邻氨基酸残基。
在特定实施方案中,TadA*8包含位于以粗体显示的以下任何位置处的一个或多个突变。在其它实施方案中,TadA*8包含位于以下划线显示的任何位置处的一个或多个突变:
Figure BDA0003480255960002961
例如,相对于TadA*7.10(TadA参考序列),TadA*8包含位于氨基酸位置82和/或166处的改变(例如,V82S、T166R),所述改变单独存在或与以下Y147T、Y147R、Q154S、Y123H和/或Q154R中的任何一个或多个组合,或另一TadA中的相应突变。在特定实施方案中,改变的组合选自下列的组:相对于TadA*7.10(TadA参考序列),Y147T+Q154R、Y147T+Q154S、Y147R+Q154S、V82S+Q154S、V82S+Y147R、V82S+Q154R、V82S+Y123H、I76Y+V82S、V82S+Y123H+Y147T、V82S+Y123H+Y147R、V82S+Y123H+Q154R、Y147R+Q154R+Y123H、Y147R+Q154R+I76Y、Y147R+Q154R+T166R、Y123H+Y147R+Q154R+I76Y、V82S+Y123H+Y147R+Q154R、和I76Y+V82S+Y123H+Y147R+Q154R,或另一TadA中的相应突变。
在一些实施方案中,腺苷脱氨酶是TadA*8,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
MSEVEFSHEY WMRHALTLAK RARDEREVPV GAVLVLNNRV IGEGWNRAIG LHDPTAHAEIMALRQGGLVM QNYRLIDATL YVTFEPCVMC AGAMIHSRIG
RVVFGVRNAK TGAAGSLMDV LHYPGMNHRV EITEGILADE CAALLCTFFR MPRQVFNAQKKAQSSTD
在一些实施方案中,TadA*8是经截短的。在一些实施方案中,相对于全长度TadA*8,经截短的TadA*8失去了1、2、3、4、5,6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个N端氨基酸残基。在一些实施方案中,相对于全长度TadA*8,经截短的TadA*8失去了1、2、3、4、5,6、7、8、9、10、11、12、13、14、15、6、17、18、19或20个C端氨基酸残基。在一些实施方案中,腺苷脱氨酶变体是全长度TadA*8。
在一种实施方案中,本公开的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如,TadA*8)连接的野生型TadA,所述腺苷脱氨酶变体与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*8结构域(例如,作为单体提供)。在其他实施方案中,碱基编辑器包含TadA*8和TadA(wt),它们能够形成异二聚体。
额外结构域
本文所述的碱基编辑器可以包括帮助促进多核苷酸的核碱基的核碱基编辑、修饰或改变的任何结构域。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域(例如,Cas9)、核碱基编辑结构域(例如,脱氨酶结构域)和一个或多个额外结构域。在一些实施方案中,额外结构域可以促进碱基编辑器的酶促或催化功能、碱基编辑器的结合功能,或者可以是将会干扰所希望的碱基编辑结果的细胞机构(例如,酶)的抑制剂。在一些实施方案中,碱基编辑器可以包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰转移酶、转录激活因子或转录阻遏物结构域。
在一些实施方案中,碱基编辑器可以包含尿嘧啶糖苷酶抑制剂(UGI)结构域。在一些实施方案中,应答U:G异源双链体DNA的存在的细胞DNA修复可能是细胞内核碱基编辑效率下降的原因。在此类实施方案中,尿嘧啶DNA糖苷酶(UDG)可以催化U从细胞内的DNA中移除,这可能启动碱基切除修复(BER),主要导致U:G对逆转为C:G对。在此类实施方案中,BER可以在包含一个或多个结构域的碱基编辑器中被抑制,所述结构域结合单链,阻断被编辑的碱基,抑制UGI,抑制BER,保护被编辑的碱基和/或促使未经编辑的链的修复。因此,本公开设想了包含UGI结构域的碱基编辑器融合蛋白。
在一些实施方案中,碱基编辑器包含双链断裂(DSB)结合蛋白的全部或一部分作为结构域。例如,DSB结合蛋白可以包括细菌噬菌体Mu的Gam蛋白,其结合至DSB的末端并且可以包含DSB免于降解。参见,Komor,A.C.,等人,“Improved base excision repairinhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editorswith higher efficiency and product purity”Science Advances 3:eaao4774(2017),其整体内容通过引用并入本文。
此外,在一些实施方案中,Gam蛋白可以融合至碱基编辑器的N端。在一些实施方案中,Gam蛋白可以融合至碱基编辑器的C端。细菌噬菌体Mu的Gam蛋白可以结合至双链断裂(DSB)的末端并且保护它们免于降解。在一些实施方案中,使用Gam来结合DSB的自由末端可以减少碱基编辑过程中的插入缺失形成。在一些实施方案中,将174个残基的Gam蛋白融合至碱基编辑器的N端。参见,Komor,A.C.,等人,“Improved base excision repairinhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editorswith higher efficiency and product purity”Science Advances 3:eaao4774(2017)。在一些实施方案中,一个或多个突变可以改变碱基编辑器结构域相对于野生型结构域的长度。例如,在至少一个结构域中至少一个氨基酸的缺失可以缩短碱基编辑器的长度。在另一种情况下,一个或多个突变不改变结构域相对于野生型结构域的长度。例如,任何结构域中的一种或多种置换不改变碱基编辑器的长度。
在一些实施方案中,碱基编辑器可以包含核酸聚合酶(NAP)的全部或一部分作为结构域。例如,碱基编辑器可以包含真核生物NAP的全部或一部分。在一些实施方案中,被并入碱基编辑器中的NAP或其部分是DNA聚合酶。在一些实施方案中,被并入碱基编辑器中的NAP或其部分具有跨损伤聚合酶活性。在一些实施方案中,被并入碱基编辑器中的NAP或其部分是跨损伤DNA聚合酶。在一些实施方案中,被并入碱基编辑器中的NAP或其部分是Rev7、Rev1复合物、聚合酶ι、聚合酶κ或聚合酶η。在一些实施方案中,被并入碱基编辑器中的NAP或其部分是真核生物聚合酶α、β、γ、δ、ε、ζ、γ、η、ι、κ、λ、μ或ν组分。在一些实施方案中,被并入碱基编辑器中的NAP或其部分包含氨基酸序列,所述氨基酸序列与核酸聚合酶(例如,跨损伤DNA聚合酶)为至少75%、80%、85%、90%、95%、96%、97%、98%、99%或99.5%相同。
碱基编辑器系统
本文所提供的碱基编辑器的使用包括以下步骤:(a)将受试者的多核苷酸(例如,双链或者单链DNA或RNA)的靶标核苷酸序列与包含核碱基编辑器(例如,腺苷碱基编辑器)和向导多核苷酸(例如,gRNA)的碱基编辑器系统接触,其中靶标核苷酸序列包含被靶向的核碱基对;(b)诱导所述靶标区域的链分离;(c)将靶标区域的单链中的所述靶标核碱基对的第一核碱基转化为第二核碱基;以及(d)切割所述靶标区域的不超过一条链,其中与第一核碱基互补的第三核碱基被替换为与第二核碱基互补的第四核碱基。应知悉,在一些实施方案中,省略了步骤(b)。在一些实施方案中,所述被靶向的核碱基对是一个或多个基因中的多个核碱基对。在一些实施方案中,本文所提供的碱基编辑器系统能够对一个或多个基因中的多个核碱基对进行多元编辑。
在一些实施方案中,多个核碱基对定位在同一基因中。在一些实施方案中,多个核碱基对定位在一个或多个基因中,其中至少一个基因定位在不同的基因座中。
在一些实施方案中,被切割的单链(被切口的链)与向导核酸杂交。在一些实施方案中,被切割的单链与包含第一核碱基的链相对。
在一些实施方案中,碱基编辑器包含Cas9结构域。在一些实施方案中,第一碱基是腺嘌呤,并且第二碱基不是G、C、A或T。在一些实施方案中,第二碱基是肌苷。
本文所提供的碱基编辑系统提供新的基因组编辑途径,所述系统使用含有催化缺陷性化脓链球菌Cas9、腺苷脱氨酶和碱基切除修复抑制剂的融合蛋白来诱导DNA中的可编程单核苷酸(A→G)变化而不产生双链DNA断裂、不需要供体DNA模板并且不诱导过量的随机插入和缺失。
本文提供用于使用碱基编辑器系统来编辑核碱基的系统、组合物和方法。在一些实施方案中,碱基编辑器系统包含(1)包含多核苷酸可编程核苷酸结合结构域和用于编辑核碱基的核碱基编辑结构域(例如,脱氨酶结构域)的碱基编辑器(BE);和(2)与所述多核苷酸可编程核苷酸结合结构域协同作用的向导多核苷酸(例如,向导RNA)。在一些实施方案中,碱基编辑器系统包含腺苷碱基编辑器(ABE)。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中,核碱基编辑结构域是脱氨酶结构域。在一些实施方案中,脱氨酶结构域可以是腺嘌呤脱氨酶或腺苷脱氨酶。
在一些实施方案中,腺苷碱基编辑器可以将DNA中的腺嘌呤脱氨基。在一些实施方案中,ABE包含进化的TadA变体。
核碱基编辑蛋白的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中描述,其各自通过引用而整体并入本文。也参见,Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)和Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),其整体内容通过引用并入本文。
在一些实施方案中,单向导多核苷酸可用将脱氨酶靶向靶标核酸序列。在一些实施方案中,一对向导多核苷酸可用将不同的脱氨酶靶向靶标核酸序列。
碱基编辑器系统的核碱基组分和多核苷酸可编程核苷酸结合组分可以彼此共价或非共价地缔合。例如,在一些实施方案中,脱氨酶结构域可以通过多核苷酸可编程核苷酸结合结构域被靶向至靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以融合或连接至脱氨酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与脱氨酶结构域非共价地相互作用或缔合而将脱氨酶结构域靶向至核苷酸序列。例如,在一些实施方案中,核碱基编辑组分(例如,脱氨酶组分)可以包含额外的异源部分或结构域,所述异源部分或结构域能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够结合至向导多核苷酸。在一些实施方案中,额外异源部分可以能够结合至多肽连接子。在一些实施方案中,额外异源部分可以能够结合至多核苷酸连接子。额外异源部分可以是蛋白结构域。在一些实施方案中,额外异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu外壳蛋白结构域、不育α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白、或RNA识别基序。
碱基编辑器系统可以进一步包含向导多核苷酸组分。应知悉,碱基编辑器系统的组分可以彼此经由共价键彼此缔合、非共价相互作用、或其缔合及相互作用的任何组合。在一些实施方案中,脱氨酶结构域可以通过向导多核苷酸被靶向至靶标核苷酸序列。例如,在一些实施方案中,碱基编辑器系统的核碱基编辑组分(例如,脱氨酶组分)可以包含额外异源部分或结构域(例如,多核苷酸结合结构域诸如RNA或DNA结合蛋白),所述额外异源部分或结构域能够与向导多核苷酸的部分或链段(例如,多核苷酸基序)相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分或结构域(例如,多核苷酸结合结构域诸如RNA或DNA结合蛋白)可以融合或连接至脱氨酶结构域。在一些实施方案中,额外异源部分可以能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够结合至向导多核苷酸。在一些实施方案中,额外异源部分可以能够结合至多肽连接子。在一些实施方案中,额外异源部分可以能够结合至多核苷酸连接子。额外异源部分可以是蛋白结构域。在一些实施方案中,额外异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu外壳蛋白结构域、不育α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白、或RNA识别基序。
在一些实施方案中,碱基编辑器系统可以进一步包含碱基切除修复(BER)组分的抑制剂。应知悉,碱基编辑器系统的组分可以彼此经由共价键彼此缔合、非共价相互作用、或其缔合及相互作用的任何组合。BER组分的抑制剂可以包含碱基切除修复抑制剂。在一些实施方案中,碱基切除修复的抑制剂可以是尿嘧啶DNA糖苷酶抑制剂(UGI)。在一些实施方案中,碱基切除修复的抑制剂可以是肌苷碱基切除修复抑制剂。在一些实施方案中,碱基切除修复的抑制剂可以通过多核苷酸可编程核苷酸结合结构域被靶向至靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以融合或连接至碱基切除修复的抑制剂。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以融合或连接至脱氨酶结构域和碱基切除修复的抑制剂。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与碱基切除修复的抑制剂非共价地相互作用或缔合而将碱基切除修复的抑制剂靶向至核苷酸序列。例如,在一些实施方案中,碱基切除修复组分的抑制剂可以包含额外的异源部分或结构域,所述异源部分或结构域能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,碱基切除修复的抑制剂可以通过向导多核苷酸被靶向至靶标核苷酸序列。例如,在一些实施方案中,碱基切除修复的抑制剂可以包含额外异源部分或结构域(例如,多核苷酸结合结构域诸如RNA或DNA结合蛋白),所述额外异源部分或结构域能够与向导多核苷酸的部分或链段(例如,多核苷酸基序)相互作用、缔合或形成复合物。在一些实施方案中,向导多核苷酸的额外异源部分或结构域(例如,多核苷酸结合结构域诸如RNA或DNA结合蛋白)可以融合或连接至碱基切除修复的抑制剂。在一些实施方案中,额外异源部分可以能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,额外异源部分可以能够结合至向导多核苷酸。在一些实施方案中,额外异源部分可以能够结合至多肽连接子。在一些实施方案中,额外异源部分可以能够结合至多核苷酸连接子。额外异源部分可以是蛋白结构域。在一些实施方案中,额外异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu外壳蛋白结构域、不育α基序、端粒酶Ku结合基序和Ku蛋白、端粒酶Sm7结合基序和Sm7蛋白、或RNA识别基序。
在一些实施方案中,碱基编辑器抑制被编辑链的碱基切除修复(BER)。在一些实施方案中,碱基编辑器保护或结合未经编辑的链。在一些实施方案中,碱基编辑器包含UGI活性。在一些实施方案中,碱基编辑器包含无催化活性的肌苷特异性核酸酶。在一些实施方案中,碱基编辑器包含切口酶活性。在一些实施方案中,预期的碱基对编辑位于PAM位点的上游。在一些实施方案中,预期的碱基对编辑位于PAM位点的上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸处。在一些实施方案中,预期的碱基对编辑位于PAM位点的下游。在一些实施方案中,预期的被编辑碱基对位于PAM位点的下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸处。
在一些实施方案中,所述方法不需要经典(例如,NGG)PAM位点。在一些实施方案中,核碱基编辑器包含连接子或间隔序列。在一些实施方案中,连接子或间隔序列为1-25个氨基酸的长度。在一些实施方案中,连接子或间隔序列为5-20个氨基酸的长度。在一些实施方案中,连接子或间隔序列为10、11、12、13、14、15、16、17、18、19或20个氨基酸的长度。
在一些实施方案中,本文所提供的碱基编辑融合蛋白需要被定位在精确位置处,例如,靶标碱基被放置在定义区域(例如,“脱氨基窗”)内。在一些实施方案中,靶标可以位于4个碱基的区域内。在一些实施方案中,此类定义的靶标区域可以位于PAM的上游大约15个碱基处。参见,Komor,A.C.,等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage”Nature 551,464-471(2017)和Komor,A.C.,等人,“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),其整体内容通过引用并入本文。
在一些实施方案中,靶标区域包含靶标窗,其中靶标窗包含靶标核碱基对。在一些实施方案中,靶标窗包含1-10个核苷酸。在一些实施方案中,靶标窗为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸的长度。在一些实施方案中,预期的碱基对编辑位于靶标窗内。在一些实施方案中,靶标窗包含预期的碱基对编辑。在一些实施方案中,使用本文所提供的任何碱基编辑器执行所述方法。在一些实施方案中,靶标窗是脱氨基窗。脱氨基窗可以是定义的区域,在所述区域中,碱基编辑器作用于靶标核苷酸并将所述靶标核苷酸脱氨基。在一些实施方案中,脱氨基窗位于2、3、4、5、6、7、8、9或10个碱基的区域内。在一些实施方案中,脱氨基窗位于PAM的上游5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基处。
本公开的碱基编辑器可以包含任何促进靶标多核苷酸序列的编辑的结构域、特征和氨基酸序列。例如,在一些实施方案中,碱基编辑器包含核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS定位在脱氨酶结构域与多核苷酸可编程核苷酸结合结构域之间。在一些实施方案中,碱基编辑器的NLS定位在多核苷酸可编程核苷酸结合结构域的C端。
可存在于本所公开的碱基编辑器中的其他示例性特征是定位序列,诸如细胞质定位序列、输出序列诸如核输出序列、或其他定位序列,以及可用于融合蛋白的溶解、纯化或检测的序列标签。本文所提供的合适的蛋白标签包括但不限于,生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血细胞凝集素(HA)标签、聚组氨酸标签(也称为组氨酸标签或His标签)、麦芽糖结合蛋白(MBP)标签、nus标签、谷胱甘肽-S-转移酶(GST)标签、绿色荧光蛋白(GFP)标签、硫氧还蛋白标签、S标签、Softag(例如,Softag 1、Softag 3)、链霉素标签、生物素连接酶标签、FlAsH标签、V5标签和SBP标签。其他合适的序列对于本领域技术人员将是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
可以包括在融合蛋白中的蛋白结构域的非限制性示例包括脱氨酶结构域(例如,腺苷脱氨酶)、尿嘧啶糖苷酶抑制剂(UGI)结构域、表位标签和报告基因序列。
表位标签的非限制性示例包括组氨酸(His)标签、V5标签、FLAG标签、流感病毒血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报告基因的示例包括但不限于,谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β-葡糖醛酸糖苷酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和包括蓝色荧光蛋白(BFP)在内的自体荧光蛋白。额外蛋白质序列可以包括结合DNA分子或结合其他细胞分子的氨基酸序列,包括但不限于,麦芽糖结合蛋白(MBP)、S标签、Lex A DNA结合结构域(DBD)融合物、GAL4 DNA结合结构域融合物和单纯疱疹病毒(HSV)BP16蛋白融合物。
在一些实施方案中,腺苷碱基编辑器(ABE)可以将DNA中的腺嘌呤脱氨基。在一些实施方案中,ABE是通过将BE3的APOBEC1组分替换为天然或经工程化的大肠杆菌TadA、人ADAR2、小鼠ADA或人ADAT2而产生的。在一些实施方案中,ABE包含进化的TadA变体。在一些实施方案中,ABE是ABE 1.2(TadA*-XTEN-nCas9-NLS)。在一些实施方案中,TadA*包含A106V和D108N突变。
在一些实施方案中,ABE是第二代ABE。在一些实施方案中,ABE是ABE2.1,其包含TadA*(TadA*2.1)中的额外突变D147Y和E155V。在一些实施方案中,ABE是ABE2.2,其是融合至无催化活性版本的人烷基腺嘌呤DNA糖苷酶(具有E125Q突变的AAG)的ABE2.1。在一些实施方案中,ABE是ABE2.3,其是融合至无催化活性版本的大肠杆菌Endo V(具有D35A突变而无活性)的ABE2.1。在一些实施方案中,ABE是ABE2.6,其具有两倍于ABE2.1中的连接子的连接子(32个氨基酸,(SGGS)2-XTEN-(SGGS)2)。在一些实施方案中,ABE是ABE2.7,其是以额外的野生型TadA单体系结的ABE2.1。在一些实施方案中,ABE是ABE2.8,其是以额外的TadA*2.1单体系结的ABE2.1。在一些实施方案中,ABE是ABE2.9,其是进化的TadA(TadA*2.1)直接融合至ABE2.1的N端的融合物。在一些实施方案中,ABE是ABE2.10,其是野生型TadA直接融合至ABE2.1的N端的融合物。在一些实施方案中,ABE是ABE2.11,其是在TadA*单体的N端处具有无活性E59A突变的ABE2.9。在一些实施方案中,ABE是ABE2.12,其是在内部TadA*单体处具有无活性E59A突变的ABE2.9。
在一些实施方案中,ABE是第三代ABE。在一些实施方案中,ABE是ABE3.1,其是具有三个额外TadA突变(L84F、H123Y和I156F)的ABE2.3。
在一些实施方案中,ABE是第四代ABE。在一些实施方案中,ABE是ABE4.3,其是具有额外TadA突变A142N(TadA*4.3)的ABE3.1。
在一些实施方案中,ABE是第五代ABE。在一些实施方案中,ABE是ABE5.1,其通过将来自存活克隆体的一组常见突变(H36L、R51L、S146C和K157N)导入ABE3.1中而产生的。在一些实施方案中,ABE是ABE5.3,其具有含有野生型大肠杆菌TadA与内部进化的TadA*融合的异二聚构建体。在一些实施方案中,ABE是ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13或ABE5.14,如下表8中所示。在一些实施方案中,ABE是第六代ABE。在一些实施方案中,ABE是ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5或ABE6.6,如下表8中所示。在一些实施方案中,ABE是第七代ABE。在一些实施方案中,ABE是ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE 7.9或ABE7.10,如下表8中所示。
表8:ABE的基因型
Figure BDA0003480255960003061
Figure BDA0003480255960003071
在一些实施方案中,碱基编辑器是第八代ABE(ABE8)。在一些实施方案中,ABE8含有TadA*8变体。在一些实施方案中,ABE8具有含有TadA*8变体的单体构建体(“ABE8.x-m”)。在一些实施方案中,ABE8是ABE8.1-m,其具有含有具有Y147T突变的TadA*7.10的单体构建体(TadA*8.1)。在一些实施方案中,ABE8是ABE8.2-m,其具有含有具有Y147R突变的TadA*7.10(TadA*8.2)的单体构建体。在一些实施方案中,ABE8是ABE8.3-m,其具有含有具有Q154S突变的TadA*7.10(TadA*8.3)的单体构建体。在一些实施方案中,ABE8是ABE8.4-m,其具有含有具有Y123H突变的TadA*7.10(TadA*8.4)的单体构建体。在一些实施方案中,ABE8是ABE8.5-m,其具有含有具有V82S突变的TadA*7.10(TadA*8.5)的单体构建体。在一些实施方案中,ABE8是ABE8.6-m,其具有含有具有T166R突变的TadA*7.10(TadA*8.6)的单体构建体。在一些实施方案中,ABE8是ABE8.7-m,其具有含有具有Q154R突变的TadA*7.10(TadA*8.7)的单体构建体。在一些实施方案中,ABE8是ABE8.8-m,其具有含有具有Y147R、Q154R和Y123H突变的TadA*7.10(TadA*8.8)的单体构建体。在一些实施方案中,ABE8是ABE8.9-m,其具有含有具有Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.9)的单体构建体。在一些实施方案中,ABE8是ABE8.10-m,其具有含有具有Y147R、Q154R和T166R突变的TadA*7.10(TadA*8.10)的单体构建体。在一些实施方案中,ABE8是ABE8.11-m,其具有含有具有Y147T和Q154R突变的TadA*7.10(TadA*8.11)的单体构建体。在一些实施方案中,ABE8是ABE8.12-m,其具有含有具有Y147T和Q154S突变的TadA*7.10(TadA*8.12)的单体构建体。在一些实施方案中,ABE8是ABE8.13-m,其具有含有具有Y123H(Y123H从H123Y逆转)、Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.13)的单体构建体。在一些实施方案中,ABE8是ABE8.14-m,其具有含有具有I76Y和V82S突变的TadA*7.10(TadA*8.14)的单体构建体。在一些实施方案中,ABE8是ABE8.15-m,其具有含有具有V82S和Y147R突变的TadA*7.10(TadA*8.15)的单体构建体。在一些实施方案中,ABE8是ABE8.16-m,其具有含有具有V82S、Y123H(Y123H从H123Y逆转)和Y147R突变的TadA*7.10(TadA*8.16)的单体构建体。在一些实施方案中,ABE8是ABE8.17-m,其具有含有具有V82S和Q154R突变的TadA*7.10(TadA*8.17)的单体构建体。在一些实施方案中,ABE8是ABE8.18-m,其具有含有具有V82S、Y123H(Y123H从H123Y逆转)和Q154R突变的TadA*7.10(TadA*8.18)的单体构建体。在一些实施方案中,ABE8是ABE8.19-m,其具有含有具有V82S、Y123H(Y123H从H123Y逆转)、Y147R和Q154R突变的TadA*7.10(TadA*8.19)的单体构建体。在一些实施方案中,ABE8是ABE8.20-m,其具有含有具有I76Y、V82S、Y123H(Y123H从H123Y逆转)、Y147R和Q154R突变的TadA*7.10(TadA*8.20)的单体构建体。在一些实施方案中,ABE8是ABE8.21-m,其具有含有具有Y147R和Q154S突变的TadA*7.10(TadA*8.21)的单体构建体。在一些实施方案中,ABE8是ABE8.22-m,其具有含有具有V82S和Q154S突变的TadA*7.10(TadA*8.22)的单体构建体。在一些实施方案中,ABE8是ABE8.23-m,其具有含有具有V82S和Y123H(Y123H从H123Y逆转)突变的TadA*7.10(TadA*8.23)的单体构建体。在一些实施方案中,ABE8是ABE8.24-m,其具有含有具有V82S、Y123H(Y123H从H123Y逆转)和Y147T突变的TadA*7.10(TadA*8.24)的单体构建体。
在一些实施方案中,ABE8具有含有野生型大肠杆菌与TadA*8变体融合的异二聚构建体(“ABE8.x-d”)。在一些实施方案中,ABE8是ABE8.1-d,其具有含有野生型大肠杆菌TadA与具有Y147T突变的TadA*7.10(TadA*8.1)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.2-d,其具有含有野生型大肠杆菌TadA与具有Y147R突变的TadA*7.10(TadA*8.2)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.3-d,其具有含有野生型大肠杆菌TadA与具有Q154S突变的TadA*7.10(TadA*8.3)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.4-d,其具有含有野生型大肠杆菌TadA与具有Y123H突变的TadA*7.10(TadA*8.4)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.5-d,其具有含有野生型大肠杆菌TadA与具有V82S突变的TadA*7.10(TadA*8.5)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.6-d,其具有含有野生型大肠杆菌TadA与具有T166R突变的TadA*7.10(TadA*8.6)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.7-d,其具有含有野生型大肠杆菌TadA与具有Q154R突变的TadA*7.10(TadA*8.7)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.8-d,其具有含有野生型大肠杆菌TadA与具有Y147R、Q154R和Y123H突变的TadA*7.10(TadA*8.8)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.9-d,其具有含有野生型大肠杆菌TadA与具有Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.9)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.10-d,其具有含有野生型大肠杆菌TadA与具有Y147R、Q154R和T166R突变的TadA*7.10(TadA*8.10)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.11-d,其具有含有野生型大肠杆菌TadA与具有Y147T和Q154R突变的TadA*7.10(TadA*8.11)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.12-d,其具有含有野生型大肠杆菌TadA与具有Y147T和Q154S突变的TadA*7.10(TadA*8.12)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.13-d,其具有含有野生型大肠杆菌TadA与具有Y123H(Y123H从H123Y逆转)、Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.13)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.14-d,其具有含有野生型大肠杆菌TadA与具有I76Y和V82S突变的TadA*7.10(TadA*8.14)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.15-d,其具有含有野生型大肠杆菌TadA与具有V82S和Y147R突变的TadA*7.10(TadA*8.15)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.16-d,其具有含有野生型大肠杆菌TadA与具有V82S、Y123H(Y123H从H123Y逆转)和Y147R突变的TadA*7.10(TadA*8.16)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.17-d,其具有含有野生型大肠杆菌TadA与具有V82S和Q154R突变的TadA*7.10(TadA*8.17)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.18-d,其具有含有野生型大肠杆菌TadA与具有V82S、Y123H(Y123H从H123Y逆转)和Q154R突变的TadA*7.10(TadA*8.18)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.19-d,其具有含有野生型大肠杆菌TadA与具有V82S、Y123H(Y123H从H123Y逆转)、Y147R和Q154R突变的TadA*7.10(TadA*8.19)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.20-d,其具有含有野生型大肠杆菌TadA与具有I76Y、V82S、Y123H(Y123H从H123Y逆转)、Y147R和Q154R突变的TadA*7.10(TadA*8.20)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.21-d,其具有含有野生型大肠杆菌TadA与具有Y147R和Q154S突变的TadA*7.10(TadA*8.21)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.22-d,其具有含有野生型大肠杆菌TadA与具有V82S和Q154S突变的TadA*7.10(TadA*8.22)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.23-d,其具有含有野生型大肠杆菌TadA与具有V82S和Y123H(Y123H从H123Y逆转)突变的TadA*7.10(TadA*8.23)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.24-d,其具有含有野生型大肠杆菌TadA与具有V82S、Y123H(Y123H从H123Y逆转)和Y147T突变的TadA*7.10(TadA*8.24)融合的异二聚构建体。
在一些实施方案中,ABE8具有含有TadA*7.10与TadA*8变体融合的异二聚构建体(“ABE8.x-7”)。在一些实施方案中,ABE8是ABE8.1-7,其具有含有TadA*7.10与具有Y147T突变的TadA*7.10(TadA*8.1)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.2-7,其具有含有TadA*7.10与具有Y147R突变的TadA*7.10(TadA*8.2)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.3-7,其具有含有TadA*7.10与具有Q154S突变的TadA*7.10(TadA*8.3)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.4-7,其具有含有TadA*7.10与具有Y123H突变的TadA*7.10(TadA*8.4)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.5-7,其具有含有TadA*7.10与具有V82S突变的TadA*7.10(TadA*8.5)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.6-7,其具有含有TadA*7.10与具有T166R突变的TadA*7.10(TadA*8.6)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.7-7,其具有含有TadA*7.10与具有Q154R突变的TadA*7.10(TadA*8.7)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.8-7,其具有含有TadA*7.10与具有Y147R、Q154R和Y123H突变的TadA*7.10(TadA*8.8)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.9-7,其具有含有TadA*7.10与具有Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.9)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.10-7,其具有含有TadA*7.10与具有Y147R、Q154R和T166R突变的TadA*7.10(TadA*8.10)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.11-7,其具有含有TadA*7.10与具有Y147T和Q154R突变的TadA*7.10(TadA*8.11)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.12-7,其具有含有TadA*7.10与具有Y147T和Q154S突变的TadA*7.10(TadA*8.12)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.13-7,其具有含有TadA*7.10与具有Y123H(Y123H从H123Y逆转)、Y147R、Q154R和I76Y突变的TadA*7.10(TadA*8.13)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.14-7,其具有含有TadA*7.10与具有I76Y和V82S突变的TadA*7.10(TadA*8.14)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.15-7,其具有含有TadA*7.10与具有V82S和Y147R突变的TadA*7.10(TadA*8.15)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.16-7,其具有含有TadA*7.10与具有V82S、Y123H(Y123H从H123Y逆转)和Y147R突变的TadA*7.10(TadA*8.16)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.17-7,其具有含有TadA*7.10与具有V82S和Q154R突变的TadA*7.10(TadA*8.17)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.18-7,其具有含有TadA*7.10与具有V82S、Y123H(Y123H从H123Y逆转)和Q154R突变的TadA*7.10(TadA*8.18)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.19-7,其具有含有TadA*7.10与具有V82S、Y123H(Y123H从H123Y逆转)、Y147R和Q154R突变的TadA*7.10(TadA*8.19)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.20-7,其具有含有TadA*7.10与具有I76Y、V82S、Y123H(Y123H从H123Y逆转)、Y147R和Q154R突变的TadA*7.10(TadA*8.20)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.21-7,其具有含有TadA*7.10与具有Y147R和Q154S突变的TadA*7.10(TadA*8.21)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.22-7,其具有含有TadA*7.10与具有V82S和Q154S突变的TadA*7.10(TadA*8.22)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.23-7,其具有含有TadA*7.10与具有V82S和Y123H(Y123H从H123Y逆转)突变的TadA*7.10(TadA*8.23)融合的异二聚构建体。在一些实施方案中,ABE8是ABE8.24-7,其具有含有TadA*7.10与具有V82S、Y123H(Y123H从H123Y逆转)和Y147T突变的TadA*7.10(TadA*8.24)融合的异二聚构建体。
在一些实施方案中,ABE是ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d,如下表9中所示。
表9:腺苷脱氨酶碱基编辑器8变体
Figure BDA0003480255960003141
Figure BDA0003480255960003151
在一些实施方案中,通过将腺苷脱氨酶变体(例如,TadA*8)克隆到包括环状完全突变的Cas9(例如,CP5或CP6)和二分体核定位序列的支架中而产生碱基编辑器(例如,ABE8)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是NGC PAM CP5变体(化脓链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是AGA PAM CP5变体(化脓链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是NGC PAM CP6变体(化脓链球菌Cas9或spVRQRCas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是AGA PAM CP6变体(化脓链球菌Cas9或spVRQR Cas9)。
在一些实施方案中,ABE具有下表10中所示的基因型。
表10:ABE的基因型
23 26 36 37 48 49 51 72 84 87 105 108 123 125 142 145 147 152 155 156 157 161
ABE7.9 L R L N A L N F S V N Y G N C Y P V F N K
ABE7.10 R R L N A L N F S V N Y G A C Y P V F N K
如下表11中所示,描述了40种ABE8的基因型。指明了ABE的进化的大肠杆菌TadA部分中的残基位置。当不同于ABE7.10突变时,显示了ABE8中的突变性变化。在一些实施方案中,ABE具有下表11中所示的ABE之一的基因型。
表11:进化的TadA中的残基身份
Figure BDA0003480255960003152
Figure BDA0003480255960003161
在一些实施方案中,碱基编辑器是ABE8.1,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
在一些实施方案中,碱基编辑器是ABE8.1,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
ABE8.1_Y147T_CP5_NGC PAM_单体
Figure BDA0003480255960003171
Figure BDA0003480255960003181
在上述序列中,純文本(plain text)表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,而下划线序列表示二分体核定位序列。
在一些实施方案中,碱基编辑器是ABE8.1,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
pNMG-B335 ABE8.1_Y147T_CP5_NGC PAM_单体
Figure BDA0003480255960003182
Figure BDA0003480255960003191
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,而下划线序列表示二分体核定位序列。
在一些实施方案中,碱基编辑器是ABE8.14,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
具有NGC PAM CP5的pNMG-357_ABE8.14
Figure BDA0003480255960003192
Figure BDA0003480255960003201
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,而下划线序列表示二分体核定位序列。
在一些实施方案中,碱基编辑器是ABE8.8-m,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
ABE8.8-m
Figure BDA0003480255960003202
Figure BDA0003480255960003211
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分体核定位序列,而双下划线序列指示突变。
在一些实施方案中,碱基编辑器是ABE8.8-d,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
ABE8.8-d
Figure BDA0003480255960003212
Figure BDA0003480255960003221
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分体核定位序列,而双下划线序列指示突变。
在一些实施方案中,碱基编辑器是ABE8.13-m,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
ABE8.13-m
Figure BDA0003480255960003222
Figure BDA0003480255960003231
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分体核定位序列,而双下划线序列指示突变。
在一些实施方案中,碱基编辑器是ABE8.13-d,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
ABE8.13-d
Figure BDA0003480255960003232
Figure BDA0003480255960003241
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分体核定位序列,而双下划线序列指示突变。
在一些实施方案中,碱基编辑器是ABE8.17-m,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
ABE8.17-m
Figure BDA0003480255960003242
Figure BDA0003480255960003251
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分体核定位序列,而双下划线序列指示突变。
在一些实施方案中,碱基编辑器是ABE8.17-d,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:ABE8.17-d
Figure BDA0003480255960003261
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分体核定位序列,而双下划线序列指示突变。
在一些实施方案中,碱基编辑器是ABE8.20-m,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
ABE8.20-m
Figure BDA0003480255960003271
Figure BDA0003480255960003281
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分体核定位序列,而双下划线序列指示突变。
在一些实施方案中,碱基编辑器是ABE8.207-d,其包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
ABE8.20-d
Figure BDA0003480255960003282
Figure BDA0003480255960003291
在上述序列中,普通文本表示腺苷脱氨酶序列,粗体序列指示衍生自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分体核定位序列,而双下划线序列指示突变。
在一些实施方案中,本公开的ABE8选自以下序列:
01.monoABE8.1_bpNLS+Y147T
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
02.monoABE8.1_bpNLS+Y147R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
03.monoABE8.1_bpNLS+Q154S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
04.monoABE8.1_bpNLS+Y123H
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
05.monoABE8.1_bpNLS+V82S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
06.monoABE8.1_bpNLS+T166R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSRDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
07.monoABE8.1_bpNLS+Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
08.monoABE8.1_bpNLS+Y147R_Q154R_Y123H
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
09.monoABE8.1_bpNLS+Y147R_Q154R_I76Y
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
10.monoABE8.1_bpNLS+Y147R_Q154R_T166R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSRDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
11.monoABE8.1_bpNLS+Y147T_Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
12.monoABE8.1_bpNLS+Y147T_Q154S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
13.monoABE8.1_bpNLS+H123Y123H_Y147R_Q154R_I76Y
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
14.monoABE8.1_bpNLS+V82S+Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
在一些实施方案中,碱基编辑器是包含与核碱基编辑结构域(例如,脱氨酶结构域的全部或一部分)融合的多核苷酸可编程核苷酸结合结构域(例如,衍生自Cas9的结构域)。在某些实施方案中,本文所提供的融合蛋白包含一种或多种特征,所述特征改善融合蛋白的碱基编辑活性。例如,本文所提供的任何融合蛋白可以包含具有削弱的核酸酶活性的Cas9结构域。在一些实施方案中,本文所提供的任何融合蛋白可以具有不具有核酸酶活性的Cas9结构域(dCas9)或者被称为Cas9切口酶(nCas9)的切割双链体DNA分子一条链的Cas9结构域。
在一些实施方案中,碱基编辑器基因不包含一个结构域,所述结构域包含尿嘧啶糖苷酶抑制剂(UGI)的全部或一部分。在一些实施方案中,碱基编辑器基因不包含一个结构域,所述结构域包含尿嘧啶结合蛋白(UBP)(诸如尿嘧啶DNA糖苷酶(UDG))的全部或一部分。在一些实施方案中,碱基编辑器基因不包含一个结构域,所述结构域包含核酸聚合酶的全部或一部分。在一些实施方案中,被并入碱基编辑器中的核酸聚合酶或其部分是跨损伤DNA聚合酶。
在一些实施方案中,碱基编辑器的结构域可以包含多个结构域。例如,包含衍生自Cas9的多核苷酸可编程核苷酸结合结构域的碱基编辑器可以包含对应于野生型或天然Cas9的REC叶和NUC叶的REC叶和NUC叶。在另一实施例中,碱基编辑器可以包含RuvCI结构域、BH结构域、REC1结构域、REC2结构域、RuvCII结构域、L1结构域、HNH结构域、L2结构域、RuvCIII结构域、WED结构域、TOPO结构域或CTD结构域中的一个或多个。在一些实施方案中,碱基编辑器的一个或多个结构域包含相对于包含所述结构域的野生型版本多肽的突变(例如,置换、插入、缺失)。例如,多核苷酸可编程DNA结合结构域的HNH结构域可以包含H840A置换。在另一实施例中,多核苷酸可编程DNA结合结构域的RuvCI结构域可以包含D10A置换。
本文所公开的碱基编辑器的不同结构域(例如,邻近结构域)可以使用或不是使用一个或多个连接子结构域(例如,XTEN连接子结构域)彼此联接。在一些实施方案中,连接子结构域可以是键(例如,共价键)、化学基团或连接连个分子或部分(例如,融合蛋白的两个结构域,诸如举例而言,第一结构域(例如,衍生自Cas9的结构域)和第二结构域(例如,腺苷脱氨酶结构域))的分子。在一些实施方案中,连接子是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,连接子是酰胺链结的碳-氮键。在某些实施方案中,连接子是环状或非环状的、经取代或未经取代的、分支的或未分支的脂肪族或杂脂肪族连接子。在某些实施方案中,连接子是聚合性的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,连接子包含氨基烷酸的单体、二聚体或聚合物。在一些实施方案中,连接子包含氨基烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些实施方案中,连接子包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,连接子是基于碳环部分(例如,环戊烷、环己烷)的。在其他实施方案中,连接子包含聚乙二醇部分(PEG)。在某些实施方案中,连接子包含芳基或杂芳基部分。在某些实施方案中,连接子是基于苯环的。连接子可以包括经功能化的部分以促进来自肽的亲核体(例如,巯基、氨基)附接至连接子。任何亲电体均可用作连接子的一部分。示例性的亲电体包括但不限于,活化的酯、活化的酰胺、Michael受体、烷基卤化物、芳基卤化物、酰卤和异硫氰酸酯。在一些实施方案中,连接子接合RNA可编程核酸酶的gRNA接合结构域(包括Cas9核酸酶结构域)与核酸编辑蛋白的催化结构域。在一些实施方案中,连接子接合dCas9与第二结构域(例如,UGI等)。
典型地,连接子可以定位在两个基团、分子或其他部分之间或者侧翼具有两个基团、分子或其他部分,并且经由共价键与每个基团、分子或其他部分连结,从而将两者连结。在一些实施方案中,连接子是氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子是有机分子、基团、聚合物或化学部分。在一些实施方案中,连接子为2-100个氨基酸的长度,例如,2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸的长度。在一些实施方案中,连接子为约3至约104(例如,5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95或100)个氨基酸的长度。也设想了更长或更短的连接子。在一些实施方案中,连接子结构域包含氨基酸序列SGSETPGTSESATPES,其也可以称为XTEN连接子。可以采用任何用于连接融合蛋白结构域的方法(例如,从非常柔性的(SGGS)n、(GGGS)n、(GGGGS)n和(G)n形式的连接子到更为刚性的(EAAAK)n、(GGS)n、SGSETPGTSESATPES形式的连接子(参见例如,GuilingerJP,Thompson DB,Liu DR.Fusion of catalytically inactive Cas9 to FokI nucleaseimproves the specificity of genome modification.Nat.Biotechnol.2014;32(6):577-82;其整体内容通过引用并入本文)范围内,或(XP)n基序),以便实现针对核碱基编辑器活性的最优长度。在一些实施方案中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,连接子包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文所提供的融合蛋白的Cas9结构域经由包含氨基酸序列SGSETPGTSESATPES的连接子融合。在一些实施方案中,连接子包含多个脯氨酸残基,并且为5-21、5-14、5-9、5-7个氨基酸的长度,例如,PAPAP、PAPAPA、PAPAPAP、PAPAPAPA、P(AP)4、P(AP)7、P(AP)10(参见例如,Tan J,Zhang F,Karcher D,Bock R.Engineering of high-precision base editors for site-specificsingle nucleotide replacement.Nat Commun.2019 Jan 25;10(1):439;其整体内容通过引用并入本文)。此类富含脯氨酸的连接子也称为“刚性”连接子。
如本文所述的融合蛋白包含核酸编辑结构域。在一些实施方案中,脱氨酶是腺苷脱氨酶。在一些实施方案中,脱氨酶是脊椎动物脱氨酶。在一些实施方案中,脱氨酶是无脊椎动物脱氨酶。在一些实施方案中,脱氨酶是人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠脱氨酶。在一些实施方案中,脱氨酶是人脱氨酶。在一些实施方案中,脱氨酶是大鼠脱氨酶。
连接子
在某些实施方案中,连接子可以用来连接如本文所述的任何多肽或多肽结构域。连接子可以简单到是共价键,或者它可以是长度为很多原子的聚合性连接子。在某些实施方案中,连接子是多肽或是基于多个氨基酸的。在其他实施方案中,连接子不是肽样的。在某些实施方案中,连接子是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,连接子是酰胺链结的碳-氮键。在某些实施方案中,连接子是环状或非环状的、经取代或未经取代的、分支的或未分支的脂肪族或杂脂肪族连接子。在某些实施方案中,连接子是聚合性的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,连接子包含氨基烷酸的单体、二聚体或聚合物。在某些实施方案中,连接子包含氨基烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施方案中,连接子包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,连接子是基于碳环部分(例如,环戊烷、环己烷)的。在其他实施方案中,连接子包含聚乙二醇部分(PEG)。在其他实施方案中,连接子包含氨基酸。在某些实施方案中,连接子包含肽。在某些实施方案中,连接子包含芳基或杂芳基部分。在某些实施方案中,连接子是基于苯环的。连接子可以包括经功能化的部分以促进来自肽的亲核体(例如,巯基、氨基)附接至连接子。任何亲电体均可用作连接子的一部分。示例性的亲电体包括但不限于,活化的酯、活化的酰胺、Michael受体、烷基卤化物、芳基卤化物、酰卤和异硫氰酸酯。
在一些实施方案中,连接子是氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子是键(例如,共价键)、有机分子、基团、聚合物或化学部分。在一些实施方案中,连接子为约3至约104(例如,5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95或100)个氨基酸的长度。
在一些实施方案中,腺苷脱氨酶与napDNAbp经由长度为4、16、32或104个氨基酸的连接子融合。在一些实施方案中,连接子为约3至约104个氨基酸的长度。在一些实施方案中,本文所提供的任何融合蛋白包含经由连接子融合至彼此的腺苷脱氨酶和Cas9结构域。可以在脱氨酶结构域(例如,经工程化的ecTadA)与Cas9结构域之间采用各种连接子长度和柔软度(例如,从非常柔性的(GGGS)n、(GGGGS)n和(G)n形式的连接子到更为刚性的(EAAAK)n、(SGGS)n、SGSETPGTSESATPES形式的连接子(参见例如,Guilinger JP,ThompsonDB,Liu DR.Fusion of catalytically inactive Cas9 to FokI nuclease improves thespecificity of genome modification.Nat.Biotechnol.2014;32(6):577-82;整体内容通过引用并入本文)范围内和(XP)n),以便实现针对核碱基编辑器的活性的最优长度。在一些实施方案中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,连接子包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的任何融合蛋白的腺苷脱氨酶与Cas9结构域经由(例如,XTEN连接子)融合,所述连接子包含氨基酸序列SGSETPGTSESATPES。
具有向导RNA的Cas9复合物
本公开的一些方面提供复合物,其包含本文提供的任何融合蛋白和结合至融合蛋白的CAS9结构域(例如,dCas9、核酸酶活性Cas9或Cas9切口酶)的向导RNA(例如,靶向荷有RTT可靶向突变的Mecp2等位基因的向导)。这些复合物也称为核糖核蛋白(RNP)。可以采用任何用于连接融合蛋白结构域的方法(例如,从非常柔性的(GGGS)n、(GGGGS)n和(G)n形式的连接子到更为刚性的(EAAAK)n、(SGGS)n、SGSETPGTSESATPES(参见,例如Guilinger JP,Thompson DB,Liu DR.Fusion of catalytically inactive Cas9 to FokI nucleaseimproves the specificity of genome modification.Nat.Biotechnol.2014;32(6):577-82;其整体内容通过引用并入本文)和(XP)n范围内),以便实现针对核碱基编辑器活性的最优长度。在一些实施方案中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,连接子包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文所提供的融合蛋白的Cas9结构域经由包含氨基酸序列SGSETPGTSESATPES的连接子融合。
在一些实施方案中,向导核酸(例如,向导RNA)为15-100个核苷酸长,并且包含与靶标序列互补的至少10个毗邻核苷酸。在一些实施方案中,向导RNA为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,向导RNA包含与靶标序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个毗邻核苷酸的序列。在一些实施方案中,靶标序列为DNA序列。在一些实施方案中,靶标序列为细菌、酵母、真菌、昆虫、植物或动物基因组中的序列。在一些实施方案中,靶标序列为人类基因组中的序列。在一些实施方案中,靶标序列的3'末端紧邻经典PAM序列(NGG)。在一些实施方案中,靶标序列的3'紧邻非经典PAM序列(例如,表1中所列的序列或5'-NAA-3')。在一些实施方案中,向导核酸(例如,向导RNA)与荷有RTT可靶向突变的Mecp2等位基因中的序列互补。
本公开的一些方面提供使用本文所提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供包括以下步骤的方法:使DNA分子与本文提供的任何具有至少一种向导RNA的融合蛋白接触,其中所述向导RNA为约15-100个核苷酸长并且包含与靶标序列互补的至少10个毗邻核苷酸。在一些实施方案中,靶标序列的3'末端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶标序列的3'末端紧邻NGA、NAA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5'(TTTV)序列。
应理解,各序列中具体位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号在例如成熟蛋白的前体和成熟蛋白本身中可以不同,并且来自不同物种的序列之间的差异可能影响编号。本领域技术人员将能够通过本领域周知的方法鉴定任何同源蛋白质和相应编码核酸中的各残基,例如,通过序列比对和同源残基的确定。
对于本领域技术人员将会是显而易见的是,为了使本文公开的包含Cas9结构域和腺苷脱氨酶变体(例如,TadA*8)的任何融合蛋白靶向靶标位点,例如,包含待编辑的突变的位点,将融合蛋白与向导RNA(例如,sgRNA)共表达通常是必要的。如本文其余处更详细解释的,向导RNA通常包含允许Cas9结合的tracrRNA框架以及向Cas9:核酸编辑酶/结构域融合蛋白提供序列特异性的向导序列。作为另一种选择,向导RNA和tracrRNA可以作为两个核酸分子而独立地提供。在一些实施方案中,向导RNA包含一结构,其中所述向导序列包含与靶标序列互补的序列。向导序列通常为20个核苷酸长。基于本公开,适用于使Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的向导RNA的序列对于本领域技术人员将会是显而易见的。此类合适的向导RNA序列通常包含与位于待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供了一些适用于使所提供的任何融合蛋白靶向特定靶标序列的示例性向导RNA序列。
本文所公开的碱基编辑器的结构域可以任何次序排列。包含具有例如多核苷酸可编程核苷酸结合结构域和脱氨酶结构域的融合蛋白的碱基编辑器的非限制性示例可以排列如下:
Nh2-[核碱基编辑结构域]-连接子1-[e.g.,2-[核碱基编辑结构域]-连接子1-[例如,衍生自Cas9的结构域]-COOH;
NH2-[例如,腺苷脱氨酶]-连接子1-[例如,衍生自Cas9的结构域]-COOH;
NH2-[例如,腺苷脱氨酶]-连接子1-[例如,衍生自Cas9的结构域]-连接子2-[UGI]-COOH;
NH2-[例如,TadA*7.10]-连接子1-[例如,衍生自Cas9的结构域]-COOH;
NH2-[例如,腺苷脱氨酶]-连接子1-[例如,衍生自Cas9的结构域]-COOH;
NH2-[例如,TadA*7.10]-连接子1-[例如,衍生自Cas9的结构域]-COOH;
NH2-[例如,TadA*7.10]-连接子1-[例如,衍生自Cas9的结构域]-连接子2-[UGI]-COOH;
NH2-[例如,腺苷脱氨酶]-[例如,衍生自Cas9的结构域]-COOH;
NH2-[例如,衍生自Cas9的结构域]-[例如,腺苷脱氨酶]-COOH;
NH2-[例如,腺苷脱氨酶]-[例如,衍生自Cas9的结构域]-[肌苷BER抑制剂]-COOH;
NH2-[例如,腺苷脱氨酶]-[肌苷BER抑制剂]-[例如,衍生自Cas9的结构域]-COOH;
NH2-[肌苷BER抑制剂]-[例如,腺苷脱氨酶]-[例如,衍生自Cas9的结构域]-COOH;
NH2-[例如,衍生自Cas9的结构域]-[例如,腺苷脱氨酶]-[肌苷BER抑制剂]-COOH;
NH2-[例如,衍生自Cas9的结构域]-[肌苷BER抑制剂]-[例如,腺苷脱氨酶]-COOH;或
NH2-[肌苷BER抑制剂]-[例如,衍生自Cas9的结构域]-[例如,腺苷脱氨酶]-COOH。
此外,在一些实施方案中,Gam蛋白可以融合至碱基编辑器的N端。在一些实施方案中,Gam蛋白可以融合至碱基编辑器的C端。细菌噬菌体Mu的Gam蛋白可以结合至双链断裂(DSB)的末端并且保护它们免于降解。在一些实施方案中,使用Gam来结合DSB的自由末端可以减少碱基编辑过程中的插入缺失形成。在一些实施方案中,将174个残基的Gam蛋白融合至碱基编辑器的N端。参见,Komor,A.C.,等人,“Improved base excision repairinhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editorswith higher efficiency and product purity”Science Advances 3:eaao4774(2017)。在一些实施方案中,一个或多个突变可以改变碱基编辑器结构域相对于野生型结构域的长度。例如,在至少一个结构域中至少一个氨基酸的缺失可以缩短碱基编辑器的长度。在另一种情况下,一个或多个突变不改变结构域相对于野生型结构域的长度。例如,任何结构域中的置换不改变碱基编辑器的长度。
在一些实施方案中,本文所提供的碱基编辑融合蛋白需要被定位在精确位置处,例如,靶标碱基被放置在定义区域(例如,“脱氨基窗”)内。在一些实施方案中,靶标可以位于4个碱基的区域内。在一些实施方案中,此类定义的靶标区域可以位于PAM的上游大约15个碱基处。参见,Komor,A.C.,等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage”Nature 551,464-471(2017)和Komor,A.C.,等人,“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),其整体内容通过引用并入本文。
定义的靶标区域可以是脱氨基窗。脱氨基窗可以是定义的区域,在所述区域中,碱基编辑器作用于靶标核苷酸并将所述靶标核苷酸脱氨基。在一些实施方案中,脱氨基窗位于2、3、4、5、6、7、8、9或10个碱基的区域内。在一些实施方案中,脱氨基窗位于PAM的上游5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基处。
本公开的碱基编辑器可以包含任何促进靶标多核苷酸序列的编辑的结构域、特征和氨基酸序列。例如,在一些实施方案中,碱基编辑器包含核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS定位在脱氨酶结构域与多核苷酸可编程核苷酸结合结构域之间。在一些实施方案中,碱基编辑器的NLS定位在多核苷酸可编程核苷酸结合结构域的C端。
可包括在融合蛋白中的蛋白结构域的非限制性示例包括脱氨酶结构域(例如,腺苷脱氨酶)、尿嘧啶糖苷酶抑制剂(UGI)结构域、表位标签、报告基因序列、和/或具有以下一种或多种活性的蛋白结构域:甲基化酶活性、脱甲基酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA裂解活性和核酸结合活性。额外结构域可以是异源性功能结构域。此类异源性功能结构域可以提供功能活性,诸如DNA甲基化、DNA损伤、DNA修复、与靶标DNA缔合的靶标多肽(例如,组蛋白、DNA结合蛋白等)修饰,导致例如组蛋白甲基化、组蛋白乙酰化、组蛋白泛素化等。
所提供的其他功能可以包括甲基转移酶活性、脱甲基酶活性、脱氨基活性、歧化酶活性、烷基化活性、脱嘌呤活性、氧化活性、嘧啶二聚体形成活性、整合酶活性、转座酶活性、重组酶活性、聚合酶活性、连接酶活性、解旋酶活性、光裂合酶活性或糖苷酶活性、乙酰转移酶活性、脱乙酰酶活性、激酶活性、磷酸酶活性、泛素连接酶活性、托泛素化活性、腺苷酸化活性、脱腺苷酸活性、SUMO化活性、脱SUMO化活性、核糖基化活性、脱核糖基化活性、豆蔻酰化活性、重构活性、蛋白酶活性、氧化还原酶活性、转移酶活性、水解酶活性、裂解酶活性、异构酶活性、合酶活性、合成酶活性和脱豆蔻酰化活性,或其任何组合。
表位标签的非限制性示例包括组氨酸(His)标签、V5标签、FLAG标签、流感病毒血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报告基因的示例包括但不限于,谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β-葡糖醛酸糖苷酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和包括蓝色荧光蛋白(BFP)在内的自体荧光蛋白。额外蛋白质序列可以包括结合DNA分子或结合其他细胞分子的氨基酸序列,包括但不限于,麦芽糖结合蛋白(MBP)、S标签、Lex A DNA结合结构域(DBD)融合物、GAL4 DNA结合结构域融合物和单纯疱疹病毒(HSV)BP16蛋白融合物。
具有向导RNA的Cas12复合物
本公开的一些方面提供包含本文所提供的任何融合蛋白以及向导RNA(例如,靶向靶标多核苷酸以进行编辑的向导)的复合物。
在一些实施方案中,向导核酸(例如,向导RNA)为15-100个核苷酸长,并且包含与靶标序列互补的至少10个毗邻核苷酸。在一些实施方案中,向导RNA为15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,向导RNA包含与靶标序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个毗邻核苷酸的序列。在一些实施方案中,靶标序列为DNA序列。在一些实施方案中,靶标序列为细菌、酵母、真菌、昆虫、植物或动物基因组中的序列。在一些实施方案中,靶标序列为人类基因组中的序列。在一些实施方案中,靶标序列的3'末端紧邻经典PAM序列。在一些实施方案中,靶标序列的3'末端紧邻非经典PAM序列。
本公开的一些方面提供使用本文所提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供包括以下步骤的方法:使DNA分子与本文提供的任何具有至少一种向导RNA的融合蛋白接触,其中所述向导RNA为约15-100个核苷酸长并且包含与靶标序列互补的至少10个毗邻核苷酸。在一些实施方案中,靶标序列的3'末端紧邻例如TTN、DTTN、GTTN、ATTN、ATTC、DTTNT、WTTN、HATY、TTTN、TTTV、TTTC、TG、RTR或YTN PAM位点。
应理解,各序列中具体位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号在例如成熟蛋白的前体和成熟蛋白本身中可以是不同的,并且来自不同物种的序列之间的差异可能影响编号。本领域技术人员将能够通过本领域周知的方法鉴定任何同源蛋白质和相应编码核酸中的各残基,例如,通过序列比对和同源残基的确定。
对于本领域技术人员将会是显而易见的是,为了使本文公开的任何融合蛋白靶向靶标位点,例如,包含待编辑的突变的位点,将融合蛋白与向导RNA共表达通常是必要的。如本文其余处更详细解释的,向导RNA通常包含允许Cas12结合的tracrRNA框架以及向Cas12:核酸编辑酶/结构域融合蛋白提供序列特异性的向导序列。作为另一种选择,向导RNA和tracrRNA可以作为两个核酸分子而独立地提供。在一些实施方案中,向导RNA包含一结构,其中所述向导序列包含与靶标序列互补的序列。向导序列通常为20个核苷酸长。基于本公开,适用于使Cas12:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的向导RNA的序列对于本领域技术人员将会是显而易见的。此类合适的向导RNA序列通常包含与位于待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供了一些适用于使所提供的任何融合蛋白靶向特定靶标序列的示例性向导RNA序列。
本文所公开的碱基编辑器的结构域可以任何次序排列,只要脱氨酶结构域被内化到Cas12蛋白中即可。包含具有例如Cas12结构域和脱氨酶结构域的融合蛋白的碱基编辑器的非限制性示例可以排列如下:
NH2-[Cas12结构域]-连接子1-[ABE8]-连接子2-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-连接子1-[ABE8]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[ABE8]-连接子2-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-连接子1-[ABE8]-连接子2-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[Cas12结构域]-连接子1-[ABE8]-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[Cas12结构域]-[ABE8]-连接子2-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[肌苷BER抑制剂]-[Cas12结构域]-连接子1-[ABE8]-连接子2-[Cas12结构域]-COOH;
NH2-[肌苷BER抑制剂]-[Cas12结构域]-连接子1-[ABE8]-[Cas12结构域]-COOH;
NH2-[肌苷BER抑制剂]-[Cas12结构域]-[ABE8]-连接子2-[Cas12结构域]-COOH;
NH2-[肌苷BER抑制剂]NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-COOH;
此外,在一些情况下,Gam蛋白可以融合至碱基编辑器的N端。在一些情况下,Gam蛋白可以融合至碱基编辑器的C端。细菌噬菌体Mu的Gam蛋白可以结合至双链断裂(DSB)的末端并且保护它们免于降解。在一些实施方案中,使用Gam来结合DSB的自由末端可以减少碱基编辑过程中的插入缺失形成。在一些实施方案中,将174个残基的Gam蛋白融合至碱基编辑器的N端。参见,Komor,A.C.,等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在一些情况下,一个或多个突变可以改变碱基编辑器结构域相对于野生型结构域的长度。例如,在至少一个结构域中至少一个氨基酸的缺失可以缩短碱基编辑器的长度。在另一种情况下,一个或多个突变不改变结构域相对于野生型结构域的长度。例如,任何结构域中的一种或多种置换不改变碱基编辑器的长度。
在一些实施方案中,本文所提供的碱基编辑融合蛋白需要被定位在精确位置处,例如,靶标碱基被放置在定义区域(例如,“脱氨基窗”)内。在一些情况下,靶标可以位于4个碱基的区域内。在一些情况下,此类定义的靶标区域可以位于PAM的上游大约15个碱基处。参见,Komor,A.C.,等人,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)和Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),其整体内容通过引用并入本文。
定义的靶标区域可以是脱氨基窗。脱氨基窗可以是定义的区域,在所述区域中,碱基编辑器作用于靶标核苷酸并将所述靶标核苷酸脱氨基。在一些实施方案中,脱氨基窗位于2、3、4、5、6、7、8、9或10个碱基的区域内。在一些实施方案中,脱氨基窗位于PAM的上游5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基处。
本公开的碱基编辑器可以包含任何促进靶标多核苷酸序列的编辑的结构域、特征和氨基酸序列。例如,在一些实施方案中,碱基编辑器包含核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS定位在脱氨酶结构域与napDNAbp结构域之间。在一些实施方案中,碱基编辑器的NLS定位在napDNAbp结构域的C端。
融合蛋白中包括的蛋白结构域可以是异源性功能结构域。可以包括在融合蛋白中的蛋白结构域的非限制性示例包括脱氨酶结构域(例如,腺苷脱氨酶)、尿嘧啶糖苷酶抑制剂(UGI)结构域、表位标签和报告基因序列。蛋白结构域可以是例如具有下列活性中的一种或多种的异源性功能结构域:转录激活活性、转录抑制活性、转录释放因子活性、基因静默活性、染色质修饰活性、表观遗传修饰活性、组蛋白修饰活性、RNA裂解活性和核酸结合活性。此类异源性功能结构域可以提供功能活性,诸与靶标DNA缔合的靶标多肽(例如,组蛋白、DNA结合蛋白等)修饰,导致例如组蛋白甲基化、组蛋白乙酰化、组蛋白泛素化等。所提供的其他功能和/或活性可以包括转座酶活性、重组酶活性、连接酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、脱腺苷酸haunt活性、SUMO化活性、脱SUMO化活性或上述者的组合。
可以使用表位标签、报导蛋白、其他结合结构域来检测或标记结构域。表位标签的非限制性示例包括组氨酸(His)标签、V5标签、FLAG标签、流感病毒血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报告基因的示例包括但不限于,谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β-葡糖醛酸糖苷酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和包括蓝色荧光蛋白(BFP)在内的自体荧光蛋白。额外蛋白质序列可以包括结合DNA分子或结合其他细胞分子的氨基酸序列,包括但不限于,麦芽糖结合蛋白(MBP)、S标签、Lex A DNA结合结构域(DBD)融合物、GAL4 DNA结合结构域融合物和单纯疱疹病毒(HSV)BP16蛋白融合物。
在一些实施方案中,BhCas12b向导多核苷酸具有以下序列:
BhCas12b sgRNA支架(下划线)+20nt至23nt向导序列(以Nn表示)
Figure BDA0003480255960003551
在一些实施方案中,BvCas12b和AaCas12b向导多核苷酸具有以下序列:
BvCas 12b sgRNA支架(下划线)+20nt至23nt向导序列(以Nn表示)
Figure BDA0003480255960003561
AaCas 12b sgRNA支架(下划线)+20nt至23nt向导序列(以Nn表示)
Figure BDA0003480255960003562
使用包含腺苷脱氨酶和Cas9结构域的融合蛋白的方法
本公开的一些方面提供使用本文所提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供包括以下步骤的方法:使编码突变形式的蛋白质的DNA分子与本文提供的任何具有至少一种向导RNA的融合蛋白接触,其中所述向导RNA为约15-100个核苷酸长并且包含与靶标序列互补的至少10个毗邻核苷酸。在一些实施方案中,靶标序列的3'末端紧邻经典PAM序列(NGG)。在一些实施方案中,靶标序列的3'末端不紧邻经典PAM序列(NGG)。在一些实施方案中,靶标序列的3'末端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶标序列的3'末端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5'(TTTV)序列。
在一些实施方案中,本公开的融合蛋白用于诱变所述兴趣的靶标。特别地,本文所述的腺苷脱氨酶核碱基编辑器(例如,ABE8)能够在靶标序列中做出多个突变。这些突变可以影响靶标的功能。例如,当腺苷脱氨酶核碱基编辑器(例如,ABE8)用于靶向调控区时,所述调控区的功能被改变且下游蛋白质的表达被降低。
应理解,各序列中具体位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号在例如成熟蛋白的前体和成熟蛋白本身中可以是不同的,并且来自不同物种的序列之间的差异可能影响编号。本领域技术人员将能够通过本领域周知的方法鉴定任何同源蛋白质和相应编码核酸中的各残基,例如,通过序列比对和同源残基的确定。
对于本领域技术人员将会是显而易见的是,为了使本文公开的包含Cas9结构域和腺苷脱氨酶变体(例如,ABE8)的任何融合蛋白靶向靶标位点,例如,包含待编辑的突变的位点,将融合蛋白与向导RNA(例如,sgRNA)共表达通常是必要的。如本文其余处更详细解释的,向导RNA通常包含允许Cas9结合的tracrRNA框架以及向Cas9:核酸编辑酶/结构域融合蛋白提供序列特异性的向导序列。作为另一种选择,向导RNA和tracrRNA可以作为两个核酸分子而独立地提供。在一些实施方案中,向导RNA包含一结构,其中所述向导序列包含与靶标序列互补的序列。向导序列通常为20个核苷酸长。基于本公开,适用于使Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的向导RNA的序列对于本领域技术人员将会是显而易见的。此类合适的向导RNA序列通常包含与位于待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供了一些适用于使所提供的任何融合蛋白靶向特定靶标序列的示例性向导RNA序列。
碱基编辑器效率
CRISPR-Cas9核酸酶已经广泛用于介导靶向基因组编辑。在大多数基因组编辑应用中,Cas9与向导多核苷酸(例如,单向导RNA(sgRNA))形成复合物并且诱导被所述sgRNA序列针对的靶标位点处的双链DNA断裂(DSB)。细胞主要通过非同源末端接合(NHEJ)修复途径来应答这一DSB,导致可能造成中断所述基因的移码突变的随机插入或缺失(indel)。在存在与位于DSB侧翼的序列具有高度同源性的供体DNA目标的情况下,可以通过被称为同源引导修复(HDR)的替代途径实现基因联接。不幸的是,在大多数非微扰条件下,HDR是低效的,取决于细胞状态和细胞类型,并且更高频率的插入缺失占主导地位。由于大多数已知的与人类疾病相关的基因变异是点突变,因此需要可能更有效、干净地制造精确点突变的方法。本文所提供的碱基编辑系统提供新的途径来编辑基因组而不产生双链DNA断裂,不需要供体DNA目标,并且不诱导过量的随机插入和缺失。
本文提供的碱基编辑器能够修饰编码包含突变的蛋白质的特定核苷酸碱基而不产生显著的插入缺失部分。如本文所用“插入缺失”是指核酸内核苷酸碱基的插入或缺失。此类插入或缺失可以导致基因的编码区域内的移码突变。在一些实施方案中,希望产生碱基编辑器,其有效地修饰(例如,突变)核酸内的特定核苷酸而不在靶标核苷酸序列中产生大量的插入或缺失(即,插入缺失)。在某些实施方案中,本文提供的任何碱基编辑器都能够产生相比于插入缺失更符合预期的修饰(例如,点突变或脱氨基)部分。
在一些实施方案中,本文提供的任何碱基编辑器系统导致在靶标多核苷酸序列中低于50%、低于40%、低于30%、低于20%、低于19%、低于18%、低于17%、低于16%、低于15%、低于14%、低于13%、低于12%、低于11%、低于10%、低于9%、低于8%、低于7%、低于6%、低于5%、低于4%、低于3%、低于2%、低于1%、低于0.9%、低于0.8%、低于0.7%、低于0.6%、低于0.5%、低于0.4%、低于0.3%、低于0.2%、低于0.1%、低于0.09%、低于0.08%、低于0.07%、低于0.06%、低于0.05%、低于0.04%、低于0.03%、低于0.02%或低于0.01%的插入缺失形成。
在一些实施方案中,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑器系统导致在靶标多核苷酸序列中低于50%、低于40%、低于30%、低于20%、低于19%、低于18%、低于17%、低于16%、低于15%、低于14%、低于13%、低于12%、低于11%、低于10%、低于9%、低于8%、低于7%、低于6%、低于5%、低于4%、低于3%、低于2%、低于1%、低于0.9%、低于0.8%、低于0.7%、低于0.6%、低于0.5%、低于0.4%、低于0.3%、低于0.2%、低于0.1%、低于0.09%、低于0.08%、低于0.07%、低于0.06%、低于0.05%、低于0.04%、低于0.03%、低于0.02%或低于0.01%的插入缺失形成。
在一些实施方案中,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑器系统导致在靶标多核苷酸序列中低于0.8%的插入缺失形成。在一些实施方案中,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑器系统导致在靶标多核苷酸序列中至多0.8%的插入缺失形成。在一些实施方案中,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑器系统导致在靶标多核苷酸序列中低于0.3%的插入缺失形成。在一些实施方案中,与包含一种ABE7碱基编辑器的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑器系统导致在靶标多核苷酸序列中更低的插入缺失形成。在一些实施方案中,与包含ABE7.10的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑器系统导致在靶标多核苷酸序列中更低的插入缺失形成。
在一些实施方案中,与包含一种ABE7碱基编辑器的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑器系统具有降低的插入缺失频率。在一些实施方案中,与包含一种ABE7碱基编辑器的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑器系统具有降低至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%的插入缺失频率。在一些实施方案中,与包含ABE7.10的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的碱基编辑器系统具有降低至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%的插入缺失频率。
本公开提供腺苷脱氨酶变体(例如,ABE8变体),其具有增加的效率和特异性。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所希望的碱基,并且更不可能编辑不预期改变的碱基(例如,“旁观者”)。
在一些实施方案中,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑系统具有减少的旁观者编辑或突变。在一些实施方案中,非预期编辑或突变是旁观者突变或旁观者编辑,例如,对靶标核苷酸序列的靶标窗中的非预期或非靶标位置中靶标碱基(例如,A或C)的碱基编辑。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑系统具有减少的旁观者编辑或突变。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑系统的旁观者编辑或突变减少至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑系统的旁观者编辑或突变减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。
在一些实施方案中,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑系统具有减少的假编辑。在一些实施方案中,非预期编辑或突变是假突变或假编辑,例如,对基因组的非预期或非靶标区域中的靶标碱基(例如,A或C)的非特异性编辑或不依赖于向导的编辑。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑系统具有减少的假编辑。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑系统的假编辑减少至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑系统的假编辑减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。
本公开的一些方面是基于以下认知的:本文提供的任何碱基编辑器都能够有效地在核酸(例如,受试者基因组中的核酸)中产生预期突变诸如点突变,而不产生显著数量的非预期突变,诸如非预期点突变(即,旁观者的突变)。在一些实施方案中,本文提供的任何碱基编辑器都能够产生至少0.01%的预期突变(即,至少0.01%的碱基编辑效率)。在一些实施方案中,本文提供的任何碱基编辑器都能够产生至少0.01%、1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、40%、45%、50%、60%、70%、80%、90%、95%或99%的预期突变。
在一些实施方案中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的碱基编辑效率。在一些实施方案中,可以通过计算细胞群中被编辑的核碱基的百分比来测量碱基编辑效率。在一些实施方案中,如通过细胞群中被编辑的核碱基所测量的,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的碱基编辑效率。
在一些实施方案中,本文所述的任何ABE8碱基编辑器变体具有比ABE7碱基编辑器高的碱基编辑效率。在一些实施方案中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器具有高出至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%的碱基编辑效率。
在一些实施方案中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器具有高出至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍的碱基编辑效率。
在一些实施方案中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的上靶碱基编辑效率。在一些实施方案中,如通过细胞群中被编辑的靶标核碱基所测量的,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的上靶碱基编辑效率。
在一些实施方案中,本文所述的任何ABE8碱基编辑器变体具有比ABE7碱基编辑器高的上靶碱基编辑效率。在一些实施方案中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器具有高出至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%的上靶碱基编辑效率。
在一些实施方案中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器具有高出至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍的上靶碱基编辑效率。
可以经由质粒、载体、LNP复合物或mRNA将本文所述的ABE8碱基编辑器变体递送至宿主细胞。在一些实施方案中,将本文所述的任何ABE8碱基编辑器变体作为mRNA递送至宿主细胞。在一些实施方案中,如通过被编辑的核碱基测量的,经由基于核酸的递送系统(例如,mRNA)递送的ABE8碱基编辑器具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的上靶编辑效率。在一些实施方案中,与通过质粒或载体系统递送的ABE8碱基编辑器相比,通过mRNA系统递送的ABE8碱基编辑器具有更高的碱基编辑效率。在一些实施方案中,与通过质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有高出至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%的上靶编辑效率。在一些实施方案中,与通过质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有高出至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍的上靶编辑效率。
在一些实施方案中,包含本文所述的一种ABE8碱基编辑器变体的任何碱基编辑器系统导致在靶标多核苷酸序列中低于50%、低于40%、低于30%、低于20%、低于19%、低于18%、低于17%、低于16%、低于15%、低于14%、低于13%、低于12%、低于11%、低于10%、低于9%、低于8%、低于7%、低于6%、低于5%、低于4%、低于3%、低于2%、低于1%、低于0.9%、低于0.8%、低于0.7%、低于0.6%、低于0.5%、低于0.4%、低于0.3%、低于0.2%、低于0.1%、低于0.09%、低于0.08%、低于0.07%、低于0.06%、低于0.05%、低于0.04%、低于0.03%、低于0.02%或低于0.01%的脱靶编辑。
在一些实施方案中,与通过质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有较低的引导脱靶编辑效率。在一些实施方案中,与通过质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有低出至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的引导脱靶编辑效率。在一些实施方案中,与通过质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有低出至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍的引导脱靶编辑效率。在一些实施方案中,与通过质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有降低至少约2.2倍的引导脱靶编辑效率。
在一些实施方案中,与通过质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有较低的不依赖于向导的脱靶编辑效率。在一些实施方案中,与通过质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有低出至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的不依赖于向导的脱靶编辑效率。在一些实施方案中,与通过质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在通过mRNA系统递送时具有低出至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少5.0倍、至少10.0倍、至少20.0倍、至少50.0倍、至少70.0倍、至少100.0倍、至少120.0倍、至少130.0倍或至少150.0倍的不依赖于向导的脱靶编辑效率。在一些实施方案中,与通过质粒或载体系统递送时相比,本文所述的ABE8碱基编辑器变体在通过mRNA系统递送时具有降低134.0倍的不依赖于向导的脱靶编辑效率(例如,假RNA脱氨基)。在一些实施方案中,本文所述的ABE8碱基编辑器变体不增加不依赖于向导的跨基因组突变率。
本公开的一些方面是基于以下认知的:本文提供的任何碱基编辑器都能够有效地在核酸(例如,受试者基因组中的核酸)中产生预期突变诸如点突变,而不产生显著数量的非预期突变(例如,假脱靶编辑或旁观者编辑)。在一些实施方案中,预期突变是由结合至gRNA的特异性碱基编辑器产生的,所述碱基编辑器被特异性地设计为改变或校正靶标基因中的突变。本公开的一些方面是基于以下认知的:本文提供的任何碱基编辑器都能够有效地在核酸(例如,受试者基因组中的核酸)中产生预期突变,而不产生显著数量的非预期突变。在一些实施方案中,预期突变是由结合至gRNA的特异性碱基编辑器产生的,所述碱基编辑器被特异性地设计为改变或校正预期突变。在一些实施方案中,预期突变是在基因的编码区内产生终止密码子(例如,提前终止密码子)的突变。在一些实施方案中,预期突变是消除终止密码子的突变。在一些实施方案中,预期突变是改变基因剪接的突变。在一些实施方案中,预期突变是改变基因的调节序列(例如,基因启动子或基因阻遏物)的突变。
在一些实施方案中,本文提供的碱基编辑器能够产生大于1:1的预期点突变与插入缺失(即,非预期突变)的比率。在一些实施方案中,本文提供的碱基编辑器能够产生至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少8.5:1、至少9:1、至少10:1、至少11:1、至少12:1、至少13:1、至少14:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少200:1、至少300:1、至少400:1、至少500:1、至少600:1、至少700:1、至少800:1、至少900:1、或至少1000:1或更高的预期突变与插入缺失的比率。应知悉,本文所述的碱基编辑器的特征可以应用于本文提供的任何融合蛋白或使用所述融合蛋白的方法。
可以使用任何合适的方法测定预期突变和插入缺失的数目,例如,如国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632);Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);以及Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)中所述,其整体内容通过引用并入本文。
在一些实施方案中,为了计算插入缺失频率,对测序读取进行扫描,以获得与位于插入缺失可能发生的窗口两侧的两个10-bp序列的精确匹配。如果没有定位到精确匹配,则将所述读取从分析中排除。如果这一插入缺失窗的长度与参考序列确切匹配,则将所述读取归类为不含插入缺失。如果插入缺失窗比参考序列长或短两个或更多个碱基,则将所述测序读取分别归类为插入或缺失。在一些实施方案中,本文提供的碱基编辑器可以限制插入缺失在核酸区域中的形成。在一些实施方案中,所述区域位于碱基编辑器所靶向的核苷酸处,或者是位于碱基编辑器所靶向的核苷酸相距2、3、4、5、6、7、8、9或10个核苷酸内的区域。
在靶标核苷酸区域处形成的插入缺失的数目可能取决于核酸(例如,细胞基因组内的核酸)被暴露于碱基编辑器的时间量。在一些实施方案中,在将靶标核苷酸序列(例如,细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天之后,测定插入缺失的数目或比例。应知悉,本文所述的碱基编辑器的特征可以应用于本文提供的任何融合蛋白或使用所述融合蛋白的方法。
在一些实施方案中,本文提供的碱基编辑器能够限制插入缺失在核酸区域中的形成。在一些实施方案中,所述区域位于碱基编辑器所靶向的核苷酸处,或者是位于碱基编辑器所靶向的核苷酸相距2、3、4、5、6、7、8、9或10个核苷酸内的区域。在一些实施方案中,本文提供的任何碱基编辑器能够将核酸区域处的插入缺失的形成限制为低于1%、低于1.5%、低于2%、低于2.5%、低于3%、低于3.5%、低于4%、低于4.5%、低于5%、低于6%、低于7%、低于8%、低于9%、低于10%、低于12%、低于15%或低于20%。在核苷酸区域处形成的插入缺失的数目可能取决于核酸(例如,细胞基因组内的核酸)被暴露于碱基编辑器的时间量。在一些实施方案中,在将核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天之后,测定插入缺失的任何数目或比例。
多元编辑
在一些实施方案中,本文所提供的碱基编辑器系统能够对一个或多个基因中的多个核碱基对进行多元编辑。在一些实施方案中,多个核碱基对定位在同一基因中。在一些实施方案中,多个核碱基对定位在一个或多个基因中,其中至少一个基因定位在不同的基因座中。在一些实施方案中,多元编辑可以包含一个或多个向导多核苷酸。在一些实施方案中,多元编辑可以包含一个或多个碱基编辑器系统。在一些实施方案中,多元编辑可以包含一个或多个碱基编辑器系统和单向导多核苷酸。在一些实施方案中,多元编辑可以包含一个或多个碱基编辑器系统和多个向导多核苷酸。在一些实施方案中,多元编辑可以包含一个或多个向导多核苷酸和单个碱基编辑器系统。在一些实施方案中,多元编辑可以包含至少一个向导多核苷酸,所述向导多核苷酸不需要PAM序列来靶向结合至靶标多核苷酸序列。在一些实施方案中,多元编辑可以包含至少一个向导多核苷酸,所述向导多核苷酸需要PAM序列来靶向结合至靶标多核苷酸序列。在一些实施方案中,多元编辑可以包含至少一个不需要PAM序列来靶向结合至靶标多核苷酸序列的向导多核苷酸与至少一个需要PAM序列来靶向结合至靶标多核苷酸序列的向导多核苷酸的混合物。应知悉,使用本文所述任何碱基编辑器的多元编辑的特征可以应用至使用本文所提供的任何碱基编辑器的方法的组合。也应知悉,使用本文所述任何碱基编辑器的多元编辑可以包含多个核碱基对的依序编辑。
在一些实施方案中,多个核碱基对位于一个或多个基因中。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,一个或多个基因中的至少一个基因定位在不同基因座中。在一些实施方案中,所述编辑是编辑至少一个蛋白质编码区域内的多个核碱基。在一些实施方案中,所述编辑是编辑至少一个蛋白质非编码区域内的多个核碱基。在一些实施方案中,所述编辑是编辑至少一个蛋白质编码区域和至少一个蛋白质非编码区域内的多个核碱基。
在一些实施方案中,所述编辑与一个或多个向导多核苷酸协同作用。在一些实施方案中,碱基编辑器系统可以包含一个或多个碱基编辑器系统。在一些实施方案中,碱基编辑器系统可以包含一个或多个与单向导多核苷酸协同作用的碱基编辑器系统。在一些实施方案中,碱基编辑器系统可以包含一个或多个与多个向导多核苷酸协同作用的碱基编辑器系统。在一些实施方案中,所述编辑与一个或多个向导多核苷酸和单个碱基编辑器系统协同作用。在一些实施方案中,所述编辑与至少一个向导多核苷酸协同作用,所述向导多核苷酸不需要PAM序列来靶向结合至靶标多核苷酸序列。在一些实施方案中,所述编辑与至少一个向导多核苷酸协同作用,所述向导多核苷酸需要PAM序列来靶向结合至靶标多核苷酸序列。在一些实施方案中,所述编辑与至少一个不需要PAM序列来靶向结合至靶标多核苷酸序列的向导多核苷酸与至少一个需要PAM序列来靶向结合至靶标多核苷酸序列的向导多核苷酸的混合物协同作用。应知悉,使用本文所述任何碱基编辑器的多元编辑的特征可以应用至使用本文所提供的任何碱基编辑器的方法的组合。也应知悉,所述编辑可以包含多个核碱基对的依序编辑。
在一些实施方案中,本文的能够对一个或多个基因中的多个核碱基对进行多元编辑的碱基编辑器系统包含本文所述的ABE8碱基编辑器变体之一。在一些实施方案中,本文的能够对一个或多个基因中的多个核碱基对进行多元编辑的碱基编辑器系统包含ABE7碱基编辑器之一。在一些实施方案中,与包含ABE7碱基编辑器之一的能够进行多元编辑碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的能够进行多元编辑的碱基编辑器系统具有更高的多元编辑效率。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的能够进行多元编辑的碱基编辑器系统的多元编辑效率比包含ABE7碱基编辑器之一的能够进行多元编辑碱基编辑器系统高至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的能够进行多元编辑的碱基编辑器系统的多元编辑效率比包含ABE7碱基编辑器之一的能够进行多元编辑碱基编辑器系统高至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少4.0倍、至少4.5倍、至少5.0倍、至少5.5倍或至少6.0倍。
用于编辑核酸的方法
本公开的一些方面提供用于编辑核酸的方法。在一些实施方案中,所述方法是用于编辑编码蛋白质的核酸分子的核碱基(例如,双链DNA序列的碱基对)的方法。在一些实施方案中,所述方法包括以下步骤:a)使核酸(例如,双链DNA序列)的靶标区域与包含碱基编辑器和向导核酸(例如,gRNA)的复合物接触,b)诱导所述靶标区域的链分离,c)将靶标区域的单链中的所述靶标核碱基对的第一核碱基转化为第二核碱基,以及,d)使用nCas9切割所述靶标区域的不超过一条链,其中与第一核碱基互补的核碱基被替换为与第二核碱基互补的第四核碱基。在一些实施方案中,所述方法导致核酸中形成少于20%的插入缺失。应知悉,在一些实施方案中,省略了步骤b。在一些实施方案中,所述方法导致形成了少于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或少于0.1%的插入缺失。在一些实施方案中,所述方法进一步包括用与第四核碱基互补的第五核碱基替换第二核碱基,从而产生预期的被编辑的碱基对(例如,G·C到A·T)。在一些实施方案中,至少5%的预期碱基对被编辑。在一些实施方案中,至少10%、15%、20%、25%、30%、35%、40%、45%或50%的预期碱基对被编辑。
在一些实施方案中,靶标核苷酸中的预期产物与非预期产物的比率为至少:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、或200:1或更高。在一些实施方案汇总,预期突变与插入缺失形成的比率大于1:1、10:1、50:1、100:1、500:1、或1000:1或更高。在一些实施方案中,被切割的单链(被切口的链)与向导核酸杂交。在一些实施方案中,被切割的单链与包含第一核碱基的链相对。在一些实施方案中,碱基编辑器包含dCas9结构域。在一些实施方案中,碱基编辑器保护或结合未经编辑的链。在一些实施方案中,预期的被编辑碱基对位于PAM位点的上游。在一些实施方案中,预期的被编辑碱基对位于PAM位点的上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸处。在一些实施方案中,预期的被编辑碱基对位于PAM位点的下游。在一些实施方案中,预期的被编辑碱基对位于PAM位点的下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸处。在一些实施方案中,所述方法不需要经典(例如,NGG)PAM位点。在一些实施方案中,核碱基编辑器包含连接子。在一些实施方案中,连接子为1-25个氨基酸的长度。在一些实施方案中,连接子为5-20个氨基酸的长度。在一些实施方案中,连接子为10、11、12、13、14、15、16、17、18、19或20个氨基酸的长度。在一种实施方案中,连接子为32个氨基酸的长度。在另一实施方案中,“长连接子”为至少60个氨基酸的长度。在其他实施方案中,连接子为介于约3-100个氨基酸之间的长度。在一些实施方案中,靶标区域包含靶标窗,其中靶标窗包含靶标核碱基对。在一些实施方案中,靶标窗包含1-10个核苷酸。在一些实施方案中,靶标窗为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸的长度。在一些实施方案中,靶标窗为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸的长度。在一些实施方案中,预期的被编辑碱基对位于靶标窗内。在一些实施方案中,靶标窗包含预期的被编辑碱基对。在一些实施方案中,使用本文所提供的任何碱基编辑器执行所述方法。
在一些实施方案中,本公开提供用于编辑核苷酸(例如,编码蛋白质的基因中的SNP)的方法。在一些实施方案中,本公开提供用于编辑双链DNA序列的核碱基对。在一些实施方案中,所述方法包括:a)使双链DNA序列的靶标区域与包含碱基编辑器和向导核酸(例如,gRNA)的复合物接触,其中所述靶标区域包含靶标核碱基对,b)诱导所述靶标区域的链分离,c)将靶标区域的单链中的所述靶标核碱基对的第一核碱基转化为第二核碱基,d)切割所述靶标区域的不超过一条链,其中与第一核碱基互补的第三核碱基被替换为与第二核碱基互补的第四核碱基,并且第二核碱基被替换为与第四核碱基互补的底物核碱基,从而产生预期的被编辑碱基对,其中产生预期的被编辑碱基对的效率为至少5%。应知悉,在一些实施方案中,省略了步骤b。在一些实施方案中,至少5%的预期碱基对被编辑。在一些实施方案中,至少10%、15%、20%、25%、30%、35%、40%、45%或50%的预期碱基对被编辑。在一些实施方案中,所述方法造成形成了少于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或少于0.1%的插入缺失。在一些实施方案中,靶标核苷酸处的预期产物与非预期产物的比率为至少:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、或200:1或更高。在一些实施方案汇总,预期突变与插入缺失形成的比率大于1:1、10:1、50:1、100:1、500:1、或1000:1或更高。在一些实施方案中,被切割的单链与向导核酸杂交。在一些实施方案中,被切割的单链与包含第一核碱基的链相对。在一些实施方案中,预期的被编辑碱基对位于PAM位点的上游。在一些实施方案中,预期的被编辑碱基对位于PAM位点的上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸处。在一些实施方案中,预期的被编辑碱基对位于PAM位点的下游。在一些实施方案中,预期的被编辑碱基对位于PAM位点的下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸处。在一些实施方案中,所述方法不需要经典(例如,NGG)PAM位点。在一些实施方案中,连接子为1-25个氨基酸的长度。在一些实施方案中,连接子为5-20个氨基酸的长度。在一些实施方案中,连接子为10、11、12、13、14、15、16、17、18、19或20个氨基酸的长度。在一些实施方案中,靶标区域包含靶标窗,其中靶标窗包含靶标核碱基对。在一些实施方案中,靶标窗包含1-10个核苷酸。在一些实施方案中,靶标窗为1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸的长度。在一些实施方案中,靶标窗为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸的长度。在一些实施方案中,预期的被编辑碱基对出现在靶标窗内。在一些实施方案中,靶标窗包含预期的被编辑碱基对。在一些实施方案中,核碱基编辑器是本文所提供的任何碱基编辑器。
融合蛋白在宿主细胞内的表达
本公开的包含腺苷脱氨酶变体的融合蛋白可以使用技术人员已知的常规方法在包括但不限于,细菌、酵母、真菌、昆虫、植物和动物细胞在内的几乎任何感兴趣的宿主细胞内表达。例如,编码本公开的腺苷脱氨酶的DNA可以通过基于cDNA序列为CDS的上游或下游设计合适的引物而被克隆。可以将克隆的DNA直接地、或在当需要时用限制酶消化后、或在添加合适的连接子和/或核定位信号之后,用编码碱基编辑系统的一个或多个额外组分的DNA连接。碱基编辑系统在宿主细胞中被翻译以形成复合物。
编码本文所述的蛋白结构域的DNA可以通过化学合成所述DNA而获得,或通过利用PCR方法和Gibson组装方法来联接合成的部分重叠oligoDNA短链而获得,以构建编码其全长度的DNA。通过化学合成或PCR方法或Gibson组装方法来构建全长度DNA的优势在于,可以根据所述DNA所引入至其中的宿主而以CDS全长度设计待使用的密码子。在异源DNA的表达中,预计蛋白质表达水平通过将其DNA序列转化为以高频率用于宿主生物体中的码码字而得以增加。作为密码子在待用宿主中的使用频率的数据,例如,可使用Kazusa DNA研究所主页中公开的遗传密码使用频率数据库(http://www.kazusa.or.jp/codon/index.html),或者可以指显示密码子在每种宿主中使用频率的文献。参照所获得的数据和待引入的DNA序列,可以将在用于DNA序列的密码子中显示在所述宿主中的低使用频率的密码子转化为编码相同氨基酸但显示高使用频率的密码子。
例如,可以通过在合适的表达载体中将DNA连接至启动子的下游,产生含有编码核酸序列识别模块和/或核酸碱基转化酶的表达载体。
作为表达载体,使用了源自大肠杆菌的质粒(例如,pBR322、pBR325、pUC12、pUC13);源自枯草芽孢杆菌的质粒(例如,pUB110、pTP5、pC194);源自酵母的质粒(例如,pSH19、pSH15);昆虫细胞表达质粒(例如,pFast-Bac);动物细胞表达质粒(例如,pA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo);细菌噬菌体,诸如λ噬菌体等;昆虫病毒载体,诸如杆状病毒等(例如,BmNPV、AcNPV);动物病毒载体,诸如逆转录病毒、牛痘病毒、腺病毒等。
在一些实施方案中,可以使用任何适用于待用于基因表达的宿主的任何启动子。在使用DSB的传统方法中,由于宿主细胞的存活率有时由于毒性而显著下降,希望通过使用诱导型启动子来启动诱导而增加细胞的数目。但是,由于也可以通过表达本公开的核酸修饰酶复合物而获得足够的细胞增殖,因此也可以无限制地使用构造型启动子。
例如,当宿主为动物细胞时,使用了SRα启动子、SV40启动子、LTR启动子、CMV(巨细胞病毒)启动子、RSV(鲁斯氏肉瘤病毒)启动子、MoMuLV(莫洛尼鼠白血病病毒)LTR、HSV-TK(单纯疱疹病毒胸苷激酶)启动子等。其中,CMV启动子、SRα启动子等为优选。
当宿主为大肠杆菌时,trp启动子、lac启动子、recA启动子、λPL启动子、lpp启动子、T7启动子等为优选。
当宿主为芽孢杆菌属时,SPO1启动子、SPO2启动子、penP启动子等为优选。
当宿主为酵母时,Gal1/10启动子、PHO5启动子、PGK启动子、GAP启动子、ADH启动子等为优选。
当宿主为昆虫细胞时,多角体蛋白启动子、P10启动子等为优选。
当宿主为植物细胞时,CaMV35S启动子、CaMV19S启动子、NOS启动子等为优选。
作为表达载体,除了上述那些之外,可使用根据需要而含有增强子、剪接信号、终止子、polyA加入信号、选择标记物(诸如耐药基因、营养缺陷型互补基因等)、复制起点等的表达载体。
编码本文所述蛋白结构域的RNA可以通过下述制备,例如,使用编码DNA(所述DNA编码上述核酸序列识别模块和/或核碱基转化酶)的载体作为模板,在本身已知的体外转录系统)中转录为mRNA。
通过将含有编码核酸识别模块和/或核酸碱基转化酶的表达载体引入宿主细胞中,并且培养所述宿主细胞,可以细胞内地表达本公开的融合蛋白。
作为宿主,使用了埃希氏杆菌属(Escherichia)、芽孢杆菌属、酵母、昆虫细胞、昆虫、动物细胞等。
作为埃希氏杆菌属,使用了大肠杆菌K12.cndot.DH1(Proc.Natl.Acad.Sci.USA,60,160(1968))、大肠杆菌JM103(Nucleic Acids Research,9,309(1981))、大肠杆菌JA221(Journal of Molecular Biology,120,517(1978))、大肠杆菌HB101(Journal ofMolecular Biology,41,459(1969))、大肠杆菌C600(Genetics,39,440(1954))等。
作为芽孢杆菌属,使用了枯草芽孢杆菌M1114(Gene,24,255(1983))、枯草芽孢杆菌207-21(Journal of Biochemistry,95,87(1984))等。
作为酵母,使用了化酒酵母AH22、AH22R-、NA87-11A、DKD-5D,20B-12,粟酒裂殖酵母NCYC1913、NCYC2036,毕赤酵母KM71等。
作为昆虫细胞,当病毒是AcNPV时,使用了卷心菜粘虫幼虫衍生的建立系的细胞(草地贪夜蛾(Spodoptera frugiperda)细胞;Sf细胞)、衍生自粉纹夜蛾(Trichoplusiani)中肠的MG1细胞、衍生自粉纹夜蛾卵的High FiveTM细胞、衍生自甘蓝夜蛾(Mamestrabrassicae)的细胞、衍生自甲虫(Estigmena acrea)的细胞等。当病毒为BmNPV时,使用家蚕(Bombyx mori)衍生的建立系细胞(家蚕N细胞;BmN细胞)等作为昆虫细胞。作为Sf细胞,例如,使用了Sf9细胞(ATCC CRL1711)、Sf21细胞(上述全部,In Vivo,13,213-217(1977))等。
作为昆虫,例如,使用了家蚕幼虫、果蝇(Drosophila)、蟋蟀等(Nature,315,592(1985))。
作为动物细胞,使用了细胞系诸如猴COS-7细胞、猴Vero细胞、中国仓鼠卵巢(CHO)细胞、dhfr基因缺陷CHO细胞、小鼠L细胞、小鼠AtT-20细胞、小鼠骨髓瘤细胞、大鼠GH3细胞、人FL细胞等,多能干细胞诸如人或其他哺乳动物的iPS细胞、ES细胞等,以及从各种组织制备的原代培养细胞。此外,也可以使用斑马鱼胚胎、爪蟾(Xenopus)卵细胞等。
作为植物细胞,使用了从各种植物(例如,谷物诸如稻、小麦、玉米等,产品作物诸如西红柿、黄瓜、茄子等,花园植物诸如康乃馨、洋桔梗等,实验植物诸如烟草、拟南芥(arabidopsis thaliana)等)制备的悬浮培养的细胞、愈伤组织、原生质体、叶段、根段等。
上述宿主细胞全部可以是单倍体(一倍体)或多倍体(例如,二倍体、三倍体、四倍体等)。在传统突变引入方法中,原则上仅将突变引入一个同源染色体中以产生异质基因类型。因此,除非出现显性突变,否则不会表达所希望的表型,并且纯合性不方便地耗时耗力。相比之下,根据本公开,由于可以将突变引入基因组中同源染色体上的任何等位基因中,即便在隐性突变的情况下也可以在一代中表达所希望的表型,这由于可以解决传统方法的问题而极其有用。
表达载体可以根据宿主的种类通过已知方法(例如,溶菌酶法、感受态法、PEG法、CaCl2共沉淀法、电穿孔法、显微注射法、粒子枪法、脂质转染法、农杆菌属(Agrobacterium)法等)引入。
可以根据例如Proc.Natl.Acad.Sci.USA,69,2110(1972),Gene,17,107(1982)等中描述的方法转化大肠杆菌。
可以根据例如Molecular&General Genetics,168,111(1979)等中描述的方法将芽孢杆菌属引入载体中。
可以根据例如Methods in Enzymology,194,182-187(1991),Proc.Natl.Acad.Sci.USA,75,1929(1978)等中描述的方法将酵母引入载体中。
可以根据例如Bio/Technology,6,47-55(1988)等中描述的方法将昆虫细胞和昆虫引入载体中。
可以根据例如Cell Engineering additional volume 8,New Cell EngineeringExperiment Protocol,263-267(1995)(秀润社(Shujunsha)出版)和Virology,52,456(1973)中描述的方法将动物细胞引入载体中。
使用载体引入的细胞可以是根据已知方法根据宿主的种类培养的。
例如,当培养大肠杆菌或芽孢杆菌属时,优选液体培养基作为待用于培养的培养基。培养基优选含有转化株生长所必需的碳源、氮源、无机物质等。碳源的示例包括葡萄糖、糊精、可溶淀粉、蔗糖等;氮源的示例包括无机或有机物质,诸如铵盐、硝酸盐、玉米浆、蛋白胨、酪蛋白、肉膏、豆粕、马铃薯提取物等;并且无机物质的示例包括氯化钙、磷酸二氢钠、氯化镁等。培养基可以含有酵母提取物、微生物、生长促进因子等。培养基的pH优选为约5至约8。
作为用于培养大肠杆菌的培养基,例如,优选为含有葡萄糖、酪蛋白氨基酸的M9培养基(Journal of Experiments in Molecular Genetics,431-433,Cold Spring HarborLaboratory,New York 1972)。若必要,例如,可以将诸如3β-吲哚基丙烯酸的试剂添加到培养基中以确保启动子的有效功能。大肠杆菌通常在约15℃至约43℃培养。若必要,可以执行曝气和搅拌。
芽孢杆菌属通常在约30℃至约40℃培养。若必要,可以执行曝气和搅拌。
用于培养酵母的培养基的示例包括Burkholder基础培养基(Proc.Natl.Acad.Sci.USA,77,4505(1980))、含有0.5%酪蛋白氨基酸的SD培养基(Proc.Natl.Acad.Sci.USA,81,5330(1984))等。培养基的pH优选为约5至约8。培养通常在约20℃至约35℃执行。若必要,可以执行曝气和搅拌。
作为用于培养昆虫细胞或昆虫的培养基,例如,使用了适宜地含有诸如灭活的10%牛血清等添加剂的Grace昆虫培养基(Nature,195,788(1962))等。培养基的pH优选为约6.2至约6.4。培养通常在约27℃执行。若必要,可以执行曝气和搅拌。
作为用于培养动物细胞的培养基,使用了含有约5%至约20%胎牛血清的最小必需培养基(MEM)(Science,122,501(1952))、杜尔贝科改进伊格尔培养基(DMEM)(Virology,8,396(1959))、RPMI 1640培养基(The Journal of the American Medical Association,199,519(1967))、199培养基(Proceeding of the Society for the BiologicalMedicine,73,1(1950))等。培养基的pH优选为约6至约8。培养通常在约30℃至约40℃执行。若必要,可以执行曝气和搅拌。
作为用于培养植物细胞的培养基,例如,使用了MS培养基、LS培养基、B5培养基等。培养基的pH优选为约5至约8。培养通常在约20℃至约30℃执行。若必要,可以执行曝气和搅拌。
当使用诸如动物细胞、昆虫细胞、植物细胞等高等真核细胞作为宿主细胞时,在诱导型启动子(例如,金属硫蛋白启动子(通过重金属离子诱导)、热休克蛋白启动子(通过热休克诱导)、Tet-ON/Tet-OFF系统启动子(通过添加或移除四环素或其衍生物诱导)、类固醇应答型启动子(通过类固醇激素或其衍生物诱导)等)的调节下将编码本公开的碱基编辑系统(例如,包含腺苷脱氨酶变体)的DNA引入宿主细胞内,在适宜的阶段将诱导物质添加到培养基中(或自培养基中移除)以诱导核酸修饰酶复合物的表达,执行给定时间段的培养以完成碱基编辑并且将突变引入引入靶标基因中,可以实现碱基编辑系统的瞬时表达。
原核细胞诸如大肠杆菌等可以利用诱导型启动子。诱导型启动子的示例包括但不限于,lac启动子(通过IPTG诱导)、cspA启动子(通过冷休克诱导)、araBAD启动子(通过阿拉伯糖诱导)等。
作为另一种选择,当使用诸如动物细胞、昆虫细胞、植物细胞等高等真核细胞作为宿主细胞时,也可利用上述诱导型启动子作为载体移除机制。换言之,载体封固有在宿主细胞中发挥作用的复制起点和编码复制所必需的蛋白质的核酸(例如,对于动物细胞,SV40和大T抗原、oriP和EBNA-1等),并且通过上述诱导型启动子调节编码所述蛋白质的核酸的表达。因此,尽管载体在存在诱导物质的情况下可以自主复制,但当诱导物质被移除时无法进行自主复制,并且载体随着细胞分裂自然地脱落(不可能通过将四环素和强力霉素添加到Tet-OFF系统载体中实现自主复制)。
使用碱基编辑器的方法
疾病相关基因和等位基因中点突变的校正为基因校正提供了新的策略,并且在治疗学和基础研究中得到应用。
本公开提供用于治疗被诊断患有与点突变相关或点突变所致的疾病的受试者的方法,所述点突变可以通过本文提供的碱基编辑器系统校正。例如,在一些实施方案中,提供了包括下述的方法:向患有此类疾病(例如,基因突变所致的疾病)的受试者给药有效量的核碱基编辑器(例如,腺苷脱氨酶碱基编辑器),所述核碱基编辑器校正疾病相关基因中的点突变。本公开提供用于治疗与点突变相关或点突变所致的RTT的方法,所述点突变可以通过脱氨酶介导的基因编辑得到校正。基于本公开,可使用本文提供的策略和融合蛋白治疗的合适疾病对于本领域技术人员将是显而易见的。
本文提供了使用碱基编辑器或碱基编辑器系统对与疾病或疾患相关的靶标核苷酸序列中的核碱基进行编辑的方法。在一些实施方案中,碱基编辑器(例如,包含腺苷脱氨酶和Cas9结构域)的活性导致点突变的校正。在一些实施方案中,靶标DNA序列包含与疾病或疾患相关的G→A点突变,并且突变的A碱基的脱氨基作用导致了不与疾病或疾患相关的序列。在一些实施方案中,靶标DNA序列包含与疾病或疾患相关的T→C点突变,并且突变的C碱基的脱氨基作用导致了不与疾病或疾患相关的序列。
在一些实施方案中,靶标DNA序列编码蛋白质,并且点突变处于密码子中且导致由突变密码子编码的氨基酸中相对于野生型密码子产生变化。在一些实施方案中,突变的A的脱氨基作用导致由突变密码子编码的氨基酸产生变化。在一些实施方案中,突变的A的脱氨基作用导致编码野生型氨基酸的密码子中产生变化。在一些实施方案中,突变的C的脱氨基作用导致由突变密码子编码的氨基酸产生变化。在一些实施方案中,突变的C的脱氨基作用导致编码野生型氨基酸的密码子中产生变化。在一些实施方案中,受试者具有或已经被诊断具有疾病或疾患。
在一些实施方案中,本文所提供的腺苷脱氨酶能够将DNA的脱氧腺苷残基脱氨基。本公开的其他方面提供融合蛋白,所述融合蛋白包含腺苷脱氨酶(例如,如本文所述将DNA中的脱氧腺苷脱氨基的腺苷脱氨酶)和能够结合至特异性核苷酸序列的结构域(例如,Cas9或Cpf1蛋白)。例如,腺苷可以被转化为肌苷残基,而肌苷残基通常与胞嘧啶残基配对。除其他之外,此类融合蛋白可用于核酸序列的靶向编辑。此类融合蛋白可用于DNA的体外靶向编辑,例如,用于产生突变细胞或动物;用于将靶向突变引入细胞中,例如,用于细胞中基因缺陷的离体校正,所述细胞是例如从受试者获得的细胞且所述细胞接着被重新引入同一或另一受试者体内;以及用于引入体内靶向突变,例如,校正基因缺陷或将失活突变引入疾病相关基因中,可以使用本文提供的核碱基编辑器处理G至A或T至C突变。本公开提供利用脱氨酶和核碱基编辑器的脱氨酶、融合蛋白、核酸、载体、细胞、组合物、方法、试剂盒、系统等。
核碱基编辑器用于靶向Mecp2基因中的核苷酸的用途
如本文所述,评估了核碱基编辑器靶向Mecp2基因中的核苷酸的适用性。在一种实施方案中,用编码本文所述的核碱基编辑器的一种或多种核酸分子与少量编码报告基因(例如,GFP)的载体一起转染、转导或以其他方式修饰感兴趣的单细胞。这些细胞可以是永生化的人细胞系,诸如293T、K562或U20S。作为另一种选择,可以使用原代人细胞。细胞也可以获自受试者或个体,诸如获自组织活检、外科手术、血液、血浆、血清或其他生物流体。此类细胞可能与最终的细胞靶标相关。
可以使用病毒载体如下文进一步描述的执行递送。在一种实施方案中,可以使用脂质转染(诸如Lipofectamine或Fugene)或通过电穿孔执行转染)。转染之后,可通过荧光显微镜检查或通过流式细胞术测定GFP的表达,以证实持续且高水平的转染。这些初步转染可包含不同的核碱基编辑器以确定编辑器的哪些组合给出最大活性。
如本文所述,例如,通过将靶标基因测序以检测靶标序列中的改变,来评估核碱基编辑器的活性。对于Sanger测序,将纯化的PCR扩增子克隆到质粒主链中,转化,小规模制备并使用单引物测序。也可以使用下一代测序技术执行测序。当使用下一代测序时,扩增子可以是具有位于不对称位置的预期切口位点的300-500bp。在PCR之后,可以将下一代测序适配器和条码(例如,Illumina多路复用适配器和索引)添加到扩增子的末端,例如,以在高通量测序中(例如在Illumina MiSeq上)使用。
可以选择在初始测试中诱导最高水平的靶标特异性改变的融合蛋白进行进一步评估。
在特定实施方案中,使用核碱基编辑器来靶向感兴趣的多核苷酸。在一种实施方案中,将本文所述的核碱基编辑器与向导RNA协同递送至细胞(例如,神经元),所述向导RNA用于靶向核酸序列(例如,携带RTT相关突变的Mecp2多核苷酸),从而改变靶标基因,即,Mecp2。
在一些实施方案中,碱基编辑器为向导RNA所靶向以将一个或多个编辑引入感兴趣的基因序列中。在一些实施方案中,引入Mecp2基因中的一个或多个改变如下表10中所示。
产生预期突变
在一些实施方案中,本文提供的方法的目的是经由基因编辑恢复失能基因的功能。在一些实施方案中,通过引入预期突变来恢复失能基因的功能。在一些实施方案中,本文提供的方法可以用来中断基因产物的正常功能。本文提供的核碱基编辑蛋白可以被验证用于基于基因编辑的体外人类疗法,例如,通过校正人细胞培养物中的疾病相关突变来验证。技术人员将会理解,本文提供的核碱基编辑蛋白,例如,包含多核苷酸可编程核苷酸结合结构域(例如,Cas9)和核碱基编辑结构域(例如,腺苷脱氨酶结构域)的融合蛋白,可以用来校正任何单点A至G或C至T突变。在第一种情况下,突变的A脱氨基化为I校正了所述突变,而在后一种情况下,与突变的T进行碱基配对的A的脱氨基作用以及随后的一轮复制校正了所述突变。
在一些实施方案中,本文公开提供碱基编辑器,其在核酸(例如,受试者基因组内的核酸)中有效地产生“预期突变”诸如点突变,而不产生显著数量的非预期突变诸如非预期点突变。在一些实施方案中,预期突变是通过结合至向导多核苷酸(例如,gRNA)的特异性碱基编辑器(例如,腺苷碱基编辑器)产生的突变,所述特异性碱基编辑器经过特异性地涉及以产生预期突变。在一些实施方案中,预期突变是与疾病或疾患(例如,RETT综合征)相关的突变。在一些实施方案中,预期突变是与疾病或疾患(例如,RETT综合征)相关的腺嘌呤(A)至鸟嘌呤(G)的点突变(例如,SNP)。在一些实施方案中,预期突变是基因的编码区或非编码区(例如,调节区或元件)内的腺嘌呤(A)至鸟嘌呤(G)的点突变。在一些实施方案中,预期突变是点突变,所述点突变在基因的编码区内产生终止密码子,例如,提前终止密码子。在一些实施方案中,预期突变是消除终止密码子的突变。
在一些实施方案中,本文提供的碱基编辑器能够产生大于:1的预期突变与非预期突变的比率(例如,预期点突变:非预期点突变)。1.在一些实施方案中,本文提供的碱基编辑器能够产生至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少150:1、至少200:1、至少250:1、至少500:1、或至少1000:1或更高的预期突变与非预期突变的比率(例如,预期点突变:非预期点突变)。
碱基编辑器效率的细节在国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述,其各自通过引用而整体并入本文。也参见,Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017)和Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),其整体内容通过引用并入本文。
在一些实施方案中,使用本文提供的方法编辑一个或多个基因中的多个核碱基对导致了至少一个预期突变的形成。在一些实施方案中,所述至少一个预期突变的所述形成导致了致病突变的精确校正。应知悉,可以使用本文提供的任何方法或方法的组合可以实现多路复用编辑。
致病突变的精确校正
在一些实施方案中,预期突变是对致病突变或引起疾病的突变的精确校正。致病突变可以是致病单核苷酸多态性(SNP)或者由SNP引起。例如,致病突变可以是由基因编码的蛋白质中的氨基酸改变。在另一示例中,致病突变可以是基因中的致病SNP。精确校正可以将致病突变逆转回其野生型状态。在一些实施方案中,致病突变是与疾病或疾患相关的G→A点突变,并且其中用A到G碱基编辑器(ABE)对突变的A碱基进行的脱氨基作用导致了不与疾病或疾患相关的序列。在一些实施方案中,致病突变是C→T点突变。例如,可以通过将A到G碱基编辑器(ABE)靶向至相反链并且编辑致病T核碱基的补体A来校正C→T。碱基编辑器可以被靶向至致病SNP,或被靶向至致病SNP的补体。病原学或致病突变的说明的命名法在den Dunnen,J.T.and Antonarakis,S.E.,“Mutation Nomenclature Extensions andSuggestions to Describe Complex Mutations:A Discussion.”Human Mutation 15:712(2000)中有所描述,其整体内容通过引用并入本文。
在特定实施方案中,疾病或病症是Rett综合征(RTT)。在一些实施方案中,致病突变位于Mecp2基因中。
递送系统
核碱基编辑器和gRNA的基于核酸的递送
编码苯基本发明的碱基编辑系统的核酸可以通过本领域已知方法或如本文所述给药至受试者或者在体外或体内递送至细胞内。在一种实施方案中,可以通过例如载体(例如,病毒或非病毒载体)、不基于载体的方法(例如,使用裸DNA、DNA复合物、脂质纳米粒子)或其组合来递送核碱基编辑器。
编码核碱基编辑器的核酸可以作为裸DNA或RNA例如通过转染或电穿孔被直接递送至细胞(例如,造血细胞和/或诱导多能干细胞),或者可以被偶联至促进被靶标细胞摄取的分子(例如,N-乙酰基半乳糖胺)。可以使用核酸载体,诸如本文所述的载体。
核酸载体可以包含一种或多种编码本文所述融合蛋白的结构域的序列。载体也可以包含与编码蛋白质的序列缔合(例如,插入所述序列内或融合至所述序列)的编码信号肽(例如,用于核定位、核仁定位或线粒体定位的信号肽)的序列。作为一个示例,核酸载体可以包括包含一个或多个核定位序列(例如,来自SV40的核定位序列)的Cas9编码序列,以及腺苷脱氨酶变体(例如,TadA*8)。
核酸载体也可以包括任何合适数量的调节/控制元件,例如,启动子、增强子、内含子、多腺苷酸化信号、Kozak常见序列或内部核糖体进入位点(IRES)。这些元件是本领域中周知的。对于造血细胞,合适的启动子可以包括IFNβ或CD45。
根据本公开的核酸载体包括重组病毒载体。示例性病毒载体在本文中详述。也可使用本领域已知的其他病毒载体。此外,可以使用病毒粒子来递送核酸和/或肽形式的碱基编辑系统组分。例如,可以将“空”病毒粒子组装为含有任何合适的载荷。也可以将病毒载体或病毒粒子工程化以静茹靶向配体,从而改变靶标组织特异性。
除了病毒载体之外,非病毒在于可用来递送编码根据本发明的基因组编辑系统的核酸。非病毒核酸载体的一个重要类别是纳米粒子,其可以是有机的或无机的。纳米粒子是本领域周知的。任何合适的纳米粒子设计可以用来递送基因组编辑系统组分或编码此类组分的核酸。例如,在本公开的某些实施方案中,有机(例如,脂质和/或聚合物)纳米粒子可能适合用作递送媒介。用于纳米粒子制剂和/或基因转移的示例性脂质显示在(下)表12中。
表12
Figure BDA0003480255960003851
表13列出了用于基因转移和/或纳米粒子制剂的示例性聚合物。
表13
Figure BDA0003480255960003861
表14总结了用于编码本发明的融合蛋白的多核苷酸的递送方法。
表14
Figure BDA0003480255960003871
在另一方面,基因组编辑系统组分或编码此类组分的核酸(例如,核酸结合蛋白诸如,举例而言,Cas9或其变体)以及靶向感兴趣的基因组核酸序列的gRNA的递送,可以通过递送核糖核蛋白(RNP)至细胞而得以实现。RNP包含处于与靶向gRNA的复合物中的核酸结合蛋白,例如,Cas9。可以使用已知方法将RNP递送至细胞,所述方法诸如电穿孔、核转染或阳离子脂质介导的方法,例如,如Zuris,J.A.等人,2015,Nat.Biotechnology,33(1):73-80中报导的。就用于CRISPR碱基编辑系统而言,尤其是针对难以转染的细胞诸如原代细胞,RNP具有优势。此外,RNP也可以缓解在细胞内进行蛋白质表达时可能出现的困难,尤其是当不能良好地表达可能用于CRISPR质粒中的真核启动子(例如,CMV或EF1A)时。有利的是,RNP的使用并不需要将外来DNA递送到细胞内。此外,因为包含核酸结合蛋白和gRNA复合物的RNP随着时间推移而降解,RNP的使用具有限制脱靶效应的潜力。以类似于基于质粒的技术所采用的方式,RNP可以用来递送结合蛋白(例如,Cas9变体)并且引导同源诱导修复(HDR)。
用来驱动编码核酸分子表达的碱基编辑器的启动子可以包括AAV ITR。这对于消除对于可能占据载体内空间的额外启动子元件的需求而言可能是有利的。释放的额外空间可以用来驱动额外元件诸如向导核酸或可选标记物的表达。ITR活性相对较弱,因此它可以用来降低由于所选核酸酶的过度表达带来的潜在毒性。
任何合适的启动子可以用来驱动碱基编辑器和(若适宜)向导核酸的表达。对于泛素化表达,可使用的启动子包括CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链等。对于脑或其他CNS细胞表达,合适的启动子包括:用于全部神经元的突触蛋白I、用于兴奋性神经元的CaMKIIα、用于GABA神经元的GAD67或GAD65或VGAT等。对于肝细胞表达,合适的启动子包括白蛋白启动子。对于非细胞表达,合适的启动子可以包括SP-B。对于内皮细胞,合适的启动子可以包括ICAM。对于造血细胞,合适的启动子可以包括IFNβ或CD45。对于成骨细胞,合适的启动子可以包括OG-2。
在一些实施方案中,本公开的碱基编辑器的尺寸足够小,以致于允许独立的启动子驱动碱基编辑器和同一核酸分子中的兼容向导核酸的表达。例如,载体或病毒载体可以包含可操作地连接至编码碱基编辑器的核酸的第一启动子以及可操作地连接至向导核酸的第二启动子。
用来驱动向导核酸的表达的启动子可以包括:Pol III启动子,诸如U6或H1。PolII启动子和内含子盒用来表达gRNA腺相关病毒(AAV)。
病毒载体
本文所述的碱基编辑器因此可以使用病毒载体递送。在一些实施方案中,本文公开的碱基编辑器可以被编码在病毒载体中含有的核酸上。在一些实施方案中,碱基编辑器系统的一个或多个组分可以被编码在一种或多种病毒载体上。例如,碱基编辑器和向导核酸可以被编码在单个病毒载体上。在其他实施方案中,碱基编辑器和向导核酸被编码在不同的病毒载体上。在每种情况下,碱基编辑器和向导核酸可以各自可操作地连接至启动子和终止子。被编码在病毒载体上的组分的组合可以通过所选病毒载体的载荷尺寸约束条件确定。
基于RNA或DNA病毒的系统的用于递送碱基编辑器的用途利用了高度进化的过程的优势,这些过程用于将病毒靶向至培养物中或宿主中的特定细胞以及将病毒有效载荷转运到细胞核或宿主细胞基因组。病毒载体可以直接给药至培养物中的细胞、患者(体内),或者它们可以用来在体外处理细胞,并且经修饰的细胞可以任选地被给药至患者(离体)。传统的基于病毒的系统可包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒。使用逆转录病毒、慢病毒和腺相关病毒基因转移方法整合到宿主基因组中是可能的,经常导致感兴趣的转基因的长期表达。此外,已经在很多不同的细胞类型和靶标组织中观察到了高转导效率。
病毒载体可以包括慢病毒(例如,基于HIV和FIV的载体)、腺病毒(例如,AD100)、逆转录病毒(例如,莫洛尼鼠白血病病毒,MML-V)、疱疹病毒在听(例如,HSV-2)和腺相关病毒(AAV),或者其他质粒或病毒载体类型,特别地,使用来自美国专利号8,454,972(关于腺病毒的制剂、剂量)、美国专利号8,404,658(关于AAV的制剂、剂量)和美国专利号5,846,946(关于DNA质粒的制剂、剂量)以及来自临床试验和关于牵涉慢病毒、AAV和腺病毒的临床试验的出版物的制剂和剂量。例如,对于AAV,给药途径、制剂和剂量可以如美国专利号8,454,972和牵涉AAV的临床试验中所示。例如,对于腺病毒,给药途径、制剂和剂量可以如美国专利号8,404,658和牵涉腺病毒的临床试验中所示。例如,对于质粒递送,给药途径、制剂和剂量可以如美国专利号5,846,946和牵涉质粒的临床研究中所示。剂量可以基于或外推至平均体重为70kg的个体(例如,成年男性),并且可以针对患者、受试者、不同体重和物种的哺乳动物进行调节。给药频率处于医疗或兽医从业者(例如,医师、兽医)的能力范围内,取决于包括以下项的因素:患者或受试者的年龄、性别、一般健康情况、其他病症以及待解决的特定病症或症状。可以将病毒载体注射到感兴趣的组织内。对于细胞类型特异性的碱基编辑,碱基编辑器和任选的向导核酸的表达可以由细胞类型特异性启动子驱动。
可以通过并入外来包膜蛋白改变逆转录病毒的向性,拓展靶标细胞的潜在靶标群。慢病毒载体是逆转录病毒载体,其能够转导或感染非分裂细胞并且通常产生高病毒滴度。逆转录病毒基因转移系统的选择将会因此取决于靶标组织。逆转录病毒载体由顺式作用长末端重复序列构成,其封装能力高达6-10kb的外来序列。最小顺式作用LTR对于载体的复制和封装而言是足够的,其随后被用来将治疗性基因整合到靶标细胞内,以提供永久性转基因表达。广泛使用的逆转录病毒载体包括那些基于以下的载体:鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人免疫缺陷病毒(HIV)及其组合(参见例如,Buchscher等人,J.Virol.66:2731-2739(1992);Johann等人,J.Virol.66:1635-1640(1992);Sommnerfelt等人,Virol.176:58-59(1990);Wilson等人,J.Virol.63:2374-2378(1989);Miller等人,J.Virol.65:2220-2224(1991);PCT/US94/05700)。
逆转录病毒载体,尤其是慢病毒载体,可能需要小于给定长度的多核苷酸序列,以有效地整合到靶标细胞中。例如,与尺寸较小的逆转录病毒载体相比,长度大于9kb的逆转录病毒载体可能导致低病毒滴度。在一些方面,本公开的碱基编辑器的尺寸是足够的,从而能够进行有效封装并经由逆转录病毒载体被递送到靶标细胞内。在一些实施方案中,即便当与向导核酸和/或可靶向的核酸酶系统的其他组分一起被表达时,碱基编辑器的尺寸也允许进行有效封装和递送。
在优选瞬时表达的应用中,可以使用基于腺病毒的系统。基于腺病毒的系统能够在很多细胞类型中表现出非常高的转导效率并且不需要细胞分裂。使用此类载体,已经获得了高滴度和表达水平。这一载体可以在相对简单的系统中大量生产。腺相关病毒(“AAV”)载体也可以用来使用靶标核酸转染细胞,例如在体外生产核酸和肽,以及进行体内和离体的基因治疗过程(参见例如,West等人,Virology 160:38-47(1987);美国专利号4,797,368;WO 93/24641;Kotin,Human Gene Therapy 5:793-801(1994);Muzyczka,J.Clin.Invest.94:1351(1994))。重组AAV载体的构建在大量出版物中有所描述,包括美国专利号5,173,414;Tratschin等人,Mol.Cell.Biol.5:3251-3260(1985);Tratschin,等人,Mol.Cell.Biol.4:2072-2081(1984);Hermonat & Muzyczka,PNAS 81:6466-6470(1984);和Samulski等人,J.Virol.63:03822-3828(1989)。
AAV是小的、单链DNA依赖性病毒,属于细小病毒家族。4.7kb野生型(wt)AAV基因组由分别编码四种复制蛋白和三种衣壳蛋白的两个基因组成,并且两侧各具有145-bp的末端反向重复序列(ITR)。病毒体由三种衣壳蛋白(Vp1、Vp2和Vp3)构成,以1:1:10的比率产生自同一个开读框但来自差异剪接位点(Vp1)和替代性翻译起始位点(分别为Vp2和Vp3)。Vp3是病毒体中丰度最高的亚基,并且参与细胞表面处的定义病毒向性的受体复制。已经在Vp1的独特N端中鉴定了在病毒感染性中起作用的磷脂酶结构域。
类似于wt AAV,重组AAV(rAAV)利用顺式作用145-bp ITR与病毒转基因盒两侧相接,提供高达4.5kb进行外来DNA的封装。感染会后,rAAV可以表达本公开的融合蛋白,并且通过附加基因地存在于环状头至尾串联体中而持续存在,不被整合到宿主基因组中。尽管存在使用这一系统的体外和体内rAAV成功的大量示例,但当基因编码序列的长度在尺寸上大于或等于wt AAV基因组时,有限的封装能力已经限制了AAV介导的基因递送的用途。
可基于应用而选择病毒载体。例如,对于体内基因递送,AAV可能比其他病毒载体有利。在一些实施方案中,AAV导致低毒性,这可能是由于纯化方法不需要对细胞离子进行超离心,而超离心可能激活免疫应答。在一些实施方案中,因为AAV不整合到宿主基因组中,所以导致造成插入性诱变的可能性较低。腺病毒因为其诱导强烈的免疫原性应答而常常用作疫苗。病毒载体的封装能力可能限制可以被封装到载体中的碱基编辑器的尺寸。
AAV的封装能力为约4.5Kb或4.75Kb,包括两个145各碱基的末端反向重复序列(ITR)。这意味着所公开的碱基编辑器以及启动子和转录终止子可以装入单个病毒载体中。大于4.5或4.75Kb的构建体可能导致显著减少的病毒产生。例如,SpCas9很大,所述基因本身超过4.1Kb,这使得它难以封装到AAV中。因此,本公开的实施方案包括利用所公开的长度比传统碱基编辑器短的碱基编辑器。在一些实施例中,碱基编辑器小于4kb。所公开的碱基编辑器可以小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.2kb、3.1kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb或1.5kb。在一些实施方案中,所公开的碱基编辑器的长度为4.5kb或更短。
AAV可以是AAV1、AAV2、AAV5或其任何组合。可以关于待靶向的细胞而选择AAV的类型,例如,可以选择AAV血清型1、2、5或杂交衣壳AAV1、AAV2、AAV5或其任何组合来靶向脑或神经元细胞;并且可以选择AAV4来靶向心脏组织。AAV8可用于递送至肝脏。关于这些细胞的某些AAV血清型的列表可以在Grimm,D.等人,J.Virol.82:5887-5911(2008)中找到。
慢病毒是复合逆转录病毒,其具有感染并且在有丝分裂细胞和有丝分裂后细胞中表达其基因的能力。最常见的已知慢病毒是人免疫缺陷病毒(HIV),其使用其他病毒的包膜糖蛋白来靶向大范围的细胞类型。
慢病毒可以如下制备。在克隆pCasES10(其含有慢病毒转移质粒主链)后,在转染前一天,将低代(p=5)的HEK293FT接种到T-75烧瓶中的具有10%胎牛血清且不含抗生素的DMEM中,达到50%汇合。20小时后,将培养基变为OptiMEM(无血清)培养基,并在4小时后进行转染。用10μg的慢病毒转移质粒(pCasES10)和下列封装质粒转染细胞:5μg的pMD2.G(VSV-g假型)和7.5μg的psPAX2(gag/pol/rev/tat)。转染可以在4mL OptiMEM中用阳离子脂质递送剂(50μl Lipofectamine 2000和100μl Plus试剂)进行。6小时后,将培养基变为具有10%胎牛血清的无抗生素DMEM。这些方法在细胞培养期间使用血清,但优选无血清的方法。
慢病毒可以如下纯化。在48小时后收获病毒上清液。首先清除上清液中的碎屑,并且通过0.45μm低蛋白结合(PVDF)过滤器过滤。然后将它们在超离心机中以24,000rpm旋转2小时。将病毒球丸重新悬浮在50μl的DMEM中,在4℃过夜。然后将它们分为等量小样并立即在-80℃冷冻。
在另一实施方案中,还考虑了基于马感染性贫血病毒(EIAV)的最小非灵长动物慢病毒载体。在另一实施例中,考虑经由视网膜下注射递送RetinoStat.RTM.,一种表达抑制血管生成的蛋白质(即,内皮抑素和血管抑素)的基于马感染性贫血病毒的慢病毒基因治疗载体。在另一实施方案中,考虑使用自灭活的慢病毒载体。
所述系统的任何RNA,例如,向导RNA或编码碱基编辑器的mRNA,可以RNA的形式递送。可以使用体外转录产生编码碱基编辑器的mRNA。例如,可以使用含有下列元件的PCR盒合成核酸酶mRNA:T7启动子、任选的kozak序列(GCCACC)、核酸酶序列和3'UTR诸如来自β珠蛋白-polyA尾部的3'UTR。所述盒可以用于通过T7聚合酶进行的转录。向导多核苷酸(例如,gRNA)也可以使用体外转录从含有T7启动子、其后的序列“GG”和向导多核苷酸序列的盒转录。
为了增强表达并降低可能的毒性,可以例如使用假-U或5-甲基-C将编码碱基编辑器的序列和/或向导核酸修饰为包括以或多个经修饰的核苷酸。
AAV载体的低封装能力使得大量超过这一尺寸的基因的递送和/或大的生理学调节元件的使用颇具挑战性。这些挑战可以例如通过将待递送的蛋白质分为两个或更多个片段而得以解决,其中所述N端片段融合至分裂内含肽-N,并且C端片段融合至分裂内含肽-C。然后将这些片段封装到两个或更多个AAV载体中。如本文所用,“内含肽”是指自剪接蛋白内含子(例如,肽),其连接位于两侧的N端和C端外显肽(例如,待接合的片段)。某些内含肽用于接合异源蛋白片段的用途在例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中有所描述。例如,当融合至独立的蛋白片段时,内含肽IntN和IntC彼此识别,将其自身剪出并同步连接位于两侧的它们所融合的蛋白片段的N端和C端外显肽,从而从两个蛋白片段重构全长度蛋白质。其他合适的内含肽对于本领域技术人员将是显而易见的。
本公开的融合蛋白的片段的长度可变。在一些实施方案中,蛋白片段的长度为2个氨基酸至约1000个氨基酸的范围。在一些实施方案中,蛋白片段的长度为约5个氨基酸至约500个氨基酸的范围。在一些实施方案中,蛋白片段的长度为约20个氨基酸至约200个氨基酸的范围。在一些实施方案中,蛋白片段的长度为约10个氨基酸至约100个氨基酸的范围。其他长度的合适的蛋白片段对于本领域技术人员将会是显而易见的。
在一种实施方案中,通过将大的转基因盒剪接为独立的两半(5'和3'末端,或头部和尾部)而产生双AAV载体,其中所述盒的每一半都被封装到单个AAV载体(尺寸<5kb)中。然后,在通过两个双AAV载体对同一细胞进行共转染后,遵循下列实现全长度转基因表达盒的重新组装:(1)5'基因组与3'基因组(双AAV重叠载体)之间的同源重组(HR);(2)5'基因组和3'基因组(双AAV反式剪接载体)的ITR介导的尾至头连环化;或(3)这两种机制的组合(双AAV杂交载体)。在体内使用双AAV载体导致全长度蛋白质的表达。双AAV载体平台的使用为尺寸>4.7kb的转基因提供了有效且可行的基因转移策略。
内含肽
在一些实施方案中,将核酸酶(例如,Cas9)的一部分或片段融合至内含肽。核酸酶可以融合至内含肽的N端或C端。在一些实施方案中,融合蛋白的一部分或片段融合至内含肽并且融合至AAV衣壳蛋白。内含肽、核酸酶和衣壳蛋白可以任何排列(例如,核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶等)融合在一起。在一些实施方案中,内含肽的N端融合至融合蛋白的C端,并且内含肽的C端融合至AAV衣壳蛋白的N端。
内含肽(干预蛋白)是见于多种不同生物体中的自加工结构域,其完成被称为蛋白质剪接的过程。蛋白质剪接是一种多步骤生化反应,由肽键的裂解和形成构成。尽管蛋白质剪接的内源性底物是在含有内含肽的生物体中发现的蛋白质,但内含肽也可以用来化学地操纵几乎任何多肽主链。
在蛋白质剪接中,内含肽通过裂解两个肽键而从前体多肽切除自身,从而经由形成新的肽键而连接位于两侧的外显肽(外部蛋白质)。这一重排发生在翻译后(或可能与翻译同时发生)。内含肽介导的蛋白质剪接自发地发生,仅需要内含肽结构域的折叠。
大约5%的内含肽是分裂内含肽,其被转录并翻译为两个独立的多肽,即N-内含肽和C-内含肽,各自融合至一个外显肽。翻译之后,内含肽片段自发地且非共价地组装为经典内含肽结构以完成U反式蛋白质剪接。蛋白质剪接的机制包括一系列酰基转移反应,这些反应导致位于内含肽-外显肽交叉处的两个肽键段落以及N-外显肽与C外显肽之间的新肽键形成。这一过程通过激活接合N-外显肽与内含肽的N端的肽键启动。几乎全部内含肽均具有位于其N端的半胱氨酸或丝氨酸,所述氨基酸供给C端N-外显肽残基的羰基碳。保守的苏氨酸和组氨酸(称为TXXH基序)以及常见的天冬氨酸一起促进了这种N到O/S酰基的转移,导致线性(硫代)酯中间体的形成。之后,这一中间体通过第一个C-外显肽残基(+1)的亲核攻击而历经反式(硫代)酯化,所述残基是半胱氨酸、丝氨酸或苏氨酸。所得的支化(硫代)酯中间体通过内含肽的高度保守的C端天冬酰胺的独特的转化:环化得以拆分。这一过程为组氨酸(见于高度保守的HNF基序中)和倒数第二的组氨酸所促进,并且也可能牵涉所述天冬氨酸。这一琥珀酰亚胺形成反应将内含肽从反应性复合物中切除,并留下通过非肽链接附接的外显肽。这一结构以不依赖于内含肽的模式迅速重排为稳定的肽键。
在一些实施方案中,碱基编辑器(例如,ABE、CBE)的N端片段融合至分裂内含肽-N,并且C端片段融合至分裂内含肽-C。这些片段随后被封装到两个或更多个AAV载体中。某些内含肽用于接合异源蛋白片段的用途在例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中有所描述。例如,当融合至独立的蛋白片段时,内含肽IntN和IntC彼此识别,将其自身剪出并同步连接位于两侧的它们所融合的蛋白片段的N端和C端外显肽,从而从两个蛋白片段重构全长度蛋白质。其他合适的内含肽对于本领域技术人员将是显而易见的。
在一些实施方案中,ABE在所选的SpCas9区域内的Ala、Ser、Thr或Cys残基处分裂为N端片段和C端片段。这些区域对应于通过Cas9晶体结构分析检定的环区域。在氨基酸位置S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589和S590处,每个片段的N端融合至内含肽-N,并且每个片段的C端融合至内含肽-C,这些位置在下述序列中以粗体大写字母表示。
Figure BDA0003480255960003951
Figure BDA0003480255960003961
药物组合物
本公开的其他方面涉及药物组合物,其包含本文所述的任何碱基编辑器、融合蛋白或融合蛋白-向导多核苷酸复合物。在一些实施方案中,药物组合物进一步包含药学可接受的载剂。在一些实施方案中,药物组合物包含额外试剂(例如,用于特异性递送、增加半衰期或其他治疗性化合物)。
可用作药学上可接受的载剂的材料的一些非限制性示例包括:(1)糖类,诸如乳糖、葡萄糖和蔗糖;(2)淀粉类,诸如玉米淀粉和马铃薯淀粉;(3)纤维素及其衍生物,诸如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素和醋酸纤维素;(4)黄蓍粉;(5)麦芽;(6)明胶;(7)润滑剂,诸如硬脂酸镁、十二烷基硫酸钠和滑石;(8)赋形剂,诸如可可脂和栓蜡;(9)油类,诸如花生油、棉籽油、葵花籽油、芝麻油、橄榄油、玉米油和大豆油;(10)二醇类,诸如丙二醇;(11)多元醇类,诸如甘油、山梨醇、甘露醇和聚乙二醇(PEG);(12)酯类,诸如油酸乙酯和月桂酸乙酯;(13)琼脂;(14)缓冲剂,诸如氢氧化镁和氢氧化铝;(15)海藻酸;(16)无热原水;(17)等张盐水;(18)Ringer溶液;(19)乙醇;(20)pH缓冲溶液;(21)聚酯类、聚碳酸酯类和/或聚酐类;(22)填充剂,诸如多肽和氨基酸;(23)血清醇类,诸如乙醇;和(23)其他用于药物制剂中的无毒相容物质。缓冲剂、润湿剂、乳化剂、稀释剂、成胶囊剂、皮肤渗透剂、着色剂、释放剂、包衣剂、甜味剂、风味剂、芳香剂、防腐剂和抗氧化剂也可以存在于制剂中。例如,载剂可以包括但不限于,盐水、缓冲盐水、葡萄糖、精氨酸、蔗糖、水、甘油、乙醇、山梨醇、葡聚糖、羧甲基纤维素钠及其组合。
药物组合物可以包含一种或多种pH缓冲化合物以将制剂的pH维持在预定水平,所述水平反映了生理pH,诸如约5.0至约8.0的范围内。水性液体制剂中使用的pH缓冲化合物可以是氨基酸或氨基酸的混合物,诸如组氨酸或者氨基酸的混合物诸如组氨酸和甘氨酸。作为另一种选择,在一些实施方案中,pH缓冲化合物是将制剂的pH维持在预定水平(诸如约5.0至约8.0的范围内)并且不螯合钙离子的试剂。此类pH缓冲化合物的说明性示例包括但不限于,咪唑和醋酸根离子。pH缓冲化合物可能以任何适于将制剂的pH维持在预定水平的量存在。
药物组合物也可以含有一种或多种渗透调节剂的化合物,即,将制剂的渗透性质(例如,紧张性、渗透性和/或渗透压)调节至接纳者个体的血流和血细胞可以接受的水平。渗透调节剂可以是不螯合钙离子的试剂。渗透调节剂可以是本领域技术人员已知或可获得的调节制剂的渗透性质的任何化合物。本领域技术人员可以经验性地确定给定渗透调节剂用于本发明制剂中的适用性。合适类型的渗透调节剂的说明性示例包括但不限于:盐类,诸如氯化钠和醋酸钠;糖类,诸如蔗糖、葡萄糖和甘露醇;氨基酸,诸如甘氨酸;以及一种或多种这些试剂的混合物和/或一种或多种这些类型的试剂的混合物。渗透调节剂可能以足以调节制剂的渗透性质的任何浓度存在。
在一些实施方案中,将药物组合物配制为用于递送至受试者以例如进行基因编辑。在一些实施方案中,本文设想的药物组合物的给药可以使用传统技术实施,所述传统技术包括但不限于,输注、输液或肠胃外给药。在一些实施方案中,肠胃外给药包括血管内、静脉内、肌肉内、动脉内、鞘内、肿瘤内、皮内、腹膜内、经气管、皮下、表皮下、关节内、被膜下、蛛网膜下和胸骨内输液或注射。在一些实施方案中,给药本文所述药物组合物的合适途径包括而不限于:外用、皮下、透皮、皮内、病灶内、关节内、腹膜内、膀胱内、跨粘膜、齿龈、皮内、耳蜗内、经鼓膜、器官内、硬膜外、鞘内、肌肉内、静脉内、血管内、骨内、眼周、肿瘤内、脑内和脑室内给药。
在一些实施方案中,将本文所述的药物组合物局部给药至病变位点(例如,肿瘤位点)。在一些实施方案中,通过注射、通过导管、通过栓剂、或通过植入物将本文所述的药物组合物给药至受试者,所述植入物是多孔的、无孔的或凝胶状材料,包括膜(诸如硅橡胶膜)或纤维。
在其他实施方案中,将本文所述的药物组合物以控制释放系统的方式递送。在一个实施方案中,可以使用泵(参见,例如,Langer,1990,Science 249:1527-1533;Sefton,1989,CRC Crit.Ref.Biomed.Eng.14:201;Buchwald等人,1980,Surgery 88:507;Saudek等人,1989,N.Engl.J.Med.321:574)。在另一实施方案中,可以使用聚合材料。(参见,例如,Medical Applications of Controlled Release(Langer和Wise编,CRC Press,BocaRaton,Fla.,1974);Controlled Drug Bioavailability,Drug Product Design andPerformance(Smolen和Ball编,Wiley,New York,1984);Ranger and Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61。也参见,Levy等人,1985,Science 228:190;During等人,1989,Ann.Neurol.25:351;Howard等人,1989,J.Neurosurg.71:105。)例如,在上文的Langer文献中讨论了其他控制释放系统。
在一些实施方案中,根据常规过程将药物组合物配制为适用于静脉内或皮下给药至受试者(例如,人)的组合物。在一些实施方案中,用于通过注射给药的药物组合物是无菌等渗溶液,用作增溶剂和局部麻醉剂(诸如利多卡因)以缓解注射部位的疼痛。通常,这些成分以单位剂型单独地或混合在一起,例如,作为干燥冻干粉或无水浓缩物,提供在标注活性剂数量的密封容器诸如安瓿或小袋中。若药物待通过输液给药,则可使用含有无菌医药级水或盐水的输液瓶分配。若药物组合物通过注射给药,则可提供无菌注射用水或盐水的安瓿,使得可以在给药前混合这些成分。
用于全身性给药的药物组合物可以是液体,例如,无菌盐水、乳酸盐林格溶液或汉克溶液。此外,药物组合物可以是固体形式并且在重新溶解或悬浮后立即使用。也预期冻干形式。药物组合物可以包含在脂质颗粒或媒介物诸如脂质体或微晶体内,这也适用于肠胃外给药。颗粒可以是任何适合的结构,诸如单层的或多层的,只要组合物包含在其中即可。化合物可以包埋在“稳定化的质粒-脂质颗粒”(SPLP)中,所述颗粒含有融合脂质二油酰基磷脂酰乙醇胺(DOPE)、低含量(5-10mol%)的阳离子脂质,并且通过聚乙二醇(PEG)涂层予以稳定化(Zhang Y.P.等人,Gene Ther.1999,6:1438-47)。对于此类颗粒和媒介物,尤其优选带正电的脂质诸如N-[l-(2,3-二油酰氧基)丙基]-N,N,N-三甲基-甲基硫酸铵或“DOTAP”。此类脂质颗粒的制备是众所周知的。见,例如,美国专利号4,880,635、4,906,477、4,911,928、4,917,951、4,920,016和4,921,757,其各自通过引用并入本文。
例如,本文所述的药物组合物可以作为单位剂量给药或封装。当用于本公开的药物组合物时,术语“单位剂量”是指适合作为单一剂量用于受试者的物理上离散的单位,每个单位包含预定数量的活性材料,所述预定数量计算为产生所希望的治疗效果,且所述活性材料与需要的稀释剂即载体或媒介物联合。
再者,药物组合物可以提供为包含以下向的药物试剂盒:(a)含有冻干形式的本公开化合物的容器,和(b)含有药学上可结束的稀释剂(例如,用于重构或稀释冻干的本公开化合物的无菌稀释剂)。与此类容器任选地关联的可以是由政府机构规定的调节药物或生物产品的制造、使用或规格形式的注意事项,所述注意事项反映了所述机构批准的用于人类给药的制造、使用或规格。
在其他方面,包括含有可用于治疗Rett综合征(RTT)的物质的制品。在一些实施方案中,所述制品包含容器和标签。合适的容器包括,例如,瓶、小瓶、注射器和试管。容器可由各种材料诸如玻璃或塑料制成。在一些实施方案中,所述容器容纳本文所述的对于治疗疾病有效的组合物并且可以具有无菌接口。例如,容器可以是静脉注射溶液袋或具有可被皮下注射针刺穿的塞子的小瓶。组合物中的活性剂是本公开的化合物。在一些实施方案中,位于容器上或与容器关联的标签指示所述组合物用于治疗所选择的疾病。所述制品可以进一步包含第二容器,所述第二容器包含药学上可接受的缓冲剂,诸如磷酸盐缓冲盐水、Ringer溶液或葡萄糖溶液。其可进一步包括从商业和使用者角度所需的其他材料,包括其他缓冲剂、稀释剂、过滤器、针头、注射器和具有使用说明书的包装插页。
在一些实施方案中,本文所述的任何融合蛋白、gRNA和/或复合物作为药物组合物的一部分提供。在一些实施方案中,药物组合物包含本文提供的任何融合蛋白。在一些实施方案中,药物组合物包含本文提供的任何复合物。在一些实施方案中,药物合物包含和碳核蛋白复合物,所述复合物包含与gRNA和阳离子脂质形成复合物的RNA引导的核酸酶(例如Cas9)。在一些实施方案中,药物组合物包含gRNA、核酸可编程DNA结合蛋白、阳离子脂质和药学可接受的赋形剂。药物组合物可以任选地包含一种或多种额外的治疗活性物质。
在一些实施方案中,将本文提供的组合物给药至受试者例如人类受试者,以便实现所述受试者体内的靶向基因组修饰。在一些实施方案中,细胞获自所述受试者并且与本文提供的任何药物组合物接触。在一些实施方案中,从受试者移除并且以离体方式与药物组合物接触的细胞被重新引入所述受试者体内,任选地在所希望的基因组修饰已经实现或在所述细胞中被检测到之后进行。递送包含核酸酶的药物组合物的方法是已知的,并且在例如美国专利号6,453,242、6,503,717、6,534,261、6,599,692、6,607,882、6,689,558、6,824,978、6,933,113、6,979,539、7,013,219和7,163,824中描述,其公开内容通过引用而以其整体并入本文。尽管本文提供的药物组合物说明原则上针对适用于给药至人类的药物组合物,但熟练技师应理解,此类组合物通常适用于给药至所有动物或生物体,例如,用于兽用。
为了使适用于给药至人类的药物组合物适用于给药至各种动物而对所述药物组合物进行的修饰是很好理解的,并且一般熟练的兽医药理学家可仅通过(如果需要)普通实验设计和/或执行此类修饰。考虑对其给药药物组合物的受试者包括但不限于,人类和/或其他灵长动物;哺乳动物、驯养动物、宠物和商业相关的哺乳动物诸如牛、猪、马、绵羊、猫、狗、小鼠和/或大鼠;和/或鸟类,包括商业相关的鸟类诸如鸡、鸭、鹅和/或火鸡。
本文所述药物组合物的制剂可以通过任何已知的或制药领域此后开发的方法制备。通常,此类制备方法包括以下步骤:将活性成分带至与赋形剂和/或一种或多种其他辅助成分关联,随后,若必要和/或希望,成形并且/或将产品包装在所希望的单或多计量单位中。药物制剂可以额外地包含药学可接受的赋形剂,如本文所用,赋形剂包括任何和全部溶剂、分散介质、稀释剂、或其他液体媒介物d、分散或悬浮助剂、表面活性剂、等渗剂、增稠剂或乳化剂、防腐剂、固体粘合剂、润滑剂等,适用于所希望的颗粒剂型。《雷明顿药物可係与实践(第二十一版)》(Remington’s The Science and Practice of Pharmacy,21stEdition,A.R.Gennaro)(Lippincott,Williams&Wilkins,Baltimore,MD,2006;通过引用以其整体并入本文)公开了用于配制药物组合物的各种赋形剂和用于制备药物组合物的已知技术。关于其他合适的用于生产包含核酸酶的药物组合物的方法、试剂、赋形剂和溶剂也参见通过引用以其整体并入本文的PCT申请PCT/US2010/055131(公布号WO2011053982 A8,2010年11月2日递交)。
除非任何常规赋形剂介质与物质或其衍生物不相容,诸如通过产生任何不希望的生物效果或者以有害方式与药物组合物的任何其他组分相互作用,否则其用途预期处于本公开的范畴内。
上述组合物可以以有效量给药。有效量将取决于给药模式、所治疗的具体病症和所希望的结果。它也可以取决于病症的阶段、受试者的年龄和身体情况、同期疗法的属性(如果有)等医疗从业者众所周知的因素。对于治疗性应用,它是足以实现医疗上希望的结果的量。
治疗RETT的方法
还提供了治疗Rett综合征(RTT或RETT)和/或引起RETT的Mecp2中的基因突变的方法,其包括向受试者(例如,哺乳动物,诸如人)给药治疗有效量的药物组合物,所述药物组合物包含编码本文所述碱基编辑器系统(例如,ABE8碱基编辑器和gRNA)的多核苷酸。在一些实施方案中,碱基编辑器是融合蛋白,其包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域。用碱基编辑器和一种或多种向导多核苷酸转导受试者的细胞,所述向导多核苷酸将所述碱基编辑器靶向以在含有Mecp2基因中的突变的核酸序列中实现A·T到G·C的改变。
本文的方法包括向受试者(包括被鉴定为需要此治疗的受试者,或易处于疾病风险下并且需要此治疗的受试者)给药有效量的本文所述组合物。证实受试者需要此治疗可为专业医护人员对受试者的判断,且可以是主观的(例如,观点)或客观的(例如,通过测试或诊断方法可测)。
通常,治疗方法包括给药治疗有效量的药物组合物,所述药物组合物包含例如编码碱基编辑器和gRNA的载体,所述gRNA靶向有此需要的受试者(例如,人类患者)的Mecp2基因。此治疗将被适当地给予苦于、患有、易患RTT或处于RTT风险下的受试者,尤其是人类受试者。本文的组合物也可用于治疗可能涉及RTT的任何其他疾患。
在一种实施方案中,提供了监测治疗进展的方法。所述方法包括以下步骤:确定苦于或易患与RTT相关的疾患或其症状的受试者体内的诊断性标记物(标记物)(例如,与RTT相关的SNP)或诊断性措施(例如,扫描、测定)的水平,其中所述受试者已经被给药足以治疗所述疾病或其症状的治疗量的本文的组合物。可以将所述方法中确定的标记物水平与健康的正常对照或其他被折磨的患者中的已知标记物水平进行比较,以建立所述受试者的疾病状态。在优选实施方案中,在晚于确定第一水平的时间点确定所述受试者体内的第二水平,并且比较两个水平以监测病程或疗效。在某些优选实施方案中,在开始根据本公开的方法进行治疗之前确定受试者体内标记物的治疗前水平;然后可以将这一标记物的治疗前水平与治疗开始之后所述受试者体内的标记物水平进行比较,以确定治疗的效力。
在一些实施方案中,细胞获自所述受试者并且与本文提供的药物组合物接触。在一些实施方案中,从受试者移除并且以离体方式与药物组合物接触的细胞被重新引入所述受试者体内,任选地在所希望的基因组修饰已经被影响或在所述细胞中被检测到之后进行。递送包含核酸酶的药物组合物的方法在例如美国专利号6,453,242、6,503,717、6,534,261、6,599,692、6,607,882、6,689,558、6,824,978、6,933,113、6,979,539、7,013,219和7,163,824中描述,全部专利的公开内容通过引用而以其整体并入本文。尽管本文提供的药物组合物说明原则上针对适用于给药至人类的药物组合物,但熟练技师应理解,此类组合物通常适用于给药至所有动物或生物体,例如,用于兽用。
试剂盒
本公开的多个方法提供包含碱基编辑器系统的试剂盒。在一种实施方案中,试剂盒包含核酸构建体,所述核酸构建体包含编码核碱基编辑器融合蛋白的核苷酸序列。在一种实施方案中,所述融合蛋白包含腺嘌呤脱氨酶和核酸可编程DNA结合蛋白(napDNAbp)。在一些实施方案中,试剂盒包含至少一种能够靶标感兴趣的核酸分子(例如,Mecp2 RTT相关突变)的向导RNA。在一些实施方案中,试剂盒包含核酸构建体,所述核酸构建体包含编码至少一种向导RNA的核苷酸序列。
在一些实施方案中,试剂盒提供关于使用所述试剂盒来编辑一种或多种Mecp2RTT相关突变的使用说明书。使用说明书通常将包括关于所述试剂盒用于编辑核酸分子的用途的信息。在其他实施方案中,使用说明书包括以下项中的至少一项:注意事项;警告;临床研究;和/或参考文献。使用说明书可直接印在容器(当存在时)上,或作为用于所述容器的标签,或作为独立的页、册、卡或折叠式印刷品提供在给容器内或与所述容器一起提供。在其他实施方案中,试剂盒可以包含关于合适的操作参数的标签或独立插页(包装插页)形式的使用说明书。在又一实施方案中,试剂盒可以包含一个或多个带有适宜的正对照和负对照或对照样品的容器,所述对照或对照样品待作为标准品用于检测、校准或归一化。试剂盒可以进一步包含第二容器,所述第二容器包含药学上可接受的缓冲剂,诸如(无菌)磷酸盐缓冲盐水、Ringer溶液或葡萄糖溶液。其可进一步包括从商业和使用者角度所需的其他材料,包括其他缓冲剂、稀释剂、过滤器、针头、注射器和具有使用说明书的包装插页。
在某些实施方案中,试剂盒可用于治疗患有Rett综合征的受试者。
除非明确指定,否则本公开的实践采用传统的分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学技术,这些技术处于本领域技术人员的知识范围内。此类技术在文献中完整地诠释,如,《分子克隆:实验室手册(第二版)》(MolecularCloning:A Laboratory Manual,second edition,(Sambrook,1989));《寡核苷酸合成》(Oligonucleotide Synthesis(Gait,1984));《动物细胞培养》(Animal Cell Culture(Freshney,1987));《实验免疫学手册》的《酶学方法》(Methods in Enzymology Handbookof Experimental Immunology(Weir,1996));《用于哺乳动物细胞的转基因载体》(GeneTransfer Vectors for Mammalian Cells(Miller and Calos,1987));和《分子生物学现代方法》(Current Protocols in Molecular Biology”(Ausubel,1987));《PCR:聚合酶链反应》(PCR:The Polymerase Chain Reaction,(Mullis,1994));《免疫学现代方法》(Current Protocols in Immunology(Coligan,1991))。这些技术可用来生产本公开的多核苷酸和多肽,且因此可在作成并实践本公开中考虑这些技术。尤其可用于特定实施方式的技术将在下文中讨论。
实施例
提出以下实施例,以向本领域技术人员提供对任何制作和使用本公开的试验、筛查和治疗方法的完全公开和说明,而不试图限制泵功能可中及其实施方案中所述者的范畴。
实施例1:A·T到G·C DNA碱基编辑,用于校正细胞中的Mecp2 RTT相关突变
使用A·T到G·C DNA碱基编辑器(ABE)靶向八种最常见的引起RTT的Mecp2突变中的六种,以将其逆转为野生型序列,所述ABE采用具有验证过的前间隔序列邻近基序(PAM)序列优先性的Cas9部分(图2)。为了确定哪种向导RNA(gRNA)和ABE-Cas9平台能最有效且精确地校正所靶向的Mecp2突变,通过慢病毒转导将荷有包括R255X在内的RTT可靶向突变(表15)的Mecp2等位基因遗传学地整合到HEK293T细胞内。测量gRNA和ABE-Cas9编辑器对于给定突变的编辑有效性。在用编码DNA的ABE-Cas9编辑器和gRNA进行转导后五天,将细胞裂解并通过miSeq分析来分析在所希望的位点处的碱基编辑。
表15:6种RETT突变。
Figure BDA0003480255960004051
最严重突变中的四种突变,即R255X、R106W、T158M和R270X的特定靶标/间隔序列显示在下表16中:
表16:Rett突变靶标和PAM序列
Figure BDA0003480255960004061
上述靶标/间隔序列以黑体和下划线显示可靶向的“a”核碱基。可使用NGTT PAM变体来靶向R255X突变,并且可使用NGG PAM来靶向R106W、T158M和R270X突变。
实施例2:用于校正R106W突变的碱基编辑
R106W是Rett综合征中四种最严重突变中的一种。ABE可用于通过在所靶向位点处有效地转化A>G而校正R106W。在MECP2-HEK293T细胞系中测试碱基编辑,所述细胞系含有如实施例1中所讨论的含RETT突变的MECP2的单个遗传学整合拷贝。测试了五(5)种RNA(gRNA)与ABE8碱基编辑器变体靶向RTT中的R106W突变(图3)。
gRNA涵盖用于疾病相关基因的支架序列和间隔序列(靶标序列),如本文中提供的或如基于熟练技术人员的知识确定的且如本领域熟练技术人员将会理解的。(参见例如,Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017))和Rees,H.A.,等人,“Base editing:precision chemistry on the genome andtranscriptome of living cells.”Nat Rev Genet.2018 Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1)。
针对R106W突变的五(5)种DNA靶标序列提供如下:
DNA靶标序列1:
Figure BDA0003480255960004071
DNA靶标序列2:
Figure BDA0003480255960004072
DNA靶标序列3:
Figure BDA0003480255960004073
DNA靶标序列4:
Figure BDA0003480255960004074
DNA靶标序列5:
Figure BDA0003480255960004075
PAM序列加下划线并以黑体表示。如上表15中所示,靶标序列1、2和5利用NGG PAM(即,SpCas9)。靶标序列3需要xCas9(如Liu等人WO2017070633中所述,其通过引用并入本文)。靶标序列4需要Cas9 PAM变体(如Joung等人WO2019040650中所述,其通过引用并入本文)。
与上述每一个DNA靶标序列的补体杂交的五(5)种向导RNA序列如下:
gRNA1: 5'-gCCAUGUCCAGCCUUCAGGCA-3'
gRNA2: 5'-CCAGCCUUCAGGC-3'
gRNA3: 5'-gUUCCAUGUCCAGCCUUCAGG-3'
gRNA4: 5'-GCUUCCAUGUCCAGCCUUCA-3'
gRNA5: 5'-gAGCUUCCAUGUCCAGCCUUC-3'
DNA靶标序列和gRNA序列中的小写字母“g”表示序列中的错配,在所述处,聚合酶必须启动转录。在一些实施方案中,向导多核苷酸可能被截掉1、2、3、4个等核苷酸,尤其是在5'末端。
对于每种gRNA,支架序列如下:
GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT。如本领域技术人员将会理解的,在向导多核苷酸序列(gRNA)中,尿嘧啶(U)替换序列中的胸腺嘧啶(T)。
所用的ABE碱基编辑器包括ABE8异二聚体变体:ABE8.14、ABE8.15、ABE8.16、ABE8.17、ABE8.18、ABE8.19、ABE8.20、ABE8.21、ABE8.22、ABE8.23、ABE8.24、ABE8.25和ABE8.26(参见表9)。正对照碱基编辑器ABE7.10和负对照也用于比较。
对于质粒转染,使用Opti-MEM培养基和Lipofectamine 2000转染HEK293T细胞,并与250ng的gRNA和750ng的ABE8变体碱基编辑器表达质粒一起铺板。所用的ABE8碱基编辑器变体具有NGG PAM序列。在转染后5天(其中在转染后3天更换培养基)裂解细胞并准备进行测序。
五(5)种gRNA序列中,gRNA1、gRNA2和gRNA5提供最佳的A到G编辑(图3)。ABE8碱基编辑器变体与ABE7.10对照相比增加的碱基编辑活性。如图3中所示,使用gRNA2实现的A到G基因编辑的量为约35%。
实施例3:用于校正R133C突变的碱基编辑
ABE可用于通过在所靶向位点处有效地转化A>G而校正R133C(图1和图2)。在MECP2-HEK293T细胞系中测试碱基编辑,所述细胞系含有如实施例1中所讨论的含RETT突变的MECP2的单个遗传学整合拷贝。测试了四(4)种RNA(gRNA)与ABE8碱基编辑器变体靶向RETT中的R133C突变。
gRNA涵盖用于疾病相关基因的支架序列和间隔序列(靶标序列),如本文中提供的或如基于熟练技术人员的知识确定的且如本领域熟练技术人员将会理解的。(参见例如,Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017))和Rees,H.A.,等人,“Base editing:precision chemistry on the genome andtranscriptome of living cells.”Nat Rev Genet.2018 Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1)。
针对R133C突变的四(4)种DNA靶标序列提供如下:
DNA靶标序列1:AGAGCAAAAGGCTTTTCCCT
DNA靶标序列2:TAGAGCAAAAGGCTTTTCCC
DNA靶标序列3:AGAGCAAAAGGCTTTTCCCT
DNA靶标序列4:TTTAGAGCAAAAGGCTTTTCCCT
靶标序列利用如上表15中所示的PAM序列。靶标序列1和2利用SpCas9。靶标序列3和4利用SaCas9。
与上述每一个DNA靶标序列的补体杂交的四(4)种向导RNA序列(gRNA)如下:
gRNA1: 5'-gAGAGCAAAAGGCUUUUCCCU-3'
gRNA2: 5'-gUAGAGCAAAAGGCUUUUCCC-3'
gRNA3: 5'-gUAGAGCAAAAGGCUUUUCCCU-3'
gRNA4: 5'-gUUUAGAGCAAAAGGCUUUUCCCU-3'
DNA靶标序列和gRNA序列中的小写字母“g”表示序列中的错配,在所述处,聚合酶必须启动转录。在一些实施方案中,向导多核苷酸可能被截掉1、2、3、4个等核苷酸,尤其是在5'末端。
对于每种gRNA,支架序列如下:
GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT。如本领域技术人员将会理解的,在向导多核苷酸序列(gRNA)中,尿嘧啶(U)替换序列中的胸腺嘧啶(T)。
使用的ABE碱基编辑器包括ABE8异二聚体变体:ABE8.14、ABE8.15、ABE8.16、ABE8.17、ABE8.18、ABE8.19、ABE8.20、ABE8.21、ABE8.22、ABE8.23、ABE8.24、ABE8.25和ABE8.26(参见表9)。正对照碱基编辑器ABE7.10和负对照也用于比较。
对于质粒转染,使用Opti-MEM培养基和Lipofectamine 2000转染HEK293T细胞,并与250ng的gRNA和750ng的ABE8变体碱基编辑器表达质粒一起铺板。在转染后5天(其中在转染后3天更换培养基)裂解细胞并准备进行测序。
实施例4:用于校正R306C突变的碱基编辑
ABE可用于通过在所靶向位点处有效地转化A>G而校正R306C(图1和图2)。在MECP2-HEK293T细胞系中测试碱基编辑,所述细胞系含有如实施例1中所讨论的含RETT突变的MECP2的单个遗传学整合拷贝。测试了三(3)种RNA(gRNA)与ABE8碱基编辑器变体靶向RETT中的R306C突变。
gRNA涵盖用于疾病相关基因的支架序列和间隔序列(靶标序列),如本文中提供的或如基于熟练技术人员的知识确定的且如本领域熟练技术人员将会理解的。(参见例如,Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017))和Rees,H.A.,等人,“Base editing:precision chemistry on the genome andtranscriptome of living cells.”Nat Rev Genet.2018 Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1)。
针对R306C突变的三(3)种DNA靶标序列提供如下:
DNA靶标序列1:TCTTGCACTTCTTGATGGGG
DNA靶标序列2:CTTGCACTTCTTGATGGGGAG
DNA靶标序列3:GTCTTGCACTTCTTGATGGGGAG
靶标序列利用如上表15中所示的PAM序列。靶标序列1利用SpCas9。靶标序列2和3利用SaCas9。
与上述每一个DNA靶标序列的补体杂交的三(3)种向导RNA序列(gRNA)如下:
gRNA1: 5'-gUCUUGCACUUCUUGAUGGGG-3'
gRNA2: 5'-gCUUGCACUUCUUGAUGGGGAG-3'
gRNA3: 5'-gGUCUUGCACUUCUUGAUGGGGAG-3'
DNA靶标序列和gRNA序列中的小写字母“g”表示序列中的错配,在所述处,聚合酶必须启动转录。在一些实施方案中,向导多核苷酸可能被截掉1、2、3、4个等核苷酸,尤其是在5'末端。
对于每种gRNA,支架序列如下:
GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT。如本领域技术人员将会理解的,在向导多核苷酸序列(gRNA)中,尿嘧啶(U)替换序列中的胸腺嘧啶(T)。
使用的ABE碱基编辑器包括ABE8异二聚体变体:ABE8.14、ABE8.15、ABE8.16、ABE8.17、ABE8.18、ABE8.19、ABE8.20、ABE8.21、ABE8.22、ABE8.23、ABE8.24、ABE8.25和ABE8.26(参见表9)。正对照碱基编辑器ABE7.10和负对照也用于比较。
对于质粒转染,使用Opti-MEM培养基和Lipofectamine 2000转染HEK293T细胞,并与250ng的gRNA和750ng的ABE8变体碱基编辑器表达质粒一起铺板。在转染后5天(其中在转染后3天更换培养基)裂解细胞并准备进行测序。

Claims (188)

1.一种编辑受试者的甲基CpG结合蛋白2(MECP2)基因或其调节元件的方法,所述方法包括向有此需要的受试者给药:(i)腺苷碱基编辑器或编码所述腺苷碱基编辑器的核酸序列和(ii)向导多核苷酸或编码所述向导多核苷酸的核酸序列,其中,所述腺苷碱基编辑器包含可编程DNA结合结构域和腺苷脱氨酶结构域,其中,所述腺苷脱氨酶结构域包含位于相对于TadA参考序列的氨基酸位置82或166处或其对应位置处的氨基酸置换,并且其中,所述向导多核苷酸引导所述腺苷碱基编辑器以在包含与Rett综合征(RETT)相关的SNP的所述MECP2基因或其调节元件内产生A到G核碱基改变;其中,所述A到G核碱基改变位于所述与RETT相关的SNP处,所述SNP在由所述MECP2基因编码的MECP2多肽或其变体中导致R133C或R306C氨基酸突变。
2.根据权利要求1所述的方法,其中,所述TadA参考序列包含氨基酸序列MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD。
3.根据权利要求1或权利要求2所述的方法,其中,所述A到G核碱基改变使得所述与RETT相关的SNP变为野生型核碱基。
4.根据权利要求1或权利要求2所述的方法,其中,所述A到G核碱基改变使得所述与RETT相关的SNP变为非野生型核碱基,这导致RETT的一种或多种症状减轻。
5.根据权利要求1至4中任一项所述的方法,其中,在所述与RETT相关的SNP处的所述A到G核碱基改变将所述甲基CpG结合蛋白2(MECP2)多肽中的半胱氨酸变为精氨酸或将终止密码子变为精氨酸。
6.根据权利要求1至5中任一项所述的方法,其中,所述与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。
7.根据权利要求1至6中任一项所述的方法,其中,所述向导多核苷酸包含与包含所述与RETT相关的SNP的所述MECP2基因或其调节元件互补的核酸序列。
8.根据权利要求1至7中任一项所述的方法,其中,所述腺苷碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含所述与RETT相关的SNP的所述MECP2基因或其调节元件互补的核酸序列。
9.根据权利要求8所述的方法,其中,所述向导多核苷酸包含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
10.一种碱基编辑器系统,其包含:(i)腺苷碱基编辑器或编码所述腺苷碱基编辑器的核酸序列和(ii)向导多核苷酸或编码所述向导多核苷酸的核酸序列,其中,所述腺苷碱基编辑器包含可编程DNA结合结构域和腺苷脱氨酶结构域,其中,所述腺苷脱氨酶结构域包含位于相对于TadA参考序列的氨基酸位置82或166处或其对应位置处的氨基酸置换,并且其中,所述向导多核苷酸引导所述腺苷碱基编辑器以在包含与Rett综合征(RETT)相关的SNP的甲基CpG结合蛋白2(MECP2)基因或其调节元件内产生A到G核碱基改变;其中,所述A到G核碱基改变位于所述与RETT相关的SNP处,所述SNP在由所述MECP2基因编码的MECP2多肽或其变体中导致R133C或R306C氨基酸突变。
11.根据权利要求10所述的碱基编辑器系统,其中,所述A到G核碱基改变将所述与RETT相关的SNP变为野生型核碱基。
12.根据权利要求10所述的碱基编辑器系统,其中,所述A到G核碱基改变将所述与RETT相关的SNP变为非野生型核碱基,这使得RETT的一种或多种症状减轻。
13.根据权利要求10至12中任一项所述的碱基编辑器系统,其中,所述与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。
14.根据权利要求10至13中任一项所述的碱基编辑器系统,其中,所述向导多核苷酸包含与包含所述与RETT相关的SNP的所述MECP2基因或其调节元件互补的核酸序列。
15.根据权利要求10至14中任一项所述的碱基编辑器系统,其中,所述腺苷碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含所述与RETT相关的SNP的所述MECP2基因或其调节元件互补的核酸序列。
16.根据权利要求15所述的碱基编辑器系统,其中,所述向导多核苷酸包含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
17.一种编辑包含与Rett综合征(RETT)相关的单核苷酸多态性(SNP)的MECP2多核苷酸的方法,所述方法包括:使所述MECP2多核苷酸与腺苷脱氨酶碱基编辑器8(ABE8)和一种或多种向导多核苷酸的复合物接触,其中,所述ABE8包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域,并且其中,一种或多种所述向导多核苷酸将所述碱基编辑器靶向以使所述MECP2多核苷酸中与RETT相关的SNP发生A·T到G·C改变,其中,所述改变是R133C或R306C中的一者或两者。
18.根据权利要求17所述的方法,其中,所述接触是在细胞、真核细胞、哺乳动物细胞或人细胞中。
19.根据权利要求17或权利要求18所述的方法,其中,所述细胞是体内的或离体的。
20.根据权利要求17至19中任一项所述的方法,其中,在所述与RETT相关的SNP处的所述A·T到G·C改变将所述甲基CpG结合蛋白2(Mecp2)多肽中的半胱氨酸变为精氨酸或将终止密码子变为精氨酸。
21.根据权利要求17至20中任一项所述的方法,其中,所述与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。
22.根据权利要求17至21中任一项所述的方法,其中,所述多核苷酸可编程DNA结合结构域是选自以下的Cas9:化脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、犬链球菌Cas9(ScCas9)、或其变体。
23.根据权利要求17至22中任一项所述的方法,其中,所述多核苷酸可编程DNA结合结构域包含与改变的前间隔序列邻近基序(PAM)结合的经修饰的SpCas9。
24.根据权利要求23所述的方法,其中,所述经修饰的SpCas9结合至包含选自5'-NGT-3'或5'-NGG-3'的核酸序列的PAM。
25.根据权利要求23所述的方法,其中,所述经修饰的SpCas9结合至NGT PAM变体。
26.根据权利要求24或权利要求25所述的方法,其中,所述NGT PAM变体包含位于所述经修饰的SpCas9的一个或多个氨基酸残基1335、1337、1135、1136、1218和/或1219处的氨基酸置换,或其相应的氨基酸置换。
27.根据权利要求23至25中任一项所述的方法,其中,所述经修饰的SpCas9包含氨基酸置换L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R以及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337、T1337L、T1337Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换。
28.根据权利要求23至25中任一项所述的方法,其中,所述经修饰的SpCas9包含氨基酸置换D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q和T1337,以及L1111R、G1218R、E1219F、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、T1337L、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换。
29.根据权利要求17至28中任一项所述的方法,其中,所述多核苷酸可编程DNA结合结构域是无核酸酶活性的或切口酶变体。
30.根据权利要求29所述的方法,其中,所述切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。
31.根据权利要求17至30中任一项所述的方法,其中,所述腺苷脱氨酶结构域能够将脱氧核糖核酸(DNA)中的腺苷脱氨。
32.根据权利要求17至31中任一项所述的方法,其中,所述腺苷脱氨酶结构域包含位于MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处的改变。
33.根据权利要求32所述的方法,其中,所述腺苷脱氨酶结构域包含位于氨基酸位置82和166处的改变。
34.根据权利要求32所述的方法,其中,所述腺苷脱氨酶结构域包含选自以下的改变:V82S改变、T166R改变、或V82S和T166R改变两者。
35.根据权利要求32至34中任一项所述的方法,其中,所述腺苷脱氨酶结构域进一步包含以下改变中的一者或多者:Y147T、Y147R、Q154S、Y123H和Q154R。
36.根据权利要求32至35中任一项所述的方法,其中,所述腺苷脱氨酶结构域包含选自由以下所组成的组的改变:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
37.根据权利要求17至36中任一项所述的方法,其中,所述ABE8包含腺苷脱氨酶变体单体,其中,所述腺苷脱氨酶单体包含V82S和T166R改变。
38.根据权利要求17至37中任一项所述的方法,其中,所述ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。
39.根据权利要求37所述的方法,其中,所述腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。
40.根据权利要求17所述的方法,其中,所述ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含TadA*8结构域和野生型TadA结构域。
41.根据权利要求37所述的方法,其中,所述腺苷脱氨酶单体进一步包含选自由以下所组成的组的改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。
42.根据权利要求17所述的方法,其中,所述ABE8碱基编辑器包含异二聚体,所述异二聚体包含野生型TadA结构域和腺苷脱氨酶变体,所述腺苷脱氨酶变体包含选自由以下所组成的组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;以及I76Y+V82S+Y123H+Y147R+Q154R。
43.根据权利要求17至42中任一项所述的方法,其中,所述向导多核苷酸包含选自以下的核酸序列:AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
44.根据权利要求17所述的方法,其中,所述腺苷脱氨酶是TadA脱氨酶。
45.根据权利要求44所述的方法,其中,所述TadA脱氨酶是TadA*8变体。
46.根据权利要求45所述的方法,其中,所述TadA*8变体选自由以下项组成的组:TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23和TadA*8.24。
47.根据权利要求17所述的方法,其中,ABE8碱基编辑器选自由以下项组成的组:ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d和ABE8.24。
48.根据权利要求17至47中任一项所述的方法,其中,所述一种或多种向导RNA包含CRISPR RNA(crRNA)和反式编码小RNA(tracrRNA),其中,所述crRNA包含与包含所述与RETT相关的SNP的MECP2核酸序列互补的核酸序列。
49.根据权利要求17至48中任一项所述的方法,其中,所述ABE8碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含所述与RETT相关的SNP的MECP2核酸序列互补的核酸序列。
50.根据权利要求17至49中任一项所述的方法,其中,所述ABE8碱基编辑器包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
51.一种细胞,其通过将以下项引入所述细胞或其祖先中产生:
ABE8碱基编辑器或编码所述酰基编辑器的多核苷酸,其中,所述ABE8碱基编辑器包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域;以及
一种或多种向导多核苷酸,其将所述碱基编辑器靶向以使与RETT综合征(RETT)相关的MECP2多核苷酸中的SNP发生A·T到G·C改变,其中,所述改变是R133C或R306C中的一者或两者。
52.根据权利要求51所述的细胞,其中,所述细胞是神经元。
53.根据权利要求51或权利要求52所述的细胞,其中,所述神经元表达MECP2多肽。
54.根据权利要求51至53中任一项所述的细胞,其中,所述细胞来自患有RETT的受试者。
55.根据权利要求51至54中任一项所述的细胞,其中,所述细胞是哺乳动物细胞或人细胞。
56.根据权利要求51至55中任一项所述的细胞,其中,在所述与RETT相关的SNP处的所述A·T到G·C改变将所述甲基CpG结合蛋白2(MECP2)多肽中的半胱氨酸变为精氨酸,将终止密码子变为精氨酸。
57.根据权利要求51至56中任一项所述的细胞,其中,所述与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。
58.根据权利要求51至57中任一项所述的细胞,其中,所述多核苷酸可编程DNA结合结构域是选自以下的Cas9:化脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、犬链球菌Cas9(ScCas9)、或其变体。
59.根据权利要求51至58中任一项所述的细胞,其中,所述多核苷酸可编程DNA结合结构域包含与改变的前间隔序列邻近基序(PAM)结合的经修饰的SpCas9。
60.根据权利要求59所述的细胞,其中,所述经修饰的SpCas9结合至包含选自5'-NGT-3'或5'-NGG-3'的核酸序列的PAM。
61.根据权利要求60所述的细胞,其中,所述经修饰的SpCas9结合至NGT PAM变体。
62.根据权利要求61所述的方法,其中,所述NGT PAM变体包含位于所述经修饰的SpCas9的一个或多个氨基酸残基1335、1337、1135、1136、1218和/或1219处的氨基酸置换,或其相应的氨基酸置换。
63.根据权利要求59所述的细胞,其中,所述经修饰的SpCas9包含氨基酸置换L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R以及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337、T1337L、T1337Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换。
64.根据权利要求59所述的细胞,其中,所述经修饰的SpCas9包含氨基酸置换D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q和T1337,以及L1111R、G1218R、E1219F、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、T1337L、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换。
65.根据权利要求51至64中任一项所述的细胞,其中,所述多核苷酸可编程DNA结合结构域是无核酸酶活性的或切口酶变体。
66.根据权利要求65所述的细胞,其中,所述切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。
67.根据权利要求51至66中任一项所述的细胞,其中,所述腺苷脱氨酶结构域能够将脱氧核糖核酸(DNA)中的腺苷脱氨。
68.根据权利要求51至67中任一项所述的细胞,其中,所述腺苷脱氨酶结构域包含位于MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处的改变。
69.根据权利要求68所述的细胞,其中,所述腺苷脱氨酶结构域包含位于氨基酸位置82和166处的改变。
70.根据权利要求69所述的细胞,其中,所述腺苷脱氨酶结构域包含选自以下的改变:V82S改变、T166R改变、或V82S和T166R改变两者。
71.根据权利要求68至70中任一项所述的细胞,其中,所述腺苷脱氨酶进一步包含以下改变中的一者或多者:Y147T、Y147R、Q154S、Y123H和Q154R。
72.根据权利要求68至71中任一项所述的细胞,其中,所述腺苷脱氨酶结构域包含选自由以下所组成的组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
73.根据权利要求68至72中任一项所述的细胞,其中,所述ABE8包含腺苷脱氨酶变体单体,其中,所述腺苷脱氨酶单体包含V82S和T166R改变。
74.根据权利要求68至72中任一项所述的细胞,其中,所述ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。
75.根据权利要求73所述的细胞,其中,所述腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。
76.根据权利要求51所述的细胞,其中,所述ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含TadA*7.10结构域和TadA*8结构域。
77.根据权利要求73所述的细胞,其中,所述腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。
78.根据权利要求51所述的细胞,其中,所述ABE8碱基编辑器包含异二聚体,所述异二聚体包含TadA*7.10结构域和腺苷脱氨酶变体,所述腺苷脱氨酶变体包含选自由以下所组成的组的改变:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;以及I76Y+V82S+Y123H+Y147R+Q154R。
79.根据权利要求51所述的细胞,其中,所述向导多核苷酸包含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
80.根据权利要求51所述的细胞,其中,所述腺苷脱氨酶是TadA脱氨酶。
81.根据权利要求80所述的细胞,其中,所述TadA脱氨酶是TadA*8变体。
82.根据权利要求81所述的细胞,其中,所述TadA*8变体选自由以下项组成的组:TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23和TadA*8.24。
83.根据权利要求51所述的细胞,其中,所述ABE8碱基编辑器选自由以下项组成的组:ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d和ABE8.24。
84.根据权利要求51至83中任一项所述的细胞,其中,所述一种或多种向导RNA包含CRISPR RNA(crRNA)和反式编码小RNA(tracrRNA),其中,所述crRNA包含与包含所述与RETT相关的SNP的MECP2核酸序列互补的核酸序列。
85.根据权利要求51至84中任一项所述的细胞,其中,所述碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含所述与RETT相关的SNP的MECP2核酸序列互补的核酸序列。
86.根据权利要求51至85中任一项所述的细胞,其中,所述ABE8碱基编辑器包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
87.根据权利要求51至86中任一项所述的细胞,其中,所述gRNA包含具有以下序列的支架:GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT。
88.一种治疗受试者的RETT综合征(RETT)的方法,包括向所述受试者给药:
ABE8碱基编辑器或编码所述酰基编辑器的多核苷酸,其中,所述ABE8碱基编辑器包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域;以及
一种或多种向导多核苷酸,其将所述ABE8碱基编辑器靶向以使MECP2多核苷酸中的与RETT相关的SNP发生A·T到G·C改变,其中,所述改变是R133C和/或R306C中的一者或两者。
89.根据权利要求88所述的方法,其中,所述受试者是哺乳动物或人。
90.根据权利要求88或权利要求89所述的方法,包括将所述ABE8碱基编辑器或编码所述ABE8碱基编辑器的多核苷酸、以及所述一种或多种向导多核苷酸递送至所述受试者的细胞,任选地,其中,所述细胞是神经元。
91.根据权利要求88至90中任一项所述的方法,其中,在所述与RETT相关的SNP处的所述A·T到G·C改变将所述甲基CpG结合蛋白2(MECP2)多肽中的半胱氨酸变为精氨酸或将终止密码子变为精氨酸。
92.根据权利要求88至91中任一项所述的方法,其中,所述与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。
93.根据权利要求88至92中任一项所述的方法,其中,所述多核苷酸可编程DNA结合结构域是选自以下的Cas9:化脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、犬链球菌Cas9(ScCas9)、或其变体。
94.根据权利要求88至93中任一项所述的方法,其中,所述多核苷酸可编程DNA结合结构域包含与改变的前间隔序列邻近基序(PAM)结合的经修饰的SpCas9。
95.根据权利要求94所述的方法,其中,所述经修饰的SpCas9结合至包含选自5'-NGT-3'或5'-NGG-3'的核酸序列的PAM。
96.根据权利要求94所述的方法,其中,所述经修饰的SpCas9结合至NGT PAM变体。
97.根据权利要求96所述的方法,其中,所述NGT PAM变体包含位于所述经修饰的SpCas9的一个或多个氨基酸残基1335、1337、1135、1136、1218和/或1219处的氨基酸置换,或其相应的氨基酸置换。
98.根据权利要求94所述的方法,其中,所述经修饰的SpCas9包含氨基酸置换L1111R、D1135V、G1218R、E1219F、A1322R、R1335V、T1337R以及L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、R1335Q、T1337、T1337L、T1337Q、T1337I、T1337V、T1337F和T1337M中的一者或多者,或其相应的氨基酸置换。
99.根据权利要求94所述的方法,其中,所述经修饰的SpCas9包含氨基酸置换D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q和T1337,以及L1111R、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337、T1337L、T1337Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q和T1337M中的一者或多者,或其相应的氨基酸置换。
100.根据权利要求88至99中任一项所述的方法,其中,所述多核苷酸可编程DNA结合结构域是无核酸酶活性的或切口酶变体。
101.根据权利要求100所述的方法,其中,所述切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。
102.根据权利要求88至101中任一项所述的方法,其中,所述腺苷脱氨酶结构域能够将脱氧核糖核酸(DNA)中的腺苷脱氨。
103.根据权利要求88至102中任一项所述的方法,其中,所述腺苷脱氨酶结构域包含位于MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处的改变。
104.根据权利要求103所述的方法,其中,所述腺苷脱氨酶结构域包含位于氨基酸位置82和166处的改变。
105.根据权利要求103所述的方法,其中,所述腺苷脱氨酶结构域包含选自以下的改变:V82S改变、T166R改变、或V82S和T166R改变两者。
106.根据权利要求103至105中任一项所述的方法,其中,所述腺苷脱氨酶结构域进一步包含以下改变中的一者或多者:Y147T、Y147R、Q154S、Y123H和Q154R。
107.根据权利要求103至106中任一项所述的方法,其中,所述腺苷脱氨酶结构域包含选自由以下所组成的组的改变:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
108.根据权利要求88至107中任一项所述的方法,其中,所述ABE8包含腺苷脱氨酶变体单体,其中,所述腺苷脱氨酶单体包含V82S和T166R改变。
109.根据权利要求88至107中任一项所述的方法,其中,所述ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。
110.根据权利要求108所述的方法,其中,所述腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。
111.根据权利要求88所述的方法,其中,所述ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含TadA*7.10结构域和TadA*8结构域。
112.根据权利要求108所述的方法,其中,所述腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。
113.根据权利要求88所述的方法,其中,所述ABE8碱基编辑器包含异二聚体,所述异二聚体包含TadA7.10结构域和腺苷脱氨酶变体,所述腺苷脱氨酶变体包含选自由以下所组成的组的改变:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;以及I76Y+V82S+Y123H+Y147R+Q154R。
114.根据权利要求88至113中任一项所述的方法,其中,所述向导多核苷酸具有选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
115.根据权利要求102所述的方法,其中,所述腺苷脱氨酶是TadA脱氨酶。
116.根据权利要求115所述的方法,其中,所述TadA脱氨酶是TadA*8变体。
117.根据权利要求116所述的方法,其中,所述TadA*8变体选自由以下项组成的组:TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23和TadA*8.24。
118.根据权利要求88所述的方法,其中,所述ABE8碱基编辑器选自由以下项组成的组:ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d和ABE8.24。
119.根据权利要求88至118中任一项所述的方法,其中,所述一种或多种向导RNA包含CRISPR RNA(crRNA)和反式编码小RNA(tracrRNA),其中,所述crRNA包含与包含所述与RETT相关的SNP的MECP2核酸序列互补的核酸序列。
120.根据权利要求88至119中任一项所述的方法,其中,所述碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含所述与RETT相关的SNP的MECP2核酸序列互补的核酸序列。
121.一种治疗受试者的Rett综合征(RETT)的方法,所述方法包括:向有此需要的受试者给药:(i)腺苷碱基编辑器或编码所述腺苷碱基编辑器的核酸序列和(ii)向导多核苷酸或编码所述向导多核苷酸的核酸序列,其中,所述腺苷碱基编辑器包含可编程DNA结合结构域和腺苷脱氨酶结构域,其中,所述腺苷脱氨酶结构域包含位于氨基酸位置82或166处或其相应位置的相对于TadA参考序列的氨基酸置换,
其中,所述向导多核苷酸引导所述腺苷碱基编辑器以在所述受试者的包含与RETT相关的SNP的甲基CpG结合蛋白2(MECP2)基因或其调节元件中发生A到G核碱基改变,从而治疗所述受试者的RETT,并且其中,所述与RETT相关的SNP在由所述MECP2基因编码的MECP2多肽或其变体中导致R133C或R306C氨基酸突变。
122.根据权利要求121所述的方法,其中,所述给药减轻至少一种与RETT相关的症状。
123.根据权利要求121所述的方法,其中,与使用在腺苷脱氨酶中没有所述氨基酸置换的碱基编辑器的治疗相比,所述给药导致与RETT相关的至少一种症状的减轻。
124.根据权利要求121至123中任一项所述的方法,其中,所述A到G核碱基改变使得所述与RETT相关的SNP变为野生型核碱基。
125.根据权利要求121至124中任一项所述的方法,其中,所述A到G核碱基改变使得所述与Rett综合征相关的SNP变为非野生型核碱基,这导致减轻的RETT症状。
126.根据权利要求121至125中任一项所述的方法,其中,所述向导多核苷酸包含与包含所述与RETT相关的SNP的所述MECP2基因或其调节元件互补的核酸序列。
127.根据权利要求121至126中任一项所述的方法,其中,所述腺苷碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含所述与RETT相关的SNP的所述MECP2基因或其调节元件互补的核酸序列。
128.根据权利要求127所述的方法,其中,所述向导多核苷酸包含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
129.根据权利要求1至9或权利要求121至128中任一项所述的方法或者根据权利要求10至16中任一项所述的碱基编辑器,其中,所述向导多核苷酸包含核酸序列,所述核酸序列包含与所述MECP2基因或其调节元件互补的至少10个连续核苷酸。
130.根据权利要求129所述的方法,其中,所述向导多核苷酸包含核酸序列,所述核酸序列包含与所述MECP2基因或其调节元件互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸。
131.根据权利要求17至50或权利要求88至120中任一项所述的方法或者根据权利要求51至87中任一项所述的细胞,其中,所述向导多核苷酸包含核酸序列,所述核酸序列包含与所述MECP2多核苷酸互补的至少10个连续核苷酸。
132.根据权利要求131所述的方法,其中,所述向导多核苷酸包含核酸序列,所述核酸序列包含与所述MECP2多核苷酸互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39或40个连续核苷酸。
133.根据权利要求121至128中任一项所述的方法,其中,所述与RETT相关的SNP在由所述MECP2基因编码的MECP2多肽或其变体中导致R133C和/或R306C氨基酸突变。
134.根据权利要求133所述的方法,其中,所述与RETT相关的SNP在由所述MECP2基因编码的MECP2多肽或其变体中导致R133C氨基酸突变。
135.根据权利要求133所述的方法,其中,所述与RETT相关的SNP在由所述MECP2基因编码的MECP2多肽或其变体中导致R306C氨基酸突变。
136.根据权利要求10至16中任一项所述的碱基编辑器,其中,在所述与RETT相关的SNP处的所述A到G核碱基改变在由所述MECP2基因编码的MECP2多肽或其变体中导致R133C氨基酸突变。
137.根据权利要求10至16中任一项所述的碱基编辑器,其中,在所述与RETT相关的SNP处的所述A到G核碱基改变在由所述MECP2基因编码的MECP2多肽或其变体中导致R306C氨基酸突变。
138.根据权利要求17至50或权利要求88至120中任一项所述的方法,其中,所述与RETT相关的SNP的改变包含R133C和R306C两者。
139.根据权利要求17至50或权利要求88至120中任一项所述的方法,其中,所述与RETT相关的SNP的改变是R133C。
140.根据权利要求17至50或权利要求88至120中任一项所述的方法,其中,所述与RETT相关的SNP的改变是R306C。
141.根据权利要求51至87中任一项所述的细胞,其中,所述与RETT综合征(RETT)相关的SNP的改变是R133C。
142.根据权利要求51至87中任一项所述的细胞,其中,所述与RETT综合征(RETT)相关的SNP的改变是R306C。
143.一种向导多核苷酸或向导RNA,其包含与编码MECP2蛋白的MECP2基因完美互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个连续核苷酸。
144.根据权利要求143所述的向导多核苷酸或向导RNA,其包含选自以下的核酸序列:5'-AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
145.根据权利要求143或权利要求144所述的向导多核苷酸或向导RNA,其进一步包含支架序列,其中,所述支架序列任选地如下:GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT。
146.一种包含腺苷脱氨酶碱基编辑器8(ABE8)和向导RNA的组合物,其中,所述ABE8包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域,并且其中,所述向导RNA将所述碱基编辑器靶向以使与RETT综合征相关的MECP2多核苷酸中的SNP发生A·T到G·C改变,并且其中,所述改变是R133C或R306C中的一者或两者。
147.根据权利要求146所述的组合物,其中,在所述与RETT相关的SNP处的所述A·T到G·C改变将所述甲基CpG结合蛋白2(MECP2)多肽中的半胱氨酸变为精氨酸或将终止密码子变为精氨酸。
148.根据权利要求146或权利要求147所述的组合物,其中,所述与RETT相关的SNP导致包含在氨基酸位置133和/或306处的精氨酸的MECP2多肽的表达。
149.根据权利要求146至148中任一项所述的组合物,其中,所述多核苷酸可编程DNA结合结构域是选自以下的Cas9:化脓链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、犬链球菌Cas9(ScCas9)、或其变体。
150.根据权利要求146至149中任一项所述的组合物,其中,所述多核苷酸可编程DNA结合结构域包含与改变的前间隔序列邻近基序(PAM)结合的经修饰的SpCas9。
151.根据权利要求146至149中任一项所述的组合物,其中,所述多核苷酸可编程DNA结合结构域是无核酸酶活性的或切口酶变体。
152.根据权利要求151所述的组合物,其中,所述切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。
153.根据权利要求146至152中任一项所述的组合物,其中,所述腺苷脱氨酶结构域能够将脱氧核糖核酸(DNA)中的腺苷脱氨。
154.根据权利要求146至153中任一项所述的组合物,其中,所述腺苷脱氨酶结构域包含位于MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处的改变。
155.根据权利要求154所述的组合物,其中,所述腺苷脱氨酶结构域包含选自以下的改变:V82S改变、T166R改变、或V82S和T166R改变两者。
156.根据权利要求154或权利要求155所述的组合物,其中,所述腺苷脱氨酶结构域进一步包含以下改变中的一者或多者:Y147T、Y147R、Q154S、Y123H和Q154R。
157.根据权利要求154至156中任一项所述的组合物,其中,所述腺苷脱氨酶结构域包含选自由以下所组成的组的改变:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
158.根据权利要求146至157中任一项所述的组合物,其中,所述ABE8包含腺苷脱氨酶变体单体,其中,所述腺苷脱氨酶单体包含V82S和T166R改变。
159.根据权利要求146至158中任一项所述的组合物,其中,所述ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。
160.根据权利要求158所述的组合物,其中,所述腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。
161.根据权利要求146所述的组合物,其中,所述ABE8包含腺苷脱氨酶异二聚体,所述异二聚体包含TadA*8结构域和野生型TadA结构域。
162.根据权利要求158所述的组合物,其中,所述腺苷脱氨酶变体单体进一步包含选自由以下所组成的组的一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。
163.根据权利要求146所述的组合物,其中,所述ABE8碱基编辑器包含异二聚体,所述异二聚体包含野生型TadA结构域和腺苷脱氨酶变体,所述腺苷脱氨酶变体包含选自由以下所组成的组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;以及I76Y+V82S+Y123H+Y147R+Q154R。
164.根据权利要求146至163中任一项所述的组合物,其中,所述向导RNA包含选自以下的核酸序列:AGAGCAAAAGGCUUUUCCCU-3'、5'-UAGAGCAAAAGGCUUUUCCC-3'、5'-UAGAGCAAAAGGCUUUUCCCU-3'、5'-UUUAGAGCAAAAGGCUUUUCCCU-3'、5'-UCUUGCACUUCUUGAUGGGG-3'、5'-CUUGCACUUCUUGAUGGGGAG-3'或5'-GUCUUGCACUUCUUGAUGGGGAG-3'。
165.根据权利要求146所述的组合物,其中,所述腺苷脱氨酶是TadA脱氨酶。
166.根据权利要求165所述的组合物,其中,所述TadA脱氨酶是TadA*8变体。
167.根据权利要求166所述的组合物,其中,所述TadA*8变体选自由以下项组成的组:TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23和TadA*8.24。
168.根据权利要求146所述的组合物,其中,所述ABE8碱基编辑器选自由以下项组成的组:ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d和ABE8.24。
169.根据权利要求146至168中任一项所述的组合物,其中,所述向导RNA包含CRISPRRNA(crRNA)和反式编码小RNA(tracrRNA),其中,所述crRNA包含与包含所述与RETT相关的SNP的MECP2核酸序列互补的核酸序列。
170.根据权利要求146至169中任一项所述的组合物,其中,所述ABE8碱基编辑器与单向导RNA(sgRNA)复合,所述sgRNA包含与包含所述与RETT相关的SNP的MECP2核酸序列互补的核酸序列。
171.根据权利要求146至170中任一项所述的组合物,其中,所述ABE8碱基编辑器包含以下序列或其具有腺苷脱氨酶活性的片段或基本上由其组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
172.根据权利要求146至171中任一项所述的组合物,进一步包含脂质,任选地其中,所述脂质是阳离子脂质。
173.根据权利要求146至172中任一项所述的组合物,其是包含药学上可接受的赋形剂或稀释剂的药物组合物。
174.根据权利要求173所述的药物组合物,用于治疗RETT综合征。
175.根据权利要求173所述的药物组合物,其中,所述gRNA和所述ABE8碱基编辑器配制在一起或单独配制。
176.根据权利要求172至175中任一项所述的药物组合物,进一步包含适用于在哺乳动物细胞中表达的载体,其中,所述载体包含编码所述ABE8碱基编辑器的多核苷酸。
177.根据权利要求176所述的药物组合物,其中,所述载体是病毒载体。
178.根据权利要求177所述的药物组合物,其中,所述病毒载体是逆转录病毒载体、腺病毒载体、慢病毒载体、疱疹病毒载体或腺相关病毒载体(AAV)。
179.根据权利要求172至178中任一项所述的药物组合物,进一步包含适用于在哺乳动物细胞中表达的核糖核粒子。
180.一种治疗RETT综合征的方法,所述方法包括向有此需要的受试者给药根据权利要求172至179中任一项所述的药物组合物。
181.根据权利要求172至179中任一项所述的药物组合物在治疗受试者的RETT综合征中的用途。
182.根据权利要求180所述的方法或根据权利要求181所述的用途,其中,所述受试者是哺乳动物或人。
183.一种组合物,其包含根据权利要求51至87中任一项所述的细胞。
184.如权利要求183所述的组合物,进一步包含药学可接受的载剂或稀释剂。
185.一种药物组合物,其包含:(i)编码ABE8碱基编辑器的核酸;和(ii)根据权利要求143至145中任一项所述的向导多核苷酸或向导RNA。
186.根据权利要求185所述的药物组合物,其进一步包含脂质。
187.根据权利要求186所述的药物组合物,其中,所述脂质是阳离子脂质。
188.根据权利要求186或权利要求187所述的药物组合物,其中,编码所述碱基编辑器的所述核酸是mRNA。
CN202080052684.3A 2019-05-21 2020-05-20 使用可编程碱基编辑器系统编辑单核苷酸多态性的方法 Pending CN114206395A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US201962850919P 2019-05-21 2019-05-21
US62/850,919 2019-05-21
PCT/US2020/033807 WO2020236936A1 (en) 2019-05-21 2020-05-20 Methods of editing a single nucleotide polymorphism using programmable base editor systems

Publications (1)

Publication Number Publication Date
CN114206395A true CN114206395A (zh) 2022-03-18

Family

ID=73459015

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080052684.3A Pending CN114206395A (zh) 2019-05-21 2020-05-20 使用可编程碱基编辑器系统编辑单核苷酸多态性的方法

Country Status (8)

Country Link
US (1) US20220387622A1 (zh)
EP (1) EP3972654A4 (zh)
JP (1) JP2022533673A (zh)
KR (1) KR20220010540A (zh)
CN (1) CN114206395A (zh)
AU (1) AU2020279751A1 (zh)
CA (1) CA3140093A1 (zh)
WO (1) WO2020236936A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116836962A (zh) * 2023-06-28 2023-10-03 微光基因(苏州)有限公司 工程化的腺苷脱氨酶及碱基编辑器

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE202019005567U1 (de) 2018-03-14 2021-02-16 Arbor Biotechnologies, Inc. Neue CRISPR-DNA-Targeting-Enzyme und -Systeme
CA3129158A1 (en) * 2019-02-13 2020-08-20 Beam Therapeutics Inc. Adenosine deaminase base editors and methods of using same to modify a nucleobase in a target sequence
JP2024536088A (ja) * 2021-09-26 2024-10-04 ウェイブ ライフ サイエンシズ リミテッド Mecp2転写物を編集するための組成物及びその方法
WO2023140694A1 (ko) * 2022-01-24 2023-07-27 주식회사 툴젠 스트렙토코커스 피오게네스 유래 cas9 변이체
WO2024052681A1 (en) * 2022-09-08 2024-03-14 The University Court Of The University Of Edinburgh Rett syndrome therapy
WO2024102811A2 (en) * 2022-11-08 2024-05-16 The Board Of Trustees Of The Leland Stanford Junior University Muscle-specific base editors for correction of mutations causing- dilated cardiomyopathy

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105793425A (zh) * 2013-06-17 2016-07-20 布罗德研究所有限公司 使用病毒组分靶向障碍和疾病的crispr-cas系统和组合物的递送、用途和治疗应用
WO2018027078A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
CN108291218A (zh) * 2015-07-15 2018-07-17 新泽西鲁特格斯州立大学 核酸酶非依赖性靶向基因编辑平台及其用途
WO2019071274A1 (en) * 2017-10-06 2019-04-11 Oregon Health & Science University COMPOSITIONS AND METHODS FOR EDITING RNA
WO2019079347A1 (en) * 2017-10-16 2019-04-25 The Broad Institute, Inc. USES OF BASIC EDITORS ADENOSINE

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019266327A1 (en) * 2018-05-11 2020-11-26 Beam Therapeutics Inc. Methods of editing single nucleotide polymorphism using programmable base editor systems

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105793425A (zh) * 2013-06-17 2016-07-20 布罗德研究所有限公司 使用病毒组分靶向障碍和疾病的crispr-cas系统和组合物的递送、用途和治疗应用
CN108291218A (zh) * 2015-07-15 2018-07-17 新泽西鲁特格斯州立大学 核酸酶非依赖性靶向基因编辑平台及其用途
WO2018027078A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
WO2019071274A1 (en) * 2017-10-06 2019-04-11 Oregon Health & Science University COMPOSITIONS AND METHODS FOR EDITING RNA
WO2019079347A1 (en) * 2017-10-16 2019-04-25 The Broad Institute, Inc. USES OF BASIC EDITORS ADENOSINE

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"tRNA adenosine(34) deaminase TadA[Escherichia coli]", NCBI, 登录号WP_001297409.1 *
张爱霞等: "基于CRISPR/Cas9系统的单碱基基因编辑技术及其在医药研究中的应用", 中国药理学与毒理学杂志, no. 07 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116836962A (zh) * 2023-06-28 2023-10-03 微光基因(苏州)有限公司 工程化的腺苷脱氨酶及碱基编辑器
CN116836962B (zh) * 2023-06-28 2024-04-05 微光基因(苏州)有限公司 工程化的腺苷脱氨酶及碱基编辑器

Also Published As

Publication number Publication date
US20220387622A1 (en) 2022-12-08
CA3140093A1 (en) 2020-11-26
EP3972654A1 (en) 2022-03-30
JP2022533673A (ja) 2022-07-25
AU2020279751A1 (en) 2021-12-02
EP3972654A4 (en) 2024-07-03
KR20220010540A (ko) 2022-01-25
WO2020236936A1 (en) 2020-11-26

Similar Documents

Publication Publication Date Title
US20230075877A1 (en) Novel nucleobase editors and methods of using same
AU2019266327A1 (en) Methods of editing single nucleotide polymorphism using programmable base editor systems
US20220401530A1 (en) Methods of substituting pathogenic amino acids using programmable base editor systems
WO2020168132A9 (en) Adenosine deaminase base editors and methods of using same to modify a nucleobase in a target sequence
CN114206395A (zh) 使用可编程碱基编辑器系统编辑单核苷酸多态性的方法
CN114072509A (zh) 脱氨反应脱靶减低的核碱基编辑器和使用其修饰核碱基靶序列的方法
CN114096666A (zh) 治疗血红素病变的组合物和方法
JP2022500017A (ja) 核酸塩基編集システムを送達するための組成物および方法
CN114190093A (zh) 使用腺苷酸脱氨酶碱基编辑器破坏疾病相关基因的剪接受体位点,包括用于治疗遗传性疾病
CN114040970A (zh) 使用腺苷脱氨酶碱基编辑器编辑疾病相关基因的方法,包括遗传性疾病的治疗
US20230101597A1 (en) Compositions and methods for treating alpha-1 antitrypsin deficiency
JP2022519507A (ja) 低減された非標的脱アミノ化を有する核酸塩基エディターおよび核酸塩基エディターの特徴づけのためのアッセイ
CN114929287A (zh) 用于治疗乙型肝炎的组合物和方法
AU2020336953A1 (en) Compositions and methods for editing a mutation to permit transcription or expression
CN114026237A (zh) 用于治疗1a型糖原贮积病的组成物和方法
CA3198671A1 (en) Compositions and methods for treating glycogen storage disease type 1a
CN116685684A (zh) 用于治疗1a型糖原贮积症的组合物和方法
CN117729926A (zh) 用于使碱基编辑器自失活的组合物和方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination