CN114072496A - 腺苷脱氨酶碱基编辑器及使用其修饰靶标序列中的核碱基的方法 - Google Patents

腺苷脱氨酶碱基编辑器及使用其修饰靶标序列中的核碱基的方法 Download PDF

Info

Publication number
CN114072496A
CN114072496A CN202080028658.7A CN202080028658A CN114072496A CN 114072496 A CN114072496 A CN 114072496A CN 202080028658 A CN202080028658 A CN 202080028658A CN 114072496 A CN114072496 A CN 114072496A
Authority
CN
China
Prior art keywords
fusion protein
tada
adenosine deaminase
domain
cas9
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080028658.7A
Other languages
English (en)
Inventor
N·戈代尔利
M·帕克
I·斯雷梅克
Y·于
B·蔡澈
J·M·格尔克
N·彼得罗相
A·梅萨纳
Y·阿拉泰恩
F·葛瑞格尔
G·伦格
S·贝尔科维奇
D·A·玻恩
S-J·李
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bim Medical Co ltd
Original Assignee
Bim Medical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bim Medical Co ltd filed Critical Bim Medical Co ltd
Publication of CN114072496A publication Critical patent/CN114072496A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P43/00Drugs for specific purposes, not provided for in groups A61P1/00-A61P41/00
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/62DNA sequences coding for fusion proteins
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04004Adenosine deaminase (3.5.4.4)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/01Fusion polypeptide containing a localisation/targetting motif
    • C07K2319/09Fusion polypeptide containing a localisation/targetting motif containing a nuclear localisation signal
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • C07K2319/81Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor containing a Zn-finger domain for DNA binding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04005Cytidine deaminase (3.5.4.5)

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Veterinary Medicine (AREA)
  • General Chemical & Material Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Animal Behavior & Ethology (AREA)
  • Public Health (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Peptides Or Proteins (AREA)
  • Micro-Organisms Or Cultivation Processes Thereof (AREA)
  • Pharmaceuticals Containing Other Organic And Inorganic Compounds (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)

Abstract

本公开提供包含具有提高的效率的新型腺苷碱基编辑器(例如,ABE8)的组合物和使用这些腺苷脱氨酶变体编辑靶标序列的方法。

Description

腺苷脱氨酶碱基编辑器及使用其修饰靶标序列中的核碱基的 方法
相关申请
本申请是一项国际PCT申请,请求于2019年2月13日提交的美国临时申请第62/805,271号;2019年2月13日提交的第62/805,238号;2019年2月13日提交的第62/805,277号;2019年5月23日提交的第62/852,228号;2019年5月23日提交的第62/852,224号;2019年7月11日提交的第62/873,138号;2019年7月11日提交的第62/873,140号;2019年7月11日提交的第62/873,144号;2019年7月19日提交的第62/876,354号;2019年8月19日提交的第62/888,867号;2019年10月9日提交的第62/912,992号;2019年11月6日提交的第62/931,722号;2019年11月6日提交的第62/931,747号;2019年11月27日提交的第62/941,523号;2019年11月27日提交的第62/941,569号;和2020年1月27日提交的第62/966,526号的优先权和权益,其全部内容在此通过引用并入本文。
引用并入
本说明书中提及的所有出版物、专利和专利申请案均在此以引用方式并入本文,其程度就如同每个单独的出版物、专利或专利申请被具体地和单独地指示为以引用方式并入一样。除非另有说明,本说明书中提及的出版物、专利和专利申请通过引用整体并入本文。
背景技术
核酸序列的靶向编辑,例如基因组DNA的靶向切割或靶向修饰,是基因功能研究的一种很有前景的方法,也有可能为人类遗传疾病提供新的治疗方法。目前可用的碱基编辑器包括将靶标C·G碱基对转换为T·A的胞苷碱基编辑器(例如,BE4)和将A·T转换为G·C的腺嘌呤碱基编辑器(例如,ABE7.10)。本领域需要能够以更高的特异性和效率在靶标序列中诱导修饰的改进的碱基编辑器。
发明内容
本发明提供包含具有提高的效率的新型腺苷碱基编辑器(例如,ABE8)的组合物和使用包含腺苷脱氨酶变体的碱基编辑器编辑靶标序列的方法。
一方面,本发明提供一种融合蛋白,其包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,所述碱基编辑器结构域是腺苷脱氨酶变体,所述腺苷脱氨酶变体包含在
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSST的氨基酸位置82和/或166处发生的改变,或相应于
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSST的变体中氨基酸位置82和/或166处发生的改变。一方面,本发明提供一种融合蛋白,其包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,所述碱基编辑器结构域是腺苷脱氨酶变体,所述腺苷脱氨酶变体包含在
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSST的氨基酸位置82和/或166处发生的改变,或至少50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%或99%与此氨基酸序列相同。
在一些实施方案中,所述腺苷脱氨酶变体在对应于以下任何腺苷脱氨酶或其任何变体中的
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处包含改变:
金黄色葡萄球菌(Staphylococcus aureus,S.aureus)TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌(Bacillus subtilis,B.subtilis)TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门氏菌(Salmonella typhimurium,S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(Shewanella putrefaciens,S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌F3031(Haemophilus influenzae,H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTΑΗAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
新月柄杆菌(Caulobacter crescentus,C.crescentus)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(Geobacter sulfurreducens,G.sulfurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSA
HAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGS
LYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
在一些实施方案中,所述多核苷酸可编程DNA结合结构域包含以下序列:
Figure BDA0003302413480000041
Figure BDA0003302413480000042
其中粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示双核定位序列。
在上述方面的各种实施方案中,所述腺苷脱氨酶变体在氨基酸位置82和166处包含改变。在上述方面的各种实施方案中,所述腺苷脱氨酶变体包含V82S的改变。在上述方面的各种实施方案中,所述腺苷脱氨酶变体包含T166R的改变。在上述方面的各种实施方案中,所述腺苷脱氨酶变体包含V82S和T166R的改变。在上述方面的各种实施方案中,所述腺苷脱氨酶变体进一步包含以下一项或多项改变:Y147T、Y147R、Q154S、Y123H及Q154R。在另一个实施方案中,所述腺苷脱氨酶变体包含以下改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R或I76Y+V82S+Y123H+Y147R+Q154R。在上述方面的各种实施方案中,所述腺苷脱氨酶变体包含选自由149、150、151、152、153、154、155、156和157组成的群组中的残基开始的C末端的缺失。
在一些实施方案中,所述碱基编辑器结构域包含腺苷脱氨酶变体单体。在一些实施方案中,所述碱基编辑器结构域是ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m或ABE8.24-m。在各种实施方案中,所述碱基编辑器结构域包含腺苷脱氨酶异二聚体,其包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。在一些实施方案中,所述碱基编辑器结构域是ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d。在上述方面的各种实施方案中,所述碱基编辑器包含异源二聚体,其包含TadA7.10结构域和腺苷脱氨酶变体结构域。在一些实施方案中,所述腺苷脱氨酶变体为TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。
在各种实施方案中,所述腺苷脱氨酶变体包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。在另一实施方案中,所述腺苷脱氨酶变体相对于全长腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在另一实施方案中,所述腺苷脱氨酶变体相对于全长腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中,所述腺苷脱氨酶变体包含Y147T+Q154R。在一些实施方案中,所述腺苷脱氨酶变体包含Y147T+Q154S。在一些实施方案中,所述腺苷脱氨酶变体包含Y147R+Q154S。在一些实施方案中,所述腺苷脱氨酶变体包含V82S+Q154S;V82S;V82S+Y147R。在一些实施方案中,所述腺苷脱氨酶变体包含V82S+Q154R。在一些实施方案中,所述腺苷脱氨酶变体包含V82S+Y123H。在一些实施方案中,所述腺苷脱氨酶变体包含I76Y+V82S。在一些实施方案中,所述腺苷脱氨酶变体包含V82S+Y123H+Y147T。在一些实施方案中,所述腺苷脱氨酶变体包含V82S+Y123H+Y147R。在一些实施方案中,所述腺苷脱氨酶变体包含V82S+Y123H+Q154R。在一些实施方案中,所述腺苷脱氨酶变体包含Y147R+Q154R+Y123H。在一些实施方案中,所述腺苷脱氨酶变体包含Y147R+Q154R+I76Y。在一些实施方案中,所述腺苷脱氨酶变体包含Y147R+Q154R+T166R。在一些实施方案中,所述腺苷脱氨酶变体包含Y123H+Y147R+Q154R+I76Y。在一些实施方案中,所述腺苷脱氨酶变体包含V82S+Y123H+Y147R+Q154R。在一些实施方案中,所述腺苷脱氨酶变体包含I76Y+V82S+Y123H+Y147R+Q154R。
在一些实施方案中,所述多核苷酸可编程DNA结合结构域是Cas9。在一些实施方案中,所述Cas9多肽包含以下氨基酸序列(Cas9参考序列):
Figure BDA0003302413480000071
Figure BDA0003302413480000072
(单底线:HNH结构域;双底线:RuvC结构域;(Cas9参考序列),或其相应区域。
在一些实施方案中,所述多核苷酸可编程DNA结合结构域是金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1(Streptococcus thermophilus)Cas9(St1Cas9)、化脓性链球菌Cas9(SpCas9)或其变体。在各种实施方案中,所述多核苷酸可编程DNA结合结构域包含SpCas9的变体,其具有改变的原间隔相邻基序(PAM)特异性或对非GPAM具有特异性的SpCas9。在上述方面的各种实施方案中,所述改变的PAM对核酸序列5'-NGC-3'具有特异性。在上述方面的各种实施方案中,所述经修饰的SpCas9包含D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R的氨基酸置换,或其相应的氨基酸置换。在上述方面的各种实施方案中,所述多核苷酸可编程DNA结合结构域是无活性的核酸酶或切口酶变体。在上述方面的各种实施方案中,所述切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。在上述方面的各种实施方案中,所述碱基编辑器进一步包含锌指结构域。在上述方面的各种实施方案中,所述腺苷脱氨酶结构域能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨。
在各种实施方案中,所述腺苷脱氨酶变体是TadA脱氨酶。在上述方面的各种实施方案中,所述TadA脱氨酶是TadA*7.10。在各种实施方案中,所述TadA脱氨酶是TadA*8变体。腺苷脱氨酶变体能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨。在一些实施方案中,所述腺苷脱氨酶变体为金黄色葡萄球菌TadA、枯草芽孢杆菌TadA、鼠伤寒沙门氏菌TadA、腐败希瓦氏菌TadA、流感嗜血杆菌F3031 TadA、新月柄杆菌(C.crescentus)TadA或硫还原地杆菌TadA,或其片段。在一些实施方案中,所述腺苷脱氨酶变体是自然界中不存在的腺苷脱氨酶。
在上述方面的各种实施方案中,所述融合蛋白包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶结构域之间的接头。在上述方面的各种实施方案中,所述接头包含氨基酸序列:
SGGSSGGSSGSETPGTSESATPES。在上述方面的各种实施方案中,包含一种或多种核定位信号。在上述方面的各种实施方案中,所述核定位信号是二分核定位信号。
在上述方面的各种实施方案中,所述Cas9是StCas9或SaCas9。在上述方面的各种实施方案中,所述Cas9是经修饰的SaCas9。在上述方面的各种实施方案中,所述经修饰的SaCas9包含E781K、N967K和R1014H的氨基酸置换,或其相应的氨基酸置换。在上述方面的各种实施方案中,所述经修饰的SaCas9包含氨基酸序列:
KRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG。
一种融合蛋白,包含:
腺苷脱氨酶变体结构域,其中所述腺苷脱氨酶变体结构域包含以下氨基酸序列:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSST,其中所述氨基酸序列包含至少一个改变,和Cas9或Cas12多肽,其中所述腺苷脱氨酶变体结构域插入在Cas9或Cas12多肽内。
在一些实施方案中,所述腺苷脱氨酶变体结构域是包含TadA*8腺苷脱氨酶变体结构域的腺苷脱氨酶单体。在一些实施方案中,所述腺苷脱氨酶变体结构域是包含野生型腺苷脱氨酶结构域和TadA*8腺苷脱氨酶变体结构域的腺苷脱氨酶异二聚体。在一些实施方案中,所述腺苷脱氨酶变体结构域是包含TadA结构域和TadA*8腺苷脱氨酶变体结构域的腺苷脱氨酶异二聚体。在一些实施方案中,所述腺苷脱氨酶变体结构域插入在所述Cas9或Cas12多肽的柔性环、α螺旋区、非结构化部分或溶剂可及部分内。在一些实施方案中,所述柔性环包含所述Cas9或Cas12多肽的α螺旋结构的一部分。在一些实施方案中,所述腺苷脱氨酶变体结构域的侧翼是Cas9多肽的N末端片段和C末端片段。在一些实施方案中,所述融合蛋白包含结构:NH2-[Cas9的N末端片段]-[腺苷脱氨酶变体]-[Cas9的C末端片段]-COOH,其中“]-[”的每个实例都是一个可选的接头。在一些实施方案中,所述Cas9或Cas12多肽的所述N末端片段或所述C末端片段结合靶标多核苷酸序列。
在一些实施方案中,所述N末端片段的C端或所述C末端片段的N端包含所述Cas9或Cas12多肽的柔性环的一部分。在一些实施方案中,当所述融合蛋白使靶标核碱基脱氨基时,所述柔性环包含靠近靶标核碱基的氨基酸。在一些实施方案中,所述靶标核碱基是距所述靶标多核苷酸序列中的原间隔相邻基序(PAM)序列的1至20个核碱基。在一些实施方案中,所述靶标核碱基是所述PAM序列上游的2至12个核碱基。在一些实施方案中,所述N末端片段或所述C末端片段包含RuvC结构域;所述N末端片段或所述C末端片段包含NHN结构域;所述N末端片段或所述C末端片段均不包含HNH结构域;或所述N末端片段或所述C末端片段均不包含RuvC结构域。在一些实施方案中,所述Cas9或Cas12多肽在一个或多个结构域中包含部分或完全缺失,并且其中所述腺苷脱氨酶插入在所述Cas9或Cas12多肽的部分或完全缺失处。在一些实施方案中,所述缺失在RuvC结构域内;所述缺失在HNH结构域内;或所述缺失桥接RuvC结构域和C末端结构域。
在一些实施方案中,所述腺苷脱氨酶变体结构域插入在Cas12多肽內。在一些实施方案中,所述Cas9多肽是化脓性链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或其变体。在一些实施方案中,所述Cas9包含以下氨基酸序列(Cas9参考序列):
Figure BDA0003302413480000101
Figure BDA0003302413480000111
Figure BDA0003302413480000112
(单底线:HNH结构域;双底线:RuvC结构域;(“Cas9参考序列”),或其相应区域。
一方面,本发明提供本文提供的任何融合蛋白,其中:所述Cas9多肽包含在Cas9多肽参考序列中编号的氨基酸1017至1069或其相应氨基酸的缺失;所述Cas9多肽包含在Cas9多肽参考序列中编号的氨基酸792至872或其相应氨基酸的缺失;或所述Cas9多肽包含在Cas9多肽参考序列中编号的氨基酸792至906或其相应氨基酸的缺失。在一些实施方案中,所述腺苷脱氨酶变体结构域插入Cas9多肽的柔性环内。在一些实施方案中,所述柔性环包含选自由在Cas9参考序列中编号530至537、569至579、686至691、768至793、943至947、1002至1040、1052至1077、1232至1248和1298至1300的氨基酸残基或其相应的氨基酸位置组成的群组的区域。在一些实施方案中,所述腺苷脱氨酶变体结构域插入Cas9参考序列中编号768至769、791至792、792至793、1015至1016、1022至1023、1026至1027、1029至1030、1040至1041、1052至1053、1054至1055、1067至1068、1068至1069、1247至1248或1248至1249之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述腺苷脱氨酶变体结构域插入Cas9参考序列中编号768至769、791至792、792至793、1022至1023、1026至1027、1040至1041、1068至1069或1247至1248之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述腺苷脱氨酶变体结构域插入Cas9参考序列中编号1016至1017、1023至1024、1029至1030、1040至1041、1069至1070或1247至1248之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,脱氨酶变体结构域在表10A中鉴定的基因座处插入Cas9多肽内。在一些实施方案中,所述N末端片段包含Cas9参考序列的1至529、538至568、580至685、692至942、948至1001、1026至1051、1078至1231和/或1248至1297的氨基酸残基,或其相应的残基。在一些实施方案中,所述C末端片段包含Cas9参考序列的1301至1368、1248至1297、1078至1231、1026至1051、948至1001、692至942、580至685和/或538至568的氨基酸残基,或其相应的残基。
在一些实施方案中,所述Cas9多肽是切口酶或其中所述Cas9多肽是无核酸酶活性的。在一些实施方案中,所述Cas9多肽是经过修饰的SpCas9多肽并且对改变的PAM具有特异性或对非G PAM具有特异性。在一些实施方案中,所述经修饰的SpCas9多肽,其包括氨基酸置换D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)并且对改变的PAM 5'-NGC-3'具有特异性。
在一些实施方案中,所述腺苷脱氨酶变体结构域插入在Cas12多肽內。在一些实施方案中,所述Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i。在一些实施方案中,所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属V3-13Cas12b或嗜酸脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)Cas12b具有至少约85%的氨基酸序列同一性。在一些实施方案中,所述Cas12多肽包含或基本上由以下组成的片段:外村尚芽孢杆菌Cas12b、嗜热淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13Cas12b或嗜酸脂环酸芽孢杆菌Cas12b。在一些实施方案中,所述腺苷脱氨酶变体结构域插入氨基酸位置之间:a)BhCas12b的153至154、255至256、306至307、980至981、1019至1020、534至535、604至605或344至345或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基;b)BvCas12b的147和148、248和249、299和300、991和992或1031和1032或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基;或c)AaCas12b的157和158、258和259、310和311、1008和1009或1044和1045或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基。在一些实施方案中,所述腺苷脱氨酶变体结构域插入在表10B中鉴定的基因座处。
在一些实施方案中,所述Cas12多肽是Cas12b。在一些实施方案中,所述Cas12多肽包含BhCas12b结构域、BvCas12b结构域或AACas12b结构域,Cas12b多肽包含使RuvC域的催化活性沉默的突变。在一些实施方案中,所述Cas12多肽包含D574A、D829A和/或D952A突变。
在一些实施方案中,所述腺苷脱氨酶变体结构域包含金黄色葡萄球菌TadA、枯草芽孢杆菌TadA、鼠伤寒沙门氏菌TadA、腐败希瓦氏菌TadA、流感嗜血杆菌F3031 TadA、新月柄杆菌(C.crescentus)TadA或硫还原地杆菌TadA,或其变体或片段。在一些实施方案中,所述腺苷脱氨酶是一种非天然存在的腺苷脱氨酶。
在各种实施方案中,所述融合蛋白进一步包含胞苷脱氨酶。在一方面,本发明提供一种融合蛋白,其包含结构:NH2-[TadA*8]-[Cas9]-[胞苷脱氨酶]-COOH,其中“]-[”的每个实例都是一个可选的接头。在另一方面,本发明提供一种融合蛋白,其包含结构:NH2-[胞苷脱氨酶]-[Cas9]-[TadA*8]-COOH,其中“]-[”的每个实例都是一个可选的接头。
在一方面,本发明提供一种融合蛋白,其包含结构:NH2-[Cas9(TadA*8)]-[胞苷脱氨酶]-COOH,其中“]-[”的每个实例都是一个可选的接头(例如,TadA*8内部融合在Cas9中,胞苷脱氨酶融合到C末端)。在一方面,本发明提供一种融合蛋白,其包含结构:NH2-[胞苷脱氨酶]-[Cas9(TadA*8)]-COOH,其中“]-[”的每个实例都是一个可选的接头(例如,TadA*8内部融合在Cas9中,胞苷脱氨酶融合到N末端)。在另一方面,本发明提供一种融合蛋白,其包含结构:NH2-[Cas9(胞苷脱氨酶)]-[TadA*8]-COOH,其中“]-[”的每个实例都是一个可选的接头。又一方面,本发明提供一种融合蛋白,其包含结构:NH2-[TadA*8]-[Cas9(胞苷脱氨酶)]-COOH,其中“]-[”的每个实例都是一个可选的接头。
在一方面,本发明提供一种融合蛋白,其包含结构:NH2-[Cas12(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH,其中“]-[”的每个实例都是一个可选的接头(例如,腺苷脱氨酶内部融合在Cas12中,胞苷脱氨酶融合到C末端)。在一方面,本发明提供一种融合蛋白,其包含结构:NH2-[胞苷脱氨酶]-[Cas12(腺苷脱氨酶)]-COOH,其中“]-[”的每个实例都是一个可选的接头(例如,腺苷脱氨酶内部融合在Cas12中,胞苷脱氨酶融合到N末端)。在另一方面,本发明提供一种融合蛋白,其包含结构:NH2-[Cas12(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH,其中“]-[”的每个实例都是一个可选的接头。又一方面,本发明提供一种融合蛋白,其包含结构:NH2-[腺苷脱氨酶]-[Cas12(胞苷脱氨酶)]-C,其中“]-[”的每个实例都是一个可选的接头。
在一方面,本发明提供与一个或多个引导核酸序列形成复合物的本文提供的任何融合蛋白,以实现靶核碱基的脱氨基作用。在一些实施方案中,所述融合蛋白进一步与靶标多核苷酸复合。
在一方面,本发明提供编码本文提供的任何融合蛋白的多核苷酸。在另一方面,本发明提供包含本文提供的任何多核苷酸的表达载体。在一些实施方案中,所述表达载体是哺乳动物表达载体。在一些实施方案中,所述载体是选自由腺相关病毒(AAV)、逆转录病毒载体、腺病毒载体、慢病毒载体、仙台病毒载体和疱疹病毒载体组成的群组中的病毒载体。在一些实施方案中,所述载体包含启动子。
在一方面,本发明提供包含本文提供的任何融合蛋白的细胞。在一方面,本发明提供包含本文提供的任何多核苷酸的细胞。在一方面,本发明提供包含本文提供的任何载体的细胞。在各種實施方案中,所述细胞是细菌细胞、植物细胞、昆虫细胞、人类细胞或哺乳动物细胞。
在一方面,本發明提供鹼基編輯器,其包含與一個或多個引導多核苷酸複合的本文提供的任何融合多肽。在一方面,本发明提供包含本文提供的任何融合蛋白和藥學上可接受的賦形劑的药物组合物。在一方面,本发明提供包含本文提供的任何多肽和藥學上可接受的賦形劑的药物组合物。在一方面,本发明提供包含本文提供的任何载体和藥學上可接受的賦形劑的药物组合物。在一方面,本发明提供包含本文提供的任何細胞和藥學上可接受的賦形劑的药物组合物。在一方面,本发明提供包含本文提供的任何鹼基編輯器和藥學上可接受的賦形劑的药物组合物。
在一方面,本发明提供包含本文提供的任何融合蛋白的试剂盒。在一方面,本发明提供包含本文提供的任何多核苷酸的试剂盒。在一方面,本发明提供包含本文提供的任何载体的试剂盒。在一方面,本发明提供包含本文提供的任何鹼基編輯器的试剂盒。
在一方面,本发明提供一种碱基编辑方法,其包含将多核苷酸序列与本文提供的任何融合蛋白接触,其中所述融合蛋白的所述腺苷脱氨酶变体结构域使所述多核苷酸中的核碱基脱氨基,从而编辑所述多核苷酸序列。在一些实施例中,所述方法进一步包括将所述靶标多核苷酸序列与一种或多种引导多核苷酸接触以实现所述靶标核碱基的脱氨基。
在一方面,本发明提供一种编辑靶标多核苷酸的方法,所述方法包含使所述靶标多核苷酸与如权利要求116所述的碱基编辑器接触以实现所述靶标多核苷酸中的A·T到G·C的改变。在一些实施例中,所述的方法进一步包括接触是在细胞、真核细胞、哺乳动物细胞或人类细胞中进行。在一些实施例中,所述細胞是在体内的。在一些实施例中,所述細胞是离体的。
在一方面,本发明提供一种治疗受试者基因缺陷的方法,所述方法包含向受试者施用碱基编辑器,所述碱基编辑器包含或基本上由本文提供的任何融合蛋白组成,或编码所述碱基编辑器和一种或多种引导多核苷酸的多核苷酸,以指导所述碱基编辑器使受试者的靶标核苷酸序列中的靶标核碱基脱氨基,从而治疗所述基因缺陷。
在一些实施例中,所述引导多核苷酸包含选自由以下组成的群组的核酸序列:a)GACCUAGGCGAGGCAGUAGG;b)CCAGUAUGGACACUGUCCAAA;c)CAGUAUGGACACUGUCCAAA;和d)AGUAUGGACACUGUCCAAAG。在各种实施例中,所述gRNA进一步包含核酸序列
GUUUUUGUACUCUCAAGAUUUAAGUAACUGUACAACGAAACUUACACAGUUACUUAAAUCUUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAUGGCAGGGUG.在各种实施例中,所述引导RNA包含CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)。
在一些实施例中,所述方法进一步包括将所述碱基编辑器或编码所述碱基编辑器的多核苷酸和一种或多种引导多核苷酸递送至所述受试者的细胞。在各种实施方案中,所述受试者是哺乳动物或人类。在各种实施方案中,所述靶标核碱基的脱氨基用野生型核碱基替换靶标核碱基。在各种实施方案中,所述靶标核碱基的脱氨基用非野生型核碱基替换所述靶标核碱基,并且其中所述靶标核碱基的脱氨基改善所述基因病状的症状。在各种实施方案中,所述靶标多核苷酸序列包含与所述靶标核碱基以外的核碱基处的遗传病状相关的突变。
本文中的描述和示例详细说明本公开的实施方案。应当理解,本公开不限于本文描述的特定实施方案并且因此可以变化。本领域技术人员将认识到,对本公开内容存在多种变化和修改,这些变化和修改包含在其范围内。
除非另外指明,否则本文公开的一些实施方案的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术,这些技术在本领域技术范围内。参见例如Sambrook和Green,Molecular Cloning:A Laboratory Manual,4th Edition(2012);the series Current Protocols in Molecular Biology(F.M.Ausubel,et al.eds.);the series Methods In Enzymology(Academic Press,Inc.),PCR 2:A Practical Approach(M.J.MacPherson,B.D.Hames and G.R.Taylor eds.(1995)),Harlow and Lane,eds.(1988)Antibodies,A Laboratory Manual,以及Cultureof Animal Cells:A Manual of Basic Technique and Specialized Applications,6thEdition(R.I.Freshney,ed.(2010)).
此处使用的章节标题仅用于组织目的,不应被解释为限制所描述的主题。
尽管可以在单个实施例的上下文中描述本公开的各种特征,但是也可以单独地或以任何合适的组合来提供这些特征。相反地,尽管为了清楚起见可以在单独的实施例的上下文中在本文中描述本公开,但是本公开也可以在单个实施例中实施。此处使用的章节标题仅用于组织目的,不应被解释为限制所描述的主题。
本公开的特征在所附权利要求中具体阐述。通过参考以下阐述说明性实施例的详细描述,其中利用了本公开的原理,并鉴于如下所述的附图,将获得对本发明的特征和优点的更好理解。
定义
以下定义补充本领域中的定义,并且针对当前申请,并且不归咎于任何相关或不相关的案例,例如,任何共同拥有的专利或申请。尽管与本文所述的那些相似或等效的任何方法和材料可用于测试本公开的实践中,但本文描述优选的材料和方法。因此,本文中使用的术语仅用于描述特定实施例的目的,并不旨在进行限制。
除非另有定义,本文使用的所有技术和科学术语均具有本领域技术人员通常理解的含义。以下参考文献为本领域技术人员提供本发明中使用的许多术语的一般定义:Singleton et al.,Dictionary of Microbiology and Molecular Biology(2nded.1994);The Cambridge Dictionary of Science and Technology(Walker ed.,1988);The Glossary of Genetics,5th Ed.,R.Rieger et al.(eds.),Springer Verlag(1991);以及Hale&Marham,The Harper Collins Dictionary of Biology(1991)。
在本申请中,除非另有特别说明,否则单数的使用包括复数。必须注意,在说明书中使用的单数形式“一个”、“一”和“所述”包括复数参考,除非上下文另有明确规定。在本申请中,除非另有说明,否则“或”的使用是指“和/或”,并且被理解为包括在内。此外,术语“包括”以及诸如“包含”、“具有”和“含有”等其他形式的使用不是限制性的。
如在本说明书和权利要求中使用的,术语“包含”(以及任何形式的包含,例如“包括”和“含有”)、“具有”(以及任何形式的具有,例如“具”和“有”)、“所具有”(以及任何形式的包括,例如“包括”和“包含”)或“含有”(以及任何形式的含有,例如“所含”和“含”)是包容性或开放性的并且不排除额外的、未提及的元素或方法步骤。预期本说明书中讨论的任何实施方案可关于本公开的任何方法或组合实施,反之亦然。此外,本公开的组合物可用于实现本公开的方法。
术语“约”或“大约”是指在由本领域技术人员确定的特定值的可接受误差范围内,这将部分取决于如何测量或确定该值,即测量系统。例如,根据本领域的实践,“约”可以表示在1个标准偏差以内或超过1个标准偏差。或者,“约”可以表示给定值的最多20%、最多10%、最多5%或最多1%的范围。或者,特别是对于生物系统或过程,该术语可表示在一个数量级内,例如在值的5倍或2倍内。在申请和权利要求中描述特定值的情况下,除非另有说明,术语“约”的含义应假定在特定值的可接受误差范围内。
此处提供的范围应理解为该范围内所有值的简写。例如,1至50的范围被理解为包括来自1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50。
说明书中对“一些实施方案”、“一个实施方案”、“一实施方案”或“其他实施方案”的引用是指结合实施例描述的特定特征、结构或特性包括在至少一些实施方案中,但不包括必须是本公开的所有实施方案。
“无碱基编辑器”是指能够切除核碱基并插入DNA核碱基(A、T、C或G)的试剂。无碱基碱基编辑器包含核酸糖基化酶多肽或其片段。在一个实施方案中,核酸糖基化酶是突变的人尿嘧啶DNA糖基化酶,其包含以下序列中的氨基酸204处的Asp(例如,替换氨基酸204处的Asn),或尿嘧啶DNA糖基化酶中的相应位置,并且具有胞嘧啶-DNA糖基化酶活性或其活性片段。在一个实施方案中,核酸糖基化酶是突变的人尿嘧啶DNA糖基化酶,其包含以下序列中的氨基酸147处的Ala、Gly、Cys或Ser(例如,替换氨基酸147处的Tyr),或尿嘧啶DNA糖基化酶中的相应位置,并且具有胸腺嘧啶-DNA糖基化酶活性或其活性片段。示例性人尿嘧啶-DNA糖基化酶异构体1的序列如下:
Figure BDA0003302413480000191
人尿嘧啶-DNA糖基化酶异构体2的序列如下:
Figure BDA0003302413480000192
在其他实施例中,无碱基编辑器是专利申请号
PCT/JP2015/080958和US20170321210中描述的任意一种无碱基编辑器,在此引入作为参考。在特定的实施方案中,无碱基编辑器包含在以上序列中以粗体显示的位置处的突变并带有底线,或在本领域已知的任何其他无碱基编辑器或尿嘧啶去糖基化酶中的相应氨基酸处包含突变。在一个实施方案中,所述无碱基编辑器在Y147、N204、L272和/或R276或相应位置包含突变。在另一个实施方案中,所述无碱基编辑器包含Y147A或Y147G突变,或相应的突变。在另一个实施方案中,所述无碱基编辑器包含N204D突变,或相应的突变。在另一个实施方案中,所述无碱基编辑器包含L272A突变,或相应的突变。在另一个实施方案中,所述无碱基编辑器包含R276E或R276C突变,或相应的突变。
“腺苷脱氨酶”是指能够催化腺嘌呤或腺苷水解脱氨的多肽或其片段。在一些实施方案中,所述脱氨酶或脱氨酶结构域是催化腺苷水解脱氨基为肌苷或脱氧腺苷水解脱氨为脱氧肌苷的腺苷脱氨酶。在一些实施方案中,所述腺苷脱氨酶催化脱氧核糖核酸(DNA)中腺嘌呤或腺苷的水解脱氨。本文提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可以来自任何生物体,例如细菌。
在一些实施方案中,所述腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,所述TadA脱氨酶是TadA变体。在一些实施方案中,所述TadA变体是TadA*8。在一些实施方案中,所述脱氨酶或脱氨酶结构域是来自生物体例如人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然存在的脱氨酶的变体。在一些实施方案中,所述脱氨酶或脱氨酶结构域不存在于自然界。例如,在一些实施例中,所述脱氨酶或脱氨酶结构域为至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%或至少99.9%与天然存在的脱氨酶相同。例如,国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述脱氨酶结构域,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),和Rees,H.A.,等人,“Base editing:precision chemistry on thegenome and transcriptome of living cells.”Nat Rev Genet.2018Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容以引用方式并入本文。
野生型TadA(wt)腺苷脱氨酶具有以下序列(也称为TadA参考序列;SEQ ID NO:2):
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD.
在一些实施方案中,所述腺苷脱氨酶包含以下序列的改变:
MSEVEFSHEY WMRHALTLAK RARDEREVPV GAVLVLNNRV IGEGWNRAIG LHDPTAHAEIMALRQGGLVM QNYRLIDATL YVTFEPCVMC AGAMIHSRIG RVVFGVRNAK TGAAGSLMDV LHYPGMNHRVEITEGILADE CAALLCYFFR MPRQVFNAQK KAQSSTD
(也称为TadA*7.10)。
在一些实施方案中,TadA*7.10包含至少一个改变。在一些实施方案中,TadA*7.10包含在氨基酸82和/或166处的改变。在特定实施方案中,上述序列的变体包含以下一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R。改变Y123H在本文中也称为H123H(TadA*7.10中的改变H123Y回复回Y123H(wt))。在其他实施方案中,TadA*7.10序列的变体包含选自以下群组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。
在其他实施方案中,本发明提供包含缺失例如TadA*8的腺苷脱氨酶变体,其包含从残基149、150、151、152、153、154、155、156或15开始的C末端的缺失,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含一个或多个以下改变的TadA(例如,TadA*8)单体:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含选自以下群组的改变组合的单体:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,所述腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如TadA*8)的同源二聚体,每个结构域具有一个或多个以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如TadA*8)的同源二聚体,每个结构域具有选自以下群组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,所述腺苷脱氨酶变体是包含野生型TadA腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含一种或多种以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含野生型TadA腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含选自以下群组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,所述腺苷脱氨酶变体是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含一种或多种以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含选自以下的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R或I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在一个实施方案中,所述腺苷脱氨酶是TadA*8,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在一些实施例中,所述TadA*8被截断。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中所述腺苷脱氨酶变体是全长TadA*8。
在特定实施方案中,腺苷脱氨酶异二聚体包含选自以下之一的TadA*8结构域和腺苷脱氨酶结构域:
金黄色葡萄球菌(S.aureus)TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌(B.subtilis)TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门氏菌(S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌F3031(H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQS
DPTΑΗ
AEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
新月柄杆菌(C.crescentus)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(G.sulfurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
TadA*7.10
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
“腺苷脱氨酶碱基编辑器8(ABE8)多肽”或“ABE8”是指如本文所定义的碱基编辑器,其包含腺苷脱氨酶变体,该变体包含在以下参考序列的氨基酸位置82和/或166处的改变:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD在一些实施方案中,ABE8包括相对于参考序列的进一步改变,如本文所述。
“腺苷脱氨酶碱基编辑器8(ABE8)多肽”是指编码ABE8的多核苷酸。
“施用(Administering)”在本文中是指向患者或受试者提供本文所述的一种或多种组合物。例如但不限于,施用组合物,例如注射,可以通过静脉内(iv)注射、皮下(sc)注射、皮内(id)注射、腹膜内(ip)注射或肌肉内(im)进行注射。可以采用一种或多种这样的途径。肠胃外施用可以是,例如,通过推注或随时间逐渐灌注。或者或同时,可以通过口服途径施用。
“药剂”是指任何小分子化合物、抗体、核酸分子或多肽,或其片段。
“改变”是指基因或多肽的结构、表达水平或活性的变化(例如增加或减少),如通过标准本领域已知方法例如本文所述的那些方法检测的。如本文所用,改变包括多核苷酸或多肽序列的变化或表达水平的变化,例如25%变化、40%变化、50%变化或更大。
“改善”是指减少、抑制、减弱、减弱、阻止或稳定疾病的发展或进展。
“类似物”是指不相同但具有类似功能或结构特征的分子。例如,多核苷酸或多肽类似物保留了相应的天然存在的多核苷酸或多肽的生物学活性,同时具有相对于天然存在的多核苷酸或多肽增强类似物功能的某些修饰。这种修饰可以增加类似物对DNA的亲和力、效率、特异性、蛋白酶或核酸酶抗性、膜渗透性和/或半衰期,而不改变例如配体结合。类似物可包括非天然核苷酸或氨基酸。
“碱基编辑器(BE)”或“核碱基编辑器(NBE)”是指结合多核苷酸并具有核碱基修饰活性的试剂。在各种实施方案中,碱基编辑器包含核碱基修饰多肽(例如,脱氨酶)和与引导多核苷酸(例如,指导RNA)结合的核酸可编程核苷酸结合结构域。在各种实施方案中,所述试剂是包含具有碱基编辑活性的蛋白质结构域的生物分子复合物,即能够修饰核酸分子(例如,A、T、C、G或U)内的碱基(例如,DNA)。在一些实施方案中,所述多核苷酸可编程DNA结合结构域是与脱氨酶结构域融合或连接。在一个实施方案中,所述试剂是包含具有碱基编辑活性的结构域的融合蛋白。在另一个实施方案中,具有碱基编辑活性的蛋白质结构域与引导RNA连接(例如,通过引导RNA上的RNA结合基序和与脱氨酶融合的RNA结合结构域)。在一些实施方案中,具有碱基编辑活性的结构域能够使核酸分子内的碱基脱氨基。在一些实施方案中,所述碱基编辑器能够使DNA分子内的一个或多个碱基脱氨基。在一些实施方案中,所述碱基编辑器能够使DNA分子内的一个或多个碱基脱氨基。在一些实施方案中,所述碱基编辑器是腺苷碱基编辑器(ABE)。
举例来说,本文描述的碱基编辑组合物、系统和方法中使用的胞苷碱基编辑器(CBE)具有以下核酸序列(8877个碱基对),(Addgene,Watertown,MA.;Komor AC等人,2017,Sci Adv.,30;3(8):eaao4774.doi:10.1126/sciadv.aao4774)如下提供。还包括与BE4核酸序列具有至少95%或更高同一性的多核苷酸序列。
Figure BDA0003302413480000261
Figure BDA0003302413480000271
Figure BDA0003302413480000281
Figure BDA0003302413480000291
Figure BDA0003302413480000301
在一些实施方案中,所述胞苷碱基编辑器是具有选自以下之一的核酸序列的BE4:
原始BE4核酸序列:
ATGagctcagagactggcccagtggctgtggaccccacattgagacggcggatcgagccccatgagtttgaggtattcttcgatccgagagagctccgcaaggagacctgcctgctttacgaaattaattgggggggccggcactccatttggcgacatacatcacagaacactaacaagcacgtcgaagtcaacttcatcgagaagttcacgacagaaagatatttctgtccgaacacaaggtgcagcattacctggtttctcagctggagccgcgaatgtagtagggccatcactgaattcctgtcaaggtatccccacgtcactctgtttatttacatcgcaaggctgtaccaccacgctgacccccgcaatcgacaaggcctgcgggatttgatctcttcaggtgtgactatccaaattatgactgagcaggagtcaggatactgctggagaaactttgtgaattatagcccgagtaatgaagcccactggcctaggtatccccatctgtgggtacgactgtacgttcttgaactgtactgcatcatactgggcctgcctccttgtctcaacattctgagaaggaagcagccacagctgacattctttaccatcgctcttcagtcttgtcattaccagcgactgcccccacacattctctgggccaccgggttgaaatctggtggttcttctggtggttctagcggcagcgagactcccgggacctcagagtccgccacacccgaaagttctggtggttcttctggtggttctgataaaaagtattctattggtttagccatcggcactaattccgttggatgggctgtcataaccgatgaatacaaagtaccttcaaagaaatttaaggtgttggggaacacagaccgtcattcgattaaaaagaatcttatcggtgccctcctattcgatagtggcgaaacggcagaggcgactcgcctgaaacgaaccgctcggagaaggtatacacgtcgcaagaaccgaatatgttacttacaagaaatttttagcaatgagatggccaaagttgacgattctttctttcaccgtttggaagagtccttccttgtcgaagaggacaagaaacatgaacggcaccccatctttggaaacatagtagatgaggtggcatatcatgaaaagtacccaacgatttatcacctcagaaaaaagctagttgactcaactgataaagcggacctgaggttaatctacttggctcttgcccatatgataaagttccgtgggcactttctcattgagggtgatctaaatccggacaactcggatgtcgacaaactgttcatccagttagtacaaacctataatcagttgtttgaagagaaccctataaatgcaagtggcgtggatgcgaaggctattcttagcgcccgcctctctaaatcccgacggctagaaaacctgatcgcacaattacccggagagaagaaaaatgggttgttcggtaaccttatagcgctctcactaggcctgacaccaaattttaagtcgaacttcgacttagctgaagatgccaaattgcagcttagtaaggacacgtacgatgacgatctcgacaatctactggcacaaattggagatcagtatgcggacttatttttggctgccaaaaaccttagcgatgcaatcctcctatctgacatactgagagttaatactgagattaccaaggcgccgttatccgcttcaatgatcaaaaggtacgatgaacatcaccaagacttgacacttctcaaggccctagtccgtcagcaactgcctgagaaatataaggaaatattctttgatcagtcgaaaaacgggtacgcaggttatattgacggcggagcgagtcaagaggaattctacaagtttatcaaacccatattagagaagatggatgggacggaagagttgcttgtaaaactcaatcgcgaagatctactgcgaaagcagcggactttcgacaacggtagcattccacatcaaatccacttaggcgaattgcatgctatacttagaaggcaggaggatttttatccgttcctcaaagacaatcgtgaaaagattgagaaaatcctaacctttcgcataccttactatgtgggacccctggcccgagggaactctcggttcgcatggatgacaagaaagtccgaagaaacgattactccatggaattttgaggaagttgtcgataaaggtgcgtcagctcaatcgttcatcgagaggatgaccaactttgacaagaatttaccgaacgaaaaagtattgcctaagcacagtttactttacgagtatttcacagtgtacaatgaactcacgaaagttaagtatgtcactgagggcatgcgtaaacccgcctttctaagcggagaacagaagaaagcaatagtagatctgttattcaagaccaaccgcaaagtgacagttaagcaattgaaagaggactactttaagaaaattgaatgcttcgattctgtcgagatctccggggtagaagatcgatttaatgcgtcacttggtacgtatcatgacctcctaaagataattaaagataaggacttcctggataacgaagagaatgaagatatcttagaagatatagtgttgactcttaccctctttgaagatcgggaaatgattgaggaaagactaaaaacatacgctcacctgttcgacgataaggttatgaaacagttaaagaggcgtcgctatacgggctggggacgattgtcgcggaaacttatcaacgggataagagacaagcaaagtggtaaaactattctcgattttctaaagagcgacggcttcgccaataggaactttatgcagctgatccatgatgactctttaaccttcaaagaggatatacaaaaggcacaggtttccggacaaggggactcattgcacgaacatattgcgaatcttgctggttcgccagccatcaaaaagggcatactccagacagtcaaagtagtggatgagctagttaaggtcatgggacgtcacaaaccggaaaacattgtaatcgagatggcacgcgaaaatcaaacgactcagaaggggcaaaaaaacagtcgagagcggatgaagagaatagaagagggtattaaagaactgggcagccagatcttaaaggagcatcctgtggaaaatacccaattgcagaacgagaaactttacctctattacctacaaaatggaagggacatgtatgttgatcaggaactggacataaaccgtttatctgattacgacgtcgatcacattgtaccccaatcctttttgaaggacgattcaatcgacaataaagtgcttacacgctcggataagaaccgagggaaaagtgacaatgttccaagcgaggaagtcgtaaagaaaatgaagaactattggcggcagctcctaaatgcgaaactgataacgcaaagaaagttcgataacttaactaaagctgagaggggtggcttgtctgaacttgacaaggccggatttattaaacgtcagctcgtggaaacccgccaaatcacaaagcatgttgcacagatactagattcccgaatgaatacgaaatacgacgagaacgataagctgattcgggaagtcaaagtaatcactttaaagtcaaaattggtgtcggacttcagaaaggattttcaattctataaagttagggagataaataactaccaccatgcgcacgacgcttatcttaatgccgtcgtagggaccgcactcattaagaaatacccgaagctagaaagtgagtttgtgtatggtgattacaaagtttatgacgtccgtaagatgatcgcgaaaagcgaacaggagataggcaaggctacagccaaatacttcttttattctaacattatgaatttctttaagacggaaatcactctggcaaacggagagatacgcaaacgacctttaattgaaaccaatggggagacaggtgaaatcgtatgggataagggccgggacttcgcgacggtgagaaaagttttgtccatgccccaagtcaacatagtaaagaaaactgaggtgcagaccggagggttttcaaaggaatcgattcttccaaaaaggaatagtgataagctcatcgctcgtaaaaaggactgggacccgaaaaagtacggtggcttcgatagccctacagttgcctattctgtcctagtagtggcaaaagttgagaagggaaaatccaagaaactgaagtcagtcaaagaattattggggataacgattatggagcgctcgtcttttgaaaagaaccccatcgacttccttgaggcgaaaggttacaaggaagtaaaaaaggatctcataattaaactaccaaagtatagtctgtttgagttagaaaatggccgaaaacggatgttggctagcgccggagagcttcaaaaggggaacgaactcgcactaccgtctaaatacgtgaatttcctgtatttagcgtcccattacgagaagttgaaaggttcacctgaagataacgaacagaagcaactttttgttgagcagcacaaacattatctcgacgaaatcatagagcaaatttcggaattcagtaagagagtcatcctagctgatgccaatctggacaaagtattaagcgcatacaacaagcacagggataaacccatacgtgagcaggcggaaaatattatccatttgtttactcttaccaacctcggcgctccagccgcattcaagtattttgacacaacgatagatcgcaaacgatacacttctaccaaggaggtgctagacgcgacactgattcaccaatccatcacgggattatatgaaactcggatagatttgtcacagcttgggggtgactctggtggttctggaggatctggtggttctactaatctgtcagatattattgaaaaggagaccggtaagcaactggttatccaggaatccatcctcatgctcccagaggaggtggaagaagtcattgggaacaagccggaaagcgatatactcgtgcacaccgcctacgacgagagcaccgacgagaatgtcatgcttctgactagcgacgcccctgaatacaagccttgggctctggtcatacaggatagcaacggtgagaacaagattaagatgctctctggtggttctggaggatctggtggttctactaatctgtcagatattattgaaaaggagaccggtaagcaactggttatccaggaatccatcctcatgctcccagaggaggtggaagaagtcattgggaacaagccggaaagcgatatactcgtgcacaccgcctacgacgagagcaccgacgagaatgtcatgcttctgactagcgacgcccctgaatacaagccttgggctctggtcatacaggatagcaacggtgagaacaagattaagatgctctctggtggttctAAAAGGACGGCGGACGGATCAGAGTTCGAGAGTCCGAAAAAAAAACGAAAGGTCGAAtaa
BE4密码子优化1核酸序列:
ATGTCATCCGAAACCGGGCCAGTGGCCGTAGACCCAACACTCAGGAGGCGGATAGAACCCCATGAGTTTGAAGTGTTCTTCGACCCCAGAGAGCTGCGCAAAGAGACTTGCCTCCTGTATGAAATAAATTGGGGGGGTCGCCATTCAATTTGGAGGCACACTAGCCAGAATACTAACAAACACGTGGAGGTAAATTTTATCGAGAAGTTTACCACCGAAAGATACTTTTGCCCCAATACACGGTGTTCAATTACCTGGTTTCTGTCATGGAGTCCATGTGGAGAATGTAGTAGAGCGATAACTGAGTTCCTGTCTCGATATCCTCACGTCACGTTGTTTATATACATCGCTCGGCTTTATCACCATGCGGACCCGCGGAACAGGCAAGGTCTTCGGGACCTCATATCCTCTGGGGTGACCATCCAGATAATGACGGAGCAAGAGAGCGGATACTGCTGGCGAAACTTTGTTAACTACAGCCCAAGCAATGAGGCACACTGGCCTAGATATCCGCATCTCTGGGTTCGACTGTATGTCCTTGAACTGTACTGCATAATTCTGGGACTTCCGCCATGCTTGAACATTCTGCGGCGGAAACAACCACAGCTGACCTTTTTCACGATTGCTCTCCAAAGTTGTCACTACCAGCGATTGCCACCCCACATCTTGTGGGCTACTGGACTCAAGTCTGGAGGAAGTTCAGGCGGAAGCAGCGGGTCTGAAACGCCCGGAACCTCAGAGAGCGCAACGCCCGAAAGCTCTGGAGGGTCAAGTGGTGGTAGTGATAAGAAATACTCCATCGGCCTCGCCATCGGTACGAATTCTGTCGGTTGGGCCGTTATCACCGATGAGTACAAGGTCCCTTCTAAGAAATTCAAGGTTTTGGGCAATACAGACCGCCATTCTATAAAAAAAAACCTGATCGGCGCCCTTTTGTTTGACAGTGGTGAGACTGCTGAAGCGACTCGCCTGAAGCGAACTGCCAGGAGGCGGTATACGAGGCGAAAAAACCGAATTTGTTACCTCCAGGAGATTTTCTCAAATGAAATGGCCAAGGTAGATGATAGTTTTTTTCACCGCTTGGAAGAAAGTTTTCTCGTTGAGGAGGACAAAAAGCACGAGAGGCACCCAATCTTTGGCAACATAGTCGATGAGGTCGCATACCATGAGAAATATCCTACGATCTATCATCTCCGCAAGAAGCTGGTCGATAGCACGGATAAAGCTGACCTCCGGCTGATCTACCTTGCTCTTGCTCACATGATTAAATTCAGGGGCCATTTCCTGATAGAAGGAGACCTCAATCCCGACAATTCTGATGTCGACAAACTGTTTATTCAGCTCGTTCAGACCTATAATCAACTCTTTGAGGAGAACCCCATCAATGCTTCAGGGGTGGACGCAAAGGCCATTTTGTCCGCGCGCTTGAGTAAATCACGACGCCTCGAGAATTTGATAGCTCAACTGCCGGGTGAGAAGAAAAACGGGTTGTTTGGGAATCTCATAGCGTTGAGTTTGGGACTTACGCCAAACTTTAAGTCTAACTTTGATTTGGCCGAAGATGCCAAATTGCAGCTGTCCAAAGATACCTATGATGACGACTTGGATAACCTTCTTGCGCAGATTGGTGACCAATACGCGGATCTGTTTCTTGCCGCAAAAAATCTGTCCGACGCCATACTCTTGTCCGATATACTGCGCGTCAATACTGAGATAACTAAGGCTCCCCTCAGCGCGTCCATGATTAAAAGATACGATGAGCACCACCAAGATCTCACTCTGTTGAAAGCCCTGGTTCGCCAGCAGCTTCCAGAGAAGTATAAGGAGATATTTTTCGACCAATCTAAAAACGGCTATGCGGGTTACATTGACGGTGGCGCCTCTCAAGAAGAATTCTACAAGTTTATAAAGCCGATACTTGAGAAAATGGACGGTACAGAGGAATTGTTGGTTAAGCTCAATCGCGAGGACTTGTTGAGAAAGCAGCGCACATTTGACAATGGTAGTATTCCACACCAGATTCATCTGGGCGAGTTGCATGCCATTCTTAGAAGACAAGAAGATTTTTATCCGTTTCTGAAAGATAACAGAGAAAAGATTGAAAAGATACTTACCTTTCGCATACCGTATTATGTAGGTCCCCTGGCTAGAGGGAACAGTCGCTTCGCTTGGATGACTCGAAAATCAGAAGAAACAATAACCCCCTGGAATTTTGAAGAAGTGGTAGATAAAGGTGCGAGTGCCCAATCTTTTATTGAGCGGATGACAAATTTTGACAAGAATCTGCCTAACGAAAAGGTGCTTCCCAAGCATTCCCTTTTGTATGAATACTTTACAGTATATAATGAACTGACTAAAGTGAAGTACGTTACCGAGGGGATGCGAAAGCCAGCTTTTCTCAGTGGCGAGCAGAAAAAAGCAATAGTTGACCTGCTGTTCAAGACGAATAGGAAGGTTACCGTCAAACAGCTCAAAGAAGATTACTTTAAAAAGATCGAATGTTTTGATTCAGTTGAGATAAGCGGAGTAGAGGATAGATTTAACGCAAGTCTTGGAACTTATCATGACCTTTTGAAGATCATCAAGGATAAAGATTTTTTGGACAACGAGGAGAATGAAGATATCCTGGAAGATATAGTACTTACCTTGACGCTTTTTGAAGATCGAGAGATGATCGAGGAGCGACTTAAGACGTACGCACATCTCTTTGACGATAAGGTTATGAAACAATTGAAACGCCGGCGGTATACTGGCTGGGGCAGGCTTTCTCGAAAGCTGATTAATGGTATCCGCGATAAGCAGTCTGGAAAGACAATCCTTGACTTTCTGAAAAGTGATGGATTTGCAAATAGAAACTTTATGCAGCTTATACATGATGACTCTTTGACGTTCAAGGAAGACATCCAGAAGGCACAGGTATCCGGCCAAGGGGATAGCCTCCATGAACACATAGCCAACCTGGCCGGCTCACCAGCTATTAAAAAGGGAATATTGCAAACCGTTAAGGTTGTTGACGAACTCGTTAAGGTTATGGGCCGACACAAACCAGAGAATATCGTGATTGAGATGGCTAGGGAGAATCAGACCACTCAAAAAGGTCAGAAAAATTCTCGCGAAAGGATGAAGCGAATTGAAGAGGGAATCAAAGAACTTGGCTCTCAAATTTTGAAAGAGCACCCGGTAGAAAACACTCAGCTGCAGAATGAAAAGCTGTATCTGTATTATCTGCAGAATGGTCGAGATATGTACGTTGATCAGGAGCTGGATATCAATAGGCTCAGTGACTACGATGTCGACCACATCGTTCCTCAATCTTTCCTGAAAGATGACTCTATCGACAACAAAGTGTTGACGCGATCAGATAAGAACCGGGGAAAATCCGACAATGTACCCTCAGAAGAAGTTGTCAAGAAGATGAAAAACTATTGGAGACAATTGCTGAACGCCAAGCTCATAACACAACGCAAGTTCGATAACTTGACGAAAGCCGAAAGAGGTGGGTTGTCAGAATTGGACAAAGCTGGCTTTATTAAGCGCCAATTGGTGGAGACCCGGCAGATTACGAAACACGTAGCACAAATTTTGGATTCACGAATGAATACCAAATACGACGAAAACGACAAATTGATACGCGAGGTGAAAGTGATTACGCTTAAGAGTAAGTTGGTTTCCGATTTCAGGAAGGATTTTCAGTTTTACAAAGTAAGAGAAATAAACAACTACCACCACGCCCATGATGCTTACCTCAACGCGGTAGTTGGCACAGCTCTTATCAAAAAATATCCAAAGCTGGAAAGCGAGTTCGTTTACGGTGACTATAAAGTATACGACGTTCGGAAGATGATAGCCAAATCAGAGCAGGAAATTGGGAAGGCAACCGCAAAATACTTCTTCTATTCAAACATCATGAACTTCTTTAAGACGGAGATTACGCTCGCGAACGGCGAAATACGCAAGAGGCCCCTCATAGAGACTAACGGCGAAACCGGGGAGATCGTATGGGACAAAGGACGGGACTTTGCGACCGTTAGAAAAGTACTTTCAATGCCACAAGTGAATATTGTTAAAAAGACAGAAGTACAAACAGGGGGGTTCAGTAAGGAATCCATTTTGCCCAAGCGGAACAGTGATAAATTGATAGCAAGGAAAAAAGATTGGGACCCTAAGAAGTACGGTGGTTTCGACTCTCCTACCGTTGCATATTCAGTCCTTGTAGTTGCGAAAGTGGAAAAGGGGAAAAGTAAGAAGCTTAAGAGTGTTAAAGAGCTTCTGGGCATAACCATAATGGAACGGTCTAGCTTCGAGAAAAATCCAATTGACTTTCTCGAGGCTAAAGGTTACAAGGAGGTAAAAAAGGACCTGATAATTAAACTCCCAAAGTACAGTCTCTTCGAGTTGGAGAATGGGAGGAAGAGAATGTTGGCATCTGCAGGGGAGCTCCAAAAGGGGAACGAGCTGGCTCTGCCTTCAAAATACGTGAACTTTCTGTACCTGGCCAGCCACTACGAGAAACTCAAGGGTTCTCCTGAGGATAACGAGCAGAAACAGCTGTTTGTAGAGCAGCACAAGCATTACCTGGACGAGATAATTGAGCAAATTAGTGAGTTCTCAAAAAGAGTAATCCTTGCAGACGCGAATCTGGATAAAGTTCTTTCCGCCTATAATAAGCACCGGGACAAGCCTATACGAGAACAAGCCGAGAACATCATTCACCTCTTTACCCTTACTAATCTGGGCGCGCCGGCCGCCTTCAAATACTTCGACACCACGATAGACAGGAAAAGGTATACGAGTACCAAAGAAGTACTTGACGCCACTCTCATCCACCAGTCTATAACAGGGTTGTACGAAACGAGGATAGATTTGTCCCAGCTCGGCGGCGACTCAGGAGGGTCAGGCGGCTCCGGTGGATCAACGAATCTTTCCGACATAATCGAGAAAGAAACCGGCAAACAGTTGGTGATCCAAGAATCAATCCTGATGCTGCCTGAAGAAGTAGAAGAGGTGATTGGCAACAAACCTGAGTCTGACATTCTTGTCCACACCGCGTATGACGAGAGCACGGACGAGAACGTTATGCTTCTCACTAGCGACGCCCCTGAGTATAAACCATGGGCGCTGGTCATCCAAGATTCCAATGGGGAAAACAAGATTAAGATGCTTAGTGGTGGGTCTGGAGGGAGCGGTGGGTCCACGAACCTCAGCGACATTATTGAAAAAGAGACTGGTAAACAACTTGTAATACAAGAGTCTATTCTGATGTTGCCTGAAGAGGTGGAGGAGGTGATTGGGAACAAACCGGAGTCTGATATACTTGTTCATACCGCCTATGACGAATCTACTGATGAGAATGTGATGCTTTTaACGTCAGACGCTCCCGAGTACAAACCCTGGGCTCTGGTGATTCAGGACAGCAATGGTGAGAATAAGATTAAAATGTTGAGTGGGGGCTCAAAGCGCACGGCTGACGGTAGCGAATTTGAGAGCCCCAAAAAAAAACGAAAGGTCGAAtaa
BE4密码子优化2核酸序列:
ATGAGCAGCGAGACAGGCCCTGTGGCTGTGGATCCTACACTGCGGAGAAGAATCGAGCCCCACGAGTTCGAGGTGTTCTTCGACCCCAGAGAGCTGCGGAAAGAGACATGCCTGCTGTACGAGATCAACTGGGGCGGCAGACACTCTATCTGGCGGCACACAAGCCAGAACACCAACAAGCACGTGGAAGTGAACTTTATCGAGAAGTTTACGACCGAGCGGTACTTCTGCCCCAACACCAGATGCAGCATCACCTGGTTTCTGAGCTGGTCCCCTTGCGGCGAGTGCAGCAGAGCCATCACCGAGTTTCTGTCCAGATATCCCCACGTGACCCTGTTCATCTATATCGCCCGGCTGTACCACCACGCCGATCCTAGAAATAGACAGGGACTGCGCGACCTGATCAGCAGCGGAGTGACCATCCAGATCATGACCGAGCAAGAGAGCGGCTACTGCTGGCGGAACTTCGTGAACTACAGCCCCAGCAACGAAGCCCACTGGCCTAGATATCCTCACCTGTGGGTCCGACTGTACGTGCTGGAACTGTACTGCATCATCCTGGGCCTGCCTCCATGCCTGAACATCCTGAGAAGAAAGCAGCCTCAGCTGACCTTCTTCACAATCGCCCTGCAGAGCTGCCACTACCAGAGACTGCCTCCACACATCCTGTGGGCCACCGGACTTAAGAGCGGAGGATCTAGCGGCGGCTCTAGCGGATCTGAGACACCTGGCACAAGCGAGTCTGCCACACCTGAGAGTAGCGGCGGATCTTCTGGCGGCTCCGACAAGAAGTACTCTATCGGACTGGCCATCGGCACCAACTCTGTTGGATGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAATCTGATCGGCGCCCTGCTGTTCGACTCTGGCGAAACAGCCGAAGCCACCAGACTGAAGAGAACCGCCAGGCGGAGATACACCCGGCGGAAGAACCGGATCTGCTACCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGACAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGATGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGAGACTGATCTACCTGGCTCTGGCCCACATGATCAAGTTCCGGGGCCACTTTCTGATCGAGGGCGATCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCTCTGGCGTGGACGCCAAGGCTATCCTGTCTGCCAGACTGAGCAAGAGCAGAAGGCTGGAAAACCTGATCGCCCAGCTGCCTGGCGAGAAGAAGAATGGCCTGTTCGGCAACCTGATTGCCCTGAGCCTGGGACTGACCCCTAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAATCTGCTGGCCCAGATCGGCGATCAGTACGCCGACTTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGATATCCTGAGAGTGAACACCGAGATCACAAAGGCCCCTCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGATCTGACCCTGCTGAAGGCCCTCGTTAGACAGCAGCTGCCAGAGAAGTACAAAGAGATTTTCTTCGATCAGTCCAAGAACGGCTACGCCGGCTACATTGATGGCGGAGCCAGCCAAGAGGAATTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTGGTCAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAATGGCTCTATCCCTCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGAGACAAGAGGACTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCAGGATCCCCTACTACGTGGGACCACTGGCCAGAGGCAATAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACACCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCCAGCGCTCAGTCCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCTAACGAGAAGGTGCTGCCCAAGCACTCCCTGCTGTATGAGTACTTCACCGTGTACAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTTCTGAGCGGCGAGCAGAAAAAGGCCATTGTGGATCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACAGCGTGGAAATCAGCGGCGTGGAAGATCGGTTCAATGCCAGCCTGGGCACATACCACGACCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAACGAAGAGAACGAGGACATTCTCGAGGACATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACATACGCCCACCTGTTCGACGACAAAGTGATGAAGCAACTGAAGCGGAGGCGGTACACAGGCTGGGGCAGACTGTCTCGGAAGCTGATCAACGGCATCCGGGATAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAAGGCGATTCTCTGCACGAGCACATTGCCAACCTGGCCGGATCTCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTTGTGAAAGTGATGGGCAGACACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACACAGAAGGGCCAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGACGGGATATGTACGTGGACCAAGAGCTGGACATCAACCGGCTGAGCGACTACGATGTGGACCATATCGTGCCCCAGAGCTTTCTGAAGGACGACTCCATCGATAACAAGGTCCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGATAACGTGCCCTCCGAAGAGGTGGTCAAGAAGATGAAGAACTACTGGCGACAGCTGCTGAACGCCAAGCTGATTACCCAGCGGAAGTTCGATAACCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTTGATAAGGCCGGCTTCATTAAGCGGCAGCTGGTGGAAACCCGGCAGATCACCAAACACGTGGCACAGATTCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTCATCACCCTGAAGTCTAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTCTACAAAGTGCGGGAAATCAACAACTACCATCACGCCCACGACGCCTACCTGAATGCCGTTGTTGGAACAGCCCTGATCAAGAAGTATCCCAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAACAAGAGATCGGCAAGGCTACCGCCAAGTACTTTTTCTACAGCAACATCATGAACTTTTTCAAGACAGAGATCACCCTGGCCAACGGCGAGATCCGGAAAAGACCCCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCAGAGATTTTGCCACAGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAGAAAACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCTAAGCGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGATAGCCCTACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAAAAGCTCAAGAGCGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTTGAGAAGAACCCGATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTCAAGAAGGACCTCATCATCAAGCTCCCCAAGTACAGCCTGTTCGAGCTGGAAAATGGCCGGAAGCGGATGCTGGCCTCAGCAGGCGAACTGCAGAAAGGCAATGAACTGGCCCTGCCTAGCAAATACGTCAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCAGCCCCGAGGACAATGAGCAAAAGCAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAACCTGGATAAGGTGCTGTCTGCCTATAACAAGCACCGGGACAAGCCTATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAACCTGGGAGCCCCTGCCGCCTTCAAGTACTTCGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACACTGATCCACCAGTCTATCACCGGCCTGTACGAAACCCGGATCGACCTGTCTCAGCTCGGCGGCGATTCTGGTGGTTCTGGCGGAAGTGGCGGATCCACCAATCTGAGCGACATCATCGAAAAAGAGACAGGCAAGCAGCTCGTGATCCAAGAATCCATCCTGATGCTGCCTGAAGAGGTTGAGGAAGTGATCGGCAACAAGCCTGAGTCCGACATCCTGGTGCACACCGCCTACGATGAGAGCACCGATGAGAACGTCATGCTGCTGACAAGCGACGCCCCTGAGTACAAGCCTTGGGCTCTCGTGATTCAGGACAGCAATGGGGAGAACAAGATCAAGATGCTGAGCGGAGGTAGCGGAGGCAGTGGCGGAAGCACAAACCTGTCTGATATCATTGAAAAAGAAACCGGGAAGCAACTGGTCATTCAAGAGTCCATTCTCATGCTCCCGGAAGAAGTCGAGGAAGTCATTGGAAACAAACCCGAGAGCGATATTCTGGTCCACACAGCCTATGACGAGTCTACAGACGAAAACGTGATGCTCCTGACCTCTGACGCTCCCGAGTATAAGCCCTGGGCACTTGTTATCCAGGACTCTAACGGGGAAAACAAAATCAAAATGTTGTCCGGCGGCAGCAAGCGGACAGCCGATGGATCTGAGTTCGAGAGCCCCAAGAAGAAACGGAAGGTgGAGtaa
在一些实施方案中,碱基编辑器是通过将腺苷脱氨酶变体(例如,TadA*8)克隆到包括环状置换Cas9(例如,spCAS9或saCAS9)和二分核定位序列的支架中来产生的(例如,ABE8)。环状置换Cas9s是本领域已知的并且描述于例如Oakes等人,Cell 176,254–267,2019。示例性环状排列如下,其中粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示双核定位序列。
CP5(具有MSP“NGC=带有突变的Pam变体常规Cas9类NGG”PID=蛋白质相互作用结构域和“D10A”切口酶):
Figure BDA0003302413480000401
在一些实施方案中,所述ABE8选自下表7、9、14或15的碱基编辑器。在一些实施方案中,ABE8含有从TadA进化而来的腺苷脱氨酶变体。在一些实施方案中,所述ABE8的腺苷脱氨酶变体是如下表7、9、14或15中所述的TadA*8变体。在一些实施方案中,腺苷脱氨酶变体是包含一个或多个选自Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R的改变的TadA*7.10变体(例如TadA*8)。在各种实施方案中,ABE8包含具有选自以下群组的改变组合的TadA*7.10变体(例如TadA*8):Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。在一些实施例中,ABE8是单体构建体。在一些实施例中,ABE8是异二聚体构建体。在一些实施方案中,所述ABE8包含序列:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTA HAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在一些实施方案中,所述多核苷酸可编程DNA结合结构域是CRISPR相关(例如,Cas或Cpf1)酶。在一些实施方案中,碱基编辑器是与脱氨酶结构域融合的无催化活性的Cas9(dCas9)。在一些实施方案中,碱基编辑器是与脱氨酶结构域融合的Cas9切口酶(nCas9)。国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述碱基编辑器,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA without double-strandedDNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable baseediting of A·T to G·C in genomic DNA without DNA cleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017),和Rees,H.A.,等人,“Base editing:precision chemistry on the genome and transcriptome ofliving cells.”Nat Rev Genet.2018Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容以引用方式并入本文。.
举例来说,用于本文描述的碱基编辑组合物、系统和方法的腺嘌呤碱基编辑器(ABE)具有核酸序列(8877个碱基对),(Addgene,Watertown,MA.;Komor NM等人,2017,SciAdv.,30;3(8):2017Nov 23;551(7681):464-471.doi:10.1038/nature24644;Koblan LW,等人,Nat Biotechnol.2018Oct;36(9):843-846.doi:10.1038/nbt.4172)。如下提供。还包括与ABE核酸序列具有至少95%或更高同一性的多核苷酸序列。
ATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACCATGAAACGGACAGCCGACGGAAGCGAGTTCGAGTCACCAAAGAAGAAGCGGAAAGTCTCTGAAGTCGAGTTTAGCCACGAGTATTGGATGAGGCACGCACTGACCCTGGCAAAGCGAGCATGGGATGAAAGAGAAGTCCCCGTGGGCGCCGTGCTGGTGCACAACAATAGAGTGATCGGAGAGGGATGGAACAGGCCAATCGGCCGCCACGACCCTACCGCACACGCAGAGATCATGGCACTGAGGCAGGGAGGCCTGGTCATGCAGAATTACCGCCTGATCGATGCCACCCTGTATGTGACACTGGAGCCATGCGTGATGTGCGCAGGAGCAATGATCCACAGCAGGATCGGAAGAGTGGTGTTCGGAGCACGGGACGCCAAGACCGGCGCAGCAGGCTCCCTGATGGATGTGCTGCACCACCCCGGCATGAACCACCGGGTGGAGATCACAGAGGGAATCCTGGCAGACGAGTGCGCCGCCCTGCTGAGCGATTTCTTTAGAATGCGGAGACAGGAGATCAAGGCCCAGAAGAAGGCACAGAGCTCCACCGACTCTGGAGGATCTAGCGGAGGATCCTCTGGAAGCGAGACACCAGGCACAAGCGAGTCCGCCACACCAGAGAGCTCCGGCGGCTCCTCCGGAGGATCCTCTGAGGTGGAGTTTTCCCACGAGTACTGGATGAGACATGCCCTGACCCTGGCCAAGAGGGCACGCGATGAGAGGGAGGTGCCTGTGGGAGCCGTGCTGGTGCTGAACAATAGAGTGATCGGCGAGGGCTGGAACAGAGCCATCGGCCTGCACGACCCAACAGCCCATGCCGAAATTATGGCCCTGAGACAGGGCGGCCTGGTCATGCAGAACTACAGACTGATTGACGCCACCCTGTACGTGACATTCGAGCCTTGCGTGATGTGCGCCGGCGCCATGATCCACTCTAGGATCGGCCGCGTGGTGTTTGGCGTGAGGAACGCAAAAACCGGCGCCGCAGGCTCCCTGATGGACGTGCTGCACTACCCCGGCATGAATCACCGCGTCGAAATTACCGAGGGAATCCTGGCAGATGAATGTGCCGCCCTGCTGTGCTATTTCTTTCGGATGCCTAGACAGGTGTTCAATGCTCAGAAGAAGGCCCAGAGCTCCACCGACTCCGGAGGATCTAGCGGAGGCTCCTCTGGCTCTGAGACACCTGGCACAAGCGAGAGCGCAACACCTGAAAGCAGCGGGGGCAGCAGCGGGGGGTCAGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACACTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATC
“碱基编辑活性”是指用于化学改变多核苷酸内的碱基。在一个实施方案中,第一个碱基被转化为第二个碱基。在一个实施方案中,所述碱基编辑活性是胞苷脱氨酶活性,例如将靶标C·G转化为T·A。在另一实施方案中,所述碱基编辑活性是腺苷或腺嘌呤脱氨酶活性,例如将靶标A·T转化为C·G。在另一个实施方案中,所述碱基编辑活性是胞苷脱氨酶活性,例如将靶标C·G转化为T·A和腺苷或腺嘌呤脱氨酶活性,例如将A·T转化为G·C(参见PCT/US2019/044935,PCT/US2020/016288,每篇文献的全部内容通过引用并入本文)。
在一些实施例中,碱基编辑活动通过编辑效率来评估。碱基编辑效率可以通过任何合适的方式来测量,例如,通过桑格(sanger)测序或次世代测序。在一些实施方案中,碱基编辑效率通过具有受碱基编辑器影响的核碱基转化的总测序读数的百分比来测量,例如,具有转化为G.C碱基对的目标A.T碱基对的总测序读数的百分比。在一些实施方案中,当在细胞群中进行碱基编辑时,碱基编辑效率通过具有受碱基编辑器影响的核碱基转化的总细胞的百分比来测量。
术语“碱基编辑器系统”是指用于编辑目标核苷酸序列的核碱基的系统。在各种实施方案中,所述碱基编辑器系统包含(1)多核苷酸可编程核苷酸结合结构域(例如Cas9);(2)用于使所述核碱基脱氨基的脱氨酶结构域(例如腺苷脱氨酶和/或胞苷脱氨酶;参见PCT/US2019/044935、PCT/US2020/016288,其各自通过引用整体并入本文);(3)一种或多种指导多核苷酸(例如引导RNA)。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)。在一些实施方案中,所述碱基编辑器系統是ABE8。
在一些实施方案中,碱基编辑器系统可以包括不止一个碱基编辑组件。例如,碱基编辑器系统可以包括不止一种脱氨酶。在一些实施方案中,碱基编辑器系统可包括一种或多种腺苷脱氨酶。在一些实施方案中,可利用单个引导多核苷酸将不同的脱氨酶靶向靶标核酸序列。在一些实施方案中,可利用一对引导多核苷酸将不同的脱氨酶靶向靶标核酸序列。
碱基编辑器系统的脱氨酶结构域和多核苷酸可编程核苷酸结合组分可以共价或非共价地彼此关联,或其关联和相互作用的任何组合。例如,在一些实施方案中,脱氨酶结构域可以通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是与脱氨酶结构域融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与脱氨酶结构域非共价相互作用或缔合将脱氨酶结构域靶向靶核苷酸序列。例如,在一些实施方案中,脱氨酶结构域可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽接头。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸接头。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
碱基编辑器系统可进一步包含引导多核苷酸组件。应当理解,碱基编辑器系统的组件可以通过共价键、非共价相互作用或其关联和相互作用的任何组合彼此关联。在一些实施方案中,脱氨酶结构域可以通过引导多核苷酸靶向靶标核苷酸序列。例如,在一些实施方案中,所述脱氨酶结构域可包含能够与引导多核苷酸的一部分或区段(例如,多核苷酸基序)相互作用、缔合或能够与其形成复合物的另外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)。在一些实施方案中,所述额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与脱氨酶结构域融合或连接。在一些实施方案中,所述额外的异源部分可能能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽接头。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸接头。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施例中,碱基编辑器系统可进一步包含碱基切除修复(BER)组分的抑制剂。应当理解,碱基编辑器系统的组件可以通过共价键、非共价相互作用或其关联和相互作用的任何组合彼此关联。BER组分的抑制剂可以包括BER抑制剂。在一些实施例中,BER的抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施例中,BER的抑制剂可以是肌苷BER糖基化酶抑制剂。在一些实施方案中,BER的抑制剂可以通过所述多核苷酸可编程核苷酸结合结构域靶向所述靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与BER的抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域和BER的抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与BER的抑制剂非共价相互作用或缔合将BER的抑制剂靶向靶标核苷酸序列。例如,在一些实施方案中,BER的抑制剂可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、缔合或形成复合物。
在一些实施方案中,BER的抑制剂可以通过所述引导多核苷酸靶向所述靶标核苷酸序列。例如,在一些实施方案中,所述BER的抑制剂可包含能够与引导多核苷酸的一部分或区段(例如,多核苷酸基序)相互作用、缔合或能够与其形成复合物的另外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)。在一些实施方案中,所述引导多核苷酸的额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与BER的抑制剂融合或连接。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽接头。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸接头。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
术语“Cas9”或“Cas9结构域”是指RNA引导的核酸酶,其包含Cas9蛋白或其片段(例如,包含Cas9的活性、无活性或部分活性的DNA切割结构域的蛋白,和/或gRNA Cas9的结合结构域)。Cas9核酸酶有时也称为Casnl核酸酶或CRISPR(成簇的规则间隔短回文重复序列)相关核酸酶。CRISPR是一种适应性免疫系统,可针对移动遗传元件(病毒、转座元件和接合质粒)提供保护。CRISPR簇包含间隔子、与先行移动元件互补的序列和靶标入侵核酸。CRISPR簇被转录并加工成CRISPR RNA(crRNA)。在第II型CRISPR系统中,正确处理pre-crRNA需要转编码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA作为核糖核酸酶3辅助处理pre-crRNA的引导。随后,Cas9/crRNA/tracrRNA核酸内切切割与间隔子互补的线性或环状dsDNA靶标。与crRNA不互补的靶标链首先通过核酸内切方式切割,然后通过核酸外切方式修剪3′-5'。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,可以对单引导RNA(“sgRNA”,或简称为“gRNA”)进行工程改造,以便将crRNA和tracrRNA的各个方面整合到单个RNA种类中。参见,如Jinek M.,Chylinski K.,FonfaraI.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012),其全部内容在此引入作为参考。Cas9识别CRISPR重复序列(PAM或原型间隔子相邻基序)中的一个短基序,以帮助区分自我与非自我。Cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,如“Complete genome sequence of an M1 strain of Streptococcus pyogenes.”Ferrettiet al.,J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C.,SezateS.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,NajarF.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlinR.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturationbytrans-encoded small RNA and host factor RNase III.”Deltcheva E.,ChylinskiK.,Sharma C.M.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature 471:602-607(2011);和“A programmable dual-RNA-guided DNAendonuclease in adaptivebacterial immunity.”Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012),其每一个的全部内容在此引入作为参考。Cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的Cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski,Rhun,and Charpentier,“The tracrRNA and Cas9 families of type II CRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737中公开的生物体和基因座的Cas9序列;其全部内容在此引入作为参考。
示例性的Cas9是化脓性链球菌Cas9(spCas9),其氨基酸序列提供如下:
Figure BDA0003302413480000501
(单底线:HNH结构域;双底线:RuvC结构域)
核酸酶失活的Cas9蛋白可互换地称为“dCas9”蛋白(对于核酸酶-“死的”Cas9)或催化失活的Cas9。用于产生具有无活性DNA切割结构域的Cas9蛋白(或其片段)的方法是已知的(参见,如Jinek et al.,Science.337:816-821(2012);Qi等人“Repurposing CRISPRas an RNA-Guided Platform for Sequence-Specific Control of Gene Expression”(2013)Cell.28;152(5):1173-83,其全部内容以引用方式并入本文)。例如,已知Cas9的DNA切割结构域包括两个子结构域,HNH核酸酶子结构域和RuvC1子结构域。HNH子结构域切割与gRNA互补的链,而RuvC1子结构域切割非互补链。这些子结构域内的突变可以使Cas9的核酸酶活性静默。例如,突变D10A和H840A使化脓性链球菌Cas9的核酸酶活性完全失活(Jineket al.,Science.337:816-821(2012);Qi等人,Cell.28:152(5):1173-83(2013))。在一些实施方案中,Cas9核酸酶具有无活性(例如,失活的)DNA切割结构域,即,Cas9是切口酶,称为“nCas9”蛋白(对于“切口酶”Cas9)。在一些实施方案中,提供包含Cas9片段的蛋白。例如,在一些实施例中,蛋白包含两个Cas9结构域之一:(1)Cas9的gRNA结合结构域;或(2)Cas9的DNA切割结构域。在一些实施方案中,包含Cas9或其片段的蛋白被称为“Cas9变体”。Cas9变体与Cas9或其片段具有同源性。例如,Cas9变体与野生型Cas9至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,与野生型Cas9相比,Cas9变体可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的氨基酸变化。在一些实施例中,Cas9变体包含Cas9的片段(例如,gRNA结合结构域或DNA切割结构域),使得该片段与野生型Cas9的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,所述片段是至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%相应野生型Cas9的氨基酸长度。
在一些实施例中,所述片段的长度为至少100个氨基酸。在一些实施方案中,所述片段的长度为至少100、150、200、250、300、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或1300个氨基酸。
在一些实施例中,野生型Cas9对应于来自化脓性链球菌的Cas9(NCBI参考序列:NC_017053.1,核苷酸和氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003302413480000541
Figure BDA0003302413480000551
(单底线:HNH结构域;双底线:RuvC结构域)
在一些实施方案中,野生型Cas9对应于或包含以下核苷酸和/或氨基酸序列:
ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA
Figure BDA0003302413480000571
Figure BDA0003302413480000581
(单底线:HNH结构域;双底线:RuvC结构域)
在一些实施例中,野生型Cas9对应于来自化脓性链球菌的Cas9(NCBI参考序列:NC_002737.2(核苷酸序列如下);和Uniprot参考序列:Q99ZW2(氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003302413480000601
Figure BDA0003302413480000611
Figure BDA0003302413480000612
单底线:HNH结构域;双底线:RuvC结构域)
在一些实施方案中,Cas9是指来自以下的Cas9:溃疡棒状杆菌(Corynebacteriumulcerans)(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);螺旋原体(Spiroplasmasyrphidicola)(NCBI Refs:NC_021284.1);中间普氏菌(Prevotella intermedia)(NCBIRef:NC_017861.1);中国台湾螺旋体(Spiroplasma taiwanense,China)(NCBI Refs:NC_021846.1);链球菌(Streptococcus iniae)(NCBI Refs:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Refs:NC_018010.1);扭曲冷弯曲菌(PsychroflexustorquisI)(NCBI Refs:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBIRefs:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Refs:NP_472073.1);曲状杆菌(Campylobacter jejuni)(NCBI Refs:YP_002344900.1);脑膜炎双球菌(Neisseriameningitidis)(NCBI Refs:YP_002342100.1)或来自任何其他生物体的Cas9。
在一些实施方案中,Cas9来自脑膜炎双球菌(Nme)。在一些实施方案中,所述Cas9是Nme1、Nme2或Nme3。在一些实施例中,Nme1、Nme2或Nme3的PAM相互作用結構域分别是N4GAT、N4CC和N4CAAA(参见,如Edraki,A.等人,A Compact,High-Accuracy Cas9 withaDinucleotide PAM for In Vivo Genome Editing,Molecular Cell(2018))。示例性脑膜炎双球菌Cas9蛋白Nme1Cas9,(NCBI参考:WP_002235162.1;第II型CRISPR RNA引导的核酸内切酶Cas9)具有以下氨基酸序列:
Figure BDA0003302413480000621
另一示例性脑膜炎双球菌Cas9蛋白Nme2Cas9,(NCBI参考:WP_002230835;第II型CRISPR RNA引导的核酸内切酶Cas9)具有以下氨基酸序列:
Figure BDA0003302413480000622
Figure BDA0003302413480000631
在一些实施方案中,dCas9对应于或部分或全部包含具有一个或多个使Cas9核酸酶活性失活的突变的Cas9氨基酸序列。例如,在一些实施方案中,dCas9结构域包含D10A和H840A突变或另一个Cas9中的相应突变。在一些实施例中,dCas9包含dCas9(D10A和H840A)的氨基酸序列:
Figure BDA0003302413480000632
Figure BDA0003302413480000641
(单底线:HNH结构域;双底线:RuvC结构域)。
在一些实施方案中,所述Cas9结构域包含D10A突变,而840位的残基在上文提供的氨基酸序列中或在本文提供的任何氨基酸序列中的相应位置处仍为组氨酸
在其他实施方案中,提供具有除D10A和H840A之外的突变的dCas9变体,其例如导致核酸酶失活的Cas9(dCas9)。例如,此类突变包括在D10和H840处的其他氨基酸置换,或Cas9核酸酶域内的其他置换(例如,HNH核酸酶亚域和/或RuvC1亚域中的置换)。在一些实施例中,提供dCas9的变体或同源物,其至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供具有较短或较长约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方案中,本文提供的Cas9融合蛋白包含Cas9蛋白的全长氨基酸序列,例如本文提供的Cas9序列之一。然而,在其他实施方案中,本文提供的融合蛋白不包含全长Cas9序列,而仅包含其一个或多个片段。本文提供合适的Cas9结构域和Cas9片段的示例性氨基酸序列,并且Cas9结构域和片段的其他合适的序列对本领域技术人员来说是显而易见的。
应当理解,额外的Cas9蛋白(例如,核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9),包括其变体和同系物,在本公开内容的范围内。示例性的Cas9蛋白包括但不限于以下提供的那些。在一些实施方案中,所述Cas9蛋白是核酸酶无活性的Cas9(dCas9)。在一些实施方案中,所述Cas9蛋白是一种Cas9切口酶(nCas9)。在一些实施方案中,所述Cas9蛋白是一种具有核酸酶活性的Cas9。
示例性无催化活性的Cas9(dCas9):
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性催化活性的Cas9切口酶(nCas9):
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性催化活性的Cas9:
DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.
在一些实施方案中,Cas9是指来自古细菌(例如纳米古细菌)的Cas9,其构成单细胞原核微生物的域和界。在一些实施例中,Cas9是指CasX或CasY,其已被描述在例如,Burstein等人,"New CRISPR-Cas systems from uncultivated microbes."CellRes.2017Feb 21.doi:10.1038/cr.2017.21,其全部内容以引用方式并入本文。使用基因组解析的宏基因组学,确定了许多CRISPR-Cas系统,包括在古细菌领域首次报道的Cas9。这种发散的Cas9蛋白在很少被研究的纳米古细菌中被发现,作为活性CRISPR-Cas系统的一部分。在细菌中,发现了两个以前未知的系统,CRISPR-CasX和CRISPR-CasY,它们是迄今为止发现的最紧凑的系统之一。在一些实施例中,Cas9是指CasX,或CasX的变体。在一些实施例中,Cas9是指CasY,或CasY的变体。应当理解,其他RNA引导的DNA结合蛋白可以用作核酸可编程DNA结合蛋白(napDNAbp),并且在本公开的范围内。
在特定的实施方案中,可用于本公开的方法中的napDNAbps包括本领域已知的并且描述的环状置换物,例如由Oakes等人,Cell 176,254–267,2019。示例性环状置换如下,其中粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示双核定位,
CP5(具有MSP“NGC=带有突变的Pam变体常规Cas9类NGG”PID=蛋白质相互作用结构域和“D10A”切口酶):
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV*
可并入碱基编辑器的多核苷酸可编程核苷酸结合结构域的非限制性实例包括CRISPR蛋白衍生结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是CasX或CasY蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的CasX或CasY蛋白相同。在一些实施方案中,napDNAbp是天然存在的CasX或CasY蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何CasX或CasY蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12b/C2c1、CasX和CasY。
Cas12b/C2c1(uniprot.org/uniprot/T0D7A2#2)
sp|T0D7A2|C2C1_ALIAG CRISPR-相关核酸内切酶C2c1 OS=酸土脂环酸芽孢杆菌(菌株ATCC 49025/DSM 3922/CIP 106132/NCIMB 13137/GD3B)GN=c2c1 PE=1SV=1
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMV NQRIEGYLVKQIRSRVPLQDSACENTGDI
CasX
(uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)
>tr|F0NN87|F0NN87_SULIH CRISPR-相关Casx蛋白OS=冰岛硫化叶菌(Sulfolobus islandicus)(strain HVE10/4)GN=SiH_0402PE=4SV=1
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTG SKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG
>tr|F0NH53|F0NH53_SULIR CRISPR相关蛋白,Casx OS=冰岛硫化叶菌(Sulfolobus islandicus)(菌株REY15A)GN=SiRe_0771PE=4SV=1
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG
Delta變形菌CasX
MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
CasY(ncbi.nlm.nih.gov/蛋白/APG80656.1)
>APG80656.1 CRISPR-相关蛋白CasY[未培养的俭菌(Parcubacteria)菌群]
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI
术语“Cas12”或“Cas12结构域”是指RNA引导的核酸酶,其包含Cas12蛋白或其片段(例如,包含Cas12的活性、无活性或部分活性的DNA切割结构域的蛋白,和/或gRNA Cas12的结合结构域)。Cas12属于2类V型CRISPR/Cas系统。Cas12核酸酶有时也称为CRISPR(成簇的规则间隔短回文重复序列)相关核酸酶。下面提供示例性外村尚芽孢杆菌Cas 12b(BhCas12b)Cas 12结构域的序列:
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK.
与BhCas12b氨基酸序列具有至少85%或更高同一性的氨基酸序列也可用于本公开内容的方法。
术语“保守氨基酸置换”或“保守突变”是指一个氨基酸被具有共同特性的另一个氨基酸置换。定义单个氨基酸之间共同特性的一种功能方法是分析同源生物的相应蛋白质之间氨基酸变化的标准化频率(Schulz,G.E.and Schirmer,R.H.,Principles of ProteinStructure,Springer-Verlag,New York(1979))。根据这样的分析,可以定义氨基酸组,其中组内的氨基酸优先相互交换,因此在它们对整体蛋白质结构的影响方面彼此最相似(Schulz,G.E.and Schirmer,R.H.,supra)。保守突变的非限制性实例包括氨基酸的氨基酸置换,例如精氨酸的赖氨酸和反之亦然,从而可以保持正电荷;谷氨酸对天冬氨酸,反之亦然,以保持负电荷;苏氨酸的丝氨酸,这样可以保持一个游离的-OH;和谷氨酰胺用于天冬酰胺,这样可以保持游离的-NH2
如本文可互换使用的术语“编码序列”或“蛋白质编码序列”是指编码蛋白质的多核苷酸片段。该区域或序列在靠近5'端的地方有一个起始密码子,在靠近3'端的地方有一个终止密码子。编码序列也可称为开放阅读框。
“胞苷脱氨酶”是指能够催化将氨基转化为羰基的脱氨基反应的多肽或其片段。在一个实施方案中,胞苷脱氨酶将胞嘧啶转化为尿嘧啶或将5-甲基胞嘧啶转化为胸腺嘧啶。PmCDA1源自海七鳃鳗(Petromyzon marinus胞嘧啶脱氨酶1),或源自哺乳动物(例如,人、猪、牛、马、猴等)的AID(活化诱导胞苷脱氨酶;AICDA)和APOBEC是示例性胞苷脱氨酶。
如本文所用,术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨反应的蛋白质或酶。在一些实施方案中,脱氨酶是腺苷脱氨酶,其催化腺嘌呤水解脱氨为次黄嘌呤。在一些实施方案中,所述腺苷脱氨酶催化腺苷或腺嘌呤(A)水解脱氨基为肌苷(I)。在一些实施方案中,所述脱氨酶或脱氨酶结构域是分别催化腺苷或脱氧腺苷水解脱氨基为肌苷或脱氧肌苷的腺苷脱氨酶。在一些实施方案中,所述腺苷脱氨酶催化脱氧核糖核酸(DNA)中腺苷的水解脱氨。本文提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可来自任何生物体,例如细菌。在一些实施方案中,所述腺苷脱氨酶来自细菌,例如大肠杆菌、金黄色葡萄球菌、鼠伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、新月柄杆菌。
在一些实施方案中,所述腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,所述TadA脱氨酶是TadA变体。在一些实施方案中,所述TadA变体是TadA*8。在一些实施方案中,所述脱氨酶或脱氨酶结构域是来自生物体例如人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然存在的脱氨酶的变体。在一些实施方案中,所述脱氨酶或脱氨酶结构域不存在于自然界。例如,在一些实施例中,所述脱氨酶或脱氨酶结构域为至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%或至少99.9%与天然存在的脱氨酶相同。例如,国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述脱氨酶结构域,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),和Rees,H.A.,等人,“Base editing:precision chemistry on thegenome and transcriptome of living cells.”Nat Rev Genet.2018Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容以引用方式并入本文。.
“检测”是指鉴定待检测分析物的存在、不存在或量。在一个实施方案中,检测多核苷酸或多肽中的序列改变。在另一个实施方案中,检测插入缺失的存在。
“可检测标记”是指一种组合物,当与感兴趣的分子连接时,通过光谱、光化学、生物化学、免疫化学或化学手段使后者可检测。例如,有用的标记包括放射性同位素、磁珠、金属珠、胶体颗粒、荧光染料、电子致密试剂、酶(例如,通常用于ELISA)、生物素、地高辛或半抗原。
“疾病”是指损害或干扰细胞、组织或器官的正常功能的任何病症或病症。
如本文所用,术语“有效量”是指足以引发所需生物反应的生物活性剂的量。用于实践本公开内容以治疗疾病的活性剂的有效量根据给药方式、受试者的年龄、体重和一般健康而变化。最终,主治医师或兽医将决定适当的量和剂量方案。这种量被称为“有效”量。在一个实施方案中,有效量是足以在细胞中的感兴趣基因中引入改变的本公开的碱基编辑器(例如,包含可编程DNA结合蛋白、核碱基编辑器和gRNA的融合蛋白)的量。例如,体外或体内细胞)。在一个实施方案中,有效量是实现治疗效果(例如,减轻或控制疾病或其症状或病症)所需的碱基编辑器的量。这种治疗效果不需要足以改变受试者、组织或器官的所有细胞中的感兴趣基因,而仅改变存在于受试者、组织或器官中的细胞的约1%、5%、10%、25%、50%、75%的感兴趣基因或更多。
“片段”是指多肽或核酸分子的一部分。该部分包含参考核酸分子或多肽全长的至少约10%、20%、30%、40%、50%、60%、70%、80%或90%。片段可包含10、20、30、40、50、60、70、80、90或100、200、300、400、500、600、700、800、900或1000个核苷酸或氨基酸。
“引导RNA”或“gRNA”是指可以特异于靶标序列并且可以与多核苷酸可编程核苷酸结合结构域蛋白(例如Cas9或Cpf1)形成复合物的多核苷酸。在一个实施方案中,引导多核苷酸是引导RNA(gRNA)。gRNA可以作为两个或多个RNA的复合物存在,也可以作为单个RNA分子存在。以单个RNA分子形式存在的gRNA可称为单引导RNA(sgRNA),但“gRNA”可互换使用,指以单个分子或两个或多个分子的复合体形式存在的引导RNA。通常,作为单一RNA种类存在的gRNA包含两个结构域:(1)与靶标核酸具有同源性的结构域(例如,指导Cas9复合物与靶标的结合);(2)结合Cas9蛋白的结构域。在一些实施方案中,结构域(2)对应于称为tracrRNA的序列,并且包含茎-环结构。例如,在一些实施方案中,结构域(2)与Jinek等人,Science337:816-821(2012)中提供的tracrRNA相同或同源,该文献的全部内容通过引用并入本文。gRNA的其他示例(例如,包括结构域2的那些)可以在美国临时专利申请,U.S.S.N.61/874,682,于2013年9月6日提交,题为“Switchable Cas9 Nucleases and UsesThereof”,以及美国临时专利申请,U.S.S.N.61/874,746,2013年9月6日提交,名称为“Delivery System For Functional Nucleases”中找到,每个的全部内容通过引用整体并入本文。在一些实施例中,gRNA包含结构域(1)和(2)中的两个或更多个,并且可以被称为“延伸的gRNA”。如本文所述,延伸的gRNA将结合两个或更多个Cas9蛋白并在两个或更多个不同区域结合靶核酸。gRNA包含与靶标位点互补的核苷酸序列,其介导核酸酶/RNA复合物与所述靶标位点的结合,提供核酸酶:RNA复合物的序列特异性。
“异二聚体”是指包含两个结构域的融合蛋白,例如野生型TadA结构域和TadA结构域的变体(例如,TadA*8)或两个变体的TadA结构域(例如,TadA*7.10和TadA*8或两个TadA*8域)。
“杂交”是指互补核碱基之间的氢键,其可以是Watson-Crick、Hoogsteen或反向Hoogsteen氢键。例如,腺嘌呤和胸腺嘧啶是互补的核碱基,它们通过形成氢键配对。
术语“碱基修复抑制剂”或“IBR”是指能够抑制核酸修复酶例如碱基切除修复(BER)酶的活性的蛋白。在一些实施方案中,所述IBR是肌苷碱基切除修复的抑制剂。碱基修复的示例性抑制剂包括APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGG1、hNEIL1、T7 Endol、T4PDG、UDG、hSMUG1和hAAG的抑制剂。在一些实施方案中,所述IBR是Endo V或hAAG的抑制剂。在一些实施方案中,所述IBR是无催化活性的EndoV或无催化活性的hAAG。在一些实施方案中,所述碱基修复抑制剂是Endo V或hAAG.的抑制剂。在一些实施方案中,所述碱基修复抑制剂是无催化活性的EndoV或无催化活性的hAAG。
在一些实施方案中,所述碱基修复抑制剂是尿嘧啶糖基化酶抑制剂(UGI)。UGI是指能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的蛋白质。在一些实施方案中,UGI结构域包含野生型UGI或野生型UGI的片段。在一些实施方案中,本文提供的UGI蛋白质包括UGI的片段和与UGI或UGI片段同源的蛋白。在一些实施方案中,所述碱基修复抑制剂是肌苷碱基切除修复的抑制剂。在一些实施方案中,所述碱基修复抑制剂是无催化活性的肌苷特异性核酸酶”或“死肌苷特异性核酸酶”。不希望受任何特定理论的束缚,无催化活性的肌苷糖基化酶(例如,烷基腺嘌呤糖基化酶(AAG))可以结合肌苷,但不能产生缺碱基位点或去除肌苷,从而在空间上阻断新形成的肌苷部分免受DNA损伤/修复机制。在一些实施方案中,无催化活性的肌苷特异性核酸酶能够结合核酸中的肌苷但不切割核酸。非限制性示例性无催化活性肌苷特异性核酸酶包括无催化活性烷基腺苷糖基化酶(AAG核酸酶),例如来自人,和无催化活性内切核酸酶V(EndoV核酸酶),例如来自大肠杆菌。在一些实施方案中,无催化活性的AAG核酸酶包含E125Q突变或另一种AAG核酸酶中的相应突变。
“增加”是指至少10%、25%、50%、75%或100%的正变化。
“內含子(intein)”是一种蛋白质片段,它能够自我切除并在称为蛋白质剪接的过程中用肽键连接剩余的片段(外显子(extein))。內含子也称为“蛋白质内含子”。內含子自身切除并连接蛋白质剩余部分的过程在本文中称为“蛋白质剪接”或“內含子介导的蛋白质剪接”。在一些实施方案中,前体蛋白的內含子(在內含子介导的蛋白剪接之前含有內含子的蛋白)来自两个基因。这种內含子在本文中被称为分裂內含子(例如,分裂內含子-N和分裂內含子-C)。例如,在藍綠藻(cyanobacteria)中,DNA聚合酶III的催化亚基a的DnaE由两个独立的基因dnaE-n和dnaE-c编码。由dnaE-n基因编码的內含子在本文中可称为“內含子-N”。由dnaE-c基因编码的內含子在本文中可称为“內含子-C”。
也可以使用其他內含子系统。例如,已经描述基于dnaE內含子、Cfa-N(例如,分裂的內含子-N)和Cfa-C(例如,分裂的內含子-C)內含子对的合成內含子(例如,在Stevens等人,J Am Chem Soc.2016Feb.24;138(7):2162-5,以引用方式并入本文)。可根据本公开使用的內含子对的非限制性实例包括:Cfa DnaE內含子、Ssp GyrB內含子、Ssp DnaX內含子、Ter DnaE3內含子、Ter ThyX內含子、Rma DnaB內含子和Cne Prp8內含子(例如,如美国专利号8,394,604中所述,通过引用并入本文。
提供內含子的示例性核苷酸和氨基酸序列。
DnaE內含子-N DNA:
TGCCTGTCATACGAAACCGAGATACTGACAGTAGAATATGGCCTTCTGCCAATCGGGAAGATTGTGGAGAAACGGATAGAATGCACAGTTTACTCTGTCGATAACAATGGTAACATTTATACTCAGCCAGTTGCCCAGTGGCACGACCGGGGAGAGCAGGAAGTATTCGAATACTGTCTGGAGGATGGAAGTCTCATTAGGGCCACTAAGGACCACAAATTTATGACAGTCGATGGCCAGATGCTGCCTATAGACGAAATCTTTGAGCGAGAGTTGGACCTCATGCGAGTTGACAACCTTCCTAAT
DnaE內含子-N蛋白:
CLSYETEILTVEYGLLPIGKIVEKRIECTVYSVDNNGNIYTQPVAQWHDRGEQEVFEYCLEDGSLIRATKDHKFMTVDGQMLPIDEIFERELDLMRVDNLPN
DnaE內含子-C DNA:
ATGATCAAGATAGCTACAAGGAAGTATCTTGGCAAACAAAACGTTTATGATATTGGAGTCGAAAGAGATCACAACTTTGCTCTGAAGAACGGATTCATAGCTTCTAAT
內含子-C:MIKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN
Cfa-N DNA:
TGCCTGTCTTATGATACCGAGATACTTACCGTTGAATATGGCTTCTTGCCTATTGGAAAGATTGTCGAAGAGAGAATTGAATGCACAGTATATACTGTAGACAAGAATGGTTTCGTTTACACACAGCCCATTGCTCAATGGCACAATCGCGGCGAACAAGAAGTATTTGAGTACTGTCTCGAGGATGGAAGCATCATACGAGCAACTAAAGATCATAAATTCATGACCACTGACGGGCAGATGTTGCCAATAGATGAGATATTCGAGCGGGGCTTGGATCTCAAACAAGTGGATGGATTGCCA
Cfa-N蛋白:
CLSYDTEILTVEYGFLPIGKIVEERIECTVYTVDKNGFVYTQPIAQWHNRGEQEVFEYCLEDGSIIRATKDHKFMTTDGQMLPIDEIFERGLDLKQVDGLP
Cfa-C DNA:
ATGAAGAGGACTGCCGATGGATCAGAGTTTGAATCTCCCAAGAAGAAGAGGAAAGTAAAGATAATATCTCGAAAAAGTCTTGGTACCCAAAATGTCTATGATATTGGAGTGGAGAAAGATCACAACTTCCTTCTCAAGAACGGTCTCGTAGCCAGCAAC
Cfa-C蛋白:
MKRTADGSEFESPKKKRKVKIISRKSLGTQNVYDIGVEKDHNFLLKNGLVASN
內含子-N和內含子-C可以分别融合到分裂Cas9的N端部分和分裂Cas9的C端部分,用于连接分裂Cas9的N端部分和分裂Cas9的C端部分。例如,在一些实施方案中,內含子-N融合到分裂Cas9的N末端部分的C末端,即形成N--[分裂Cas9的N端部分]-[內含子-N]--C的结构。在一些实施方案中,內含子-C融合到分裂Cas9的C末端部分的N末端,即形成N-[內含子-C]--[分裂Cas9的C末端部分]-C的结构。內含子介导的蛋白剪接机制用于连接內含子融合到的蛋白(例如,分裂的Cas9)是本领域已知的,例如,如Shah等人,Chem Sci.2014;5(1):446-461,以引用方式并入本文。用于设计和使用內含子的方法是本领域已知的并且描述于例如WO2014004336、WO2017132580、US20150344549和US20180127780,它们各自通过引用整体并入本文。
术语“分离的”、“纯化的”或“生物学纯的”是指材料在不同程度上不含在其天然状态下通常伴随的组分。“分离”表示与原始来源或周围环境的分离程度。“纯化”表示高于分离的分离程度。“纯化的”或“生物学纯的”蛋白质充分不含其他材料,使得任何杂质不会实质性地影响蛋白质的生物学特性或引起其他不利后果。即,如果本公开的核酸或肽在通过重组DNA技术生产时基本上不含细胞材料、病毒材料或培养基,或者在化学合成时基本上不含化学前体或其他化学品,则该核酸或肽被纯化。纯度和均匀性通常使用分析化学技术确定,例如聚丙烯酰胺凝胶电泳或高效液相色谱。术语“纯化的”可以表示核酸或蛋白质在电泳凝胶中产生基本上一条带。对于可以进行修饰(例如磷酸化或糖基化)的蛋白,不同的修饰可能会产生不同的分离蛋白,这些蛋白可以单独纯化。
“分离的多核苷酸”是指不含基因的核酸(例如,DNA),所述基因在本公开的核酸分子所源自的生物的天然存在的基因组中位于该基因的侧翼。因此,该术语包括,例如,整合到载体中的重组DNA;进入自主复制的质粒或病毒;或进入原核生物或真核生物的基因组DNA;或作为独立于其他序列的独立分子(例如,通过PCR或限制性内切核酸酶消化产生的cDNA或基因组或cDNA片段)存在。此外,该术语包括从DNA分子转录的RNA分子,以及作为编码额外多肽序列的杂合基因的一部分的重组DNA。
“分离的多肽”是指已与天然伴随的组分分离的本公开内容的多肽。通常,当多肽至少60%(重量)不含蛋白和天然存在的有机分子时,多肽就被分离出来。优选地,制备本公开的多肽是至少75重量%,更优选至少90重量%,并且最优选至少99重量%。本公开的分离的多肽可以,例如,通过从天然来源中提取,通过编码这样的多肽的重组核酸的表达;或通过化学合成蛋白质來获得。纯度可以通过任何合适的方法测量,例如柱色谱、聚丙烯酰胺凝胶电泳或通过HPLC分析。
如本文所用,术语“接头”可指共价接头(例如,共价键)、非共价接头、化学基团或连接两个分子或部分(例如,蛋白质复合物或核糖核复合体的两个组分)的分子,或融合蛋白的两个结构域,例如多核苷酸可编程DNA结合结构域(例如,dCas9)和脱氨酶结构域((例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶;参见PCT/US2019/044935、PCT/US2020/016288,它们各自通过引用整体并入本文)。接头可以连接碱基编辑器系统的不同组分或组分的不同部分。例如,在一些实施方案中,接头可以连接多核苷酸可编程核苷酸结合结构域的引导多核苷酸结合结构域和脱氨酶的催化结构域。在一些实施方案中,接头可以连接CRISPR多肽和脱氨酶。在一些实施方案中,接头可以连接Cas9和脱氨酶。在一些实施方案中,接头可以连接dCas9和脱氨酶。在一些实施方案中,接头可以连接nCas9和脱氨酶。在一些实施方案中,接头可以连接引导多核苷酸和脱氨酶。在一些实施方案中,接头可以连接脱氨基组分和碱基编辑器系统的多核苷酸可编程核苷酸结合组分。在一些实施方案中,接头可以连接脱氨基组分的RNA结合部分和碱基编辑器系统的多核苷酸可编程核苷酸结合组分。在一些实施方案中,接头可以连接脱氨基组分的RNA结合部分和碱基编辑器系统的多核苷酸可编程核苷酸结合组分的RNA结合部分。接头可以位于两个基团、分子或其他部分之间或两侧,并通过共价键或非共价相互作用连接到每一个,从而连接这两者。在一些实施例中,接头可以是有机分子、基团、聚合物或化学部分。在一些实施方案中,所述接头可以是多核苷酸。在一些实施方案中,所述接头可以是DNA接头。在一些实施方案中,所述接头可以是RNA接头。在一些实施例中,接头可包含能够结合配体的适体。在一些实施例中,配体可以是碳水化合物、肽、蛋白质或核酸。在一些实施例中,接头可包含可衍生自核糖开关的适体。衍生适体的核糖开关可以选自茶碱核糖开关、焦磷酸硫胺素(TPP)核糖开关、腺苷钴胺素(AdoCbl)核糖开关、S-腺苷甲硫氨酸(SAM)核糖开关、SAH核糖开关、黄素单核苷酸(FMN)核糖开关、四氢叶酸核糖开关、赖氨酸核糖开关、甘氨酸核糖开关、嘌呤核糖开关、GlmS核糖开关或前Q核苷1(pre-queosine1,PreQ1)核糖开关。在一些实施方案中,接头可包含与多肽或蛋白质结构域例如多肽配体结合的适体。在一些实施方案中,所述多肽配体可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。在一些实施方案中,所述多肽配体可以是碱基编辑器系统组分的一部分。例如,核碱基编辑组分可包含脱氨酶结构域和RNA识别基序。
在一些实施方案中,接头可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,所述接头的长度可为约5至100个氨基酸,例如约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20至30、30至40、40至50、50至60、60至70、70至80、80至90或90至100个氨基酸的长度。在一些实施例中,接头的长度可为约100至150、150至200、200至250、250至300、300至350、350至400、400至450或450至500个氨基酸。也可以考虑更长或更短的接头。
在一些实施方案中,接头连接RNA可编程核酸酶的gRNA结合结构域,包括Cas9核酸酶结构域和核酸编辑蛋白(例如腺苷脱氨酶)的催化结构域。在一些实施方案中,接头连接dCas9和核酸编辑蛋白。例如,接头位于两个基团、分子或其他部分之间或两侧,并通过共价键连接到每一个,从而连接这两者。在一些实施方案中,所述接头可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,所述接头是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施例中,所述接头的长度可为约5至200个氨基酸,例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、35、45、50、55、60、60、65、70、70、75、80、85、90、90、95、100、101、102、103、104、105、110、120、130、140、150、160、175、180、190或更多的氨基酸长度。也可考虑更长或更短的接头。
在一些实施方案中,核碱基编辑器的结构域通过包含以下氨基酸序列的接头融合:SGGSSGSETPGTSESATPESSGGS、SGGSSGGSSGSETPGTSESATPESSGGSSGGS,或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS。在一些实施方案中,核碱基编辑器的结构域通过包含氨基酸序列SGSETPGTSESATPES的接头融合,接头也可称为XTEN接头。在一些实施方案中,接头包含氨基酸序列SGGS。在一些实施例中,接头包含(SGGS)n、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES或(XP)n基序,或这些中的任何一个,其中n独立地是1和30之间的整数,并且其中X是任何氨基酸。在一些实施例中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。
在一些实施例中,所述接头的长度是24个氨基酸。在一些实施方案中,所述接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPES。在一些实施例中,所述接头的长度是40个氨基酸。在一些实施方案中,接头包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS。在一些实施例中,所述接头的长度是64个氨基酸。在一些实施方案中,所述接头包含氨基酸序列
SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGSSGGS。在一些实施例中,所述接头的长度是92个氨基酸。在一些实施方案中,接头包含氨基酸序列
PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS。
“标记”是指在与疾病或病症相关的表达水平或活性方面具有改变的任何蛋白质或多核苷酸。
如本文所用,术语“突变”是指序列(例如核酸或氨基酸序列)内的残基被另一残基取代,或序列内一个或多个残基的缺失或插入。突变在本文中通常通过鉴定原始残基随后是该残基在序列中的位置以及通过新取代残基的身份来描述。用于进行本文提供的氨基酸取代(突变)的各种方法是本领域众所周知的,并且由例如Green and Sambrook,MolecularCloning:A Laboratory Manual(4th ed.,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.(2012))提供。在一些实施方案中,当前公开的碱基编辑器可以有效地在核酸(例如,受试者基因组内的核酸)中产生“预期突变”,例如点突变,而不会产生大量非预期突变,例如意外的点突变。在一些实施方案中,预期突变是由与引导多核苷酸(例如,gRNA)结合的特定碱基编辑器(例如,腺苷碱基编辑器)产生的突变,该引导多核苷酸(例如,gRNA)专门设计用于产生预期突变。
通常,在序列(例如,如本文所述的氨基酸序列)中产生或鉴定的突变相对于参考(或野生型)序列,即不包含突变的序列进行编号。本领域技术人员将容易理解如何确定氨基酸和核酸序列中相对于参考序列的突变位置。
术语“非保守性突变”涉及不同组之间的氨基酸置换,例如,色氨酸为赖氨酸,或丝氨酸为苯丙氨酸等。在这种情况下,非保守性氨基酸置换优选不干扰,或抑制功能变体的生物活性。非保守性氨基酸取代可增强功能变体的生物活性,从而与野生型蛋白质相比,功能变体的生物活性增加。
术语“核定位序列”、“核定位信号”或“NLS”是指促进蛋白质输入细胞核的氨基酸序列。核定位序列是本领域已知的并且描述于例如Plank等人的国际PCT申请,PCT/EP2000/011690,2000年11月23日提交,2001年5月31日作为WO/2001/038547公布,其内容以引用方式并入本文以用于它们对示例性核定位序列的公开。在其他实施例中,所述NLS是优化的NLS,例如由Koblan等人,Nature Biotech.2018doi:10.1038/nbt.4172所描述。在一些实施例中,NLS包含氨基酸序列KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRK、PKKKRKV或MDSLLMNRRKFLYQFKNVRWAKGRRETY。
如本文所用,术语“核酸”和“核酸分子”是指包含核碱基和酸性部分的化合物,例如核苷、核苷酸或核苷酸的聚合物。通常,聚合核酸,例如包含三个或更多个核苷酸的核酸分子是线性分子,其中相邻核苷酸通过磷酸二酯键相互连接。在一些实施方案中,“核酸”是指单个核酸残基(例如核苷酸和/或核苷)。在一些实施方案中,“核酸”是指包含三个或更多个单独核苷酸残基的寡核苷酸链。如本文所用,术语“寡核苷酸”和“多核苷酸”可互换使用以指核苷酸的聚合物(例如,至少三个核苷酸的串)。在一些实施方案中,“核酸”包括RNA以及单链和/或双链DNA。核酸可以是天然存在的,例如在基因组、转录物、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体或其他天然存在的核酸分子的上下文中。另一方面,核酸分子可以是非天然存在的分子,例如重组DNA或RNA、人工染色体、工程基因组或其片段,或合成的DNA、RNA、DNA/RNA杂交体、或包括非天然存在的核苷酸或核苷。此外,术语“核酸”、“DNA”、“RNA”和/或类似术语包括核酸类似物,例如具有除磷酸二酯骨架之外的其他骨架的类似物。核酸可以从天然来源纯化、使用重组表达系统产生和任选地纯化、化学合成等。在合适的情况下,例如在化学合成分子的情况下,核酸可以包含核苷类似物,例如具有化学修饰碱基的类似物或糖和骨架修饰。除非另有说明,否则核酸序列以5'到3'方向呈现。在一些实施方案中,核酸是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷);核苷类似物(例如,2-氨基腺苷、2-硫胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟苷和2-硫代胞苷);化学修饰的碱基;生物修饰碱基(例如甲基化碱基);插入的碱基;修饰的糖(2'-例如氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖);和/或修饰的磷酸基团(例如,硫代磷酸酯和5'-N-亚磷酰胺键)。
术语“核酸可编程的DNA结合蛋白”或“napDNAbp”可以与“多核苷酸可编程的核苷酸结合结构域”互换使用,以指与核酸(例如,DNA或RNA)相关的蛋白质,例如引导核酸酸或引导多核苷酸(例如,gRNA),将napDNAbp引导至特定的核酸序列。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中,所述多核苷酸可编程核苷酸结合结构域是Cas9蛋白。Cas9蛋白可以与引导RNA相关联,该引导RNA将Cas9蛋白引导至与引导RNA互补的特定DNA序列。在一些实施方案中,napDNAbp是Cas9结构域,例如核酸酶活性Cas9、Cas9切口酶(nCas9)或核酸酶失活Cas9(dCas9)。核酸可编程DNA结合蛋白的非限制性实例包括Cas9(例如dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g和Cas12i。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5,II型Cas效应蛋白、V型Cas效应蛋白、VI型蛋白质、CARF、DinG、其同源物或其修饰或工程化版本。其他核酸可编程的DNA结合蛋白也在本公开的范围内,尽管它们可能未在本公开中具体列出。参见,如Makarova等人,“Classification andNomenclature of CRISPR-Cas Systems:Where from Here?”CRISPR J.2018Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等人,“Functionally diverse type V CRISPR-Cas systems”Science.2019Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,其全部内容以引用方式并入本文。
术语“核碱基”、“含氮碱基”或“碱基”在本文中可互换使用,是指形成核苷的含氮生物化合物,核苷又是核苷酸的组分。核碱基形成碱基对并相互堆叠的能力直接导致长链螺旋结构,例如核糖核酸(RNA)和脱氧核糖核酸(DNA)。五种核碱基,腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U),被称为初级或典型。腺嘌呤和鸟嘌呤来源于嘌呤,胞嘧啶、尿嘧啶和胸腺嘧啶来源于嘧啶。DNA和RNA也可以包含其他(非主要)修饰的碱基。非限制性示例性修饰核碱基可包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶(m5C)和5-氢甲基胞嘧啶。次黄嘌呤和黄嘌呤可以通过诱变剂的存在产生,它们都是通过脱氨基(用羰基取代胺基团)产生的。次黄嘌呤可以由腺嘌呤修饰而成。黄嘌呤可以由鸟嘌呤修饰而成。尿嘧啶可由胞嘧啶脱氨基产生。“核苷”由核碱基和五碳糖(核糖或脱氧核糖)组成。核苷的实例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷和脱氧胞苷。具有修饰的核碱基的核苷的实例包括肌苷(I)、黄苷(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)和假尿苷(Ψ)。“核苷酸”由核碱基、五碳糖(核糖或脱氧核糖)和至少一个磷酸基团组成。
如本文所用,术语“核苷碱基编辑结构域”或“核苷碱基编辑蛋白”是指可催化RNA或DNA中的核苷碱基修饰的蛋白质或酶,例如胞嘧啶(或胞苷)为尿嘧啶(或尿苷)或胸腺嘧啶(或胸苷)和腺嘌呤(或腺苷)到次黄嘌呤(或肌苷)脱氨基,以及非模板化的核苷酸添加和插入。在一些实施方案中,所述核碱基编辑结构域是脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶)。在一些实施方案中,所述核碱基编辑结构域是多个脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶和胞苷或胞嘧啶脱氨酶)。在一些实施方案中,所述核碱基编辑结构域可以是天然存在的核碱基编辑结构域。在一些实施方案中,所述核碱基编辑结构域可以是由天然存在的核碱基编辑结构域改造而来的或进化的核碱基编辑结构域。所述核碱基编辑结构域可以来自任何生物体,例如细菌、人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠。
如本文所用,“获得”如在“获得药剂”中包括合成、购买或以其他方式获得该药剂。
如本文所用,“患者”或“受试者”是指被诊断患有、有风险患有或发展、或怀疑患有或发展疾病或病症的哺乳动物受试者或个体。在一些实施方案中,术语“患者”是指具有高于平均发展疾病或病症的可能性的哺乳动物受试者。示例性患者可以是人类、非人类灵长类动物、猫、狗、猪、牛、猫、马、骆驼、美洲驼、山羊、绵羊、啮齿动物(例如小鼠、兔、大鼠或豚鼠)和其他可以受益于本文公开疗法的哺乳动物。示例性的人类患者可以是男性和/或女性。
“有需要的患者”或“有需要的受试者”在本文中是指被诊断患有、有风险或患有、预定患有或怀疑患有疾病或病症的患者。
术语“致病突变”、“致病变异”、“疾病外壳突变”、“致病变异”、“有害突变”或“易感突变”是指遗传改变或突变,其增加个体对某种疾病或障碍的易感性或倾向性。在一些实施方案中,致病性突变包含至少一种野生型氨基酸被基因编码的蛋白质中的至少一种致病性氨基酸取代。
术语“蛋白质”、“肽”、“多肽”及其语法等价物在本文中可互换使用,是指通过肽(酰胺)键连接在一起的氨基酸残基的聚合物。这些术语是指任何大小、结构或功能的蛋白质、肽或多肽。通常,蛋白质、肽或多肽的长度至少为三个氨基酸。蛋白质、肽或多肽可以指单个蛋白质或蛋白质的集合。蛋白质、肽或多肽中的一个或多个氨基酸可以被修饰,例如,通过添加化学实体例如碳水化合物基团、羟基、磷酸基团、法呢基、异法呢基、脂肪酸基团、用于缀合、功能化或其他修饰的接头等。蛋白质、肽或多肽也可以是单分子或可以是多分子复合物。蛋白质、肽或多肽可以只是天然存在的蛋白质或肽的片段。蛋白质、肽或多肽可以是天然存在的、重组的或合成的,或其任何组合。如本文所用,术语“融合蛋白”是指包含来自至少两种不同蛋白质的蛋白质结构域的杂合多肽。一种蛋白质可以位于融合蛋白的氨基末端(N-末端)部分或羧基末端(C-末端)蛋白,从而分别形成氨基末端融合蛋白或羧基末端融合蛋白。蛋白质可以包含不同的结构域,例如,核酸结合结构域(例如,引导蛋白与靶标位点结合的Cas9的gRNA结合结构域)和核酸切割结构域,或核酸编辑蛋白的催化结构域。在一些实施方案中,蛋白质包含蛋白质部分,例如构成核酸结合结构域的氨基酸序列,和有机化合物,例如可以充当核酸切割剂的化合物。在一些实施方案中,蛋白质与核酸例如RNA或DNA形成复合物或缔合。本文提供的任何蛋白质可以通过本领域已知的任何方法产生。例如,本文提供的蛋白质可以通过重组蛋白质表达和纯化产生,这尤其适用于包含肽接头的融合蛋白质。重组蛋白表达和纯化的方法是众所周知的,包括Green和Sambrook,MolecularCloning:A Laboratory Manual(4th ed.,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.(2012))所描述的,其全部内容以引用方式并入。
本文公开的多肽和蛋白质(包括其功能部分和功能变体)可包含合成氨基酸代替一种或多种天然存在的氨基酸。此类合成氨基酸是本领域已知的,包括例如氨基环己烷羧酸、正亮氨酸、α-氨基正癸酸、高丝氨酸、S-乙酰氨基甲基-半胱氨酸、反式-3-和反式-4-羟脯氨酸、4-氨基苯丙氨酸、4-硝基苯丙氨酸、4-氯苯丙氨酸、4-羧基苯丙氨酸、β-苯丝氨酸β-羟基苯丙氨酸、苯基甘氨酸、α-萘丙氨酸、环己基丙氨酸、环己基甘氨酸、二氢吲哚-2-四氢四氢、3-喹啉、3-羟基苯丙氨酸、3-2-羟基苯丙氨酸-羧酸、氨基丙二酸、氨基丙二酸单酰胺、N'-苄基-N'-甲基-赖氨酸、N',N'-二苄基-赖氨酸、6-羟基赖氨酸、鸟氨酸、α-氨基环戊烷羧酸、α-氨基环己烷羧酸、α-氨基环庚烷羧酸、α-(2-氨基-2-降冰片烷)-羧酸、α,γ-二氨基丁酸、α,β-二氨基丙酸、高苯丙氨酸和α-叔丁基甘氨酸。多肽和蛋白质可以与多肽构建体的一个或多个氨基酸的翻译后修饰相关。翻译后修饰的非限制性实例包括磷酸化、酰化(包括乙酰化和甲酰化)、糖基化(包括N-连接和O-连接)、酰胺化、羟基化、烷基化(包括甲基化和乙基化)、泛素化、添加吡咯烷酮羧酸、形成二硫键、硫酸化、肉豆蔻酰化、棕榈酰化、异戊二烯化、法呢基化、香叶基化、糖基化、脂酰化和碘化。
如本文在蛋白质或核酸的上下文中使用的术语“重组”是指在自然界中不存在但为人类工程产物的蛋白质或核酸。例如,在一些实施方案中,重组蛋白或核酸分子包含氨基酸或核苷酸序列,与任何自然发生的序列相比,该序列包含至少一个、至少两个、至少三个、至少四个、至少五个、至少六个或至少七个突变。
“减少”是指至少10%、25%、50%、75%或100%的負变化。
“参考”是指标准或对照条件。在一个实施例中,所述参考是野生型或健康细胞。在其他实施方案中且不限于,参考是未处理的细胞,其未经受测试条件,或经受安慰剂或生理盐水、培养基、缓冲液和/或不含目标多核苷酸的对照载体。
“参考序列”是用作序列比较基础的定义序列。参考序列可以是特定序列的子集或全部;例如,全长cDNA或基因序列的片段,或完整的cDNA或基因序列。对于多肽,参考多肽序列的长度通常为至少约16个氨基酸、至少约20个氨基酸、至少约25个氨基酸、约35个氨基酸、约50个氨基酸或约100个氨基酸。对于核酸,参考核酸序列的长度通常为至少约50个核苷酸、至少约60个核苷酸、至少约75个核苷酸、约100个核苷酸或约300个核苷酸或其附近或之间的任何整数。在一些实施方案中,参考序列是目的蛋白质的野生型序列。在其他实施方案中,参考序列是编码野生型蛋白质的多核苷酸序列。
术语“RNA可编程核酸酶”和“RNA引导的核酸酶”与一种或多种不是切割靶标的RNA一起使用(例如,结合或缔合)。在一些实施方案中,当与RNA形成复合物时,RNA可编程核酸酶可被称为核酸酶:RNA复合物。通常,结合的RNA被称为引导RNA(gRNA)。gRNA可以作为两个或多个RNA的复合物存在,也可以作为单个RNA分子存在。以单个RNA分子形式存在的gRNA可称为单引导RNA(sgRNA),尽管“gRNA”可互换使用,指以单个分子或两个或多个分子的复合体形式存在的引导RNA。通常,作为单一RNA种类存在的gRNA包含两个结构域:(1)与靶标核酸具有同源性的结构域(例如,指导Cas9复合物与靶标的结合);(2)结合Cas9蛋白的结构域。在一些实施方案中,结构域(2)对应于称为tracrRNA的序列,并且包含茎-环结构。例如,在一些实施方案中,结构域(2)与Jinek等人,Science 337:816-821(2012)中提供的tracrRNA相同或同源,该文献的全部内容通过引用并入本文。gRNA的其他示例(例如,包括结构域2的那些)可以在美国临时专利申请,U.S.S.N.61/874,682,于2013年9月6日提交,题为“Switchable Cas9 Nucleases and Uses Thereof”,以及美国临时专利申请,U.S.S.N.61/874,746,2013年9月6日提交,名称为“Delivery System For FunctionalNucleases”中找到,每个的全部内容通过引用整体并入本文。在一些实施例中,gRNA包含结构域(1)和(2)中的两个或更多个,并且可以被称为"延伸的gRNA。"例如,如本文所述,延伸的gRNA将结合两个或更多个Cas9蛋白并在两个或更多个不同区域结合靶核酸。gRNA包含与靶标位点互补的核苷酸序列,其介导核酸酶/RNA复合物与所述靶标位点的结合,提供核酸酶:RNA复合物的序列特异性。
在一些实施方案中,RNA可编程核酸酶是(CRISPR相关系统)Cas9核酸内切酶,例如来自化脓性链球菌的Cas9(Casnl)(参见例如“Complete genome sequence of an Mlstrain of Streptococcus pyogenes.”Ferretti J.J.,McShan W.M.,Ajdic D.J.,SavicD.J.,Savic G.,Lyon K.,Primeaux C,Sezate S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);"CRISPR RNA maturation by trans-encoded small RNA and host factorRNase III."Deltcheva E.,Chylinski K.,Sharma CM.,Gonzales K.,Chao Y.,PirzadaZ.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature 471:602-607(2011).
由于RNA可编程核酸酶(例如Cas9)使用RNA:DNA杂交来靶向DNA切割位点,因此这些蛋白质原则上能够靶向引导RNA指定的任何序列。使用RNA可编程核酸酶(例如Cas9)进行位点特异性切割(例如,修饰基因组)的方法是本领域已知的(参见例如Cong,L.等人,Multiplex genome engineering using CRISPR/Cas systems.Science339,819-823(2013);Mali,P.等人,RNA-guided human genome engineering via Cas9.Science 339,823-826(2013);Hwang,W.Y.等人,Efficient genome editing in zebrafish using aCRISPR-Cas system.Nature biotechnology 31,227-229(2013);Jinek,M.et ah,RNA-programmed genome editing in human cells.eLife 2,e00471(2013);Dicarlo,J.E.等人,Genome engineering in Saccharomyces cerevisiae using CRISPR-Cassystems.Nucleic acids research(2013);Jiang,W.等人RNA-guided editing ofbacterial genomes using CRISPR-Cas systems.Nature biotechnology 31,233-239(2013);其全部内容以引用方式并入本文)。
术语“单核苷酸多态性(SNP)”是发生在基因组中特定位置的单个核苷酸的变异,其中每个变异在群体中都存在一定程度(例如,>1%)。例如,在人类基因组的特定碱基位置,C核苷酸可以出现在大多数个体中,但在少数个体中,该位置被A占据。这意味着在该特定位置存在SNP,并且两个可能的核苷酸变异,C或A,被称为该位置的等位基因。SNP是疾病易感性差异的基础。疾病的严重程度和我们身体对治疗的反应方式也是遗传变异的表现。SNP可以落入基因的编码区、基因的非编码区或基因间区(基因之间的区域)。在一些实施方案中,由于遗传密码的简并性,编码序列内的SNP不一定改变所产生蛋白质的氨基酸序列。编码区的SNP有两种类型:同义SNP和非同义SNP。同义SNP不影响蛋白质序列,非同义SNP改变蛋白质的氨基酸序列。所述非同义SNP有两种类型:错义和无义。不在蛋白质编码区的SNP仍然可以影响基因剪接、转录因子结合、信使RNA降解或非编码RNA的序列。受此类SNP影响的基因表达称为eSNP(表达SNP),可以位于基因的上游或下游。单核苷酸变异(SNV)是单个核苷酸的变异,没有任何频率限制,可以在体细胞中出现。体细胞单核苷酸变异也可称为单核苷酸改变。
“特异性结合”是指识别并结合以下多肽和/或核酸分子的核酸分子、多肽或其复合物(例如,核酸可编程DNA结合结构域和引导核酸)、化合物或分子本公开内容,但基本上不识别和结合样品中的其他分子,例如生物样品。
可用于本公开内容的方法的核酸分子包括编码本公开内容的多肽或其片段的任何核酸分子。这样的核酸分子不需要与内源核酸序列100%相同,但通常会表现出基本的同一性。与内源序列具有“基本同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。可用于本公开内容的方法的核酸分子包括编码本公开内容的多肽或其片段的任何核酸分子。这样的核酸分子不需要与内源核酸序列100%相同,但通常会表现出基本的同一性。与内源序列具有“基本同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。“杂交”是指在各种严格条件下,在互补多核苷酸序列(例如,本文所述的基因)或其部分之间配对以形成双链分子。(參见,例如,Wahl,G.M.and S.L.Berger(1987)MethodsEnzymol.152:399;Kimmel,A.R.(1987)Methods Enzymol.152:507)。
例如,严格盐浓度通常低于约750mM NaCl和75mM柠檬酸三钠,优选低于约500mMNaCl和50mM柠檬酸三钠,更优选低于约250mM NaCl和25mM柠檬酸三钠。可以在不存在有机溶剂例如甲酰胺的情况下获得低严格杂交,而可以在存在至少约35%甲酰胺,更优选至少约50%甲酰胺的情况下获得高严格杂交。严格的温度条件通常包括至少约30℃,更优选至少约37℃,最优选至少约42℃的温度。例如,十二烷基硫酸钠(SDS),以及载体DNA的包含或排除,是本领域技术人员公知的。通过根据需要组合这些不同的条件来实现不同程度的严格性。在一个实施方案中,杂交将在30℃下在750mM NaCl、75mM柠檬酸三钠和1%SDS中发生。在另一个实施方案中,杂交将在37℃下在500mM NaCl、50mM柠檬酸三钠、1%SDS、35%甲酰胺和100μg/ml变性鲑鱼精子DNA(ssDNA)中发生。在一个实施方案中,杂交将在42℃下在250mM NaCl、25mM柠檬酸三钠、1%SDS、50%甲酰胺和200μg/ml ssDNA中发生。这些条件的有用变化对本领域技术人员来说是显而易见的。
对于大多数应用,杂交后的洗涤步骤在严格性方面也会有所不同。洗涤严格条件可以通过盐浓度和温度来定义。如上所述,可以通过降低盐浓度或提高温度来增加洗涤严格性。例如,洗涤步骤的严格盐浓度优选小于约30mM NaCl和3mM柠檬酸三钠,最优选小于约15mM NaCl和1.5mM柠檬酸三钠。洗涤步骤的严格温度条件通常包括至少约25℃,更优选至少约42℃,甚至更优选至少约68℃的温度。在一个实施例中,将发生洗涤步骤在25℃下,在30mM NaCl、3mM柠檬酸三钠和0.1%SDS中。在更优选的实施方案中,洗涤步骤将在42℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1%SDS中进行。在更优选的实施方案中,洗涤步骤将在68℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1%SDS中进行。这些条件的其他变化对本领域技术人员来说是显而易见的。杂交技术是本领域技术人员公知的并且描述于例如Benton andDavis(Science 196:180,1977);Grunstein and Hogness(Proc.Natl.Acad.Sci.,USA 72:3961,1975);Ausubel等人(Current Protocols in Molecular Biology,WileyInterscience,New York,2001);Berger and Kimmel(Guide to Molecular CloningTechniques,1987,Academic Press,New York);以及Sambrook et al.,MolecularCloning:A Laboratory Manual,Cold Spring Harbor Laboratory Press,New York.
“分裂”是指分成两个或更多个片段。
“分裂Cas9蛋白”或“分裂Cas9”是指作为由两个单独核苷酸序列编码的N末端片段和C末端片段提供的Cas9蛋白。对应于Cas9蛋白的N末端部分和C末端部分的多肽可以被剪接以形成“重建的”Cas9蛋白。在特定实施方案中,Cas9蛋白质在蛋白质的无序区域内被分成两个片段,例如,如Nishimasu等人,Cell,Volume 156,Issue 5,pp.935-949,2014中所述,或如在Jiang等人。(2016)Science 351:867-871.PDB file:5F9R,每个都通过引用并入本文。在一些实施方案中,该蛋白质在SpCas9区域内约氨基酸A292-G364、F445-K483或E565-T637之间的任何C、T、A或S处分成两个片段,或在任何其他Cas9、Cas9变体(例如,nCas9、dCas9)或其他napDNAbp。在一些实施方案中,蛋白质在SpCas9 T310、T313、A456、S469或C574处被分成两个片段。在一些实施方案中,将蛋白质分成两个片段的过程称为“分裂”蛋白质。
在其他实施方案中,Cas9蛋白的N末端部分包含氨基酸1-573或1-637化脓链球菌Cas9野生型(SpCas9)(NCBI参考序列:NC_002737.2,Uniprot参考序列:Q99ZW2)和Cas9蛋白的C末端部分包含SpCas9野生型的氨基酸574至1368或638至1368的部分或其相应位置。
分裂的Cas9的C末端部分可以与分裂的Cas9的N末端部分连接以形成完整的Cas9蛋白。在一些实施方案中,Cas9蛋白的C末端部分从Cas9蛋白的N末端部分结束的地方开始。因此,在一些实施例中,分裂的Cas9的C末端部分包含spCas9的氨基酸(551至651)至1368的一部分。“(551至651)至1368”是指从氨基酸551至651(含)之间的氨基酸开始到氨基酸1368结束。例如,分裂的Cas9的C端部分可以包含spCas9的任一氨基酸的一部分:551至1368、552至1368、553至1368、554至1368、555至1368、556至1368、557至1368、558至1368、559至1368、560至1368、561至1368、562至1368、563至1368、564至1368、565至1368、566至1368、567至1368、568至1368、569至1368、570至1368、571至1368、572至1368、573至1368、574至1368、575至1368、576至1368、577至1368、578至1368、579至1368、580至1368、581至1368、582至1368、583至1368、584至1368、585至1368、586至1368、587至1368、588至1368、589至1368、590至1368、591至1368、592至1368、593至1368、594至1368、595至1368、596至1368、597至1368、598至1368、599至1368、600至1368、601至1368、602至1368、603至1368、604至1368、605至1368、606至1368、607至1368、608至1368、609至1368、610至1368、611至1368、612至1368、613至1368、614至1368、615至1368、616至1368、617至1368、618至1368、619至1368、620至1368、621至1368、622至1368、623至1368、624至1368、625至1368、626至1368、627至1368、628至1368、629至1368、630至1368、631至1368、632至1368、633至1368、634至1368、635至1368、636至1368、637至1368、638至1368、639至1368、640至1368、641至1368、642至1368、643至1368、644至1368、645至1368、646至1368、647至1368、648至1368、649至1368、650至1368或651至1368。在一些实施例中,分裂的Cas9的C末端部分包含SpCas9蛋白的574至1368或638至1368的一部分。
“受试者”是指哺乳动物,包括但不限于人类或非人类哺乳动物,例如牛、马、犬、绵羊或猫。受试者包括家畜、饲养以生产劳动力和提供商品如食物的驯养动物,包括但不限于牛、山羊、鸡、马、猪、兔和绵羊。
“基本相同”是指多肽或核酸分子与参考氨基酸序列(例如,本文所述的任何一种氨基酸序列)或核酸序列(例如,任何一种本文所述的核酸序列)。在一个实施方案中,这样的序列与用于比较的序列在氨基酸水平或核酸有至少60%、80%或85%、90%、95%或甚至99%相同。
序列同一性通常使用序列分析软件(例如,Sequence Analysis SoftwarePackage of the Genetics Computer Group,University of Wisconsin BiotechnologyCenter,1710University Avenue,Madison,Wis.53705,BLAST,BESTFIT,GAP或PILEUP/PRETTYBOX programs)。此类软件通过为各种替换、缺失和/或其他修饰指定同源性程度来匹配相同或相似的序列。保守取代通常包括以下组内的取代:甘氨酸、丙氨酸;缬氨酸、异亮氨酸、亮氨酸;天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺;丝氨酸、苏氨酸;赖氨酸、精氨酸;和苯丙氨酸、酪氨酸。在确定同一性程度的示例性方法中,可以使用BLAST程序,其中e-3和e-100之间的概率分数表示密切相关的序列。
例如,COBALT与以下参数一起使用:
a)对齐参数:间隙罚分-11、-1和端间隙罚分-5、-1,
b)CDD参数:使用RPS BLAST;BLAST E值0.003;查找保守列并重新计算,以及
c)查询集群参数:使用查询集群;字长4;最大集群距离0.8;字母常规。
例如,EMBOSS Needle与以下参数一起使用:
a)Matrix:BLOSUM62;
b)间隙开放:10;
c)间隙延伸:0.5;
d)输出格式:一对;
e)端间隙罚分:错误;
f)端间隙开放:10;以及
g)端间隙延伸:0.5。
术语“靶标位点”是指被核碱基编辑器修饰的核酸分子内的序列。在一个实施方案中,靶标位点被脱氨酶或包含脱氨酶(例如腺嘌呤脱氨酶)的融合蛋白脱氨。
如本文所用,术语“治疗”、“治疗的”、“疗程”等是指减少或改善病症和/或与其相关的症状或获得期望的药理学和/或生理学效果。应当理解,尽管不排除,治疗病症或病症并不要求完全消除病症、病症或与其相关的症状。在一些实施方案中,该作用是治疗性的,即但不限于,该作用部分或完全减少、减弱、消除、减轻、减轻、降低疾病和/或可归因于该疾病的不利症状的强度或治愈该疾病和/或不利症状。在一些实施方案中,该作用是预防性的,即该作用保护或防止疾病或病症的发生或复发。为此,目前公开的方法包括施用治疗有效量的如本文所述的组合物。
“尿嘧啶糖基化酶抑制剂”或“UGI”是指抑制尿嘧啶切除修复系统的药剂。在一个实施方案中,所述试剂是结合宿主尿嘧啶-DNA糖基化酶并防止从DNA中去除尿嘧啶残基的蛋白质或其片段。在一个实施方案中,UGI是能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的蛋白质、其片段或结构域。在一些实施方案中,UGI结构域包含野生型UGI或其修改版。在一些实施方案中,UGI结构域包含下文阐述的示例性氨基酸序列的片段。在一些实施方案中,UGI片段包含的氨基酸序列包含下文提供的示例性UGI序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或100%相同。在一些实施方案中,UGI包含与示例性UGI氨基酸序列或其片段同源的氨基酸序列,如下所述。在一些实施方案中,所述UGI或其一部分与野生型UGI或UGI序列或其部分至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.5%、至少99.9%或至少99%或100%相同,如下所述。示例性的UGI包含如下氨基酸序列:
>splP14739IUNGI_BPPB2尿嘧啶-DNA糖基化酶抑制剂
MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML。
术语“载体”是指将核酸序列引入细胞中从而产生转化细胞的手段。载体包括质粒、转座子、噬菌体、病毒、脂质体和附加体。“表达载体”是包含待在受体细胞中表达的核苷酸序列的核酸序列。表达载体可以包括额外的核酸序列以促进和/或促进引入序列的表达,例如起始、终止、增强子、启动子和分泌序列。
本文提供的任何组合物或方法可以与本文提供的任何其他组合物和方法中的一种或多种组合。
DNA编辑已成为通过在基因水平上纠正致病突变来改变疾病状态的可行手段。直到最近,所有DNA编辑平台的功能都是通过在特定基因组位点诱导DNA双链断裂(DSB)并依靠内源性DNA修复途径以半随机方式确定产品结果,从而产生复杂的遗传产品群体。虽然可以通过同源定向修复(HDR)途径实现精确的、用户定义的修复结果,但许多挑战阻碍了在治疗相关细胞类型中使用HDR进行高效修复。在实践中,该途径相对于竞争性、易出错的非同源末端连接途径而言效率低下。此外,HDR被严格限制在细胞周期的G1和S期,阻止了有丝分裂后细胞中DSB的精确修复。因此,已经证明很难或不可能以用户定义的、可编程的方式在这些群体中高效地改变基因组序列。
附图说明
图1A至1C描绘质粒。图1A是编码TadA7.10-dCas9碱基编辑器的表达载体。图1B是包含编码赋予氯霉素抗性(CamR)和壮观霉素抗性(SpectR)的蛋白质的核酸分子的质粒。所述质粒还包含被两个点突变致残的卡那霉素抗性基因。图1C是包含编码赋予氯霉素抗性(CamR)和壮观霉素抗性(SpectR)的蛋白质的核酸分子的质粒。所述质粒还包含被三个点突变致残的卡那霉素抗性基因。
图2A至2C描述通过定向进化选择腺嘌呤脱氨酶(TadA)。图2A是描绘具有指导RNA和脱氨酶(例如,TadA)的碱基编辑器的示意图,用于具有原型间隔子和PAM序列的基因组DNA。图2B是描述通过定向进化选择腺嘌呤脱氨酶(TadA)的示意图。图2C是用图1A至1C中描绘的表达载体转导的细菌菌落的图像。,其中包括有缺陷的卡那霉素抗性基因。所述载体包含使用易错PCR生成的ABE7.10变体。使用增加浓度的卡那霉素,选择表达这些“进化的”ABE7.10变体的细菌细胞以进行卡那霉素抗性。表达具有腺苷脱氨酶活性的ABE7.10变体的细菌能够纠正引入卡那霉素抗性基因的突变,从而恢复卡那霉素抗性。选择卡那霉素抗性细胞用于进一步分析。
图3A和3B说明了血红蛋白亚基γ(HGB1)基因座的调节区域的编辑,这是一个治疗相关的胎儿血红蛋白上调位点。图3A是HGB1基因调节区的一部分的图。图3B量化表6中列出的腺苷脱氨酶变体的效率和特异性。在HEK293T细胞中的血红蛋白亚基gamma 1(HGB1)位点检测编辑,这是胎儿血红蛋白上调的治疗相关位点。上图描绘HGB1基因调控序列目标区域中的核苷酸残基。A5、A8、A9和A11表示HGB1中经过编辑的腺苷残基。
图4说明了包含识别非规范PAM序列的dCas9的腺苷碱基编辑器的相对有效性。上图描述血红蛋白亚基的编码序列。下图展示了腺苷脱氨酶变异碱基编辑器与不同长度的引导RNA的效率。
图5是说明ABE8s的效率和特异性的图。对预期目标核苷酸和非预期目标核苷酸(旁观者)的编辑百分比进行量化。
图6是说明ABE8s的效率和特异性的图。对预期目标核苷酸和非预期目标核苷酸(旁观者)的编辑百分比进行量化。
图7A至7E描绘第八代腺嘌呤碱基编辑器在人类细胞中介导了卓越的A·T到G·C的转换。图7A说明了腺嘌呤碱基编辑的概述:i)ABE8在基因组中的sgRNA靶向位点创建R环;ii)TadA*脱氨酶通过R环的ss-DNA部分的水解脱氨作用将腺嘌呤化学转化为肌苷;iii)Cas9的D10A切口酶切割与含有肌苷的链相反的链;iv)含有肌苷的链可用作DNA复制过程中的模板;v)在DNA聚合酶的背景下,肌苷优先与胞嘧啶碱基配对;vi)复制后,肌苷可能被鸟苷替代。图7B说明了ABE8.x-m和ABE8.x-d的架构。ABE8.x-m/d的命名如下:ABE8s是从ABE7.10进化活动(进行7次进化迭代(Gaudelli,N.M.等人Programmable base editing ofA*T to G*C in genomic DNA without DNA cleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))。ABE8.x的“x”数值表示相应ABE8编辑器进化的TadA原体中包含哪些突变;每个数字代表表9中描述的一组不同的突变。“m”或“d”的指示表示ABE8构建体是否包含与进化的TadA连接的N端野生型TadA(“d”)或仅包含TadA进化的变体(“m”)。图7C是描绘在TadA*7.10背景突变的合成文库中变体氨基酸相对于氨基酸位置的百分比的图。图7D是说明与与tRNAArg2复合的金黄色葡萄球菌TadA(未显示)对齐的大肠杆菌TadA脱氨酶(PDB 1Z3A)的三个视角(即,概览、活性位点和C-末端α-螺旋)的示意图(PDB 2B3J)。在第八轮进化中确定的突变被突出显示。标记了整个ABE8和活性位点的关键残基。突出显示了C末端α螺旋的区域。图7E是描绘跨越八个基因组位点的Hek293T细胞中核心ABE8构建体相对于ABE7.10构建体的A·T至G·C碱基编辑效率的图。值和误差线反映平均值和标准差。在不同日期进行的三个独立的生物学重复。
图8A至8C描绘Cas9 PAM-变体ABE8s和催化死亡的Cas9 ABE8变体比人类细胞中的相应ABE7.10变体介导更高的A·T到G·C的转化。值和误差线反映平均值和标准差。在不同日期进行的三个独立的生物学重复。显示了ABE7.10和ABE8编辑器活动窗口。数字表示原型间隔子内的位置。目标DNA骨架中诱导切口的位置由三角形表示,并显示了相应的PAM识别序列。图8A是描绘具有NG-Cas9 ABE8(-NG PAM)的Hek293T细胞中A·T到G·C的转化的图。图8B是描绘具有Sa-Cas9 ABE8(-NNGRRT PAM)的Hek293T细胞中A·T到G·C的转化的图。图8C是描绘具有催化失活的dCas9-ABE8s(化脓链球菌Cas9中的D10A、H840A)的Hek293T细胞中A·T到G·C的转化的图。
图9A至9F描绘在Hek293T细胞中ABE7.10、ABEmax和ABEmax与一个BPNLS之间的靶向和脱靶编辑频率之间的比较。显示了单个数据点,误差线代表标准差。对于n=3或n=4独立的生物学重复,在不同的日子进行。图9A和9B是描绘在靶DNA编辑频率的图。图9C和9D是描绘sgRNA引导的DNA脱靶编辑频率的图。图9E和9F是描绘RNA脱靶编辑频率的图。
图10A至10D描绘HEK293T细胞中TadA、C-末端α-螺旋截断ABE构建体的中值A·T到G·C转化和相应的插入或缺失形成。图10A和10C是描绘跨越8个基因组位点的A·T到G·C中值编辑转换的热图。图10B和10D是描绘插入或缺失形成的热图。Delta残基值对应于TadA中的缺失位置。从n=3个生物重复产生的中值。
图11A和11B是描绘跨越8个基因组位点的HEK293T细胞中四十(40)个ABE8构建体的A·T到G·C转化的中值的热图。中值由n=3或更多的生物学重复确定。
图12是描绘跨越8个基因组位点的HEK293T细胞中40个ABE8构建体的中值插入或缺失%的热图。中值由二个或更多的生物学重复确定。
图13是描绘编辑中的倍数变化ABE8:ABE7的图。Hek293T细胞中八个不同基因组位点靶标内所有A位置的平均ABE8:ABE7 A·T到G·C编辑的表示。位置2-12表示目标腺嘌呤在20-nt原型间隔子内的位置,位置20直接位于-NGG PAM的5'。
图14描绘ABE8的树状图。为进一步研究选择的核心ABE8结构突出显示。
图15A和15B是描绘跨越8个基因组位点的HEK293T细胞中核心8个ABE8构建体的中值A·T到G·C转化的热图。中值由n=3或更多的生物学重复确定。
图16A和16B是描绘在HEK293T细胞的8个基因组位点测试的核心8个ABE8的中值插入或缺失频率的热图。
图17A和17B是描绘HEK293T细胞中六个基因组位点处核心NG-ABE8构建体(-NGPAM)的中值A·T到G·C转化的热图。从n=3个生物重复产生的中值。
图18A和18B是描绘在HEK293T细胞的6个基因组位点测试的核心NG-ABE8的中值插入或缺失频率的热图。从n=3个生物重复产生的中值。
图19A和19B是描绘HEK293T细胞中六个基因组位点处核心Sa-ABE8构建体(-NNGRRT PAM)的中值A·T到G·C转化的热图。位点位置在22-nt原型间隔子中编号为-2到20(5'到3')。位置20是NNGRRT PAM的5’。从n=3个生物重复产生的中值。
图20A和20B是描绘在HEK293T细胞的8个基因组位点测试的核心Sa-ABE8的中值插入或缺失频率的热图。从n=3个生物重复产生的中值。
图21A和21B是描绘HEK293T细胞中8个基因组位点处核心dC9-ABE8-m构建体的中值A·T到G·C转化的热图。死亡Cas9(dC9)被定义为化脓性链球菌Cas9中的D10A和H840A突变。从n≥3个生物重复产生的中值。
图22A和22B是描绘HEK293T细胞中8个基因组位点处核心dC9-ABE8-d构建体的中值A·T到G·C转化的热图。死亡Cas9(dC9)被定义为化脓性链球菌Cas9中的D10A和H840A突变。从n≥3个生物重复产生的中值。
图23A至23D描绘在HEK293T细胞的8个基因组位点测试的核心dC9-ABE8s的中值插入或缺失频率。从n≥3个生物重复产生的中值。图23A和23C是描绘dC9-ABE8-m变体相对于ABE7.10的插入或缺失频率的热图。图23B和23D是描绘dC9-ABE8-d变体相对于ABE7.10的插入或缺失频率的热图。
图24描绘用ABE8s和ABE7.10处理的Hek293T细胞的C·G到T·A编辑。图24(顶部)是一个箱线图,描绘靶标内所有“C”位置的平均每个位点的编辑频率。原始间隔子中的胞嘧啶用阴影表示。框的边界表示第一个(底部)和第三个(顶部)四分位数,而框内的带表示中位数。离中位数远超过四分位距(|Q3-Q1|)1.5倍的值将被标记为异常值并单独显示。小点从盒子的边缘延伸到不被视为异常值的最大值和最小值。图24(底部)是指示位点和靶DNA序列的表。
图25A至25H描绘通过ABE8构建体和具有TadA突变的ABE8构建体以提高对DNA的特异性的DNA在靶编辑和sgRNA依赖性DNA脱靶编辑。显示了单个数据点,误差线代表标准差。对于n=3独立的生物学重复,在不同的日子进行。图25A和25B是描绘与ABE7相比核心ABE8构建体的在靶DNA编辑频率的图。图25C和25D是描绘改进RNA脱靶编辑的四个基因组基因座处的ABE8构建的在靶DNA编辑频率的图。图25E和25F是描绘与ABE7相比ABE8构建体的sgRNA引导的DNA脱靶编辑频率的图。图25G和25H是描绘已知可改善RNA脱靶编辑的已知的sgRNA依赖性基因座处的ABE8构建体的脱靶DNA编辑频率的图。
图26是描绘人类细胞中12个先前鉴定的sgRNA依赖性Cas9脱靶基因座处的插入缺失频率的图。显示了个别数据点且误差条代表s.d。对于n=3个独立的生物学重复,在不同的日子进行。
图27A至27C描绘原代细胞中A·T到G·C的转化和表型结果。图27A是描绘HBG1/2的基因组碱基编辑位点的示意图。图27B是描绘用来自两个不同供体的ABE处理的CD34+细胞中-198HBG1/2位点的A·T到G·C的转化的图。在处理后48和144小时进行NGS分析。-198HBG1/2靶序列,其中A7突出显示。绘制A7的A·T到G·C的百分比。图27C是描绘在源自ABE处理的细胞的红细胞中作为α-珠蛋白的分数形成的γ-珠蛋白的百分比的图。显示来自两个不同供体的值,ABE治疗后和红细胞分化。
图28A和28B描绘在HBG1/2上游的-198启动子位点处用ABE8处理的CD34+细胞从A·T到G·C的转化。图28A是描绘在编辑器处理后48和144小时来自两个供体的CD34+细胞中ABE8s的A至G编辑频率的热图,其中供体2对于镰状细胞病是杂合的。图28B是总测序读数分布的图形表示,其包含仅A7编辑或组合(A7+A8)编辑。
图29A和29B是描绘在γ-珠蛋白启动子的-198位点处用ABE8处理的CD34+细胞的插入或缺失频率的热图。在48小时和144小时时间点显示来自两个供体的频率。在HBG1/2-198启动子目标位点上完成A·T到G·C的转换会产生一个10-nt的poly-G片段。这种均聚物运行通常会增加PCR和测序引起的错误率,导致该位点出现插入或缺失频率升高。
图30描绘未处理的分化CD34+细胞(供体1)的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。
图31描绘用ABE7.10-m(供体1)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。
图32描绘用ABE7.10-d(供体1)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。
图33描绘用ABE8.8-m(供体1)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。
图34描绘用ABE8.8-d(供体1)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。
图35描绘用ABE8.13-m(供体1)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。。
图36描绘用ABE8.13-d(供体1)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。
图37描绘用ABE8.17-m(供体1)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。。
图38描绘用ABE8.17-d(供体1)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。
图39描绘用ABE8.20-m(供体1)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。。
图40描绘用ABE8.20-d(供体1)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。
图41描绘未处理的分化CD34+细胞(供体2)的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。注意:供体2是镰状细胞病的杂合子。
图42描绘用ABE7.10-m(供体2)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。注意:供体2是镰状细胞病的杂合子。
图43描绘用ABE7.10-d(供体2)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。注意:供体2是镰状细胞病的杂合子。
图44描绘用ABE8.8-m(供体2)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。注意:供体2是镰状细胞病的杂合子。
图45描绘用ABE8.8-d(供体2)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。注意:供体2是镰状细胞病的杂合子。
图46描绘用ABE8.13-m(供体2)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。注意:供体2是镰状细胞病的杂合子。
图47描绘用ABE8.13-d(供体2)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。注意:供体2是镰状细胞病的杂合子。
图48A和48B描绘用ABE8.17-d处理的分化的CD34+细胞(供体2;注意:供体2是镰状细胞病的杂合子)的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分(图48A)或ABE8.17-m(供体1)(图48B)。
图49描绘用ABE8.20-d(供体2)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。注意:供体2是镰状细胞病的杂合子。
图50描绘用ABE8.20-m(供体2)处理的分化的CD34+细胞的UHPLC UV-Vis迹线(220nm)和珠蛋白链水平的积分。注意:供体2是镰状细胞病的杂合子。
图51A至51E描绘在两个独立位点用ABE8.8编辑在去核前在红细胞分化后第11天达到超过90%的编辑,在红细胞分化后第18天γ珠蛋白超过α珠蛋白或总β家族珠蛋白的约60%。图51A是描绘在2个独立实验中2个健康供体的ABE8.8编辑平均值的图。使用区分HBG1和HBG2的引物测量编辑效率。图51B是描绘2个独立实验中1个健康供体的平均值的图。使用识别HBG1和HBG2的引物测量编辑效率。图51C是描绘具有杂合E6V突变的供体中ABE8.8的编辑的图。图51D和51E是描绘ABE8.8编辑细胞中γ珠蛋白增加的图。
图52A和52B描绘使用ABE变体校正镰状细胞突变的百分比编辑。图52A是描绘在SCD患者成纤维细胞中具有约70%编辑的不同编辑器变体的屏幕的图。图52B是描绘来自用先导ABE变体编辑的健康供体的CD34细胞的图,靶向位于编辑窗口内的相邻脯氨酸中的同义突变A13,并充当编辑SCD突变的代理。ABE8变体在代理A13上的平均编辑频率约为40%。
图53A至53C描绘RNA扩增子测序以检测与ABE治疗相关的RNA中的细胞A-至-I编辑。显示了单个数据点,误差线代表标准差。对于n=3独立的生物学重复,在不同的日子进行。图53A是描绘与ABE7和Cas9(D10A)切口酶对照相比核心ABE 8构建体的靶向RNA扩增子中的A-至-I编辑频率的图。图53B是描绘ABE8的靶向RNA扩增子中的A-至-I编辑频率的图,其具有据报道改善RNA脱靶编辑的突变。图53C是描绘从用指定构建体处理的细胞分离的细胞mRNA样品中A-至-I突变的最大水平的图。
图54A至54C描绘第八代腺嘌呤碱基编辑器在人类细胞中介导了卓越的A·T到G·C的转换。图54A和54B描绘ABE8和ABE7之间碱基编辑的绝对和倍数变化。Hek293T细胞中八个不同基因组位点靶标内所有‘A’位置的平均ABE8:ABE7 A·T到G·C编辑的表示。位置2-12表示目标腺嘌呤在20-nt原型间隔子内的位置,位置20直接位于-NGG PAM的5'。每个点都显示为与同一位点和位置的ABE7.10编辑器的中值的比较(图54A)显示了在每个位置编辑的绝对差异(ABE8-ABE7)(图54B)。显示了ABE8:ABE7编辑的比率。图54C(顶部)是描绘ABE7.10和ABE8编辑器活动窗口的示意图。数字表示原型间隔子内的位置。目标DNA骨架中诱导切口的位置由三角形表示,并显示了相应的PAM识别序列。图54C(底部)是描绘可靶向位点ABE7与ABE8的比较的热图。每个框显示ClinVar数据库中致病性G->A或C->T SNV变异的数量和百分比(Landrum,M.J.等人ClinVar:public archive of interpretations ofclinically relevant variants.Nucleic Acids Res 44,D862-868,doi:10.1093/nar/gkv1222(2016);Landrum,M.J.等人ClinVar:public archive of relationships amongsequence variation and human phenotype.Nucleic Acids Res42,D980-985,doi:10.1093/nar/gkt1113(2014))可以用ABE7或ABE8靶向。该分析考虑了一个20-nt原型间隔子序列和一个可以靶向NGG或NGA PAM的Cas9。假设ABE7的编辑窗口为5-7,ABE8的编辑窗口为4-8。精确校正意味着只有致病突变在指定窗口内至少在一种可能的间隔子/PAM组合中是可编辑的。如果所有可能的校正策略都涉及其他修饰碱基的修饰,则相应的变体被计入“有旁观者”类别。
图55A至55E描绘使用质粒或mRNA递送通过ABE8构建体进行的DNA在靶碱基编辑、sgRNA依赖性DNA脱靶碱基编辑和sgRNA非依赖性脱靶mRNA编辑。图55A和55B是描绘与ABE7相比核心ABE 8构建体的靶向DNA编辑频率的热图。构建体作为质粒递送(图55A)和作为mRNA(图55B)。图55C和55D是描绘与ABE8相比ABE8的sgRNA依赖性脱靶DNA编辑频率的热图。构建体作为质粒递送(图55C)和作为mRNA(图55D)。图55E是描绘在所示扩增子的125-nt区域中测量的最大A-至-G编辑频率的热图。构建体以质粒(左)和mRNA(右)的形式递送。
显示了在不同天进行的n=3或n=4独立生物学重复的中位数,而不是在图55D,其中一些样本产生<5,000Miseq读数,因此被排除在外;具体而言,HEK4OT3(ABE7.10-dn=1和ABE8.13-mn=2)和HEK4OT4(ABE8.13-d、ABE8.17-d、ABE8.20-m和ABE8.20-dn=2)和在图55E(右)其中ABE8.8-m:对于CTNNB1,n=2。
图56是描绘ABE8指导独立的DNA脱靶分析的示意图。
图57描绘发送用于全基因组测序的每个样品的突变分类图。所有全基因组测序样本中突变类型的分布。样本显著丰富了碱基编辑器创建的类型的突变,用**表示。编辑器创建的类型突变显著减少的样本,用*表示。
图58是描绘来自用碱基编辑器mRNA处理的细胞的全转录组和全基因组测序数据的图。对于每个编辑器,优势比量化了编辑器诱导的突变类型(BE4为C到T,其他为A到G)和每个处理重复中所有其他突变类型的突变频率的倍数变化。未经处理的对照。[***]表示治疗组和未治疗对照组之间的单侧Mann-Whitney U检验的显著p值(<0.05)。
图59A和59B描绘用于在全基因组测序之前对B2M阳性和B2M阴性细胞进行流动分选的门的代表性实例。图59A描绘在未处理条件下分选成单细胞克隆的活B2M阳性HEK293T细胞的代表性图和门。图59B描绘针对所有处理条件(ABE、CBE或Cas9处理的细胞)分选的活的、B2M阴性的HEK293T细胞的代表性图和门。
图60是描绘由跨越HEK293T细胞中8个不同基因组位点的ABE产生的等位基因的图。
图61是描绘人类细胞中12个先前鉴定的sgRNA依赖性Cas9脱靶基因座处的中值插入或缺失频率的热图。显示的数据是在不同日期进行的n=3独立生物学重复的中值。使用质粒递送将构建体施用于HEK293T细胞。
图62是描述用于访问NRNN PAM的所有可能PAM的Cas9变体的表。仅列出了需要识别其PAM中三个或更少定义核苷酸的Cas9变体。非G PAM变体包括SpCas9-NRRH、SpCas9-NRTH和SpCas9-NRCH。
具体实施方式
本公开包含具有提高的效率的新型腺嘌呤碱基编辑器(例如,ABE8)的组合物和使用它们在靶标核碱基序列中产生修饰的方法。
核碱基编辑器
本文公开用于编辑、修饰或改变多核苷酸的靶标核苷酸序列的碱基编辑器或核碱基编辑器。本文描述包含多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,腺苷脱氨酶)的核碱基编辑器或碱基编辑器。多核苷酸可编程核苷酸结合结构域,当与结合的引导多核苷酸(例如,gRNA)结合时,可以特异性结合靶多核苷酸序列(即,通过结合的引导核酸的碱基和靶多核苷酸的碱基之间的互补碱基配对序列),从而将碱基编辑器定位到需要编辑的目标核酸序列。在一些实施方案中,所述靶标多核苷酸序列包含单链DNA或双链DNA。在一些实施方案中,所述靶标多核苷酸序列包含RNA。在一些实施方案中,靶标多核苷酸序列包含DNA-RNA杂交体。
多核苷酸可编程核苷酸结合结构域
应当理解,多核苷酸可编程核苷酸结合结构域还可以包括结合RNA的核酸可编程蛋白。例如,多核苷酸可编程核苷酸结合结构域可以与将多核苷酸可编程核苷酸结合结构域引导至RNA的核酸相关联。其他核酸可编程的DNA结合蛋白也在本公开的范围内,尽管它们未在本公开中具体列出。
碱基编辑器的多核苷酸可编程核苷酸结合结构域本身可以包含一个或多个结构域。例如,多核苷酸可编程核苷酸结合结构域可包含一个或多个核酸酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可包含内切核酸酶或外切核酸酶。在本文中,术语“外切核酸酶”是指能够从游离末端消化核酸(例如,RNA或DNA)的蛋白质或多肽,并且术语“内切核酸酶”是指能够催化(例如,切割)核酸(例如,DNA或RNA)内部的蛋白质或多肽。在一些实施方案中,核酸内切酶可以切割双链核酸的单链。在一些实施方案中,核酸内切酶可以切割双链核酸的双链。在一些实施方案中多核苷酸可编程核苷酸结合结构域可以是脱氧核糖核酸酶。在一些实施方案中多核苷酸可编程核苷酸结合结构域可以是核糖核酸酶。
在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以切割靶标多核苷酸的零、一条或两条链。在一些实施方案中,所述多核苷酸可编程核苷酸结合结构域可包含切口酶结构域。在本文中,术语“切口酶”是指包含核酸酶结构域的多核苷酸可编程核苷酸结合结构域,该核酸酶结构域能够切割双链核酸分子(例如,DNA)中的两条链中的仅一条链。在一些实施方案中,切口酶可以通过将一个或多个突变引入活性多核苷酸可编程核苷酸结合结构域来衍生自完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,在多核苷酸可编程核苷酸结合结构域包含源自Cas9的切口酶结构域的情况下,源自Cas9的切口酶结构域可在位置840处包含D10A突变和组氨酸。在此类实施方案中,残基H840保留催化活性并由此可切割核酸双链体的单链。在另一个实例中,源自Cas9的切口酶结构域可包含H840A突变,而位置10处的氨基酸残基仍为D。在一些实施方案中,通过去除切口酶活性不需要的全部或部分核酸酶结构域,切口酶可源自具有完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,在多核苷酸可编程核苷酸结合结构域包含源自Cas9的切口酶结构域的情况下,源自Cas9的切口酶结构域可包含RuvC结构域或HNH结构域的全部或部分缺失。
示例性催化活性Cas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.
包含包含切口酶域的多核苷酸可编程核苷酸结合结构域的碱基编辑器因此能够在特定多核苷酸靶序列(例如,由结合的引导核酸的互补序列确定)处产生单链DNA断裂(切口)。在一些实施方案中,被包含切口酶结构域(例如,Cas9衍生的切口酶域)的碱基编辑器切割的核酸双链体靶多核苷酸序列的链是未被碱基编辑器编辑的链(即,链被碱基编辑器切割的链与包含要编辑的碱基的链相反)。在其他实施方案中,包含切口酶结构域(例如,Cas9衍生的切口酶结构域)的碱基编辑器可以切割被靶向进行编辑的DNA分子的链。在此类实施方案中,非靶向链未被切割。
本文还提供碱基编辑器,其包含催化死亡的多核苷酸可编程核苷酸结合结构域(即,不能切割靶多核苷酸序列)。在本文中,术语“催化死亡”和“核酸酶死亡”可互换使用,指具有一个或多个突变和/或缺失导致其无法切割核酸链的多核苷酸可编程核苷酸结合结构域。在一些实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域碱基编辑器可能由于一个或多个核酸酶结构域中的特定点突变而缺乏核酸酶活性。例如,在碱基编辑器包含Cas9结构域的情况下,Cas9可以包含D10A突变和H840A突变。此类突变使两个核酸酶结构域失活,从而导致核酸酶活性丧失。在其他实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域可包含催化结构域(例如,RuvC1和/或HNH结构域)的全部或部分的一个或多个缺失。在进一步的实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域包含点突变(例如,D10A或H840A)以及全部或部分核酸酶域的缺失。
本文还考虑了能够从多核苷酸可编程核苷酸结合结构域的先前功能版本产生催化死亡的多核苷酸可编程核苷酸结合结构域的突变。例如,在催化死亡的Cas9(“dCas9”)的情况下,提供具有除D10A和H840A以外的突变的变体,这导致核酸酶失活的Cas9。例如,此类突变包括在D10和H840处的其他氨基酸置换,或Cas9核酸酶域内的其他置换(例如,HNH核酸酶亚域和/或RuvC1亚域中的置换)。基于本公开内容和本领域的知识,其他合适的无核酸酶活性的dCas9结构域对于本领域技术人员来说是显而易见的,并且在本公开内容的范围内。这种额外的示例性合适的无核酸酶活性的Cas9域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变域(参见,例如Prashant等人,CAS9transcriptional activators for target specificity screening and pairednickases for cooperative genome engineering.Nature Biotechnology.2013;31(9):833-8338,其全部内容以引用方式并入。
可并入碱基编辑器的多核苷酸可编程核苷酸结合结构域的非限制性实例包括CRISPR蛋白衍生结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域,其包含天然或修饰的蛋白质或其部分,其通过结合的引导核酸能够在CRISPR期间结合核酸序列(即,成簇的规则间隔的短回文重复序列)介导的核酸修饰。这种蛋白质在本文中称为“CRISPR蛋白”。因此,本文公开包含多核苷酸可编程核苷酸结合结构域的碱基编辑器,所述多核苷酸可编程核苷酸结合结构域包含CRISPR蛋白的全部或一部分(即包含CRISPR蛋白的全部或一部分作为结构域的碱基编辑器,也称为“CRISPR蛋白”基编辑器的衍生结构域”)。与CRISPR蛋白的野生型或天然版本相比,可以对掺入碱基编辑器的CRISPR蛋白衍生结构域进行修饰。例如,如下所述,CRISPR蛋白衍生的结构域可包含一个或多个相对于CRISPR蛋白的野生型或天然形式的突变、插入、缺失、重排和/或重组。
CRISPR是一种适应性免疫系统,可针对移动遗传元件(病毒、转座元件和接合质粒)提供保护。CRISPR簇包含间隔子、与先行移动元件互补的序列和靶标入侵核酸。CRISPR簇被转录并加工成CRISPR RNA(crRNA)。在第II型CRISPR系统中,正确处理pre-crRNA需要转编码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA作为核糖核酸酶3辅助处理pre-crRNA的引导。随后,Cas9/crRNA/tracrRNA核酸内切切割与间隔子互补的线性或环状dsDNA靶标。与crRNA不互补的靶标链首先通过核酸内切方式切割,然后通过核酸外切方式修剪3′-5'。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,可以对单引导RNA(“sgRNA,”或简称为“gRNA”)进行工程改造,以便将crRNA和tracrRNA的各个方面整合到单个RNA种类中。参见,如Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,DoudnaJ.A.,Charpentier E.Science 337:816-821(2012),其全部内容在此引入作为参考。Cas9识别CRISPR重复序列(PAM或原型间隔子相邻基序)中的一个短基序,以帮助区分自我与非自我。
在一些实施方案中,本文所述的方法可以利用工程化的Cas蛋白。向导RNA(gRNA)是一种短的合成RNA,由Cas结合所需的支架序列和用户定义的~20个核苷酸间隔子组成,该间隔子定义了要修改的基因组靶标。因此,本领域技术人员可以改变Cas蛋白的基因组靶标特异性部分取决于gRNA靶向序列与基因组其余部分相比对基因组靶标的特异性。
在一些实施例中,gRNA支架序列如下:GUUUUAGAGC UAGAAAUAGC AAGUUAAAAUAAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU。
在一些实施方案中,掺入碱基编辑器的CRISPR蛋白衍生结构域是当与结合的引导核酸结合时能够结合靶多核苷酸的核酸内切酶(例如,脱氧核糖核酸酶或核糖核酸酶)。在一些实施方案中,掺入碱基编辑器的CRISPR蛋白衍生结构域是当与结合的引导核酸结合时能够结合靶多核苷酸的切口酶。在一些实施方案中,掺入碱基编辑器的CRISPR蛋白衍生结构域是当与结合的引导核酸结合时能够结合靶多核苷酸的催化死亡结构域。在一些实施方案中,由碱基编辑器的CRISPR蛋白衍生结构域结合的靶多核苷酸是DNA。在一些实施方案中,由碱基编辑器的CRISPR蛋白衍生结构域结合的靶多核苷酸是RNA。
可用于本文的Cas蛋白包括第1类和第2类。Cas蛋白的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(也称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、和Cas12i、CARF、DinG、其同源物或其修饰版本。未经修饰的CRISPR酶可以具有DNA切割活性,例如Cas9,其具有两个功能性核酸内切酶结构域:RuvC和HNH。CRISPR酶可以指导切割靶标序列处的一条或两条链,例如在靶标序列内和/或在靶标序列的互补序列内。例如,CRISPR酶可以指导切割距靶标序列的第一个或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多碱基对内的一条或两条链。
可以使用编码CRISPR酶的载体,所述CRISPR酶相对于相应的野生型酶突变,使得突变的CRISPR酶缺乏切割含有靶标序列的靶标多核苷酸的一条或两条链的能力。Cas9可指具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性与野生型示例性Cas9多肽(例如,来自化脓链球菌的Cas9)。Cas9可指具有至多或至多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性与野生型示例性Cas9多肽(例如,来自化脓链球菌的)。Cas9可指Cas9蛋白的野生型或修饰形式,其可包含氨基酸变化,例如缺失、插入、取代、变体、突变、融合、嵌合体或其任何组合。
在一些实施方案中,碱基编辑器的CRISPR蛋白衍生结构域可以包括来自溃疡棒状杆菌(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);螺旋原体(Spiroplasmasyrphidicola)(NCBI Refs:NC_021284.1);中間普雷沃菌(Prevotella intermedia)(NCBIRefs:NC_017861.1);中国台湾螺旋体(Spiroplasma taiwanense,China)(NCBI Refs:NC_021846.1);链球菌(Streptococcus iniae)(NCBI Refs:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Refs:NC_018010.1);扭曲冷弯曲菌(PsychroflexustorquisI)(NCBI Ref:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBIRefs:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Refs:NP_472073.1);曲状杆菌(Campylobacter jejuni)(NCBI Refs:YP_002344900.1);脑膜炎双球菌(Neisseriameningitidis)(NCBI Refs:YP_002342100.1),化脓性链球菌(Streptococcus pyogenes),或金黄色葡萄球菌(Staphylococcus aureus.)
核碱基编辑器的Cas9结构域
Cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,如“Completegenome sequence of an M1 strain of Streptococcus pyogenes.”Ferretti et al.,J.J.,McShan W.M.,Ajdic D.J.,Savic D.J.,Savic G.,Lyon K.,Primeaux C.,SezateS.,SuvorovA.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,Najar F.Z.,RenQ.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.,Chylinski K.,SharmaC.M.,Gonzales K.,Chao Y.,Pirzada Z.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature 471:602-607(2011);和“A programmable dual-RNA-guided DNA endonucleasein adaptivebacterial immunity.”Jinek M.,Chylinski K.,Fonfara I.,Hauer M.,Doudna J.A.,Charpentier E.Science 337:816-821(2012),其每一个的全部内容在此引入作为参考。Cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的Cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski,Rhun,and Charpentier,“ThetracrRNA and Cas9 families of type II CRISPR-Cas immunity systems”(2013)RNABiology 10:5,726-737中公开的生物体和基因座的Cas9序列;其全部内容在此引入作为参考。
在一些实施方案中,核酸可编程DNA结合蛋白(napDNAbp)是Cas9结构域。本文提供非限制性的示例性Cas9结构域。Cas9结构域可以是核酸酶活性Cas9结构域、核酸酶无活性Cas9结构域(dCas9)或Cas9切口酶(nCas9)。在一些实施方案中,所述Cas9结构域是一种具有核酸酶活性的结构域。例如,Cas9结构域可以是切割双链核酸的两条链(例如双链DNA分子的两条链)的Cas9结构域。在一些实施方案中,Cas9结构域包含如本文所述的任一氨基酸序列。在一些实施方案中,所述Cas9结构域包含的氨基酸序列与本文所述的任一氨基酸序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。在一些实施例中,与本文所述的任一氨基酸序列相比,所述Cas9结构域包含的氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本文所述的任一氨基酸序列相比,Cas9结构域包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,提供包含Cas9片段的蛋白。例如,在一些实施例中,蛋白包含两个Cas9结构域之一:(1)Cas9的gRNA结合结构域;或(2)Cas9的DNA切割结构域。在一些实施方案中,包含Cas9或其片段的蛋白被称为“Cas9变体”。Cas9变体与Cas9或其片段具有同源性。例如,Cas9变体与野生型Cas9至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,与野生型Cas9相比,Cas9变体可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的氨基酸变化。在一些实施例中,Cas9变体包含Cas9的片段(例如,gRNA结合结构域或DNA切割结构域),使得该片段与野生型Cas9的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,所述片段是至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%相应野生型Cas9的氨基酸长度。在一些实施例中,所述片段的长度为至少100个氨基酸。在一些实施方案中,所述片段的长度为至少100、150、200、250、300、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或1300个氨基酸。
在一些实施方案中,本文提供的Cas9融合蛋白包含Cas9蛋白的全长氨基酸序列,例如本文提供的Cas9序列之一。然而,在其他实施方案中,本文提供的融合蛋白不包含全长Cas9序列,而仅包含其一个或多个片段。本文提供合适的Cas9结构域和Cas9片段的示例性氨基酸序列,并且Cas9结构域和片段的其他合适的序列对本领域技术人员来说是显而易见的。
Cas9蛋白可以与引导RNA相关联,该引导RNA将Cas9蛋白引导至与引导RNA互补的特定DNA序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是Cas9结构域,例如核酸酶活性Cas9、Cas9切口酶(nCas9)或核酸酶失活Cas9(dCas9)。核酸可编程DNA结合蛋白的例子包括但不限于Cas9(例如dCas9和nCas9)、CasX、CasY、Cpf1、Cas12b/C2C1和Cas12c/C2C3。
在一些实施例中,野生型Cas9对应于来自化脓性链球菌的Cas9(NCBI参考序列:NC_017053.1,核苷酸和氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003302413480001181
(单底线:HNH结构域;双底线:RuvC结构域)
在一些实施方案中,野生型Cas9对应于或包含以下核苷酸和/或氨基酸序列:
ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA
Figure BDA0003302413480001211
Figure BDA0003302413480001221
(单底线:HNH结构域;双底线:RuvC结构域)。
在一些实施例中,野生型Cas9对应于来自化脓性链球菌的Cas9
(NCBI参考序列:NC_002737.2(核苷酸序列如下);和Uniprot参考序列:Q99ZW2(氨基酸序列如下):
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003302413480001241
Figure BDA0003302413480001251
Figure BDA0003302413480001252
(单底线:HNH结构域;双底线:RuvC结构域)
在一些实施方案中,Cas9是指来自以下的Cas9:溃疡棒状杆菌(Corynebacteriumulcerans)(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒杆菌(Corynebacterium diphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);螺旋原体(Spiroplasma syrphidicola)(NCBI Refs:NC_021284.1);中間普雷沃菌(Prevotellaintermedia)(NCBI Refs:NC_017861.1);中国台湾螺旋体(Spiroplasma taiwanense,China)(NCBI Refs:NC_021846.1);链球菌(Streptococcus iniae)(NCBI Refs:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Refs:NC_018010.1);扭曲冷弯曲菌(Psychroflexus torquisI)(NCBI Refs:NC_018721.1);嗜热链球菌(Streptococcusthermophilus)(NCBI Refs:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBIRefs:NP_472073.1);曲状杆菌(Campylobacter jejuni)(NCBI Refs:YP_002344900.1);脑膜炎双球菌(Neisseria meningitidis)(NCBI Refs:YP_002342100.1)或来自任何其他生物体的Cas9。
应当理解,额外的Cas9蛋白(例如,核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9),包括其变体和同系物,在本公开内容的范围内。示例性的Cas9蛋白包括但不限于以下提供的那些。在一些实施方案中,所述Cas9蛋白是核酸酶无活性的Cas9(dCas9)。在一些实施方案中,所述Cas9蛋白是一种Cas9切口酶(nCas9)。在一些实施方案中,所述Cas9蛋白是一种具有核酸酶活性的Cas9。
在一些实施方案中,所述Cas9结构域是一种核酸酶失活的结构域(dCas9)。例如,dCas9结构域可以结合双链核酸分子(例如,通过gRNA分子)而不切割双链核酸分子的任何一条链。在一些实施方案中,核酸酶失活的dCas9结构域包含本文所述氨基酸序列的D10X突变和H840X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸变化。在一些实施方案中,核酸酶失活的dCas9结构域包含本文所述氨基酸序列的D10A突变和H840A突变,或本文提供的任何氨基酸序列中的相应突变。作为一个例子,无核酸酶活性的Cas9结构域包含在克隆载体pPlatTET-gRNA2(登录号BAV54124)中列出的氨基酸序列。
示例性无催化活性的Cas9(dCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(参见,例如,Qi等人,“Repurposing CRISPR as an RNA-guided platform forsequence-specific control of gene expression.”Cell.2013;152(5):1173-83,其全部内容以引用方式并入本文)。
基于本公开内容和本领域的知识,其他合适的无核酸酶活性的dCas9结构域对于本领域技术人员来说是显而易见的,并且在本公开内容的范围内。这种额外的示例性合适的无核酸酶活性的Cas9域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变域(参见,例如Prashant等人,CAS9 transcriptional activators fortarget specificity screening and paired nickases for cooperative genome engineering.NatureBiotechnology.2013;31(9):833-8338,其全部内容以引用方式并入。
在一些实施方案中,Cas9核酸酶具有无活性(例如,失活的)DNA切割结构域,即,Cas9是切口酶,称为“nCas9”蛋白(对于“切口酶”Cas9)。核酸酶失活的Cas9蛋白可互换地称为“dCas9”蛋白(对于核酸酶-“死的”Cas9)或催化失活的Cas9。用于产生具有无活性DNA切割结构域的Cas9蛋白(或其片段)的方法是已知的(参见,如Jinek et al.,Science.337:816-821(2012);Qi等人“Repurposing CRISPR as an RNA-Guided Platform forSequence-Specific Control of Gene Expression”(2013)Cell.28;152(5):1173-83,其全部内容以引用方式并入本文)。例如,已知Cas9的DNA切割结构域包括两个子结构域,HNH核酸酶子结构域和RuvC1子结构域。HNH子结构域切割与gRNA互补的链,而RuvC1子结构域切割非互补链。这些子结构域内的突变可以使Cas9的核酸酶活性静默。例如,突变D10A和H840A使化脓性链球菌Cas9的核酸酶活性完全失活(Jinek et al.,Science.337:816-821(2012);Qi等人,Cell.28:152(5):1173-83(2013))。
在一些实施方案中,所述dCas9结构域包含的氨基酸序列与本文所述的任一Cas9结构域的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。在一些实施例中,与本文所述的任一氨基酸序列相比,所述Cas9结构域包含的氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本文所述的任一氨基酸序列相比,Cas9结构域包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,dCas9对应于或部分或全部包含具有一个或多个使Cas9核酸酶活性失活的突变的Cas9氨基酸序列。例如,在一些实施方案中,dCas9结构域包含D10A和H840A突变或另一个Cas9中的相应突变。
在一些实施例中,dCas9包含dCas9(D10A和H840A)的氨基酸序列:
Figure BDA0003302413480001281
Figure BDA0003302413480001291
Figure BDA0003302413480001292
(单底线:HNH结构域;双底线:RuvC结构域)。
在一些实施方案中,所述Cas9结构域包含D10A突变,而840位的残基在上文提供的氨基酸序列中或在本文提供的任何氨基酸序列中的相应位置处仍为组氨酸
在其他实施方案中,提供具有除D10A和H840A之外的突变的dCas9变体,其例如导致核酸酶失活的Cas9(dCas9)。例如,此类突变包括在D10和H840处的其他氨基酸置换,或Cas9核酸酶域内的其他置换(例如,HNH核酸酶亚域和/或RuvC1亚域中的置换)。在一些实施例中,提供dCas9的变体或同源物,其至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供具有较短或较长约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方案中,所述Cas9结构域是一种Cas9切口酶。Cas9切口酶可以是仅能够切割双链核酸分子(例如双链DNA分子)的一条链的Cas9蛋白。在一些实施方案中,Cas9切口酶切割双链核酸分子的靶链,意味着Cas9切口酶切割与结合至Cas9的gRNA(例如,sgRNA)碱基配对(互补)的链。在一些实施方案中,Cas9切口酶包含D10A突变并且在位置840处具有组氨酸。在一些实施方案中,Cas9切口酶切割双链核酸分子的非靶标、非碱基编辑链,这意味着Cas9切口酶切割不与与Cas9结合的gRNA(例如,sgRNA)碱基配对的链。在一些实施方案中,Cas9切口酶包含H840A突变并且在位置10处具有天冬氨酸残基或相应的突变。在一些实施方案中,所述Cas9切口酶包含的氨基酸序列与本文所述的任一Cas9切口酶的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。基于本公开内容和本领域的知识,其他合适的Cas9切口酶对于本领域技术人员来说是显而易见的,并且在本公开内容的范围内。
示例性催化活性Cas9切口酶(nCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在一些实施方案中,Cas9是指来自古细菌(例如纳米古细菌)的Cas9,其构成单细胞原核微生物的域和界。在一些实施例中,可编程核苷酸结合蛋白可以是CasX或CasY蛋白,其已被描述在例如,Burstein等人,"New CRISPR-Cas systems from uncultivatedmicrobes."Cell Res.2017Feb 21.doi:10.1038/cr.2017.21,其全部内容以引用方式并入本文。使用基因组解析的宏基因组学,确定了许多CRISPR-Cas系统,包括在古细菌领域首次报道的Cas9。这种发散的Cas9蛋白在很少被研究的纳米古细菌中被发现,作为活性CRISPR-Cas系统的一部分。在细菌中,发现了两个以前未知的系统,CRISPR-CasX和CRISPR-CasY,它们是迄今为止发现的最紧凑的系统之一。在一些实施例中,在本文所述的碱基编辑器系统中,Cas9被CasX或CasX的变体替代。在一些实施例中,在本文所述的碱基编辑器系统中,Cas9被CasY或CasY的变体替代。应当理解,其他RNA引导的DNA结合蛋白可以用作核酸可编程DNA结合蛋白(napDNAbp),并且在本公开的范围内。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是CasX或CasY蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的CasX或CasY蛋白相同。在一些实施方案中,可编程核苷酸结合蛋白是天然存在的CasX或CasY蛋白。在一些实施方案中,可编程核苷酸结合蛋白包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何CasX或CasY蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的CasX和CasY。
示例性的CasX((uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)tr|F0NN87|F0NN87_SULIHCRISPR-相关Casx蛋白OS=冰岛硫化叶菌(菌株HVE10/4)GN=SiH_0402PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTG SKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG.
示例性的CasX(>tr|F0NH53|F0NH53_SULIR CRISPR相关蛋白,Casx OS=冰岛硫化叶菌(菌株REY15A)GN=SiRe_0771PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG.
Delta變形菌CasX
MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDfAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
示例性的CasY((ncbi.nlm.nih.gov/蛋白/APG80656.1)>APG80656.1 CRISPR-相关蛋白CasY[未培养的俭菌(Parcubacteria)菌群])氨基酸序列如下:
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI.
Cas9核酸酶具有两个功能性核酸内切酶结构域:RuvC和HNH。Cas9在靶标结合后发生构象变化,定位核酸酶结构域以切割靶标DNA的相反链。Cas9介导的DNA切割的最终结果是靶标DNA(PAM序列上游约3-4个核苷酸)内的双链断裂(DSB)。然后通过以下两种一般修复途径之一修复产生的DSB:(1)高效但容易出错的非同源末端连接(NHEJ)途径;或(2)效率较低但保真度高的同源定向修复(HDR)途径。
非同源末端连接(NHEJ)和/或同源定向修复(HDR)的“效率”可以通过任何方便的方法计算。例如,在一些实施例中,效率可以用成功HDR的百分比来表示。例如,Surveyor核酸酶测定可用于产生切割产物,并且产物与底物的比率可用于计算百分比。例如,可以使用surveyor核酸酶直接切割含有作为成功HDR的结果的新整合的限制性序列的DNA。更多裂解的底物表明更高的HDR百分比(更高的HDR效率)。作为说明性示例,可以使用以下等式[(裂解产物)/(底物加裂解产物)](例如,(b+c)/(a+b+c)计算HDR的分数(百分比),其中“a”是DNA底物的条带强度,“b”和“c”是切割产物)。
在一些实施例中,效率可以用成功NHEJ的百分比来表示。例如,T7核酸内切酶I测定可用于产生切割产物,并且产物与底物的比率可用于计算NHEJ百分比。T7核酸内切酶I切割由野生型和突变DNA链杂交产生的错配异源双链DNA(NHEJ在原始断裂位点产生小的随机插入或缺失(indels))。更多裂解表明更高的NHEJ百分比(更高的NHEJ效率)。作为说明性示例,NHEJ的分数(百分比)可以使用以下等式计算:(1-(1-(b+c)/(a+b+c))1/2)×100,其中“a”是DNA底物的条带强度,“b”和“c”是切割产物(Ran等人,Cell.2013Sep.12;154(6):1380-9;以及Ran et al.,Nat Protoc.2013Nov.;8(11):2281–2308)。
NHEJ修复途径是最活跃的修复机制,它经常导致DSB位点的小核苷酸插入或缺失(indels)。NHEJ介导的DSB修复的随机性具有重要的实际意义,因为表达Cas9和gRNA或引导多核苷酸的细胞群会导致多种突变。在大多数实施方案中,NHEJ在靶DNA中产生小的插入缺失,导致氨基酸缺失、插入或移码突变,导致靶标基因的开放阅读框(ORF)内的过早终止密码子。理想的最终结果是靶标基因内的功能丧失突变。
虽然NHEJ介导的DSB修复经常破坏基因的开放阅读框,但同源定向修复(HDR)可用于产生特定的核苷酸变化,范围从单个核苷酸变化到大插入,如添加荧光团或标签。为了利用HDR进行基因编辑,可以使用gRNA和Cas9或Cas9切口酶将包含所需序列的DNA修复模板递送到感兴趣的细胞类型中。修复模板可以包含所需的编辑以及紧邻靶标上游和下游的其他同源序列(称为左右同源臂)。每个同源臂的长度取决于引入的变化的大小,更大的插入需要更长的同源臂。修复模板可以是单链寡核苷酸、双链寡核苷酸或双链DNA质粒。即使在表达Cas9、gRNA和外源修复模板的细胞中,HDR的效率通常也很低(<10%的修饰等位基因)。HDR的效率可以通过同步细胞来提高,因为HDR发生在细胞周期的S和G2阶段。NHEJ中涉及的化学或遗传抑制基因也可以增加HDR频率。
在一些实施例中,Cas9是经过修饰的Cas9给定的gRNA靶向序列可以在整个基因组中具有额外的位点,其中存在部分同源性。。这些位点称为脱靶位点,在设计gRNA时需要加以考虑。除了优化gRNA设计,还可以通过对Cas9的修改来提高CRISPR的特异性。Cas9通过两个核酸酶域RuvC和HNH的联合活性产生双链断裂(DSB)。Cas9切口酶是SpCas9的D10A突变体,保留一个核酸酶结构域并产生DNA切口而不是DSB。切口酶系统还可以与HDR介导的基因编辑相结合,以进行特定的基因编辑。
在一些实施例中,Cas9是一种变体Cas9蛋白。变体Cas9多肽具有与野生型Cas9蛋白的氨基酸序列相比相差一个氨基酸的氨基酸序列(例如,具有缺失、插入、取代、融合)。在一些情况下,变体Cas9多肽具有降低Cas9多肽的核酸酶活性的氨基酸变化(例如,缺失、插入或取代)。例如,在一些情况下,变体Cas9多肽具有少于50%、少于40%、少于30%、少于20%、少于10%、少于5%或少于1%的相应的野生型Cas9蛋白的核酸酶活性。在一些实施方案中,变体Cas9蛋白没有实质性核酸酶活性。当主题Cas9蛋白是没有实质性核酸酶活性的变体Cas9蛋白时,它可以被称为“dCas9”。
在一些实施方案中,变体Cas9蛋白具有降低的核酸酶活性。例如,变体Cas9蛋白表现出小于约20%、小于约15%、小于约10%、小于约5%、小于约1%或小于约0.1%的野生型Cas9蛋白的核酸内切酶活性,例如野生型Cas9蛋白。
在一些实施方案中,变体Cas9蛋白可以切割引导靶标序列的互补链,但切割双链引导标靶序列的非互补链的能力降低。例如,变体Cas9蛋白可以具有降低RuvC结构域功能的突变(氨基酸取代)。作为非限制性实例,在一些实施方案中,变体Cas9蛋白具有D10A(在氨基酸位置10处天冬氨酸到丙氨酸)并且因此可以切割双链引导靶标序列的互补链但切割非-双链引导靶标序列的互补链(因此当变体Cas9蛋白切割双链靶核酸时导致单链断裂(SSB)而不是双链断裂(DSB))(参见,例如,Jinek等人,Science.2012Aug.17;337(6096):816-21)。
在一些实施方案中,变体Cas9蛋白可以切割双链引导靶标序列的非互补链,但切割引导靶标序列的互补链的能力降低。例如,变体Cas9蛋白可以具有降低HNH结构域(RuvC/HNH/RuvC结构域基序)功能的突变(氨基酸取代)。作为非限制性实例,在一些实施方案中,变体Cas9蛋白具有H840A(在氨基酸位置840处组氨酸到丙氨酸)突变,因此可以切割引导靶标序列的非互补链,但切割引导靶标序列的互补链的能力降低(从而导致当变异Cas9蛋白切割双链引导靶标序列时,使用SSB而不是DSB)。此类Cas9蛋白切割引导靶标序列(例如,单链引导靶标序列)的能力降低,但保留结合引导靶标序列(例如,单链引导靶标序列)的能力。
在一些实施方案中,变体Cas9蛋白切割双链靶标DNA的互补链和非互补链的能力降低。作为非限制性实例,在一些实施方案中,变体Cas9蛋白包含D10A和H840A突变两者,使得多肽切割双链靶标DNA的互补链和非互补链的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有W476A和W1126A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有H840A、W476A和W1126A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有H840A、D10A、W476A和W1126A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些实施方案中,变体Cas9在Cas9HNH结构域(A840H)中的位置840处恢复了催化性His残基。
作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些实施方案中,当变体Cas9蛋白包含W476A和W1126A突变或当变体Cas9蛋白包含P475A、W476A、N477A、D1125A、W1126A和D1127A突变时,变体Cas9蛋白不与PAM序列有效结合。因此,在一些此类实施方案中,当此类变体Cas9蛋白用于结合方法时,该方法不需要PAM序列。换言之,在一些实施方案中,当这种变体Cas9蛋白用于结合方法中时,该方法可以包括引导RNA,但是该方法可以在不存在PAM序列的情况下进行(并且结合的特异性是因此由引导RNA的靶向片段提供)。可以突变其他残基以实现上述效果(即灭活一个或其他核酸酶部分)。作为非限制性实例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即,被取代)。此外,丙氨酸取代以外的突变也是合适的。
在一些实施方案中,具有降低的催化活性的变体Cas9蛋白(例如,当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变时例如,D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A),变体Cas9蛋白仍然可以以位点特异性方式结合靶标DNA(因为它仍然被引导RNA引导到靶标DNA序列),只要它保留与引导RNA相互作用的能力。
在一些实施方案中,变体Cas蛋白可以是spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK或spCas9-LRVSQL。
在一些实施方案中,使用包括氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)并且对改变的PAM 5’-NGC具有特异性的修饰的SpCas9。
化脓性链球菌Cas9的替代品可以包括来自Cpf1家族的RNA引导的核酸内切酶,它们在哺乳动物细胞中显示出切割活性。来自普雷沃氏菌和弗朗西斯菌1(CRISPR/Cpf1)的CRISPR是一种类似于CRISPR/Cas9系统的DNA编辑技术。Cpf1是II类CRISPR/Cas系统的RNA引导的核酸内切酶。这种获得性免疫机制存在于普氏菌和弗朗西斯菌中。Cpf1基因与CRISPR基因座相关,编码内切核酸酶,使用引导RNA来寻找和切割病毒DNA。Cpf1是一种比Cas9更小、更简单的核酸内切酶,克服了CRISPR/Cas9系统的一些限制。与Cas9核酸酶不同,Cpf1介导的DNA切割的结果是具有短3'突出端的双链断裂。Cpf1的交错切割模式可以开辟定向基因转移的可能性,类似于传统的限制酶克隆,可以提高基因编辑的效率。与上述Cas9变体和直向同源物一样,Cpf1还可以将CRISPR可靶向的位点数量扩大到富含AT的区域或富含AT的基因组,这些区域缺乏SpCas9青睐的NGG PAM位点。Cpf1基因座包含一个混合的α/β结构域、一个RuvC-I后跟一个螺旋区域、一个RuvC-II和一个锌指样结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域。此外,Cpf1没有HNH核酸内切酶结构域,并且Cpf1的N末端没有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构表明Cpf1在功能上是独一无二的,被归类为2类V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2和Cas4蛋白更类似于I型和III型,而不是来自II型系统。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA),因此,只需要CRISPR(crRNA)。这有利于基因组编辑,因为Cpf1不仅比Cas9小,而且它的sgRNA分子更小(大约是Cas9的一半核苷酸)。与Cas9靶向的富含G的PAM相比,Cpf1-crRNA复合物通过识别原型间隔子相邻基序5'-YTN-3'来切割靶标DNA或RNA。鉴定PAM后,Cpf1引入了一个粘性末端样DNA双链断裂,有4或5个核苷酸突出端。
在一些实施方案中,Cas9是对改变的PAM序列具有特异性的Cas9变体。在一些实施方案中,额外的Cas9变体和PAM序列在Miller,S.M.等人,Continuous evolution ofSpCas9 variants compatible with non-G PAMs,Nat.Biotechnol.(2020)中有所描述,其全部内容以引用方式并入本文。在一些实施例中,Cas9变体没有特定的PAM要求。在一些实施例中,Cas9变体,例如SpCas9变体对NRNH PAM具有特异性,其中R是A或G并且H是A、C或T。在一些实施方案中,SpCas9变体对PAM序列AAA、TAA、CAA、GAA、TAT、GAT或CAC具有特异性。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、134、137、127、137 1320、1321、1323、1332、1333、1335、1337或1339或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335或1337或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ IDNO:1的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349或其相应位置包含氨基酸取代。SpCas9变体的示例性氨基酸取代和PAM特异性显示在表1A至1D中。
表1A.
Figure BDA0003302413480001411
表1B.
Figure BDA0003302413480001421
表1C.
Figure BDA0003302413480001422
表1D.
Figure BDA0003302413480001431
在一些实施方案中,Cas9是脑膜炎双球菌Cas9(NmeCas9)或其变体。在一些实施方案中,NmeCas9对NNNNGAYW PAM具有特异性,其中Y是C或T并且W是A或T。在一些实施方案中,NmeCas9对NNNNGYTT PAM具有特异性,其中Y是C或T。在一些实施方案中,NmeCas9对NNNNGTCT PAM具有特异性。在一些实施方案中,所述NmeCas9是Nme1Cas9。在一些实施方案中,NmeCas9对NNNNGATT PAM、NNNNCCTA PAM、NNNNCCTC PAM、NNNNCCTT PAM、NNNNCCTG PAM、NNNNCCGT PAM、NNNNCCGGPAM、NNNNCCCA PAM、NNNNCCCT PAM、NNNNCCCC PAM、NNNNCCAT PAM、NNNNCCAG PAM、NNNNCCAT PAM或NNNGATT PAM具有特异性。在一些实施方案中,Nme1Cas9对NNNNGATT PAM、NNNNCCTA PAM、NNNNCCTC PAM、NNNNCCTT PAM或NNNNCCTG PAM具有特异性。在一些实施方案中,NmeCas9对CAA PAM、CAAA PAM或CCA PAM具有特异性。在一些实施方案中,所述NmeCas9是Nme2 Cas9。在一些实施例中,NmeCas9对NNNNCC(N4CC)PAM具有特异性,其中N是A、G、C或T中的任何一个。在一些实施例中,NmeCas9对NNNNCCGT PAM、NNNNCCGGPAM、NNNNCCCA PAM、NNNNCCCT PAM、NNNNCCCC PAM、NNNNCCAT PAM、NNNNCCAG PAM、NNNNCCAT PAM或NNNGATT PAM具有特异性。在一些实施方案中,所述NmeCas9是Nme3Cas9。在一些实施方案中,NmeCas9对NNNNCAAA PAM、NNNNCC PAM或NNNNCNNN PAM具有特异性。额外的NmeCas9特征和PAM序列,如Edraki等人Mol.Cell.(2019)73(4):714-726所述,以引用的方式全文并入本文。
以下提供Nme1Cas9的示例性氨基酸序列:
II型CRISPR RNA引导的核酸内切酶Cas9[脑膜炎双球菌]WP_002235162.1
Figure BDA0003302413480001441
以下提供Nme2Cas9的示例性氨基酸序列:
II型CRISPR RNA引导的核酸内切酶Cas9[脑膜炎双球菌]WP_002230835.1
Figure BDA0003302413480001442
Figure BDA0003302413480001451
核碱基编辑器的Cas12结构域
通常,微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应复合物,而2类系统具有单个蛋白质效应子。例如,Cas9和Cpf1是2类效应子,尽管类型不同(分别为II型和V型)。除了Cpf1,2类V型CRISPR-Cas系统还包括Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i)。参见,例如,Shmakov等人,“Discovery and Functional Characterization of Diverse Class 2CRISPR CasSystems,”Mol.Cell,2015Nov.5;60(3):385-397;Makarova等人,Classification andNomenclature of CRISPR-Cas Systems:Where from Here?”CRISPR Journal,2018,1(5):325-336;Yan等人,“Functionally diverse type V CRISPR-Cas systems,”Science.88-91;其全部内容以引用方式并入本文。V型Cas蛋白包含一个RuvC(或RuvC样)核酸内切酶结构域。虽然成熟CRISPR RNA(crRNA)的生产通常不依赖于tracrRNA,但例如,Cas12b/C2c1需要tracrRNA来生产crRNA。Cas12b/C2c1依赖crRNA和tracrRNA进行DNA切割。
本公开内容中考虑的核酸可编程DNA结合蛋白包括归类为第2类V型(Cas12蛋白)的Cas蛋白。Cas 2类V型蛋白的非限制性实例包括Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i、其同源物或其修饰形式。如本文所用,Cas12蛋白也可称为Cas12核酸酶、Cas12结构域或Cas12蛋白结构域。在一些实施方案中,本公开的Cas12蛋白包含被内部融合蛋白结构域例如脱氨酶结构域中断的氨基酸序列。
在一些实施方案中,所述Cas12结构域是无核酸酶活性的Cas12结构域或Cas12切口酶。在一些实施方案中,所述Cas12结构域是一种具有核酸酶活性的结构域。例如,所述Cas12结构域可以是在双链核酸(例如双链DNA分子)的一条链上形成切口的Cas12结构域。在一些实施方案中,Cas12结构域包含如本文所述的任一氨基酸序列。在一些实施方案中,所述Cas12结构域包含的氨基酸序列与本文所述的任一氨基酸序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。在一些实施例中,与本文所述的任一氨基酸序列相比,所述Cas12结构域包含的氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本文所述的任一氨基酸序列相比,Cas12结构域包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,提供包含Cas12片段的蛋白。例如,在一些实施例中,蛋白包含两个Cas12结构域之一:(1)Cas12的gRNA结合结构域;或(2)Cas12的DNA切割结构域。在一些实施方案中,包含Cas12或其片段的蛋白被称为“Cas12变体”。Cas12变体与Cas12或其片段具有同源性。例如,Cas12变体与野生型Cas12至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,与野生型Cas12相比,Cas12变体可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的氨基酸变化。在一些实施例中,Cas12变体包含Cas12的片段(例如,gRNA结合结构域或DNA切割结构域),使得该片段与野生型Cas12的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,所述片段是至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%相应野生型Cas12的氨基酸长度。在一些实施例中,所述片段的长度为至少100个氨基酸。在一些实施方案中,所述片段的长度为至少100、150、200、250、300、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或1300个氨基酸。
在一些实施方案中,Cas12对应于或部分或全部包含具有一个或多个使Cas12核酸酶活性改变的突变的Cas12氨基酸序列。举例来说,此类突变包括Cas12的RuvC核酸酶结构域内的氨基酸取代。在一些实施例中,提供Cas12的变体或同源物,其与野生型Cas12至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供Cas12的变体,其具有较短或较长约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方案中,本文提供的Cas12融合蛋白包含Cas12蛋白的全长氨基酸序列,例如本文提供的Cas12序列之一。然而,在其他实施方案中,本文提供的融合蛋白不包含全长Cas12序列,而仅包含其一个或多个片段。本文提供合适的Cas12结构域的示例性氨基酸序列,并且Cas12结构域和片段的其他合适的序列对本领域技术人员来说是显而易见的。
通常,第2类V型Cas蛋白具有单个功能性RuvC核酸内切酶结构域(参见,例如,Chen等人,“CRISPR-Cas12a target binding unleashes indiscriminate-stranded DNaseactivity,”Science360:436-439(2018)))。在一些实施例中,所述Cas12是一种变体Cas12b蛋白。(参见Strecker等人,Nature Communications,2019,10(1):Art.No.:212)。变体Cas12多肽具有与野生型Cas12蛋白的氨基酸序列相比相差一个氨基酸的氨基酸序列(例如,具有缺失、插入、取代、融合)。在一个实施方案中,当与氨基酸序列相比时,变体Cas12多肽具有相差1、2、3、4、5个或更多个氨基酸的氨基酸序列(例如,具有缺失、插入、取代、融合)野生型Cas12蛋白。例如,在一些情况下,变体Cas12是Cas12b多肽,其具有少于50%、少于40%、少于30%、少于20%、少于10%、少于5%或少于1%的相应的野生型Cas12b蛋白的切口酶活性。在某些情况下,变体Cas12b蛋白没有实质性切口酶活性。
在某些情况下,变体Cas12b蛋白具有降低的切口酶活性。例如,变体Cas12b蛋白表现出小于约20%、小于约15%、小于约10%、小于约5%、小于约1%或小于约0.1%的野生型Cas12b蛋白的切口酶活性。
在一些实施方案中,Cas12蛋白包括来自Cas12a/Cpf1家族的RNA引导的核酸内切酶,其在哺乳动物细胞中表现出活性。来自普雷沃氏菌和弗朗西斯菌1(CRISPR/Cpf1)的CRISPR是一种类似于CRISPR/Cas9系统的DNA编辑技术。Cpf1是II类CRISPR/Cas系统的RNA引导的核酸内切酶。这种获得性免疫机制存在于普氏菌和弗朗西斯菌中。Cpf1基因与CRISPR基因座相关,编码内切核酸酶,使用引导RNA来寻找和切割病毒DNA。Cpf1是一种比Cas9更小、更简单的核酸内切酶,克服了CRISPR/Cas9系统的一些限制。与Cas9核酸酶不同,Cpf1介导的DNA切割的结果是具有短3'突出端的双链断裂。Cpf1的交错切割模式可以开辟定向基因转移的可能性,类似于传统的限制酶克隆,可以提高基因编辑的效率。与上述Cas9变体和直向同源物一样,Cpf1还可以将CRISPR可靶向的位点数量扩大到富含AT的区域或富含AT的基因组,这些区域缺乏SpCas9青睐的NGG PAM位点。Cpf1基因座包含一个混合的α/β结构域、一个RuvC-I后跟一个螺旋区域、一个RuvC-II和一个锌指样结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域。此外,Cpf1不像Cas9,其没有HNH核酸内切酶结构域,并且Cpf1的N末端没有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构表明Cpf1在功能上是独一无二的,被归类为2类V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2和Cas4蛋白更类似于I型和III型,而不是II型系统。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA),因此,只需要CRISPR(crRNA)。这有利于基因组编辑,因为Cpf1不仅比Cas9小,而且它的sgRNA分子更小(大约是Cas9的一半核苷酸)。与Cas9靶向的富含G的PAM相比,Cpf1-crRNA复合物通过识别原型间隔子相邻基序5’-YTN-3’或5'-TTTN-3'来切割靶标DNA或RNA。鉴定PAM后,Cpf1引入了一个粘性末端样DNA双链断裂,具有4或5个核苷酸的突出端。
在本公开的一些方面,载体编码一种CRISPR酶,该酶相对于相应的野生型酶发生突变,使得突变的CRISPR酶缺乏切割含有靶序列的靶多核苷酸的一条或两条链的能力可以使用。Cas12可指具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性与野生型示例性Cas12多肽(例如,来自外村尚芽孢杆菌的Cas12)。Cas12可指具有至多或至多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性与野生型示例性Cas12多肽(例如,来自外村尚芽孢杆菌(BhCas12b)、芽孢杆菌属V3-13(BvCas12b)和嗜酸脂环酸芽孢杆菌(AaCas12b))。Cas12可指Cas12蛋白的野生型或修饰形式,其可包含氨基酸变化,例如缺失、插入、取代、变体、突变、融合、嵌合体或其任何组合。
核酸可编程DNA结合蛋白
本公开的一些方面提供融合蛋白,其包含的结构域充当核酸可编程的DNA结合蛋白,其可以用于引导蛋白质,如碱编辑,到特定的核酸(例如,DNA或RNA)序列。在特定实施方案中,融合蛋白包含核酸可编程DNA结合蛋白结构域和脱氨酶结构域。核酸可编程DNA结合蛋白的非限制性实例包括Cas9(例如dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g和Cas12i。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5,II型Cas效应蛋白、V型Cas效应蛋白、VI型蛋白质、CARF、DinG、其同源物或其修饰或工程化版本。其他核酸可编程的DNA结合蛋白也在本公开的范围内,尽管它们可能未在本公开中具体列出。参见,如Makarova等人,“Classification andNomenclature ofCRISPR-Cas Systems:Where from Here?”CRISPR J.2018Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等人,“Functionally diverse type V CRISPR-Cas systems”Science.2019Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,其全部内容以引用方式并入本文。
具有与Cas9不同的PAM特异性的核酸可编程DNA结合蛋白的一个例子是来自普雷沃氏菌和弗朗西斯氏菌1(Cpf1)的成簇规则间隔短回文重复序列。与Cas9类似,Cpf1也是2类CRISPR效应子。已经表明,Cpf1介导强大的DNA干扰,其特征与Cas9不同。Cpf1是一种单一的RNA引导的内切核酸酶,缺乏tracrRNA,它利用富含T的原型间隔子相邻基序(TTN、TTTN或YTN)。此外,Cpf1通过交错的DNA双链断裂来切割DNA。在16个Cpf1家族蛋白中,来自胺基酸球菌属和毛螺菌的两种酶被证明在人类细胞中具有有效的基因组编辑活性。Cpf1蛋白是本领域已知的并且之前已经描述过,例如Yamano等人,“Crystal structure of Cpf1 incomplex with guide RNA and target DNA.”Cell(165)2016,p.949-962;其全部内容以引用方式并入本文。.
在本组合物和方法中有用的是核酸酶失活的Cpf1(dCpf1)变体,其可用作引导核苷酸序列可编程的DNA结合蛋白结构域。Cpf1蛋白具有与Cas9的RuvC结构域相似但不具有HNH核酸内切酶结构域的RuvC样核酸内切酶结构域,且Cpf1的N端不具有Cas9的α-螺旋识别叶。Zetsche等人,Cell,163,759-771,2015(通过引用并入本文)表明,Cpf1的RuvC样结构域负责切割两条DNA链并使RuvC样结构域失活灭活Cpf1核酸酶活性。例如,与新生弗朗西斯氏菌Cpf1中的D917A、E1006A或D1255A对应的突变使Cpf1核酸酶活性失活。在一些实施方案中,本公开的dCpf1包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A或D917A/E1006A/D122的突变。应当理解,根据本公开可以使用使Cpf1的RuvC结构域失活的任何突变,例如置换突变、缺失或插入。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是Cpf1蛋白。在一些实施方案中,所述Cpf1蛋白是一种Cpf1切口酶(nCpf1)。在一些实施方案中,所述Cpf1蛋白是核酸酶失活的Cpf1(dCpf1)。在一些实施方案中,所述Cpf1、所述nCpf1或所述dCpf1包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何Cpf1蛋白相同。在一些实施方案中,dCpfl包含至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文公开的Cpf1序列相同,并且包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A的突变E1006A/D1255A或D917A/E1006A/D1255A。应当理解,根据本公开也可以使用来自其他细菌物种的Cpf1。
野生型弗朗西斯菌Cpf1(D917、E1006和D1255以粗体和底线表示)
Figure BDA0003302413480001511
Figure BDA0003302413480001521
弗朗西斯菌Cpf1 D917A(A917、E1006和D1255以粗体和底线表示)
Figure BDA0003302413480001522
Figure BDA0003302413480001531
弗朗西斯菌Cpf1 E1006A(D917、A1006和D1255以粗体和底线表示)
MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNKDNLAQISIKYQNQGKKDLLQASAEDDVKAIKDLLDQTNNLLHKLKIFHISQSEDKANILDKDEHFYLVFEECYFELANIVPLYNKIRNYITQKPYSDEKFKLNFENSTLANGWDKNKEPDNTAILFIKDDKYYLGVMNKKNNKIFDDKAIKENKGEGYKKIVYKLLPGANKMLPKVFFSAKSIKFYNPSEDILRIRNHSTHTKNGSPQKGYEKFEFNIEDCRKFIDFYKQSISKHPEWKDFGFRFSDTQRYNSIDEFYREVENQGYKLTFENISESYIDSVVNQGKLYLFQIYNKDFSAYSKGRPNLHTLYWKALFDERNLQDVVYKLNGEAELFYRKQSIPKKITHPAKEAIANKNKDNPKKESVFEYDLIKDKRFTEDKFFFHCPITINFKSSGANKFNDEINLLLKEKANDVHILSIDRGERHLAYYTLVDGKGNIIKQDTFNIIGNDRMKTNYHDKLAAIEKDRDSARKDWKKINNIKEMKEGYLSQVVHEIAKLVIEYNAIVVFADLNFGFKRGRFKVEKQVYQKLEKMLIEKLNYLVFKDNEFDKTGGVLRAYQLTAPFETFKKMGKQTGIIYYVPAGFTSKICPVTGFVNQLYPKYESVSKSQEFFSKFDKICYNLDKGYFEFSFDYKNFGDKAAKGKWTIASFGSRLINFRNSDKNHNWDTREVYPTKELEKLLKDYSIEYGHGECIKAAICGESDKKFFAKLTSVLNTILQMRNSKTGTELDYLISPVADVNGNFFDSRQAPKNMPQDADANGAYHIGLKGLMLLGRIKNNQEGKKLNLVIKNEEYFEFVQNRNN
弗朗西斯菌Cpf1 D1255A(D917、E1006和A1255以粗体和底线表示)
Figure BDA0003302413480001541
弗朗西斯菌Cpf1Cpf1 D917A/E1006A(A917、A1006和D1255以粗体和底线表示)
Figure BDA0003302413480001551
弗朗西斯菌Cpf1Cpf1 D917A/D1255A(A917、E1006和A1255以粗体和底线表示)
Figure BDA0003302413480001552
Figure BDA0003302413480001561
弗朗西斯菌Cpf1Cpf1 E1006A/D1255A(D917、A1006和A1255以粗体和底线表示)
Figure BDA0003302413480001562
Figure BDA0003302413480001571
弗朗西斯菌Cpf1Cpf1 D917A/E1006A/D1225A(A917、A1006和A1255以粗体和底线表示)
Figure BDA0003302413480001572
Figure BDA0003302413480001581
在一些实施方案中,融合蛋白中存在的Cas9结构域之一可以被对PAM序列没有要求的引导核苷酸序列可编程的DNA结合蛋白结构域替换。
在一些实施方案中,所述Cas9结构域是来自金黄色葡萄球菌的Cas9结构域(SaCas9)。在一些实施方案中,SaCas9结构域是核酸酶活性的SaCas9、核酸酶失活的SaCas9(SaCas9d)或SaCas9切口酶(SaCas9n)。在一些实施方案中,SaCas9包含N579A突变,或本文提供的任何氨基酸序列中的相应突变。
在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可结合具有非规范PAM的核酸序列。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可结合具有NNGRRT或NNGRRT PAM序列的核酸序列。在一些实施方案中,SaCas9结构域包含E781X、N967X和R1014X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SaCas9结构域包含E781K、N967K和R1014H突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SaCas9结构域包含E781K、N967K或R1014H突变,或本文提供的任何氨基酸序列中的相应突变。
示例性SaCas9序列
Figure BDA0003302413480001582
Figure BDA0003302413480001591
上述加底线和粗体的残基N579可以突变(例如,突变到A579)以产生SaCas9切口酶。
示例性SaCas9n序列
Figure BDA0003302413480001592
上述的残基A579可以从N579突变以产生SaCas9切口酶,用底线和粗体表示。
示例性SaKKH Cas9
Figure BDA0003302413480001601
上述的残基A579可以从N579突变以产生SaCas9切口酶,用底线和粗体表示。上述的残基K781、K967和H1014,可以从E781、N967和R1014突变以产生SaKKH Cas9,用底线和斜体表示。
在一些实施方案中,napDNAbp是一个循环置换。在以下序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列。
CP5(带有MSP“NGC”PID和“D10A”切口酶):
Figure BDA0003302413480001602
Figure BDA0003302413480001611
在一些实施方案中,核酸可编程DNA结合蛋白(napDNAbp)是微生物CRISPR-Cas系统的单一效应物。微生物CRISPR-Cas系统的单一效应子包括但不限于Cas9、Cpf1、Cas12b/C2c1和Cas12c/C2c3。通常,微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应复合物,而2类系统具有单个蛋白质效应子。例如,Cas9和Cpf1是2类效应子。除了Cas9和Cpf1,三个不同的2类CRISPR-Cas系统(Cas12b/C2c1和Cas12c/C2c3)由Shmakov等人于“Discovery and Functional Characterization of Diverse Class 2CRISPR CasSystems”,Mol.Cell,2015Nov.5;60(3):385-397中描述,全部内容以引用方式并入本文。其中两个系统Cas12b/C2c1和Cas12c/C2c3的效应子包含与Cpf1相关的RuvC样核酸内切酶结构域。第三个系统包含一个具有两个预测HEPN RNase域的效应子。成熟CRISPR RNA的产生不依赖于tracrRNA,这与Cas12b/C2c1产生的CRISPR RNA不同。Cas12b/C2c1依赖CRISPRRNA和tracrRNA进行DNA切割。
据报道,嗜酸脂环酸芽孢杆菌(Alicyclobaccillus acidoterrastris)Cas12b/C2c1(AacC2c1)的晶体结构与嵌合单分子向导RNA(sgRNA)复合。参见如,Liu等人,“C2c1-sgRNA Complex Structure Reveals RNA-Guided DNA Cleavage Mechanism”,Mol.Cell,2017Jan.19;65(2):310-322,其全部内容以引用方式并入本文。在以三元复合物形式与靶标DNA结合的嗜酸脂环酸芽孢杆菌C2c1中也报道了晶体结构。参见如,Yang等人,“PAM-dependent Target DNA Recognition and Cleavage by C2C1 CRISPR-Casendonuclease”,Cell,2016Dec.15;167(7):1814-1828,其全部内容以引用方式并入本文。AacC2c1的具有催化能力的构象,包括靶标DNA链和非靶标DNA链,已被独立地捕获在单个RuvC催化口袋内,Cas12b/C2c1介导的切割导致靶标DNA的七核苷酸交错断裂。Cas12b/C2c1三元复合物与先前鉴定的Cas9和Cpf1对应物之间的结构比较证明了CRISPR-Cas9系统使用的机制的多样性。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp是Cas12b/C2c1蛋白。在一些实施方案中,napDNAbp是Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白相同。在一些实施方案中,napDNAbp是天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文提供的任何一种napDNAbp序列相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12b/C2c1或Cas12c/C2c3。
A Cas12b/C2c1((uniprot.org/uniprot/T0D7A2#2)sp|T0D7A2|C2C1_ALIAGCRISPR-相关核酸内切酶C2c1 OS=嗜酸脂环酸芽孢杆菌(菌株ATCC 49025/DSM 3922/CIP106132/NCIMB 13137/GD3B)GN=c2c1 PE=1SV=1)氨基酸序列如下:
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMV NQRIEGYLVKQIRSRVPLQDSACENTGDI
AacCas12b(嗜酸脂环酸芽孢杆菌)-WP_067623834
MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI
BhCas12b(外村尚芽孢杆菌)NCBI参考序列:WP_095142515
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK
包括称为BvCas12b V4的变体(S893R/K846R/E837G相对于上述野生型的变化)。BhCas12b(V4)表达如下:5’mRNA Cap---5’UTR---bhCas12b---停止序列---3’UTR---120多A尾5’UTR:GGGAAATAAGAGAGAAAAGAAGAGTAAGAAGAAATATAAGA GCCACC
3’UTR(TriLink标准UTR)
GCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTTCCTGCACCCGTACCCCCGTGGTCTTTGAATAAAGTCTGA
bhCas12b的核酸序列(V4)
ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCCGCCACCAGATCCTTCATCCTGAAGATCGAGCCCAACGAGGAAGTGAAGAAAGGCCTCTGGAAAACCCACGAGGTGCTGAACCACGGAATCGCCTACTACATGAATATCCTGAAGCTGATCCGGCAAGAGGCCATCTACGAGCACCACGAGCAGGACCCCAAGAATCCCAAGAAGGTGTCCAAGGCCGAGATCCAGGCCGAGCTGTGGGATTTCGTGCTGAAGATGCAGAAGTGCAACAGCTTCACACACGAGGTGGACAAGGACGAGGTGTTCAACATCCTGAGAGAGCTGTACGAGGAACTGGTGCCCAGCAGCGTGGAAAAGAAGGGCGAAGCCAACCAGCTGAGCAACAAGTTTCTGTACCCTCTGGTGGACCCCAACAGCCAGTCTGGAAAGGGAACAGCCAGCAGCGGCAGAAAGCCCAGATGGTACAACCTGAAGATTGCCGGCGATCCCTCCTGGGAAGAAGAGAAGAAGAAGTGGGAAGAAGATAAGAAAAAGGACCCGCTGGCCAAGATCCTGGGCAAGCTGGCTGAGTACGGACTGATCCCTCTGTTCATCCCCTACACCGACAGCAACGAGCCCATCGTGAAAGAAATCAAGTGGATGGAAAAGTCCCGGAACCAGAGCGTGCGGCGGCTGGATAAGGACATGTTCATTCAGGCCCTGGAACGGTTCCTGAGCTGGGAGAGCTGGAACCTGAAAGTGAAAGAGGAATACGAGAAGGTCGAGAAAGAGTACAAGACCCTGGAAGAGAGGATCAAAGAGGACATCCAGGCTCTGAAGGCTCTGGAACAGTATGAGAAAGAGCGGCAAGAACAGCTGCTGCGGGACACCCTGAACACCAACGAGTACCGGCTGAGCAAGAGAGGCCTTAGAGGCTGGCGGGAAATCATCCAGAAATGGCTGAAAATGGACGAGAACGAGCCCTCCGAGAAGTACCTGGAAGTGTTCAAGGACTACCAGCGGAAGCACCCTAGAGAGGCCGGCGATTACAGCGTGTACGAGTTCCTGTCCAAGAAAGAGAACCACTTCATCTGGCGGAATCACCCTGAGTACCCCTACCTGTACGCCACCTTCTGCGAGATCGACAAGAAAAAGAAGGACGCCAAGCAGCAGGCCACCTTCACACTGGCCGATCCTATCAATCACCCTCTGTGGGTCCGATTCGAGGAAAGAAGCGGCAGCAACCTGAACAAGTACAGAATCCTGACCGAGCAGCTGCACACCGAGAAGCTGAAGAAAAAGCTGACAGTGCAGCTGGACCGGCTGATCTACCCTACAGAATCTGGCGGCTGGGAAGAGAAGGGCAAAGTGGACATTGTGCTGCTGCCCAGCCGGCAGTTCTACAACCAGATCTTCCTGGACATCGAGGAAAAGGGCAAGCACGCCTTCACCTACAAGGATGAGAGCATCAAGTTCCCTCTGAAGGGCACACTCGGCGGAGCCAGAGTGCAGTTCGACAGAGATCACCTGAGAAGATACCCTCACAAGGTGGAAAGCGGCAACGTGGGCAGAATCTACTTCAACATGACCGTGAACATCGAGCCTACAGAGTCCCCAGTGTCCAAGTCTCTGAAGATCCACCGGGACGACTTCCCCAAGGTGGTCAACTTCAAGCCCAAAGAACTGACCGAGTGGATCAAGGACAGCAAGGGCAAGAAACTGAAGTCCGGCATCGAGTCCCTGGAAATCGGCCTGAGAGTGATGAGCATCGACCTGGGACAGAGACAGGCCGCTGCCGCCTCTATTTTCGAGGTGGTGGATCAGAAGCCCGACATCGAAGGCAAGCTGTTTTTCCCAATCAAGGGCACCGAGCTGTATGCCGTGCACAGAGCCAGCTTCAACATCAAGCTGCCCGGCGAGACACTGGTCAAGAGCAGAGAAGTGCTGCGGAAGGCCAGAGAGGACAATCTGAAACTGATGAACCAGAAGCTCAACTTCCTGCGGAACGTGCTGCACTTCCAGCAGTTCGAGGACATCACCGAGAGAGAGAAGCGGGTCACCAAGTGGATCAGCAGACAAGAGAACAGCGACGTGCCCCTGGTGTACCAGGATGAGCTGATCCAGATCCGCGAGCTGATGTACAAGCCTTACAAGGACTGGGTCGCCTTCCTGAAGCAGCTCCACAAGAGACTGGAAGTCGAGATCGGCAAAGAAGTGAAGCACTGGCGGAAGTCCCTGAGCGACGGAAGAAAGGGCCTGTACGGCATCTCCCTGAAGAACATCGACGAGATCGATCGGACCCGGAAGTTCCTGCTGAGATGGTCCCTGAGGCCTACCGAACCTGGCGAAGTGCGTAGACTGGAACCCGGCCAGAGATTCGCCATCGACCAGCTGAATCACCTGAACGCCCTGAAAGAAGATCGGCTGAAGAAGATGGCCAACACCATCATCATGCACGCCCTGGGCTACTGCTACGACGTGCGGAAGAAGAAATGGCAGGCTAAGAACCCCGCCTGCCAGATCATCCTGTTCGAGGATCTGAGCAACTACAACCCCTACGAGGAAAGGTCCCGCTTCGAGAACAGCAAGCTCATGAAGTGGTCCAGACGCGAGATCCCCAGACAGGTTGCACTGCAGGGCGAGATCTATGGCCTGCAAGTGGGAGAAGTGGGCGCTCAGTTCAGCAGCAGATTCCACGCCAAGACAGGCAGCCCTGGCATCAGATGTAGCGTCGTGACCAAAGAGAAGCTGCAGGACAATCGGTTCTTCAAGAATCTGCAGAGAGAGGGCAGACTGACCCTGGACAAAATCGCCGTGCTGAAAGAGGGCGATCTGTACCCAGACAAAGGCGGCGAGAAGTTCATCAGCCTGAGCAAGGATCGGAAGTGCGTGACCACACACGCCGACATCAACGCCGCTCAGAACCTGCAGAAGCGGTTCTGGACAAGAACCCACGGCTTCTACAAGGTGTACTGCAAGGCCTACCAGGTGGACGGCCAGACCGTGTACATCCCTGAGAGCAAGGACCAGAAGCAGAAGATCATCGAAGAGTTCGGCGAGGGCTACTTCATTCTGAAGGACGGGGTGTACGAATGGGTCAACGCCGGCAAGCTGAAAATCAAGAAGGGCAGCTCCAAGCAGAGCAGCAGCGAGCTGGTGGATAGCGACATCCTGAAAGACAGCTTCGACCTGGCCTCCGAGCTGAAAGGCGAAAAGCTGATGCTGTACAGGGACCCCAGCGGCAATGTGTTCCCCAGCGACAAATGGATGGCCGCTGGCGTGTTCTTCGGAAAGCTGGAACGCATCCTGATCAGCAAGCTGACCAACCAGTACTCCATCAGCACCATCGAGGACGACAGCAGCAAGCAGTCTATGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG
在一些实施方案中,所述Cas12b是BvCas12B。在一些实施方案中,Cas12b包含氨基酸取代S893R、K846R和E837G,如下文提供的BvCas12B示例性序列中编号。
BvCas12b(芽孢杆菌属V3-13)NCBI参考序列:WP_101661451.1
MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQEAIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLLEGMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKNNKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEIVQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPYVGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSDNNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL
在一些实施例中,Cas12b是BTCas12b.BTCas12b(嗜热淀粉芽孢杆菌)NCBI参考序列:WP_041902512
MATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDVVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPFTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEHKTLEERIKEDIQAFKSLEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKFVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKLVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWGNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSM
在一些实施例中,napDNAbp是指Cas12c。在一些实施方案中,所述Cas12c是Cas12c1或Cas12c1的变体。在一些实施方案中,所述Cas12是Cas12c2或Cas12c2的变体。在一些实施方案中,所述Cas12蛋白是来自嗜油菌属(Oleiphilus sp.)HI0009(即OspCas12c)的Cas12c蛋白或OspCas12c的变体。这些Cas12c分子已在Yan等人,“Functionally DiverseType V CRISPR-Cas Systems,”Science,2019Jan.4;363:88-91中描述;全部内容以引用方式并入本文。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的Cas12c1、Cas12c2或OspCas12c蛋白相同。在一些实施方案中,napDNAbp是天然存在的Cas12c1、Cas12c2或OspCas12c蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何Cas12c1、Cas12c2或OspCas12c蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12c1、Cas12c2或OspCas12c。
Cas12c1
MQTKKTHLHLISAKASRKYRRTIACLSDTAKKDLERRKQSGAADPAQELSCLKTIKFKLEVPEGSKLPSFDRISQIYNALETIEKGSLSYLLFALILSGFRIFPNSSAAKTFASSSCYKNDQFASQIKEIFGEMVKNFIPSELESILKKGRRKNNKDWTEENIKRVLNSEFGRKNSEGSSALFDSFLSKFSQELFRKFDSWNEVNKKYLEAAELLDSMLASYGPFDSVCKMIGDSDSRNSLPDKSTIAFTNNAEITVDIESSVMPYMAIAALLREYRQSKSKAAPVAYVQSHLTTTNGNGLSWFFKFGLDLIRKAPVSSKQSTSDGSKSLQELFSVPDDKLDGLKFIKEACEALPEASLLCGEKGELLGYQDFRTSFAGHIDSWVANYVNRLFELIELVNQLPESIKLPSILTQKNHNLVASLGLQEAEVSHSLELFEGLVKNVRQTLKKLAGIDISSSPNEQDIKEFYAFSDVLNRLGSIRNQIENAVQTAKKDKIDLESAIEWKEWKKLKKLPKLNGLGGGVPKQQELLDKALESVKQIRHYQRIDFERVIQWAVNEHCLETVPKFLVDAEKKKINKESSTDFAAKENAVRFLLEGIGAAARGKTDSVSKAAYNWFVVNNFLAKKDLNRYFINCQGCIYKPPYSKRRSLAFALRSDNKDTIEVVWEKFETFYKEISKEIEKFNIFSQEFQTFLHLENLRMKLLLRRIQKPIPAEIAFFSLPQEYYDSLPPNVAFLALNQEITPSEYITQFNLYSSFLNGNLILLRRSRSYLRAKFSWVGNSKLIYAAKEARLWKIPNAYWKSDEWKMILDSNVLVFDKAGNVLPAPTLKKVCEREGDLRLFYPLLRQLPHDWCYRNPFVKSVGREKNVIEVNKEGEPKVASALPGSLFRLIGPAPFKSLLDDCFFNPLDKDLRECMLIVDQEISQKVEAQKVEASLESCTYSIAVPIRYHLEEPKVSNQFENVLAIDQGEAGLAYAVFSLKSIGEAETKPIAVGTIRIPSIRRLIHSVSTYRKKKQRLQNFKQNYDSTAFIMRENVTGDVCAKIVGLMKEFNAFPVLEYDVKNLESGSRQLSAVYKAVNSHFLYFKEPGRDALRKQLWYGGDSWTIDGIEIVTRERKEDGKEGVEKIVPLKVFPGRSVSARFTSKTCSCCGRNVFDWLFTEKKAKTNKKFNVNSKGELTTADGVIQLFEADRSKGPKFYARRKERTPLTKPIAKGSYSLEEIERRVRTNLRRAPKSKQSRDTSQSQYFCVYKDCALHFSGMQADENAAINIGRRFLTALRKNRRSDFPSNVKISDRLLDN
Cas12c2
MTKHSIPLHAFRNSGADARKWKGRIALLAKRGKETMRTLQFPLEMSEPEAAAINTTPFAVAYNAIEGTGKGTLFDYWAKLHLAGFRFFPSGGAATIFRQQAVFEDASWNAAFCQQSGKDWPWLVPSKLYERFTKAPREVAKKDGSKKSIEFTQENVANESHVSLVGASITDKTPEDQKEFFLKMAGALAEKFDSWKSANEDRIVAMKVIDEFLKSEGLHLPSLENIAVKCSVETKPDNATVAWHDAPMSGVQNLAIGVFATCASRIDNIYDLNGGKLSKLIQESATTPNVTALSWLFGKGLEYFRTTDIDTIMQDFNIPASAKESIKPLVESAQAIPTMTVLGKKNYAPFRPNFGGKIDSWIANYASRLMLLNDILEQIEPGFELPQALLDNETLMSGIDMTGDELKELIEAVYAWVDAAKQGLATLLGRGGNVDDAVQTFEQFSAMMDTLNGTLNTISARYVRAVEMAGKDEARLEKLIECKFDIPKWCKSVPKLVGISGGLPKVEEEIKVMNAAFKDVRARMFVRFEEIAAYVASKGAGMDVYDALEKRELEQIKKLKSAVPERAHIQAYRAVLHRIGRAVQNCSEKTKQLFSSKVIEMGVFKNPSHLNNFIFNQKGAIYRSPFDRSRHAPYQLHADKLLKNDWLELLAEISATLMASESTEQMEDALRLERTRLQLQLSGLPDWEYPASLAKPDIEVEIQTALKMQLAKDTVTSDVLQRAFNLYSSVLSGLTFKLLRRSFSLKMRFSVADTTQLIYVPKVCDWAIPKQYLQAEGEIGIAARVVTESSPAKMVTEVEMKEPKALGHFMQQAPHDWYFDASLGGTQVAGRIVEKGKEVGKERKLVGYRMRGNSAYKTVLDKSLVGNTELSQCSMIIEIPYTQTVDADFRAQVQAGLPKVSINLPVKETITASNKDEQMLFDRFVAIDLGERGLGYAVFDAKTLELQESGHRPIKAITNLLNRTHHYEQRPNQRQKFQAKFNVNLSELRENTVGDVCHQINRICAYYNAFPVLEYMVPDRLDKQLKSVYESVTNRYIWSSTDAHKSARVQFWLGGETWEHPYLKSAKDKKPLVLSPGRGASGKGTSQTCSCCGRNPFDLIKDMKPRAKIAVVDGKAKLENSELKLFERNLESKDDMLARRHRNERAGMEQPLTPGNYTVDEIKALLRANLRRAPKNRRTKDTTVSEYHCVFSDCGKTMHADENAAVNIGGKFIADIEK
OspCas12c
MTKLRHRQKKLTHDWAGSKKREVLGSNGKLQNPLLMPVKKGQVTEFRKAFSAYARATKGEMTDGRKNMFTHSFEPFKTKPSLHQCELADKAYQSLHSYLPGSLAHFLLSAHALGFRIFSKSGEATAFQASSKIEAYESKLASELACVDLSIQNLTISTLFNALTTSVRGKGEETSADPLIARFYTLLTGKPLSRDTQGPERDLAEVISRKIASSFGTWKEMTANPLQSLQFFEEELHALDANVSLSPAFDVLIKMNDLQGDLKNRTIVFDPDAPVFEYNAEDPADIIIKLTARYAKEAVIKNQNVGNYVKNAITTTNANGLGWLLNKGLSLLPVSTDDELLEFIGVERSHPSCHALIELIAQLEAPELFEKNVFSDTRSEVQGMIDSAVSNHIARLSSSRNSLSMDSEELERLIKSFQIHTPHCSLFIGAQSLSQQLESLPEALQSGVNSADILLGSTQYMLTNSLVEESIATYQRTLNRINYLSGVAGQINGAIKRKAIDGEKIHLPAAWSELISLPFIGQPVIDVESDLAHLKNQYQTLSNEFDTLISALQKNFDLNFNKALLNRTQHFEAMCRSTKKNALSKPEIVSYRDLLARLTSCLYRGSLVLRRAGIEVLKKHKIFESNSELREHVHERKHFVFVSPLDRKAKKLLRLTDSRPDLLHVIDEILQHDNLENKDRESLWLVRSGYLLAGLPDQLSSSFINLPIITQKGDRRLIDLIQYDQINRDAFVMLVTSAFKSNLSGLQYRANKQSFVVTRTLSPYLGSKLVYVPKDKDWLVPSQMFEGRFADILQSDYMVWKDAGRLCVIDTAKHLSNIKKSVFSSEEVLAFLRELPHRTFIQTEVRGLGVNVDGIAFNNGDIPSLKTFSNCVQVKVSRTNTSLVQTLNRWFEGGKVSPPSIQFERAYYKKDDQIHEDAAKRKIRFQMPATELVHASDDAGWTPSYLLGIDPGEYGMGLSLVSINNGEVLDSGFIHINSLINFASKKSNHQTKVVPRQQYKSPYANYLEQSKDSAAGDIAHILDRLIYKLNALPVFEALSGNSQSAADQVWTKVLSFYTWGDNDAQNSIRKQHWFGASHWDIKGMLRQPPTEKKPKPYIAFPGSQVSSYGNSQRCSCCGRNPIEQLREMAKDTSIKELKIRNSEIQLFDGTIKLFNPDPSTVIERRRHNLGPSRIPVADRTFKNISPSSLEFKELITIVSRSIRHSPEFIAKKRGIGSEYFCAYSDCNSSLNSEANAAANVAQKFQKQLFFEL
在一些实施例中,napDNAbp是指Cas12g、Cas12h或Cas12i,其已在例如,Yan等人,“Functionally Diverse Type V CRISPR-Cas Systems,”Science,2019Jan.4;363:88-91中描述;其全部内容以引用方式并入本文。通过聚合超过10TB的序列数据,确定了V型Cas蛋白的新分类,这些分类与先前表征的V类蛋白(包括Cas12g、Cas12h和Cas12i)表现出弱相似性。在一些实施方案中,所述Cas12是Cas12g或Cas12g的变体。在一些实施方案中,所述Cas12是Cas12h或Cas12h的变体。在一些实施方案中,所述Cas12是Cas12i或Cas12i的变体。应当理解,其他RNA引导的DNA结合蛋白可以用作napDNAbp,并且在本公开的范围内。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的Cas12g、Cas12h或Cas12i蛋白相同。在一些实施方案中,napDNAbp是天然存在的Cas12g、Cas12h或Cas12i蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何Cas12g、Cas12h或Cas12i蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12g、Cas12h或Cas12i。在一些实施方案中,所述Cas12i是Cas12i1或Cas12i2。
Cas12g1
MAQASSTPAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAEPTETFWKFFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRLKDYQPAHRMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRICPAARLLQNKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRYMNLKEETLRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSVKRHSIAKIFGENYFQADFKNSVVGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRVPHKRSRFDCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQAFPLKIVKIEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAAKKATLQPFDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRIRRKVTEKAVERGMRVVTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEIELPTAIP
Cas12h1
MKVHEIPRSQLLKIKQYEGSFVEWYRDLQEDRKKFASLLFRWAAFGYAAREDDGATYISPSQALLERRLLLGDAEDVAIKFLDVLFKGGAPSSSCYSLFYEDFALRDKAKYSGAKREFIEGLATMPLDKIIERIRQDEQLSKIPAEEWLILGAEYSPEEIWEQVAPRIVNVDRSLGKQLRERLGIKCRRPHDAGYCKILMEVVARQLRSHNETYHEYLNQTHEMKTKVANNLTNEFDLVCEFAEVLEEKNYGLGWYVLWQGVKQALKEQKKPTKIQIAVDQLRQPKFAGLLTAKWRALKGAYDTWKLKKRLEKRKAFPYMPNWDNDYQIPVGLTGLGVFTLEVKRTEVVVDLKEHGKLFCSHSHYFGDLTAEKHPSRYHLKFRHKLKLRKRDSRVEPTIGPWIEAALREITIQKKPNGVFYLGLPYALSHGIDNFQIAKRFFSAAKPDKEVINGLPSEMVVGAADLNLSNIVAPVKARIGKGLEGPLHALDYGYGELIDGPKILTPDGPRCGELISLKRDIVEIKSAIKEFKACQREGLTMSEETTTWLSEVESPSDSPRCMIQSRIADTSRRLNSFKYQMNKEGYQDLAEALRLLDAMDSYNSLLESYQRMHLSPGEQSPKEAKFDTKRASFRDLLRRRVAHTIVEYFDDCDIVFFEDLDGPSDSDSRNNALVKLLSPRTLLLYIRQALEKRGIGMVEVAKDGTSQNNPISGHVGWRNKQNKSEIYFYEDKELLVMDADEVGAMNILCRGLNHSVCPYSFVTKAPEKKNDEKKEGDYGKRVKRFLKDRYGSSNVRFLVASMGFVTVTTKRPKDALVGKRLYYHGGELVTHDLHNRMKDEIKYLVEKEVLARRVSLSDSTIKSYKSFAHV
Cas12i1
MSNKEKNASETRKAYTTKMIPRSHDRMKLLGNFMDYLMDGTPIFFELWNQFGGGIDRDIISGTANKDKISDDLLLAVNWFKVMPINSKPQGVSPSNLANLFQQYSGSEPDIQAQEYFASNFDTEKHQWKDMRVEYERLLAELQLSRSDMHHDLKLMYKEKCIGLSLSTAHYITSVMFGTGAKNNRQTKHQFYSKVIQLLEESTQINSVEQLASIILKAGDCDSYRKLRIRCSRKGATPSILKIVQDYELGTNHDDEVNVPSLIANLKEKLGRFEYECEWKCMEKIKAFLASKVGPYYLGSYSAMLENALSPIKGMTTKNCKFVLKQIDAKNDIKYENEPFGKIVEGFFDSPYFESDTNVKWVLHPHHIGESNIKTLWEDLNAIHSKYEEDIASLSEDKKEKRIKVYQGDVCQTINTYCEEVGKEAKTPLVQLLRYLYSRKDDIAVDKIIDGITFLSKKHKVEKQKINPVIQKYPSFNFGNNSKLLGKIISPKDKLKHNLKCNRNQVDNYIWIEIKVLNTKTMRWEKHHYALSSTRFLEEVYYPATSENPPDALAARFRTKTNGYEGKPALSAEQIEQIRSAPVGLRKVKKRQMRLEAARQQNLLPRYTWGKDFNINICKRGNNFEVTLATKVKKKKEKNYKVVLGYDANIVRKNTYAAIEAHANGDGVIDYNDLPVKPIESGFVTVESQVRDKSYDQLSYNGVKLLYCKPHVESRRSFLEKYRNGTMKDNRGNNIQIDFMKDFEAIADDETSLYYFNMKYCKLLQSSIRNHSSQAKEYREEIFELLRDGKLSVLKLSSLSNLSFVMFKVAKSLIGTYFGHLLKKPKNSKSDVKAPPITDEDKQKADPEMFALRLALEEKRLNKVKSKKEVIANKIVAKALELRDKYGPVLIKGENISDTTKKGKKSSTNSFLMDWLARGVANKVKEMVMMHQGLEFVEVNPNFTSHQDPFVHKNPENTFRARYSRCTPSELTEKNRKEILSFLSDKPSKRPTNAYYNEGAMAFLATYGLKKNDVLGVSLEKFKQIMANILHQRSEDQLLFPSRGGMFYLATYKLDADATSVNWNGKQFWVCNADLVAAYNVGLVDIQKDFKKK
Cas12i2
MSSAIKSYKSVLRPNERKNQLLKSTIQCLEDGSAFFFKMLQGLFGGITPEIVRFSTEQEKQQQDIALWCAVNWFRPVSQDSLTHTIASDNLVEKFEEYYGGTASDAIKQYFSASIGESYYWNDCRQQYYDLCRELGVEVSDLTHDLEILCREKCLAVATESNQNNSIISVLFGTGEKEDRSVKLRITKKILEAISNLKEIPKNVAPIQEIILNVAKATKETFRQVYAGNLGAPSTLEKFIAKDGQKEFDLKKLQTDLKKVIRGKSKERDWCCQEELRSYVEQNTIQYDLWAWGEMFNKAHTALKIKSTRNYNFAKQRLEQFKEIQSLNNLLVVKKLNDFFDSEFFSGEETYTICVHHLGGKDLSKLYKAWEDDPADPENAIVVLCDDLKNNFKKEPIRNILRYIFTIRQECSAQDILAAAKYNQQLDRYKSQKANPSVLGNQGFTWTNAVILPEKAQRNDRPNSLDLRIWLYLKLRHPDGRWKKHHIPFYDTRFFQEIYAAGNSPVDTCQFRTPRFGYHLPKLTDQTAIRVNKKHVKAAKTEARIRLAIQQGTLPVSNLKITEISATINSKGQVRIPVKFDVGRQKGTLQIGDRFCGYDQNQTASHAYSLWEVVKEGQYHKELGCFVRFISSGDIVSITENRGNQFDQLSYEGLAYPQYADWRKKASKFVSLWQITKKNKKKEIVTVEAKEKFDAICKYQPRLYKFNKEYAYLLRDIVRGKSLVELQQIRQEIFRFIEQDCGVTRLGSLSLSTLETVKAVKGIIYSYFSTALNASKNNPISDEQRKEFDPELFALLEKLELIRTRKKKQKVERIANSLIQTCLENNIKFIRGEGDLSTTNNATKKKANSRSMDWLARGVFNKIRQLAPMHNITLFGCGSLYTSHQDPLVHRNPDKAMKCRWAAIPVKDIGDWVLRKLSQNLRAKNIGTGEYYHQGVKEFLSHYELQDLEEELLKWRSDRKSNIPCWVLQNRLAEKLGNKEAVVYIPVRGGRIYFATHKVATGAVSIVFDQKQVWVCNADHVAAANIALTVKGIGEQSSDEENPDGSRIKLQLTS
碱基编辑器的代表性核酸和蛋白质序列如下:
在P153的BhCas12b GGSGGS-ABE8-Xten20
Figure BDA0003302413480001741
Figure BDA0003302413480001751
Figure BDA0003302413480001761
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
在K255的BhCas12b GGSGGS-ABE8-Xten20
Figure BDA0003302413480001771
Figure BDA0003302413480001781
Figure BDA0003302413480001791
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-Xten20 at D306
Figure BDA0003302413480001801
Figure BDA0003302413480001811
Figure BDA0003302413480001821
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREI IQKWLKMDGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
在D980的BhCas12b GGSGGS-ABE8-Xten20
Figure BDA0003302413480001831
Figure BDA0003302413480001841
Figure BDA0003302413480001851
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
在K1019的BhCas12b GGSGGS-ABE8-Xten20
Figure BDA0003302413480001861
Figure BDA0003302413480001871
Figure BDA0003302413480001881
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
对于上面的序列,Kozak序列用粗体和底线表示;标记N端核定位信号(NLS);小写字符表示GGGSGGS接头;标记编码ABE8的序列,未修改的序列编码BhCas12b;双底线表示Xten20接头;单底线表示C端NLS;GGATCC表示GS接头;斜体字符代表3x血凝素(HA)标签的编码序列。
引导多核苷酸
在一个实施方案中,引导多核苷酸是引导RNA。RNA/Cas复合物可以帮助将Cas蛋白“引导”到靶标DNA。Cas9/crRNA/tracrRNA核酸内切切割与间隔子互补的线性或环状dsDNA靶标。与crRNA不互补的靶标链首先通过核酸内切方式切割,然后通过核酸外切方式修剪3’-5'。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,可以对单引导RNA(“sgRNA,”或简称为“gRNA”)进行工程改造,以便将crRNA和tracrRNA的各个方面整合到单个RNA种类中。参见,如Jinek M.等人,Science 337:816-821(2012),其全部内容在此引入作为参考。Cas9识别CRISPR重复序列(PAM或原型间隔子相邻基序)中的一个短基序,以帮助区分自我与非自我。Cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,如“Complete genome sequence of an M1 strain of Streptococcus pyogenes.”Ferretti,J.J.et al.,Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNAmaturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等人,Nature 471:602-607(2011);以及“Programmable dual-RNA-guided DNAendonuclease in adaptive bacterial immunity.”Jinek M.等人,Science 337:816-821(2012),全部内容以引用方式并入本文)。Cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的Cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski,Rhun,and Charpentier,“The tracrRNA and Cas9families of type II CRISPR-Cas immunitysystems”(2013)RNA Biology 10:5,726-737中公开的生物体和基因座的Cas9序列;其全部内容在此引入作为参考。在一些实施方案中,Cas9核酸酶具有无活性(例如,失活)DNA切割结构域,即Cas9是切口酶。
在一些实施方案中,所述引导多核苷酸是至少一种单一引导RNA(“sgRNA”或“gRNA”)。在一些实施方案中,所述引导多核苷酸是至少一种tracrRNA。在一些实施方案中,引导多核苷酸不需要PAM序列来将多核苷酸可编程的DNA结合结构域(例如,Cas9或Cpf1)引导至靶标核苷酸序列。
本文公开的碱基编辑器的多核苷酸可编程核苷酸结合结构域(例如,CRISPR衍生结构域)可以通过与引导多核苷酸关联来识别靶标多核苷酸序列。引导多核苷酸(例如,gRNA)通常是单链的并且可以被编程为位点特异性地结合(即,通过互补碱基配对)多核苷酸的靶标序列,从而将与引导核酸结合的碱基编辑器导向靶标序列。引导多核苷酸可以是DNA。引导多核苷酸可以是RNA。在一些实施方案中,所述引导多核苷酸包含天然核苷酸(例如,腺苷)。在一些实施方案中,所述引导多核苷酸包含非天然(或非天然)核苷酸(例如,肽核酸或核苷酸类似物)。在一些实施方案中,所述引导核酸序列的靶向区域的长度可以是至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个氨基酸。引导核酸的靶向区域的长度可以在10至30个核苷酸之间,或长度在15至25个核苷酸之间,或长度在15至20个核苷酸之间。
在一些实施方案中,引导多核苷酸包含两个或更多个单独的多核苷酸,它们可以通过例如互补碱基配对(例如,双引导多核苷酸)彼此相互作用。例如,引导多核苷酸可包含CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)。例如,引导多核苷酸可包含一种或多种反式激活CRISPR RNA(tracrRNA)。
在II型CRISPR系统中,CRISPR蛋白(例如,Cas9)靶向核酸通常需要包含识别靶标序列的序列的第一个RNA分子(crRNA)和包含识别靶标序列的第二个RNA分子(trRNA)之间的互补碱基配对重复序列形成支架区域,稳定引导RNA-CRISPR蛋白复合物。此类双引导RNA系统可用作引导多核苷酸以将本文公开的碱基编辑器引导至靶标多核苷酸序列。
在一些实施方案中,本文提供的碱基编辑器利用单个引导多核苷酸(例如,gRNA)。在一些实施方案中,本文提供的碱基编辑器利用双引导多核苷酸(例如,双gRNA)。在一些实施方案中,本文提供的碱基编辑器利用一个或多个引导多核苷酸(例如,多重gRNA)。在一些实施方案中,单个引导多核苷酸用于本文所述的不同碱基编辑器。例如,单个引导多核苷酸可用于胞苷碱基编辑器和腺苷碱基编辑器。
在其他实施方案中,引导多核苷酸可在单个分子(即,单分子引导核酸)中包含核酸的多核苷酸靶向部分和核酸的支架部分。例如,单分子引导多核苷酸可以是单引导RNA(sgRNA或gRNA)。在本文中,术语引导多核苷酸序列涵盖能够与碱基编辑器相互作用并将碱基编辑器引导至靶标多核苷酸序列的任何单、双或多分子核酸。
通常,引导多核苷酸(例如,crRNA/trRNA复合物或gRNA)包含“多核苷酸靶向片段”,该片段包括能够识别和结合靶标多核苷酸序列的序列,以及“蛋白质结合片段”,其稳定在碱基编辑器的多核苷酸可编程核苷酸结合结构域组件内引导多核苷酸。在一些实施方案中,引导多核苷酸的多核苷酸靶向区段识别并结合DNA多核苷酸,从而促进DNA中碱基的编辑。在其他实施方案中,引导多核苷酸的多核苷酸靶向区段识别并结合RNA多核苷酸,从而促进RNA中碱基的编辑。在本文中,“片段”是指分子的一部分或区域,例如,引导多核苷酸中的一段连续核苷酸。片段也可指复合物的区域/区段,使得区段可包含多于一种分子的区域。例如,当引导多核苷酸包含多个核酸分子时,蛋白质结合区段可包括例如沿着互补区域杂交的多个单独分子的全部或一部分。在一些实施方案中,包含两个单独分子的靶向DNA的RNA的蛋白质结合区段可包含(i)长度为100个碱基对的第一RNA分子的40-75个碱基对;(ii)长度为50个碱基对的第二个RNA分子的10-25个碱基对。除非在特定上下文中另有明确定义,否则“片段”的定义不限于特定总碱基对数,不限于来自给定RNA分子的任何特定碱基对数,不限于特定复合物中分离分子的数量,并且可以包括具有任意总长度的RNA分子区域,并且可以包括与其他分子互补的区域。
引导RNA或引导多核苷酸可包含两种或更多种RNA,例如CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)。引导RNA或引导多核苷酸有时可包含单链RNA或通过crRNA和tracrRNA的一部分(例如,功能部分)融合形成的单引导RNA(sgRNA)。引导RNA或引导多核苷酸也可以是包含crRNA和tracrRNA的双重RNA。此外,crRNA可以与靶标DNA杂交。
如上所述,引导RNA或引导多核苷酸可以是表达产物。例如,编码引导RNA的DNA可以是包含编码引导RNA的序列的载体。通过用包含编码引导RNA和启动子的序列的分离的引导RNA或质粒DNA转染细胞,可以将引导RNA或引导多核苷酸转移到细胞中。引导RNA或引导多核苷酸也可以以其他方式转移到细胞中,例如使用病毒介导的基因递送。
引导RNA或引导多核苷酸可以是分离的。例如,引导RNA可以以分离的RNA的形式转染到细胞或生物体中。可以使用本领域已知的任何体外转录系统通过体外转录来制备引导RNA。引导RNA可以以分离的RNA的形式而不是以包含引导RNA的编码序列的质粒的形式转移到细胞中。
引导RNA或引导多核苷酸可包含三个区域:5'端的第一区域可与染色体序列中的靶标位点互补,第二内部区域可形成茎环结构,以及第三3'可以是单链的区域。每个引导RNA的第一区域也可以不同,使得每个引导RNA将融合蛋白引导至特定靶标位点。此外,每个引导RNA的第二和第三区域在所有引导RNA中可以相同。
引导RNA或引导多核苷酸的第一区域可与染色体序列中靶标位点的序列互补,使得引导RNA的第一区域可与靶标位点碱基配对。在一些实施方案中,引导RNA的第一区域可包含或从约10个核苷酸到25个核苷酸(即,从10个核苷酸到核苷酸;或从约10个核苷酸到约25个核苷酸;或从10个核苷酸到约25个核苷酸;或从约10个核苷酸至25个核苷酸)或更多。例如,引导RNA的第一区域与染色体序列中的靶标位点之间的碱基配对区域可以是或可以是约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25或更多个核苷酸的长度。有时,引导RNA的第一区域的长度可以是或可以是约19、20或21个核苷酸。
引导RNA或引导多核苷酸还可包含形成二级结构的第二区域。例如,由引导RNA形成的二级结构可以包含茎(或发夹)和环。环和茎的长度可以变化。例如,环的长度范围可为约3至10个核苷酸,而茎的长度范围可为约6至20个碱基对。茎可包含一个或多个1至10个或约10个核苷酸的凸起。第二区域的总长度可在约16至60个核苷酸的长度范围内。例如,环的长度可以是或可以是约4个核苷酸,茎可以是或可以是约12个碱基对。
引导RNA或引导多核苷酸还可以在3'端包含基本上可以是单链的第三区域。例如,第三个区域有时与靶标细胞中的任何染色体序列不互补,有时与引导RNA的其余部分不互补。此外,第三区域的长度可以变化。第三区域的长度可以多于或多于约4个核苷酸。例如,第三区域的总长度可在约5至60个核苷酸的长度范围内。
引导RNA或引导多核苷酸可以靶向基因靶标的任何外显子或内含子。在一些实施方案中,引导可以靶向基因的外显子1或2;在其他实施方案中,引导可以靶向基因的外显子3或4。组合物可包含均靶向相同外显子的多个引导RNA,或在一些实施例中,可包含靶向不同外显子的多个引导RNA。可以靶向基因的外显子和内含子。
引导RNA或引导多核苷酸可以靶向约20个核苷酸或约20个核苷酸的核酸序列。靶标核酸可以少于或少于约20个核苷酸。靶标核酸的长度可为至少或至少约5、10、15、16、17、18、19、20、21、22、23、24、25、30或1至100个核苷酸之间的任何位置。靶标核酸的长度可为至多或至多约5,10,5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50或1至100个核苷酸之间的任何位置。靶标核酸序列可以是或可以是紧邻PAM的第一个核苷酸的5'处的约20个碱基。引导RNA可以靶向核酸序列。靶标核酸的长度可为至少或至少约1至10、1至20、1至30、1至40、1至50、1至60、1至70、1至80、1至90或1至100个核苷酸。
引导多核苷酸,例如引导RNA,可以指可以与另一种核酸杂交的核酸,例如细胞基因组中的靶标核酸或原型间隔子。引导多核苷酸可以是RNA。引导多核苷酸可以是DNA。引导多核苷酸可以被编程或设计成位点特异性地结合核酸序列。引导多核苷酸可以包含多核苷酸链并且可以称为单引导多核苷酸。引导多核苷酸可以包含两条多核苷酸链并且可以称为双引导多核苷酸。引导RNA可以作为RNA分子导入细胞或胚胎。例如,RNA分子可以在体外转录和/或可以化学合成。RNA可以从合成DNA分子转录,例如
Figure BDA0003302413480001941
基因片段。然后可以将引导RNA作为RNA分子导入细胞或胚胎中。引导RNA也可以以非RNA核酸分子例如DNA分子的形式引入细胞或胚胎中。例如,编码引导RNA的DNA可以与启动子控制序列可操作地连接,以在感兴趣的细胞或胚胎中表达引导RNA。RNA编码序列可以与被RNA聚合酶III(Pol III)识别的启动子序列可操作地连接。可用于表达引导RNA的质粒载体包括但不限于px330载体和px333载体。在一些实施方案中,质粒载体(例如,px333载体)可包含至少两个引导RNA编码的DNA序列。
用于选择、设计和验证引导多核苷酸例如引导RNA和靶向序列的方法在本文中描述并且是本领域技术人员已知的。例如,为了尽量减少核碱基编辑器系统(例如AID结构域)中脱氨酶结构域潜在底物混杂的影响,可能无意中成为脱氨目标的残基数量(例如,可能潜在驻留在靶标核酸基因座内的ssDNA上)可以被最小化。此外,软件工具可用于优化对应于目标核酸序列的gRNA,例如,最大限度地减少整个基因组的总脱靶活性。例如,对于使用化脓性链球菌Cas9的每个可能的靶向结构域选择,所有脱靶序列(在选定的PAM之前,例如NAG或NGG)都可以在基因组中被识别,其中包含多达特定数量(例如,1、2、3、4、5、6、7、8、9或10)个错配的碱基对。可以识别与靶标位点互补的gRNA的第一个区域,并且可以根据其总预测的脱靶分数对所有第一个区域(例如,crRNA)进行排序;排名靠前的靶标结构域代表那些可能具有最大的目标和最少的脱靶活动的结构域。可以使用本领域已知的和/或如本文所述的方法对候选靶向gRNA进行功能评估。
作为非限制性实例,可使用DNA序列搜索算法来鉴定与Cas9一起使用的引导RNA的crRNA中的靶标DNA杂交序列。gRNA设计可以使用基于公共工具cas-offinder的定制gRNA设计软件进行,如Bae S.、Park J.和Kim J.-S.Cas-OFFinder:A fast and versatilealgorithm that searches for potential off-target sites of Cas9RNA-guidedendonucleases.Bioinformatics 30,1473-1475(2014)。该软件在计算全基因组脱靶倾向后为引导评分。通常,对于长度从17到24的引导,会考虑从完美匹配到7个不匹配的匹配。一旦通过计算确定了脱靶位点,就会为每个引导计算一个总分,并使用Web界面在表格输出中汇总。除了识别与PAM序列相邻的潜在靶位点外,该软件还识别与所选靶标位点相差1、2、3或3个以上核苷酸的所有PAM相邻序列。可以获得靶标核酸序列例如靶标基因的基因组DNA序列并且可以使用公开可用的工具例如RepeatMasker程序筛选重复元件。RepeatMasker在输入DNA序列中搜索重复元素和低复杂性区域。输出是给定查询序列中存在的重复的详细注释。
在鉴定之后,引导RNA的第一区域,例如crRNA,可以根据它们与靶标位点的距离、它们的正交性和5'核苷酸的存在进行分级,以便与相关的PAM序列(例如,5'G基于人类基因组中包含相关PAM的密切匹配的鉴定,例如,化脓性链球菌的NGG PAM,金黄色葡萄球菌的NNGRRT或NNGRRV PAM)。如本文所用,正交性是指人类基因组中包含最少数量的与靶标序列的错配的序列的数量。例如,“高水平正交性”或“良好正交性”可以指在人类基因组中除了预期靶标之外没有相同序列的20聚体靶向域,也没有在靶标中包含一两个错配的任何序列顺序。可以选择具有良好正交性的靶向结构域以最小化脱靶DNA切割。
在一些实施方案中,报导系统可用于检测碱基编辑活性和测试候选引导多核苷酸。在一些实施方案中,报导系统可以包括基于报导基因的测定,其中碱基编辑活性导致报导基因的表达。例如,报导系统可包括包含失活起始密码子的报导基因,例如模板链上从3'-TAC-5'到3'-CAC-5'的突变。靶标C成功脱氨基后,相应的mRNA将转录为5'-AUG-3'而不是5'-GUG-3',从而实现报导基因的转译。合适的报导基因对本领域技术人员来说是显而易见的。报导基因的非限制性实例包括编码绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、荧光素酶、分泌性碱性磷酸酶(SEAP)或其表达对本领域技术人员来说是可检测的和显而易见的任何其他基因的基因。报导系统可用于测试许多不同的gRNA,例如,以确定相应脱氨酶将针对靶标DNA序列的哪些残基。还可以测试靶向非模板链的sgRNA,以评估特定碱基编辑蛋白(例如Cas9脱氨酶融合蛋白)的脱靶效应。在一些实施方案中,此类gRNA可以被设计为使得突变的起始密码子不会与gRNA碱基配对。引导多核苷酸可包括标准核糖核苷酸、修饰的核糖核苷酸(例如假尿苷)、核糖核苷酸异构体和/或核糖核苷酸类似物。在一些实施方案中,所述引导多核苷酸可包含至少一种可检测标记。可检测标记可以是荧光团(例如,FAM、TMR、Cy3、Cy5、德克萨斯红、俄勒冈绿、Alexa Fluors、Halo标签或合适的荧光染料)、检测标签(例如,生物素、地高辛等)、量子点或金粒子。
引导多核苷酸可以化学合成、酶促合成或其组合。例如,可以使用基于亚磷酰胺的标准固相合成方法合成引导RNA。或者,可以通过将编码引导RNA的DNA与被噬菌体RNA聚合酶识别的启动子控制序列可操作地连接来体外合成引导RNA。合适的噬菌体启动子序列的例子包括T7、T3、SP6启动子序列或其变体。在引导RNA包含两个单独的分子(例如,crRNA和tracrRNA)的实施方案中,crRNA可以化学合成并且tracrRNA可以酶促合成。
在一些实施方案中,碱基编辑器系统可以包含多个引导多核苷酸,例如gRNA。例如,gRNA可以靶向一个或多个靶标基因座(例如,至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个gRNA、至少50个gRNA)包含在碱基编辑器系统中。多个gRNA序列可以串联排列并且优选地由同向重复分开。
编码引导RNA或引导多核苷酸的DNA序列也可以是载体的一部分。此外,载体可以包含额外的表达控制序列(例如,增强子序列、Kozak序列、聚腺苷酸化序列、转录终止序列等)、选择标记序列(例如,GFP或抗生素抗性基因,例如嘌呤霉素)、复制起点、之类的。编码引导RNA的DNA分子也可以是线性的。编码引导RNA或引导多核苷酸的DNA分子也可以是环状的。
在一些实施例中,碱基编辑器系统的一个或多个组件可由DNA序列编码。此类DNA序列可以一起或单独引入表达系统,例如细胞。例如,可以将编码多核苷酸可编程核苷酸结合结构域和引导RNA的DNA序列引入细胞,每个DNA序列可以是单独分子的一部分(例如,一个包含多核苷酸可编程核苷酸结合结构域编码序列的载体和第二个含有引导RNA编码序列的载体)或两者可以是同一分子的一部分(例如,一种含有多核苷酸可编程核苷酸结合结构域和引导RNA的编码(和调控)序列的载体)。
引导多核苷酸可以包含一个或多个修饰以提供具有新的或增强的特征的核酸。引导多核苷酸可包含核酸亲和标签。引导多核苷酸可包括合成核苷酸、合成核苷酸类似物、核苷酸衍生物和/或修饰的核苷酸。
在一些实施例中,gRNA或引导多核苷酸可包含修饰。可以在gRNA或引导多核苷酸的任何位置进行修饰。可以对单个gRNA或引导多核苷酸进行不止一种修饰。gRNA或引导多核苷酸可以在修饰后进行质量控制。在一些实施例中,质量控制可包括PAGE、HPLC、MS或其任何组合。
gRNA或引导多核苷酸的修饰可以是取代、插入、缺失、化学修饰、物理修饰、稳定化、纯化或其任何组合。
gRNA或引导多核苷酸也可以被5'腺苷酸、5'鸟苷-三磷酸帽、5'N7-甲基鸟苷-三磷酸帽、5'三磷酸帽、3'磷酸、3'硫代磷酸、5'磷酸、5'修饰硫代磷酸酯、顺式-Syn胸苷二聚体、三聚体、C12间隔子、C3间隔子、C6间隔子、d间隔子、PC间隔子、r间隔子、间隔子18、间隔子9,3'-3'修饰、5'-5'修饰、脱碱基、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇TEG、脱硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3'DABCYL、黑洞猝灭剂1、黑洞quencer 2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基接头、巯基接头、2'-脱氧核糖核苷类似物嘌呤、2'-脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2'-O-甲基核糖核苷类似物、糖修饰的类似物、摆动/通用碱基、荧光染料标记、2'-氟RNA、2'-O-甲基RNA、甲基膦酸酯、磷酸二酯DNA、磷磷酸二酯RNA、硫代磷酸酯DNA、硫代磷酸酯RNA、UNA、假尿苷-5'-三磷酸、5'-甲基胞苷-5'-三磷酸或其任何组合。
在一些实施例中,修饰是永久的。在一些实施例中,修饰是暂时的。在一些实施方案中,对gRNA或引导多核苷酸进行了多次修饰。gRNA或引导多核苷酸修饰可以改变核苷酸的理化特性,例如它们的构象、极性、疏水性、化学反应性、碱基配对相互作用或其任何组合。
PAM序列可以是本领域已知的任何PAM序列。合适的PAM序列包括但不限于NGG、NGA、NGC、NGN、NGT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW或NAAAAC。Y是嘧啶;N是任何核苷酸碱基;W是A或T。
修饰也可以是硫代磷酸酯替代物。在一些实施方案中,天然磷酸二酯键可易于被细胞核酸酶快速降解;使用硫代磷酸酯(PS)键替代物对核苷酸间键的修饰可以更稳定地通过细胞降解进行水解。修饰可以增加gRNA或指导多核苷酸的稳定性。修饰还可以增强生物活性。在一些实施方案中,硫代磷酸酯增强的RNA gRNA可以抑制RNase A、RNase T1、小牛血清核酸酶或其任何组合。这些特性可以使PS-RNA gRNA用于在体内或体外暴露于核酸酶的可能性很高的应用中。例如,可以在gRNA的5'-或”-末端的最后3-5个核苷酸之间引入硫代磷酸(PS)键,这可以抑制外切核酸酶降解。在一些实施方案中,可以在整个gRNA中添加硫代磷酸酯键以减少核酸内切酶的攻击。
原型间隔子相邻基序
术语“原间隔相邻基序(PAM)”或PAM样基序是指紧跟在CRISPR细菌适应性免疫系统中Cas9核酸酶靶向的DNA序列之后的2-6个碱基对DNA序列。在一些实施例中,PAM可以是5’PAM(即,位于原型间隔子5’端的上游)。在一些实施例中,PAM可以是3’PAM(即,位于原型间隔子5’端的下游)。
PAM序列对于靶标结合至关重要,但确切的序列取决于Cas蛋白的类型。
本文提供的碱基编辑器可包含CRISPR蛋白衍生结构域,该结构域能够结合包含规范或非规范原型间隔子相邻基序(PAM)序列的核苷酸序列(图2A)。PAM位点是靠近靶标多核苷酸序列的核苷酸序列。本公开的一些方面提供包含具有不同PAM特异性的全部或部分CRISPR蛋白的碱基编辑器。
例如,典型的Cas9蛋白,例如来自化脓性链球菌(spCas9)的Cas9,需要典型的NGGPAM序列来结合特定的核酸区域,其中“NGG”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),并且G是鸟嘌呤。PAM可以是CRISPR蛋白质特异性的,并且在包含不同CRISPR蛋白质衍生结构域的不同碱基编辑器之间可以不同。PAM可以是靶标序列的5'或3'。PAM可以是靶标序列的上游或下游。PAM的长度可以是1、2、3、4、5、6、7、8、9、10个或更多个核苷酸。通常,PAM的长度在2至6个核苷酸之间。以下的表2中描述几种PAM变体。
表2.Cas9蛋白和相应的PAM序列
变体 PAM
spCas9 NGG
spCas9-VRQR NGA
spCas9-VRER NGCG
xCas9(sp) NGN
saCas9 NNGRRT
saCas9-KKH NNNRRT
spCas9-MQKSER NGCG
spCas9-MQKSER NGCN
spCas9-LRKIQK NGTN
spCas9-LRVSQK NGTN
spCas9-LRVSQL NGTN
spCas9-MQKFRAER NGC
Cpf1 5’(TTTV)
SpyMac 5’-NAA-3’
在一些实施方案中,所述PAM是NGC。在一些实施方案中,所述NGC PAM被Cas9变体识别。在一些实施方案中,NGC PAM变体包括一个或多个选自D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(统称为“MQKFRAER”)的氨基酸取代。
在一些实施方案中,所述PAM是NGT。在一些实施方案中,所述NGT PAM被Cas9变体识别。在一些实施方案中,NGT PAM变体通过在一个或多个残基1335、1337、1135、1136、1218和/或1219处的靶向突变产生。在一些实施方案中,NGT PAM变体通过在一个或多个残基1219、1335、1337、1218处的靶向突变产生。在一些实施方案中,NGT PAM变体通过在一个或多个残基1135、1136、1218、1219和1335处的靶向突变产生。在一些实施方案中,NGT PAM变体选自以下表3A和3B中提供的一组靶向突变。
表3A:残基1219、1335、1337、1218处的NGT PAM变体突变
变体 E1219V R1335Q T1337 G1218
1 F V T
2 F V R
3 F V Q
4 F V L
5 F V T R
6 F V R R
7 F V Q R
8 F V L R
9 L L T
10 L L R
11 L L Q
12 L L L
13 F I T
14 F I R
15 F I Q
16 F I L
17 F G C
18 H L N
19 F G C A
20 H L N V
21 L A W
22 L A F
23 L A Y
24 I A W
25 I A F
26 I A Y
表3B:残基1135,1136、1218、1219和1335处的NGT PAM变体突变
变体 D1135L S1136R G1218S E1219V R1335Q
27 G
28 V
29 I
30 A
31 W
32 H
33 K
34 K
35 R
36 Q
37 T
38 N
39 I
40 A
41 N
42 Q
43 G
44 L
45 S
46 T
47 L
48 I
49 V
50 N
51 S
52 T
53 F
54 Y
55 N1286Q I1331F
在一些实施例中,NGT PAM变体选自表2和3中的变体5、7、28、31或36。在一些实施例中,变体具有改进的NGT PAM识别。
在一些实施方案中,NGT PAM变体在残基1219、1335、1337和/或1218处具有突变。在一些实施方案中,从以下表4中提供的变体中选择具有用于改进识别的突变的NGT PAM变体。
表4:残基1219、1335、1337和1218处的NGT PAM变体突变
变体 E1219V R1335Q T1337 G1218
1 F V T
2 F V R
3 F V Q
4 F V L
5 F V T R
6 F V R R
7 F V Q R
8 F V L R
在一些实施方案中,可以如以下表5中提供的产生具有NGT PAM特异性的碱基编辑器。
表5.NGT PAM变体
NGTN变体 D1135 S1136 G1218 E1219 A1322R R1335 T1337
变体1 LRKIQK L R K I - Q K
变体2 LRSVQK L R S V - Q K
变体3 LRSVQL L R S V - Q L
变体4 LRKIRQK L R K I R Q K
变体5 LRSVRQK L R S V R Q K
变体6 LRSVRQL L R S V R Q L
在一些实施方案中所述NGTN变体是变体1。在一些实施方案中,所述NGTN变体是变体2。在一些实施方案中,所述NGTN变体是变体3。在一些实施方案中,所述NGTN变体是变体4。在一些实施方案中,所述NGTN变体是变体5。在一些实施方案中,所述NGTN变体是变体6。
在一些实施方案中,所述Cas9结构域是来自化脓性链球菌的Cas9结构域(SpCas9)。在一些实施方案中,SpCas9结构域是核酸酶活性的SpCas9、核酸酶失活的SpCas9(SpCas9d)或SpCas9切口酶(SpCas9n)。在一些实施方案中,SpCas9包含D9X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是除D之外的任何氨基酸。在一些实施方案中,SpCas9包含D9A突变,或相应突变在本文提供的任何氨基酸序列中。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可结合具有非规范PAM的核酸序列。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可结合具有NGG、NGA或NGCGPAM序列的核酸序列。在一些实施方案中,SpCas9结构域包含D1134X、R1335X和T1336X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1134E、R1335Q和T1336R突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SpCas9结构域包含D1134E、R1335Q和T1336R突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1134X、R1335X和T1336X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1134V、R1335Q和T1336R突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SpCas9结构域包含D1134V、R1335Q和T1336R突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1134X、G1217X、R1335X和T1336X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1134V、G1217X、R1335Q和T1336R突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SpCas9结构域包含D1134V、G1217R、R1335Q和T1336R突变,或本文提供的任何氨基酸序列中的相应突变。
在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域包含的氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的Cas9多肽相同。在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域包含本文描述的任何Cas9多肽的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域由本文所述的任何Cas9多肽的氨基酸序列组成。
在一些实例中,可将本文公开的碱基编辑器的CRISPR蛋白衍生结构域识别的PAM提供给与编码碱基编辑器的插入物(例如,AAV插入物)不同的寡核苷酸上的细胞。在这样的实施方案中,在单独的寡核苷酸上提供PAM可以允许切割否则将不能被切割的靶标序列,因为在与靶标序列相同的多核苷酸上不存在相邻的PAM。
在一个实施方案中,化脓性链球菌Cas9(SpCas9)可用作基因组工程的CRISPR核酸内切酶。但是,也可以使用其他的。在一些实施方案中,不同的核酸内切酶可用于靶向某些基因组靶标。在一些实施方案中,可以使用具有非NGG PAM序列的合成SpCas9衍生变体。此外,已经鉴定了来自不同物种的其他Cas9直向同源物,并且这些“非SpCas9”可以结合也可用于本公开的多种PAM序列。例如,相对较大的SpCas9(大约4kb编码序列)会导致携带SpCas9 cDNA的质粒无法在细胞中有效表达。相反,金黄色葡萄球菌Cas9(SaCas9)的编码序列比SpCas9短约1千碱基,可能使其在细胞中有效表达。与SpCas9类似,SaCas9核酸内切酶能够在体外和小鼠体内修饰哺乳动物细胞中的靶标基因。在一些实施方案中,Cas蛋白可以靶向不同的PAM序列。在一些实施方案中,靶标基因可以与例如Cas9 PAM、5’-NGG相邻。在其他实施例中,其他Cas9直向同源物可具有不同的PAM要求。例如,其他PAM,例如嗜热链球菌(CRISPR1为5'-NNAGAA,CRISPR3为5'-NGGNG)和脑膜炎双球菌(5'-NNNNGATT)的PAM也可以与目标基因相邻。
在一些实施方案中,对于化脓性链球菌系统,靶标基因序列可以在(即,5'到)5'-NGG PAM之前,并且20-nt指导RNA序列可以与相反链碱基配对以介导与PAM相邻的Cas9裂解。在一些实施方案中,相邻切割可以是或可以是PAM上游的约3个碱基对。在一些实施方案中,相邻切割可以是或可以是PAM上游的约10个碱基对。在一些实施方案中,相邻切割可以是或可以是PAM上游的约0-20个碱基对。例如,相邻的切割可以紧挨着PAM上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个碱基对。相邻的切割也可以在PAM的下游1到30个碱基对。能够结合PAM序列的示例性SpCas9蛋白的序列如下:
示例性结合PAM的SpCas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性结合PAM的SpCas9n的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性结合PAM的Cas9的氨基酸序列如下:
Figure BDA0003302413480002081
Figure BDA0003302413480002091
在上述序列中,残基E1134、Q1334和R1336可以从D1134、R1335和T1336突变以产生SpEQR Cas9,用底线和粗体表示。
示例性PAM结合SpVQR Cas9的氨基酸序列如下:
Figure BDA0003302413480002092
Figure BDA0003302413480002101
在上述序列中,残基V1134、Q1334和R1336可以从D1134、R1335和T1336突变以产生SpVQR Cas9,用底线和粗体表示。
示例性PAM结合SpVRER Cas9的氨基酸序列如下:
Figure BDA0003302413480002102
Figure BDA0003302413480002111
在上述序列中,残基V1134、R1217、Q1334和R1336可以从D1134、G1217、R1335和T1336突变以产生SpVRER Cas9,用底线和粗体表示。
在一些实施方案中,工程化的SpCas9变体能够识别侧翼为3'H(非G PAM)的原型间隔子相邻基序(PAM)序列(参见表1A至1D;图62)。在一些实施方案中,SpCas9变体识别NRNHPAM(其中R是A或G并且H是A、C或T)。在一些实施例中,非G PAM是NRRH、NRTH或NRCH(参见例如,Miller,S.M.等人,Continuous evolution of SpCas9 variants compatible withnon-G PAMs,Nat.Biotechnol.(2020),所述內容以引用的方式全文并入本文)。
在一些实施方案中,所述Cas9结构域是重组Cas9结构域。在一些实施方案中,所述Cas9结构域是SpyMacCas9结构域。在一些实施方案中,SpyMacCas9结构域是核酸酶活性的SpyMacCas9、核酸酶失活的SpyMacCas9(SpyMacCas9d)或SpyMacCas9切口酶(SpyMacCas9n)。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可结合具有非规范PAM的核酸序列。在一些实施方案中,SpyMacCas9结构域、SpCas9d结构域或SpCas9n结构域可结合具有NAA PAM序列的核酸序列。
具有天然5'-NAAN-3'PAM特异性的猕猴链球菌中Spy Cas9的示例性Cas9 A同源物的序列是本领域已知的,并且例如由Jakimo等人(www.biorxiv.org/content/biorxiv/early/2018/09/27/429654.full.pdf)描述,并在下面提供。
SpyMacCas9
MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLIGALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSLHEQIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEIQTVGQNGGLFDDNPKSPLEVTPSKLVPLKKELNPKKYGGYQKPTTAYPVLLITDTKQLIPISVMNKKQFEQNPVKFLRDRGYQQVGKNDFIKLPKYTLVDIGDGIKRLWASSKEIHKGNQLVVSKKSQILLYHAHHLDSDLSNDYLQNHNQQFDVLFNEIISFSKKCKLGKEHIQKIENVYSNKKNSASIEELAESFIKLLGFTQLGATSPFNFLGVKLNQKQYKGKKDYILPCTEGTLIRQSITGLYETRVDLSKIGED.
在一些实施方案中,变体Cas9蛋白包含H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得多肽切割靶DNA或RNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些实施方案中,当变体Cas9蛋白包含W476A和W1126A突变或当变体Cas9蛋白包含P475A、W476A、N477A、D1125A、W1126A和D1218A突变时,变体Cas9蛋白不与PAM序列有效结合。因此,在某些这样的情况下,当此类变体Cas9蛋白用于结合方法时,该方法不需要PAM序列。换言之,在一些实施方案中,当这种变体Cas9蛋白用于结合方法中时,该方法可以包括引导RNA,但是该方法可以在不存在PAM序列的情况下进行(并且结合的特异性是因此由引导RNA的靶向片段提供)。可以突变其他残基以实现上述效果(即灭活一个或其他核酸酶部分)。作为非限制性实例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即,被取代)。此外,丙氨酸取代以外的突变也是合适的。
在一些实施方案中,碱基编辑器的CRISPR蛋白衍生结构域可包含具有规范PAM序列(NGG)的Cas9蛋白的全部或部分。在其他实施例中,碱基编辑器的Cas9衍生结构域可采用非规范PAM序列。此类序列已在本领域中描述并且对本领域技术人员来说是显而易见的。例如,在Kleinstiver,B.P.等人,“Engineered CRISPR-Cas9 nucleases with altered PAMspecificities”Nature 523,481-485(2015);和Kleinstiver,B.P.等人,“Broadening thetargeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAMrecognition”Nature Biotechnology 33,1293-1298(2015)中已经描述结合非规范PAM序列的Cas9结构域,每个的全部内容在此通过引用并入。
降低PAM独占性的Cas9结构域
典型的Cas9蛋白,例如来自化脓性链球菌(spCas9)的Cas9,需要典型的NGG PAM序列来结合特定的核酸区域,其中“NGG”中的“N”是腺苷(A)、胸苷(T)或胞嘧啶(C),G是鸟苷。这可能会限制编辑基因组内所需碱基的能力。在一些实施方案中,本文提供的碱基编辑融合蛋白可能需要放置在精确位置,例如包含位于PAM上游的靶碱基的区域。参见例如,Komor,A.C.等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature533,420-424(2016),其全部内容在此引入作为参考。因此,在一些实施方案中,本文提供的任何融合蛋白可以包含能够结合不包含规范(例如,NGG)PAM序列的核苷酸序列的Cas9结构域。结合非规范PAM序列的Cas9结构域已在本领域中描述并且对本领域技术人员来说是显而易见的。例如,在Kleinstiver,B.P.等人,“Engineered CRISPR-Cas9 nucleases with altered PAM specificities”Nature523,481-485(2015);和Kleinstiver,B.P.等人,“Broadening the targeting range ofStaphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”NatureBiotechnology 33,1293-1298(2015)中已经描述结合非规范PAM序列的Cas9结构域,每个的全部内容在此通过引用并入。
高保真Cas9结构域
本公开的一些方面提供高保真Cas9结构域。在一些实施方案中,高保真Cas9结构域是工程化的Cas9结构域,其包含一个或多个突变,与相应的野生型Cas9结构域相比,这些突变减少了Cas9结构域和DNA的糖-磷酸骨架之间的静电相互作用。不希望受任何特定理论的束缚,与DNA的糖-磷酸骨架的静电相互作用减少的高保真Cas9结构域可能具有较少的脱靶效应。在一些实施方案中,Cas9结构域(例如,野生型Cas9结构域)包含一种或多种降低Cas9结构域与DNA的糖-磷酸骨架之间的关联的突变。在一些实施方案中,Cas9结构域包含一种或多种突变,其将Cas9结构域与DNA的糖-磷酸骨架之间的关联降低至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%或至少70%。
在一些实施方案中,本文提供的任何Cas9融合蛋白包含一个或多个N497X、R661X、Q695X和/或Q926X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,本文提供的任何Cas9融合蛋白包含一个或多个N497A、R661A、Q695A和/或Q926A突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,Cas9结构域包含D10A突变,或本文提供的任何氨基酸序列中的相应突变。具有高保真度的Cas9结构域是本领域已知的并且对本领域技术人员来说是显而易见的。例如,具有高保真度的Cas9结构域已经被描述于Kleinstiver,B.P.等人,“High-fidelity CRISPR-Cas9 nucleaseswith no detectable genome-wide off-target effects.”Nature 529,490-495(2016);和Slaymaker,I.M.,等人,“Rationally engineered Cas9 nucleases with improvedspecificity.”Science 351,84-88(2015);其全部内容以引用方式并入。
在一些实施方案中,所述修饰后的Cas9是一种高保真Cas9酶。在一些实施方案中,高保真Cas9酶是SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1或超准确Cas9变体(HypaCas9)。修饰后的Cas9eSpCas9(1.1)包含丙氨酸取代,削弱了HNH/RuvC凹槽与非靶标DNA链之间的相互作用,防止链分离和在脱靶位点切割。同样,SpCas9-HF1通过破坏Cas9与DNA磷酸骨架相互作用的丙氨酸取代降低脱靶编辑。HypaCas9在REC3结构域中包含突变(SpCas9N692A/M694A/Q695A/H698A),可增加Cas9校对和目标区分。与野生型Cas9相比,所有三种高保真酶产生的脱靶编辑更少。
以下提供示例性高保真度Cas9。
相对于Cas9的高保真Cas9结构域突变以粗体和底线显示。
Figure BDA0003302413480002151
Figure BDA0003302413480002161
包含核定位序列(NLS)的融合蛋白
在一些实施方案中,本文提供的融合蛋白进一步包含一个或多个(例如,2、3、4、5个)核靶向序列,例如核定位序列(NLS)。在一个实施例中,使用二分NLS。在一些实施方案中,NLS包含促进包含NLS的蛋白质输入细胞核(例如,通过核转运)的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白进一步包含核定位序列(NLS)。在一些实施方案中,NLS与融合蛋白的N末端融合。在一些实施方案中,NLS与融合蛋白的C末端融合。在一些实施方案中,NLS与Cas9结构域的N末端融合。在一些实施方案中,NLS融合到nCas9结构域或dCas9域的C端。在一些实施方案中,NLS与脱氨酶的N末端融合。在一些实施方案中,NLS与脱氨酶的C末端融合。在一些实施方案中,NLS通过一个或多个接头与融合蛋白融合。在一些实施方案中,NLS与融合蛋白融合,无需接头。在一些实施方案中,NLS包含本文提供或提及的任一NLS序列的氨基酸序列。额外的核定位序列是本领域已知的并且对本领域技术人员来说是显而易见的。例如,Plank等人,PCT/EP2000/011690中描述NLS序列,该文献的内容以引用的方式并入本文中,因为它们公开示例性核定位序列。在一些实施例中,NLS包含氨基酸序列PKKKRKVEGADKRTADGSEFESPKKKRKV、KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRKPKKKRKV或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。
在一些实施方案中,NLS存在于接头中或NLS的侧翼是接头,例如本文所述的接头。在一些实施方案中,N末端或C末端NLS是二分NLS。二分NLS包含两个基本氨基酸簇,它们由相对较短的间隔序列分隔(因此二分-2部分,而单部分NLS不是)。核质蛋白的NLS KR[PAATKKAGQA]KKKK是无处不在的二分信号的原型:两个碱性氨基酸簇,由大约10个氨基酸的间隔子隔开。示例性二分NLS的序列如下:
PKKKRKVEGADKRTADGSEFESPKKKRKV
在一些实施方案中,本公开的融合蛋白不包含接头序列。在一些实施方案中,存在一个或多个结构域或蛋白质之间的接头序列。在一些实施方案中,具有腺苷脱氨酶或胞苷脱氨酶和Cas9结构域的示例性Cas9融合蛋白的一般结构包含以下结构中的任一种,其中NLS是核定位序列(例如,本文提供的任何NLS),NH2是融合蛋白的N端,COOH是融合蛋白的C端:
NH2-NLS-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-NLS[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-NLS-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-NLS-COOH.;
NH2-NLS-[胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-NLS[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9结构域]-NLS-COOH;或
NH2-[Cas9结构域]-[胞苷脱氨酶]-NLS-COOH。
应当理解,本公开的融合蛋白可以包含一个或多个附加特征。例如,在一些实施方案中,融合蛋白可包含抑制剂、细胞质定位序列、输出序列,例如核输出序列或其他定位序列,以及可用于溶解、纯化或检测融合的序列标签。蛋白质。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签,也称为组氨酸标签或His-标签、麦芽糖结合蛋白(MBP)-标签、nus-标签、谷胱甘肽-S-转移酶(GST)-标签、绿色荧光蛋白(GFP)-标签、硫氧还蛋白-标签、S-标签、Softags(例如,Softag 1、Softag 3)、链标签、生物素连接酶标签、Flash标签、V5标签和SBP标签。其他合适的序列对本领域技术人员来说是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
可以使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如,可以使用或大约使用1、2、3、4、5、6、7、8、9、10个NLS。CRISPR酶可包含位于或靠近氨末端的NLS,约或多于约1、2、3、4、5、6、7、8、9、10个位于或靠近羧基端的NLS,或任何这些的组合(例如,在氨末端的一个或多个NLS和在羧基末端的一个或多个NLS)。当存在一个以上的NLS时,每个NLS可以独立于其他选择,使得单个NLS可以存在于一个以上的副本中和/或与一个或多个其他NLS存在于一个或多个副本中。
方法中使用的CRISPR酶可包含约6个NLS。当与NLS最接近的氨基酸在距N或C末端的多肽链约50个氨基酸内,例如在1、2、3、4、5、10、15、20、25、30、40或50个氨基酸。
核碱基编辑结构域
本文描述包含融合蛋白的碱基编辑器,该融合蛋白包括多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,脱氨酶结构域)。碱基编辑器可以被编程以通过与能够识别靶标序列的引导多核苷酸相互作用来编辑靶标多核苷酸序列中的一个或多个碱基。一旦识别了靶标序列,碱基编辑器就锚定在要进行编辑的多核苷酸上,然后碱基编辑器的脱氨酶结构域组件可以编辑靶标碱基。
在一些实施方案中,所述核碱基编辑结构域包括脱氨酶结构域。如本文特别描述的,脱氨酶结构域包括胞嘧啶脱氨酶或腺苷脱氨酶。在一些实施方案中,术语“胞嘧啶脱氨酶”和“胞苷脱氨酶”可以互换使用。在一些实施方案中,术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”可以互换使用。核碱基编辑蛋白的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中有所描述,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage”Nature551,464-471(2017);Komor,A.C.,等人,“Improved baseexcisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
A到G编辑
在一些实施方案中,本文所述的碱基编辑器可包含脱氨酶结构域,其包括腺苷脱氨酶。碱基编辑器的这种腺苷脱氨酶结构域可以通过将A脱氨基形成肌苷(I)来促进将腺嘌呤(A)核碱基编辑为鸟嘌呤(G)核碱基,肌苷(I)具有G的碱基配对特性。腺苷脱氨酶能够脱氧核糖核酸(DNA)中脱氧腺苷残基的腺嘌呤脱氨基(即,除去胺基团)。
在一些实施方案中,本文提供的核碱基编辑器可以通过将一个或多个蛋白质结构域融合在一起来制备,从而产生融合蛋白。在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性(例如,效率、选择性和特异性)的特征。例如,本文提供的融合蛋白可包含核酸酶活性降低的Cas9结构域。在一些实施方案中,本文提供的融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。不希望受任何特定理论的束缚,催化残基(例如,H840)的存在保持了Cas9切割含有与靶向A相对的T的非编辑(例如,非脱氨基)链的活性。突变Cas9的催化残基(例如,D10到A10)的切割防止包含靶标A残基的编辑链的切割。此类Cas9变体能够基于gRNA定义的靶标序列在特定位置产生单链DNA断裂(缺口),从而修复未编辑的链,最终导致非编辑链上的T到C变化。在一些实施方案中,A-至-G碱基编辑器进一步包含肌苷碱基切除修复抑制剂,例如尿嘧啶糖基化酶抑制剂(UGI)结构域或无催化活性的肌苷特异性核酸酶。不希望受任何特定理论的束缚,UGI结构域或无催化活性的肌苷特异性核酸酶可以抑制或阻止脱氨基腺苷残基(例如肌苷)的碱基切除修复,这可以提高碱基编辑器的活性或效率。
包含腺苷脱氨酶的碱基编辑器可作用于任何多核苷酸,包括DNA、RNA和DNA-RNA杂交体。在某些实施方案中,包含腺苷脱氨酶的碱基编辑器可以使包含RNA的多核苷酸的靶标A脱氨基。例如,碱基编辑器可以包含能够使RNA多核苷酸和/或DNA-RNA杂合多核苷酸的靶A脱氨基的腺苷脱氨酶结构域。在一个实施方案中,掺入碱基编辑器的腺苷脱氨酶包含作用于RNA(ADAR,例如ADAR1或ADAR2)的全部或部分腺苷脱氨酶。在另一个实施方案中,掺入碱基编辑器的腺苷脱氨酶包含作用于tRNA(ADAT)的全部或部分腺苷脱氨酶。包含腺苷脱氨酶结构域的碱基编辑器也能够使DNA多核苷酸的A核碱基脱氨基。在一个实施方案中,碱基编辑器的腺苷脱氨酶结构域包含ADAT的全部或一部分,该ADAT包含一个或多个允许ADAT使DNA中的靶标A脱氨的突变。例如,碱基编辑器可包含来自大肠杆菌的ADAT(EcTadA)的全部或部分,其包含以下突变中的一种或多种:D108N、A106V、D147Y、E155V、L84F、H123Y、I156F或另一种腺苷脱氨酶中的相应突变。
腺苷脱氨酶可以源自任何合适的生物体(例如,大肠杆菌)。在一些实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括一个或多个对应于本文提供的任何突变(例如,ecTadA中的突变)的突变。任何同源蛋白质中的相应残基可以通过例如序列比对和同源残基的测定来鉴定。可以相应地产生对应于本文描述的任何突变(例如,在ecTadA中鉴定的任何突变)的任何天然存在的腺苷脱氨酶(例如,与ecTadA具有同源性)中的突变。
C到T编辑
在一些实施方案中,本文公开的碱基编辑器包含融合蛋白,该融合蛋白包含能够使多核苷酸的靶胞苷(C)碱基脱氨基以产生尿苷(U)的胞苷脱氨酶,其具有胸腺嘧啶的碱基配对特性。在一些实施方案中,例如当多核苷酸是双链的(例如,DNA)时,然后可以用胸苷碱基(例如,通过细胞修复机制)取代尿苷碱基以产生C:G到T:一个过渡。在其他实施方案中,碱基编辑器将核酸中的C脱氨基为U不能伴随U取代为T。
多核苷酸中靶标C的脱氨基以产生U是可由本文所述的碱基编辑器执行的碱基编辑类型的非限制性实例。在另一个实例中,包含胞苷脱氨酶结构域的碱基编辑器可以介导胞嘧啶(C)碱基向鸟嘌呤(G)碱基的转化。例如,可以通过碱基切除修复机制(例如,通过尿嘧啶DNA糖基化酶(UDG)结构域)从多核苷酸上切除由碱基编辑器的胞苷脱氨酶结构域对胞苷进行脱氨基作用而产生的多核苷酸的U,产生一个缺碱基位点。与缺碱基位点相对的核碱基然后可以被另一个碱基(例如C)取代(例如,通过碱基修复机制),例如通过转移损伤聚合酶。尽管与缺碱基位点相对的核碱基通常被C取代,但其他取代(例如A、G或T)也可能发生。
因此,在一些实施方案中,本文所述的碱基编辑器包含能够将多核苷酸中的靶C脱氨基为U的脱氨基结构域(例如,胞苷脱氨酶结构域)。此外,如下所述,碱基编辑器可包含额外的结构域,其促进脱氨基产生的U转化为,在一些实施方案中,T或G。例如,包含胞苷脱氨酶结构域的碱基编辑器可进一步包含尿嘧啶糖基化酶抑制剂(UGI)结构域介导U被T取代,完成C到T碱基编辑事件。在另一个例子中,碱基编辑器可以掺入跨位点聚合酶以提高C-至-G碱基编辑的效率,因为跨位点聚合酶可以促进与缺碱基位点相对的C的掺入(即,导致G在缺碱基位点的掺入,完成C-至-G基础编辑事件)。
包含胞苷脱氨酶作为结构域的碱基编辑器可以使任何多核苷酸中的靶标C脱氨基,包括DNA、RNA和DNA-RNA杂交体。通常,胞苷脱氨酶催化位于多核苷酸单链部分上下文中的C核碱基。在一些实施方案中,包含靶标C的完整多核苷酸可以是单链的。例如,掺入碱基编辑器的胞苷脱氨酶可以使单链RNA多核苷酸中的靶标C脱氨。在其他实施方案中,包含胞苷脱氨酶结构域的碱基编辑器可作用于双链多核苷酸,但靶标C可位于多核苷酸的在脱氨基反应时处于单链状态的部分中。例如,在NAGPB结构域包含Cas9结构域的实施方案中,在形成Cas9-gRNA-靶标DNA复合物的过程中可以留下几个核苷酸不配对,导致形成Cas9“R-环复合物”。这些未配对的核苷酸可形成单链DNA气泡,可作为单链特异性核苷酸脱氨酶(例如胞苷脱氨酶)的底物。
在一些实施方案中,碱基编辑器的胞苷脱氨酶可包含载脂蛋白BmRNA编辑复合物(APOBEC)家族脱氨酶的全部或部分。APOBEC是进化上保守的胞苷脱氨酶家族。该家族的成员是C-至-U编辑酶。APOBEC样蛋白的N末端结构域是催化结构域,而C末端结构域是假催化结构域。更具体地,催化结构域是锌依赖性胞苷脱氨酶结构域并且对于胞苷脱氨作用很重要。APOBEC家族成员包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D(“APOBEC3E”现在指此)、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4和激活诱导(胞苷)脱氨酶。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC1脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC2脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC3脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC3A脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC3B脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC3C脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC3D脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC3E脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC3F脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC3G脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC3H脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC4脱氨酶的全部或部分。在一些实施方案中,掺入碱基编辑器的脱氨酶包含活化诱导脱氨酶(AID)的全部或部分。在一些实施方案中掺入碱基编辑器的脱氨酶包含胞苷脱氨酶1(CDA1)的全部或部分。应当理解,碱基编辑器可以包含来自任何合适的生物体(例如,人或大鼠)的脱氨酶。在一些实施方案中,所述脱氨酶或脱氨酶结构域是来自生物体例如人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然存在的脱氨酶。在一些实施方案中,碱基编辑器的脱氨酶结构域来自人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠。在一些实施方案中,碱基编辑器的脱氨酶结构域是人APOBEC1。在一些实施方案中,碱基编辑器的脱氨酶结构域是pmCDA1。
PmCDA1的氨基酸和核酸序列如下所示。
>tr|A5H718|A5H718_PETMA胞嘧啶脱氨酶OS=海七鳃鳗OX=7757PE=2SV=1氨基酸序列:
MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSIMIQVKILHTTKSPAV
核酸序列:>EF094822.1海七鳃鳗分离的PmCDA.21胞嘧啶脱氨酶mRNA,完全的編碼序列:
TGACACGACACAGCCGTGTATATGAGGAAGGGTAGCTGGATGGGGGGGGGGGGAATACGTTCAGAGAGGACATTAGCGAGCGTCTTGTTGGTGGCCTTGAGTCTAGACACCTGCAGACATGACCGACGCTGAGTACGTGAGAATCCATGAGAAGTTGGACATCTACACGTTTAAGAAACAGTTTTTCAACAACAAAAAATCCGTGTCGCATAGATGCTACGTTCTCTTTGAATTAAAACGACGGGGTGAACGTAGAGCGTGTTTTTGGGGCTATGCTGTGAATAAACCACAGAGCGGGACAGAACGTGGAATTCACGCCGAAATCTTTAGCATTAGAAAAGTCGAAGAATACCTGCGCGACAACCCCGGACAATTCACGATAAATTGGTACTCATCCTGGAGTCCTTGTGCAGATTGCGCTGAAAAGATCTTAGAATGGTATAACCAGGAGCTGCGGGGGAACGGCCACACTTTGAAAATCTGGGCTTGCAAACTCTATTACGAGAAAAATGCGAGGAATCAAATTGGGCTGTGGAACCTCAGAGATAACGGGGTTGGGTTGAATGTAATGGTAAGTGAACACTACCAATGTTGCAGGAAAATATTCATCCAATCGTCGCACAATCAATTGAATGAGAATAGATGGCTTGAGAAGACTTTGAAGCGAGCTGAAAAACGACGGAGCGAGTTGTCCATTATGATTCAGGTAAAAATACTCCACACCACTAAGAGTCCTGCTGTTTAAGAGGCTATGCGGATGGTTTTC
人活化誘導胞苷脫氨酶(AID)的編碼序列(CDS)的氨基酸和核酸序列如下所示。
>tr|Q6QJ80|Q6QJ80_人類活化誘導的胞苷脫氨酶OS=Homo sapiens OX=9606GN=AICDA PE=2SV=1氨基酸序列:
MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKAPV
人活化誘導胞苷脫氨酶(AID)的編碼序列(CDS)的氨基酸和核酸序列如下所示。
>tr|Q6QJ80|Q6QJ80_人類活化誘導的胞苷脫氨酶OS=Homo sapiens OX=9606GN=AICDA PE=2SV=1氨基酸序列:
MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKAPV
核酸序列:>NG_011588.1:5001-15681智人活化誘導的胞苷脫氨酶(AICDA),RefSeqGene(LRG_17)在12号染色体上:
AGAGAACCATCATTAATTGAAGTGAGATTTTTCTGGCCTGAGACTTGCAGGGAGGCAAGAAGACACTCTGGACACCACTATGGACAGGTAAAGAGGCAGTCTTCTCGTGGGTGATTGCACTGGCCTTCCTCTCAGAGCAAATCTGAGTAATGAGACTGGTAGCTATCCCTTTCTCTCATGTAACTGTCTGACTGATAAGATCAGCTTGATCAATATGCATATATATTTTTTGATCTGTCTCCTTTTCTTCTATTCAGATCTTATACGCTGTCAGCCCAATTCTTTCTGTTTCAGACTTCTCTTGATTTCCCTCTTTTTCATGTGGCAAAAGAAGTAGTGCGTACAATGTACTGATTCGTCCTGAGATTTGTACCATGGTTGAAACTAATTTATGGTAATAATATTAACATAGCAAATCTTTAGAGACTCAAATCATGAAAAGGTAATAGCAGTACTGTACTAAAAACGGTAGTGCTAATTTTCGTAATAATTTTGTAAATATTCAACAGTAAAACAACTTGAAGACACACTTTCCTAGGGAGGCGTTACTGAAATAATTTAGCTATAGTAAGAAAATTTGTAATTTTAGAAATGCCAAGCATTCTAAATTAATTGCTTGAAAGTCACTATGATTGTGTCCATTATAAGGAGACAAATTCATTCAAGCAAGTTATTTAATGTTAAAGGCCCAATTGTTAGGCAGTTAATGGCACTTTTACTATTAACTAATCTTTCCATTTGTTCAGACGTAGCTTAACTTACCTCTTAGGTGTGAATTTGGTTAAGGTCCTCATAATGTCTTTATGTGCAGTTTTTGATAGGTTATTGTCATAGAACTTATTCTATTCCTACATTTATGATTACTATGGATGTATGAGAATAACACCTAATCCTTATACTTTACCTCAATTTAACTCCTTTATAAAGAACTTACATTACAGAATAAAGATTTTTTAAAAATATATTTTTTTGTAGAGACAGGGTCTTAGCCCAGCCGAGGCTGGTCTCTAAGTCCTGGCCCAAGCGATCCTCCTGCCTGGGCCTCCTAAAGTGCTGGAATTATAGACATGAGCCATCACATCCAATATACAGAATAAAGATTTTTAATGGAGGATTTAATGTTCTTCAGAAAATTTTCTTGAGGTCAGACAATGTCAAATGTCTCCTCAGTTTACACTGAGATTTTGAAAACAAGTCTGAGCTATAGGTCCTTGTGAAGGGTCCATTGGAAATACTTGTTCAAAGTAAAATGGAAAGCAAAGGTAAAATCAGCAGTTGAAATTCAGAGAAAGACAGAAAAGGAGAAAAGATGAAATTCAACAGGACAGAAGGGAAATATATTATCATTAAGGAGGACAGTATCTGTAGAGCTCATTAGTGATGGCAAAATGACTTGGTCAGGATTATTTTTAACCCGCTTGTTTCTGGTTTGCACGGCTGGGGATGCAGCTAGGGTTCTGCCTCAGGGAGCACAGCTGTCCAGAGCAGCTGTCAGCCTGCAAGCCTGAAACACTCCCTCGGTAAAGTCCTTCCTACTCAGGACAGAAATGACGAGAACAGGGAGCTGGAAACAGGCCCCTAACCAGAGAAGGGAAGTAATGGATCAACAAAGTTAACTAGCAGGTCAGGATCACGCAATTCATTTCACTCTGACTGGTAACATGTGACAGAAACAGTGTAGGCTTATTGTATTTTCATGTAGAGTAGGACCCAAAAATCCACCCAAAGTCCTTTATCTATGCCACATCCTTCTTATCTATACTTCCAGGACACTTTTTCTTCCTTATGATAAGGCTCTCTCTCTCTCCACACACACACACACACACACACACACACACACACACACACACACAAACACACACCCCGCCAACCAAGGTGCATGTAAAAAGATGTAGATTCCTCTGCCTTTCTCATCTACACAGCCCAGGAGGGTAAGTTAATATAAGAGGGATTTATTGGTAAGAGATGATGCTTAATCTGTTTAACACTGGGCCTCAAAGAGAGAATTTCTTTTCTTCTGTACTTATTAAGCACCTATTATGTGTTGAGCTTATATATACAAAGGGTTATTATATGCTAATATAGTAATAGTAATGGTGGTTGGTACTATGGTAATTACCATAAAAATTATTATCCTTTTAAAATAAAGCTAATTATTATTGGATCTTTTTTAGTATTCATTTTATGTTTTTTATGTTTTTGATTTTTTAAAAGACAATCTCACCCTGTTACCCAGGCTGGAGTGCAGTGGTGCAATCATAGCTTTCTGCAGTCTTGAACTCCTGGGCTCAAGCAATCCTCCTGCCTTGGCCTCCCAAAGTGTTGGGATACAGTCATGAGCCACTGCATCTGGCCTAGGATCCATTTAGATTAAAATATGCATTTTAAATTTTAAAATAATATGGCTAATTTTTACCTTATGTAATGTGTATACTGGCAATAAATCTAGTTTGCTGCCTAAAGTTTAAAGTGCTTTCCAGTAAGCTTCATGTACGTGAGGGGAGACATTTAAAGTGAAACAGACAGCCAGGTGTGGTGGCTCACGCCTGTAATCCCAGCACTCTGGGAGGCTGAGGTGGGTGGATCGCTTGAGCCCTGGAGTTCAAGACCAGCCTGAGCAACATGGCAAAACGCTGTTTCTATAACAAAAATTAGCCGGGCATGGTGGCATGTGCCTGTGGTCCCAGCTACTAGGGGGCTGAGGCAGGAGAATCGTTGGAGCCCAGGAGGTCAAGGCTGCACTGAGCAGTGCTTGCGCCACTGCACTCCAGCCTGGGTGACAGGACCAGACCTTGCCTCAAAAAAATAAGAAGAAAAATTAAAAATAAATGGAAACAACTACAAAGAGCTGTTGTCCTAGATGAGCTACTTAGTTAGGCTGATATTTTGGTATTTAACTTTTAAAGTCAGGGTCTGTCACCTGCACTACATTATTAAAATATCAATTCTCAATGTATATCCACACAAAGACTGGTACGTGAATGTTCATAGTACCTTTATTCACAAAACCCCAAAGTAGAGACTATCCAAATATCCATCAACAAGTGAACAAATAAACAAAATGTGCTATATCCATGCAATGGAATACCACCCTGCAGTACAAAGAAGCTACTTGGGGATGAATCCCAAAGTCATGACGCTAAATGAAAGAGTCAGACATGAAGGAGGAGATAATGTATGCCATACGAAATTCTAGAAAATGAAAGTAACTTATAGTTACAGAAAGCAAATCAGGGCAGGCATAGAGGCTCACACCTGTAATCCCAGCACTTTGAGAGGCCACGTGGGAAGATTGCTAGAACTCAGGAGTTCAAGACCAGCCTGGGCAACACAGTGAAACTCCATTCTCCACAAAAATGGGAAAAAAAGAAAGCAAATCAGTGGTTGTCCTGTGGGGAGGGGAAGGACTGCAAAGAGGGAAGAAGCTCTGGTGGGGTGAGGGTGGTGATTCAGGTTCTGTATCCTGACTGTGGTAGCAGTTTGGGGTGTTTACATCCAAAAATATTCGTAGAATTATGCATCTTAAATGGGTGGAGTTTACTGTATGTAAATTATACCTCAATGTAAGAAAAAATAATGTGTAAGAAAACTTTCAATTCTCTTGCCAGCAAACGTTATTCAAATTCCTGAGCCCTTTACTTCGCAAATTCTCTGCACTTCTGCCCCGTACCATTAGGTGACAGCACTAGCTCCACAAATTGGATAAATGCATTTCTGGAAAAGACTAGGGACAAAATCCAGGCATCACTTGTGCTTTCATATCAACCATGCTGTACAGCTTGTGTTGCTGTCTGCAGCTGCAATGGGGACTCTTGATTTCTTTAAGGAAACTTGGGTTACCAGAGTATTTCCACAAATGCTATTCAAATTAGTGCTTATGATATGCAAGACACTGTGCTAGGAGCCAGAAAACAAAGAGGAGGAGAAATCAGTCATTATGTGGGAACAACATAGCAAGATATTTAGATCATTTTGACTAGTTAAAAAAGCAGCAGAGTACAAAATCACACATGCAATCAGTATAATCCAAATCATGTAAATATGTGCCTGTAGAAAGACTAGAGGAATAAACACAAGAATCTTAACAGTCATTGTCATTAGACACTAAGTCTAATTATTATTATTAGACACTATGATATTTGAGATTTAAAAAATCTTTAATATTTTAAAATTTAGAGCTCTTCTATTTTTCCATAGTATTCAAGTTTGACAATGATCAAGTATTACTCTTTCTTTTTTTTTTTTTTTTTTTTTTTTTGAGATGGAGTTTTGGTCTTGTTGCCCATGCTGGAGTGGAATGGCATGACCATAGCTCACTGCAACCTCCACCTCCTGGGTTCAAGCAAAGCTGTCGCCTCAGCCTCCCGGGTAGATGGGATTACAGGCGCCCACCACCACACTCGGCTAATGTTTGTATTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTCAAACTCCTGACCTCAGAGGATCCACCTGCCTCAGCCTCCCAAAGTGCTGGGATTACAGATGTAGGCCACTGCGCCCGGCCAAGTATTGCTCTTATACATTAAAAAACAGGTGTGAGCCACTGCGCCCAGCCAGGTATTGCTCTTATACATTAAAAAATAGGCCGGTGCAGTGGCTCACGCCTGTAATCCCAGCACTTTGGGAAGCCAAGGCGGGCAGAACACCCGAGGTCAGGAGTCCAAGGCCAGCCTGGCCAAGATGGTGAAACCCCGTCTCTATTAAAAATACAAACATTACCTGGGCATGATGGTGGGCGCCTGTAATCCCAGCTACTCAGGAGGCTGAGGCAGGAGGATCCGCGGAGCCTGGCAGATCTGCCTGAGCCTGGGAGGTTGAGGCTACAGTAAGCCAAGATCATGCCAGTATACTTCAGCCTGGGCGACAAAGTGAGACCGTAACAAAAAAAAAAAAATTTAAAAAAAGAAATTTAGATCAAGATCCAACTGTAAAAAGTGGCCTAAACACCACATTAAAGAGTTTGGAGTTTATTCTGCAGGCAGAAGAGAACCATCAGGGGGTCTTCAGCATGGGAATGGCATGGTGCACCTGGTTTTTGTGAGATCATGGTGGTGACAGTGTGGGGAATGTTATTTTGGAGGGACTGGAGGCAGACAGACCGGTTAAAAGGCCAGCACAACAGATAAGGAGGAAGAAGATGAGGGCTTGGACCGAAGCAGAGAAGAGCAAACAGGGAAGGTACAAATTCAAGAAATATTGGGGGGTTTGAATCAACACATTTAGATGATTAATTAAATATGAGGACTGAGGAATAAGAAATGAGTCAAGGATGGTTCCAGGCTGCTAGGCTGCTTACCTGAGGTGGCAAAGTCGGGAGGAGTGGCAGTTTAGGACAGGGGGCAGTTGAGGAATATTGTTTTGATCATTTTGAGTTTGAGGTACAAGTTGGACACTTAGGTAAAGACTGGAGGGGAAATCTGAATATACAATTATGGGACTGAGGAACAAGTTTATTTTATTTTTTGTTTCGTTTTCTTGTTGAAGAACAAATTTAATTGTAATCCCAAGTCATCAGCATCTAGAAGACAGTGGCAGGAGGTGACTGTCTTGTGGGTAAGGGTTTGGGGTCCTTGATGAGTATCTCTCAATTGGCCTTAAATATAAGCAGGAAAAGGAGTTTATGATGGATTCCAGGCTCAGCAGGGCTCAGGAGGGCTCAGGCAGCCAGCAGAGGAAGTCAGAGCATCTTCTTTGGTTTAGCCCAAGTAATGACTTCCTTAAAAAGCTGAAGGAAAATCCAGAGTGACCAGATTATAAACTGTACTCTTGCATTTTCTCTCCCTCCTCTCACCCACAGCCTCTTGATGAACCGGAGGAAGTTTCTTTACCAATTCAAAAATGTCCGCTGGGCTAAGGGTCGGCGTGAGACCTACCTGTGCTACGTAGTGAAGAGGCGTGACAGTGCTACATCCTTTTCACTGGACTTTGGTTATCTTCGCAATAAGGTATCAATTAAAGTCGGCTTTGCAAGCAGTTTAATGGTCAACTGTGAGTGCTTTTAGAGCCACCTGCTGATGGTATTACTTCCATCCTTTTTTGGCATTTGTGTCTCTATCACATTCCTCAAATCCTTTTTTTTATTTCTTTTTCCATGTCCATGCACCCATATTAGACATGGCCCAAAATATGTGATTTAATTCCTCCCCAGTAATGCTGGGCACCCTAATACCACTCCTTCCTTCAGTGCCAAGAACAACTGCTCCCAAACTGTTTACCAGCTTTCCTCAGCATCTGAATTGCCTTTGAGATTAATTAAGCTAAAAGCATTTTTATATGGGAGAATATTATCAGCTTGTCCAAGCAAAAATTTTAAATGTGAAAAACAAATTGTGTCTTAAGCATTTTTGAAAATTAAGGAAGAAGAATTTGGGAAAAAATTAACGGTGGCTCAATTCTGTCTTCCAAATGATTTCTTTTCCCTCCTACTCACATGGGTCGTAGGCCAGTGAATACATTCAACATGGTGATCCCCAGAAAACTCAGAGAAGCCTCGGCTGATGATTAATTAAATTGATCTTTCGGCTACCCGAGAGAATTACATTTCCAAGAGACTTCTTCACCAAAATCCAGATGGGTTTACATAAACTTCTGCCCACGGGTATCTCCTCTCTCCTAACACGCTGTGACGTCTGGGCTTGGTGGAATCTCAGGGAAGCATCCGTGGGGTGGAAGGTCATCGTCTGGCTCGTTGTTTGATGGTTATATTACCATGCAATTTTCTTTGCCTACATTTGTATTGAATACATCCCAATCTCCTTCCTATTCGGTGACATGACACATTCTATTTCAGAAGGCTTTGATTTTATCAAGCACTTTCATTTACTTCTCATGGCAGTGCCTATTACTTCTCTTACAATACCCATCTGTCTGCTTTACCAAAATCTATTTCCCCTTTTCAGATCCTCCCAAATGGTCCTCATAAACTGTCCTGCCTCCACCTAGTGGTCCAGGTATATTTCCACAATGTTACATCAACAGGCACTTCTAGCCATTTTCCTTCTCAAAAGGTGCAAAAAGCAACTTCATAAACACAAATTAAATCTTCGGTGAGGTAGTGTGATGCTGCTTCCTCCCAACTCAGCGCACTTCGTCTTCCTCATTCCACAAAAACCCATAGCCTTCCTTCACTCTGCAGGACTAGTGCTGCCAAGGGTTCAGCTCTACCTACTGGTGTGCTCTTTTGAGCAAGTTGCTTAGCCTCTCTGTAACACAAGGACAATAGCTGCAAGCATCCCCAAAGATCATTGCAGGAGACAATGACTAAGGCTACCAGAGCCGCAATAAAAGTCAGTGAATTTTAGCGTGGTCCTCTCTGTCTCTCCAGAACGGCTGCCACGTGGAATTGCTCTTCCTCCGCTACATCTCGGACTGGGACCTAGACCCTGGCCGCTGCTACCGCGTCACCTGGTTCACCTCCTGGAGCCCCTGCTACGACTGTGCCCGACATGTGGCCGACTTTCTGCGAGGGAACCCCAACCTCAGTCTGAGGATCTTCACCGCGCGCCTCTACTTCTGTGAGGACCGCAAGGCTGAGCCCGAGGGGCTGCGGCGGCTGCACCGCGCCGGGGTGCAAATAGCCATCATGACCTTCAAAGGTGCGAAAGGGCCTTCCGCGCAGGCGCAGTGCAGCAGCCCGCATTCGGGATTGCGATGCGGAATGAATGAGTTAGTGGGGAAGCTCGAGGGGAAGAAGTGGGCGGGGATTCTGGTTCACCTCTGGAGCCGAAATTAAAGATTAGAAGCAGAGAAAAGAGTGAATGGCTCAGAGACAAGGCCCCGAGGAAATGAGAAAATGGGGCCAGGGTTGCTTCTTTCCCCTCGATTTGGAACCTGAACTGTCTTCTACCCCCATATCCCCGCCTTTTTTTCCTTTTTTTTTTTTTGAAGATTATTTTTACTGCTGGAATACTTTTGTAGAAAACCACGAAAGAACTTTCAAAGCCTGGGAAGGGCTGCATGAAAATTCAGTTCGTCTCTCCAGACAGCTTCGGCGCATCCTTTTGGTAAGGGGCTTCCTCGCTTTTTAAATTTTCTTTCTTTCTCTACAGTCTTTTTTGGAGTTTCGTATATTTCTTATATTTTCTTATTGTTCAATCACTCTCAGTTTTCATCTGATGAAAACTTTATTTCTCCTCCACATCAGCTTTTTCTTCTGCTGTTTCACCATTCAGAGCCCTCTGCTAAGGTTCCTTTTCCCTCCCTTTTCTTTCTTTTGTTGTTTCACATCTTTAAATTTCTGTCTCTCCCCAGGGTTGCGTTTCCTTCCTGGTCAGAATTCTTTTCTCCTTTTTTTTTTTTTTTTTTTTTTTTTTTAAACAAACAAACAAAAAACCCAAAAAAACTCTTTCCCAATTTACTTTCTTCCAACATGTTACAAAGCCATCCACTCAGTTTAGAAGACTCTCCGGCCCCACCGACCCCCAACCTCGTTTTGAAGCCATTCACTCAATTTGCTTCTCTCTTTCTCTACAGCCCCTGTATGAGGTTGATGACTTACGAGACGCATTTCGTACTTTGGGACTTTGATAGCAACTTCCAGGAATGTCACACACGATGAAATATCTCTGCTGAAGACAGTGGATAAAAAACAGTCCTTCAAGTCTTCTCTGTTTTTATTCTTCAACTCTCACTTTCTTAGAGTTTACAGAAAAAATATTTATATACGACTCTTTAAAAAGATCTATGTCTTGAAAATAGAGAAGGAACACAGGTCTGGCCAGGGACGTGCTGCAATTGGTGCAGTTTTGAATGCAACATTGTCCCCTACTGGGAATAACAGAACTGCAGGACCTGGGAGCATCCTAAAGTGTCAACGTTTTTCTATGACTTTTAGGTAGGATGAGAGCAGAAGGTAGATCCTAAAAAGCATGGTGAGAGGATCAAATGTTTTTATATCAACATCCTTTATTATTTGATTCATTTGAGTTAACAGTGGTGTTAGTGATAGATTTTTCTATTCTTTTCCCTTGACGTTTACTTTCAAGTAACACAAACTCTTCCATCAGGCCATGATCTATAGGACCTCCTAATGAGAGTATCTGGGTGATTGTGACCCCAAACCATCTCTCCAAAGCATTAATATCCAATCATGCGCTGTATGTTTTAATCAGCAGAAGCATGTTTTTATGTTTGTACAAAAGAAGATTGTTATGGGTGGGGATGGAGGTATAGACCATGCATGGTCACCTTCAAGCTACTTTAATAAAGGATCTTAAAATGGGCAGGAGGACTGTGAACAAGACACCCTAATAATGGGTTGATGTCTGAAGTAGCAAATCTTCTGGAAACGCAAACTCTTTTAAGGAAGTCCCTAATTTAGAAACACCCACAAACTTCACATATCATAATTAGCAAACAATTGGAAGGAAGTTGCTTGAATGTTGGGGAGAGGAAAATCTATTGGCTCTCGTGGGTCTCTTCATCTCAGAAATGCCAATCAGGTCAAGGTTTGCTACATTTTGTATGTGTGTGATGCTTCTCCCAAAGGTATATTAACTATATAAGAGAGTTGTGACAAAACAGAATGATAAAGCTGCGAACCGTGGCACACGCTCATAGTTCTAGCTGCTTGGGAGGTTGAGGAGGGAGGATGGCTTGAACACAGGTGTTCAAGGCCAGCCTGGGCAACATAACAAGATCCTGTCTCTCAAAAAAAAAAAAAAAAAAAAGAAAGAGAGAGGGCCGGGCGTGGTGGCTCACGCCTGTAATCCCAGCACTTTGGGAGGCCGAGCCGGGCGGATCACCTGTGGTCAGGAGTTTGAGACCAGCCTGGCCAACATGGCAAAACCCCGTCTGTACTCAAAATGCAAAAATTAGCCAGGCGTGGTAGCAGGCACCTGTAATCCCAGCTACTTGGGAGGCTGAGGCAGGAGAATCGCTTGAACCCAGGAGGTGGAGGTTGCAGTAAGCTGAGATCGTGCCGTTGCACTCCAGCCTGGGCGACAAGAGCAAGACTCTGTCTCAGAAAAAAAAAAAAAAAAGAGAGAGAGAGAGAAAGAGAACAATATTTGGGAGAGAAGGATGGGGAAGCATTGCAAGGAAATTGTGCTTTATCCAACAAAATGTAAGGAGCCAATAAGGGATCCCTATTTGTCTCTTTTGGTGTCTATTTGTCCCTAACAACTGTCTTTGACAGTGAGAAAAATATTCAGAATAACCATATCCCTGTGCCGTTATTACCTAGCAACCCTTGCAATGAAGATGAGCAGATCCACAGGAAAACTTGAATGCACAACTGTCTTATTTTAATCTTATTGTACATAAGTTTGTAAAAGAGTTAAAAATTGTTACTTCATGTATTCATTTATATTTTATATTATTTTGCGTCTAATGATTTTTTATTAACATGATTTCCTTTTCTGATATATTGAAATGGAGTCTCAAAGCTTCATAAATTTATAACTTTAGAAATGATTCTAATAACAACGTATGTAATTGTAACATTGCAGTAATGGTGCTACGAAGCCATTTCTCTTGATTTTTAGTAAACTTTTATGACAGCAAATTTGCTTCTGGCTCACTTTCAATCAGTTAAATAAATGATAAATAATTTTGGAAGCTGTGAAGATAAAATACCAAATAAAATAATATAAAAGTGATTTATATGAAGTTAAAATAAAAAATCAGTATGATGGAATAAACTTG
下面提供根据本公开内容的方面可以融合到Cas9的其他示例性脱氨酶。在实施方案中,脱氨酶是活化诱导的脱氨酶(AID)。应当理解,在一些实施方案中,可以使用相应序列的活性结构域,例如,没有定位信号的结构域(核定位序列,没有核输出信号,细胞质定位信号)。
人AID:
Figure BDA0003302413480002291
Figure BDA0003302413480002292
(底线:核定位序列;双底线:核输出信号)
小鼠AID:
Figure BDA0003302413480002293
Figure BDA0003302413480002301
Figure BDA0003302413480002302
(底线:核定位序列;双底线:核输出信号)
犬类AID:
Figure BDA0003302413480002303
Figure BDA0003302413480002304
(底线:核定位序列;双底线:核输出信号)
牛AID:
Figure BDA0003302413480002305
Figure BDA0003302413480002306
(底线:核定位序列;双底线:核输出信号)
大鼠AID:
Figure BDA0003302413480002307
Figure BDA0003302413480002308
(底线:核定位序列;双底线:核输出信号)
小鼠APOBEC-3-(2):
Figure BDA0003302413480002309
Figure BDA00033024134800023010
(斜体:核酸编辑结构域)
大鼠APOBEC-3:
Figure BDA00033024134800023011
Figure BDA0003302413480002311
Figure BDA0003302413480002312
(斜体:核酸编辑结构域)
恒河猴APOBEC-3G:
MVEPMDPRTFVSNFNNRPILSGLNTVWLCCEVKTKDPSGPPLDAKIFQGKVYSKAKYHPEMRFLRWFHKWRQLHHDQEYKVTWYVSWSPCTRCANSVATFLAKDPKVTLTIFVARLYYFWKPDYQQALRILCQKRGGPHATMKIMNYNEFQDCWNKFVDGRGKPFKPRNNLPKHYTLLQATLGELLRHLMDPGTFTSNFNNKPWVSGQHETYLCYKVERLHNDTWVPLNQHRGFLRNQAPNIHGFPKGRHAELCFLDLIPFWKLDGQQYRVTCFTSWSPCFSCAQEMAKFISNNEHVSLCIFAARIYDDQGRYQEGLRALHRDGAKIAMMNYSEFEYCWDTFVDRQGRPFQPWDGLDEHSQALSGRLRAI(斜体:核酸编辑结构域;底线:细胞质定位信号)
黑猩猩APOBEC-3G:
Figure BDA0003302413480002313
(斜体:核酸编辑结构域;底线:细胞质定位信号)
绿猴APOBEC-3G:
Figure BDA0003302413480002314
(斜体:核酸编辑结构域;底线:细胞质定位信号)
人APOBEC-3G:
Figure BDA0003302413480002321
(斜体:核酸编辑结构域;底线:细胞质定位信号)
人APOBEC-3F:
Figure BDA0003302413480002322
(斜体:核酸编辑结构域)
人APOBEC-3B:
Figure BDA0003302413480002323
(斜体:核酸编辑结构域)
大鼠APOBEC-3B:
MQPQGLGPNAGMGPVCLGCSHRRPYSPIRNPLKKLYQQTFYFHFKNVRYAWGRKNNFLCYEVNGMDCALPVPLRQGVFRKQGHIHAELCFIYWFHDKVLRVLSPMEEFKVTWYMSWSPCSKCAEQVARFLAAHRNLSLAIFSSRLYYYLRNPNYQQKLCRLIQEGVHVAAMDLPEFKKCWNKFVDNDGQPFRPWMRLRINFSFYDCKLQEIFSRMNLLREDVFYLQFNNSHRVKPVQNRYYRRKSYLCYQLERANGQEPLKGYLLYKKGEQHVEILFLEKMRSMELSQVRITCYLTWSPCPNCARQLAAFKKDHPDLILRIYTSRLYFWRKKFQKGLCTLWRSGIHVDVMDLPQFADCWTNFVNPQRPFRPWNELEKNSWRIQRRLRRIKESWGL
牛 APOBEC-3B:
DGWEVAFRSGTVLKAGVLGVSMTEGWAGSGHPGQGACVWTPGTRNTMNLLREVLFKQQFGNQPRVPAPYYRRKTYLCYQLKQRNDLTLDRGCFRNKKQRHAERFIDKINSLDLNPSQSYKIICYITWSPCPNCANELVNFITRNNHLKLEIFASRLYFHWIKSFKMGLQDLQNAGISVAVMTHTEFEDCWEQFVDNQSRPFQPWDKLEQYSASIRRRLQRILTAPI
黑猩猩 APOBEC-3B:
MNPQIRNPMEWMYQRTFYYNFENEPILYGRSYTWLCYEVKIRRGHSNLLWDTGVFRGQMYSQPEHHAEMCFLSWFCGNQLSAYKCFQITWFVSWTPCPDCVAKLAKFLAEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVKIMDDEEFAYCWENFVYNEGQPFMPWYKFDDNYAFLHRTLKEIIRHLMDPDTFTFNFNNDPLVLRRHQTYLCYEVERLDNGTWVLMDQHMGFLCNEAKNLLCGFYGRHAELRFLDLVPSLQLDPAQIYRVTWFISWSPCFSWGCAGQVRAFLQENTHVRLRIFAARIYDYDPLYKEALQMLRDAGAQVSIMTYDEFEYCWDTFVYRQGCPFQPWDGLEEHSQALSGRLRAILQVRASSLCMVPHRPPPPPQSPGPCLPLCSEPPLGSLLPTGRPAPSLPFLLTASFSFPPPASLPPLPSLSLSPGHLPVPSFHSLTSCSIQPPCSSRIRETEGWASVSKEGRDLG
人 APOBEC-3C:
Figure BDA0003302413480002331
(斜体:核酸编辑结构域)
大猩猩 APOBEC-3C
Figure BDA0003302413480002332
(斜体:核酸编辑结构域)
人APOBEC-3A:
Figure BDA0003302413480002341
(斜体:核酸编辑结构域)
恒河猴APOBEC-3A:
Figure BDA0003302413480002342
(斜体:核酸编辑结构域)
牛APOBEC-3A:
Figure BDA0003302413480002343
(斜体:核酸编辑结构域)
人APOBEC-3H:
Figure BDA0003302413480002344
(斜体:核酸编辑结构域)
恒河猴APOBEC-3H:
MALLTAKTFSLQFNNKRRVNKPYYPRKALLCYQLTPQNGSTPTRGHLKNKKKDHAEIRFINKIKSMGLDETQCYQVTCYLTWSPCPSCAGELVDFIKAHRHLNLRIFASRLYYHWRPNYQEGLLLLCGSQVPVEVMGLPEFTDCWENFVDHKEPPSFNPSEKLEELDKNSQAIKRRLERIKSRSVDVLENGLRSLQLGPVTPSSSIRNSR
人APOBEC-3D:
Figure BDA0003302413480002351
(斜体:核酸编辑结构域)
人APOBEC-1:
MTSEKGPSTGDPTLRRRIEPWEFDVFYDPRELRKEACLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERDFHPSMSCSITWFLSWSPCWECSQAIREFLSRHPGVTLVIYVARLFWHMDQQNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLTFFRLHLQNCHYQTIPPHILLATGLIHPSVAWR
小鼠APOBEC-1:
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSVWRHTSQNTSNHVEVNFLEKFTTERYFRPNTRCSITWFLSWSPCGECSRAITEFLSRHPYVTLFIYIARLYHHTDQRNRQGLRDLISSGVTIQIMTEQEYCYCWRNFVNYPPSNEAYWPRYPHLWVKLYVLELYCIILGLPPCLKILRRKQPQLTFFTITLQTCHYQRIPPHLLWATGLK
大鼠APOBEC-1:
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK
人APOBEC-2:
MAQKEEAAVATEAASQNGEDLENLDDPEKLKELIELPPFEIVTGERLPANFFKFQFRNVEYSSGRNKTFLCYVVEAQGKGGQVQASRGYLEDEHAAAHAEEAFFNTILPAFDPALRYNVTWYVSSSPCAACADRIIKTLSKTKNLRLLILVGRLFMWEEPEIQAALKKLKEAGCKLRIMKPQDFEYVWQNFVEQEEGESKAFQPWEDIQENFLYYEEKLADILK
小鼠APOBEC-2:
MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEVQSKGGQAQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRLFMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK
大鼠APOBEC-2:
MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEAQSKGGQVQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRLFMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYLWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK
牛APOBEC-2:
MAQKEEAAAAAEPASQNGEEVENLEDPEKLKELIELPPFEIVTGERLPAHYFKFQFRNVEYSSGRNKTFLCYVVEAQSKGGQVQASRGYLEDEHATNHAEEAFFNSIMPTFDPALRYMVTWYVSSSPCAACADRIVKTLNKTKNLRLLILVGRLFMWEEPEIQAALRKLKEAGCRLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK
海七鳃鳗CDA1(pmCDAl):
MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSFMIQVKILHTTKSPAV
人APOBEC3G D316R D317R:
MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPPLDAKIFRGQVYSELKYHPEMRFFHWFSKWRKLHRDQEYEVTWYISWSPCTKCTRDMATFLAEDPKVTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKFNYDEFQHCWSKFVYSQRELFEPWNNLPKYYILLHFMLGEILRHSMDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKKHVSLCIFTARIYRRQGRCQEGLRTLAEAGAKISFTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQNQEN
人APOBEC3G链A:
MDPPTFTFNFNNEPWWGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYDDQGRCQEGLRTLAEAGAKISFTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQ
人APOBEC3G链A D120R D121R:
MDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYRRQGRCQEGLRTLAEAGAKISFMTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQ
本公开的一些方面基于这样的认识,即调节本文描述的任何融合蛋白的脱氨酶结构域催化活性,例如通过在脱氨酶结构域中进行点突变,影响融合蛋白(例如碱基编辑器)的持续合成能力)。例如,降低但不消除碱基编辑融合蛋白内脱氨酶结构域催化活性的突变可以降低脱氨酶结构域催化与靶残基相邻的残基的脱氨作用的可能性,从而缩小脱氨基窗口。缩小脱氨基窗口的能力可以防止与特定目标残基相邻的残基发生不需要的脱氨基,这可以减少或防止脱靶效应。
例如,在一些实施方案中,掺入碱基编辑器的APOBEC脱氨酶可包含一种或多种选自rAPOBEC1的H121X、H122X、R26X、R118X、W90X、W90X和R132X组成的群组的突变,或在另一种APOBEC脱氨酶中的一个或多个相应的突变,其中X是任何氨基酸。在一些实施方案中,掺入碱基编辑器的APOBEC脱氨酶可包含一个或多个选自由rAPOBEC1的H121R、H122R、R26A、R26E、R118A、W90A、W90Y和R132E组成的群组的突变,或在另一种APOBEC脱氨酶中的一个或多个相应的突变。
在一些实施方案中,掺入碱基编辑器的APOBEC脱氨酶可包含一个或多个选自由rAPOBEC1的D316X、D317X、R320X、R320X、R313X、W285X、W285X、R326X组成的群组的突变,或在另一种APOBEC脱氨酶中的一个或多个相应的突变。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含一个或多个选自hAPOBEC3G的D316R、D317R、R320A、R320E、R313A、W285A、W285Y、R326E组成的群组的突变,或在另一个APOBEC脱氨酶中的一个或多个相应的突变。
在一些实施方案中,掺入碱基编辑器的APOBEC脱氨酶可包含rAPOBEC1的H121R和H122R突变,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含rAPOBEC1的R26A突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含rAPOBEC1的R26E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含rAPOBEC1的R118A突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含rAPOBEC1的W90A突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含rAPOBEC1的W90Y突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含rAPOBEC1的R132E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含rAPOBEC1的W90Y和R26E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含rAPOBEC1的R26E和R132E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含rAPOBEC1的W90Y和R132E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含rAPOBEC1的W90Y、R26E和R132E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。
在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含hAPOBEC3G的D316R和D317R突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,本文提供的任何融合蛋白包含APOBEC脱氨酶,其包含hAPOBEC3G的R320A突变,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含hAPOBEC3G的R320E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含hAPOBEC3G的R313A突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含hAPOBEC3G的W285A突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含hAPOBEC3G的W285Y突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含hAPOBEC3G的R326E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含hAPOBEC3G的W285Y和R320E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含hAPOBEC3G的R320E和R326E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含hAPOBEC3G的W285Y和R326E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。在一些实施方案中,掺入碱基编辑器中的APOBEC脱氨酶,其可包含hAPOBEC3G的W285Y、R320E和R326E突变的APOBEC脱氨酶,或另一种APOBEC脱氨酶中的一个或多个相应突变。
许多修饰的胞苷脱氨酶是可商购的,包括但不限于SaBE3、SaKKH-BE3、VQR-BE3、EQR-BE3、VRER-BE3、YE1-BE3、EE-BE3、YE2-BE3和YEE-BE3,可从Addgene获得(质粒85169、85170、85171、85172、85173、85174、85175、85176、85177)。在一些实施方案中,掺入碱基编辑器的脱氨酶包含APOBEC1脱氨酶的全部或部分。
C到T核碱基编辑蛋白的详细信息在国际PCT申请号PCT/US2016/058344(WO2017/070632)和Komor,AC等人,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016),其全部内容通过引用并入本文。
包含Cas9结构域和腺苷脱氨酶和/或胞苷脱氨酶的融合蛋白
本公开的一些方面提供包含Cas9结构域或其他核酸可编程的DNA结合蛋白和一个或多个腺苷脱氨酶结构域、胞苷脱氨酶结构域和/或DNA糖基化酶结构域的融合蛋白。应当理解,Cas9结构域可以是本文提供的任何Cas9结构域或Cas9蛋白(例如,dCas9或nCas9)。在一些实施方案中,本文提供的任何Cas9结构域或Cas9蛋白(例如,dCas9或nCas9)可以与本文提供的任何胞苷脱氨酶和腺苷脱氨酶融合。本文公开的碱基编辑器的结构域可以以任何顺序排列。
例如但不限于,在一些实施方案中,融合蛋白包含以下结构:
NH2-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;或
NH2-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH.
在一些实施方案中,融合蛋白的腺苷脱氨酶包含TadA*8和胞苷脱氨酶。在一些实施例中,TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.23或TadA*8.24。
示例性融合蛋白结构包括以下:
NH2-[腺苷脱氨酶]-[Cas9]-[[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9]-[腺苷脱氨酶]-COOH;
NH2-[TadA*8]-[Cas9]-[胞苷脱氨酶]-COOH;或
NH2-[胞苷脱氨酶]-[Cas9]-[TadA*8]-COOH。
在一些实施方案中,包含胞苷脱氨酶、脱碱基编辑器和腺苷脱氨酶和napDNAbp(例如Cas9结构域)的融合蛋白不包括接头序列。在一些实施方案中,在胞苷脱氨酶和腺苷脱氨酶结构域与napDNAbp之间存在接头。在一些实施例中,以上通用架构中使用的“-”表示可选接头的存在。在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶以及napDNAbp通过本文提供的任何接头融合。,在一些实施方案中胞苷脱氨酶和腺苷脱氨酶以及napDNAbp通过本文提供的任何接头融合。
例如,在一些实施方案中,胞苷脱氨酶和腺苷脱氨酶以及napDNAbp通过下文标题为“接头”的部分中提供的任何接头融合。
NH2-NLS-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-NLS-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-NLS-[腺苷脱氨酶][胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-NLS-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-NLS-[Cas9结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;
NH2-NLS-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-NLS-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-NL2-COOH;
NH2-[腺苷脱氨酶][胞苷脱氨酶]-[Cas9结构域]-NLS-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-NLS-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-NLS-COOH;或
NH2-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-NLS-COOH。
在一些实施方案中,NLS存在于接头中或NLS的侧翼是接头,例如本文所述。在一些实施方案中,N末端或C末端NLS是二分NLS。二分NLS包含两个基本氨基酸簇,它们由相对较短的间隔序列分隔(因此二分-2部分,而单部分NLS不是)。核质蛋白的NLS KR[PAATKKAGQA]KKKK是无处不在的二分信号的原型:两个碱性氨基酸簇,由大约10个氨基酸的间隔子隔开。示例性二分NLS的序列如下:PKKKRKVEGADKRTADGSEFESPKKKRKV.
在一些实施方案中,包含胞苷脱氨酶、腺苷脱氨酶、Cas9结构域和NLS的融合蛋白不包含接头序列。在一些实施方案中,存在一个或多个结构域或蛋白质(例如,胞苷脱氨酶、腺苷脱氨酶、Cas9结构域或NLS)之间的接头序列。
应当理解,本公开的融合蛋白可以包含一个或多个附加特征。例如,在一些实施方案中,融合蛋白可包含抑制剂、细胞质定位序列、输出序列,例如核输出序列或其他定位序列,以及可用于溶解、纯化或检测融合的序列标签。蛋白质。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签,也称为组氨酸标签或His-标签、麦芽糖结合蛋白(MBP)-标签、nus-标签、谷胱甘肽-S-转移酶(GST)-标签、绿色荧光蛋白(GFP)-标签、硫氧还蛋白-标签、S-标签、Softags(例如,Softag 1、Softag 3)、链标签、生物素连接酶标签、Flash标签、V5标签和SBP标签。其他合适的序列对本领域技术人员来说是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
示例性但非限制性的融合蛋白在国际PCT申请号PCT/2017/044935和PCT/US2020/016288中有所描述,它们各自通过引用整体并入本文。
腺苷脱氨酶
在一些实施方案中,本文所述的碱基编辑器可包含脱氨酶结构域,其包括腺苷脱氨酶。碱基编辑器的这种腺苷脱氨酶结构域可以通过将A脱氨基形成肌苷(I)来促进将腺嘌呤(A)核碱基编辑为鸟嘌呤(G)核碱基,肌苷(I)具有G的碱基配对特性。腺苷脱氨酶能够脱氧核糖核酸(DNA)中脱氧腺苷残基的腺嘌呤脱氨基(即,除去胺基团)。
在一些实施方案中,本文提供的腺苷脱氨酶能够使腺嘌呤脱氨。在一些实施方案中,本文提供的腺苷脱氨酶能够使DNA的脱氧腺苷残基中的腺嘌呤脱氨。在一些实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括一个或多个对应于本文提供的任何突变(例如,ecTadA中的突变)的突变。本领域技术人员将能够鉴定任何同源蛋白质中的相应残基,例如通过序列比对和同源残基的确定。因此,本领域技术人员将能够在任何天然存在的腺苷脱氨酶(例如,与ecTadA具有同源性)中产生对应于本文所述的任何突变(例如,在ecTadA中鉴定的任何突变)的突变。在一些实施方案中,所述腺苷脱氨酶来自原核生物。在一些实施方案中,所述腺苷脱氨酶来自细菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、腐败希瓦氏菌、流感嗜血杆菌、新月柄杆菌或枯草芽孢杆菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌。
本公开提供具有增加的效率(>50-60%)和特异性的腺苷脱氨酶变体。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所需碱基,并且不太可能编辑不打算改变的碱基(即,“旁观者(bystander)”)。
在特定实施例中,TadA是PCT/US2017/045381(WO 2018/027078)中描述的TadA中的任一种,该专利通过引用整体并入本文。
在一些实施方案中,本公开内容的核碱基编辑器是包含以下序列改变的腺苷脱氨酶变体:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(也称为TadA*7.10)。
在特定实施方案中,融合蛋白包含单个(例如,作为单体提供)TadA*8变体。在一些实施方案中,TadA*8与Cas9切口酶连接。在一些实施方案中,本公开的融合蛋白包含与TadA*8变体连接的作为野生型TadA(TadA(wt))的异二聚体。在其他实施方案中,本公开的融合蛋白包含与TadA*8变体连接的TadA*7.10的异二聚体。在一些实施方案中,碱基编辑器是包含TadA*8变体单体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8变体和TadA(wt)的异二聚体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8变体和TadA*7.10的异二聚体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8变体的异二聚体的ABE8。在一些实施方案中,所述TadA*8变体选自表7。
在一些实施方案中,所述ABE8选自表7。相关序列如下:
野生型TadA(TadA(wt))或“TadA参考序列”
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
TadA*7.10:
MSEVEFSHEYW MRHALTLAKR ARDEREVPVG AVLVLNNRVI GEGWNRAIGL HDPTAHAEIMALRQGGLVMQ NYRLIDATLY VTFEPCVMCA GAMIHSRIGR VVFGVRNAKT GAAGSLMDVL HYPGMNHRVEITEGILADEC AALLCYFFRM PRQVFNAQKK AQSSTD
在一些实施方案中,所述腺苷脱氨酶与本文提供的任何腺苷脱氨酶的任何一个氨基酸序列至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。应当理解,本文提供的腺苷脱氨酶可以包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施例中,与参考序列或本文提供的任何腺苷脱氨酶相比,所述腺苷脱氨酶具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本领域已知或本文所述的任一氨基酸序列相比,腺苷脱氨酶包含具有至少5、至少10、至少15、至少20、至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的连续氨基酸残基。
在一些实施方案中,所述TadA脱氨酶是全长大肠杆菌TadA脱氨酶。例如,在某些实施方案中,所述腺苷脱氨酶包含氨基酸序列:
MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD.
然而,应当理解,可用于本申请的另外的腺苷脱氨酶对于本领域技术人员是显而易见的并且在本公开的范围内。例如,腺苷脱氨酶可以是作用于tRNA的腺苷脱氨酶(ADAT)的同源物。非限制性地,示例性AD AT同源物的氨基酸序列包括以下:
金黄色葡萄球菌TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门氏菌(S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌F3031(H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTΑΗAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
新月柄杆菌(C.crescentus)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(G.sulfurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
大肠杆菌TadA(ecTadA)的一个实施例包括以下:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
在一些实施方案中,所述腺苷脱氨酶来自原核生物。在一些实施方案中,所述腺苷脱氨酶来自细菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌、伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、新月柄杆菌或枯草芽孢杆菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌。
在一个实施方案中,本公开的融合蛋白包含与TadA7.10连接的野生型TadA,其与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA7.10结构域(例如,作为单体提供)。在其他实施方案中,ABE7.10编辑器包含能够形成异二聚体的TadA7.10和TadA(wt)。
在一些实施方案中,所述腺苷脱氨酶与本文提供的任何腺苷脱氨酶的任何一个氨基酸序列至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。应当理解,本文提供的腺苷脱氨酶可以包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施例中,与参考序列或本文提供的任何腺苷脱氨酶相比,所述腺苷脱氨酶具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本领域已知或本文所述的任一氨基酸序列相比,腺苷脱氨酶包含具有至少5、至少10、至少15、至少20、至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的连续氨基酸残基。
应当理解,本文提供的任何突变(例如,基于TadA参考序列)可以引入其他腺苷脱氨酶,例如大肠杆菌TadA(ecTadA)、金黄色葡萄球菌TadA(saTadA)或其他腺苷脱氨酶(例如,细菌腺苷脱氨酶)。对于本领域技术人员显而易见的是,可以类似地比对额外的脱氨酶以鉴定可以如本文提供的突变的同源氨基酸残基。因此,可以在具有同源氨基酸残基的其他腺苷脱氨酶(例如,ecTada)中进行在TadA参考序列中鉴定的任何突变。还应当理解,本文提供的任何突变可以单独或以任何组合在TadA参考序列或另一种腺苷脱氨酶中进行。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含D108G、D108N、D108V、D108A或D108Y突变,或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V突变,或另一种腺苷脱氨酶(例如,野生型TadA或ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E155X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E155D、E155G或E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D147X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D147Y突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X、E155X或D147X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,所述腺苷脱氨酶变体包含E155D、E155G或E155V突变。在一些实施方案中,所述腺苷脱氨酶包含D147Y。
例如,腺苷脱氨酶可以在TadA参考序列中含有D108N、A106V、E155V和/或D147Y突变,或在另一种腺苷脱氨酶(例如,ecTadA)中含有相应的突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的以下突变组(突变组由“;”分隔),或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变:D108N和A106V;D108N和E155V;D108N和D147Y;A106V和E155V;A106V和D147Y;E155V和D147Y;D108N,A106V、和E155V;D108N、A106V、和D147Y;D108N、E155V、和D147Y;A106V、E155V、和D147Y;和D108N、A106V、E155V、和D147Y。然而,应当理解,本文提供的相应突变的任何组合可以在腺苷脱氨酶(例如,ecTadA)中进行。
在一些实施方案中,腺苷脱氨酶包含以下中的一种或多种:H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A107X、R108X、R108X、R110XTadA参考序列中的N127X、A138X、F149X、M151X、R153X、Q154X、I156X和/或K157X突变,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中除了野生型腺苷脱氨酶中的相应氨基酸,X的存在表示任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E或A56S、E59G、E85K或E85G、M94L、I95L、V102A、F104L、A106V、R107C或R107H或R107P、D108G或D108N或D108V或D108A或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D和/或K157R突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个H8X、D108X和/或N127X突变,或另一个腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示存在任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一种或多种H8Y、D108N和/或N127S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应突变。
在一些实施方案中,腺苷脱氨酶包含H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q161X、Q161X/6中的一个或多个序列,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施例中,腺苷脱氨酶包含H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155Q、或E155G、或E16 TadA参考序列中的T166P或T166P突变,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由H8X、D108X、N127X、D147X、R152X和Q154X组成的组的突变,或相应的一个或多个突变在另一种腺苷脱氨酶(例如,ecTadA)中,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个突变,其选自由TadA参考中的H8X、M61X、M70X、D108X、N127X、Q154X、E155X和Q163X组成的组序列,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变,其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8X、D108X、N127X、E155X和T166X组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA),其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含一个、两个、三个、四个、五个或六个突变,选自由H8X、A106X、D108X、另一种腺苷脱氨酶中的一个或多个突变组成的组,其中X指示任何氨基酸的存在除了野生型腺苷脱氨酶中的相应氨基酸。在一些实施方案中,腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8X、R26X、L68X、D108X、N127X、D147X和E155X组成的组的突变,或相应的突变或另一种腺苷脱氨酶中的突变,其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8X、D108X、A109X、N127X和E155X组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA),其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由H8Y、D108N、N127S、D147Y、R152C和Q154H组成的组的突变,或在另一种腺苷脱氨酶(例如,ecTadA)中相应的一个或多个突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8Y、M61I、M70V、D108N、N127S、Q154R、E155G和Q163H组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8Y、D108N、N127S、E155V和T166P组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA)。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由H8Y、A106T、D108N、N127S、E155D和K161Q组成的组的突变,或在另一种腺苷脱氨酶(例如,ecTadA)中相应的一个或多个突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8Y、R26W、L68Q、D108N、N127S、D147Y和E155V组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8Y、D108N、A109T、N127S和E155G组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA)。
本文提供的任何突变和任何额外的突变(例如,基于ecTadA氨基酸序列)可以被引入到任何其他腺苷脱氨酶中。本文提供的任何突变可以单独或以任何组合在TadA参考序列或另一种腺苷脱氨酶(例如,ecTadA)中进行。
A到G核碱基编辑蛋白的详细信息在国际PCT申请号PCT/2017/045381(WO2018/027078)和Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C ingenomic DNA without DNA cleavage”Nature,551,464-471(2017),其全部内容通过引用并入本文。
在一些实施方案中,腺苷脱氨酶包含另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D108G或D108V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V和D108N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107C和D108N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和Q154H突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D147Y和E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N和N127S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V、D108N、D147Y和E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变,或另一种腺苷脱氨酶中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S2A、H8Y、I49F、L84F、H123Y、N127S、I156F和/或K160S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应突变。
在一些实施方案中,腺苷脱氨酶包含L84X突变腺苷脱氨酶,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的L84F突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H123X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H123Y突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的I156X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的I156F突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个或七个选自由L84X,A106X、D108X、H123X、D147X、E155X和I156X组成的组的突变,或相应的一个或多个突变在另一种腺苷脱氨酶(例如,ecTadA)中,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由S2X、I49X、A106X、D108X、D147X和E155X组成的组的突变,或相应的一个或多个突变在另一种腺苷脱氨酶(例如,ecTadA)中,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8X、A106X、D108X、N127X和K160X组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA),其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个或七个选自由L84F、A106V、D108N、H123Y、D147Y、E155V和I156F组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由S2A、I49F、A106V、D108N、D147Y和E155V组成的组的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8Y、A106T、D108N、N127S和K160S组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA)。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中一个或多个E25X、R26X、R107X、A142X和/或A143X突变,或另一种腺苷脱氨酶中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R107K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含一个或多个本文所述的对应于TadA参考序列的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S和E25Y突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R26X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R26G、R26N、R26Q、R26C、R26L和R26K突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107P、R107K、R107A、R107N、R107W、R107H和R107S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N、A142D、A142G突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A143X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S146X、Q154X、K157X和/或K161X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施例中,腺苷脱氨酶包含TadA参考序列中的一个或多个H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N、和/或K161T突变,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的N37X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的N37T或N37S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48T或P48L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R51X突变,或另一种腺苷脱氨酶中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R51H或R51L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S146X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S146R或S146C突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的K157X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的K157N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48S、P48T或P48A突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的W23X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的W23R或W23L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R152X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R152P或R52H突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一个实施方案中,腺苷脱氨酶可包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F和K157N。在一些实施方案中,腺苷脱氨酶包含以下相对于TadA参考序列的突变组合,其中组合的每个突变由“_”分隔并且每个突变组合在括号之间:
(A106V_D108N),
(R107C_D108N),
(H8Y_D108N_N127S_D147Y_Q154H),
(H8Y_D108N_N127S_D147Y_E155V),
(D108N_D147Y_E155V),
(H8Y_D108N_N127S),
(H8Y_D108N_N127S_D147Y_Q154H),
(A106V_D108N_D147Y_E155V),
(D108Q_D147Y_E155V),
(D108M_D147Y_E155V),
(D108L_D147Y_E155V),
(D108K_D147Y_E155V),
(D108I_D147Y_E155V),
(D108F_D147Y_E155V),
(A106V_D108N_D147Y),
(A106V_D108M_D147Y_E155V),
(E59A_A106V_D108N_D147Y_E155V),
(E59A cat dead_A106V_D108N_D147Y_E155V),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(D103A_D104N),
(G22P_D103A_D104N),
(D103A_D104N_S138A),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_I156F),
(R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F),(L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F),
(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V_I156F),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(A106V_D108N_A142N_D147Y_E155V),
(R26G_A106V_D108N_A142N_D147Y_E155V),
(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V),
(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V),
(E25D_R26G_A106V_D108N_A142N_D147Y_E155V),
(A106V_R107K_D108N_A142N_D147Y_E155V),
(A106V_D108N_A142N_A143G_D147Y_E155V),
(A106V_D108N_A142N_A143L_D147Y_E155V),
(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F),
(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T),
(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F),
(N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F),
(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F),
(H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),(H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),
(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E),
(H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I156F),
(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F),
(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F),
(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F),
(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F),
(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F),
(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(P48S_A142N),
(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N),
(P48T_I49V_A142N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152H_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155V_I156F_K157N)。
在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性的特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。
在一些实施方案中,所述腺苷脱氨酶是TadA*7.10。在一些实施方案中,TadA*7.10包含至少一个改变。在特定实施方案中,TADA*7.10包含一个或多个下述改变的:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。改变Y123H在本文中也称为H123H(TadA*7.10中的改变H123Y回复回Y123H(wt))。在其他实施方案中,TadA*7.10包含选自以下群组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。在其他实施方案中,腺苷脱氨酶变体包含相对于TadA*7.10、TadA参考序列,其包含从残基149、150、151、152、153、154、155、156或157开始的C末端的缺失,或另一个TadA中的相应突变。
在其他实施方案中,本公开内容的碱基编辑器是包含腺苷脱氨酶变体(例如,TadA*8)的单体,所述变体包含一个或多个以下改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。在其他实施方案中,腺苷脱氨酶变体(TadA*8)是包含选自下组的改变组合的单体:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。在其他实施方案中,碱基编辑器是包含野生型腺苷脱氨酶和腺苷脱氨酶变体(例如,TadA*8)的异二聚体,其包含一个或多个以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,碱基编辑器是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异源二聚体,其包含选自下组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA中的相应突变。
在一个实施方案中,所述腺苷脱氨酶是TadA*8,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD
在一些实施例中,所述TadA*8被截断。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中所述腺苷脱氨酶变体是全长TadA*8。
在一些实施方案中,所述TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。
在一个实施方案中,本公开的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如,TadA*8)连接的野生型TadA,其与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*8结构域(例如,作为单体提供)。在其他实施方案中,编辑器包含能够形成异二聚体的TadA*8和TadA(wt)。示例性序列如下:
TadA(wt)或“TadA参考序列”:
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
TadA*7.10:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
TadA*8:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在一些实施方案中,所述腺苷脱氨酶与本文提供的任何腺苷脱氨酶的任何一个氨基酸序列至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。应当理解,本文提供的腺苷脱氨酶可以包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施例中,与参考序列或本文提供的任何腺苷脱氨酶相比,所述腺苷脱氨酶具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本领域已知或本文所述的任一氨基酸序列相比,腺苷脱氨酶包含具有至少5、至少10、至少15、至少20、至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的连续氨基酸残基。
在特定实施方案中,TadA*8在以下以粗体显示的任何位置处包含一个或多个突变。在其他实施方案中,TadA*8在以底线所示的任何位置处包含一个或多个突变:
Figure BDA0003302413480002631
例如,TadA*8包含单独或与以下Y147T、Y147R、Q154S、Y123H和/或Q154R中的任何一种或多种组合的氨基酸位置82和/或166(例如V82S、T166R)的改变,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在特定实施例中,改变的组合选自:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在一些实施方案中,所述腺苷脱氨酶是TadA*8,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
MSEVEFSHEY WMRHALTLAK RARDEREVPV GAVLVLNNRV IGEGWNRAIGLHDPTAHAEIMALRQGGLVM QNYRLIDATL YVTFEPCVMC AGAMIHSRIG
RVVFGVRNAK TGAAGSLMDV LHYPGMNHRV EITEGILADE CAALLCTFFR
MPRQVFNAQK KAQSSTD
在一些实施例中,所述TadA*8被截断。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中所述腺苷脱氨酶变体是全长TadA*8。
在一个实施方案中,本公开的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如,TadA*8)连接的野生型TadA,其与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*8结构域(例如,作为单体提供)。在其他实施方案中,编辑器包含能够形成异二聚体的TadA*8和TadA(wt)。
胞苷脱氨酶
本文提供的融合蛋白包含一种或多种胞苷脱氨酶。在一些实施方案中,本文提供的胞苷脱氨酶能够将胞嘧啶或5-甲基胞嘧啶脱氨基为尿嘧啶或胸腺嘧啶。在一些实施方案中,本文提供的胞苷脱氨酶能够使DNA中的胞嘧啶脱氨。胞苷脱氨酶可以源自任何合适的生物体。在一些实施方案中,胞苷脱氨酶是天然存在的胞苷脱氨酶,其包括一个或多个对应于本文提供的任何突变的突变。本领域技术人员将能够鉴定任何同源蛋白质中的相应残基,例如通过序列比对和同源残基的确定。因此,本领域技术人员将能够在与本文所述的任何突变相对应的任何天然存在的胞苷脱氨酶中产生突变。在一些实施方案中,所述胞苷脱氨酶来自原核生物。在一些实施方案中,所述胞苷脱氨酶来自细菌。在一些实施方案中,所述胞苷脱氨酶来自哺乳动物(例如人类)。
在一些实施方案中,所述胞苷脱氨酶包含的氨基酸序列与本文所述的任一胞苷脱氨酶氨基酸序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。应当理解,本文提供的胞苷脱氨酶可以包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施例中,与参考序列或本文提供的任何胞苷脱氨酶相比,所述胞苷脱氨酶具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本领域已知或本文所述的任一氨基酸序列相比,胞苷脱氨酶包含具有至少5、至少10、至少15、至少20、至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的连续氨基酸残基。
本公开的融合蛋白包含两个或更多个核酸编辑结构域。在一些实施方案中,核酸编辑结构域可以催化C到U碱基的变化。在一些实施方案中,核酸编辑结构域是一个脱氨酶结构域,特别是两个脱氨酶结构域。在一些实施方案中,脱氨酶是胞苷脱氨酶和腺苷脱氨酶。在一些实施方案中,脱氨酶是胞苷脱氨酶或腺苷脱氨酶。在一些实施方案中,脱氨酶是载脂蛋白B mRNA-编辑复合物(APOBEC)家族脱氨酶。在一些实施方案中,所述脱氨酶是APOBECl脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC2脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC3脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC3 A脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC3B脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC3C脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC3D脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC3E脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC3F脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC3G脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC3H脱氨酶。在一些实施方案中,所述脱氨酶是APOBEC4脱氨酶。在一些实施方案中,所述脱氨酶是活化诱导的脱氨酶(AID)。在一些实施方案中,所述脱氨酶是脊椎动物脱氨酶。在一些实施方案中,所述脱氨酶是无脊椎动物脱氨酶。在一些实施方案中,所述脱氨酶是人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠脱氨酶。在一些实施方案中,所述脱氨酶是人类脱氨酶。在一些实施方案中,所述脱氨酶是大鼠脱氨酶,例如,rAPOBECl。在一些实施方案中,脱氨酶是海七鳃鳗胞苷脱氨酶1(pmCDA1)。在一些实施方案中,所述脱氨酶是人类APOBEC3G。在一些实施方案中,所述脱氨酶是人类APOBEC3G的片段。在一些实施方案中,所述脱氨酶是包含D316RD317R突变的人类APOBEC3G变体。在一些实施方案中,脱氨酶是人类APOBEC3G的片段并且包含对应于D316R D317R突变的突变。在一些实施方案中,核酸编辑域是至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%),或至少99.5%与本文所述的任何脱氨酶的脱氨酶结构域相同。
在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性的特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。
额外的結構域
本文所述的碱基编辑器可包括有助于促进多核苷酸的核碱基的核碱基编辑、修饰或改变的任何结构域。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域(例如,Cas9)、核碱基编辑结构域(例如,脱氨酶结构域)和一个或多个额外的结构域。在一些实施方案中,额外的结构域可促进碱基编辑器的酶促或催化功能、碱基编辑器的结合功能,或者是可能干扰所需碱基编辑结果的细胞机制(例如酶)的抑制剂。在一些实施方案中,碱基编辑器可包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰转移酶、转录激活物或转录抑制结构域。
在一些实施例中,碱基编辑器可包含尿嘧啶糖基化酶抑制剂(UGI)结构域。在一些实施方案中,对U:G异源双链体DNA存在的细胞DNA修复反应可能是导致细胞核碱基编辑效率降低。在此类实施方案中,尿嘧啶DNA糖基化酶(UDG)可催化从细胞中的DNA去除U,这可启动碱基切除修复(BER),主要导致U:G对回复为C:G对。在这样的实施方案中,可以在碱基编辑器中抑制BER,所述碱基编辑器包含结合单链、阻断编辑碱基、抑制UGI、抑制BER、保护编辑碱基和/或促进非编辑链修复的一个或多个结构域。因此,本公开内容考虑包含UGI结构域的碱基编辑器融合蛋白。
在一些实施方案中,碱基编辑器包含双链断裂(DSB)结合蛋白的全部或部分作为结构域。例如,DSB结合蛋白可以包括噬菌体Mu的Gam蛋白,其可以结合DSB的末端并且可以保护它们免于降解。See Komor,A.C.等人,“Improved base excision repair inhibitionand bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances3:eaao4774(2017),其全部内容在此引入作为参考。
另外,在一些实施方案中,Gam蛋白可以融合到碱基编辑器的N末端。在一些实施方案中,Gam蛋白可以融合到碱基编辑器的C末端。噬菌体Mu的Gam蛋白可以与双链断裂(DSB)的末端结合并保护它们免于降解。在一些实施例中,使用Gam结合DSB的自由端可以减少碱基编辑过程中插入缺失的形成。在一些实施方案中,174个残基的Gam蛋白融合到碱基编辑器的N末端。参见Komor,A.C.等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在一些实施方案中,一个或多个突变可以改变碱基编辑器结构域相对于野生型结构域的长度。例如,在至少一个结构域中删除至少一个氨基酸可以减少碱基编辑器的长度。在另一种情况下,一个或多个突变不会改变结构域相对于野生型结构域的长度。例如,任何结构域中的替换都不会/不会改变碱基编辑器的长度。
在一些实施方案中,碱基编辑器可以包含核酸聚合酶(NAP)的全部或部分作为结构域。例如,碱基编辑器可以包含真核NAP的全部或一部分。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是DNA聚合酶。在一些实施方案中,整合到碱基编辑器中的NAP或其部分具有转移聚合酶活性。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是转移损伤DNA聚合酶。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是Rev7、Rev1复合物、聚合酶iota、聚合酶κ或聚合酶eta。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是真核聚合酶α、β、γ、δ、ε、γ、eta、iota、κ、λ、mu或nu组分。在一些实施方案中,并入碱基编辑器中的NAP或其部分包含至少75%、80%、85%、90%、95%、96%、97%、98%、99%、或99.5%与核酸聚合酶(例如,易位DNA聚合酶)相同。
其他核碱基编辑器
本公开提供模块化多效应核碱基编辑器,其中本领域已知的几乎任何核碱基编辑器都可以插入本文所述的融合蛋白中或替换为胞苷脱氨酶或腺苷脱氨酶。在一个实施方案中,本公开的特征在于包含缺碱基核碱基编辑器域的多效应器核碱基编辑器。缺碱基核碱基编辑器是本领域已知的并且描述于例如Kavli等人,EMBO J.15:3442-3447,1996,其通过引用并入本文。
在一个实施例中,多效应核碱基编辑器包含以下结构域A-C、A-D或A-E:
NH2-[A-B-C]-COOH,
NH2-[A-B-C-D]-COOH,或
NH2-[A-B-C-D-E]-COOH
其中A和C或A、C和E,各自包含以下一项或多项:腺苷脱氨酶结构域或其活性片段、胞苷脱氨酶结构域或其活性片段、DNA糖基化酶结构域或其活性片段;并且其中B或B和D,各自包含一个或多个具有核酸序列特异性结合活性的结构域。
在一个实施例中,多效应核碱基编辑器包含NH2-[An-Bo-Cn]-COOH,NH2-[An-Bo-Cn-Do]-COOH,或
NH2-[An-Bo-Cp-Do-Eq]-COOH;
其中A和C或A、C和E,各自包含以下一项或多项:腺苷脱氨酶结构域或其活性片段、胞苷脱氨酶结构域或其活性片段、以及DNA糖基化酶结构域或其活性片段;其中n是一个整数:1、2、3、4或5,其中p是整数:0、1、2、3、4或5;B或B和D各自包含具有核酸序列特异性结合活性的结构域;其中o是整数:1、2、3、4或5。
碱基编辑器系统
使用本文提供的碱基编辑器系统包括以下步骤:(a)将受试者的多核苷酸(例如,双链或单链DNA或RNA)的靶标核苷酸序列与包含核碱基编辑器(例如,腺苷碱基编辑器)和引导多核酸(例如,gRNA),其中靶标核苷酸序列包含靶标核碱基对;(b)诱导所述目标区域的链分离;(c)将目标区域的单链中的所述靶标核碱基对的第一个核碱基转化为第二个核碱基;(d)切割不超过所述目标区域的一条链,其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基替换。应当理解,在一些实施例中,省略了步骤(b)。在一些实施方案中,所述靶向核碱基对是一种或多种基因中的多个核碱基对。在一些实施方案中,本文提供的碱基编辑器系统能够多重编辑一个或多个基因中的多个核碱基对。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因中,其中至少一个基因位于不同基因座中。
在一些实施方案中,切割的单链(切口链)与引导核酸杂交。在一些实施方案中,切割的单链与包含第一核碱基的链相反。在一些实施方案中,碱基编辑器包含一个Cas9结构域。在一些实施方案中,第一个碱基是腺嘌呤,而第二个碱基不是G、C、A或T。在一些实施方案中,第二个碱基是肌苷。
本文提供的碱基编辑系统提供一种新的基因组编辑方法,该方法使用包含催化缺陷化脓性链球菌Cas9、腺苷脱氨酶和碱基切除修复抑制剂的融合蛋白来诱导可编程的单核苷酸(C→T或A→G)改变DNA不会产生双链DNA断裂,不需要供体DNA模板,也不会引起过量的随机插入和缺失。
本文提供用于使用碱基编辑器系统编辑核碱基的系统、组合物和方法。在一些实施方案中,碱基编辑器系统包含(1)碱基编辑器(BE),其包含多核苷酸可编程核苷酸结合结构域和用于编辑核碱基的核碱基编辑结构域(例如脱氨酶域);(2)与多核苷酸可编程核苷酸结合结构域结合的引导多核苷酸(例如,引导RNA)(图2A)。在一些实施方案中,所述碱基编辑器系统包含腺苷碱基编辑器(ABE)。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中,所述核碱基编辑结构域是脱氨酶结构域。在一些实施方案中,脱氨酶结构域可以是腺嘌呤脱氨酶或腺苷脱氨酶。在一些实施方案中,腺苷碱基编辑器可使DNA中的腺嘌呤脱氨基。在一些实施方案中,ABE包含进化的TadA变体。
核碱基编辑蛋白的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中有所描述,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved baseexcisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
在一些实施方案中,可利用单个引导多核苷酸将脱氨酶靶向靶标核酸序列。在一些实施方案中,可利用一对引导多核苷酸将不同的脱氨酶靶向靶标核酸序列。
碱基编辑器系统的核碱基成分和多核苷酸可编程核苷酸结合成分可以共价或非共价地彼此关联。例如,在一些实施方案中,所述脱氨酶结构域可以通过多核苷酸可编程核苷酸结合结构域靶向靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是与脱氨酶结构域融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与脱氨酶结构域非共价相互作用或缔合将脱氨酶结构域靶向靶核苷酸序列。例如,在一些实施方案中,核碱基编辑组件,例如脱氨酶组件,可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合的一部分的额外的异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽接头。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸接头。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
碱基编辑器系统可进一步包含引导多核苷酸组件。应当理解,碱基编辑器系统的组件可以通过共价键、非共价相互作用或其关联和相互作用的任何组合彼此关联。在一些实施方案中,脱氨酶结构域可以通过引导多核苷酸靶向靶标核苷酸序列。例如,在一些实施方案中,碱基编辑器系统的核碱基编辑组分,例如脱氨酶组分,可以包含能够与引导多核苷酸的部分或区段(例如,多核苷酸基序)相互作用、缔合或能够与其形成复合物。在一些实施方案中,所述额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与脱氨酶结构域融合或连接。在一些实施方案中,所述额外的异源部分可能能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽接头。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸接头。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施例中,碱基编辑器系统可进一步包含碱基切除修复(BER)组分的抑制剂。应当理解,碱基编辑器系统的组件可以通过共价键、非共价相互作用或其关联和相互作用的任何组合彼此关联。BER组分的抑制剂可以包括碱基切除修复抑制剂。在一些实施方案中,碱基切除修复抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中,碱基切除修复抑制剂可以是肌苷碱基切除修复抑制剂。在一些实施方案中,碱基切除修复抑制剂可以通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与碱基切除修复抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域和碱基切除修复抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与碱基切除修复抑制剂非共价相互作用或缔合将碱基切除修复抑制剂靶向靶核苷酸序列。例如,在一些实施方案中,碱基切除修复抑制剂组分可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,碱基切除修复抑制剂可以通过引导多核苷酸靶向靶核苷酸序列。例如,在一些实施方案中,碱基切除修复抑制剂可包含能够与部分或区段相互作用、缔合或能够与部分或区段形成复合物的额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)(例如,多核苷酸基序)引导多核苷酸。在一些实施方案中,所述引导多核苷酸的额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与碱基切除修复抑制剂融合或连接。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽接头。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸接头。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施方案中,所述碱基编辑器抑制编辑链的碱基切除修复(BER)。在一些实施方案中,所述碱基编辑器保护或结合非编辑链。在一些实施方案中,所述碱基编辑器包含UGI活性。在一些实施方案中,碱基编辑器包含无催化活性的肌苷特异性核酸酶。在一些实施方案中,所述碱基编辑器包含切口酶活性。在一些实施方案中,碱基对的预期编辑在PAM位点的上游。在一些实施例中,所述碱基对的预期编辑是PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,所述碱基对的预期编辑在PAM位点的下游。在一些实施例中,所述碱基对的预期编辑是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。
在一些实施例中,所述方法不需要规范的(例如,NGG)PAM站点。在一些实施方案中,所述碱基编辑器包含接头或间隔子。在一些实施例中,所述接头或间隔子的长度是1-25个氨基酸。在一些实施例中,所述接头或间隔子的长度是5-20个氨基酸。在一些实施例中,所述接头或间隔子的长度是10、11、12、13、14、15、16、17、18、19或20个氨基酸。
在一些实施方案中,本文提供的碱基编辑融合蛋白需要位于精确位置,例如,靶碱基位于限定区域(例如,“脱氨基窗口”)内的位置。在一些实施例中,靶标可以在4个碱基区域内。在一些实施方案中,这种限定的靶标区域可以是PAM上游的大约15个碱基。参见Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved baseexcisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
在一些实施方案中,靶标区域包括靶标窗口,其中靶标窗口包含靶标核碱基对。在一些实施例中,靶标窗口包含1至10个核苷酸。在一些实施例中,靶标窗口的长度是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,碱基对的预期编辑在靶标窗口内。在一些实施例中,靶标窗口包括碱基对的预期编辑。在一些实施例中,所述方法使用本文提供的任何碱基编辑器进行。在一些实施例中,靶标窗口是脱氨基窗口。脱氨基窗口可以是碱基编辑器作用于靶标核苷酸并使其脱氨基的限定区域。在一些实施例中,脱氨基窗口在2、3、4、5、6、7、8、9或10个碱基区域内。在一些实施例中,脱氨基窗口是PAM上游的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。
本公开的碱基编辑器可以包含有助于编辑目标多核苷酸序列的任何结构域、特征或氨基酸序列。例如,在一些实施例中,碱基编辑器包含核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS位于脱氨酶结构域和多核苷酸可编程核苷酸结合结构域之间。在一些实施方案中,碱基编辑器的NLS位于多核苷酸可编程核苷酸结合结构域的C末端。
可存在于本文公开的碱基编辑器中的其他示例性特征是定位序列,例如细胞质定位序列、输出序列,例如核输出序列或其他定位序列,以及可用于增溶、纯化的序列标签,或融合蛋白的检测。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签,也称为组氨酸标签或His-标签、麦芽糖结合蛋白(MBP)-标签、nus-标签、谷胱甘肽-S-转移酶(GST)-标签、绿色荧光蛋白(GFP)-标签、硫氧还蛋白-标签、S-标签、Softags(例如,Softag 1、Softag3)、链标签、生物素连接酶标签、Flash标签、V5标签和SBP标签。其他合适的序列对本领域技术人员来说是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
可包含在融合蛋白中的蛋白质结构域的非限制性实例包括脱氨酶结构域(例如,腺苷脱氨酶)、尿嘧啶糖基化酶抑制剂(UGI)结构域、表位标签和报导基因序列。
表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报导基因的例子包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡萄糖醛酸酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自发荧光蛋白,包括蓝色荧光蛋白(BFP)。额外的蛋白质序列可以包括结合DNA分子或结合其他细胞分子的氨基酸序列,包括但不限于麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合结构域(DBD)融合、GAL4 DNA结合结构域融合,和单纯疱疹病毒(HSV)BP16蛋白融合。
在一些实施方案中,腺苷碱基编辑器(ABE)可使DNA中的腺嘌呤脱氨基。在一些实施方案中,ABE是通过用天然或工程化的大肠杆菌TadA、人ADAR2、小鼠ADA或人ADAT2替换BE3的APOBEC1组分而产生的。在一些实施例中,ABE包含进化的TadA变体。在一些实施例中,ABE是ABE 1.2(TadA*-XTEN-nCas9-NLS)。在一些实施方案中,TadA*包含A106V和D108N突变。
在一些实施方案中,所述ABE是第二代ABE。在一些实施方案中,ABE是ABE2.1,其包含TadA*(TadA*2.1)中的额外突变D147Y和E155V。在一些实施方案中,ABE是ABE2.2,ABE2.1与催化失活版本的人烷基腺嘌呤DNA糖基化酶(具有E125Q突变的AAG)融合。在一些实施方案中,ABE是ABE2.3,ABE2.1与催化灭活版本的大肠杆菌Endo V(用D35A突变灭活)融合。在一些实施方案中,ABE是ABE2.6,其接头长度(32个氨基酸,(SGGS)2-XTEN-(SGGS)2)是ABE2.1中接头的两倍。在一些实施方案中,ABE是ABE2.7,其是与另外的野生型TadA单体相连的ABE2.1。在一些实施例中,ABE是ABE2.8,其是与另外的TadA*2.1单体拴系的ABE2.1。在一些实施方案中,ABE是ABE2.9,其是进化的TadA(TadA*2.1)与ABE2.1的N-末端的直接融合。在一些实施方案中,ABE是ABE2.10,其是野生型TadA与ABE2.1的N末端的直接融合。在一些实施方案中,ABE是ABE2.11,其是在TadA*单体的N-末端具有失活E59A突变的ABE2.9。在一些实施方案中,ABE是ABE2.12,其是ABE2.9,在内部TadA*单体中具有失活的E59A突变。
在一些实施方案中,所述ABE是第三代ABE。在一些实施方案中,ABE是ABE3.1,即ABE2.3,带有三个额外的TadA突变(L84F、H123Y和I156F)。
在一些实施方案中,所述ABE是第四代ABE。在一些实施方案中,ABE是ABE4.3,其是带有额外TadA突变A142N(TadA*4.3)的ABE3.1。
在一些实施方案中,所述ABE是第五代ABE。在一些实施方案中,ABE是ABE5.1,其通过将来自存活克隆(H36L、R51L、S146C和K157N)的一组共有突变导入ABE3.1而产生。在一些实施方案中,ABE是ABE5.3,其具有包含融合到内部进化的TadA*的野生型大肠杆菌TadA的异二聚体构建体。在一些实施例中,ABE是ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13或ABE5.14,如下表6所示。在一些实施方案中,所述ABE是第六代ABE。在一些实施例中,ABE是ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5或ABE6.6,如下表6所示。在一些实施方案中,所述ABE是第七代ABE。在一些实施例中,ABE是ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE7.9或ABE7.10,如下表6所示。
表6.ABE的基因型
Figure BDA0003302413480002771
Figure BDA0003302413480002781
在一些实施方案中,所述碱基编辑器是是第八代ABE(ABE8)。在一些实施方案中,所述ABE8含有一个TadA*8变体。在一些实施方案中,所述ABE8具有包含TadA*8变体(“ABE8.x-m”)的单体构建体。在一些实施方案中,所述ABE8是ABE8.1-m,其具有包含TadA*7.10和Y147T突变(TadA*8.1)的单体构建体。在一些实施方案中,所述ABE8是ABE8.2-m,其具有包含TadA*7.10和Y147R突变(TadA*8.2)的单体构建体。在一些实施方案中,所述ABE8是ABE8.3-m,其具有包含TadA*7.10和Q154S突变(TadA*8.3)的单体构建体。在一些实施方案中,所述ABE8是ABE8.4-m,其具有包含TadA*7.10和Y123H突变(TadA*8.4)的单体构建体。在一些实施方案中,所述ABE8是ABE8.5-m,其具有包含TadA*7.10和V82S突变(TadA*8.5)的单体构建体。在一些实施方案中,所述ABE8是ABE8.6-m,其具有包含TadA*7.10和T166R突变(TadA*8.6)的单体构建体。在一些实施方案中,所述ABE8是ABE8.7-m,其具有包含TadA*7.10和Q154R突变(TadA*8.7)的单体构建体。在一些实施方案中,所述ABE8是ABE8.8-m,其具有包含TadA*7.10和Y147R、Q154R和Y123H突变(TadA*8.8)的单体构建体。在一些实施方案中,所述ABE8是ABE8.9-m,其具有包含TadA*7.10和Y147R、Q154R和I76Y突变(TadA*8.9)的单体构建体。在一些实施方案中,所述ABE8是ABE8.10-m,其具有包含TadA*7.10和Y147R、Q154R和T166R突变(TadA*8.10)的单体构建体。在一些实施方案中,所述ABE8是ABE8.11-m,其具有包含TadA*7.10和Y147R和Q154R突变(TadA*8.11)的单体构建体。在一些实施方案中,所述ABE8是ABE8.12-m,其具有包含TadA*7.10和Y147T和Q154S突变(TadA*8.12)的单体构建体。在一些实施方案中,所述ABE8是ABE8.13-m,其具有包含TadA*7.10和Y123H(从H123Y恢复的Y123H)、Y147R、Q154R和I76Y突变(TadA*8.13)的单体构建体。在一些实施方案中,所述ABE8是ABE8.14-m,其具有包含TadA*7.10和I76R和V82S突变(TadA*8.14)的单体构建体。在一些实施方案中,所述ABE8是ABE8.15-m,其具有包含TadA*7.10和V82S和Y147R突变(TadA*8.15)的单体构建体。在一些实施方案中,所述ABE8是ABE8.16-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)和Y147R突变(TadA*8.16)的单体构建体。在一些实施方案中,所述ABE8是ABE8.17-m,其具有包含TadA*7.10和V82S和Q154R突变(TadA*8.17)的单体构建体。在一些实施方案中,所述ABE8是ABE8.18-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)和Q154R突变(TadA*8.18)的单体构建体。在一些实施方案中,所述ABE8是ABE8.19-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)、Y147R和Q154R突变(TadA*8.19)的单体构建体。在一些实施方案中,所述ABE8是ABE8.20-m,其具有包含TadA*7.10和I76Y,V82S、Y123H(从H123Y恢复的Y123H)、Y147R和Q154R突变(TadA*8.20)的单体构建体。在一些实施方案中,所述ABE8是ABE8.21-m,其具有包含TadA*7.10和Y147R和Q154S突变(TadA*8.21)的单体构建体。在一些实施方案中,所述ABE8是ABE8.22-m,其具有包含TadA*7.10和V82S和Q154S突变(TadA*8.22)的单体构建体。在一些实施方案中,所述ABE8是ABE8.23-m,其具有包含TadA*7.10和V82S和Y123H(从H123Y恢复的Y123H)突变(TadA*8.23)的单体构建体。在一些实施方案中,所述ABE8是ABE8.24-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)和Y147T突变(TadA*8.24)的单体构建体。
在一些实施方案中,所述ABE8ABE8具有异二聚体构建体,其中包含与TadA*8变体(“ABE8.x-d”)融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.1-d,其具有异二聚体构建体,该构建体包含与具有Y147T突变(TadA*8.1)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.2-d,其具有异二聚体构建体,该构建体包含与具有Y147R突变(TadA*8.2)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.3-d,其具有异二聚体构建体,该构建体包含与具有Q154S突变(TadA*8.3)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.4-d,其具有异二聚体构建体,该构建体包含与具有Y123H突变(TadA*8.4)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.5-d,其具有异二聚体构建体,该构建体包含与具有V82S突变(TadA*8.5)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.6-d,其具有异二聚体构建体,该构建体包含与具有T166R突变(TadA*8.6)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.7-d,其具有异二聚体构建体,该构建体包含与具有Q154R突变(TadA*8.7)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.8-d,其具有异二聚体构建体,该构建体包含与具有Y147R、Q154R和Y123H突变(TadA*8.8)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.9-d,其具有异二聚体构建体,该构建体包含与具有Y147R、Q154R和I76Y突变(TadA*8.9)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.10-d,其具有异二聚体构建体,该构建体包含与具有Y147R、Q154R和T166R突变(TadA*8.10)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.11-d,其具有异二聚体构建体,该构建体包含与具有Y147T和Q154R突变(TadA*8.11)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.12-d,其具有异二聚体构建体,该构建体包含与具有Y147T和Q154S突变(TadA*8.12)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.13-d,其具有异二聚体构建体,该构建体包含与具有Y123H(从H123Y还原为Y123H)、Y147R、Q154R和I76Y突变(TadA*8.13)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.14-d,其具有异二聚体构建体,该构建体包含与具有I76Y和V82S突变(TadA*8.14)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.15-d,其具有异二聚体构建体,该构建体包含与具有V82S和Y147R突变(TadA*8.15)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.16-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)和Y147R突变(TadA*8.16)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.17-d,其具有异二聚体构建体,该构建体包含与具有V82S和Q154R突变(TadA*8.17)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.18-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)和Q154R突变(TadA*8.18)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.19-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)、Y147R和Q154R突变(TadA*8.19)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.20-d,其具有异二聚体构建体,该构建体包含与具有I76Y,V82S、Y123H(从H123Y还原为Y123H)、Y147R和Q154R突变(TadA*8.20)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.21-d,其具有异二聚体构建体,该构建体包含与具有Y147R和Q154S突变(TadA*8.21)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.22-d,其具有异二聚体构建体,该构建体包含与具有V82S和Q154S突变(TadA*8.22)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.23-d,其具有异二聚体构建体,该构建体包含与具有V82S和Y123H(从H123Y还原为Y123H)突变(TadA*8.23)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.24-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)和Y147T突变(TadA*8.24)的TadA*7.10融合的野生型大肠杆菌TadA。
在一些实施方案中,ABE8具有包含与TadA*8变体(“ABE8.x-7”)融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.1-7,其具有包含与具有Y147T突变(TadA*8.1)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.2-7,其具有包含与具有Y147R突变(TadA*8.2)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.3-7,其具有包含与具有Q154S突变(TadA*8.3)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.4-7,其具有包含与具有Y123H突变(TadA*8.4)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.5-7,其具有包含与具有V82S突变(TadA*8.5)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.6-7,其具有包含与具有T166R突变(TadA*8.6)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.7-7,其具有包含与具有Q154R突变(TadA*8.7)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.8-7,其具有包含与具有Y147R、Q154R和Y123H突变(TadA*8.8)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.9-7,其具有包含与具有Y147R、Q154R和I76Y突变(TadA*8.9)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.10-7,其具有包含与具有Y147R、Q154R和T166R突变(TadA*8.10)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.11-7,其具有包含与具有Y147T和Q154R突变(TadA*8.11)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.12-7,其具有包含与具有Y147T和Q154S突变(TadA*8.12)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.13-7,其具有包含与具有Y123H(从H123Y回复的Y123H)、Y147R、Q154R和I76Y突变(TadA*8.13)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.14-7,其具有包含与具有I76Y和V82S突变(TadA*8.14)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.15-7,其具有包含与具有V82S和Y147R突变(TadA*8.15)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.16-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)和Y147R突变(TadA*8.16)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.17-7,其具有包含与具有V82S和Q154R突变(TadA*8.17)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.18-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)和Q154R突变(TadA*8.18)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.19-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)、Y147R和Q154R突变(TadA*8.19)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.20-7,其具有包含与具有I76Y,V82S、Y123H(从H123Y回复的Y123H)、Y147R和Q154R突变(TadA*8.20)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.21-7,其具有包含与具有Y147R和Q154S突变(TadA*8.21)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.22-7,其具有包含与具有V82S和Q154S突变(TadA*8.22)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.23-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)突变(TadA*8.23)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.24-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)和Y147T突变(TadA*8.24)的TadA*7.10融合的TadA*7.10的异二聚体构建体。
在一些实施例中,ABE是ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m,ABE8.1-d,ABE8.2-d,ABE8.3-d,ABE8.4-d,ABE8.5-d,ABE8.6-d,ABE8.7-d,ABE8.8-d,ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d,如以下表7所示。
表7:腺苷脱氨酶碱基编辑器8变体
Figure BDA0003302413480002841
Figure BDA0003302413480002851
在一些实施方案中,碱基编辑器(例如,ABE8)通过将腺苷脱氨酶变体(例如,TadA*8)克隆到包括环状置换Cas9(例如,CP5或CP6)和二分核定位序列的支架中来产生。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是NGC PAM CP5变体(化脓性链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是AGA PAM CP5变体(化脓性链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是NGC PAM CP6变体(化脓性链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是AGA PAM CP6变体(化脓性链球菌Cas9或spVRQR Cas9)。
在一些实施方案中,ABE具有如下表8所示的基因型。
表8.ABE的基因型
23 26 36 37 48 49 51 72 84 87 105 108 123 125 142 145 147 152 155 156 157 161
ABE7.9 L R L N A L N F S V N Y G N C Y P V F N K
ABE7.10 R R L N A L N F S V N Y G A C Y P V F N K
如下表9所示,描述40个ABE8的基因型。指出了ABE进化的大肠杆菌TadA部分中的残留位置。当与ABE7.10突变不同时,显示了ABE8中的突变变化。在一些实施方案中,ABE具有如下表9所示的ABE之一的基因型。
表9.进化的TadA中的残基标识
Figure BDA0003302413480002861
Figure BDA0003302413480002871
在一些实施方案中,所述碱基编辑器是ABE8.1,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.1_Y147T_CP5_NGC PAM_单体
Figure BDA0003302413480002872
Figure BDA0003302413480002881
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列。
在一些实施方案中,所述碱基编辑器是ABE8.1,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
pNMG-B335 ABE8.1_Y147T_CP5_NGC PAM_单体
Figure BDA0003302413480002882
Figure BDA0003302413480002891
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列。
在一些实施方案中,所述碱基编辑器是ABE8.14,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
具有NGC PAM CP5的pNMG-357_ABE8.14
Figure BDA0003302413480002892
Figure BDA0003302413480002901
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列。
在一些实施方案中,所述碱基编辑器是ABE8.8-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.8-m
Figure BDA0003302413480002902
Figure BDA0003302413480002911
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列,双底线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.8-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.8-d
Figure BDA0003302413480002912
Figure BDA0003302413480002921
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列,双底线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.13-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.13-m
Figure BDA0003302413480002922
Figure BDA0003302413480002931
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列,双底线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.13-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.13-d
Figure BDA0003302413480002932
Figure BDA0003302413480002941
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列,双底线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.17-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.17-m
Figure BDA0003302413480002951
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列,双底线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.17-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.17-d
Figure BDA0003302413480002961
Figure BDA0003302413480002971
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列,双底线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.20-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.20-m
Figure BDA0003302413480002972
Figure BDA0003302413480002981
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列,双底线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.20-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.20-d
Figure BDA0003302413480002982
Figure BDA0003302413480002991
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示接头序列,底线序列表示二分核定位序列,双底线序列表示突变。
在一些实施方案中,本公开的ABE8选自以下序列:
01.单ABE8.1_bpNLS+Y147T
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
02.单ABE8.1_bpNLS+Y147R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
03.单ABE8.1_bpNLS+Q154S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
04.单ABE8.1_bpNLS+Y123H
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
05.单ABE8.1_bpNLS+V82S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
06.单ABE8.1_bpNLS+T166R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSRDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
07.单ABE8.1_bpNLS+Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
08.单ABE8.1_bpNLS+Y147R_Q154R_Y123H
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
09.单ABE8.1_bpNLS+Y147R_Q154R_I76Y
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
10.单ABE8.1_bpNLS+Y147R_Q154R_T166R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSRDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
11.单ABE8.1_bpNLS+Y147T_Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
12.单ABE8.1_bpNLS+Y147T_Q154S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
13.单ABE8.1_bpNLS+H123Y123H_Y147R_Q154R_I76Y
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
14.单ABE8.1_bpNLS+V82S+Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
在一些实施方案中,碱基编辑器是包含融合至核碱基编辑域(例如,脱氨酶域的全部或部分)的多核苷酸可编程核苷酸结合结构域(例如,Cas9衍生域)的融合蛋白。在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性的特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。
在一些实施方案中,碱基编辑器进一步包含包含全部或部分尿嘧啶糖基化酶抑制剂(UGI)的结构域。在一些实施方案中,碱基编辑器包含包含尿嘧啶结合蛋白(UBP)例如尿嘧啶DNA糖基化酶(UDG)的全部或部分的结构域。在一些实施方案中,碱基编辑器包含包含全部或部分核酸聚合酶的结构域。在一些实施方案中,掺入碱基编辑器的核酸聚合酶或其部分是易位DNA聚合酶。
在一些实施例中,碱基编辑器的域可以包括多个结构域。例如,包含源自Cas9的多核苷酸可编程核苷酸结合结构域的碱基编辑器可以包含对应于野生型或天然Cas9的REC叶和NUC叶的REC叶和NUC叶。在另一实例中,碱基编辑器可包含RuvCI结构域、BH结构域、REC1结构域、REC2结构域、RuvCII结构域、L1结构域、HNH结构域、L2结构域、RuvCIII结构域、WED结构域、TOPO结构域或CTD结构域中的一个或多个。在一些实施方案中,碱基编辑器的一个或多个结构域包含相对于包含该结构域的多肽的野生型版本的突变(例如,取代、插入、缺失)。例如,多核苷酸可编程DNA结合结构域的HNH结构域可包含H840A取代。在另一个实例中,多核苷酸可编程DNA结合结构域的RuvCI结构域可包含D10A取代。
在使用或不使用一个或多个接头结构域(例如,XTEN接头结构域)的情况下,本文公开的碱基编辑器的不同结构域(例如,相邻结构域)可以彼此连接。在一些实施方案中,接头结构域可以是键(例如共价键)、化学基团或连接两个分子或部分的分子,例如融合蛋白的两个结构域,例如第一结构域(例如、Cas9衍生结构域)和第二结构域(例如,腺苷脱氨酶结构域)。在一些实施例中,接头是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,接头是酰胺键的碳氮键。在某些实施方案中,接头是环状或无环、取代或未取代、支链或未支链的脂族或杂脂族接头。在某些实施例中,接头是聚合的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,接头包含氨基链烷酸的单体、二聚体或聚合物。在一些实施方案中,接头包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些实施例中,接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,接头基于碳环部分(例如,环戊烷、环己烷)。在其他实施例中,接头包含聚乙二醇部分(PEG)。在某些实施方案中,接头包含芳基或杂芳基部分。在某些实施方案中,接头基于苯环。接头可以包括功能化部分以促进亲核试剂(例如,硫醇、氨基)从肽连接到接头。任何亲电子试剂都可以用作接头的一部分。示例性的亲电子试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰基卤和异硫氰酸酯。在一些实施方案中,接头连接RNA可编程核酸酶的gRNA结合结构域,包括Cas9核酸酶结构域和核酸编辑蛋白的催化结构域。在一些实施方案中,接头连接dCas9和第二个结构域(例如,UGI等)。
通常,接头位于两个基团、分子或其他部分之间或两侧,并通过共价键与每个基团、分子或其他部分连接,从而将两者连接起来。在一些实施方案中,接头可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,接头是有机分子、基团、聚合物或化学部分。在一些实施例中,接头的长度可为约2至100个氨基酸,例如2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30至35、35至40、40至45、45至50、50至60、60至70、70至80、80至90、90至100、100至150或150至200个氨基酸长度。在一些实施例中,所述接头是约3至約104(例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95或100)个氨基酸长度。也可考虑更长或更短的接头。在一些实施方案中,接头结构域包含氨基酸序列SGSETPGTSESATPES,其也可称为XTEN接头。可以使用任何连接融合蛋白结构域的方法(例如,从非常灵活的(SGGS)n、(GGGS)n、(GGGGS)n和(G)n形式的接头到更刚性的接头形式(EAAAK)n、(GGS)n、SGSETPGTSESATPES(参见,例如Guilinger JP,Thompson DB,LiuDR.Fusion of catalytically inactive Cas9 to FokI nuclease improves thespecificity of genome modification.Nat.Biotechnol.2014;32(6):577至82;全部内容以引用方式并入本文)或(XP)n基序,以实现核碱基编辑器活性的最佳长度。在一些实施例中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,所述接头包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的融合蛋白的Cas9结构域通过包含氨基酸序列SGSETPGTSESATPES的接头融合。在一些实施方案中,接头包含多个脯氨酸残基并且长度为5至21、5至14、5至9、5至7个氨基酸,例如,PAPAP、PAPAPA、PAPAPAP、PAPAPAPA、P(AP)4、P(AP)7、P(AP)10(参见,例如,Tan J,Zhang F,Karcher D,Bock R.Engineering ofhigh至precision base editors for site至specific single nucleotidereplacement.Nat Commun.2019Jan 25;10(1):439;全部内容以引用方式并入本文)。这种富含脯氨酸的接头也称为“刚性”接头。
本公开的融合蛋白包含核酸编辑结构域。在一些实施方案中,所述脱氨酶是腺苷脱氨酶。在一些实施方案中,所述脱氨酶是脊椎动物脱氨酶。在一些实施方案中,所述脱氨酶是无脊椎动物脱氨酶。在一些实施方案中,所述脱氨酶是人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠脱氨酶。在一些实施方案中,所述脱氨酶是人类脱氨酶。在一些实施方案中,所述脱氨酶是大鼠脱氨酶。
接头
在某些实施方案中,接头可用于连接本公开的任何肽或肽结构域。接头可以像共价键一样简单,或者它可以是多个原子长度的聚合接头。在某些实施方案中,所述接头是多肽或基于氨基酸。在其他实施方案中,所述接头不是肽样的。在某些实施方案中,所述接头是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,所述接头是酰胺键的碳-氮键。在某些实施方案中,所述接头是环状或无环、取代或未取代、支链或未支链的脂族或杂脂族接头。在某些实施例中,所述接头是聚合的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,所述接头包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中,所述接头包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施例中,所述接头包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,所述接头基于碳环部分(例如,环戊烷、环己烷)。在其他实施方案中,所述接头包含聚乙二醇部分(PEG)。在其他实施方案中,所述接头包含氨基酸。在某些实施方案中,所述接头包含肽。在某些实施方案中,所述接头包含芳基或杂芳基部分。在某些实施方案中,接头基于苯环。接头可以包括功能化部分以促进亲核试剂(例如,硫醇、氨基)从肽连接到接头。任何亲电子试剂可以用作接头的一部分。示例性的亲电子试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰基卤和异硫氰酸酯。
在一些实施方案中,所述接头可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,所述接头是键(例如共价键)、有机分子、基团、聚合物或化学部分。在一些实施例中,所述接头是约3至約104(例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95或100)个氨基酸长度。
在一些实施方案中,腺苷脱氨酶和napDNAbp通过长度为4、16、32或104个氨基酸的接头融合。在一些实施例中,接头的长度为约3至约104个氨基酸。在一些实施方案中,本文提供的任何融合蛋白包含通过接头彼此融合的腺苷脱氨酶和Cas9结构域。可以使用脱氨酶结构域(例如,工程化的ecTadA)和Cas9结构域之间的各种接头长度和灵活性(例如,范围从非常灵活的(GGGS)n、(GGGGS)n和(G)n形式的接头到(EAAAK)n、(SGGS)n、SGSETPGTSESATPES形式的更刚性接头(参见,例如Guilinger JP,Thompson DB,Liu DR.Fusion ofcatalytically inactive Cas9 to FokI nuclease improves the specificity ofgenome modification.Nat.Biotechnol.2014;32(6):577-82;全部内容以引用方式并入本文)和(XP)n),以实现核碱基编辑器活性的最佳长度。在一些实施例中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,所述接头包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的任何融合蛋白的腺苷脱氨酶和Cas9结构域通过包含氨基酸序列SGSETPGTSESATPES的接头(例如,XTEN接头)融合。
Cas9与引导RNA的复合物
本公开的一些方面提供包含本文提供的任何融合蛋白的复合物,以及和融合蛋白的CAS9结构域(例如,dCas9、核酸酶活性Cas9或Cas9切口酶)结合的引导RNA(例如,靶向A\突变的引导)。可以使用任何连接融合蛋白结构域的方法(例如,从非常灵活的(GGGS)n、(GGGGS)n和(G)n形式的接头到更刚性的(EAAAK)n、(SGGS)n、SGSETPGTSESATPES形式的接头,(参见,例如Guilinger JP,Thompson DB,Liu DR.Fusion of catalytically inactiveCas9 to FokI nuclease improves the specificity of genome modification.Nat.Biotechnol.2014;32(6):577-82;全部内容以引用方式并入本文)和(XP)n),以实现核碱基编辑器活性的最佳长度。在一些实施例中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,所述接头包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的融合蛋白的Cas9结构域通过包含氨基酸序列SGSETPGTSESATPES的接头融合。
在一些实施方案中,引导核酸(例如引导RNA)的长度为15-100个核苷酸并且包含与靶标序列互补的至少10个连续核苷酸的序列。在一些实施方案中,引导RNA是15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,引导RNA包含15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34 35、36、37、38、39或40个连续核苷酸的序列,其与靶标序列互补的。在一些实施方案中,靶标序列是DNA序列。在一些实施方案中,靶标序列是细菌、酵母、真菌、昆虫、植物或动物的基因组中的序列。在一些实施方案中,靶标序列是人类基因组中的序列。在一些实施方案中,靶标序列的3'端紧邻规范PAM序列(NGG)。在一些实施方案中,靶标序列的3'端紧邻非规范PAM序列(例如,表2或5'-NAA-3'中列出的序列)。在一些实施方案中,引导核酸(例如,引导RNA)与感兴趣的基因(例如,与疾病或病症相关的基因)中的序列互补。
本公开的一些方面提供使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供包括使DNA分子与本文提供的任何融合蛋白和至少一种引导RNA接触的方法,其中引导RNA长约15-100个核苷酸并且包含至少与靶标序列互补的10个连续核苷酸。在一些实施方案中,靶标序列的3'端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶标序列的3'端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5'(TTTV)序列。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身,物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和相应编码核酸中的相应残基。
对于本领域技术人员显而易见的是,为了将本文公开的任何融合蛋白靶向靶标位点,例如包含待编辑突变的位点,通常需要共表达融合蛋白蛋白质和指导RNA。如本文别处更详细解释的,引导RNA通常包含允许Cas9结合的tracrRNA框架和赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性的引导序列。或者,引导RNA和tracrRNA可以作为两个核酸分子分开提供。在一些实施方案中,引导RNA包含一种结构,其中引导序列包含与靶标序列互补的序列。引导序列的长度通常为20个核苷酸。基于本公开,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的引导RNA的序列对于本领域技术人员来说将是显而易见的。此类合适的引导RNA序列通常包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。本文提供一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性引导RNA序列。
Cas12与引导RNA的复合物
本公开的一些方面提供包含本文提供的任何融合蛋白和引导RNA(例如,靶向用于编辑的靶标多核苷酸的引导)的复合物。
在一些实施方案中,引导核酸(例如引导RNA)的长度为15-100个核苷酸并且包含与靶标序列互补的至少10个连续核苷酸的序列。在一些实施方案中,引导RNA是15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,引导RNA包含15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34 35、36、37、38、39或40个连续核苷酸的序列,其与靶标序列互补的。在一些实施方案中,靶标序列是DNA序列。在一些实施方案中,靶标序列是细菌、酵母、真菌、昆虫、植物或动物的基因组中的序列。在一些实施方案中,靶标序列是人类基因组中的序列。在一些实施方案中,靶标序列的3'端紧邻规范的PAM序列。在一些实施方案中,靶标序列的3'端紧邻非规范的PAM序列。
本公开的一些方面提供使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供包括使DNA分子与本文提供的任何融合蛋白和至少一种引导RNA接触的方法,其中引导RNA长约15-100个核苷酸并且包含至少与靶标序列互补的10个连续核苷酸。在一些实施方案中,靶标序列的3'端紧邻例如TTN、DTTN、GTTN、ATTN、ATTC、DTTNT、WTTN、HATY、TTTN、TTTV、TTTC、TG、RTR或YTN PAM位点。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身,物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和相应编码核酸中的相应残基。
对于本领域技术人员显而易见的是,为了将本文公开的任何融合蛋白靶向靶标位点,例如包含待编辑突变的位点,通常需要共表达融合蛋白蛋白质和指导RNA。如本文别处更详细解释的,引导RNA通常包含允许Cas12结合的tracrRNA框架和赋予Cas12:核酸编辑酶/结构域融合蛋白序列特异性的引导序列。或者,引导RNA和tracrRNA可以作为两个核酸分子分开提供。在一些实施方案中,引导RNA包含一种结构,其中引导序列包含与靶标序列互补的序列。引导序列的长度通常为20个核苷酸。基于本公开,用于将Cas12:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的引导RNA的序列对于本领域技术人员来说将是显而易见的。此类合适的引导RNA序列通常包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。本文提供一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性引导RNA序列。
本文公开的碱基编辑器的结构域可以以任何顺序排列,只要脱氨酶结构域内化在Cas12蛋白中即可。包含融合蛋白的碱基编辑器的非限制性实例,所述融合蛋白包含Cas12结构域和脱氨酶结构域可以排列如下:
NH2-[Cas12结构域]-接头1-[ABE8]-接头2-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-接头1-[ABE8]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[ABE8]-接头2-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-接头1-[ABE8]-接头2-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[Cas12结构域]-接头1-[ABE8]-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[Cas12结构域]-[ABE8]-接头2-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[肌苷BER抑制剂]-[Cas12结构域]-接头1-[ABE8]-接头2-[Cas12结构域]-COOH;
NH2-[肌苷BER抑制剂]-[Cas12结构域]-接头1-[ABE8]-[Cas12结构域]-COOH;
NH2-[肌苷BER抑制剂]-[Cas12结构域]-[ABE8]-接头2-[Cas12结构域]-COOH;
NH2-[肌苷BER抑制剂]NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-COOH;
另外,在某些情况下,Gam蛋白可以融合到碱基编辑器的N末端。在某些情况下,Gam蛋白可以融合到碱基编辑器的C末端。噬菌体Mu的Gam蛋白可以与双链断裂(DSB)的末端结合并保护它们免于降解。在一些实施例中,使用Gam结合DSB的自由端可以减少碱基编辑过程中插入缺失的形成。在一些实施方案中,174个残基的Gam蛋白融合到碱基编辑器的N末端。参见Komor,A.C.等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在某些情况下,一个或多个突变可以改变碱基编辑器域相对于野生型域的长度。例如,在至少一个结构域中删除至少一个氨基酸可以减少碱基编辑器的长度。在另一种情况下,一个或多个突变不会改变结构域相对于野生型结构域的长度。例如,任何结构域中的替换都不会/不会改变碱基编辑器的长度。此类碱基编辑器的非限制性实例(其中所有结构域的长度与野生型结构域的长度相同)可包括:
NH2-[Cas12结构域]-接头1-[APOBEC1]-接头2-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-接头1-[APOBEC1]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[APOBEC1]-接头2-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[APOBEC1]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-接头1-[APOBEC1]-接头2-[Cas12结构域]-[UGI]-COOH;
NH2-[Cas12结构域]-接头1-[APOBEC1]-[Cas12结构域]-[UGI]-COOH;
NH2-[Cas12结构域]-[APOBEC1]-接头2-[Cas12结构域]-[UGI]-COOH;
NH2-[Cas12结构域]-[APOBEC1]-[Cas12结构域]-[UGI]-COOH;
NH2-[UGI]-[Cas12结构域]-接头1-[APOBEC1]-接头2-[Cas12结构域]-COOH;
NH2-[UGI]-[Cas12结构域]-接头1-[APOBEC1]-[Cas12结构域]-COOH;
NH2-[UGI]-[Cas12结构域]-[APOBEC1]-接头2-[Cas12结构域]-COOH;
NH2-[UGI]-[Cas12结构域]-[APOBEC1]-[Cas12结构域]-COOH;
在一些实施方案中,本文提供的碱基编辑融合蛋白需要位于精确位置,例如,靶碱基位于限定区域(例如,“脱氨基窗口”)内的位置。在某些情况下,靶标可以在4个碱基区域内。在某些情况下,这种限定的靶标区域可以是PAM上游的大约15个碱基。参见Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved baseexcisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
定义的靶标区域可以是脱氨基窗口。脱氨基窗口可以是碱基编辑器作用于靶标核苷酸并使其脱氨基的限定区域。在一些实施例中,脱氨基窗口在2、3、4、5、6、7、8、9或10个碱基区域内。在一些实施例中,脱氨基窗口是PAM上游的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。
本公开的碱基编辑器可以包含有助于编辑目标多核苷酸序列的任何结构域、特征或氨基酸序列。例如,在一些实施例中,碱基编辑器包含核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS位于脱氨酶结构域和napDNAbp结构域之间。在一些实施方案中,碱基编辑器的NLS位于napDNAbp结构域的C末端。
融合蛋白中包含的蛋白质结构域可以是异源功能结构域。可包含在融合蛋白中的蛋白质结构域的非限制性实例包括脱氨酶结构域(例如,胞苷脱氨酶和/或腺苷脱氨酶;参见PCT/US2019/044935、PCT/US2020/016288,其各自通过以下参考方式并入本文)、尿嘧啶糖基化酶抑制剂(UGI)结构域、表位标签和报导基因序列。蛋白质结构域可以是异源功能结构域,例如,具有一种或多种以下活性:转录激活活性、转录抑制活性、转录释放因子活性、基因沉默活性、染色质修饰活性、表观遗传修饰活性、组蛋白修饰活性,RNA切割活性和核酸结合活性。此类异源功能结构域可赋予功能活性,例如修饰与靶标DNA(例如组蛋白、DNA结合蛋白等)相关的靶标多肽,导致例如组蛋白甲基化、组蛋白乙酰化、组蛋白泛素化,之类的。赋予的其他功能和/或活性可以包括转座酶活性、整合酶活性、重组酶活性、连接酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMOylation活性、去SUMOylation活性,或上述的任何组合。
可以用表位标签、报导蛋白、其他结合结构域检测或标记结构域。表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报导基因的例子包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡萄糖醛酸酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自发荧光蛋白,包括蓝色荧光蛋白(BFP)。额外的蛋白质序列可以包括结合DNA分子或结合其他细胞分子的氨基酸序列,包括但不限于麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合结构域(DBD)融合、GAL4 DNA结合结构域融合,和单纯疱疹病毒(HSV)BP16蛋白融合。
在一些实施方案中,BhCas12b引导多核苷酸具有以下序列:
BhCas12b sgRNA支架(底线)+20nt到23nt引导序列(用Nn表示)
5’GUUCUGTCUUUUGGUCAGGACAACCGUCUAGCUAUAAGUGCUGCAGGGUGUGAGAAACUCCUAUUG CUGGACGAUGUCUCUUACGAGGCAUUAGCACNNNNNNNNNNNNNNNNNNNN-3’
在一些实施方案中,BvCas12b和AaCas12b引导多核苷酸具有以下序列:
BvCas12b sgRNA支架(底线)+20nt到23nt引导序列(用Nn表示)
5’GACCUAUAGGGUCAAUGAAUCUGUGCGUGUGCCAUAAGUAAUUAAAAAUUACCCACCACAGGAGCA CCUGAAAACAGGUGCUUGGCACNNNNNNNNNNNNNNNNNNNN-3’
AaCas12b sgRNA支架(底线)+20nt到23nt引导序列(用Nn表示)
5’GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGA ACUUCUCAAAAAGAACGAUCUGAGAAGUGGCACNNNNNNNNNNNNNNNNNNNN-3’
使用包含腺苷脱氨酶变体和Cas9结构域的融合蛋白的方法
本公开的一些方面提供使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供包含使编码蛋白质的突变形式的DNA分子与本文提供的任何融合蛋白和至少一种引导RNA接触的方法,其中引导RNA长约15-100个核苷酸并且包含至少与靶标序列互补的10个连续核苷酸。在一些实施方案中,靶标序列的3'端紧邻规范PAM序列(NGG)。在一些实施方案中,靶标序列的3'端不紧邻规范PAM序列(NGG)。在一些实施方案中,靶标序列的3'端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶标序列的3'端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5'(TTTV)序列。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身,物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和相应编码核酸中的相应残基。
对本领域技术人员而言显而易见的是,为了将包含Cas9结构域和腺苷脱氨酶变体(例如,ABE8)的任何融合蛋白,如本文公开的,靶向至靶标位点,例如,包含对于要编辑的突变,通常需要将融合蛋白与引导RNA(例如sgRNA)共表达。如本文别处更详细解释的,引导RNA通常包含允许Cas9结合的tracrRNA框架和赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性的引导序列。或者,引导RNA和tracrRNA可以作为两个核酸分子分开提供。在一些实施方案中,引导RNA包含一种结构,其中引导序列包含与靶标序列互补的序列。引导序列的长度通常为20个核苷酸。基于本公开,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的引导RNA的序列对于本领域技术人员来说将是显而易见的。此类合适的引导RNA序列通常包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。本文提供一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性引导RNA序列。
碱基编辑器效率
CRISPR-Cas9核酸酶已被广泛用于介导靶向基因组编辑。在大多数基因组编辑应用中,Cas9与引导多核苷酸(例如单引导RNA(sgRNA))形成复合物,并在sgRNA序列指定的靶标位点诱导双链DNA断裂(DSB)。细胞主要通过非同源末端连接(NHEJ)修复途径对这种DSB做出反应,这会导致随机插入缺失(indel),从而导致移码突变破坏基因。在存在与DSB侧翼序列高度同源的供体DNA模板的情况下,可以通过称为同源定向修复(HDR)的替代途径实现基因校正。不幸的是,在大多数非扰动条件下,HDR效率低下,取决于细胞状态和细胞类型,并且由更高频率的插入缺失主导。由于与人类疾病相关的大多数已知遗传变异都是点突变,因此需要能够更有效、更干净地进行精确点突变的方法。本文提供的碱基编辑系统提供一种提供基因组编辑的新方法,无需产生双链DNA断裂,无需供体DNA模板,也无需诱导过量的随机插入和缺失。
本公开的融合蛋白有利地修饰编码包含突变的蛋白质的特定核苷酸碱基而不产生显著比例的插入缺失。如本文所用,“插入缺失”是指核酸内核苷酸碱基的插入或缺失。这种插入或缺失可导致基因编码区内的移码突变。在一些实施方案中,期望产生有效修饰(例如突变)核酸内的特定核苷酸而不在核酸中产生大量插入或缺失(即,插入缺失)的碱基编辑器。在某些实施方案中,本文提供的任何碱基编辑器与插入缺失相比能够产生更大比例的预期修饰(例如,突变)。
在一些实施例中,本文提供的任何碱基编辑器系统导致在靶标多核苷酸序列中形成小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%或小于0.01%的插入缺失。
在一些实施例中,包含本文描述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致在靶标多核苷酸序列中形成小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%或小于0.01%的插入缺失。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶标多核苷酸序列中形成小于0.8%的插入缺失。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶标多核苷酸序列中形成最多0.8%的插入缺失。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶标多核苷酸序列中形成小于0.3%的插入缺失。在一些实施方案中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含所述ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶标多核苷酸序列中较低的插入缺失形成。在一些实施方案中,与包含ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶标多核苷酸序列中较低的插入缺失形成。
在一些实施方案中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含本文描述的ABE8碱基编辑器变体之一的任何碱基编辑器系统具有降低的插入/缺失频率。在一些实施例中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%降低的插入缺失频率。在一些实施例中,与包含ABE7.10的碱基编辑器相比,包含本文所述的ABE8碱基编辑器变体之一的碱基编辑器系统具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%降低的插入缺失频率。
本公开提供具有增加的效率和特异性的腺苷脱氨酶变体(例如,ABE8变体)。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所需碱基,并且不太可能编辑不打算改变的碱基(例如,“旁观者(bystander)”)。
在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统具有减少的旁观者编辑或突变。在一些实施方案中,非预期编辑或突变是旁观者突变或旁观者编辑,例如靶标核苷酸序列的靶标窗口中非预期或非靶标位置中的靶标碱基(例如,A或C)的碱基编辑。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统具有减少的旁观者编辑或突变。在一些实施例中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统已将旁观者编辑或突变减少至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统已将旁观者编辑或突变减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍,至少1.6倍,至少1.7倍,至少1.8倍,至少1.9倍,至少2.0倍,至少2.1倍,至少2.2倍,至少2.3倍,至少2.4倍,至少2.5倍至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。
在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统减少了虚假编辑。在一些实施方案中,非预期编辑或突变是虚假突变或虚假编辑,例如,非特异性编辑或引导独立编辑基因组的非预期或非靶标区域中的靶标碱基(例如,A或C)。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统减少了虚假编辑。在一些实施例中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统减少了虚假编辑至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统减少了虚假编辑至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍,至少1.6倍,至少1.7倍,至少1.8倍,至少1.9倍,至少2.0倍,至少2.1倍,至少2.2倍,至少2.3倍,至少2.4倍,至少2.5倍至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。
本公开的一些方面基于以下认识:本文提供的任何碱基编辑器能够有效地在核酸(例如,受试者基因组内的核酸)中产生预期突变,例如点突变不会产生大量意外突变,例如意外点突变(即旁观者的突变)。在一些实施方案中,本文提供的任何碱基编辑器能够产生至少0.01%的预期突变(即,至少0.01%的碱基编辑效率)。在一些实施方案中,本文提供的任何碱基编辑器能够产生至少0.01%、1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、40%、45%、50%、60%、70%、80%、90%、95%或99%的预期突变。
在一些实施例中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的碱基编辑效率。在一些实施方案中,碱基编辑效率可以通过计算细胞群中编辑的核碱基的百分比来测量。在一些实施例中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的碱基编辑效率如通过编辑的核碱基测量的细胞群。
在一些实施方案中,与ABE7碱基编辑器相比,本文所述的任何ABE8碱基编辑器变体具有更高的碱基编辑效率。在一些实施例中,与ABE7碱基编辑器(例如ABE7.10)相比,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少至少330%,至少340%,至少350%,至少360%,至少370%,至少380%,至少390%、至少400%、至少450%或至少500%更高碱基编辑效率。
在一些实施例中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍更高碱基编辑效率。
在一些实施例中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的在靶碱基编辑效率。在一些实施例中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的在靶碱基编辑效率,如通过编辑的核碱基测量的细胞群。
在一些实施方案中,与ABE7碱基编辑器相比,本文所述的任何ABE8碱基编辑器变体具有更高的在靶碱基编辑效率。在一些实施例中,与ABE7碱基编辑器(例如ABE7.10)相比,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少至少330%,至少340%,至少350%,至少360%,至少370%,至少380%,至少390%、至少400%、至少450%或至少500%更高的在靶碱基编辑效率。
在一些实施例中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍更高的在靶碱基编辑效率。
本文所述的ABE8碱基编辑器变体可通过质粒、载体、LNP复合物或mRNA递送至宿主细胞。在一些实施方案中,本文所述的任何ABE8碱基编辑器变体作为mRNA递送至宿主细胞。在一些实施方案中,通过基于核酸的递送系统例如mRNA递送的ABE8碱基编辑器具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的在靶编辑效率,通过编辑的核碱基测量。在一些实施方案中,与由质粒或载体系统递送的ABE8碱基编辑器相比,由mRNA系统递送的ABE8碱基编辑器具有更高的碱基编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少至少230%,至少240%,至少250%,至少260%,至少270%,至少280%,至少290%,至少高300%,至少310%,至少320%,至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%更高的在靶编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍更高的在靶碱基编辑效率。
在一些实施例中,包含本文描述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致在靶标多核苷酸序列中小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%或小于0.01%的脱靶碱基。
在一些实施方案中,与由质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在由mRNA系统递送时具有更低的引导脱靶编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%更低的引导脱靶编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍更低的引导脱靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在由mRNA系统递送时具有至少约2.2倍的引导脱靶编辑效率降低。
在一些实施方案中,与由质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在由mRNA系统递送时具有更低的独立于引导脱靶编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%更低的独立于引导脱靶编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少5.0倍、至少10.0倍、至少20.0倍、至少50.0倍、至少70.0倍、至少100.0倍、至少120.0倍、至少130.0倍、至少150.0倍更低的独立于引导脱靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,本文所述的ABE8碱基编辑器变体在由mRNA系统递送时具有134.0倍降低的不依赖于指导的脱靶编辑效率(例如,假RNA脱氨基)。在一些实施方案中,本文所述的ABE8碱基编辑器变体不增加跨基因组的不依赖于指导的突变率。
本公开的一些方面基于以下认识:本文提供的任何碱基编辑器能够有效地在核酸(例如,受试者基因组内的核酸)中产生预期突变,例如点突变不会产生大量意外突变(例如,假脱靶编辑或旁观者编辑)。在一些实施方案中,预期突变是由与gRNA结合的特定碱基编辑器产生的突变,专门设计用于改变或纠正靶基因中的突变。本公开的一些方面基于以下认识:本文提供的任何碱基编辑器能够有效地在核酸(例如受试者基因组内的核酸)中产生预期突变而不产生大量非预期突变。在一些实施方案中,预期突变是由与gRNA结合的特定碱基编辑器产生的突变,专门设计用于改变或纠正预期突变。在一些实施方案中,预期突变是产生终止密码子的突变,例如基因编码区内的提前终止密码子。在一些实施方案中,预期突变是消除终止密码子的突变。在一些实施方案中,预期突变是改变基因剪接的突变。在一些实施方案中,预期突变是改变基因(例如,基因启动子或基因阻遏物)的调控序列的突变。
在一些实施方案中,本文提供的碱基编辑器能够产生大于1:1的预期突变与插入缺失(即,非预期突变)的比率。在一些实施方案中,本文提供的碱基编辑器能够产生的预期突变与插入缺失的比率至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少200:1、至少300:1、至少400:1、至少500:1、至少600:1、至少700:1、至少800:1、至少900:1、或至少1000:1或更多。应当理解,本文描述的碱基编辑器的特征可以应用于任何融合蛋白,或使用本文提供的融合蛋白的方法。
可以使用任何合适的方法确定预期突变和插入缺失的数量,例如,如国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632);Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abaseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)中所述,其全部内容以引用方式并入本文。
在一些实施方案中,为了计算插入缺失频率,扫描测序读数以寻找与两个10-bp序列的精确匹配,所述两个10-bp序列位于可以发生插入缺失的窗口两侧。如果未找到完全匹配,则从分析中排除读取。如果此插入缺失窗口的长度与参考序列完全匹配,则读取被归类为不包含插入缺失。如果插入缺失窗口比参考序列长或短两个或更多碱基,则测序读数分别被归类为插入或缺失。在一些实施方案中,本文提供的碱基编辑器可以限制核酸区域中插入缺失的形成。在一些实施方案中,该区域位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。
在靶标核苷酸区域形成的插入缺失的数量可取决于核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施例中,插入缺失的数量或比例在将靶标核苷酸序列(例如,细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定。应当理解,本文描述的碱基编辑器的特征可以应用于任何融合蛋白,或使用本文提供的融合蛋白的方法。
在一些实施方案中,本文提供的碱基编辑器能够限制核酸区域中插入缺失的形成。在一些实施方案中,该区域位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。在一些实施方案中,本文提供的任何碱基编辑器能够将核酸区域处插入缺失的形成限制为小于1%、小于1.5%、小于2%、小于2.5%、小于3%、小于3.5%、小于4%、小于4.5%、小于5%、小于6%、小于7%、小于8%、小于9%、小于10%、小于12%、小于15%或小于20%。在核酸区域形成的插入缺失的数量可取决于核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施例中,插入缺失的任何数量或比例在将核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定。
多重编辑
在一些实施方案中,本文提供的碱基编辑器系统能够多重编辑一个或多个基因中的多个核碱基对。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因中,其中至少一个基因位于不同基因座中。在一些实施方案中,所述多重编辑可包含一种或多种指导多核苷酸。在一些实施方案中,所述多重编辑可包含一种或多种碱基编辑器系统。在一些实施方案中,所述多重编辑可包含一种或多种具有单个引导多核苷酸的碱基编辑器系统。在一些实施方案中,所述多重编辑可包含一种或多种具有多个引导多核苷酸的碱基编辑器系统。在一些实施方案中,所述多重编辑可包含一个或多个具有单个碱基编辑器系统的引导多核苷酸。在一些实施方案中,多重编辑可包含至少一种不需要PAM序列来靶向结合靶标多核苷酸序列的引导多核苷酸。在一些实施方案中,多重编辑可包含至少一种需要PAM序列来靶向结合靶标多核苷酸序列的引导多核苷酸。在一些实施方案中,多重编辑可以包括至少一种不需要PAM序列靶向结合靶标多核苷酸序列的引导多核苷酸和至少一种需要PAM序列靶向结合靶标多核苷酸序列的引导多核苷酸的混合物。应当理解,使用本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解,使用本文所述的任何碱基编辑器的多重编辑可以包括多个核碱基对的顺序编辑。
在一些实施方案中,多个核碱基对在一个或多个基因中。在一些实施方案中,多个核碱基对在同一基因中。在一些实施方案中,一个或多个基因中的至少一个基因位于不同基因座中。
在一些实施方案中,所述编辑是编辑至少一个蛋白质编码区中的多个核碱基对。在一些实施方案中,所述编辑是编辑至少一个蛋白质非编码区中的多个核碱基对。在一些实施方案中,所述编辑是编辑至少一个蛋白质编码区和至少一个蛋白质非编码区中的多个核碱基对。
在一些实施方案中,所述编辑与一个或多个指导多核苷酸结合。在一些实施方案中,所述碱基编辑器系统可包含一种或多种碱基编辑器系统。在一些实施方案中,所述碱基编辑器系统可以包含一个或多个碱基编辑器系统与单个指导多核苷酸结合。在一些实施方案中,所述碱基编辑器系统可以包括一个或多个碱基编辑器系统与多个指导多核苷酸相结合。在一些实施方案中,所述编辑与具有单个碱基编辑器系统的一个或多个指导多核苷酸结合。在一些实施方案中,所述编辑与至少一种不需要PAM序列来靶向结合靶多核苷酸序列的引导多核苷酸结合。在一些实施方案中,所述编辑与至少一种引导多核苷酸结合,该引导多核苷酸需要PAM序列靶向结合靶多核苷酸序列。在一些实施方案中,所述编辑与不需要PAM序列靶向结合靶多核苷酸序列的至少一种引导多核苷酸和需要PAM序列靶向结合靶多核苷酸序列的至少一种引导多核苷酸的混合物结合。应当理解,使用本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解,编辑可以包括多个核碱基对的顺序编辑。
在一些实施方案中,能够对一种或多种基因中的多个核碱基对进行多重编辑的碱基编辑器系统包含本文所述的ABE8碱基编辑器变体之一。在一些实施方案中,能够多重编辑一个或多个基因中的多个核碱基对的碱基编辑器系统包含ABE7碱基编辑器之一。在一些实施例中,与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比,包含本文描述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有更高的多重编辑效率。在一些实施例中,与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少至少230%,至少240%,至少250%,至少260%,至少270%,至少280%,至少290%,至少高300%,至少310%,至少320%,至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%更高的多重编辑效率。在一些实施例中,与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少4.0倍、至少4.5倍、至少5.0倍、至少5.5倍或至少6.0倍更高的多重编辑效率。
具有内部插入的融合蛋白
本文提供融合蛋白,其包含与核酸可编程核酸结合蛋白(例如,napDNAbp)融合的异源多肽。异源多肽可以是在天然或野生型napDNAbp多肽序列中未发现的多肽。异源多肽可以在napDNAbp的C末端、napDNAbp的N末端融合至napDNAbp,或插入到napDNAbp的内部位置。在一些实施方案中,异源多肽插入到napDNAbp的内部位置。
在一些实施方案中,异源多肽是脱氨酶或其功能片段。例如,融合蛋白可包含侧翼为Cas9或Cas12(例如,Cas12b/C2c1)多肽的N末端片段和C末端片段的脱氨酶。融合蛋白中的脱氨酶可以是腺苷脱氨酶。在一些实施方案中,所述腺苷脱氨酶是TadA(例如,TadA7.10或TadA*8)。在一些实施方案中,所述TadA是TadA*8。如本文所述的TadA序列(例如,TadA7.10或TadA*8)是适用于上述融合蛋白的脱氨酶。
所述脱氨酶可以是环状置换脱氨酶。例如,所述脱氨酶可以是环状置换腺苷脱氨酶。在一些实施方案中,所述脱氨酶是环状排列的TadA,在TadA参考序列中编号的氨基酸残基116处环状排列。在一些实施方案中,所述脱氨酶是环状排列的TadA,在TadA参考序列中编号的氨基酸残基136处环状排列。在一些实施方案中,所述脱氨酶是环状排列的TadA,在TadA参考序列中编号的氨基酸残基65处环状排列。
所述融合蛋白可包含多于一种脱氨酶。所述融合蛋白可包含例如1、2、3、4、5或更多种脱氨酶。在一些实施方案中,所述融合蛋白包含一种脱氨酶。在一些实施方案中,所述融合蛋白包含2种脱氨酶。融合蛋白中的两种或更多种脱氨酶可以是腺苷脱氨酶。胞苷脱氨酶或其组合。两种或更多种脱氨酶可以是同型二聚体。两种或更多种脱氨酶可以是异二聚体。两种或多种脱氨酶可以串联插入到napDNAbp中。在一些实施方案中,两种或更多种脱氨酶在napDNAbp中可能不串联。
在一些实施方案中,融合蛋白中的napDNAbp是Cas9多肽或其片段。Cas9多肽可以是变体Cas9多肽。在一些实施方案中,所述Cas9多肽是Cas9切口酶(nCas9)多肽或其片段。在一些实施方案中,所述Cas9多肽是核酸酶死亡的Cas9(dCas9)多肽或其片段。融合蛋白中的Cas9多肽可以是全长Cas9多肽。在一些情况下,融合蛋白中的Cas9多肽可能不是全长Cas9多肽。Cas9多肽可以在例如相对于天然存在的Cas9蛋白的N末端或C末端被截短。Cas9多肽可以是是循环排列的Cas9蛋白。Cas9多肽可以是Cas9多肽的片段、部分或结构域,其仍然能够结合靶标多核苷酸和引导核酸序列。
在一些实施方案中,所述Cas9多肽是化脓性链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或其片段或变体。
融合蛋白的Cas9多肽可包含与天然存在的Cas9多肽至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。
融合蛋白的Cas9多肽可包含与下文阐述的Cas9氨基酸序列(下文称为“Cas9参考序列”)至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同:
Figure BDA0003302413480003391
Figure BDA0003302413480003392
结构域;双底线:RuvC结构域)。
包含侧翼为Cas9多肽的N和C末端片段的异源催化结构域的融合蛋白也可用于本文所述方法中的碱基编辑。包含Cas9和一个或多个脱氨酶结构域,例如腺苷脱氨酶,或包含侧接有Cas9序列的腺苷脱氨酶结构域的融合蛋白也可用于靶标序列的高度特异性和有效的碱基编辑。在一个实施方案中,嵌合Cas9融合蛋白包含插入Cas9多肽内的异源催化结构域(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)。在一些实施方案中,融合蛋白包含插入Cas9内的腺苷脱氨酶结构域和胞苷脱氨酶结构域。在一些实施方案中,腺苷脱氨酶融合在Cas9内并且胞苷脱氨酶融合至C末端。在一些实施方案中,腺苷脱氨酶融合在Cas9内并且胞苷脱氨酶融合至N末端。在一些实施方案中,胞苷脱氨酶融合在Cas9内并且腺苷脱氨酶融合至C末端。在一些实施方案中,胞苷脱氨酶融合在Cas9内并且腺苷脱氨酶融合至N末端。
具有腺苷脱氨酶和胞苷脱氨酶以及Cas9的融合蛋白的示例性结构提供如下:
NH2-[Cas9(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9(腺苷脱氨酶)]-COOH;
NH2-[Cas9(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH;或
NH2-[腺苷脱氨酶]-[Cas9(胞苷脱氨酶)]-COOH。
在一些实施例中,以上通用架构中使用的“-”表示可选接头的存在。
在各种实施方案中,催化结构域具有DNA修饰活性(例如,脱氨酶活性),例如腺苷脱氨酶活性。在一些实施方案中,所述腺苷脱氨酶是TadA(例如,TadA7.10)。在一些实施方案中,所述TadA是TadA*8。在一些实施方案中,TadA*8融合在Cas9内并且胞苷脱氨酶融合到C末端。在一些实施方案中,TadA*8融合在Cas9内并且胞苷脱氨酶融合至N末端。在一些实施方案中,胞苷脱氨酶融合在Cas9内并且TadA*8融合至C末端。在一些实施方案中,胞苷脱氨酶融合在Cas9内并且TadA*8融合至N末端。具有TadA*8和胞苷脱氨酶和Cas9的融合蛋白的示例性结构提供如下:
NH2-[Cas9(TadA*8)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9]-[Cas9(TadA*8)]-COOH;
NH2-[Cas9(胞苷脱氨酶)]-[TadA*8]-COOH;或
NH2-[TadA*8]-[Cas9(胞苷脱氨酶)]-COOH。
在一些实施例中,以上通用架构中使用的“-”表示可选接头的存在。
异源多肽(例如,脱氨酶)可以插入到napDNAbp(例如,Cas9或Cas12(例如,Cas12b/C2c1))的合适位置,例如,使得napDNAbp保持其结合靶标多核苷酸和引导核酸。可以将脱氨酶(例如腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入到napDNAbp中而不损害脱氨酶的功能(例如碱基编辑活性)或napDNAbp(例如结合靶标核酸和引导核酸的能力)。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到napDNAbp中,例如晶体学研究显示的无序区域或包含高温因子或B因子的区域。较不有序、无序或非结构化的蛋白质区域,例如溶剂暴露区域和环,可用于插入而不损害结构或功能。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)可以插入到napDNAbp的柔性环区或溶剂暴露区中。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)被插入到Cas9或Cas12b/C2c1多肽的柔性环中。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)的插入位置通过Cas9多肽的晶体结构的B因子分析确定。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入Cas9多肽的包含高于平均B因子(例如,与总蛋白或包含无序区域的蛋白质结构域)。B因子或温度因子可以表示原子从其平均位置的波动(例如,由于温度相关的原子振动或晶格中的静态无序)。骨架原子的高B因子(例如,高于平均B因子)可以指示具有相对较高局部迁移率的区域。这样的区域可用于插入脱氨酶而不损害结构或功能。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)可以插入具有Cα原子的残基的位置,该残基的B因子比总蛋白质平均B因子高为50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或大于200%。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)可以插入具有Cα原子的残基的位置,该残基的B因子比包含残基的Cas9蛋白质结构域的平均B因子高为50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或大于200%。包含高于平均B因子的Cas9多肽位置可以包括,例如,上述Cas9参考序列中编号为768、792、1052、1015、1022、1026、1029、1067、1040、1054、1068、1246、12247的残基。包含高于平均B因子的Cas9多肽位置可以包括,例如,上述Cas9参考序列中编号为792-872、792-906和2-791的残基。
异源多肽(例如,脱氨酶)可以插入到napDNAbp中的氨基酸残基处,该氨基酸残基选自:上述Cas9参考序列中编号为768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247和1248,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,所述异源多肽插入Cas9参考序列中编号768至769、791至792、792至793、1015至1016、1022至1023、1026至1027、1029至1030、1040至1041、1052至1053、1054至1055、1067至1068、1068至1069、1247至1248或1248至1249之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽插入Cas9参考序列中编号769至770、792至793、793至794、1016至1017、1023至1024、1027至1028、1030至1031、1041至1042、1053至1054、1055至1056、1068至1069、1069至1070、1248至1249或1249至1250之间的氨基酸位置,或其相应的氨基酸位置。在一些实施例中,所述异源多肽替换选自由以下组成的组的氨基酸残基:上述Cas9参考序列中编号为768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247、和1248,或另一个Cas9多肽中的相应氨基酸残基。应当理解,关于插入位置对上述Cas9参考序列的引用是为了说明的目的。如本文所讨论的插入不限于上述Cas9参考序列的Cas9多肽序列,而是包括在变体Cas9多肽中相应位置的插入,例如Cas9切口酶(nCas9)、核酸酶死亡Cas9(dCas9)、Cas9变体缺少核酸酶结构域、截短的Cas9或缺少部分或完整HNH结构域的Cas9结构域。
异源多肽(例如,脱氨酶)可以插入到napDNAbp中的氨基酸残基处,该氨基酸残基选自:上述Cas9参考序列中编号为768、792、1022、1026、1040、1068和1247,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,所述异源多肽插入上述Cas9参考序列中编号768至769、792至793、1022至1023、1026至1027、1029至1030、1040至1041、1068至1069或1247至1248之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽插入上述Cas9参考序列中编号769至770、793至794、1023至1024、1027至1028、1030至1031、1041至1042、1069至1070或1248至1249之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽替换选自由以下组成的组的氨基酸残基:上述Cas9参考序列中编号为768、792、1022、1026、1040、1068和1247,或另一个Cas9多肽中的相应氨基酸残基。
异源多肽(例如,脱氨酶)可以在如本文所述的氨基酸残基处或另一Cas9多肽中的相应氨基酸残基处插入napDNAbp中。在一个实施方案中,异源多肽(例如,脱氨酶)可以插入到napDNAbp中的氨基酸残基处,该氨基酸残基选自:上述Cas9参考序列中编号为1002、1003、1025、1052至1056、1242至1247、1061至1077、943至947、686至691、569至578、530至539、和1066至1077,或另一个Cas9多肽中的相应氨基酸残基。脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)可以插入残基的N末端或C末端或替换残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入在残基的C末端。
在一些实施方案中,腺苷脱氨酶(例如,TadA)被插入选自由以下组成的组的氨基酸残基处:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶(例如,TadA)被插入以代替如以上Cas9参考序列中编号的残基792至872、792至906或2至791,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶插入在选自下组的氨基酸的N末端:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶插入在选自下组的氨基酸的C末端:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,插入腺苷脱氨酶以替换选自由以下组成的组的氨基酸:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。
在一些实施例中,CBE(例如,APOBEC1)插入在选自由以下组成的组的氨基酸残基处:上述Cas9参考序列中编号为1016、1023、1029、1040、1069和1247,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,ABE插入在选自下组的氨基酸的N末端:上述Cas9参考序列中编号为1016、1023、1029、1040、1069和1247,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,ABE插入在选自下组的氨基酸的C末端:上述Cas9参考序列中编号为1016、1023、1029、1040、1069和1247,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,插入ABE以替换选自由以下组成的组的氨基酸:上述Cas9参考序列中编号为1016、1023、1029、1040、1069和1247,或另一个Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基768处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基768的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基768的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基768,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基791或氨基酸残792处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基791的N末端或氨基酸残基792的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基791的C末端或氨基酸残基792的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基791或氨基酸残基792,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1016处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1016的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1016的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1016,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1022或氨基酸残1023处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1022的N末端或氨基酸残基1023的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1022的C末端或氨基酸残基1023的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1022或氨基酸残基1023,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1026或氨基酸残1029处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1026的N末端或氨基酸残基1029的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1026的C末端或氨基酸残基1029的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1026或氨基酸残基1029,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1040处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1040的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1040的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1040,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1052或氨基酸残1054处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1052的N末端或氨基酸残基1054的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1052的C末端或氨基酸残基1054的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1052或氨基酸残基1054,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1067、或氨基酸残1068、或氨基酸残1069处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1067的N末端、或氨基酸残基1068的N末端、或氨基酸残基1069的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1067的C末端、或氨基酸残基1068的C末端、或氨基酸残基1069的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1067、或氨基酸残1068、或氨基酸残1069,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1246、或氨基酸残1247、或氨基酸残1248处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1246的N末端、或氨基酸残基1247的N末端、或氨基酸残基1248的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1246的C末端、或氨基酸残基1247的C末端、或氨基酸残基1248的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶、或腺苷脱氨酶和胞苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1246、或氨基酸残1247、或氨基酸残1248,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,异源多肽(例如,脱氨酶)被插入到Cas9多肽的柔性环中。柔性环部分可以选自由以上Cas9编号的530-537、569-570、686-691、943-947、1002-1025、1052-1077、1232-1247或1298-1300组成群组的参考序列,或另一个Cas9多肽中的相应氨基酸残基。柔性环部分可以从由以下组成的群组中选择:上述Cas9参考序列中编号为1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231或1248-1297,或另一个Cas9多肽中的相应氨基酸残基。
可以将异源多肽(例如,腺嘌呤脱氨酶)插入对应于氨基酸残基的Cas9多肽区域:上述Cas9参考序列中编号为1017至1069、1242至1247、1052–1056、1060至1077、1002至1003、943至947、530至537、568至579、686至691、1242–1247、1298至1300、1066至1077、1052至1056或1066至1077,或另一个Cas9多肽中的相应氨基酸残基。
可以插入异源多肽(例如腺嘌呤脱氨酶)代替Cas9多肽的缺失区域。缺失区域可以对应于Cas9多肽的N末端或C末端部分。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基792至872,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基792至906,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基2至791,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基1017-1069,或其相应氨基酸残基。
示例性内部融合碱基编辑器在下表10A中提供:
表10A:Cas9蛋白中的插入位点
Figure BDA0003302413480003491
异源多肽(例如,脱氨酶)可以插入到Cas9多肽的结构域或功能结构域内。异源多肽(例如,脱氨酶)可以插入在Cas9多肽的两个结构域或功能结构域之间。例如,在从Cas9多肽中删除结构域之后,可以插入异源多肽(例如,脱氨酶)代替Cas9多肽的结构域或功能结构域。Cas9多肽的结构域或功能结构域可以包括例如RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI或HNH。
在一些实施方案中,所述Cas9多肽缺少一个或多个选自以下群组的结构域:RuvCI、RuvC II、RuvC III、Rec1、Rec2、PI或HNH结构域。在一些实施方案中,所述Cas9多肽缺少核酸酶结构域。在一些实施方案中,所述Cas9多肽缺少HNH结构域。在一些实施方案中,所述Cas9多肽缺少HNH结构域的一部分,使得Cas9多肽具有降低或消除的HNH活性。在一些实施方案中,所述Cas9多肽包含核酸酶结构域的缺失,并且插入脱氨酶以替代核酸酶结构域。在一些实施方案中,所述HNH结构域被删除并且脱氨酶被插入在其位置上。在一些实施方案中,删除一个或多个RuvC结构域,并在其位置插入脱氨酶。
包含异源多肽的融合蛋白的侧翼可以是napDNAbp的N末端和C末端片段。在一些实施方案中,所述融合蛋白包含侧翼为Cas9多肽的N末端片段和C末端片段的脱氨酶。N末端片段或C末端片段可以结合靶标多核苷酸序列。N末端片段的C端或C末端片段的N端可包含Cas9多肽的柔性环的一部分。N末端片段的C端或C末端片段的N端可包含Cas9多肽的α-螺旋结构的一部分。所述N末端片段或所述C末端片段可包含DNA结合结构域。所述N末端片段或所述C末端片段可包含RuvC结构域。所述N末端片段或所述C末端片段可包含HNH结构域。在一些实施方案中,所述N末端片段和所述C末端片段均不包含HNH结构域。
在一些实施方案中,当所述融合蛋白使靶标核碱基脱氨基时,N末端Cas9片段的C末端包含接近靶标核碱基的氨基酸。在一些实施方案中,当所述融合蛋白使靶标核碱基脱氨基时,C末端Cas9片段的N末端包含接近靶标核碱基的氨基酸。不同脱氨酶的插入位置可以不同,以使靶标核碱基与N末端Cas9片段的C末端或C末端Cas9片段的N末端的氨基酸接近。例如,ABE的插入位置可以位于选自由以下组成的群组的氨基酸残基处:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。
融合蛋白的N末端Cas9片段(即融合蛋白中位于脱氨酶侧翼的N末端Cas9片段)可包含Cas9多肽的N末端。融合蛋白的N末端Cas9片段可包含的长度至少约:100、200、300或400、500、600、700、800、900、1000、1100、1200或1300个氨基酸。融合蛋白的N末端Cas9片段可包含对应于以下氨基酸残基的序列:上述Cas9参考序列中编号为1至56、1至95、1–200、1至300、1至400、1至500、1至600、1至700、1至718、1至765、1至780、1至906、1至918或1至1000,或另一个Cas9多肽中的相应氨基酸残基。N末端Cas9片段可包含的序列包含:与氨基酸残基至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的序列同一性:上述Cas9参考序列中编号为1至56、1至95、1–200、1至300、1至400、1至500、1至600、1至700、1至718、1至765、1至780、1至906、1至918或1至1000,或另一个Cas9多肽中的相应氨基酸残基。
融合蛋白的C末端Cas9片段(即融合蛋白中位于脱氨酶侧翼的C末端Cas9片段)可包含Cas9多肽的C末端。融合蛋白的C末端Cas9片段可包含的长度至少约:100、200、300或400、500、600、700、800、900、1000、1100、1200或1300个氨基酸。融合蛋白的C末端Cas9片段可包含对应于以下氨基酸残基的序列:上述Cas9参考序列中编号为1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368,或另一个Cas9多肽中的相应氨基酸残基。N末端Cas9片段可包含的序列包含:与氨基酸残基至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的序列同一性:上述Cas9参考序列中编号为1099至1368、918至1368、906至1368、780至1368、765至1368、718至1368、94至1368或56至1368,或另一个Cas9多肽中的相应氨基酸残基。
融合蛋白的N端Cas9片段和C端Cas9片段合在一起可能不对应于全长天然存在的Cas9多肽序列,例如,如上述Cas9参考序列中所述。
本文所述的融合蛋白可以通过减少非靶位点(例如,脱靶位点)的脱氨作用,例如减少全基因组的假脱氨作用来实现靶向脱氨基作用。本文所述的融合蛋白可以在非靶位点处以减少的旁观者脱氨基作用实现靶向脱氨基作用。与例如包含与Cas9多肽的N末端或C末端融合的脱氨酶的末端融合蛋白相比,不希望的脱氨基或脱靶脱氨基可以减少至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或至少99%。与例如包含与Cas9多肽的N末端或C末端融合的脱氨酶的末端融合蛋白相比,不需要的脱氨基或脱靶脱氨基可以减少至少一倍、至少两倍、至少三倍、至少四倍、至少五倍、至少十倍、至少十五倍、至少二十倍、至少三十倍、至少四十倍、至少五十倍、至少60倍、至少70倍、至少80倍、至少90倍或至少一百倍。
在一些实施方案中,融合蛋白的脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)使R环范围内的不超过两个核碱基脱氨。在一些实施方案中,融合蛋白的脱氨酶使R环范围内不超过三个核碱基脱氨。在一些实施方案中,融合蛋白的脱氨酶使R环范围内不超过2、3、4、5、6、7、8、9或10个核碱基脱氨基。R环是三链核酸结构,包括DNA:RNA杂交体、DNA:DNA或RNA:RNA互补结构与单链DNA相关联。如本文所用,当靶标多核苷酸与CRISPR复合物或碱基编辑复合物接触时可形成R环,其中引导多核苷酸的一部分,例如,引导RNA,与靶标多核苷酸的一部分杂交并置换,例如,靶标DNA。在一些实施方案中,R-环包含间隔序列和靶标DNA互补序列的杂交区域。R环区可以是长度为约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核碱基对。在一些实施方案中,R-环区的长度为约20个核碱基对。应当理解,如本文所用,R-环区不限于与引导多核苷酸杂交的靶标DNA链。例如,R-环区域内的靶核碱基的编辑可以针对包含与引导RNA互补链的DNA链,或者可以针对作为与引导RNA互补的链的相反链的DNA链。在一些实施方案中,在R环区域中编辑包括将非互补链(原型间隔链)上的核碱基编辑为靶标DNA序列中的引导RNA。
本文所述的融合蛋白可以在不同于规范碱基编辑的编辑窗口中实现靶标脱氨基。在一些实施方案中,所述靶标核碱基在靶标多核苷酸序列中PAM序列上游约1至约20个碱基。在一些实施方案中,所述靶标核碱基在靶标多核苷酸序列中PAM序列上游约2至约12个碱基。在一些实施方案中,目标核碱基在PAM序列的远离或上游大约1至9个碱基对、约2至10个碱基对、约3至11个碱基对、约4至12个碱基对、约5至13个碱基对、约6至14个碱基对、约7至15个碱基对、约8至16个碱基对、约9至17个碱基对、约10至18个碱基对、约11至19个碱基对、约12至20个碱基对、约1至7个碱基对、约2至8个碱基对、约3至9个碱基对、约4至10个碱基对、约5至11个碱基对、约6至12个碱基对、约7至13个碱基对、约8至14个碱基对、约9至15个碱基对、约10至16个碱基对、约11至17个碱基对、约12至18个碱基对、约13至19个碱基对、约14至20个碱基对、约1至5个碱基对、约2至6个碱基对、约3至7个碱基对、约4至8个碱基对、约5至9个碱基对、约6至10个碱基对、约7至11个碱基对、约8至12个碱基对、约9至13个碱基对、约10至14个碱基对、约11至15个碱基对、约12至16个碱基对、约13至17个碱基对、约14至18个碱基对、约15至19个碱基对、约16至20个碱基对、约1至3个碱基对、约2至4个碱基对、约3至5个碱基对、约4至6个碱基对、约5至7个碱基对、约6至8个碱基对、约7至9个碱基对、约8至10个碱基对、约9至11个碱基对、约10至12个碱基对、约11至13个碱基对、约12至14个碱基对、约13至15个碱基对、约14至16个碱基对、约15至17个碱基对、约16至18个碱基对、约17至19个碱基对、約18至20个碱基对。在一些实施例中,靶标核碱基是远离或上游PAM序列的约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多碱基对。在一些实施方案中,靶标核碱基是PAM序列上游的约1、2、3、4、5、6、7、8或9个碱基对。在一些实施方案中,靶标核碱基是PAM序列上游约2、3、4或6个碱基对。
所述融合蛋白可包含多于一种异源多肽。例如,融合蛋白可以另外包含一个或多个UGI结构域和/或一个或多个核定位信号。两个或多个异源域可以串联插入。两个或更多个异源结构域可以插入在这样的位置,使得它们在NapDNAbp中不串联。
融合蛋白可包含脱氨酶和napDNAbp多肽之间的接头。接头可以是肽或非肽接头。例如,接头可以是XTEN、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES。在一些实施方案中,融合蛋白包含N末端Cas9片段和脱氨酶之间的接头。在一些实施方案中,融合蛋白包含C末端Cas9片段和脱氨酶之间的接头。在一些实施方案中,napDNAbp的N末端和C末端片段通过接头与脱氨酶连接。在一些实施方案中,N末端和C末端片段在没有接头的情况下连接到脱氨酶结构域。在一些实施方案中,融合蛋白包含N末端Cas9片段与脱氨酶之间的接头,但不包含C末端Cas9片段与脱氨酶之间的接头。在一些实施方案中,融合蛋白包含C末端Cas9片段与脱氨酶之间的接头,但不包含N末端Cas9片段与脱氨酶之间的接头。
在一些实施方案中,融合蛋白中的napDNAbp是Cas12多肽,例如Cas12b/C2c1,或其片段。Cas12多肽可以是变体Cas12多肽。在其他实施方案中,Cas12多肽的N末端或C末端片段包含核酸可编程DNA结合结构域或RuvC结构域。在其他实施方案中,融合蛋白在Cas12多肽和催化结构域之间含有接头。在其他实施方案中,接头的氨基酸序列是GGSGGS或GSSGSETPGTSESATPESSG。在其他实施方案中,所述接头是刚性的接头。在上述方面的其他实施方式中,接头由GGAGGCTCTGGAGGAAGC或GGCTCTTCTGGATCTGAAACACCTGGCACAAGCGAGAGCGCCACCCCTGAGAGCTCTGGC编码。
包含侧翼为Cas12多肽的N和C末端片段的异源催化结构域的融合蛋白也可用于本文所述方法中的碱基编辑。包含Cas12和一个或多个脱氨酶结构域,例如腺苷脱氨酶,或包含侧接有Cas12序列的腺苷脱氨酶结构域的融合蛋白也可用于靶标序列的高度特异性和有效的碱基编辑。在一个实施方案中,嵌合Cas12融合蛋白包含插入Cas12多肽内的异源催化结构域(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)。在一些实施方案中,融合蛋白包含插入Cas12内的腺苷脱氨酶结构域和胞苷脱氨酶结构域。在一些实施方案中,腺苷脱氨酶融合在Cas12内并且胞苷脱氨酶融合至C末端。在一些实施方案中,腺苷脱氨酶融合在Cas12内并且胞苷脱氨酶融合至N末端。在一些实施方案中,胞苷脱氨酶融合在Cas12内并且腺苷脱氨酶融合至C末端。在一些实施方案中,胞苷脱氨酶融合在Cas12内并且腺苷脱氨酶融合至N末端。具有腺苷脱氨酶和胞苷脱氨酶以及Cas12的融合蛋白的示例性结构提供如下:
NH2-[Cas12(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas12(腺苷脱氨酶)]-COOH;
NH2-[Cas12(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH;或
NH2-[腺苷脱氨酶]-[Cas12([胞苷脱氨酶)]-COOH;
在一些实施例中,以上通用架构中使用的“-”表示可选接头的存在。
在各种实施方案中,催化结构域具有DNA修饰活性(例如,脱氨酶活性),例如腺苷脱氨酶活性。在一些实施方案中,所述腺苷脱氨酶是TadA(例如,TadA7.10)。在一些实施方案中,所述TadA是TadA*8。在一些实施方案中,TadA*8融合在Cas12内并且胞苷脱氨酶融合到C末端。在一些实施方案中,TadA*8融合在Cas12内并且胞苷脱氨酶融合至N末端。在一些实施方案中,胞苷脱氨酶融合在Cas12内并且TadA*8融合至C末端。在一些实施方案中,胞苷脱氨酶融合在Cas12内并且TadA*8融合至N末端。具有TadA*8和胞苷脱氨酶和Cas12的融合蛋白的示例性结构提供如下:
N-[Cas12(TadA*8)]-[胞苷脱氨酶]-C;
N-[胞苷脱氨酶]-[Cas12(TadA*8)]-C;
N-[Cas12(胞苷脱氨酶)]-[TadA*8]-C;或
N-[TadA*8]-[Cas12([胞苷脱氨酶)]-C。
在一些实施例中,以上通用架构中使用的“-”表示可选接头的存在。
在一些实施方案中,融合蛋白含有一个或多个催化结构域。在其他实施方案中,一个或多个催化结构域中的至少一个插入Cas12多肽内或融合在Cas12 N末端或C末端。在其他实施方案中,一个或多个催化结构域中的至少一个插入Cas12多肽的环、α螺旋区、非结构化部分或溶剂可及部分内。在一些实施方案中,所述Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i。在一些实施方案中,所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环酸芽孢杆菌(Alicyclobacillusacidiphilus)Cas12b具有至少约85%的氨基酸序列同一性。在一些实施方案中,所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillusthermoamylovorans)Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)Cas12b具有至少约90%的氨基酸序列同一性。在一些实施方案中,所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)Cas12b具有至少约95%的氨基酸序列同一性。在一些实施方案中,所述Cas12多肽包含或基本上由以下的片段组成:外村尚芽孢杆菌Cas12b、嗜热淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环酸芽孢杆菌Cas12b。
在其他实施方案中,催化结构域插入在BhCas12b或相应的氨基酸位置153至154、255至256、306至307、980至981、1019至1020、534至535、604至605或344至345或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸P153和S154之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K255和E256之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸D980和G981之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K1019和L1020之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸F534和P535之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K604和G605之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸H344和F345之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸位置147和148、248和249、299和300、991和992或1031和1032或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸P147和D148之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸G248和G249之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸P299和E300之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸G991和E992之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸K1031和M1032之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸位置157和158、258和259、310和311、1008和1009或1044和1045或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸P157和G158之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸V258和G259之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸D310和P311之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸G1008和E1009之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸G1044和K1045之间。
在其他实施方案中,融合蛋白包含核定位信号(例如,二分核定位信号)。在其他实施方案中,核定位信号的氨基酸序列是MAPKKKRKVGIHGVPAA。在上述方面的其他实施方式中,核定位信号由以下序列编码:
ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCC。在其他实施方案中,Cas12b多肽含有使RuvC结构域的催化活性沉默的突变。在其他实施方案中,Cas12b多肽D574A、D829A和/或D952A突变。在其他实施方案中,融合蛋白还包含标签(例如,流感血凝素标签)。
在一些实施方案中,融合蛋白包含具有内部融合的核碱基编辑结构域(例如,脱氨酶结构域,例如腺苷脱氨酶结构域)的全部或部分的napDNAbp结构域(例如,Cas12衍生结构域)。在一些实施方案中,所述napDNAbp是Cas12b。在一些实施方案中,碱基编辑器包含具有插入在下表中提供的基因座处的内部融合的TadA*8结构域的BhCas12b结构域。
表10B:Cas12b蛋白中的插入位点
BhCas12b 插入位点 插入aa之间
位置 1 153 PS
位置 2 255 KE
位置 3 306 DE
位置 4 980 DG
位置 5 1019 KL
位置 6 534 FP
位置 7 604 KG
位置 8 344 HF
BvCas12b 插入位点 插入aa之间
位置 1 147 PD
位置 2 248 GG
位置 3 299 PE
位置 4 991 GE
位置 5 1031 KM
AaCas12b 插入位点 插入aa之间
位置 1 157 PG
位置 2 258 VG
位置 3 310 DP
位置 4 1008 GE
位置 5 1044 GK
作为非限制性实例,可以将腺苷脱氨酶(例如,ABE8.13)插入到BhCas12b中以产生有效编辑核酸序列的融合蛋白(例如,ABE8.13-BhCas12b)。
在一些实施例中,本文所述的碱基编辑系统包含具有插入到Cas9中的TadA的ABE。提供具有插入Cas9的TadA的相关ABE的序列。
101Cas9 TadAins 1015
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
102 Cas9 TadAins 1022
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
103Cas9TadAins1029
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
103Cas9TadAins1040
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
105Cas9TadAins1068
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDTGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
106Cas9TadAins1247
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
107Cas9TadAins1054
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
108Cas9TadAins1026
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
109Cas9TadAins768
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.1Cas9TadAins1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPREDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.2Cas9TadAins1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPREDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.3Cas9TadAins1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPREDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.4Cas9TadAins1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMRREDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.5Cas9TadAins1249
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMRRPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.5Cas9TadAinsdelta59-661250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSSGSETPGTSESATPESGSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.6Cas9TadAins1251
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMRRDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.7Cas9TadAins1252
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDGSSGSSGSETPGTSESATPESGSSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMRRNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
110.8Cas9TadAinsdelta59-66C-truncate1250
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
111.1Cas9TadAins997
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
111.2Cas9TadAins997
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSSGSETPGTSESATPESSGGSSIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
112deltaHNHTadA
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLI IKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
113N末端单TadA螺旋截断165端
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
114N末端单TadA螺旋截断165端delta59-65
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
115.1Cas9TadAins1004
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
115.2Cas9TadAins1005
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
115.3Cas9TadAins1006
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQSEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
115.4Cas9TadAins1007
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
116.1Cas9TadAinsC-termtruncate2792
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
116.2Cas9TadAinsC-termtruncate2791
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
116.3Cas9TadAinsC-termtruncate2790
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKEGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQLGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
117Cas9delta1017-1069
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYSSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
118Cas9TadA-CP116ins1067
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
119Cas9TadAins701
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
120Cas9TadACP136ins1248
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
121Cas9TadACP136ins1052
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLAMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGNGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
122Cas9TadACP136ins1041
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
123Cas9TadACP139ins1299
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
124Cas9delta792-872TadAins
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
125Cas9delta792-906TadAins
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
126TadACP65ins1003
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
127TadACP65ins1016
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
128TadACP65ins1022
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMITAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
129TadACP65ins1029
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEITAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
130TadACP65ins1041
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
131TadACP65ins1054
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
132TadACP65ins1246
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在一些实施方案中,产生了腺苷脱氨酶碱基编辑器以将TadA或其变体插入到Cas9多肽中所鉴定的位置。
示例性但非限制性的融合蛋白在国际PCT申请号PCT/US2020/016285和美国临时申请号62/852,228和62/852,224中有所描述,其内容通过引用整体并入本文。
编辑核酸的方法
本公开的一些方面提供用于编辑核酸的方法。在一些实施方案中,所述方法是用于编辑编码蛋白质的核酸分子的核碱基(例如,双链DNA序列的碱基对)的方法。在一些实施例中,该方法包括以下步骤:a)使核酸的靶标区域(例如双链DNA序列)与包含碱基编辑器和引导核酸(例如gRNA)的复合物接触,b)诱导所述靶标区域的链分离,c)将靶标区域的单链中的所述靶标核碱基对的第一个核碱基转化为第二个核碱基,和d)使用nCas9切割不超过一条所述靶标区域的链,其中与第一个核碱基互补的第三个核碱基是被与第二个核碱基互补的第四个核碱基取代。在一些实施方案中,该方法导致核酸中少于20%的插入缺失形成。应当理解,在一些实施例中,省略了步骤b。在一些实施例中,该方法导致小于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或低于0.1%的插入缺失形成率。在一些实施方案中,该方法进一步包括用与第四个核碱基互补的第五个核碱基替换第二个核碱基,从而产生预期的编辑碱基对(例如,G·C到A·T)。在一些实施例中,至少5%的预期碱基对被编辑。在一些实施例中,至少10%、15%、20%、25%、30%、35%、40%、45%或50%的预期碱基对被编辑。
在一些实施方案中,靶标核苷酸中的预期产物与非预期产物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或200:1或更高。在一些实施方案中,预期突变与插入缺失形成的比率大于1:1、10:1、50:1、100:1、500:1或1000:1或更多。在一些实施方案中,切割的单链(切口链)与引导核酸杂交。在一些实施方案中,切割的单链与包含第一核碱基的链相反。在一些实施方案中,碱基编辑器包含一个dCas9结构域。在一些实施方案中,所述碱基编辑器保护或结合非编辑链。在一些实施方案中,预期的编辑碱基对位于PAM位点的上游。在一些实施例中,所述碱基对的预期编辑是PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,预期的编辑碱基对位于PAM位点的下游。在一些实施方案中,所述碱基对的预期编辑是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,所述方法不需要规范的(例如,NGG)PAM站点。在一些实施方案中,所述核碱基编辑器包含一个接头。在一些实施方案中,所述接头的长度是1-25个氨基酸。在一些实施方案中,所述接头的长度是5-20个氨基酸。在一些实施方案中,接头的长度是10、11、12、13、14、15、16、17、18、19或20个氨基酸。在一个实施方案中,接头的长度为32个氨基酸。在另一个实施方案中,“长接头”的长度为至少约60个氨基酸。在其他实施方案中,接头长度在约3-100个氨基酸之间。在一些实施方案中,靶标区域包括靶标窗口,其中靶标窗口包含靶标核碱基对。在一些实施例中,靶标窗口包含1-10个核苷酸。在一些实施例中,靶标窗口的长度是1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸。在一些实施例中,靶标窗口的长度是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,碱基对的预期编辑在靶标窗口内。在一些实施例中,靶标窗口包含碱基对的预期编辑。在一些实施例中,所述方法使用本文提供的任何碱基编辑器进行。
在一些实施方案中,本公开提供用于编辑核苷酸(例如,编码蛋白质的基因中的SNP)的方法。在一些实施方案中,本公开提供一种用于编辑双链DNA序列的核碱基对的方法。在一些实施方案中,该方法包括a)使双链DNA序列的靶标区域与包含碱基编辑器和引导核酸(例如gRNA)的复合物接触,其中靶标区域包含靶标核碱基对,b)诱导所述靶标区域的链分离,c)将靶标区域的单链中的所述靶标核碱基对的第一个核碱基转化为第二个核碱基,d)切割不超过一条所述靶标区域的链,其中第三个核碱基互补第一核碱基被与第二核碱基互补的第四核碱基替换,并且第二核碱基被与第四核碱基互补的第五核碱基替换,从而产生预期的编辑碱基对,其中产生预期的编辑碱基对的效率至少为5%。应当理解,在一些实施方案中,省略了步骤b。在一些实施方案中,至少5%的预期碱基对被编辑。在一些实施方案中,至少10%、15%、20%、25%、30%、35%、40%、45%或50%的预期碱基对被编辑。在一些实施方案中,所述方法导致小于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或低于0.1%的插入缺失形成率。在一些实施方案中,靶标核苷酸处的预期产物与非预期产物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或200:1或更高。在一些实施方案中,预期突变与插入缺失形成的比率大于1:1、10:1、50:1、100:1、500:1或1000:1或更多。在一些实施方案中,切割的单链与引导核酸杂交。在一些实施方案中,切割的单链与包含第一核碱基的链相反。在一些实施方案中,预期的编辑碱基对位于PAM位点的上游。在一些实施例中,所述碱基对的预期编辑是PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,预期的编辑碱基对位于PAM位点的下游。在一些实施方案中,所述碱基对的预期编辑是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施例中,所述方法不需要规范的(例如,NGG)PAM站点。在一些实施方案中,所述接头的长度是1-25个氨基酸。在一些实施方案中,所述接头的长度是5-20个氨基酸。在一些实施方案中,所述接头的长度是10、11、12、13、14、15、16、17、18、19或20个氨基酸。在一些实施方案中,靶标区域包括靶标窗口,其中靶标窗口包含靶标核碱基对。在一些实施例中,靶标窗口包含1-10个核苷酸。在一些实施例中,靶标窗口的长度是1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸。在一些实施例中,靶标窗口的长度是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,预期编辑的碱基对出现在靶标窗口内。在一些实施例中,靶标窗口包含碱基对的预期编辑。在一些实施例中,所述核碱基编辑器是本文提供的任何一种碱基编辑器。
融合蛋白在宿主细胞中的表达
包含腺苷脱氨酶变体的本公开的融合蛋白可以使用本领域技术人员已知的常规方法在实际上任何感兴趣的宿主细胞中表达,包括但不限于细菌、酵母、真菌、昆虫、植物和动物细胞。例如,可以通过基于cDNA序列为CDS的上游和下游设计合适的引物来克隆编码本公开的腺苷脱氨酶的DNA。克隆的DNA可以直接,或在需要时用限制酶消化后,或在添加合适的接头和/或核定位信号后与编码碱基编辑系统的一种或多种额外组分的DNA连接。碱基编辑系统在宿主细胞中被转译以形成复合体。
编码本文所述的蛋白质结构域的DNA可以通过化学合成DNA获得,或者通过利用PCR方法和Gibson组装法连接合成的部分重叠的寡聚DNA短链以构建编码其全长的DNA。通过化学合成或结合PCR方法或Gibson Assembly方法构建全长DNA的优点是,可以根据引入DNA的宿主以CDS全长形式设计要使用的密码子。在异源DNA的表达中,通过将其DNA序列转化为宿主生物中频繁使用的密码子,预计蛋白质表达水平会增加。作为要使用的宿主中密码子使用频率的数据,例如可以使用在Kazusa DNA研究所的主页中公开的遗传密码使用频率数据库(http://www.kazusa.or.jp/codon/index.html),也可以参考显示每个宿主中密码子使用频率的文件。参考获得的数据和要引入的DNA序列,可以将用于DNA序列的密码子中在宿主中显示低使用频率的密码子转换为编码相同氨基酸并显示高使用频率的密码子。
包含编码核酸序列识别模块和/或核酸碱基转化酶的DNA的表达载体可以例如通过将DNA连接到合适表达载体中的启动子的下游来生产。
作为表达载体,来源于大肠杆菌的质粒(例如,pBR322、pBR325、pUC12、pUC13);枯草芽孢杆菌衍生的质粒(例如,pUB110、pTP5、pC194);酵母来源的质粒(例如,pSH19、pSH15);昆虫细胞表达质粒(例如,pFast-Bac);动物细胞表达质粒(例如,pA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo);噬菌体如.lamda.phage等;昆虫病毒载体例如杆状病毒等(例如,BmNPV、AcNPV);使用动物病毒载体,例如逆转录病毒、痘苗病毒、腺病毒等。
作为启动子,可以使用适合用于基因表达的宿主的任何启动子。在使用DSB的常规方法中,由于宿主细胞的存活率有时会因毒性而显著降低,因此期望通过使用诱导启动子在诱导开始时增加细胞数。然而,由于通过表达本公开的核酸修饰酶复合物也可以提供足够的细胞增殖,因此也可以不受限制地使用构成启动子。
例如,当宿主是动物细胞时,使用SR.α.启动子、SV40启动子、LTR启动子、CMV(巨细胞病毒)启动子、RSV(劳斯肉瘤病毒)启动子、MoMuLV(莫洛尼鼠白血病病毒)LTR、HSV-TK(单纯疱疹病毒胸苷激酶)启动子等。其中,优选CMV启动子、SR.α.启动子等。
当宿主为大肠杆菌时,优选trp启动子、lac启动子、recA启动子、lamda.P.sub.L启动子、lpp启动子、T7启动子等。
当宿主为芽孢杆菌属时,优选SPO1启动子、SPO2启动子、penP启动子等。
当宿主为酵母时,优选Gal1/10启动子、PHO5启动子、PGK启动子、GAP启动子、ADH启动子等。
当宿主是昆虫细胞时,优选多角体蛋白启动子、P10启动子等。
当宿主是植物细胞时,优选CaMV35S启动子、CaMV19S启动子、NOS启动子等。
作为表达载体,除上述载体外,还可以根据需要使用含有增强子、剪接信号、终止子、polyA添加信号、抗药性基因、营养缺陷型互补基因等选择标记、复制起点等的表达载体。
编码本文所述的蛋白质结构域的RNA可以通过例如在本身已知的体外转录系统中通过使用编码上述核酸序列识别模块和/或核酸的编码DNA的载体转录为mRNA来制备。以碱基转化酶为模板。
本公开的融合蛋白可以通过将含有编码核酸序列识别模块和/或核酸碱基转化酶的DNA的表达载体导入宿主细胞并培养宿主细胞而在细胞内表达。
作为宿主,使用埃希氏菌属、芽孢杆菌属、酵母、昆虫细胞、昆虫、动物细胞等。
作为大肠杆菌属,大肠杆菌K12.cndot.DH1[Proc.Natl.Acad.Sci.USA,60,160(1968)],大肠杆菌JM103[Nucleic Acids Research,9,309(1981)],大肠杆菌JA221[Journal of Molecular Biology,120,517(1978)],大肠杆菌HB101[Journal ofMolecular Biology,41,459(1969)],大肠杆菌C600[Genetics,39,440(1954)]等被使用。
作为芽孢杆菌属,使用枯草芽孢杆菌M1114[Gene,24,255(1983)],枯草芽孢杆菌207-21[Journal of Biochemistry,95,87(1984)]等。
作为酵母,使用酿酒酵母AH22、AH22R.sup.-、NA87-11A、DKD-5D、20B-12、粟酒裂殖酵母NCYC1913、NCYC2036、毕赤酵母KM71等。
作为昆虫细胞,当病毒为AcNPV时,白菜夜蛾幼虫来源的细胞建立系(草地夜蛾细胞;Sf细胞),粉纹夜蛾中肠来源的MG1细胞,High Five.TM。使用源于Trichoplusia ni的卵的细胞、源于Mamestra brasicae的细胞、源于Estigmena acrea的细胞等。当病毒为BmNPV时,家蚕来源的建立系(家蚕N细胞;BmN细胞)等的细胞用作昆虫细胞。作为Sf细胞,例如使用Sf9细胞(ATCC CRL1711)、Sf21细胞[all above,In Vivo,13,213-217(1977)]等。
作为昆虫,例如使用家蚕、果蝇、蟋蟀等的幼虫[Nature,315,592(1985)]。
作为动物细胞,细胞系如猴COS-7细胞、猴Vero细胞、中国仓鼠卵巢(CHO)细胞、dhfr基因缺陷型CHO细胞、小鼠L细胞、小鼠AtT-20细胞、小鼠骨髓瘤细胞、大鼠GH3使用人类和其他哺乳动物的iPS细胞、ES细胞等多能干细胞,以及由各种组织制备的原代培养细胞。此外,还可以使用斑马鱼胚胎、非洲爪蟾卵母细胞等。
作为植物细胞,悬浮培养的细胞、愈伤组织、原生质体、叶段、根段等由各种植物(例如水稻、小麦、玉米等谷物,番茄、黄瓜、茄子等产品作物)制备而成。如康乃馨、洋桔梗等园林植物,烟草、拟南芥等实验植物等)。
上述所有宿主细胞都可以是单倍体(单倍体),也可以是多倍体(例如二倍体、三倍体、四倍体等)。在传统的突变引入方法中,突变原则上只引入一个同源染色体以产生异种基因类型。因此,除非发生显性突变,否则不会表达所需的表型,并且纯合子不方便地需要劳力和时间。相比之下,根据本公开,由于可以将突变引入基因组中同源染色体上的任何等位基因,因此即使在隐性突变的情况下也可以在一代中表达期望的表型,这非常有用,因为常规方法可以解决。
根据宿主的种类,表达载体可以通过已知的方法(例如溶菌酶法、感受态法、PEG法、CaCl2共沉淀法、电穿孔法、显微注射法、粒子枪法、脂质转染法、农杆菌法等)导入。
大肠杆菌可以根据所述方法转化,例如,Proc.Natl.Acad.Sci.USA,69,2110(1972),Gene,17,107(1982)等。
芽孢杆菌属可以根据例如Molecular&General Genetics,168,111(1979)等中描述的方法引入载体中。
酵母可以根据描述的方法引入载体中,例如Molecular&General Genetics,194,187(1991),Proc.Natl.Acad.Sci.USA,75,1929(1978)等。
昆虫细胞和昆虫可以根据描述于例如Bio/Technology,6,47-55(1988)等方法引入到载体中。
动物细胞可根据描述于,例如,Cell Engineering additional volume 8,NewCell Engineering Experiment Protocol,263-267(1995)(published by Shujunsha),和Virology,52,456(1973)方法引入到载体。
导入了载体的细胞可以根据宿主的种类按照公知的方法进行培养。
例如,当培养大肠杆菌或芽孢杆菌属时,优选液体培养基作为用于培养的培养基。培养基优选含有转化体生长所需的碳源、氮源、无机物等。碳源的例子包括葡萄糖、糊精、可溶性淀粉、蔗糖等;氮源的例子包括无机或有机物质,例如铵盐、硝酸盐、玉米浆、蛋白胨、酪蛋白、肉提取物、豆饼、马铃薯提取物等。无机物的例子包括氯化钙、磷酸二氢钠、氯化镁等。培养基可以含有酵母提取物、维生素、生长促进因子等。培养基的pH值优选为约5至约8。
作为用于培养大肠杆菌的培养基,例如,含有葡萄糖、酪蛋白氨基酸的M9培养基[Journal of Experiments in Molecular Genetics,431-433,Cold Spring HarborLaboratory,New York 1972]是优选的。必要时,例如,可以将诸如3β-吲哚基丙烯酸之类的试剂添加到培养基中以确保促进剂的有效功能。大肠杆菌通常在约15到约43℃下培养。必要时可进行曝气和搅拌。
芽孢杆菌属通常在约30到约40℃下培养。必要时可进行曝气和搅拌。
用于培养酵母的培养基的例子包括Burkholder最小培养基[Proc.Natl.Acad.Sci.USA,77,4505(1980)],SD培养基含有0.5%酪蛋白氨基酸[Proc.Natl.Acad.Sci.USA,81,5330(1984)]等。培养基的pH值优选为约5至约8。培养通常在约20℃到约35℃下进行。必要时可进行曝气和搅拌。
作为用于培养昆虫细胞或昆虫的培养基,例如,使用适当地含有诸如灭活的10%牛血清等添加剂的Grace's Insect Medium[Nature,195,788(1962)]等。培养基的pH值优选为约6.2至约6.4。培养通常在约27℃下进行。必要时可进行曝气和搅拌。
作为用于培养动物细胞的培养基,例如,含有约5到约20%胎牛血清的最低必需培养基(MEM)[Science,122,501(1952)]、Dulbecco's modified Eagle medium(DMEM)[Virology,8,396(1959)]、RPMI 1640medium[The Journal of the American MedicalAssociation,199,519(1967)]、199medium[Proceeding of the Society for theBiological Medicine,73,1(1950)]等被使用。培养基的pH值优选为约6至约8。培养通常在约30℃到约40℃下进行。必要时可进行曝气和搅拌。
作为培养植物细胞的培养基,例如使用MS培养基、LS培养基、B5培养基等。培养基的pH值优选为约5至约8。培养通常在约20℃到约30℃下进行。必要时可进行曝气和搅拌。
当高等真核细胞,例如动物细胞、昆虫细胞、植物细胞等用作宿主细胞时,将编码本公开的碱基编辑系统(例如,包含腺苷脱氨酶变体)的DNA引入到在诱导型启动子(例如,金属硫蛋白启动子(由重金属离子诱导)、热休克蛋白启动子(由热休克诱导)、Tet-ON/Tet-OFF系统启动子(通过添加或去除四环素诱导)调控下的宿主细胞)或其衍生物)、类固醇反应启动子(由类固醇激素或其衍生物诱导)等),在适当的阶段将诱导物质加入培养基中(或从培养基中去除)以诱导核酸的表达-修饰酶复合物,培养一定时间进行碱基编辑,将突变引入靶基因,实现碱基编辑系统的瞬时表达。
原核细胞例如大肠杆菌等可以利用诱导型启动子。诱导型启动子的实例包括但不限于lac启动子(由IPTG诱导)、cspA启动子(由冷休克诱导)、araBAD启动子(由阿拉伯糖诱导)等。
或者,当以动物细胞、昆虫细胞、植物细胞等高等真核细胞作为宿主细胞时,也可以利用上述诱导性启动子作为载体去除机制。即,载体安装有在宿主细胞中起作用的复制起点和编码复制所必需的蛋白质的核酸(例如,SV40和大T抗原、oriP和EBNA-1等用于动物细胞),编码蛋白质的核酸的表达受上述诱导型启动子调控。因此,虽然载体在诱导物质存在的情况下可以自主复制,但当去除诱导物质时,自主复制不可用,载体自然随着细胞分裂而脱落(通过添加不能自主复制Tet-OFF系统载体中的四环素和强力霉素)。
递送系统
基于核酸的核碱基编辑器和gRNA的递送
可以通过本领域已知的方法或如本文所述,在体外或体内将编码根据本公开内容的碱基编辑系统的核酸施用于受试者或递送至细胞中。在一个实施方案中,核碱基编辑器可以通过例如载体(例如病毒或非病毒载体)、基于非载体的方法(例如,使用裸DNA、DNA复合物、脂质纳米颗粒)或其组合递送。
编码核碱基编辑器的核酸可以以裸露的DNA或RNA的形式直接递送至细胞(例如,造血细胞或其祖细胞、造血干细胞和/或诱导多能干细胞),例如通过转染或电穿孔,或者可以是与促进靶细胞摄取的分子(例如,N-乙酰半乳糖胺)结合。也可以使用核酸载体,例如本文所述的载体。
核酸载体可包含编码本文所述的融合蛋白的结构域的一个或多个序列。载体还可包含编码信号肽(例如,用于核定位、核仁定位或线粒体定位)的序列,该序列与编码蛋白质的序列相关联(例如,插入或融合到)。作为一个实例,核酸载体可以包括Cas9编码序列,其包括一个或多个核定位序列(例如,来自SV40的核定位序列)和腺苷脱氨酶变体(例如,ABE8)。
核酸载体还可包括任何合适数量的调节/控制元件,例如启动子、增强子、内含子、聚腺苷酸化信号、Kozak共有序列或内部核糖体进入位点(IRES)。这些元件在本领域中是众所周知的。对于造血细胞,合适的启动子可以包括IFNβ或CD45。
根据本公开的核酸载体包括重组病毒载体。示例性病毒载体在本文中阐述。也可以使用本领域已知的其他病毒载体。此外,病毒颗粒可用于递送核酸和/或肽形式的碱基编辑系统组件。例如,“空”病毒颗粒可以组装成包含任何合适的货物。病毒载体和病毒颗粒也可以被设计成结合靶向配体来改变靶组织特异性。
除了病毒载体,非病毒载体可用于递送编码根据本公开的基因组编辑系统的核酸。一类重要的非病毒核酸载体是纳米颗粒,它可以是有机的或无机的。纳米颗粒在本领域中是众所周知的。任何合适的纳米颗粒设计均可用于递送基因组编辑系统组件或编码此类组件的核酸。例如,有机(例如脂质和/或聚合物)纳米颗粒可适合用作本公开的某些实施例中的递送载体。用于纳米颗粒制剂和/或基因转移的示例性脂质示于表11(以下)。
表11:
Figure BDA0003302413480004171
表12列出用于基因转移和/或纳米颗粒制剂的示例性聚合物。
表12:
Figure BDA0003302413480004181
表13总结编码本文所述融合蛋白的多核苷酸的递送方法。
表13:
Figure BDA0003302413480004191
在另一方面,基因组编辑系统组件或编码此类组件的核酸,例如核酸结合蛋白,例如Cas9或其变体,以及靶向感兴趣的基因组核酸序列的gRNA的递送,可以通过将核糖核蛋白(RNP)递送至细胞来实现。RNP包含与靶向gRNA复合的核酸结合蛋白,例如Cas9。可以使用已知方法将RNP递送至细胞,例如电穿孔、核转染或阳离子脂质介导的方法,例如Zuris,J.A.等人,2015,Nat.Biotechnology,33(1):73-80。RNPs有利于在CRISPR基础编辑系统中使用,特别是对于难以转染的细胞,如原代细胞。此外,RNP还可以缓解细胞中蛋白质表达可能出现的困难,特别是当真核启动子(例如CRISPR质粒中使用的CMV或EF1A)未得到良好表达时。有利地,RNP的使用不需要将外源DNA递送到细胞中。此外,由于包含核酸结合蛋白和gRNA复合物的RNP会随时间降解,因此使用RNP有可能限制脱靶效应。以类似于基于质粒的技术的方式,RNP可用于递送结合蛋白(例如,Cas9变体)和指导同源定向修复(HDR)。
用于驱动碱基编辑器编码核酸分子表达的启动子可以包括AAV ITR。这有利于消除对额外启动子元件的需要,该元件会占据载体中的空间。释放的额外空间可用于驱动额外元件的表达,例如引导核酸或选择标记。ITR活性相对较弱,因此可用于降低因所选核酸酶过度表达而导致的潜在毒性。
可以使用任何合适的启动子来驱动碱基编辑器和在适当情况下引导核酸的表达。对于普及的表达,可以使用的启动子包括CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链等。对于脑或其他CNS细胞表达,合适的启动子可以包括:SynapsinI适用于所有神经元,CaMKIIα适用于兴奋性神经元,GAD67或GAD65或VGAT适用于GABA能神经元等。对于肝细胞表达,合适的启动子包括白蛋白启动子。对于肺细胞表达,合适的启动子可以包括SP-B。对于内皮细胞,合适的启动子可以包括ICAM。对于造血细胞,合适的启动子可以包括IFNβ或CD45。对于成骨细胞,合适的启动子可以包括OG-2。
在一些实施方案中,本公开的碱基编辑器具有足够小的尺寸以允许单独的启动子驱动碱基编辑器和相容的引导核酸在同一核酸分子内的表达。例如,载体或病毒载体可包含与编码碱基编辑器的核酸可操作连接的第一启动子和与引导核酸可操作连接的第二启动子。
用于驱动引导核酸表达的启动子可以包括:Pol III启动子,例如U6或H1使用PolII启动子和内含子盒来表达gRNA腺相关病毒(AAV)。
病毒载体
因此,本文所述的碱基编辑器可以与病毒载体一起递送。在一些实施方案中,本文公开的碱基编辑器可以在病毒载体中包含的核酸上编码。在一些实施方案中,碱基编辑器系统的一种或多种组件可以在一种或多种病毒载体上编码。例如,碱基编辑器和引导核酸可以在单个病毒载体上编码。在其他实施方案中,碱基编辑器和引导核酸在不同的病毒载体上编码。在任一情况下,碱基编辑器和引导核酸均可与启动子和终止子可操作地连接。病毒载体上编码的组分的组合可以通过所选病毒载体的货物大小限制来确定。
使用基于RNA或DNA病毒的系统来递送碱基编辑器,利用高度进化的过程将病毒靶向培养中或宿主中的特定细胞,并将病毒有效载荷运送到细胞核或宿主细胞基因组。病毒载体可以直接施用于培养中的细胞、患者(体内),或者它们可以用于体外处理细胞,并且可以任选地将修饰的细胞施用于患者(离体)。常规的基于病毒的系统可以包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体。逆转录病毒、慢病毒和腺相关病毒基因转移方法可以整合到宿主基因组中,通常会导致插入的转基因长期表达。此外,在许多不同的细胞类型和靶组织中都观察到了高转导效率。
病毒载体可包括慢病毒(例如基于HIV和FIV的载体)、腺病毒(例如AD100)、逆转录病毒(例如马洛尼鼠白血病病毒MML-V)、疱疹病毒载体(例如HSV-2)和腺病毒载体。相关病毒(AAV)或其他质粒或病毒载体类型,特别是使用来自例如美国专利第8,454,972号(腺病毒的制剂、剂量)、美国专利第8,404,658号(AAV的制剂、剂量)的制剂和剂量)和美国专利第5,846,946号(DNA质粒的制剂、剂量)以及来自涉及慢病毒、AAV和腺病毒的临床试验的临床试验和出版物。例如,对于AAV,给药途径、制剂和剂量可以如美国专利号8,454,972和涉及AAV的临床试验。对于腺病毒,给药途径、制剂和剂量可以如美国专利号8,404,658和涉及腺病毒的临床试验。对于质粒递送,给药途径、制剂和剂量可以如美国专利号5,846,946和涉及质粒的临床研究。剂量可以基于或外推到平均70公斤的个体(例如成年男性),并且可以针对不同体重和物种的患者、受试者、哺乳动物进行调整。给药频率在医学或兽医从业者(例如,医师、兽医)的范围内,这取决于通常的因素,包括患者或受试者的年龄、性别、一般健康状况、其他状况以及正在解决的特定状况或症状。病毒载体可以注射到感兴趣的组织中。对于细胞类型特异性碱基编辑,碱基编辑器和可选引导核酸的表达可由细胞类型特异性启动子驱动。
逆转录病毒的趋向性可以通过掺入外来包膜蛋白来改变,扩大靶细胞的潜在目标群体。慢病毒载体是能够转导或感染非分裂细胞并通常产生高病毒滴度的逆转录病毒载体。因此,逆转录病毒基因转移系统的选择将取决于靶标组织。逆转录病毒载体由顺式作用的长末端重复序列组成,其包装能力高达6-10kb的外源序列。最小的顺式作用LTR足以复制和包装载体,然后用于将治疗基因整合到靶标细胞中以提供永久的转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人类免疫缺陷病毒(HIV)及其组合的那些(参见,例如,Buchscher等人,J.Virol.66:2731-2739(1992);Johann等人,J.Virol.66:1635-1640(1992);Sommnerfelt等人,Virol.176:58-59(1990);Wilson等人,J.Virol.63:2374-2378(1989);Miller等人,J.Virol.65:2220-2224(1991);PCT/US94/05700)。
逆转录病毒载体,尤其是慢病毒载体,可能需要小于给定长度的多核苷酸序列以有效整合到靶细胞中。例如,长度大于9kb的逆转录病毒载体与较小的病毒载体相比,会导致病毒滴度较低。在一些方面,本公开内容的碱基编辑器具有足够的大小以使得能够通过逆转录病毒载体有效包装和递送到靶标细胞中。在一些实施方案中,碱基编辑器的大小使得即使在与引导核酸和/或可靶向核酸酶系统的其他组分一起表达时也允许有效包装和递送。
在首选暂时表达的应用中,可以使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有非常高的转导效率并且不需要细胞分裂。使用这样的载体,已经获得了高滴度和表达水平。该载体可以在相对简单的系统中大量生产。腺相关病毒(“AAV”)载体也可用于用靶标核酸转导细胞,例如在核酸和肽的体外生产中,以及用于体内和离体基因治疗程序(参见,例如,West等人,Virology 160:38-47(1987);美国专利号4,797,368;WO93/24641;Kotin,Human Gene Therapy 5:793-801(1994);Muzyczka,J.Clin.Invest.94:1351(1994).重组AAV载体的构建在许多出版物中有所描述,包括美国专利号5,173,414;Tratschin等人,Mol.Cell.Biol.5:3251-3260(1985);Tratschin,等人,Mol.Cell.Biol.4:2072-2081(1984);Hermonat&Muzyczka,PNAS 81:6466-6470(1984);以及Samulski等人,J.Virol.63:03822-3828(1989)。
AAV是一种小型的单链DNA依赖性病毒,属于细小病毒家族。4.7kb野生型(wt)AAV基因组由两个基因组成,分别编码四种复制蛋白和三种衣壳蛋白,两侧各有145bp反向末端重复序列(ITR)。病毒粒子由三种衣壳蛋白Vp1、Vp2和Vp3组成,它们以1:1:10的比例从相同的开放阅读框产生,但来自差异剪接(Vp1)和替代转译起始位点(分别为Vp2和Vp3)。Vp3是病毒体中最丰富的亚基,并参与定义病毒向性的细胞表面受体识别。已在Vp1的独特N末端鉴定出一个在病毒感染性中起作用的磷脂酶结构域。
与wt AAV类似,重组AAV(rAAV)利用顺式作用的145bp ITR位于载体转基因盒的侧翼,提供高达4.5kb的外源DNA包装。感染后,rAAV可以表达本公开内容的融合蛋白,并通过环状头尾串联体中游离存在的方式持续存在而不整合到宿主基因组中。尽管有许多使用该系统在体外和体内成功的rAAV实例,但当基因编码序列的长度等于或大于wt AAV基因组。
可以根据应用选择病毒载体。例如,对于体内基因传递,AAV可能优于其他病毒载体。在一些实施方案中,AAV允许低毒性,这可能是由于纯化方法不需要可以激活免疫反应的细胞颗粒的超速离心。在一些实施例中,AAV允许引起插入诱变的可能性很低,因为它不整合到宿主基因组中。腺病毒通常用作疫苗,因为它们诱导强烈的免疫原性反应。病毒载体的包装容量会限制可以包装到载体中的碱基编辑器的大小。
AAV的包装容量约为4.5Kb或4.75Kb,包括两个145碱基反向末端重复序列(ITR)。这意味着公开的碱基编辑器以及启动子和转录终止子可以适合单个病毒载体。大于4.5或4.75Kb的构建体会导致病毒产量显著降低。比如SpCas9很大,基因本身就超过4.1Kb,很难打包成AAV。因此,本公开的实施例包括利用长度比常规碱基编辑器短的公开碱基编辑器。在一些示例中,碱基编辑器小于4kb。公开的碱基编辑器可以小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.3kb、3.3kb kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb或1.5kb。在一些实施例中,所公开的碱基编辑器的长度为4.5kb或更小。
AAV可以是AAV1、AAV2、AAV5或其任意组合。可以根据要靶向的细胞选择AAV的类型;例如,可以选择AAV血清型1、2、5或混合衣壳AAV1、AAV2、AAV5或其任何组合来靶向脑或神经元细胞;并且可以选择AAV4来靶向心脏组织。AAV8可用于递送至肝脏。关于这些细胞的某些AAV血清型的列表可以在Grimm,D.等人,J.Virol.82:5887-5911(2008))中找到。
慢病毒是复杂的逆转录病毒,具有在有丝分裂和有丝分裂后细胞中感染和表达其基因的能力。最常见的慢病毒是人类免疫缺陷病毒(HIV),它使用其他病毒的包膜糖蛋白来靶向广泛的细胞类型。
慢病毒可以如下制备。克隆pCasES10(包含慢病毒转移质粒骨架)后,将低传代(p=5)的HEK293FT接种到T-75烧瓶中,在转染前一天在含有10%胎牛血清且不含抗生素的DMEM中达到50%汇合。20小时后,将培养基更换为OptiMEM(无血清)培养基,4小时后进行转染。用10μg慢病毒转移质粒(pCasES10)和以下包装质粒转染细胞:5μg pMD2.G(VSV-g假型)和7.5μg psPAX2(gag/pol/rev/tat)。可以在4mL OptiMEM中使用阳离子脂质递送剂(50μlLipofectamine2000和100ul Plus试剂)进行转染。6小时后,将培养基更换为含10%胎牛血清的不含抗生素的DMEM。这些方法在细胞培养过程中使用血清,但优选无血清方法。
慢病毒可以如下纯化。48小时后收获病毒上清液。上清液首先清除碎屑,然后通过0.45μm低蛋白结合(PVDF)过滤器过滤。然后将它们在超速离心机中以24,000rpm的速度旋转2小时。病毒颗粒在50μl DMEM中于4℃下重悬过夜。然后等分并立即在-80℃下冷冻。
在另一个实施方案中,还考虑了基于马传染性贫血病毒(EIAV)的最小非灵长类慢病毒载体。在另一个实施方案中,RetinoStat.RTM.,一种基于马传染性贫血病毒的慢病毒基因治疗载体,其表达预期通过视网膜下注射递送的血管抑制蛋白内皮抑制素和血管抑制素。在另一个实施方案中,考虑使用自我失活的慢病毒载体。
该系统的任何RNA,例如引导RNA或碱基编辑器编码的mRNA,都可以以RNA的形式递送。可以使用体外转录生成碱基编辑器编码mRNA。例如,可以使用包含以下元件的PCR盒合成核酸酶mRNA:T7启动子、可选的kozak序列(GCCACC)、核酸酶序列和3'UTR,例如来自β珠蛋白-polyA尾部的3'UTR。该盒可用于T7聚合酶的转录。引导多核苷酸(例如,gRNA)也可以使用体外转录从包含T7启动子的盒中转录,然后是序列“GG”和引导多核苷酸序列。
为了增强表达并降低可能的毒性,可以修饰碱基编辑器编码序列和/或引导核酸以包括一种或多种修饰的核苷,例如使用伪U或5-甲基-C。
AAV载体的小包装容量使得大量基因的传递和/或大型生理调控元件的使用具有挑战性。例如,可以通过将要递送的蛋白质分成两个或多个片段来解决这些挑战,其中N端片段与分裂的內含子-N融合,C端片段与分裂的內含子融合內含子-C。然后将这些片段打包成两个或多个AAV载体。如本文所用,“内含子”是指连接侧翼N-末端和C-末端外显子(例如,要连接的片段)的自剪接蛋白质内含子(例如,肽)。某些內含子用于连接异源蛋白质片段的用途在例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中被描述。例如,当与分离的蛋白质片段融合时,內含子IntN和IntC相互识别,将自身剪断并同时连接它们所融合的蛋白质片段的侧翼N和C端外显子,从而重建来自两个蛋白质片段的全长蛋白质。其他合适的內含子对本领域技术人员来说是显而易见的。
本公开的融合蛋白的片段的长度可以不同。在一些实施例中,蛋白质片段的长度从2个氨基酸到约1000个氨基酸。在一些实施例中,蛋白质片段的长度从5个氨基酸到约500个氨基酸。在一些实施例中,蛋白质片段的长度从20个氨基酸到约200个氨基酸。在一些实施例中,蛋白质片段的长度从10个氨基酸到约100个氨基酸。其他长度的合适蛋白质片段对本领域技术人员来说是显而易见的。
在一个实施方案中,双AAV载体是通过将一个大的转基因表达盒分成两半(5'和3'端,或头和尾)而产生的,其中盒的每一半都被包装在一个AAV载体中(<5KB)。然后通过两种双AAV载体共感染同一细胞实现全长转基因表达盒的重新组装,然后:(1)5'和3'基因组之间的同源重组(HR)(双AAV重叠载体);(2)ITR介导的5'和3'基因组的尾对头串联(双AAV反式剪接载体);或(3)这两种机制的组合(双AAV混合载体)。在体内使用双AAV载体导致全长蛋白质的表达。双AAV载体平台的使用代表了一种有效且可行的基因转移策略,适用于大小大于4.7kb的转基因。
內含子(Inteins)
在一些实施方案中,核酸酶(例如,Cas9)的一部分或片段与內含子融合。核酸酶可以融合到內含子的N末端或C末端。在一些实施方案中,融合蛋白的一部分或片段与內含子融合并与AAV衣壳蛋白融合。內含子、核酸酶和衣壳蛋白可以任何排列融合在一起(例如,核酸酶-內含子-衣壳、內含子-核酸酶-衣壳、衣壳-內含子-核酸酶等)。在一些实施方案中,內含子的N末端与融合蛋白的C末端融合,并且內含子的C末端与AAV衣壳蛋白的N末端融合。
內含子(中间蛋白)是在各种不同生物体中发现的自动加工结构域,其执行称为蛋白质剪接的过程。蛋白质剪接是一个多步骤的生化反应,包括肽键的断裂和形成。虽然蛋白质剪接的内源性底物是在含有內含子的生物体中发现的蛋白质,但內含子也可用于化学操作几乎任何多肽骨架。
在蛋白质剪接中,內含子通过切割两个肽键将自身从前体多肽中切除,从而通过形成新的肽键连接侧翼外显子(外部蛋白质)序列。这种重排发生在转译后(或可能是共转译)。內含子介导的蛋白质剪接自发发生,只需要內含子结构域的折叠。
大约5%的內含子是分裂內含子,它们被转录和转译为两个独立的多肽,N-內含子和C-內含子,每个都融合到一个外显子上。翻译后,內含子片段自发地非共价组装成典型的內含子结构以进行蛋白质反式剪接。蛋白质剪接的机制需要一系列酰基转移反应,导致內含子-外显子连接处的两个肽键断裂,并在N-和C-外显子之间形成新的肽键。该过程通过激活连接N-外显子和內含子N末端的肽键而启动。几乎所有內含子在其N末端都有一个半胱氨酸或丝氨酸,它们攻击C末端N-外显子残基的羰基碳。这种N到O/S酰基转移是由保守的苏氨酸和组氨酸(称为TXXH基序)以及常见的天冬氨酸促进的,这导致形成线性(硫)酯中间体。接下来,该中间体通过第一个C-外显子残基(+1)的亲核攻击进行反式(硫代)酯化,该残基是半胱氨酸、丝氨酸或苏氨酸。产生的支化(硫)酯中间体通过独特的转化得到分解:內含子的高度保守的C端天冬酰胺的环化。该过程由组氨酸(在高度保守的HNF基序中发现)和倒数第二个组氨酸促进,也可能涉及天冬氨酸。这种琥珀酰亚胺形成反应从反应复合物中切除內含子,并留下通过非肽键连接的外含肽。这种结构以独立于內含子的方式迅速重排成稳定的肽键。
在一些实施方案中,碱基编辑器(例如,ABE、CBE)的N末端片段与分裂的內含子-N融合并且C末端片段与分裂的內含子-C融合。然后将这些片段打包成两个或多个AAV载体。某些內含子用于连接异源蛋白质片段的用途在例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中被描述。例如,当与分离的蛋白质片段融合时,內含子IntN和IntC相互识别,将自身剪断并同时连接它们所融合的蛋白质片段的侧翼N和C端外显子,从而重建来自两个蛋白质片段的全长蛋白质。其他合适的內含子对本领域技术人员来说是显而易见的。
在一些实施方案中,ABE在SpCas9的选定区域内的Ala、Ser、Thr或Cys残基处分裂成N和C末端片段。这些区域对应于由Cas9晶体结构分析确定的环区域。每个片段的N末端与內含子-N融合,每个片段的C末端与內含子C在氨基酸位置S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589和S590,按以下顺序以粗体大写字母表示。
Figure BDA0003302413480004271
Figure BDA0003302413480004281
使用核碱基编辑器靶向突变
如本文所述评估靶向突变的核碱基编辑器的适用性。在一个实施方案中,用碱基编辑系统连同少量编码报导基因(例如,GFP)的载体转导单个感兴趣的细胞。这些细胞可以是本领域已知的任何细胞系,包括永生化人细胞系,例如293T、K562或U20S。或者,可以使用原代细胞(例如,人)。这样的细胞可能与最终的细胞靶标相关。
可以使用病毒载体进行递送。在一个实施方案中,转染可以使用脂质转染(例如Lipofectamine或Fugene)或通过电穿孔进行。转染后,可以通过荧光显微镜或流式细胞术确定GFP的表达,以确认一致和高水平的转染。这些初步转染可以包含不同的核碱基编辑器,以确定哪种编辑器组合具有最大的活性。
如本文所述评估核碱基编辑器的活性,即通过对细胞基因组进行测序以检测靶序列中的改变。对于Sanger测序,纯化的PCR扩增子被克隆到质粒骨架中,转化、小量制备并用单一引物测序。也可以使用下一代测序技术进行测序。使用下一代测序时,扩增子可能为300-500bp,预期切割位点不对称放置。PCR之后,可以将下一代测序接头和条形码(例如Illumina多重接头和索引)添加到扩增子的末端,例如用于高通量测序(例如在IlluminaMiSeq上)。
可以选择在初始测试中诱导最大水平靶标特异性改变的融合蛋白进行进一步评估。
在特定实施方案中,核碱基编辑器用于靶向感兴趣的多核苷酸。在一个实施方案中,将本公开内容的核碱基编辑器与用于靶向感兴趣突变的引导RNA一起递送至细胞(例如,造血细胞或其祖细胞、造血干细胞和/或诱导多能干细胞)在细胞的基因组内,从而改变突变。在一些实施方案中,碱基编辑器被引导RNA靶向以向感兴趣基因的序列引入一个或多个编辑。
该系统可以包括一种或多种不同的载体。在一个方面,碱基编辑器是密码子优化的以表达期望的细胞类型,优选真核细胞,优选哺乳动物细胞或人类细胞。
一般而言,密码子优化是指通过替换至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50或更多个密码子)与在该宿主细胞的基因中更频繁或最频繁使用的密码子同时保持天然氨基酸序列。各种物种对特定氨基酸的某些密码子表现出特定的偏向性。密码子偏向性(生物体之间密码子使用的差异)通常与信使RNA(mRNA)的转译效率相关,其又被认为取决于,除其它外,被转译密码子的特性和特定转移RNA(tRNA)分子的可用性。细胞中所选tRNA的优势通常反映了肽合成中最常用的密码子。因此,可以基于密码子优化来定制基因以在给定生物体中进行最佳基因表达。密码子使用表很容易获得,例如,在www.kazusa.orjp/codon/上可用的“Codon Usage Database”(2002年7月9日访问)中,这些表可以通过多种方式进行调整。参见,Nakamura,Y.等人,"Codon usage tabulated fromthe international DNA sequence databases:status for the year2000"Nucl.AcidsRes.28:292(2000)。用于密码子优化用于在特定宿主细胞中表达的特定序列的计算机算法也是可用的,例如Gene Forge(Aptagen;Jacobus,PA)也是可用的。在一些实施方案中,编码工程化核酸酶的序列中的一个或多个密码子(例如1、2、3、4、5、10、15、20、25、50或更多或所有密码子)对应于最常用的特定氨基酸的密码子。
包装细胞通常用于形成能够感染宿主细胞的病毒颗粒。这些细胞包括包装腺病毒的293细胞和包装逆转录病毒的psi.2细胞或PA317细胞。用于基因治疗的病毒载体通常是通过产生将核酸载体包装成病毒颗粒的细胞系来产生的。载体通常包含包装和随后整合到宿主中所需的最少病毒序列,其他病毒序列被用于要表达的多核苷酸的表达盒替换。缺失的病毒功能通常由包装细胞系反式提供。例如,用于基因治疗的AAV载体通常仅具有来自AAV基因组的ITR序列,这些序列是包装和整合到宿主基因组中所需的。病毒DNA可以包装在细胞系中,该细胞系包含编码其他AAV基因(即rep和cap)的辅助质粒,但缺少ITR序列。细胞系也可以用腺病毒作为辅助感染。辅助病毒可以促进AAV载体的复制和辅助质粒中AAV基因的表达。在某些情况下,由于缺乏ITR序列,辅助质粒没有大量包装。腺病毒的污染可以通过,例如,热处理来减少,腺病毒对于热处理比AAV更敏感的。
多效应核碱基编辑器的应用
多效应核碱基编辑器可用于靶向感兴趣的多核苷酸以产生改变蛋白质表达的改变。在一个实施方案中,多效应核碱基编辑器用于修饰非编码或调控序列,包括但不限于剪接位点、增强子和转录调控元件。然后使用本领域已知的任何方法测定改变对受调控元件控制的基因表达的影响。在一个特定的实施方案中,多效应核碱基编辑器能够显著改变调节序列,从而消除其调节基因表达的能力。有利地,与其他RNA可编程核酸酶相比,这可以在基因组靶标序列中不产生双链断裂的情况下完成。
多效应核碱基编辑器可用于靶向感兴趣的多核苷酸以产生改变蛋白质活性的改变。例如,在诱变的背景下,多效应核碱基编辑器与容易出错的PCR和其他基于聚合酶的方法相比具有许多优势。因为本公开的多效应核碱基编辑器在靶标区域中的多个碱基处产生改变,所以相对于通过易错PCR引入的突变,此类突变更有可能在蛋白质水平上表达,后者不太可能在蛋白质水平上表达。考虑到密码子中的单个核苷酸变化可能仍编码相同的氨基酸(例如,密码子简并性)。与在整个多核苷酸中诱导随机改变的易错PCR不同,本公开内容的多效应核碱基编辑器可用于靶向感兴趣蛋白质的小区域或限定区域内的特定氨基酸。
在其他实施方案中,本公开内容的多效应核碱基编辑器用于靶向生物体基因组内的感兴趣的多核苷酸。在一个实施方案中,生物体是微生物群系的细菌(例如,拟杆菌门(Bacteriodetes)、疣微菌门(Verrucomicrobia)、厚壁菌门(Firmicutes);γ-变形菌门(Gammaproteobacteria)、α变形菌门(Alphaproteobacteria)、拟杆菌门、梭菌纲(Clostridia)、丹毒丝菌纲(Erysipelotrichia)、芽孢杆菌纲(Bacilli);肠杆菌目(Enterobacteriales)、拟杆菌目(Bacteriodales)、疣微菌目(Verrucomicrobiales)、梭菌目(Clostridiales)、肠杆菌目(Erysiopelotrichales)、乳杆菌目(Lactobacillales);肠杆菌科(Enterobacteriaceae)、拟杆菌科(Bacteroidaceae)、丹毒丝菌科(Erysiopelotrichaceae)、普雷沃氏菌科(Prevotellaceae)、红蝽菌科(Coriobacteriaceae)和产碱菌科(Alcaligenaceae)、大肠杆菌属(Escherichia)、拟杆菌属(Bacteroides)、理研菌(Alistipes)、Akk菌(Akkermansia)、梭菌属(Clostridium)、乳杆菌属(Lactobacillus))。在另一个实施方案中,生物体是农业上重要的动物(例如,牛、绵羊、山羊、马、鸡、火鸡)或植物(例如,大豆、小麦、玉米、水稻、烟草、苹果、葡萄、桃子、李子、樱桃)。在一个实施方案中,将本公开内容的多效应核碱基编辑器连同用于平铺细胞基因组内的多种序列的引导RNA文库一起递送至细胞,从而系统地改变整个基因组中的序列。
可以在多种蛋白质中的任一种中进行突变以促进结构功能分析或改变蛋白质的内源活性。例如,可以在酶(例如激酶、磷酸酶、羧化酶、磷酸二酯酶)或酶底物、受体或其配体以及抗体及其抗原中进行突变。在一个实施方案中,多效应核碱基编辑器靶向编码酶活性位点、受体配体结合位点或抗体互补决定区(CDR)的核酸分子。在酶的情况下,在活性位点诱导突变可以增加、减少或消除酶的活性。突变对酶的影响在酶活性测定中表征,包括本领域技术人员已知和/或显而易见的多种测定中的任一种。在受体的情况下,在配体结合位点发生的突变可以增加、减少或消除受体对其配体的亲和力。在受体/配体结合测定法中测定此类突变的影响,包括本领域技术人员已知和/或显而易见的多种测定法中的任一种。
合成文库
本文提供融合蛋白文库和使用其优化碱基编辑的方法,与经典碱基编辑器相比,该文库允许替代的优选碱基编辑窗口。在一些实施方案中,本公开提供用于优化碱基编辑的蛋白质文库,其包含多种融合蛋白,其中多种融合蛋白中的每一种都包含侧接Cas9多肽的N末端片段和C末端片段的脱氨酶,其中融合蛋白中的每一种的N末端片段不同于多种融合蛋白的其余部分的N末端片段,或者其中融合蛋白中的每一种的C末端片段不同于C末端多种融合蛋白的其余片段,其中每个融合蛋白的脱氨酶使靶核碱基在靶多核苷酸序列中的原间隔相邻基序(PAM)序列附近脱氨,并且其中N末端片段或C末端片段结合目标多核苷酸序列。在一些实施方案中,对于CRISPR R环内的每个核碱基,多个融合蛋白中的至少一个使核碱基脱氨基。在一些实施方案中,对于距离PAM序列1至20个碱基对的靶多核苷酸内的每个核碱基,多个融合蛋白中的至少一个使核碱基脱氨基。在一些实施方案中,本文提供包含允许优化碱基编辑的融合蛋白文库的试剂盒。
在一些实施方案中,腺苷脱氨酶等位基因(例如TadA等位基因)的合成文库可用于产生具有修饰的碱基编辑效率和/或特异性的腺苷碱基编辑器。在一些实施方案中,从合成文库产生的腺苷碱基编辑器包括更高的碱基编辑效率和/或特异性。在一些实施方案中,与带有野生型TadA的腺苷碱基编辑器相比,从合成文库生成的腺苷碱基编辑器表现出增加的碱基编辑效率、增加的碱基编辑特异性、减少的脱靶编辑、减少的旁观者编辑、减少的插入缺失形成和/或减少的虚假编辑。在一些实施方案中,与带生TadA*7.10的腺苷碱基编辑器相比,从合成文库生成的腺苷碱基编辑器表现出增加的碱基编辑效率、增加的碱基编辑特异性、减少的脱靶编辑、减少的旁观者编辑、减少的插入缺失形成和/或减少的虚假编辑。在一些实施方案中,合成文库包含ABE的随机化TadA部分。在一些实施方案中,合成文库在TadA的每个位置包含所有20个标准氨基酸取代。在一些实施方案中,合成文库包含每个文库成员1-2个核苷酸取代突变的平均频率。在一些实施方案中,合成文库包含在TadA*7.10中发现的背景突变。
医药组合物
本公开的其他方面涉及包含本文所述的任何碱基编辑器、融合蛋白或融合蛋白-引导多核苷酸复合物的医药组合物。如本文所用,术语“医物组合物”是指配制用于医药用途的组合物。在一些实施方案中,医药组合物进一步包含药学上可接受的载体。在一些实施方案中,医药组合物包含另外的药剂(例如,用于特异性递送、增加半衰期或其他治疗化合物)。
如本文所用,术语“药学上可接受的载体”是指药学上可接受的材料、组合物或赋形剂,例如液体或固体填充剂、稀释剂、赋形剂、制造助剂(例如,润滑剂、滑石镁、硬脂酸钙或锌、或硬脂酸)或溶剂包封材料,参与将化合物从身体的一个部位(例如,递送部位)运载或运输到另一部位(例如,器官、组织或身体的一部分)。药学上可接受的载体在与制剂的其他成分相容并且对受试者的组织没有伤害的意义上是“可接受的”(例如,生理相容的、无菌的、生理pH等)。
可用作药学上可接受的载体的材料的一些非限制性实例包括:(1)糖类,如乳糖、葡萄糖和蔗糖;(2)淀粉,如玉米淀粉、马铃薯淀粉;(3)纤维素及其衍生物,如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素、醋酸纤维素等;(4)黄蓍胶粉;(5)麦芽;(6)明胶;(7)润滑剂,如硬脂酸镁、十二烷基硫酸钠、滑石粉等;(8)可可脂、栓剂蜡等赋形剂;(9)油类,如花生油、棉籽油、红花油、香油、橄榄油、玉米油、豆油等;(10)二醇类,如丙二醇;(11)多元醇,如甘油、山梨糖醇、甘露糖醇和聚乙二醇(PEG);(12)油酸乙酯、月桂酸乙酯等酯类;(13)琼脂;(14)缓冲剂,如氢氧化镁、氢氧化铝等;(15)海藻酸;(16)无热原水;(17)等渗盐水;(18)林格解;(19)乙醇;(20)pH缓冲溶液;(21)聚酯、聚碳酸酯和/或聚酐;(22)填充剂,例如多肽和氨基酸。(23)血清醇,例如乙醇;(23)用于药物制剂的其他无毒相容物质。润湿剂、着色剂、脱模剂、涂层剂、甜味剂、调味剂、加香剂、防腐剂和抗氧化剂也可存在于制剂中。诸如“赋形剂”、“载体”、“药学上可接受的载体”、“载体”等术语在本文中可互换使用。
医药组合物可包含一种或多种pH缓冲化合物以将制剂的pH维持在反映生理pH的预定水平,例如在约5.0至约8.0的范围内。水性液体制剂中使用的pH缓冲化合物可以是氨基酸或氨基酸混合物,例如组氨酸或氨基酸混合物,例如组氨酸和甘氨酸。或者,pH缓冲化合物优选是将制剂的pH维持在预定水平,例如在约5.0至约8.0的范围内并且不螯合钙离子的试剂。这种pH缓冲化合物的说明性实例包括但不限于咪唑和乙酸根离子。pH缓冲化合物可以以适合将制剂的pH维持在预定水平的任何量存在。
医药组合物还可包含一种或多种渗透调节剂,即,将制剂的渗透特性(例如,渗透压、渗透压和/或渗透压)调节至接收个体血流和血细胞可接受的水平的化合物。渗透调节剂可以是不螯合钙离子的试剂。渗透调节剂可以是本领域技术人员已知或可获得的调节制剂渗透特性的任何化合物。本领域技术人员可以凭经验确定给定渗透调节剂用于本发明制剂的适用性。合适类型的渗透调节剂的说明性实例包括但不限于:盐,例如氯化钠和乙酸钠;糖类,例如蔗糖、右旋糖和甘露醇;氨基酸,如甘氨酸;以及一种或多种这些药剂和/或药剂类型的混合物。渗透调节剂可以以足以调节制剂渗透特性的任何浓度存在。
在一些实施方案中,医药组合物被配制用于递送至受试者,例如用于基因编辑。施用本文所述的医药组合物的合适途径包括但不限于:局部、皮下、经皮、皮内、病灶内、关节内、腹膜内、膀胱内、经粘膜、牙龈、牙内、耳蜗内、经鼓膜、器官内、硬膜外、鞘内、肌肉内、静脉内、血管内、骨内、眼周、瘤内、脑内和脑室内给药。
在一些实施方案中,将本文所述的药物组合物局部施用至患病部位(例如,肿瘤部位)。在一些实施方案中,本文所述的药物组合物通过注射、通过导管、通过栓剂或通过植入物给予受试者,植入物为多孔、无孔或凝胶状材料,包括膜,例如唾液酸膜,或纤维。
在其他实施方案中,本文所述的药物组合物在控释系统中递送。在一个实施例中,可以使用泵(参见,例如,Langer,1990,Science249:1527-1533;Sefton,1989,CRCCrit.Ref.Biomed.Eng.14:201;Buchwald等人,1980,Surgery 88:507;Saudek等人,1989,N.Engl.J.Med.321:574).在另一个实施例中,可以使用聚合材料。(参见,例如,MedicalApplications of Controlled Release(Langer and Wise eds.,CRC Press,Boca Raton,Fla.,1974);Controlled Drug Bioavailability,Drug Product Design andPerformance(Smolen and Ball eds.,Wiley,New York,1984);Ranger and Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61.也可参见Levy等人,1985,Science 228:190;During et al.,1989,Ann.Neurol.25:351;Howard et ah,1989,J.Neurosurg.71:105.)其他控释系统在如上Langer中有讨论。
在一些实施方案中,根据常规程序将药物组合物配制成适于静脉内或皮下施用至受试者例如人的组合物。在一些实施方案中,用于通过注射给药的药物组合物是无菌等渗用途的溶液,用作增溶剂和局部麻醉剂例如利多卡因以缓解注射部位的疼痛。通常,成分以单位剂型单独提供或混合在一起提供,例如,作为指示活性剂量的密封容器如安瓿或小袋中的干燥冻干粉或无水浓缩物。当药物通过输液给药时,可以用装有无菌药用级水或盐水的输液瓶进行分配。当药物组合物通过注射给药时,可以提供无菌注射用水或盐水的安瓿,以便在给药前可以混合成分。
用于全身给药的药物组合物可以是液体,例如无菌盐水、乳酸林格氏溶液或汉克氏溶液。此外,药物组合物可以是固体形式并在使用前立即重新溶解或悬浮。还考虑了冻干形式。药物组合物可包含在脂质颗粒或囊泡中,例如脂质体或微晶,其也适用于肠胃外给药。颗粒可以具有任何合适的结构,例如单层或多层,只要其中包含组合物。化合物可以被包裹在含有融合脂质二油酰磷脂酰乙醇胺(DOPE)、低水平(5-10mol%)阳离子脂质的“稳定质粒-脂质颗粒”(SPLP)中,并通过聚乙二醇(PEG)涂层稳定(Zhang Y.P.等人,GeneTher.1999,6:1438-47).带正电荷的脂质如N-[1-(2,3-二油酰氧基)丙基]-N,N,N-三甲基-甲基硫酸铵或“DOTAP”特别优选用于此类颗粒和囊泡。这种脂质颗粒的制备是众所周知的。参见,例如,美国专利号4,880,635;4,906,477;4,911,928;4,917,951;4,920,016;和4,921,757;其中每一个都通过引用并入本文。
例如,本文所述的医药组合物可以作为单位剂量给药或包装。当用于本公开的医药组合物时,术语“单位剂量”是指适合作为受试者的单位剂量的物理上离散的单位,每个单位包含经计算以产生期望的治疗效果的预定量的活性物质和所需的稀释剂;即,载体(carrier)或媒介物(vehicle)。
此外,该医药组合物可以作为药物试剂盒提供,该试剂盒包含(a)含有冻干形式的本公开化合物的容器和(b)含有药学上可接受的稀释剂(例如,用于重构或稀释本公开的冻干化合物。任选地与这种容器相关联的可以是由管理药物或生物产品的制造、使用或销售的政府机构规定的形式的通知,该通知反映了制造、使用或销售机构对人类给药的批准。
在另一方面,包括含有可用于治疗上述疾病的材料的制品。在一些实施例中,制品包括容器和标签。合适的容器包括例如瓶子、小瓶、注射器和试管。容器可由多种材料制成,例如玻璃或塑料。在一些实施方案中,容器容纳有效治疗本文所述疾病的组合物并且可以具有无菌进入口。例如,容器可以是静脉内溶液袋或具有可被皮下注射针刺穿的塞子的小瓶。组合物中的活性剂是本公开的化合物。在一些实施方案中,容器上或与容器相关的标签表明组合物用于治疗选择的疾病。制品可进一步包括第二容器,其包含药学上可接受的缓冲液,例如磷酸盐缓冲盐水、林格氏溶液或葡萄糖溶液。从商业和用户的角度来看,它还可以包括其他所需的材料,包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。
在一些实施方案中,本文描述的任何融合蛋白、gRNA和/或复合物作为医药组合物的一部分提供。在一些实施方案中,医药组合物包含本文提供的任何融合蛋白。在一些实施方案中,医药组合物包含本文提供的任何复合物。在一些实施方案中,医药组合物包含核糖核蛋白复合物,该复合物包含与gRNA和阳离子脂质形成复合物的RNA引导的核酸酶(例如Cas9)。在一些实施方案中,医药组合物包含gRNA、核酸可编程DNA结合蛋白、阳离子脂质和药学上可接受的赋形剂。医药组合物可任选地包含一种或多种额外的治疗活性物质。
在一些实施方案中,将本文提供的组合物施用于受试者,例如施用于人类受试者,以在受试者内实现靶向基因组修饰。在一些实施方案中,细胞获自受试者并与本文提供的任何医药组合物接触。在一些实施方案中,任选地在细胞中实现或检测到所需基因组修饰之后,从受试者取出并离体与医药组合物接触的细胞重新引入受试者。递送包含核酸酶的药物组合物的方法是已知的,并且描述于例如美国专利号6,453,242、6,503,717、6,534,261、6,599,692、6,607,882、6,689,558、6,824,978、6,933,113、6,979,539、7,013,219和7,163,824,所有这些的公开内容通过引用整体并入本文。尽管本文提供的医药组合物的描述主要涉及适合于施用于人的医药组合物,但本领域技术人员将理解此类组合物通常适合于施用于各种动物或生物体,例如,兽医用。
为使组合物适合于对各种动物给药而对适合对人给药的医药组合物进行修饰是众所周知的,并且普通的兽医药理学家可以仅通过普通的实验(如果有的话)来设计和/或进行这种修饰。考虑给予药物组合物的受试者包括但不限于人类和/或其他灵长类动物;哺乳动物、驯养动物、宠物和商业相关的哺乳动物,例如牛、猪、马、羊、猫、狗、小鼠和/或大鼠;和/或鸟类,包括商业相关的鸟类,例如鸡、鸭、鹅和/或火鸡。
本文所述的医药组合物的制剂可以通过药理学领域中已知或以后开发的任何方法来制备。通常,此类制备方法包括将活性成分与赋形剂和/或一种或多种其他辅助成分结合的步骤,然后,如果需要和/或需要,将产品成型和/或包装成所需的单剂量或多剂量单位。药物制剂可另外包含药学上可接受的赋形剂,如本文所用,其包括任何和所有溶剂、分散介质、稀释剂或其他液体载体、分散或悬浮助剂、表面活性剂、等渗剂、增稠剂或乳化剂、防腐剂固体粘合剂、润滑剂等,适合于所需的特定剂型。Remington’s The Science andPractice of Pharmacy,21st Edition,A.R.Gennaro(Lippincott,Williams&Wilkins,Baltimore,MD,2006;以引用方式整体并入本文)公开用于配制药物组合物的各种赋形剂及其制备的已知技术。另见PCT申请号PCT/US2010/055131(公开号WO2011/053982A8,2010年11月2日提交的),通过引用整体并入本文,提供用于生产包含核酸酶的药物组合物的其他合适的方法、试剂、赋形剂和溶剂。
除非任何常规赋形剂介质与物质或其衍生物不相容,例如通过产生任何不希望的生物效应或以有害方式与药物组合物的任何其他成分相互作用,否则其用途被认为是在本公开的范围。
如上所述的组合物可以有效量给药。有效量将取决于给药方式、所治疗的特定病症和期望的结果。它还可能取决于病症的阶段、受试者的年龄和身体状况、同时治疗的性质(如果有的话)以及医师公知的类似因素。对于治疗应用,该量足以达到医学上所需的结果。
在一些实施例中,根据本公开的组合物可用于治疗多种疾病、病症和/或状况中的任一种。
试剂盒
本公开的各个方面提供包含碱基编辑器系统的试剂盒。在一个实施方案中,该试剂盒包含核酸构建体,该核酸构建体包含编码核碱基编辑器融合蛋白的核苷酸序列。融合蛋白包含脱氨酶(例如腺嘌呤脱氨酶)和核酸可编程DNA结合蛋白(napDNAbp)。在一些实施方案中,试剂盒包含至少一种能够靶向感兴趣的核酸分子的引导RNA。在一些实施方案中,该试剂盒包含包含编码至少一种引导RNA的核苷酸序列的核酸构建体。
在一些实施方案中,该试剂盒提供使用该试剂盒编辑一个或多个突变的说明。说明通常包括关于使用试剂盒编辑核酸分子的信息。在其他实施例中,说明包括以下至少一项:注意事项、警告、临床研究和/或参考。说明可以直接印在容器上(如果有),或者作为贴在容器上的标签,或者作为单独的纸张、小册子、卡片或文件夹提供在容器中或随容器一起提供。在进一步的实施方案中,试剂盒可以包括标签或单独的插页(包装插页)形式的用于合适的操作参数的说明。在又一个实施方案中,试剂盒可以包括一个或多个容器,其中装有合适的阳性和阴性对照或对照样品,用作检测、校准或标准化的标准。试剂盒可进一步包括第二容器,其包含药学上可接受的缓冲液,例如(无菌)磷酸盐缓冲盐水、林格氏溶液或葡萄糖溶液。从商业和用户的角度来看,它还可以包括其他所需的材料,包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。
除非另有说明,否则本公开的实践采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学的常规技术,这些技术在本领域技术人员的能力范围内。此类技术在文献中得到了充分解释,例如“Molecular Cloning:A Laboratory Manual”,secondedition(Sambrook,1989);“Oligonucleotide Synthesis”(Gait,1984);“Animal CellCulture”(Freshney,1987);“Methods in Enzymology”“Handbook of ExperimentalImmunology”(Weir,1996);“Gene Transfer Vectors for Mammalian Cells”(Miller andCalos,1987);“Current Protocols in Molecular Biology”(Ausubel,1987);“PCR:ThePolymerase Chain Reaction”,(Mullis,1994);“Current Protocols in Immunology”(Coligan,1991)。这些技术适用于本公开内容的多核苷酸和多肽的生产,并且因此可以在制作和实践本公开内容时考虑。特定实施方案的特别有用的技术将在以下部分中讨论。
提出以下实施例是为了向本领域技术人员提供如何进行和使用本发明的测定、筛选和治疗方法的完整公开和描述,并且不旨在限制本发明的发明者认为是他们的发明范围。
实施例
实施例1:具有更高编辑效率的腺苷碱基编辑器
包含Tad7.10-dCas9融合蛋白的碱基编辑系统能够以大约10-20%的效率编辑目标多核苷酸,但对于需要更高效率的用途,它们的使用可能会受到限制。为了鉴定具有提高的效率和特异性的腺嘌呤碱基编辑器,包含腺苷脱氨酶TadA 7.10的构建体通过易错PCR进行诱变,随后克隆到与编码dCas9(一种核酸可编程DNA结合蛋白)的核酸序列相邻的表达载体中(图1A,图2B)。将包含腺苷脱氨酶变体的表达载体与编码氯霉素抗性(CamR)和壮观霉素抗性(SpectR)的选择质粒共转化到感受态细菌细胞中,并具有通过两个点突变变得无功能的卡那霉素抗性基因(第7轮进化)策略)(.1B,图2B)。选择细胞以恢复卡那霉素抗性,这是腺苷脱氨酶活性的读数。在随后的几轮选择中,将表达载体与编码氯霉素抗性(CamR)和壮观霉素抗性(SpectR)的质粒共转化到感受态细胞中,并具有通过三点突变变得无功能的卡那霉素抗性基因(进化第8轮策略)(图1C,图2B)。灭活的卡那霉素抗性基因核酸序列提供如下:
Figure BDA0003302413480004391
Figure BDA0003302413480004401
上述序列中,小写字母表示卡那霉素抗性启动子区域,粗体序列表示靶向失活部分(Q4*和W15*),斜体序列表示卡那霉素抗性基因(D208N)靶向失活位点,底线序列表示PAM序列。
再次将细胞接种到一系列卡那霉素浓度增加的琼脂糖板上。如图2C所示,具有有效碱基编辑活性的腺苷脱氨酶变体能够纠正卡那霉素抗性基因中存在的突变,并被选择用于进一步分析。表14描述在细菌细胞中显示有效碱基编辑的腺苷脱氨酶变体碱基编辑器。产生了编码包含所选腺苷脱氨酶变体的碱基编辑器的哺乳动物表达载体。
表达与镰状细胞病相关的β-珠蛋白的Hek293T细胞含有E6V(也称为E7V)突变,用于测试腺苷脱氨酶变体的编辑效率(图3A和3B)。这些称为“Hek293T/HBBE6V”细胞的细胞使用表达碱基编辑系统的慢病毒载体转导,所述碱基编辑系统包括包含表14中列出的ABE8的融合蛋白。ABE8s是通过将腺苷脱氨酶变体克隆到支架中产生的,支架包括圆形置换Cas9和二分核定位序列。环状置换Cas9s是本领域已知的并且描述于例如Oakes等人,Cell 176,254–267,2019。这些序列在下文中提供。
胎儿血红蛋白的上调是克服镰状细胞病的一种治疗方法。图3A显示了胎儿血红蛋白上调的治疗相关位点。编辑残基5和8的腺苷可以显著降低BCL11A结合,从而增加胎儿血红蛋白的表达。参考图3A,ABE8s表现出比ABE7.10高约2-3倍的碱基编辑活动。
表14:新型腺嘌呤碱基编辑器ABE8
Figure BDA0003302413480004402
Figure BDA0003302413480004411
参考图4,将ABE8与靶向编码HBB E6V的多核苷酸的18、19、20、21或22个核苷酸引导RNA一起引入Hek293T/HBBE6V细胞。当与循环置换(Cp)-Cas9融合时,ABE8编辑器显示出更高的编辑效率。总共测试了40种不同的ABE8构建体(表15)和三种ABE7.10构建体在Hek293T/HBBE6V细胞中的编辑活性。示例性构建体的序列如下。为了评估编辑的特异性,监测目标突变和非预期突变或旁观者突变(图5)。密码子5中腺苷的意外编辑是沉默的。然而,密码子9的意外编辑导致丝氨酸到脯氨酸突变。再次参考图5,与ABE7.10编辑器相比,多个ABE8显示出更高的编辑效率和特异性,并且没有一个编辑器具有导致丝氨酸到脯氨酸错义突变的显著旁观者编辑。
在含有镰状细胞突变的成纤维细胞中对选定的ABE8和ABE7.10对照进行了进一步分析。如图6,与ABE7.10相比,ABE8编辑器增加了碱基编辑活动。ABE8.18显示大约70%的效率。选定的ABE8编辑器也显示出前所未有的特异性。重要的是,所有ABE8编辑器的平均插入或缺失形成低于0.1%。
表15:
Figure BDA0003302413480004421
Figure BDA0003302413480004431
实施例2:ABE8设计的密码子优化和NLS选择
已经确定Cas9密码子使用和核定位序列可以显著改变真核生物的基因组编辑效率(参见例如,Kim,S.等人,Rescue of high-specificity Cas9 variants using sgRNAswith matched 5'nucleotides.Genome Biol 18,218,doi:10.1186/s13059-017-1355-3(2017);Mikami,M.et al.,Comparison of CRISPR/Cas9 expression constructs forefficient targeted mutagenesis in rice.Plant MolBiol 88,561-572,doi:10.1007/s11103-015-0342-x(2015);Jinek,M.等人,RNA-programmed genome editing in humancells.Elife 2,e00471,doi:10.7554/eLife.00471(2013))。碱基编辑器的原始Cas9n组件包含六个潜在的多聚腺苷酸化位点,导致真核生物中的表达不佳(参见例如,Kim,S.等人,Rescue of high-specificity Cas9variants using sgRNAs with matched 5'nucleotides.Genome Biol18,218,doi:10.1186/s13059-017-1355-3(2017);Komor,A.C.等人,Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage.Nature 533,420-424,doi:10.1038/nature17946(2016);Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNAwithout DNA cleavage.Nature551,464-471,doi:10.1038/nature24644(2017)).用广泛优化的密码子序列替换它可以提高碱基编辑效率(参见例如,Cong,L.等人,Multiplexgenome engineering using CRISPR/Cas systems.Science339,819-823,doi:10.1126/science.1231143(2013);Koblan,L.W.等人,Improving cytidine and adenine baseeditors by expression optimization and ancestral reconstruction.NatBiotechnol,doi:10.1038/nbt.4172(2018);Zafra,M.P.等人,Optimized base editorsenable efficient editing in cells,organoids and mice.Nat Biotechnol,doi:10.1038/nbt.4194(2018))。
DNA在靶(图9A,9B),DNA脱靶(图9C,9D)和RNA脱靶(图9E)评估了与四个ABE构建体相关的碱基编辑频率,所有这些构建体都包含密码子优化的Cas9(D10A)(Cong,L.等人,Multiplex genome engineering using CRISPR/Cas systems.Science 339,819-823,doi:10.1126/science.1231143(2013)):i)ABE7.10,具有单个C末端BP-SV40 NLS;ii)缺少ABE7.10的5'TadA野生型部分的单ABE7.10;i ii)ABEmax,包含密码子优化的TadA区域和两个BPNLS序列;iv)ABEmax(-BPNLS),它具有作为ABEmax的TadA密码子优化,但包含单个C末端BP-SV40 NLS。
所有四种构建体都显示出非常相似的靶向编辑效率,表明NLS架构和TadA密码子优化并不能决定靶向编辑效率(图9A,9B)。脱靶谱也高度相似,但与ABE7.10相比,ABEmax在一个位点显示出更大的DNA脱靶编辑(p=0.00027,学生双尾T检验)(图9C,9D)。ABEmax(-NBPNLS)显示出比ABE7.10高1.6倍的RNA脱靶编辑平均频率(图9E)。2x BPNLS的目标编辑效率没有差异。
实施例3:具有扩展靶向范围的卓越腺嘌呤碱基编辑器
腺嘌呤碱基编辑器(ABE)允许将靶DNA中的腺嘌呤高效地可编程转换为鸟嘌呤,而不会产生双链断裂(DSB)(Gaudelli,N.M.等人,Programmable base editing of A*T toG*C in genomic DNA without DNA cleavage.Nature 551,464-471,doi:10.1038/nature24644(2017);Komor,A.C.等人,Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage.Nature 533,420-424,doi:10.1038/nature17946(2016);Rees,H.A.&Liu,D.R.Base编:precision chemistry on thegenome and transcriptome of living cells.Nat Rev Genet 19,770-788,doi:10.1038/s41576-018-0059-1(2018))。ABE是一种分子机器,包含进化的大肠杆菌tRNAARG修饰酶TadA,该酶与催化受损的Cas9蛋白(D10A切口酶Cas9、nCas9)共价融合(图7A和7B)。引导RNA(gRNA)将ABE引导至目标基因组DNA序列,并且在结合并形成稳定的R环后,TadA可以接触到一小段单链核苷酸,TadA将腺嘌呤化学转化为肌苷。肌苷仅与DNA聚合酶结合口袋中的胞嘧啶碱基配对(Yasui,M.等人,Miscoding properties of 2'-deoxyinosine,anitric oxide-derived DNA Adduct,during translesion synthesis catalyzed byhuman DNA polymerases.J Mol Biol 377,1015-1023,doi:10.1016/j.jmb.2008.01.033(2008)),在DNA复制或链切除和切口修复后,在用户定义的碱基对处导致ABE催化的A·T到G·C转换突变(图7A)。
第七代ABE(ABE7)已在人类(Zeng,Y.等人,Correction of the Marfan SyndromePathogenic FBN1 Mutation by Base Editing in Human Cells and HeterozygousEmbryos.Molecular Therapy,doi:10.1016/j.ymthe.2018.08.007(2018))、小鼠(Liu,Z.等人,Highly efficient RNA-guided base editing in rabbit.Nat Commun9,2717,doi:10.1038/s41467-018-05232-2(2018);Song,C.-Q.等人,Adenine base editing in anadult mouse model of tyrosinaemia.Nature Biomedical Engineering,doi:10.1038/s41551-019-0357-8(2019);Ryu,S.M.等人,Adenine base editing in mouse embryosand an adult mouse model of Duchenne muscular dystrophy.Nat Biotechnol,doi:10.1038/nbt.4148(2018))、细菌(Gaudelli,N.M.等人,Programmable base editing ofA*T to G*C in genomic DNA without DNA cleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))、植物(Hua,K.等人,Precise A.T to G.C Base Editing inthe Rice Genome.Mol Plant 11,627-630,doi:10.1016/j.molp.2018.02.007(2018);Yan,F.等人,Highly Efficient A.T to G.C Base Editing by Cas9n-Guided tRNAAdenosineDeaminase in Rice.Mol Plant 11,631-634,doi:10.1016/j.molp.2018.02.008(2018)),和各种其他物种(Rees,H.A.&Liu,D.R.PublisherCorrection:Base editing:precision chemistry on the genome and transcriptomeof living cells.Nat Rev Genet19,801,doi:10.1038/s41576-018-0068-0(2018))基因组中实现了A·T到G·C的高效转换。然而,在某些情况下,对碱基编辑器(例如ABE7s)进行工程化可能有益,例如,修改碱基编辑窗口、改进与非NGG Cas9变体的兼容性(参见例如Huang、T.P.等人,Circularly permuted and PAM-modified Cas9 variants broaden thetargeting scope of base editors.Nat Biotechnol 37,626-631,doi:10.1038/s41587-019-0134-y(2019);Hua,K.,Tao,X.&Zhu,J.K.Expanding the base editing scope inrice by using Cas9variants.Plant Biotechnol J,doi:10.1111/pbi.12993(2018);Yang,L.等人,Increasing targeting scope of adenosine base editors in mouse andrat embryos through fusion of TadA deaminase with Cas9 variants.Protein Cell9,814-819,doi:10.1007/s13238-018-0568-x(2018)),提高碱基编辑效率,例如在人类细胞系中(参见例如,Rees,H.A.,等人,Development of hRad51-Cas9 nickase fusionsthat mediate HDR without double-stranded breaks.Nat Commun 10,2212,doi:10.1038/s41467-019-09983-4(2019))或在体内使用时(参见例如,Ryu,S.M.等人,Adeninebase editing in mouse embryos and an adult mouse model of Duchenne musculardystrophy.Nat Biotechnol,doi:10.1038/nbt.4148(2018))和/或当目标腺嘌呤位于规范ABE编辑窗口的外边缘时(位置3、4、7和8),
以改进先前的腺嘌呤碱基编辑器,细菌选择系统的严格性(see Gaudelli,N.M.等人,Programmable base editing of A*T to G*Cin genomic DNA without DNAcleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))增加了,其通过设计必须进行三个并发AT到GC回复编辑才能在抗生素选择中存活的ABE(图2B和2C)。在之前的ABE演变中,TadA文库是通过易错PCR创建的。相比之下,使用的TadA等位基因的合成文库在TadA的每个位置包含所有20个标准氨基酸替换,每个文库成员的平均频率为1-2个核苷酸替换突变(图7C)。这种化学合成的文库能够访问比容易出错的PCR技术更大的序列空间(参见Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNAwithout DNA cleavage.Nature551,464-471,doi:10.1038/nature24644(2017)).
大约300个克隆被分离出来并随后被测序。从得到的测序数据中,在TadA*内鉴定了八个突变,这些突变以高频率富集(表7和9)。八个已鉴定的氨基酸突变中有六个需要每个密码子至少有两个核碱基变化,这是以前的TadA容易出错的文库未观察到的。两个富集的突变改变了腺嘌呤脱氨活性位点附近的残基(I76和V82)(图7D)。除了先前报道的TadA*7.10的C端α螺旋中的四个突变外,在相同的α螺旋(Y147R和Q154R)中观察到了两个新的突变(图7D)。这种高度突变的α-螺旋对于强大的产品形成是必要的,因为在截断后,碱基编辑效率显著降低(图10A至10D)。
为了测试哺乳动物细胞中TadA*变体的活性,使用了ABE密码子优化和NLS定向以及最有利的靶上和靶外特征(参见实施例2;图9A-9E)。八个富集的TadA*突变以各种组合并入ABE7.10,产生四十(40)个新的ABE8变体(表7和9)。制作了ABE8构建体的两种结构变体,其中ABE的TadA区域是野生型(TadA)和进化型(TadA*)原体的异二聚体融合或工程化TadA*的单个原体,产生约500个碱基-配对较小的编辑器。这些架构变体分别称为ABE8.x-d和ABE8.x-m(表7和9)。
首先,评估这四十(40)个构建体相对于ABE7.10跨八个基因组位点的靶向DNA编辑效率,这些位点的位置范围为2到20(其中NGG PAM=位置21、22,23)在典型的20-ntS.pyogenes原型间隔子(图11A和11B)。N末端野生型TadA构建体对于使用ABE8进行稳健的DNA编辑不是必需的(另见Grunewald,J.等人,CRISPR DNA base editors with reducedRNA off-target and self-editing activities.Nat Biotechnol 37,1041-1048,doi:10.1038/s41587-019-0236-6(2019);Rees,H.A.,等人,Analysis and minimization ofcellular RNA editing by DNA adenine base editors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019);Hua,K.等人,Simplified adenine base editorsimprove adenine base editing efficiency in rice.Plant Biotechnol J,doi:10.1111/pbi.13244(2019))。包含N末端野生型TadA(ABE8.x-d)的构建体在编辑窗口偏好、总DNA编辑结果和相对于其经济化架构(ABE8.x-m)的INDEL频率方面表现相似(图7E,图11A和11B,图12)。尽管构建体内TadA(wt):TadA*8二聚化可能不是ABE8活性所必需的,但它并不排除在ABE8表达的碱基编辑器之间发生反式TadA*8:TadA*8二聚化的可能性,正如在植物细胞核中观察到的那样(Hua,K.等人,Simplified adenine base editors improveadenine base editing efficiency in rice.Plant Biotechnol J,doi:10.1111/pbi.13244(2019))。
在NGG-PAM站点,与ABE7.10相比,ABE8s导致原型间隔子中规范位置(A5-A7)的编辑高约1.5倍,非规范位置(A3-A4、A8-A10)的编辑高约3.2倍(图13)。使用非NGG PAM变体进行ABE8编辑的总体目标编辑比ABE7.10高约4.2倍。靶标的序列、“A”在靶标窗口中的位置以及ABE8构建体本身的序列身份都是影响编辑效率的因素(图7E,图11A和11B,图13)。总体而言,相对于ABE7.10,所有测试站点中所有位置的编辑变化中位数是1.94倍(范围1.34-4.49)。ABE8s在整个编辑窗口中增加的活性能够逆转ClinVar数据库中鉴定的额外约3000个疾病相关突变(图54C)。
接下来,从四十(40)个构建体的大型ABE8池中,ABE8构建体的子集(ABE8.8-m、ABE8.13-m、ABE8.17-m、ABE8.20-m、ABE8.8-d、ABE8.13-m、ABE8.17-d和ABE8.20-d)被选择进行更详细的评估。这些构建体代表ABE8,在8个基因组位点之间具有明显的编辑性能差异,这是通过层次聚类分析确定的(图14)。这些ABE8在所有测试的基因组位点上均优于ABE7.10(P值=0.0006871,双尾Wilcoxon rank sum检验),并且包含从ABE8定向进化活动中鉴定的各种突变组合(图15A和15B,和图16A和16B)。
尽管已经描述识别非NGG PAM的ABE变体,但与使用靶向NGG PAM序列的化脓性链球菌Cas9观察到的结果相比,这些构建体的编辑效率在许多情况下会降低(参见例如Huang、T.P.等人,Circularly permuted and PAM-modified Cas9 variants broaden thetargeting scope of base editors.Nat Biotechnol 37,626-631,doi:10.1038/s41587-019-0134-y(2019);Hua,K.等人,Expanding the base editing scope in rice by usingCas9 variants.Plant Biotechnol J,doi:10.1111/pbi.12993(2018);Yang,L.等人,Increasing targeting scope of adenosine base editors in mouse and rat embryosthrough fusion of TadA deaminase with Cas9 variants.Protein Cell 9,814-819,doi:10.1007/s13238-018-0568-x(2018))。为了确定进化的脱氨酶是否也提高了带有非NGG PAM的目标位点的编辑效率,我们创建了ABE8编辑器,用工程化的S.py替换了化脓性链球菌Cas9。变体,NG-Cas9(PAM:NG)(Nishimasu,H.等人,Engineered CRISPR-Cas9nuclease with expanded targeting space.Science(2018))或金黄色葡萄球菌Cas9(SaCas9,PAM:NNGRRT)(Ran,F.A.等人,In vivo genome editing using Staphylococcusaureus Cas9.Nature 520,186-191,doi:10.1038/nature14299(2015))。当将SpCas9-NG(NG-ABE8.xm/d)和SaCas9(Sa-ABE8.xm)的ABE8变体与ABE7.10进行比较时,观察到AT到GC编辑频率的中位数增加分别为1.6倍和2.0倍/d)(图8A、8B、和图17至20)。S类似于SpCas9至ABE8,在位于编辑窗口中首选位置(化脓性链球菌:位置4至8;金黄色葡萄球菌:位置6至13;另见Rees,H.A.&Liu,D.R.,Base editing:precision chemistry on the genome andtranscriptome of living cells.Nat Rev Genet 19,770-788,doi:10.1038/s41576-018-0059-1(2018))。利用非NGG PAM的ABE8直向同源物拓宽了高效A碱基编辑的靶向范围。
对于需要最小化插入缺失形成的应用,用催化“死亡”版本的Cas9(D10A+H840A)替换催化受损的Cas9 D10A切口酶突变体的效果(参见Jinek,M.等人,A programmable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.Science 337,816-821,doi:10.1126/science.1225829(2012))在核心8个ABE8结构中进行了探索(“dC9-ABE8.x-m/d”)。通过在ABE中用死亡的Cas9替换切口酶,观察到dC9-ABE8变体相对于ABE7.10的插入缺失频率降低了>90%,同时保持了更高(2.1倍)的在靶DNA编辑效率(图8C,21A和21B,22A和22B,23A至23D)。尽管观察到高于背景的插入缺失,但在测试站点的频率范围为0.3-0.8%。与经典ABE8相比,dC9-ABE8变体的靶向DNA编辑效率中位数降低了14%。
在目标位点上的另一类不需要的ABE介导的基因组编辑可以是ABE依赖性胞嘧啶到尿嘧啶(C·G到T·A)的转换(参见Grunewald,J.等人,CRISPR DNA base editors withreduced RNA off-target and self-editing activities.Nat Biotechnol 37,1041-1048,doi:10.1038/s41587-019-0236-6(2019);Lee,C.等人,CRISPR-Pass:Gene Rescueof Nonsense Mutations Using Adenine Base Editors.Mol Ther 27,1364-1371,doi:10.1016/j.ymthe.2019.05.013(2019)).在测试的8个靶位点,C-至-T编辑的第95个百分位测量为ABE8变异的0.45%和ABE7.10-d或-m的0.15%,表明可能发生ABE的靶向胞嘧啶脱氨基但频率通常非常低(图24)。因此,ABE8s保留了A到G转换的高度特异性。
实施例4:通过ABE8构建体进行的DNA在靶编辑和sgRNA依赖性DNA脱靶编辑提高对DNA的特异性
与所有碱基编辑器一样,ABE8s有可能作用于基因组和转录组中的脱靶位点(参见例如,Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNAwithout DNA cleavage.Nature551,464-471,doi:10.1038/nature24644(2017);Komor,A.C.,等人,Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage.Nature 533,420-424,doi:10.1038/nature17946(2016);Grunewald,J.等人CRISPR DNA base editors with reduced RNA off-targetand self-editing activities.Nat Biotechnol 37,1041-1048,doi:10.1038/s41587-019-0236-6(2019);Rees,H.A.,等人,Analysis and minimization of cellular RNAediting by DNA adenine base editors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019);Rees,H.A.等人,Improving the DNA specificity andapplicability of base editing through protein engineering and proteindelivery.Nat Commun 8,15790,doi:10.1038/ncomms15790(2017);Jin,S.等人,Cytosine,but not adenine,base editors induce genome-wide off-target mutationsin rice.Science 364,292-295,doi:10.1126/science.aaw7166(2019);Zuo,E.等人,Cytosine base editor generates substantial off-target single-nucleotidevariants in mouse embryos.Science 364,289-292,doi:10.1126/science.aav9973(2019);Lee,H.K.,等人,Cytosine but not adenine base editor generates mutationsin mice.Biorxiv,doi:https://doi.org/10.1101/731927(2019);Grunewald,J.等人,Transcriptome-wide off-target RNA editing induced by CRISPR-guided DNA baseeditors.Nature 569,433-437,doi:10.1038/s41586-019-1161-z(2019);Zhou,C.等人,Off-target RNA mutation induced by DNA base editing and its elimination bymutagenesis.Nature 571,275-278,doi:10.1038/s41586-019-1314-0(2019)).
在四个目标上进行基础编辑(图25A和25B)和12个先前在基因组DNA中鉴定的sgRNA相关脱靶位点(Tsai,S.Q.等人,GUIDE-seq enables genome-wide profiling ofoff-target cleavage by CRISPR-Cas nucleases.Nat Biotechnol 33,187-197,doi:10.1038/nbt.3117(2015))(图25E和25F)被测量,所有这些都被证实是HEK293T细胞中真正的Cas9脱靶基因座(图26)。正如从它们在目标基因座上增加的活性所预期的那样,ABE8构建体的DNA脱靶编辑频率比ABE7.10高3-6倍。虽然这是使用ABE8构建体的警告,但仔细选择和分析sgRNA可以大大减少sgRNA依赖的脱靶编辑(参见Tsai,S.Q.等人,GUIDE-seqenables genome-wide profiling of off-target cleavage by CRISPR-Casnucleases.Nat Biotechnol 33,187-197,doi:10.1038/nbt.3117(2015);Yeh,W.H.,等人,In vivo base editing of post-mitotic sensory cells.Nat Commun 9,2184,doi:10.1038/s41467-018-04580-3(2018)).对于需要使用混杂sgRNA的应用,安装DNA和RNA特异性增强V106W突变(Rees,H.A.,Wilson,C.,Doman,J.L.&Liu,D.R.Analysis andminimization of cellular RNA editing by DNA adenine base editors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019))到ABE8.17m的TadA结构域可以将DNA脱靶编辑减少2.6倍,同时保持超过ABE7.10的靶向编辑水平(图25C,25D,25G和25H)。
为了测量ABE8s的不依赖于sgRNA的脱靶活性,在用ABEs处理的HEK293T细胞中进行了细胞RNA的靶向扩增和高通量测序(参见Gaudelli,N.M.等人,Programmable baseediting of A*T to G*Cin genomic DNA without DNA cleavage.Nature 551,464-471,doi:10.1038/nature24644(2017);Rees,H.A.,等人,Analysis and minimization ofcellular RNA editing by DNA adenine base editors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019)).在该测定中,与ABE7.10相比,ABE8s显示出高2.3-5.3倍的细胞RNA腺苷脱氨的平均频率(图25A)。
通过整合先前发表的突变(Grunewald,J.等人,CRISPR DNA base editors withreduced RNA off-target and self-editing activities.Nat Biotechnol 37,1041-1048,doi:10.1038/s41587-019-0236-6(2019);Rees,H.A.,等人,Analysis andminimization of cellular RNA editing by DNA adenine base editors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019);Grunewald,J.等人,Transcriptome-wideoff-target RNA editing induced by CRISPR-guided DNA base editors.Nature 569,433-437,doi:10.1038/s41586-019-1161-z(2019);Zhou,C.等人,Off-target RNAmutation induced by DNA base editing and its elimination bymutagenesis.Nature 571,275-278,doi:10.1038/s41586-019-1314-0(2019)),旨在减轻ABE7.10的虚假细胞RNA脱氨基,进入ABE8。这些突变被整合到ABE8.17-m的脱氨酶的TadA部分。所有安装的RNA脱靶突变都不同程度地降低了ABE8.17-m的在靶编辑频率,V106W和F148A对ABE8的损害最小(图25C和25D)。其中,只有V106W能够显著降低脱靶RNA和DNA编辑的水平(图25B)。因此,将V106W突变包含到ABE8中可以实现高目标编辑效率,减少DNA和RNA脱靶脱氨事件,适用于必须避免细胞转录组瞬时扰动的情况,或用于混杂的sgRNA。
为了全面评估与ABE8s相关的脱靶编辑,通过靶向三个脱靶位点对ABE7和ABE8s中的脱靶编辑进行了比较(图55A和55B),和12个先前在基因组DNA中具有高sgRNA相关Cas9脱靶活性的基因座(参见Tsai,S.Q.等人,GUIDE-seq enables genome-wide profiling ofoff-target cleavage by CRISPR-Cas nucleases.Nat Biotechnol33,187-197,doi:10.1038/nbt.3117(2015);图55C和55D),和在HEK293T细胞中(图61)。尽管基因组编辑剂的质粒传递广泛用于碱基编辑研究目的,但mRNA传递对于编辑原代人类细胞更有效(Hendel,A.等人,Chemically modified guide RNAs enhance CRISPR-Cas genome editing inhuman primary cells.Nat Biotechnol 33,985-989,doi:10.1038/nbt.3290(2015)),碱基编辑器的传递方法是其脱靶情况的关键决定因素(Rees,H.A.等人,Improving the DNAspecificity and applicability of base editing through protein engineering andprotein delivery.Nat Commun 8,15790,doi:10.1038/ncomms15790(2017))。因此,对质粒或mRNA递送的影响进行了靶内和靶外活性测试。ABE7和ABE8s的靶向效率在ABE的质粒和mRNA递送之间具有可比性,尽管mRNA与质粒过表达相比具有更短暂的寿命。值得注意的是,ABEs向细胞的mRNA递送导致编辑效率的提高(图55B)与质粒递送相比(图55A),特别是当目标腺嘌呤碱基位于编辑窗口的中心(位置5或6)时。
当质粒过表达用作碱基编辑器的递送方式时,ABE8构建体表现出比ABE7.10高3至6倍的sgRNA依赖性DNA脱靶编辑频率(图55C)。值得注意的是,当使用mRNA递送ABE时,与ABE8构建体相关的指导依赖性DNA脱靶编辑平均减少1.5倍(对于ABE7.10-d)和2.2倍(对于ABE8.20-m,相对于ABE7.10-d的最严重修改的ABE8)。值得注意的是,与非重复性sgRNAHEK2和HEK3相关的脱靶碱基编辑活动从质粒递送的14%以上降低到mRNA递送的0.4%以下(图55C和55D)。因此,对于需要高DNA编辑特异性、mRNA递送、sgRNA的谨慎选择的治疗和其他应用(Tsai,S.Q.等人,GUIDE-seq enables genome-wide profiling of off-targetcleavage by CRISPR-Cas nucleases.Nat Biotechnol 33,187-197,doi:10.1038/nbt.3117(2015);Yeh,W.H.,等人,In vivo base editing of post-mitotic sensorycells.Nat Commun 9,2184,doi:10.1038/s41467-018-04580-3(2018)),考虑将V106W包含在TadA中以显著降低DNA脱靶编辑频率,有利于非重复性sgRNA HEK2和HEK3的阴性对照(图55E)。
接下来,测量了与ABE8相关的细胞mRNA的假脱氨水平。为了以高通量方式生成所有感兴趣构建体的数据,我们开始对用ABE处理的HEK293T细胞中的两个细胞RNA进行靶向扩增和高通量测序。与以前的出版物一致(Grunewald,J.等人,CRISPR DNA base editorswith reduced RNA off-target and self-editing activities.Nat Biotechnol 37,1041-1048,doi:10.1038/s41587-019-0236-6(2019);Rees,H.A.,等人,Analysis andminimization of cellular RNA editing by DNA adenine base editors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019);Grunewald,J.等人,Transcriptome-wideoff-target RNA editing induced by CRISPR-guided DNA base editors.Nature 569,433-437,doi:10.1038/s41586-019-1161-z(2019);Zhou,C.等人,Off-target RNAmutation induced by DNA base editing and its elimination bymutagenesis.Nature 571,275-278,doi:10.1038/s41586-019-1314-0(2019)),当通过质粒过表达递送时,用ABE7处理,并且在更大程度上,ABE8导致细胞RNA中可检测到的A-至-I脱氨基(图55E)。然而,当作为mRNA构建体递送时,mRNA脱氨基的水平平均显著降低了34倍(在ABE7.10-d的情况下)至134倍(ABE8.17-m)(图55E),表明mRNA递送可以有效降低细胞RNA编辑的频率。
实施例5:用于治疗血液病的腺嘌呤碱基编辑器
在人类造血干细胞(HSC)中评估了ABE8构建体。在作为细胞疗法给予患者之前,对HSC进行离体操作和/或编辑是治疗血液病的一种很有前景的方法。之前已经证明ABE可以在HBG1/2启动子区域的-198位置引入T到C的取代(Gaudelli,N.M.等人,Programmablebase editing of A*T to G*C in genomic DNA without DNA cleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))。这种自然发生的等位基因产生遗传性胎儿血红蛋白持续性(HPFH),导致进入成年期的γ-珠蛋白水平增加,这可以减轻镰状细胞病和β-地中海贫血症中的β-珠蛋白缺陷(Wienert,B.等人,KLF1drives the expression offetal hemoglobin in British HPFH.Blood130,803-807,doi:10.1182/blood-2017-02-767400(2017))。为了再现HPFH表型和评估ABE8的临床相关性,从两个供体中分离出CD34+造血干细胞,并用编码ABE8编辑器的mRNA和末端修饰的sgRNA转染,将目标A置于原型间隔子的第7位。
-198HBG1/2启动子靶标位点的平均ABE8编辑效率在早期时间点(48小时)比任一ABE7.10构建体高2-3倍,在后期比任一ABE7.10高1.3-2倍(144h)(图27B,图28A和28B,图29A和29B)。这些动力学差异对于离体疗法在临床上很重要,在这种疗法中,在给予细胞疗法之前必须将细胞培养保持在最低限度。
接下来,通过UPLC对ABE处理和红细胞分化后产生的γ-珠蛋白的量进行量化(图30-50)。与模拟处理的细胞相比,观察到来自ABE8处理组的红细胞中%γ-珠蛋白/α-珠蛋白表达的平均增加3.5倍,而当将ABE8.13-d与用ABE7.10-m/d达到的水平进行比较时,观察到约1.4倍的增加。(图27C)。至少需要约≥20%的HbF表达细胞来改善镰状细胞病的症状,并且β地中海贫血患者可能需要更高的最低水平(参见例如,Canver,M.C.&Orkin,S.H.Customizing the genome as therapy for the beta-hemoglobinopathies.Blood127,2536-2545,doi:10.1182/blood-2016-01-678128(2016);Fitzhugh,C.D.等人,Atleast 20%donor myeloid chimerism is necessary to reverse the sicklephenotype after allogeneic HSCT.Blood 130,1946-1948,doi:10.1182/blood-2017-03-772392(2017))。ABE8编辑后观察到的γ-globin水平与高于这些阈值且高于ABE7.10达到的水平的HbF水平一致。
总体而言,ABE8s在γ-珠蛋白基因HBG1和HBG2的启动子处重建了胎儿血红蛋白(HPFH)等位基因的天然遗传持久性(见图27A),在人类CD34+细胞培养物中实现高达60%的编辑效率,并在分化的红细胞中相应地上调γ珠蛋白表达。
实施例6:用于治疗镰状细胞病和β地中海贫血的互补碱基编辑方法
镰状细胞病(SCD)和β地中海贫血是β珠蛋白产生和功能障碍,可导致严重贫血和多种器官系统的严重疾病并发症。通过胎儿血红蛋白(HbF)上调或校正β珠蛋白基因改造的造血干细胞的自体移植有可能减轻β血红蛋白病患者的疾病负担。碱基编辑是最近开发的一项技术,可以在不引入双链DNA断裂的情况下精确修改基因组。
用胞嘧啶和腺嘌呤碱基编辑器(ABE)对γ珠蛋白基因启动子进行了全面筛选,以识别会去抑制HbF的改变。确定了三个显著上调HbF的区域,最有效的核苷酸残基转换得到了遗传性胎儿血红蛋白(HPFH)持久性患者的自然变异的支持。在HBG1和HBG2启动子内的关键调控基序的核苷酸转换后,ABE已被开发出来,可显著增加HbF的水平。CD34+造血干细胞和祖细胞(HSPC)在临床规模上进行纯化,并使用旨在保持自我更新能力的过程进行编辑。在具有不同ABE的两个独立站点上的编辑达到94%,并通过UPLC产生高达63%的γ珠蛋白(图51A至51E)。根据HPFH的临床观察和将较高的HbF剂量与较轻的疾病联系起来的非干预治疗,观察到的HbF水平应该为大多数SCD和β地中海贫血患者提供保护(Ngo等人,2011BritJ Hem;Musallam等人,2012Blood)。
直接纠正SCD的Glu6Val突变一直是为SCD人群设计的基因疗法的近期目标。当前的碱基编辑技术还不能转换像镰状β珠蛋白中的A-T颠换导致的突变;然而,ABE变体已被设计为识别和编辑缬氨酸的相反链腺嘌呤残基。这导致缬氨酸转化为丙氨酸,并产生一种称为Hb G-Makassar的天然变异体。在该位置具有丙氨酸的β珠蛋白无助于聚合物形成,并且Hb G-望加锡患者的血液学参数和红细胞形态正常。用这些ABE变体编辑的SCD患者成纤维细胞可实现高达70%的靶标腺嘌呤转化(图52A)。然后使用先导ABE变体编辑来自健康供体的CD34细胞,针对位于编辑窗口内的相邻脯氨酸中的同义突变,并作为编辑SCD突变的代理。平均编辑频率为40%(图52B)。在同种异体移植环境中记录的这些水平的供体骨髓嵌合现象超过了逆转镰状表型所需的20%(Fitzhugh等人,2017Blood)。
实施例7:全基因组测序
进行全基因组测序(WGS)(图56)评估ABE8s可能以独立于sgRNA的方式(此处称为“虚假脱氨基”)诱导全基因组点突变的程度,如先前报道的CBE,但不是ABE7.10或Cas9(Jin,S.等人Cytosine,but not adenine,base editors induce genome-wide off-target mutations in rice.Science 364,292-295,doi:10.1126/science.aaw 7166(2019);Zuo,E.等人,Cytosine base editor generates substantial off-targetsingle-nucleotide variants in mouse embryos.Science 364,289-292,doi:10.1126/science.aav9973(2019);Lee,H.K.等人,Cytosine base editor4but not adenine baseeditor generates off-target mutations in mouse embryos.Commun Biol 3,19,doi:10.1038/s42003-019-0745-3(2020);McGrath,E.等人,Targeting specificity ofAPOBEC-based cytosine base editor in human iPSCs determined by whole genomesequencing.Nat Commun 10,5353,doi:10.1038/s41467-019-13342-8(2019)).因此,HEK293T细胞用碱基编辑器编码的mRNA和靶向B2M的sgRNA(位点21)转染(图56)。孵育72小时后,使用荧光激活细胞分选(FACS)分离已成功碱基编辑的B2M阴性单细胞(图56)。单个分选的细胞被单独克隆扩增以产生足够的基因组DNA来执行基于Illumina的全基因组测序。所有处理过的样品都被确认在目标B2M基因座上进行了双等位基因编辑,表明接收到活性碱基编辑器或Cas9。
与先前在胚胎注射小鼠实验中ABE7.10-d处理的动物的结果一致(Jin,S.等人,Cytosine,but not adenine,base editors induce genome-wide off-target mutationsin rice.Science 364,292-295,doi:10.1126/science.aaw7166(2019);Zuo,E.等人,Cytosine base editor generates substantial off-target single-nucleotidevariants in mouse embryos.Science 364,289-292,doi:10.1126/science.aav9973(2019);Lee,H.K.等人,Cytosine base editor 4but not adenine base editorgenerates off-target mutations in mouse embryos.Commun Biol 3,19,doi:10.1038/s42003-019-0745-3(2020);McGrath,E.等人,Targeting specificity of APOBEC-basedcytosine base editor in human iPSCs determined by whole genome sequencing.NatCommun 10,5353,doi:10.1038/s41467-019-13342-8(2019)),在用ABE7.10-d治疗后,在全基因组A-至-G突变中未发现可检测到的增加(P值=0.911,单侧Wilcoxon-Mann-Whitney U检验,表16)(图57和图58)。同时,与未处理的对照相比,在BE4处理的样本中发现C-至-T突变有统计学意义的增加(P值=0.010,单侧Wilcoxon-Mann-Whitney U检验,表16),与之前的报告一致(Jin,S.等人,Cytosine,but not adenine,base editors induce genome-wide off-target mutations in rice.Science 364,292-295,doi:10.1126/science.aaw7166(2019);Zuo,E.等人,Cytosine base editor generates substantialoff-target single-nucleotide variants in mouse embryos.Science 364,289-292,doi:10.1126/science.aav9973(2019);Lee,H.K.等人,Cytosine base editor 4but notadenine base editor generates off-target mutations in mouse embryos.CommunBiol 3,19,doi:10.1038/s42003-019-0745-3(2020);McGrath,E.等人,Targetingspecificity of APOBEC-based cytosine base editor in human iPSCs determined bywhole genome sequencing.Nat Commun 10,5353,doi:10.1038/s41467-019-13342-8(2019))。与未经处理的样本相比,ABE8.17-m、ABE8.20-m或Cas9组的A->G%突变率未观察到统计学显著增加(P值分别为0.375、0.643和0.27,单侧Wilcoxon-Mann-Whitney U检验,图57,图58,表16)。然而,大多数治疗组中的个体样本表现出明显更高或更低的A-至-G或C-至-T突变相对率,包括Cas9治疗组中A-至-G突变率升高的样本。
为了从ABE7.10-d、ABE8.20-m、ABE8.17-m、Cas9和BE4处理的细胞中生成全基因组测序数据,对五个(BE4、Cas9、未处理、ABE7.10-d和ABE8.20-m)或六个(ABE8.17-m)单细胞HEK293T细胞克隆,基因组覆盖率>20X。如实施例8中所述,每个样品的突变谱是相对于一个无处理样品(称为背景对照)计算的,并显示在图57以及相对突变的绝对数量(表17)。
为了确定碱基编辑器处理是否导致可检测水平的非引导假DNA脱氨基,使用高度转化的细胞系HEK293T,假设染色质可及性程度高。因此,该系统用于比较突变的相对率,而不是依赖绝对数字作为真实突变率的反映。在这些实验中,计算了每个样品是否显示出统计学显著性(Fisher’s Exact Test,图58)C-至-T突变相对于背景对照(在BE4的情况下)或A-至-G(在ABE和Cas9处理的样品的情况下)的增加或减少。与之前一致(参见例如,Rees,H.A.,Wilson,C.,Doman,J.L.&Liu,D.R.Analysis and minimization of cellular RNAediting by DNA adenine base editors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019);Grunewald,J.等人,Transcriptome-wide off-target RNAediting induced by CRISPR-guided DNA base editors.Nature 569,433-437,doi:10.1038/s41586-019-1161-z(2019);Grunewald,J.等人,CRISPR DNA base editors withreduced RNA off-target and self-editing activities.Nat Biotechnol 37,1041-1048,doi:10.1038/s41587-019-0236-6(2019);Zhou,C.等人,Off-target RNA mutationinduced by DNA base editing and its elimination by mutagenesis.Nature 571,275-278,doi:10.1038/s41586-019-1314-0(2019)),该分析证实,5/5BE4克隆显示出全基因组C-至-T突变的显著增加(以**表示,图57),0/5ABE7.10-d、0/4未处理、1/6ABE8.17-m、2/5ABE8.20-m和1/5Cas9处理的克隆显示A-至-G突变(以**表示,图57)。与背景对照相比,Cas9处理的A-至-G突变数量增加的样品与其余序列样品相比,检测到的突变数量(9,532)大大增加;剩下的29个样本在3,043-6,056之间。1/5ABE8.20-m处理的克隆显示出显著减少(以*表示,图57)全基因组A-至-G突变的频率。连同Cas9处理的样本显示A-至-G突变在统计上显著增加,这两个意想不到的数据点表明细胞之间可能存在变异性,这可能是由初始组内预先存在的遗传变异引起的用mRNA转染的HEK293T细胞。出于这个原因,数据被表示为中位数而不是平均值,以减轻数据集中可能的异常值的影响。
所采用的方案(见实施例8)适合不使用从单细胞克隆生长的HEK293T细胞(见McGrath,E.等人,Targeting specificity of APOBEC-based cytosine base editor inhuman iPSCs determined by whole genome sequencing.Nat Commun 10,5353,doi:10.1038/s41467-019-13342-8(2019));相反,使用从ATCC获得的HEK293T细胞样品并在转染前培养约4周。
使用Mann-Whitney U检验对处理组之间胞嘧啶或腺嘌呤残基的脱氨基频率差异的统计显著性进行分析(表16)。唯一具有此类显著编辑的组(相对于未处理的对照组)是BE4处理组,其显示C:G-至-T:A(或G:C-to-A:T)相对于未处理对照的突变。该测定表明,此处测试的ABE碱基编辑器不会在与BE4相当的水平上引起基因组中的假脱氨作用。然而,细胞异质性或其他一些实验限制可能会导致假阳性或阴性结果。
总体而言,这些结果表明用ABE7或ABE8处理不会导致突变率显著升高,如对CBE,例如BE3和BE4所观察到的。这些发现进一步表征了ABE的DNA特异性,并鼓励将其用作研究工具和治疗应用。
表16:P值来自于进行全基因组测序的治疗组之间相对胞嘧啶和腺嘌呤脱氨诱导的突变频率之间的比较
Figure BDA0003302413480004611
表17:在每个全基因组测序样本中检测到的突变总数,相对于未处理的对照
Figure BDA0003302413480004612
Figure BDA0003302413480004621
实施例8:材料和方法
一般方法:
所有克隆均通过USER酶(New England Biolabs)克隆方法进行(参见Geu-Flores等人,USER fusion:a rapid and efficient method for simultaneous fusion andcloning of multiple PCR products.Nucleic Acids Res 35,e55,doi:10.1093/nar/gkm106(2007))用于PCR扩增的模板是购买的,其作为细菌或哺乳动物密码子优化的基因片段(GeneArt)。创建的载体被转化到Mach T1R感受态细胞(Thermo Fisher Scientific)并保持在-80℃以进行长期储存。本工作中使用的所有引物均购自Integrated DNATechnologies,并使用Phusion U DNA Polymerase Green MultiPlex PCR Master Mix(ThermoFisher)或Q5 Hot Start High-Fidelity 2x Master Mix(New England Biolabs)进行PCRS。本工作中使用的所有质粒均使用ZymoPURE Plasmid Midiprep(Zymo ResearchCorporation)从50mL的Mach1培养物中新鲜制备,其中涉及内毒素去除程序。分子生物学级Hyclone水(GE Healthcare Life Sciences)用于所有分析、转染和PCR反应,以确保排除DNAse活性。
用于Hek293T哺乳动物细胞转染的sgRNA的氨基酸序列在下表18中提供。20-nt目标原型间隔子以粗体显示。当目标DNA序列不以“G”开头时,会在引物的5'端添加一个“G”,因为已经确定人类U6启动子在转录起始位点更喜欢“G”(参见Cong,L.等人,Multiplexgenome engineering using CRISPR/Cas systems.Science 339,819-823,doi:10.1126/science.1231143(2013))。前面描述的pFYF sgRNA质粒用作PCR扩增的模板。
表18:用于Hek293T哺乳动物细胞转染的sgRNA序列。
Figure BDA0003302413480004641
sgRNA支架序列如下:
化脓链球菌:
GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC
金黄色葡萄球菌:
GUUUUAGUACUCUGUAAUGAAAAUUACAGAAUCUACUAAAACAAGGCAAAAUGCCGUGUUUAUCUCGUCAACUUGUUGGCGAGA
生成用于定向进化的输入细菌TadA*文库
TadA*8.0文库旨在编码TadA*7.10开放阅读框中每个氨基酸位置的所有20个氨基酸(Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNAwithout DNA cleavage.Nature551,464-471,doi:10.1038/nature24644(2017)).每个TadA*8.0文库成员包含大约1-2个新的编码突变,是化学合成的,购自Ranomics Inc(Toronto,Canada)。TadA*8.0文库使用Phusion UGreen MultiPlex PCR Master Mix进行PCR扩增,并由用户组装成针对ABE定向进化优化的细菌载体(Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNA without DNAcleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))。
TadaA变体的细菌进化
如前所述进行包含TadA*8文库的ABE的定向进化(Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNA without DNAcleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))有以下变化:i)大肠杆菌10β(New England Biolabs)被用作进化宿主;ii)卡那霉素的存活依赖于三种基因失活成分的校正(例如,存活需要逆转卡那霉素中的两个终止突变和一个活性位点突变)。卡那霉素抗性基因序列(以下)包含ABE8进化的选择突变。在10个β宿主细胞中将选择质粒和编辑器共培养过夜后,将文库培养物铺在2xYT琼脂培养基上,该培养基补充有质粒维持抗生素和增加浓度的选择抗生素卡那霉素(64-512g/mL)。让细菌生长1天,富集后对存活克隆的TadA*8部分进行Sanger测序。然后通过USER组装将经鉴定的感兴趣的TadA*8突变整合到哺乳动物表达载体中。
在以下序列中,小写字母表示卡那霉素抗性启动子区域,粗体序列表示靶向失活部分(Q4*和W15*),斜体序列表示卡那霉素抗性基因(D208N)靶向失活位点,底线序列表示PAM序列。
灭活的卡那霉素抗性基因:
Figure BDA0003302413480004661
一般HEK293T和RPMI-8226哺乳动物细胞培养条件
细胞在37℃、5%CO2条件下培养。HEK293T细胞[CLBTx013,American Type CellCulture Collection(ATCC)]在Dulbecco改良的Eagles培养基加Glutamax(10566-016,Thermo Fisher Scientific)和10%(v/v)胎牛血清(A31606-02,Thermo FisherScientific)中培养。RPMI-8226(CCL-155,ATCC)细胞在含有10%(v/v)胎牛血清(Gibco)的RPMI-1640培养基(Gibco)中培养。从供应商处收到后,细胞被检测为支原体阴性。
Hek293T质粒转染和gDNA提取
HEK293T细胞以35,000个细胞/孔的密度接种到48孔聚-D-赖氨酸处理的BioCoat板(Corning)上,并在铺板后18-24小时进行转染。使用NucleoCounter NC-200(Chemometec)对细胞进行计数。向这些细胞中加入750ng碱基编辑器或核酸酶对照、250ngsgRNA和10ng GFP-max质粒(Lonza),在Opti-MEM减少血清培养基(ThermoFisherScientific)中稀释至12.5μL总体积。将该溶液与11μL Opti-MEM减少血清培养基中的1.5μL Lipofectamine2000(ThermoFisher)混合,并在室温下静置15分钟。然后将整个25L混合物转移到预先接种的Hek293T细胞中并孵育约120小时。孵育后,吸出培养基并用250μL 1xPBS溶液(ThermoFisher Scientific)洗涤细胞两次,并加入100μL新鲜制备的裂解缓冲液(100mM Tris-HCl,pH 7.0,0.05%SDS,25μg/mL蛋白酶K(Thermo Fisher Scientific)。含有裂解缓冲液的转染板在37℃下孵育1小时,然后将混合物转移到96孔PCR板中,在80℃下加热30分钟。
Hek293T mRNA脂质转染
在脂质转染前16至20小时,将HEK293T细胞以每孔30,000个细胞的密度接种在不含抗生素的DMEM+Glutamax培养基(Thermo Fisher Scientific)中的48孔聚D-赖氨酸涂层板(Corning)上。500ng Cas9或碱基编辑器表达mRNA与100ng化学修饰的合成sgRNA(前三个5'和最后三个3'末端RNA残基处的2'-O-甲基类似物和3'硫代磷酸酯键,Synthego)组合成含OPTIMEM+Glutamax的总体积为15μl。将其与10μl脂质混合物组合,每孔包含1.0μlLipofectamine MessengerMax和9.0μl OPTIMEM+Glutamax。转染后3天收获细胞,收获DNA或RNA并如下所述进行加工。
用于全基因组测序的HEK293T细胞处理,包括基因组DNA的制备和编辑细胞的克隆分离
细胞用碱基编辑器或编码Cas9的mRNA结合靶向B2M中某个区域的sgRNA进行脂质转染,当ABE、CBE或Cas9成功靶向B2M时会导致B2M(sgRNA靶标序列:5’-CTTACCCCACTTAACTATCT-3’,Synthego)(Qasim,W.等人,Molecular remission of infantB-ALL after infusion of universal TALEN gene-edited CAR T cells.Sci TranslMed 9,doi:10.1126/scitranslmed.aaj2013(2017))通过剪接位点破坏(ABE、Cas9)或终止密码子(CBE)的掺入,如本文所述。转染后24小时,将细胞以3:8的比例分成新的平板以促进细胞生长。转染后三天,用TryplE Express(ThermoFisher)收获HEK293T细胞,用FACS缓冲液(PBS,1%BSA,两者都是ThermoFisher)洗涤1次,并在4℃下冷却15分钟。然后将细胞沉淀(1500*g,5分钟)并重新悬浮在具有1:100稀释的PE抗人B2-微球蛋白(Biolegend316306)的FACS缓冲液溶液中。将细胞在4℃下避光孵育30分钟。然后通过离心(1500×g,5分钟)用FACS缓冲液洗涤细胞3次并重悬于FACS缓冲液中。将单个B2M阴性细胞分选到96孔板中,未处理的细胞除外,其中B2M阳性细胞分选到96孔板中。代表性的FACS图显示在图59A和59B。分选后9天,检查孔,标记含有单菌落的孔并用TryplE Express处理以促进细胞生长。在额外生长四天后,根据制造商的说明,使用Agincourt DNAdvance试剂盒(Beckmann Coulter)从细胞中收获基因组DNA。
根据制造商的说明,使用Nextera DNA Flex Library Prep Kit(Illumina)使用96孔板Nextera索引引物(Illumina)对基因组DNA进行片段化和接头连接。文库大小和浓度由片段分析仪(Agilent)确认,并发送到Nogene使用Illumina HiSeq进行全基因组测序。
全转录组和全基因组测序数据分析
通过执行四个一般步骤来分析所有靶标NGS数据:(1)对齐,(2)重复标记,(3)变异调用(4)变异的背景过滤以去除伪影和种系突变。下面描述每个步骤。突变参考和替代等位基因是相对于参考基因组的正链报告的。
全转录组分析详情
1.使用STAR(v2.7.2a)将跑道水平FASTQ文件分别与人类基因组(GencodeGRCh38v31初级组装)对齐,参数设置为指定ReadGroup,并输出基因组对齐的BAM文件和转录组对齐的BAM文件。
2.合并步骤(1)中创建的每个样本的跑道水平基因组比对,按坐标排序,并使用Picard(v2.20.5)标记重复。
3.Cigar串中包含Ns的读取,因为它们跨越剪接点使用GATK(v4.1.3.0)SplitNCigarReads进行拆分。
4.使用默认设置的Picard重新校准碱基质量分数。
5.使用GATK HaplotypeCaller调用变体。仅考虑映射质量≥30的读数,并将非参考碱基计数的最低碱基质量(Phred分数)设置为20。使用了RNA-seq中变异调用的标准设置:最低碱基质量=20,最低映射质量=30,d不使用软剪切碱基,标准呼叫配置(call-conf)=20。
6.使用背景过滤识别碱基编辑器处理的样品私有的突变。覆盖率最高的“未处理”样本用作背景样本。只考虑了规范染色体上的替换。如果突变满足以下标准,则突变被视为基础编辑器处理样本时私有的:
a.突变的基因组位置在处理样本中覆盖≥30个读数,在未处理样本中覆盖≥20个读数。
b.未经处理的样本有≥99%的读数支持突变位置的参考、非突变、碱基
c.处理样品中突变的变异等位基因频率≥20%。
全基因组测序分析详情
1.使用BWA(0.7.17-r1188)mem将跑道水平FASTQ文件分别与人类基因组(GencodeGRCh38v31初级组装)对齐,参数设置为指定ReadGroup。该-M标志也被设置为标记短路分裂命中次要对齐。
2.合并步骤(1)中创建的每个样本的跑道水平基因组比对,按坐标排序,并使用Picard(v2.20.5)使用默认设置标记重复。
3.使用GATK(v4.1.3.0)HaplotypeCaller调用变体。仅考虑映射质量≥30的读数,并将非参考碱基计数的最低碱基质量(Phred分数)设置为20。使用了DNA-seq中变异调用的标准设置。
4.使用背景过滤识别碱基编辑器处理的样品私有的突变。覆盖率最高的“未处理”样本用作背景样本。只考虑了规范染色体上的替换。如果突变满足以下标准,则突变被视为基础编辑器处理样本时私有的:
a.处理和未处理样本中突变的基因组位置覆盖≥10个读数。
b.未经处理的样本有≥99%的读数支持突变位置的参考、非突变、碱基
分析ABE架构和ABE8构建体的DNA和RNA脱靶编辑
在脂质转染前16至20小时,将HEK293T细胞以每孔30,000个细胞的密度接种在不含抗生素的DMEM+Glutamax培养基(Thermo Fisher Scientific)中的48孔聚D-赖氨酸涂层板(Corning)上。750ng切口酶或碱基编辑器表达质粒DNA与250ng sgRNA表达质粒DNA混合在15μl OPTIMEM+Glutamax中。将其与10μl脂质混合物组合,每孔包含1.5μlLipofectamine 2000和8.5μlOPTIMEM+Glutamax。转染后3天收获细胞并收获DNA或RNA。对于DNA分析,将细胞在1X PBS中洗涤一次,然后根据制造商的说明在100μl QuickExtractTMBuffer(Lucigen)中裂解。对于RNA收获,根据制造商的说明,将MagMAXTM mirVanaTM TotalRNA Isolation Kit(Thermo Fisher Scientific)与KingFisherTM Flex纯化系统一起使用。
靶向RNA测序主要按照之前的描述进行(见Rees,H.A.等人,Analysis andminimization of cellular RNA editing by DNA adenine base editors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019))。根据制造商的说明,使用SuperScriptIV一步法RT-PCR系统和EZDNase(Thermo Fisher Scientific)从分离的RNA中制备cDNA。使用了以下程序:58℃12分钟;98℃2分钟;随后是因扩增子而异的PCR循环:对于CTNNB1和IP90:[98C 10秒;32个循环;60C 10秒;72C 30秒]和RSL1D1 35个循环[98C 10秒;58C 10秒;72C 30秒]。没有与样品同时运行RT对照。在组合的RT-PCR之后,使用本文所述的Illumina Miseq对扩增子进行条形码化和测序。每个扩增子中的第一个125nt,从每个扩增子中正向引物末端后的第一个碱基开始,与参考序列比对,用于分析每个扩增子中的平均和最大A-至-I频率(图53A至53C)。
使用以前发表的引物进行脱靶DNA测序(见Komor,A.C.等人,Programmableediting of a target base in genomic DNA without double-stranded DNAcleavage.Nature 533,420-424,doi:10.1038/nature17946(2016);Rees,H.A.等人,Analysis and minimization of cellular RNA editing by DNA adenine baseeditors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019)),使用两步PCR和条形码方法制备用于使用本文所述的Illumina Miseq测序仪测序的样品,如下表19中所列。
表19:用于扩增基因组位点的HTS引物
Figure BDA0003302413480004701
Figure BDA0003302413480004711
Figure BDA0003302413480004721
Figure BDA0003302413480004731
Figure BDA0003302413480004741
CD34+细胞中使用的ABE编辑器的mRNA生产
编辑器被克隆到编码dT7启动子的质粒中,然后是5'UTR、Kozak序列、ORF和3'UTR。dT7启动子在T7启动子内携带一个失活点突变,可防止从环状质粒转录。该质粒以PCR反应(Q5 Hot Start 2XMaster Mix)为模板,其中正向引物校正T7启动子内的SNP,反向引物将120A尾部附加到3'UTR。所得PCR产物在Zymo Research 25μg DCC柱上纯化,并用作后续体外转录中的mRNA模板。按照说明手册使用NEB HiScribe High-Yield试剂盒,但用N1-甲基-假尿苷完全取代尿苷,并用CleanCap AG(Trilink)进行共转录加帽。通过氯化锂沉淀进行反应净化。用于扩增的引物见表20。Cas9 mRNA购自Trilink(CleanCap Cas9 mRNA 5moU)。
表20:用于ABE8 T7体外转录反应的引物
Figure BDA0003302413480004751
CD34+细胞制备
获得动员的外周血并富集人CD34+HSPC(HemaCare,M001F-GCSF/MOZ-2)。在电穿孔前48小时,将CD34+细胞解冻并放入含有1%Glutamax(Gibco)、100ng/mL TPO(Peprotech)、SCF(Peprotech)和Flt-3(Peprotech)的X-VIVO 10(Lonza)中。
CD34+细胞的电穿孔
解冻后48小时,将细胞离心以去除X-VIVO 10培养基,并在含有0.1%HSA(AkronBiotechnologies)的MaxCyte缓冲液(HyClone)中洗涤。然后将细胞以每毫升1,250,000个细胞的浓度重新悬浮在冷的MaxCyte缓冲液中,并分成多个20μL等分试样。然后根据实验条件将ABE mRNA(0.15μM)和-198HBG1/2sgRNA(4.05μM)等分,并在MaxCyte缓冲液中升至5μL。表21中提供sgRNA的序列。将20μL细胞以3组为一组添加到5μL RNA混合物中,并装入OC25x3MaxCyte比色皿的每个室中进行电穿孔。接收电荷后,从腔室中收集25μL并放置在24孔未处理培养板的孔中心。细胞在培养箱(37℃,5%CO2)中恢复20分钟。20分钟恢复后,将含有1%Glutamax、100ng/mL TPO、SCF和Flt-3的X-VIVO 10添加到细胞中,浓度为1,000,000个细胞/mL。然后将细胞留在培养箱(37℃,5%CO2)中进一步恢复48小时。
表21:用于CD34+转染的sgRNA序列
Figure BDA0003302413480004752
Figure BDA0003302413480004761
a,c,g,u:2'-O-甲基残基
s:硫代磷酸酯
sgRNA支架序列:
化脓链球菌:
5’-GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3’
ABE电穿孔后的红细胞分化
电穿孔后静置48小时(培养第0天)后,将细胞离心并移至含有5%人血清、330μg/mL转铁蛋白(Sigma)、10μg/mL人胰岛素的“第1阶段”IMDM培养基(ATCC)(Sigma)、2U/mL肝素钠(Sigma)、3U/mL EPO(Peprotech)、100ng/mL SCF(Peprotech)、5μg/mL IL3和50μM氢化可的松(Sigma),每毫升20,000个细胞。在培养的第4天,将细胞喂入4倍体积的相同培养基。在第7天,将细胞离心并移至“第2阶段”IMDM培养基中,该培养基含有5%人血清(Sigma)、330μg/mL转铁蛋白、10μg/mL人胰岛素、2U/mL肝素钠、3U/mL EPO和100ng/mL SCF为200,000个细胞/mL。在第11天,将细胞离心并移至含有5%人血清、330μg/mL转铁蛋白、10μg/mL人胰岛素、2U/mL肝素钠和3U/mL EPO的“第3阶段”IMDM培养基中,1,000,000个细胞每毫升。在第14天,将细胞离心并重新悬浮在与第11天相同但每毫升5,000,000个细胞的培养基中。在第18天,将分化的红细胞收集成500,000个细胞等分试样,在500μL DPBS(Gibco)中洗涤一次,并在UHPLC处理前在-80℃下冷冻24小时。
用于UHPLC分析的红细胞样品的制备
冷冻的红细胞沉淀在室温下解冻。使用ACK裂解缓冲液将颗粒稀释至5x104细胞/μL的最终浓度。用移液管混合样品并在室温下孵育5分钟。然后将样品在-80℃下冷冻5分钟,使其解冻,并在以6,700g离心10分钟之前通过移液器混合。小心去除上清液(不干扰细胞碎片沉淀),转移到新板中并在超纯水中稀释至5x103个细胞/μL,用于UHPLC分析。
超高效液相色谱(UHPLC)分析
在配备二元泵和UV检测器(Thermo Fisher Scientific,Vanquish Horizon)的UHPLC系统上进行珠蛋白链的反相分离。固定相由ACQUITY Peptide BEH C18色谱柱(2.1x150mm,1.7μm珠子,300A孔)和AQUITY Peptide BEH C18 VanGuard预柱(2.1x5mm,1.7μm珠子,300A孔)(两种Waters Corp),柱温为60℃。使用0.1%三氟乙酸(TFA)水溶液(A)和0.08%TFA乙腈(B)溶液以0.25mL/min的流速进行洗脱。珠蛋白链的分离是在0-10分钟内使用40-52%B的线性梯度实现的;52-40%B从10-10.5分钟;40%B到12分钟。进样量为10μL,在整个分析过程中收集波长为220nm、数据速率为5Hz的紫外光谱。通过血红蛋白标准品的LC/MS分析确认了珠蛋白链的身份。
CD34+细胞的基因组DNA提取
ABE电穿孔后(48小时后),将等份细胞培养在X-VIVO 10培养基(Lonza)中,该培养基含有1%Glutamax(Gibco)、100ng/mL TPO(Peprotech)、SCF(Peprotech)和Flt-3(Peprotech))。培养后48小时和144小时后,收集100,000个细胞并离心。将50μL QuickExtract(Lucigen)添加到细胞沉淀中,并将细胞混合物转移到96孔PCR板(Bio-Rad)中。裂解物在65℃下加热15分钟,然后在98℃下加热10分钟。细胞裂解物储存在-20℃。
基因组DNA样本的下一代测序(NGS)
基因组DNA样本被扩增并准备用于高通量测序(参见Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNA without DNAcleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))。将1μL gDNA添加到包含Phusion U Green Multiplex PCR Master Mix和每个正向和反向引物0.5μM的25μLPCR反应中。扩增后,使用独特的Illumina条形码引物对对PCR产物进行条形码标记。条形码反应包含0.5μM的每个illumina正向和反向引物、2μL含有扩增的目标基因组位点的PCR混合物和Q5热启动高保真2x预混液,总体积为25μL。所有PCR条件按照以前发表过(见Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNA without DNAcleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))。用于位点特异性哺乳动物细胞基因组DNA扩增的引物列于表19。使用NanoDrop 1000分光光度计(ThermoFisherScientific)量化DNA浓度,并根据制造商的方案在Illumina MiSeq仪器上测序。
靶向NGS数据分析
通过执行四个一般步骤来分析所有靶向NGS数据:(1)Illumina多路分解,(2)读取修剪和过滤,(3)将所有读取与预期的扩增子序列对齐,以及(4)生成对齐统计数据和量化编辑率。下面更详细地描述每个步骤:
1.为了从MiSeq生成的碱基检出文件(BCF)生成FASTQ文件,通过使用以下参数运行Illumina bcl2fastq(v2.20.0.422)来执行多路分解:
bcl2fastq\
--忽略-消失-bcls\
--忽略-消失-过滤\
--忽略-消失-位置\
--忽略-消失-对照\
--自动-设定-至-零-条形码-错配\
--寻找-适配器-具有-滑动窗\
--适配器-严格性0.9\
--遮蔽-短-适配器-读数35\
--最小-修整过的-读数-长度\
2.在步骤(1)中创建的FASTQ文件使用trimmomatic(v0.39)14处理,参数设置为剪辑Illumina TruSeq适配器,排除短于20个碱基的读数,如果平均碱基质量,则修剪剩余的读数的3'末端(Phred分数)在4bp滑动窗口中降至15以下。此外,在读取结束时质量得分为3或更低的任何碱基都被删除。最后,由于第1轮PCR引物在读取1引物序列之后包含四个随机碱基,因此修剪了每个读取的前四个碱基。用于执行修剪(trimmomatic)的命令如下所示:
trimmomatic SE-phred33$input_fastq$output_fastq\
ILLUMINACLIP:illumine_adapters.fa:2:30:10\
LEADING:3TRAILING:3\
SLIDINGWINDOW:4:15\
MINLEN:20\
HEADCROP:4
3.使用bowtie2(v2.35)15,在端到端模式下,使用--verysensitive标志指定的对齐参数将读取与扩增子序列对齐。参考序列被确定为基于人类基因组(GRCh38)的每个引物对的预期扩增子序列(包括引物)。bowtie2创建的SAM文件被转换为BAM文件,使用samtools包(v1.9)16进行排序和索引。仅考虑具有至少5,000个对齐读数的样本进行分析。
4.使用bam-readcounts工具(https://github.com/genome/bam-readcount)处理步骤(3)中创建的BAM文件以生成纯文本文件,汇总非参考碱基、删除和插入的数量对齐中的每个位置。计数非参考碱基的最低碱基质量(Phred分数)设置为29,以便从有关编辑率的统计数据中排除低置信度碱基调用。只有插入和/或删除与碱基编辑器目标位点(定义为其原型间隔子+PAM序列)重叠的读取才计入插入和删除率。靶标位点中每个位置的编辑率计算为给定类型(例如G)的非参考碱基与在比对中给定位置通过碱基质量阈值的碱基总数的比例。
在使用相同计算分析方法进行的额外分析中,由ABE7和ABE8在不同基因座处产生的单倍型显示在图60。
其他实施例
从前面的描述中,很明显可以对这里描述的本发明进行变化和修改以将其用于各种用途和条件。这样的实施例也在所附权利要求的范围内。
在本文中对变量的任何定义中的元素列表的叙述包括将该变量定义为任何单个元素或所列元素的组合(或子组合)。此处对实施例的叙述包括作为任何单个实施例或与任何其他实施例或其部分组合的实施例。
本说明书中提及的所有出版物、专利和专利申请均在此以引用方式并入本文,其程度就如同每个单独的出版物、专利或专利申请被具体地和单独地指示为以引用方式并入一样。除非另有说明,本说明书中提及的出版物、专利和专利申请通过引用整体并入本文。
以下编号的附加实施方案涵盖本公开内容的方法和组合物在本文中被设想:
1.一种腺苷脱氨酶,包含:在SEQ ID NO:2的氨基酸位置82或166包含修饰,或在另一种腺苷脱氨酶中的相应修饰,其中腺苷脱氨酶的氨基酸序列与SEQ ID NO:2具有至少85%的序列同一性。
2.根据实施例1所述的腺苷脱氨酶,其中所述腺苷脱氨酶使脱氧核糖核酸(DNA)序列的核碱基脱氨基。
3.根据实施例1或2中任一项所述的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列与SEQ ID NO:2具有至少90%的序列同一性。
4.根据实施例1或2中任一项所述的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列与SEQ ID NO:2具有至少95%的序列同一性。
5.根据实施例1或2中任一所述的腺苷脱氨酶,其中所述腺苷脱氨酶的氨基酸序列与SEQ ID NO:2具有至少99%的序列同一性。
6.根据实施例1至5中任一项所述的腺苷脱氨酶,其中所述氨基酸序列在SEQ IDNo:2的氨基酸位置82包含修饰,或在另一种腺苷脱氨酶中的相应修饰。
7.根据实施例1至5中任一所述的腺苷脱氨酶,其中所述氨基酸序列在SEQ ID No:2的氨基酸位置166包含修饰,或在另一种腺苷脱氨酶中的相应修饰。
8.根据实施例1至5中任一项所述的腺苷脱氨酶,其中所述氨基酸序列在SEQ IDNo:2的氨基酸位置82和166包含修饰,或在另一种腺苷脱氨酶中的相应修饰。
9.根据实施例1至5中任一项所述的腺苷脱氨酶,其中所述氨基酸序列包含V82S修饰,其中位置82如在SEQ ID No:2中编号。
10.根据实施例1至5中任一项所述的腺苷脱氨酶,其中所述氨基酸序列包含V82X修饰,其中位置82如在SEQ ID No:2中编号,其中X是除V之外的任何氨基酸。
11.根据实施例1至5中任一项所述的腺苷脱氨酶,其中所述氨基酸序列包含T166R修饰,其中位置166如在SEQ ID No:2中编号。
12.根据实施例1至5中任一项所述的腺苷脱氨酶,其中所述氨基酸序列包含T166X修饰,其中位置166如在SEQ ID No:2中编号,其中X是除T之外的任何氨基酸。
13.根据实施例1至5中任一项所述的腺苷脱氨酶,其中所述氨基酸序列包含V82S和T166R修饰,其中位置82和166如在SEQ ID No:2中编号。
14.根据实施例1至13中任一项所述的腺苷脱氨酶,其中所述氨基酸序列进一步包含在选自由以下组成的组中的位置处的一个或多个修饰:76、82、123、147、154和166,如在SEQ ID No:2中编号。
15.根据实施例1至14中任一项所述的腺苷脱氨酶,其中所述氨基酸序列进一步包含选自由以下组成的组中的一个或多个修饰:V82S、Y147T、Y147R、Q154S、Y123H、Q154R和T166R,如在SEQ ID No:2中编号。
16.根据实施例1至15中任一项所述的腺苷脱氨酶,其中所述氨基酸序列进一步包含进一步包含选自由以下组成的组的修饰的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。
17.根据实施例1至16中任一项所述的腺苷脱氨酶,其中所述氨基酸序列进一步包含选自由149、150、151、152、153、154、155、156和157组成的群组中的残基开始的C末端的缺失,如在SEQ ID No:2中编号。
18.根据实施例1至17中任一项所述的腺苷脱氨酶,其中所述腺苷脱氨酶与多核苷酸可编程核苷酸结合结构域形成复合物。
19.根据实施例1至18中任一项所述的腺苷脱氨酶,其中所述腺苷脱氨酶在靶标脱氧核糖核酸中实现A-至-G修饰。
20.根据实施例18或19中任一项所述的腺苷脱氨酶,其中所述复合物比包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的蛋白质复合物包含更高的碱基编辑效率。
21.根据实施例18至20中任一项所述的腺苷脱氨酶,其中所述复合物包含至少50%碱基编辑效率。
22.根据实施例18至21中任一项所述的腺苷脱氨酶,其中所述复合物包含至少70%碱基编辑效率。
23.根据实施例18至21中任一项所述的腺苷脱氨酶,其中所述复合物比包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的蛋白质复合物包含至少5倍高的碱基编辑效率。
24.根据实施例20至23中任一项所述的腺苷脱氨酶,其中所述碱基编辑效率由包含受腺苷脱氨酶影响的靶标核碱基修饰的总测序读数的百分比确定。
25.根据实施例18至24中任一项所述的腺苷脱氨酶,其中所述复合物比包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的蛋白质复合物包含较低的插入缺失形成率。
26.根据实施例18至25中任一项所述的腺苷脱氨酶,其中所述复合物复合物导致靶标多核苷酸中的插入缺失形成少于包含多核苷酸可编程核苷酸结合结构域和SEQ IDNO:2的腺苷脱氨酶的蛋白质复合物的10%。
27.根据实施例18至26中任一项所述的腺苷脱氨酶,其中所述复合物导致细胞基因组中少于10%的插入缺失。
28.根据实施例25至27中任一项所述的腺苷脱氨酶,其中所述插入缺失的形成是通过位于靶标核碱基修饰侧翼的序列与未修饰序列之间的错配频率来测量的。
29.根据实施例18至28中任一项所述的腺苷脱氨酶,其中所述复合物比包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的蛋白质复合物包含对靶标核碱基的更高特异性。
30.根据实施例18至29中任一项所述的腺苷脱氨酶,其中所述复合物比包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的蛋白质复合物导致更低的脱靶脱氨基。
31.根据实施例30所述的腺苷脱氨酶,其中所述脱靶脱氨包含假核碱基的脱氨基。
32.根据实施例30所述的腺苷脱氨酶,其中所述脱靶脱氨包含旁观者核碱基的脱氨基。
33.根据实施例18至32中任一项所述的腺苷脱氨酶,其中所述复合物比包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的蛋白质复合物包含更大的碱基编辑范围。
34.根据实施例18至33中任一项所述的腺苷脱氨酶,其中所述复合物包含:与包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的蛋白质复合物相比,在规范PAM序列上游5、6或7个碱基对的靶标核碱基处的碱基编辑效率至少高1.5倍。
35.根据实施例18至34中任一项所述的腺苷脱氨酶,其中所述复合物包含:与包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的蛋白质复合物相比,在规范PAM序列上游3、4、8、9或10个碱基对的靶标核碱基处的碱基编辑效率至少高3倍。
36.根据实施例1至35中任一项所述的腺苷脱氨酶,其中所述多核苷酸可编程核苷酸结合蛋白是Cas9多肽或其片段。
37.根据实施例36所述的腺苷脱氨酶,其中所述Cas9多肽是Cas9切口酶(nCas9)。
38.根据实施例36所述的腺苷脱氨酶,其中所述Cas9多肽是核酸酶死亡Cas9(dCas9)。
39.根据实施例36至38中任一项所述的腺苷脱氨酶,其中所述Cas9多肽包含SpCas9多肽。
40.根据实施例39所述的腺苷脱氨酶,其中所述SpCas9多肽包含D10A和/或H840A氨基酸取代。
41.根据实施例36至40中任一项所述的腺苷脱氨酶,其中所述Cas9多肽包含SaCas9多肽。
42.根据实施例36至41中任一项所述的腺苷脱氨酶,其中所述Cas9多肽对改变的PAM具有特异性。
43.根据实施例36至42中任一项所述的腺苷脱氨酶,其中所述Cas9多肽对选自由NGG、NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN和NGC组成的组的PAM序列具有特异性,其中N是A、G、C或T并且其中R是A或G。
44.一种融合多肽,包含:
a)多核苷酸可编程核苷酸结合结构域;
b)一种包含氨基酸序列的腺苷脱氨酶,所述氨基酸序列在如SEQ ID NO:2编号的氨基酸位置82或166处包含修饰,或在另一种腺苷脱氨酶中的相应修饰,其中腺苷脱氨酶的氨基酸序列与SEQ ID NO:2具有至少85%的序列同一性。
45.一种融合多肽,其中所述融合多肽包含:
a)多核苷酸可编程核苷酸结合结构域;和
b)腺苷脱氨酶;
其中所述融合多肽包含比包含所述多核苷酸可编程核苷酸结合结构域和SEQ IDNO:2的腺苷脱氨酶的第二融合多肽更高的碱基编辑效率。
46.根据实施例45所述的融合多肽,其中所述融合多肽包含至少50%碱基编辑效率。
47.根据实施例45所述的融合多肽,其中所述融合多肽包含至少70%碱基编辑效率。
48.根据实施例45所述的融合多肽,其中所述融合多肽比包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的蛋白质复合物包含至少5倍高的碱基编辑效率。
49.根据实施例45至48中任一项所述的融合多肽,其中所述碱基编辑效率由包含受腺苷脱氨酶影响的靶标核碱基修饰的总测序读数的百分比确定。
50.一种插入缺失形成率降低的融合多肽,其中所述融合多肽包含:
a)多核苷酸可编程核苷酸结合结构域;和
b)腺苷脱氨酶,
其中与包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的第二融合多肽相比,所述融合多肽导致靶标多核苷酸序列中较低的插入缺失形成。
51.根据实施例50所述的融合多肽,与包含SEQ ID NO:2的多核苷酸可编程核苷酸结合结构域和腺苷脱氨酶的第二融合多肽相比,所述融合多肽导致靶多核苷酸序列中少于5%的插入缺失形成。
52.根据实施例44至51中任一项所述的融合多肽,其中所述融合多肽导致细胞基因组中少于10%的插入缺失。
53.根据实施例51至52中任一项所述的融合多肽,其中所述插入缺失的形成是通过位于靶标核碱基修饰侧翼的序列与未修饰序列之间的错配频率来测量的。
54.一种更具特异性的融合多肽,其中所述融合多肽包含:
a)多核苷酸可编程核苷酸结合结构域;和
b)腺苷脱氨酶,
其中所述融合多肽比包含所述多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的融合多肽对靶标核碱基具有更高的特异性。
55.一种融合多肽,其中所述融合多肽包含:
a)多核苷酸可编程核苷酸结合结构域;和
b)腺苷脱氨酶,其中所述融合多肽比包含所述多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的融合多肽导致更低的脱靶脱氨基。
56.根据实施例55所述的融合多肽,其中所述脱靶脱氨基包含假核碱基的脱氨基。
57.根据实施例55所述的融合多肽,其中所述脱靶脱氨基包含旁观者核碱基的脱氨基。
58.一种融合多肽,其中所述融合多肽包含:
a)多核苷酸可编程核苷酸结合结构域;和
b)腺苷脱氨酶,其中所述融合多肽包含比包含所述多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的融合多肽更大的碱基编辑范围。
59.根据实施例58所述的融合多肽,其中所述融合多肽包含:与包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的融合多肽相比,在规范PAM序列上游5、6或7个碱基对的靶标核碱基处的碱基编辑效率至少高1.5倍。
60.根据实施例58或59中任一项所述的融合多肽,其中所述融合多肽包含:与包含多核苷酸可编程核苷酸结合结构域和SEQ ID NO:2的腺苷脱氨酶的融合多肽相比,在非规范PAM序列上游3、4、8、9或10个碱基对的靶标核碱基处的碱基编辑效率至少高3倍。
61.根据实施例44至60所述的融合多肽,其中所述腺苷脱氨酶使脱氧核糖核酸(DNA)序列的核碱基脱氨基。
62.根据实施例44至61中任一项所述的融合多肽,其中所述腺苷脱氨酶的氨基酸序列与SEQ ID NO:2具有至少90%的序列同一性。
63.根据实施例44至61中任一项所述的融合多肽,其中所述腺苷脱氨酶的氨基酸序列与SEQ ID NO:2具有至少95%的序列同一性。
64.根据实施例44至61中任一项所述的融合多肽,其中所述腺苷脱氨酶的氨基酸序列与SEQ ID NO:2具有至少99%的序列同一性。
65.根据实施例44至64中任一项所述的融合多肽,其中所述氨基酸序列在SEQ IDNo:2的氨基酸位置82包含修饰,或在另一种腺苷脱氨酶中的相应修饰。
66.根据实施例44至64中任一项所述的融合多肽,其中所述氨基酸序列在SEQ IDNo:2的氨基酸位置166包含修饰,或在另一种腺苷脱氨酶中的相应修饰。
67.根据实施例44至64中任一项所述的融合多肽,其中所述氨基酸序列在SEQ IDNo:2的氨基酸位置82和166包含修饰,或在另一种腺苷脱氨酶中的相应修饰。
68.根据实施例44至64中任一项所述的融合多肽,其中所述氨基酸序列包含V82S修饰,其中位置82如在SEQ ID No:2中编号。
69.根据实施例44至64中任一项所述的融合多肽,其中所述氨基酸序列包含V82X修饰,其中位置82如在SEQ ID No:2中编号。,其中X是除V之外的任何氨基酸。
70.根据实施例44至64中任一项所述的融合多肽,其中所述氨基酸序列包含T166R修饰,其中位置166如在SEQ ID No:2中编号。
71.根据实施例44至64中任一项所述的融合多肽,其中所述氨基酸序列包含T166X修饰,其中位置166如在SEQ ID No:2中编号。,其中X是除T之外的任何氨基酸。
72.根据实施例44至64中任一项所述的腺苷脱氨酶,其中所述氨基酸序列包含V82S和T166R修饰,其中位置82和166如在SEQ ID No:2中编号。
73.根据实施例44至71中任一项所述的融合多肽,其中所述氨基酸序列进一步包含在选自由以下组成的组中的位置处的一个或多个修饰:76、82、123、147、154和166,如在SEQ ID No:2中编号。
74.根据实施例44至73中任一项所述的融合多肽,其中所述氨基酸序列进一步包含选自由以下组成的组中的一个或多个修饰:V82S、Y147T、Y147R、Q154S、Y123H、Q154R和T166R,如在SEQ ID No:2中编号。
75.根据实施例44至74中任一项所述的融合多肽,其中所述氨基酸序列进一步包含选自由以下组成的组的修饰的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。
76.根据实施例44至75中任一项所述的融合多肽,其中所述氨基酸序列进一步包含选自由149、150、151、152、153、154、155、156和157组成的群组中的残基开始的C末端的缺失,如在SEQ ID No:2中编号。
77.根据实施例44至76中任一项所述的融合多肽,其中所述腺苷脱氨酶在靶标脱氧核糖核酸中实现A-至-G修饰。
78.根据实施例44至77中任一项所述的融合多肽,其中所述多核苷酸可编程DNA结合结构域不包含实质性的核酸酶活性。
79.根据实施例44至78中任一项所述的融合多肽,其中所述多核苷酸可编程DNA结合结构域包含无催化活性的Cas9(dCas9)。
80.根据实施例79所述的融合多肽,其中所述融合多肽的插入缺失形成频率低于包含切口酶Cas9和腺苷脱氨酶的融合多肽。
81.根据实施例80所述的融合多肽,其中所述插入缺失形成频率比包含切口酶Cas9和腺苷脱氨酶的融合多肽低至少约90%。
82.根据实施例44至81中任一项所述的融合多肽,其中所述融合多肽包含结构:
NH2-[多核苷酸可编程核苷酸结合蛋白的N末端片段]-[腺苷脱氨酶]-[多核苷酸可编程核苷酸结合蛋白的C末端片段]-COOH,其中“]-[”的每个实例是可选的接头。
83.根据实施例44至82中任一项所述的融合多肽,其中所述多核苷酸可编程核苷酸结合蛋白是Cas9多肽。
84.根据实施例83所述的融合多肽,其中所述N末端片段的C末端或C末端片段的N末端包含Cas9的柔性环的一部分。
85.根据实施例83或84所述的融合多肽,其中所述Cas9多肽是Cas9切口酶(nCas9)。
86.根据实施例83或84所述的融合多肽,其中所述Cas9多肽是核酸酶死亡Cas9(dCas9)。
87.根据实施例83至86中任一项所述的融合多肽,其中所述Cas9多肽包含SpCas9多肽。
88.根据实施例87所述的融合多肽,其中所述SpCas9多肽包含D10A和/或H840A氨基酸取代。
89.根据实施例83至88中任一项所述的融合多肽,其中所述Cas9多肽包含SaCas9多肽。
90.根据实施例83至89中任一项所述的融合多肽,其中所述Cas9多肽对改变的PAM具有特异性。
91.根据实施例83至90中任一项所述的融合多肽,其中所述Cas9多肽对选自由NGG、NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN和NGC组成的组的PAM序列具有特异性,其中N是A、G、C或T并且其中R是A或G。
92.一种腺苷脱氨酶二聚体,包含:
a)包含实施例1至43中任一项所述的腺苷脱氨酶的第一腺苷脱氨酶单体;和
b)第二腺苷脱氨酶单体。
93.根据实施例92所述的腺苷脱氨酶二聚体,其中所述腺苷脱氨酶二聚体包含SEQID NO:2氨基酸序列。
94.根据实施例92或93所述的腺苷脱氨酶二聚体,其中所述第二腺苷脱氨酶单体包含野生型腺苷脱氨酶的氨基酸序列。
95.根据实施例92至94中任一项所述的腺苷脱氨酶二聚体,其中所述所述第二腺苷脱氨酶单体包含氨基酸序列在SEQ ID No:2的氨基酸位置82和166包含A修饰,或在另一种腺苷脱氨酶单体中的相应修饰。
96.根据实施例92至95中任一项所述的腺苷脱氨酶二聚体,其中所述所述第二腺苷脱氨酶单体包含与所述第一腺苷脱氨酶单体的氨基酸序列相同的氨基酸序列。
97.一种碱基编辑器系统,包含:
a)多核苷酸可编程核苷酸结合结构域;和
b)实施例1至43中任一项所述的腺苷脱氨酶。
98.一种编辑靶标多核苷酸序列中靶标核碱基的方法,该方法包含:使靶标多核苷酸序列与实施例1至43中任一项所述的腺苷脱氨酶接触,其中所述腺苷脱氨酶使靶标多核苷酸序列中的靶标核碱基脱氨,从而编辑靶标多核苷酸序列中的靶标核碱基。
99.一种编辑靶标多核苷酸序列中靶标核碱基的方法,该方法包含:使靶标多核苷酸序列与实施例44至91中任一项所述的融合多肽接触,其中所述腺苷脱氨酶使靶标多核苷酸序列中的靶标核碱基脱氨,从而编辑靶标多核苷酸序列中的靶标核碱基。
100.一种编辑靶标多核苷酸序列中靶标核碱基的方法,该方法包含:使靶标多核苷酸序列与实施例97所述的碱基编辑系统接触,其中腺苷脱氨酶使靶标多核苷酸序列中的靶标核碱基脱氨,从而编辑靶标多核苷酸序列中的靶标核碱基。
101.一种治疗有需要的受试者的病症的方法,该方法包括:使受试者的靶标多核苷酸序列与实施例1至43中任一项所述的腺苷脱氨酶接触,其中所述腺苷脱氨酶使所述靶标多核苷酸序列中的靶标核碱基脱氨,从而治疗受试者的疾病。
102.一种治疗有需要的受试者的病症的方法,该方法包括:使受试者的靶标多核苷酸序列与实施例44至91中任一项所述的融合多肽接触,其中所述腺苷脱氨酶使所述靶标多核苷酸序列中的靶标核碱基脱氨基,从而治疗受试者的疾病。
103.一种治疗有需要的受试者的病症的方法,该方法包括:将受试者的靶标多核苷酸序列与实施例97所述的碱基编辑器系统接触,其中所述腺苷脱氨酶使所述靶标多核苷酸序列中的靶标核碱基脱氨基,从而治疗受试者的病症。
104.根据实施例101至103中任一项所述的方法,其中所述病症是由点突变引起的。
105.根据实施例104所述的方法,其中所述点突变是G到A点突变。
106.根据实施例105所述的方法,其中所述靶标核碱基是突变的A碱基。
107.根据实施例106所述的方法,其中所述突变A碱基的脱氨基产生与疾病无关的序列。
108.根据实施例98至107中任一项所述的方法,其中所述靶标核碱基的脱氨基导致靶标多核苷酸编码的氨基酸密码子的改变。
109.根据实施例98至107中任一项所述的方法,其中所述脱氨基导致引入剪接位点。
110.根据实施例98至107中任一项所述的方法,其中所述脱氨基导致剪接位点的去除。
111.根据实施例98至107中任一项所述的方法,其中所述脱氨基导致终止密码子的去除。
112.根据实施例98至107中任一项所述的方法,其中所述脱氨基导致在基因启动子序列中引入修饰。
113.根据实施例112所述的方法,其中所述修饰导致与基因启动子序列可操作连接的基因的转录增加。
114.根据实施例112所述的方法,其中所述修饰导致与基因启动子序列可操作连接的基因的转录减少。
115.根据实施例98至107中任一项所述的方法,其中所述脱氨基导致在基因阻遏序列中引入修饰。
116.根据实施例115所述的方法,其中所述修饰导致与基因阻遏序列可操作连接的基因的转录增加。
117.根据实施例115所述的方法,其中所述修饰导致与基因阻遏序列可操作连接的基因的转录减少。
118.根据实施例98至117中任一项所述的方法,其中所述接触发生在体内。
119.根据实施例98至117中任一项所述的方法,其中所述接触发生在离体。
120.根据实施例98至117中任一项所述的方法,其中所述接触是在细胞中。
121.根据实施例120所述的方法,其中所述方法导致细胞基因组中少于15%的插入缺失。
122.根据实施例120所述的方法,其中所述方法导致细胞基因组中少于5%的插入缺失。
123.根据实施例120所述的方法,其中所述方法导致细胞基因组中少于2%的插入缺失。
124.如权利要求120至123中任一项所述的方法,其中所述细胞是哺乳动物细胞或人类细胞。
125.根据实施例98至117中任一项所述的方法,其中所述接触是在一群细胞中。
126.根据实施例125所述的方法,其中至少40%的细胞群在接触后包含脱氨基的靶标核碱基。
127.根据实施例125所述的方法,其中至少50%的细胞群在接触后包含脱氨基的靶标核碱基。
128.根据实施例125所述的方法,其中至少60%的细胞群在接触后包含脱氨基的靶标核碱基。
129.根据实施例125至128中任一项所述的方法,其中至少85%的细胞群在接触后是有活力的。
130.根据实施例125至129中任一项所述的方法,其中所述细胞群是哺乳动物细胞或人类细胞。
131.根据实施例98至130中任一项所述的方法,其中所述腺苷脱氨酶在靶标脱氧核糖核酸中实现A-至-G修饰。
132.根据实施例98至131中任一项所述的方法,其中所述方法导致比使用SEQ IDNO:2的腺苷脱氨酶的方法更高的碱基编辑效率。
133.根据实施例98至132中任一项所述的方法,其中所述方法导致碱基编辑效率比使用SEQ ID NO:2的腺苷脱氨酶的方法至少高五倍。
134.根据实施例98至133中任一项所述的方法,其中所述方法导致至少50%的碱基编辑效率。
135.根据实施例98至133中任一项所述的方法,其中所述方法导致至少70%的碱基编辑效率。
136.根据实施例98至135中任一项所述的方法,其中所述方法导致比使用SEQ IDNO:2的腺苷脱氨酶的方法更低的插入缺失形成率。
137.根据实施例98至135中任一项所述的方法,其中所述方法比使用SEQ ID NO:2的腺苷脱氨酶的方法对靶标核碱基产生更大的特异性。
138.根据实施例98至135中任一项所述的方法,其中所述方法导致比使用SEQ IDNO:2的腺苷脱氨酶的方法更低的脱靶脱氨基。
139.根据实施例99至138中任一项所述的方法,进一步包含将靶标多核苷酸序列与引导多核苷酸接触,其中所述引导多核苷酸指导所述融合多肽实现靶标核碱基的脱氨基。
140.根据实施例139所述的方法,其中所述引导多核苷酸包含与靶标多核苷酸序列杂交的核酸序列。

Claims (134)

1.一种融合蛋白,其包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,所述碱基编辑器结构域包含包括在MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSST的氨基酸位置82和/或166的改变的腺苷脱氨酶变体。
2.根据权利要求1所述的融合蛋白,其中所述腺苷脱氨酶变体包含在氨基酸位置82和166的改变。
3.根据权利要求1或2所述的融合蛋白,其中所述腺苷脱氨酶变体包含V82S改变。
4.根据权利要求1至3中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含T166R改变。
5.根据权利要求1至4中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含V82S和T166R改变。
6.根据权利要求1至5中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体还包含以下一个或多个改变:Y147T、Y147R、Q154S、Y123H和Q154R。
7.根据权利要求1至6中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含选自由以下组成的群组的改變的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。
8.根据权利要求1至6中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含选自由149、150、151、152、153、154、155、156和157所组成群组中的残基开始的C末端的缺失。
9.根据权利要求1至8中任一项所述的融合蛋白,其中所述碱基编辑器结构域包含腺苷脱氨酶变体单体。
10.根据权利要求1至9中任一项所述的融合蛋白,其中所述碱基编辑器结构域为ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m或ABE8.24-m。
11.根据权利要求1至8中任一项所述的融合蛋白,其中所述碱基编辑器结构域包含腺苷脱氨酶异二聚体,所述腺苷脱氨酶异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。
12.根据权利要求1至8或11中任一项所述的融合蛋白,其中所述碱基编辑器结构域为ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d。
13.根据权利要求1至8中任一项所述的融合蛋白,其中所述碱基编辑器结构域包含腺苷脱氨酶异二聚体,所述腺苷脱氨酶异二聚体包含TadA7.10结构域和腺苷脱氨酶变体。
14.根据权利要求1至13中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体为TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。
15.根据权利要求1所述的融合蛋白,其中所述腺苷脱氨酶变体包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
16.根据权利要求1至15中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体相对于全长腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。
17.根据权利要求1至16中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体是相对于全长腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基的截短腺苷脱氨酶。
18.根据权利要求1至17中任一项所述的融合蛋白,其中所述多核苷酸可编程DNA结合结构域包含下列序列:
Figure FDA0003302413470000031
Figure FDA0003302413470000041
Figure FDA0003302413470000042
其中粗体序列表示源自Cas9的序列,斜体序列表示接头序列,以及底线序列表示双核定位序列。
19.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含Y147R+Q154R+Y123H。
20.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含Y147R+Q154R+I76Y。
21.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含Y147R+Q154R+T166R。
22.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含Y147T+Q154R。
23.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含Y147T+Q154S。
24.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含Y147R+Q154S。
25.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含V82S+Q154S。
26.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含V82S+Y147R。
27.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含V82S+Q154R。
28.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含V82S+Y123H。
29.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含I76Y+V82S。
30.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含V82S+Y123H+Y147T。
31.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含V82S+Y123H+Y147R。
32.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含V82S+Y123H+Q154R。
33.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含Y123H+Y147R+Q154R+I76Y。
34.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含V82S+Y123H+Y147R+Q154R。
35.根据权利要求1至18中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体包含I76Y+V82S+Y123H+Y147R+Q154R。
36.根据权利要求1至35中任一项所述的融合蛋白,其中所述多核苷酸可编程DNA结合结构域为Cas9。
37.根据权利要求36所述的融合蛋白,其中所述Cas9多肽包含以下氨基酸序列(Cas9参考序列):
Figure FDA0003302413470000061
Figure FDA0003302413470000071
Figure FDA0003302413470000072
(单底线:HNH结构域;双底线:RuvC结构域;(Cas9参考序列),或其相应区域。
38.根据权利要求36所述的融合蛋白,其中所述Cas9是金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、化脓性链球菌Cas9(SpCas9)或其变体。
39.根据权利要求36所述的融合蛋白,其中所述Cas9是具有改变的原间隔相邻基序(PAM)特异性或对非G PAM具有特异性的SpCas9。
40.根据权利要求39所述的融合蛋白,其中所述改变的PAM对核酸序列5'-NGC-3'具有特异性。
41.根据权利要求39或40所述的融合蛋白,其中所述SpCas9包含氨基酸置换D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R或其相应的氨基酸置换。
42.根据权利要求1至41中任一项所述的融合蛋白,其中所述多核苷酸可编程DNA结合结构域是无活性的核酸酶或切口酶变体。
43.根据权利要求42所述的融合蛋白,其中所述切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。
44.根据权利要求1至43中任一项所述的融合蛋白,其中所述碱基编辑器结构域还包含锌指结构域。
45.根据权利要求1至44中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨。
46.根据权利要求1至45中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体为金黄色葡萄球菌TadA、枯草芽孢杆菌TadA、鼠伤寒沙门氏菌TadA、腐败希瓦氏菌TadA、流感嗜血杆菌F3031 TadA、新月柄杆菌(C.crescentus)TadA或硫还原地杆菌TadA,或其片段。
47.根据权利要求1至45中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体是自然界中不存在的腺苷脱氨酶。
48.根据权利要求1至47中任一项所述的融合蛋白,其包含多核苷酸可编程DNA结合结构域和腺苷脱氨酶变体之间的接头。
49.根据权利要求48所述的融合蛋白,其中所述接头包含氨基酸序列:
SGGSSGGSSGSETPGTSESATPES。
50.根据权利要求1至49中任一项所述的融合蛋白,其包含一种或多种核定位信号。
51.根据权利要求50所述的融合蛋白,其中所述核定位信号是二分核定位信号。
52.根据权利要求38所述的融合蛋白,其中所述Cas9是经修饰的SaCas9。
53.根据权利要求51所述的融合蛋白,其中所述经修饰的SaCas9包含氨基酸置换E781K、N967K和R1014H,或其相应的氨基酸置换。
54.根据权利要求51所述的融合蛋白,其中所述经修饰的SaCas9包含氨基酸序列:
KRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG。
55.一种融合蛋白,包含:
腺苷脱氨酶变体结构域,其中所述腺苷脱氨酶变体结构域包含以下氨基酸序列:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSST,或其变体,其中所述氨基酸序列包含至少一个改变,
以及Cas9或Cas12多肽,其中所述腺苷脱氨酶变体结构域插入Cas9或Cas12多肽内。
56.根据权利要求55所述的融合蛋白,其中所述腺苷脱氨酶变体结构域包含在氨基酸位置82和/或166的改变。
57.根据权利要求55或56所述的融合蛋白,其中所述至少一个改变包含:V82S、T166R、Y147T、Y147R、Q154S、Y123H和/或Q154R。
58.根据权利要求55至57中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域还包含以下改变的组合的一者:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。
59.根据权利要求55至58中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域为TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。
60.根据权利要求55至59中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域包含选自由149、150、151、152、153、154、155、156和157所组成群组中的残基开始的C末端的缺失。
61.根据权利要求55至60中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域是包含TadA*8腺苷脱氨酶变体结构域的腺苷脱氨酶单体。
62.根据权利要求55至60中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域是包含野生型腺苷脱氨酶结构域和TadA*8腺苷脱氨酶变体结构域的腺苷脱氨酶异二聚体。
63.根据权利要求55至61中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域是包含TadA结构域和TadA*8腺苷脱氨酶变体结构域的腺苷脱氨酶异二聚体。
64.根据权利要求55至63中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域插入所述Cas9或Cas12多肽的柔性环、α螺旋区、非结构化部分或溶剂可及部分内。
65.根据权利要求64所述的融合蛋白,其中所述柔性环包含所述Cas9或Cas12多肽的α螺旋结构的一部分。
66.根据权利要求55至65中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域的侧翼是Cas9多肽的N末端片段和C末端片段。
67.根据权利要求65所述的融合蛋白,其中所述融合蛋白包含结构:
NH2-[Cas9的N末端片段]-[腺苷脱氨酶变体]-[Cas9的C末端片段]-COOH,
其中“]-[”的每个实例为可选的接头。
68.根据权利要求66或67所述的融合蛋白,其中所述Cas9或Cas12多肽的N末端片段或C末端片段结合靶标多核苷酸序列。
69.根据权利要求66至68中任一项所述的融合蛋白,其中所述N末端片段的C端或C末端片段的N端包含Cas9或Cas12多肽的柔性环的一部分。
70.根据权利要求69所述的融合蛋白,其中当所述融合蛋白使所述靶标核碱基脱氨基时,所述柔性环包含靠近靶标核碱基的氨基酸。
71.根据权利要求68至70中任一项所述的融合蛋白,其中所述靶标核碱基与所述靶标多核苷酸序列中的原间隔相邻基序(PAM)序列相距1至20个核碱基。
72.根据权利要求68至71中任一项所述的融合蛋白,其中所述靶标核碱基是所述PAM序列上游的2至12个核碱基。
73.根据权利要求66至72中任一项所述的融合蛋白,其中:
所述N末端片段或所述C末端片段包含RuvC结构域;
所述N末端片段或所述C末端片段包含HNH结构域;
所述N末端片段或所述C末端片段均不包含HNH结构域;或
所述N末端片段或所述C末端片段均不包含RuvC结构域。
74.根据权利要求66至73中任一项所述的融合蛋白,其中所述Cas9或Cas12多肽在一个或多个结构域中包含部分或完全缺失,并且其中所述腺苷脱氨酶插入在所述Cas9或Cas12多肽的部分或完全缺失处。
75.根据权利要求74所述的融合蛋白,其中:
所述缺失在RuvC结构域内;
所述缺失在HNH结构域内;
所述缺失桥接RuvC结构域和C末端结构域。
76.根据权利要求55至75中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域插入Cas12多肽内。
77.根据权利要求76所述的融合蛋白,其中所述Cas9多肽是化脓性链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或其变体。
78.根据权利要求76或77所述的融合蛋白,其中所述Cas9包含以下氨基酸序列(Cas9参考序列):
Figure FDA0003302413470000131
Figure FDA0003302413470000132
(单底线:HNH结构域;双底线:RuvC结构域;(“Cas9参考序列”),或其相应区域。
79.根据权利要求78所述的融合蛋白,其中:
所述Cas9多肽包含在Cas9多肽参考序列中编号的氨基酸1017至1069或其相应氨基酸的缺失;
所述Cas9多肽包含在Cas9多肽参考序列中编号的氨基酸792至872或其相应氨基酸的缺失;或
所述Cas9多肽包含在Cas9多肽参考序列中编号的氨基酸792至906或其相应氨基酸的缺失。
80.根据权利要求76至79中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域插入Cas9多肽的柔性环内。
81.根据权利要求80所述的融合蛋白,其中所述柔性环包含选自由在Cas9参考序列中编号的位置530至537、569至579、686至691、768至793、943至947、1002至1040、1052至1077、1232至1248和1298至1300的氨基酸残基或其相应的氨基酸位置所组成群组的区域。
82.根据权利要求78至81中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域插入Cas9参考序列中编号的氨基酸位置768至769、791至792、792至793、1015至1016、1022至1023、1026至1027、1029至1030、1040至1041、1052至1053、1054至1055、1067至1068、1068至1069、1247至1248或1248至1249之间或其相应的氨基酸位置。
83.根据权利要求78至82中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域插入Cas9参考序列中编号的氨基酸位置768至769、792至793、1022至1023、1026至1027、1040至1041、1068至1069或1247至1248之间或其相应的氨基酸位置。
84.根据权利要求78至83中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域插入Cas9参考序列中编号的氨基酸位置1016至1017、1023至1024、1029至1030、1040至1041、1069至1070或1247至1248之间或其相应的氨基酸位置。
85.根据权利要求76至84中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域插入所述Cas9多肽在表10A中鉴定的基因座内。
86.根据权利要求78至85中任一项所述的融合蛋白,其中所述N末端片段包含Cas9参考序列的氨基酸残基1至529、538至568、580至685、692至942、948至1001、1026至1051、1078至1231和/或1248至1297或其相应的残基。
87.根据权利要求78至86中任一项所述的融合蛋白,其中所述C末端片段包含Cas9参考序列的1301至1368、1248至1297、1078至1231、1026至1051、948至1001、692至942、580至685和/或538至568的氨基酸残基,或其相应的残基。
88.根据权利要求78至87中任一项所述的融合蛋白,其中所述Cas9多肽是切口酶或其中所述Cas9多肽是无核酸酶活性的。
89.根据权利要求78至88中任一项所述的融合蛋白,其中所述Cas9多肽是经修饰的SpCas9多肽并且对改变的PAM具有特异性或对非G PAM具有特异性。
90.根据权利要求89所述的融合蛋白,其中所述经修饰的SpCas9多肽,其包括氨基酸置换D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)并且对改变的PAM 5'-NGC-3'具有特异性。
91.根据权利要求55至75中任一项所述的方法,其中所述腺苷脱氨酶变体结构域插入Cas12多肽内。
92.根据权利要求91所述的融合蛋白,其中所述Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i。
93.根据权利要求91至92中任一项所述的融合蛋白,其中所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属(Bacillus sp.)V3-13 Cas12b或嗜酸脂环酸芽孢杆菌(Alicyclobacillus acidiphilus)Cas12b具有至少约85%的氨基酸序列同一性。
94.根据权利要求91至93中任一项所述的融合蛋白,其中所述Cas12多肽包含或基本上由以下组成的片段:外村尚芽孢杆菌Cas12b、嗜热淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13Cas12b或嗜酸脂环酸芽孢杆菌Cas12b。
95.根据权利要求91至94中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域插入氨基酸位置之间:
a)BhCas12b的153至154、255至256、306至307、980至981、1019至1020、534至535、604至605或344至345或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基;
b)BvCas12b的147和148、248和249、299和300、991和992或1031和1032或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基;
c)AaCas12b的157和158、258和259、310和311、1008和1009或1044和1045或Cas12a、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基。
96.根据权利要求91至95中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域插入表10B中鉴定的基因座处。
97.根据权利要求91至96中任一项所述的融合蛋白,其中所述Cas12多肽是Cas12b。
98.根据权利要求91至97中任一项所述的融合蛋白,其中所述Cas12多肽包含BhCas12b结构域、BvCas12b结构域或AACas12b结构域。
99.根据权利要求97或98所述的融合蛋白,其中所述Cas9多肽包含使RuvC结构域的催化活性沉默的突变。
100.根据权利要求99所述的融合蛋白,其中所述Cas12b多肽包含D574A、D829A和/或D952A突变。
101.根据权利要求1至100中任一项所述的融合蛋白,其中所述腺苷脱氨酶变体结构域包含金黄色葡萄球菌TadA、枯草芽孢杆菌TadA、鼠伤寒沙门氏菌TadA、腐败希瓦氏菌TadA、流感嗜血杆菌F3031 TadA、新月柄杆菌(C.crescentus)TadA或硫还原地杆菌TadA,或其变体或片段。
102.根据权利要求1至100中任一项所述的融合蛋白,其中所述腺苷脱氨酶是非天然存在的腺苷脱氨酶。
103.根据权利要求1至102中任一项所述的融合蛋白,其中所述融合蛋白还包含胞苷脱氨酶。
104.一种融合蛋白,其包含结构:
NH2-[TadA*8]-[Cas9]-[胞苷脱氨酶]-COOH;或
NH2-[胞苷脱氨酶]-[Cas9]-[TadA*8]-COOH,
其中“]-[”的每个实例都是可选的接头。
105.一种融合蛋白,其包含结构:
NH2-[Cas9(TadA*8)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9]-[Cas9(TadA*8)]-COOH;
NH2-[Cas9(胞苷脱氨酶)]-[TadA*8]-COOH;或
NH2-[TadA*8]-[Cas9(胞苷脱氨酶)]-COOH,
其中“]-[”的每个实例都是可选的接头。
106.一种融合蛋白,其包含结构:
NH2-[Cas12(腺苷脱氨酶)]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas12(腺苷脱氨酶)]-COOH;
NH2-[Cas12(胞苷脱氨酶)]-[腺苷脱氨酶]-COOH;或
NH2-[腺苷脱氨酶]-[Cas12([胞苷脱氨酶)]-COOH,
其中“]-[”的每个实例都是可选的接头。
107.根据权利要求1至106中任一项所述的融合蛋白,其与一种或多种引导核酸序列形成复合物以实现靶标核碱基的脱氨基作用。
108.权利要求107所述的融合蛋白,还与所述靶标多核苷酸复合。
109.一种编码根据权利要求1至108中任一项所述的融合蛋白的多核苷酸。
110.一种包含根据权利要求109所述的多核苷酸的表达载体。
111.根据权利要求110所述的表达载体,其中所述表达载体是哺乳动物表达载体。
112.根据权利要求111所述的表达载体,其中所述载体是选自由腺相关病毒(AAV)、逆转录病毒载体、腺病毒载体、慢病毒载体、仙台病毒载体和疱疹病毒载体组成群组中的病毒载体。
113.根据权利要求111或112所述的表达载体,其中所述载体包含启动子。
114.一种细胞,其包含根据权利要求1至108中任一项所述的融合蛋白、根据权利要求109所述的多核苷酸或根据权利要求111至113中任一项所述的载体。
115.根据权利要求114所述的细胞,其中所述细胞是细菌细胞、植物细胞、昆虫细胞、人类细胞或哺乳动物细胞。
116.一种碱基编辑器,其包含与一个或多个引导多核苷酸复合的根据权利要求1至108中任一项所述的融合多肽。
117.一种药物组合物,其包含根据权利要求1至108中任一项所述的融合蛋白、根据权利要求109所述的多核苷酸、根据权利要求111至113中任一项所述的载体、根据权利要求114或115所述的细胞或根据权利要求116所述的碱基编辑器,和药学上可接受的赋形剂。
118.一种试剂盒,其包含根据权利要求1至108任一项中所述的融合蛋白、根据权利要求109所述的多核苷酸,根据权利要求111至113任一项中所述的载体或根据权利要求116所述的碱基编辑器。
119.一种碱基编辑方法,其包含将多核苷酸序列与根据权利要求1至108中任一项所述的融合蛋白接触,其中所述融合蛋白的所述腺苷脱氨酶变体结构域使所述多核苷酸中的核碱基脱氨基,从而编辑所述多核苷酸序列。
120.根据权利要求119所述的方法,还包含将所述靶标多核苷酸序列与一种或多种引导多核苷酸接触以实现所述靶标核碱基的脱氨基。
121.一种编辑靶标多核苷酸的方法,所述方法包含使所述靶标多核苷酸与根据权利要求116所述的碱基编辑器接触以实现所述靶标多核苷酸中的A·T到G·C的改变。
122.根据权利要求120或121所述的方法,其中所述接触是在细胞、真核细胞、哺乳动物细胞或人类细胞中进行。
123.根据权利要求122所述的方法,其中所述细胞是在体内的。
124.根据权利要求122所述的方法,其中所述细胞是离体的。
125.一种治疗受试者基因缺陷的方法,所述方法包含向受试者施用碱基编辑器,所述碱基编辑器包含或基本上由根据权利要求1至108中任一项所述的融合蛋白组成,或编码所述碱基编辑器和一种或多种引导多核苷酸的多核苷酸,以指导所述碱基编辑器使受试者的靶标核苷酸序列中的靶标核碱基脱氨基,从而治疗所述基因缺陷。
126.根据权利要求116、120、121或125中任一项所述的方法,其中所述引导多核苷酸包含选自由以下组成的群组的核酸序列:
a)GACCUAGGCGAGGCAGUAGG;
b)CCAGUAUGGACACUGUCCAAA;
c)CAGUAUGGACACUGUCCAAA;和
d)AGUAUGGACACUGUCCAAAG。
127.根据权利要求116、120、121、125或126中任一项所述的方法,其中所述gRNA包含所述核酸序列:
GUUUUUGUACUCUCAAGAUUUAAGUAACUGUACAACGAAACUUACACAGUUACUUA AAUCUUGCAGAAGCUACAAAGAUAAGGCUUCAUGCCGAAAUCAACACCCUGUCAUUUUAU GGCAGGGUG。
128.根据权利要求116、120、121或125至127中任一项所述的方法,其中所述引导RNA包含CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)。
129.根据权利要求125至128中任一项所述的方法,其包含将所述碱基编辑器或编码所述碱基编辑器的多核苷酸和一种或多种引导多核苷酸递送至所述受试者的细胞。
130.根据权利要求125至129中任一项所述的方法,其中所述受试者是哺乳动物或人类。
131.根据权利要求125至130中任一项所述的方法,其中所述靶标核碱基的脱氨基用野生型核碱基替换所述靶标核碱基。
132.根据权利要求125至130中任一项所述的方法,其中所述靶标核碱基的脱氨基用非野生型核碱基替换所述靶标核碱基,并且其中所述靶标核碱基的脱氨基改善基因病状的症状。
133.根据权利要求125至130中任一项所述的方法,其中所述靶标多核苷酸序列包含与所述靶标核碱基以外的核碱基的遗传病状相关的突变。
134.一种融合蛋白,其包含多核苷酸可编程DNA结合结构域和至少一个碱基编辑器结构域,所述碱基编辑器结构域包含腺苷脱氨酶变体,所述腺苷脱氨酶变体包含在MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSST的氨基酸位置82和/或166的改变,或相应于MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSST的变体中氨基酸位置82和/或166的改变。
CN202080028658.7A 2019-02-13 2020-02-13 腺苷脱氨酶碱基编辑器及使用其修饰靶标序列中的核碱基的方法 Pending CN114072496A (zh)

Applications Claiming Priority (33)

Application Number Priority Date Filing Date Title
US201962805238P 2019-02-13 2019-02-13
US201962805271P 2019-02-13 2019-02-13
US201962805277P 2019-02-13 2019-02-13
US62/805,277 2019-02-13
US62/805,271 2019-02-13
US62/805,238 2019-02-13
US201962852224P 2019-05-23 2019-05-23
US201962852228P 2019-05-23 2019-05-23
US62/852,224 2019-05-23
US62/852,228 2019-05-23
US201962873144P 2019-07-11 2019-07-11
US201962873138P 2019-07-11 2019-07-11
US201962873140P 2019-07-11 2019-07-11
US62/873,138 2019-07-11
US62/873,144 2019-07-11
US62/873,140 2019-07-11
US201962876354P 2019-07-19 2019-07-19
US62/876,354 2019-07-19
US201962888867P 2019-08-19 2019-08-19
US62/888,867 2019-08-19
US201962912992P 2019-10-09 2019-10-09
US62/912,992 2019-10-09
US201962931722P 2019-11-06 2019-11-06
US201962931747P 2019-11-06 2019-11-06
US62/931,747 2019-11-06
US62/931,722 2019-11-06
US201962941569P 2019-11-27 2019-11-27
US201962941523P 2019-11-27 2019-11-27
US62/941,569 2019-11-27
US62/941,523 2019-11-27
US202062966526P 2020-01-27 2020-01-27
US62/966,526 2020-01-27
PCT/US2020/018192 WO2020168132A1 (en) 2019-02-13 2020-02-13 Adenosine deaminase base editors and methods of using same to modify a nucleobase in a target sequence

Publications (1)

Publication Number Publication Date
CN114072496A true CN114072496A (zh) 2022-02-18

Family

ID=72043868

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080028658.7A Pending CN114072496A (zh) 2019-02-13 2020-02-13 腺苷脱氨酶碱基编辑器及使用其修饰靶标序列中的核碱基的方法

Country Status (8)

Country Link
US (3) US20220170027A1 (zh)
EP (1) EP3924479A4 (zh)
JP (1) JP2022520081A (zh)
KR (1) KR20210139265A (zh)
CN (1) CN114072496A (zh)
AU (1) AU2020221366A1 (zh)
CA (1) CA3129158A1 (zh)
WO (1) WO2020168132A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114634923A (zh) * 2022-04-07 2022-06-17 尧唐(上海)生物科技有限公司 腺苷脱氨酶、碱基编辑器融合蛋白、碱基编辑器系统及用途

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2019236210A1 (en) 2018-03-14 2020-09-10 Arbor Biotechnologies, Inc. Novel CRISPR DNA targeting enzymes and systems
CN116497067A (zh) 2019-02-13 2023-07-28 比姆医疗股份有限公司 治疗血红素病变的组合物和方法
WO2022119295A1 (ko) * 2020-12-01 2022-06-09 한양대학교 산학협력단 티민-사이토신 서열 특이적 사이토신 교정 활성이 증진된 아데닌 염기교정 유전자가위 및 이의 용도
WO2022119294A1 (ko) * 2020-12-01 2022-06-09 한양대학교 산학협력단 사이토신 교정 활성이 제거된 아데닌 염기교정 유전자가위 및 이의 용도
CN115704015A (zh) * 2021-08-12 2023-02-17 清华大学 基于腺嘌呤和胞嘧啶双碱基编辑器的靶向诱变系统
CN115772512A (zh) * 2021-09-07 2023-03-10 华东师范大学 腺嘌呤脱氨酶、包含其的腺嘌呤碱基编辑器及其应用
WO2023052366A1 (en) 2021-09-28 2023-04-06 INSERM (Institut National de la Santé et de la Recherche Médicale) Base editing approaches for the treatment of beta-hemoglobinopathies
CN114045277A (zh) * 2021-10-21 2022-02-15 复旦大学 碱基编辑器及其构建方法与应用
WO2023099591A1 (en) 2021-12-01 2023-06-08 INSERM (Institut National de la Santé et de la Recherche Médicale) Methods for increasing fetal hemoglobin content by editing the +55-kb region of the erythroid-specific bcl11a enhancer
CA3241488A1 (en) 2021-12-20 2023-06-29 Beam Therapeutics Inc. Ionizable amine lipids and lipid nanoparticles
AU2022421708A1 (en) 2021-12-20 2024-06-20 Beam Therapeutics Inc. Nanomaterials comprising tetravalent lipid compounds
WO2023121964A1 (en) 2021-12-20 2023-06-29 Beam Therapeutics Inc. Nanomaterials comprising disulfides
WO2023121970A1 (en) 2021-12-20 2023-06-29 Beam Therapeutics Inc. Ionizable amine and ester lipids and lipid nanoparticles
WO2023121965A1 (en) 2021-12-20 2023-06-29 Beam Therapeutics Inc. Nanomaterial comprising diamines
WO2023144104A1 (en) 2022-01-25 2023-08-03 INSERM (Institut National de la Santé et de la Recherche Médicale) Base editing approaches for the treatment of βeta-thalassemia
CN117187220A (zh) * 2022-03-08 2023-12-08 中国科学院遗传与发育生物学研究所 腺嘌呤脱氨酶及其在碱基编辑中的用途
WO2023212715A1 (en) 2022-04-28 2023-11-02 The Broad Institute, Inc. Aav vectors encoding base editors and uses thereof
WO2023217888A1 (en) 2022-05-10 2023-11-16 Institut National de la Santé et de la Recherche Médicale Base editing approaches for correcting the cd39 (cag>tag) mutation in patients suffering from βeta-thalassemia
CN114686456B (zh) * 2022-05-10 2023-02-17 中山大学 基于双分子脱氨酶互补的碱基编辑系统及其应用
WO2023217904A1 (en) 2022-05-10 2023-11-16 Institut National de la Santé et de la Recherche Médicale Syncitin-1 fusion proteins and uses thereof for cargo delivery into target cells
WO2023245141A2 (en) * 2022-06-15 2023-12-21 Beam Therapeutics Inc. Compositions and methods for reducing complement activation
WO2024006774A2 (en) * 2022-06-27 2024-01-04 Beam Therapeutics Inc. Compositions and methods for non-genotoxic cell conditioning
WO2024019936A1 (en) 2022-07-20 2024-01-25 Beam Therapeutics Inc. Nanomaterials comprising triols
WO2024018056A1 (en) 2022-07-22 2024-01-25 Institut National de la Santé et de la Recherche Médicale Base editing approaches for correcting the ivs2-1 (g>a) mutation in patients suffering from βeta-thalassemia
WO2024086596A1 (en) * 2022-10-18 2024-04-25 4M Genomics Inc. Polypeptide fusions or conjugates for gene editing
CN117568313B (zh) * 2024-01-15 2024-04-26 上海贝斯昂科生物科技有限公司 基因编辑组合物及其用途

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160304846A1 (en) * 2013-12-12 2016-10-20 President And Fellows Of Harvard College Cas variants for gene editing
WO2018027078A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
WO2018213726A1 (en) * 2017-05-18 2018-11-22 The Broad Institute, Inc. Systems, methods, and compositions for targeted nucleic acid editing

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3350203A4 (en) * 2015-09-17 2019-06-26 The Regents of The University of California CAS9 VARIANTS POLYPEPTIDES COMPRISING INTERNAL INSERTIONS
WO2018089664A1 (en) * 2016-11-11 2018-05-17 The Regents Of The University Of California Variant rna-guided polypeptides and methods of use
US11168322B2 (en) * 2017-06-30 2021-11-09 Arbor Biotechnologies, Inc. CRISPR RNA targeting enzymes and systems and uses thereof
US11946040B2 (en) 2019-02-04 2024-04-02 The General Hospital Corporation Adenine DNA base editor variants with reduced off-target RNA editing
CN116497067A (zh) * 2019-02-13 2023-07-28 比姆医疗股份有限公司 治疗血红素病变的组合物和方法
US20230101597A1 (en) * 2019-02-13 2023-03-30 Beam Therapeutics Inc. Compositions and methods for treating alpha-1 antitrypsin deficiency
JP2022533673A (ja) * 2019-05-21 2022-07-25 ビーム セラピューティクス インク. プログラム可能塩基エディターシステムを用いた一塩基多型編集法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160304846A1 (en) * 2013-12-12 2016-10-20 President And Fellows Of Harvard College Cas variants for gene editing
WO2018027078A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
WO2018213726A1 (en) * 2017-05-18 2018-11-22 The Broad Institute, Inc. Systems, methods, and compositions for targeted nucleic acid editing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
无: "RecName: Full=tRNA-specific adenosine deaminase {ECO:0000256|HAMAP-Rule:MF_00972}", DATABASE UNIPROT, pages 8 *
魏瑜等: "基因编辑之"新宠"―单碱基基因组编辑系统", 遗传, vol. 39, no. 12, pages 1115 - 1121 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114634923A (zh) * 2022-04-07 2022-06-17 尧唐(上海)生物科技有限公司 腺苷脱氨酶、碱基编辑器融合蛋白、碱基编辑器系统及用途
WO2023193536A1 (zh) * 2022-04-07 2023-10-12 尧唐(上海)生物科技有限公司 一种腺苷脱氨酶、碱基编辑器及应用
CN114634923B (zh) * 2022-04-07 2024-02-23 尧唐(上海)生物科技有限公司 腺苷脱氨酶、碱基编辑器融合蛋白、碱基编辑器系统及用途

Also Published As

Publication number Publication date
CA3129158A1 (en) 2020-08-20
US20220170027A1 (en) 2022-06-02
KR20210139265A (ko) 2021-11-22
AU2020221366A1 (en) 2021-08-26
EP3924479A4 (en) 2023-01-25
US20210130805A1 (en) 2021-05-06
WO2020168132A1 (en) 2020-08-20
WO2020168132A9 (en) 2020-10-08
EP3924479A1 (en) 2021-12-22
US11155803B2 (en) 2021-10-26
JP2022520081A (ja) 2022-03-28
US20240132867A1 (en) 2024-04-25

Similar Documents

Publication Publication Date Title
CN114072496A (zh) 腺苷脱氨酶碱基编辑器及使用其修饰靶标序列中的核碱基的方法
US12016908B2 (en) Compositions and methods for treating hemoglobinopathies
WO2020168051A9 (en) Methods of editing a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease
CN114072509A (zh) 脱氨反应脱靶减低的核碱基编辑器和使用其修饰核碱基靶序列的方法
WO2020168075A9 (en) Splice acceptor site disruption of a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease
US20220387622A1 (en) Methods of editing a single nucleotide polymorphism using programmable base editor systems
US20230101597A1 (en) Compositions and methods for treating alpha-1 antitrypsin deficiency
EP4022050A2 (en) Compositions and methods for editing a mutation to permit transcription or expression
CN114026237A (zh) 用于治疗1a型糖原贮积病的组成物和方法
WO2023086953A1 (en) Compositions and methods for the treatment of hereditary angioedema (hae)
WO2022251687A2 (en) Compositions and methods for the self-inactivation of base editors
EP4313118A1 (en) Adenosine deaminase variants and uses thereof
BR122023002394B1 (pt) Métodos para editar um promotor da subunidade gama 1 e/ou 2 da hemoglobina (hbg1/2) em uma célula, e para produção de um glóbulo vermelho ou seu progenitor
BR112021013605B1 (pt) Sistemas de edição de base, célula ou um progenitor da mesma,população de células, composição farmacêutica, e métodos para editar um polinucleotídeo de beta globina (hbb) associado à anemia falciforme e para produzir um glóbulo vermelho ou progenitor do mesmo
BR122023002401B1 (pt) Sistemas de edição de base, células e seus usos, composições farmacêuticas, kits, usos de uma proteína de fusão e de um editor de base de adenosina 8 (abe8), bem como métodos para edição de um polinucleotídeo de beta globina (hbb) compreendendo um polimorfismo de nucleotídeo único (snp) associado à anemia falciforme e para produção de um glóbulo vermelho

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination