CN114026227A - 具有用于修饰靶标序列中核碱基的腺苷脱氨酶碱基编辑器的经修饰的免疫细胞 - Google Patents

具有用于修饰靶标序列中核碱基的腺苷脱氨酶碱基编辑器的经修饰的免疫细胞 Download PDF

Info

Publication number
CN114026227A
CN114026227A CN202080028181.2A CN202080028181A CN114026227A CN 114026227 A CN114026227 A CN 114026227A CN 202080028181 A CN202080028181 A CN 202080028181A CN 114026227 A CN114026227 A CN 114026227A
Authority
CN
China
Prior art keywords
domain
cell
tada
adenosine deaminase
cas9
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080028181.2A
Other languages
English (en)
Inventor
N·戈代尔利
M·帕克
I·斯雷梅克
Y·于
B·蔡澈
D·A·玻恩
S-J·李
J·M·格尔克
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bim Medical Co ltd
Original Assignee
Bim Medical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bim Medical Co ltd filed Critical Bim Medical Co ltd
Publication of CN114026227A publication Critical patent/CN114026227A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N5/00Undifferentiated human, animal or plant cells, e.g. cell lines; Tissues; Cultivation or maintenance thereof; Culture media therefor
    • C12N5/06Animal cells or tissues; Human cells or tissues
    • C12N5/0602Vertebrate cells
    • C12N5/0634Cells from the blood or the immune system
    • C12N5/0636T lymphocytes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • C12N15/1138Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing against receptors or cell surface proteins
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61KPREPARATIONS FOR MEDICAL, DENTAL OR TOILETRY PURPOSES
    • A61K35/00Medicinal preparations containing materials or reaction products thereof with undetermined constitution
    • A61K35/12Materials from mammals; Compositions comprising non-specified tissues or cells; Compositions comprising non-embryonic stem cells; Genetically modified cells
    • A61K35/14Blood; Artificial blood
    • A61K35/17Lymphocytes; B-cells; T-cells; Natural killer cells; Interferon-activated or cytokine-activated lymphocytes
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P35/00Antineoplastic agents
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61PSPECIFIC THERAPEUTIC ACTIVITY OF CHEMICAL COMPOUNDS OR MEDICINAL PREPARATIONS
    • A61P37/00Drugs for immunological or allergic disorders
    • A61P37/02Immunomodulators
    • A61P37/06Immunosuppressants, e.g. drugs for graft rejection
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/102Mutagenizing nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04004Adenosine deaminase (3.5.4.4)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • C07K2319/81Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor containing a Zn-finger domain for DNA binding
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/31Chemical structure of the backbone
    • C12N2310/315Phosphorothioates
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/30Chemical structure
    • C12N2310/34Spatial arrangement of the modifications
    • C12N2310/346Spatial arrangement of the modifications having a combination of backbone and sugar modifications
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2320/00Applications; Uses
    • C12N2320/30Special therapeutic applications
    • C12N2320/33Alteration of splicing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2510/00Genetically modified cells

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Biomedical Technology (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Medicinal Chemistry (AREA)
  • Immunology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Plant Pathology (AREA)
  • Pharmacology & Pharmacy (AREA)
  • Cell Biology (AREA)
  • Veterinary Medicine (AREA)
  • Public Health (AREA)
  • Animal Behavior & Ethology (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • General Chemical & Material Sciences (AREA)
  • Hematology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Developmental Biology & Embryology (AREA)
  • Transplantation (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Virology (AREA)
  • Epidemiology (AREA)
  • Medicines That Contain Protein Lipid Enzymes And Other Medicines (AREA)
  • Enzymes And Modification Thereof (AREA)
  • Peptides Or Proteins (AREA)
  • Medicines Containing Antibodies Or Antigens For Use As Internal Diagnostic Agents (AREA)
  • Medicines Containing Material From Animals Or Micro-Organisms (AREA)

Abstract

本发明的特征在于包含新型腺苷碱基编辑器(例如,ABE8)的经基因修饰的免疫细胞,其具有增强的抗肿瘤活性、对免疫抑制的抗性和引起移植物抗宿主反应或宿主抗移植物反应的风险降低,或其组合。本发明的特征还在于生产和使用这些经修饰的免疫效应细胞的方法。

Description

具有用于修饰靶标序列中核碱基的腺苷脱氨酶碱基编辑器的 经修饰的免疫细胞
相关申请
本申请是一项国际PCT申请,要求于2019年2月13日提交的美国临时申请第62/805,271号;2019年5月23日提交的第62/852,228号;2019年5月23日提交的第62/852,224号;2019年11月6日提交的第62/931,722号;2019年11月27日提交的第62/941,523号;2019年11月27日提交的第62/941,569号;和2020年1月27日提交的第62/966,526号的优先权和利益,其全部内容在此通过引用并入本文。
引用并入
本说明书中提及的所有出版物、专利和专利申请均在此以引用方式并入本文,其程度就如同每个单独的出版物、专利或专利申请被具体地和单独地指示为以引用方式并入一样。除非另有说明,本说明书中提及的出版物、专利和专利申请通过引用整体并入本文。
背景技术
自体和同种异体免疫疗法是肿瘤治疗方法,其中向受试者施用表达嵌合抗原受体的免疫细胞。为了产生表达嵌合抗原受体(CAR)的免疫细胞,首先从受试者(自体)或从接受治疗的受试者(异体)分离的供体收集免疫细胞,并进行基因修饰以表达嵌合抗原受体。所得细胞在其细胞表面(例如,CAR T细胞)表达嵌合抗原受体,并且在施用于受试者后,嵌合抗原受体与肿瘤细胞表达的标记物结合。这种与肿瘤标记物的相互作用激活了CAR-T细胞,然后细胞杀死肿瘤细胞。但是为了使自体或异体细胞疗法有效和高效,必须克服或避免显著的条件和细胞反应,例如抑制T细胞信号传送。对于异体细胞疗法,移植物抗宿主病(GVHD)和宿主对CAR-T细胞的排斥可能会带来额外的挑战。编辑参与这些过程的基因可以增强CAR-T细胞功能和对免疫抑制或抑制的抗性,但目前进行此类编辑的方法有可能在CAR-T细胞中诱导大量的基因组重排,从而对其功效产生负面影响。因此,迫切需要更精确地修饰免疫细胞,尤其是CAR-T细胞的技术。本申请即是针对此需求和其他重要需求。
发明内容
本发明的特征在于包含新型腺苷碱基编辑器(例如,ABE8)的经基因修饰的免疫细胞,其具有增强的抗肿瘤活性、对免疫抑制的抗性和引起移植物抗宿主反应或宿主抗移植物反应的风险降低,或其组合。本发明的特征还在于生产和使用这些经修饰的免疫效应细胞的方法。
一方面,本发明提供一种产生经修饰的免疫细胞的方法,所述方法包含在免疫细胞中表达或引入核碱基编辑器多肽,并使所述细胞与两种或更多种靶向所述核碱基编辑器多肽的引导RNA接触,以影响核酸分子的改变,所述核酸分子编码至少一种选自由T细胞受体α常数(TRAC)、β-2微球蛋白(B2M)、程序性细胞死亡1(PD1)、分化簇7(CD7)、分化簇5(CD5)、分化簇33(CD33)、分化簇123(CD123)、Cbl原癌基因B(CBLB)和II类主要组织相容性复合反式激活因子(CIITA)多肽组成的群组的多肽,其中所述核碱基编辑器多肽包含核酸可编程DNA结合蛋白(napDNAbp)和一种碱基编辑器结构域,所述碱基编辑器结构域包含腺苷脱氨酶变体结构域,所述结构域包含在MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处的改变。在一个实施方案中,所述免疫细胞是T细胞。在一个实施方案中,所述免疫细胞取自健康受试者。
在一个实施方案中,所述腺苷脱氨酶变体结构域包含在氨基酸位置82和166处的改变。在一个实施方案中,所述腺苷脱氨酶变体结构域包含V82S的改变。在一个实施方案中,所述腺苷脱氨酶变体结构域包含T166R的改变。在一个实施方案中,所述腺苷脱氨酶变体结构域包含V82S和T166R的改变。在一个实施方案中,所述腺苷脱氨酶变体结构域进一步包含以下一个或多个改变:Y147T、Y147R、Q154S、Y123H和/或Q154R。在一个实施方案中,所述腺苷脱氨酶变体结构域包含选自以下群组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。在一个实施方案中,所述腺苷脱氨酶变体结构域包含改变组合:V82S+Q154R。在一个实施方案中,所述腺苷脱氨酶变体结构域包含改变组合:Y147R+Q154R+Y123H。在一个实施方案中,所述腺苷脱氨酶变体结构域包含改变组合:Y147R+Q154R+Y123H+I76Y。在一个实施方案中,所述腺苷脱氨酶变体结构域包含改变组合:I76Y+V82S+Y123H+Y147R+Q154R。在一个实施方案中,所述腺苷脱氨酶变体是TadA*8。在一个实施方案中,所述TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23、TadA*8.24。
在一个实施方案中,所述腺苷脱氨酶变体结构域包含选自由149、150、151、152、153、154、155、156和157组成的群组中的残基开始的C末端的缺失。在一个实施方案中,所述碱基编辑器结构域是腺苷脱氨酶变体单体。在一个实施方案中,所述碱基编辑器结构域为ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m。
在一个实施方案中,所述碱基编辑器结构域是包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域的腺苷脱氨酶变体异二聚体。在一个实施方案中,所述碱基编辑器结构域为ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d。
在一个实施方案中,所述碱基编辑器结构域是包含TadA*7.10结构域和腺苷脱氨酶变体结构域的腺苷脱氨酶变体异二聚体。在一个实施方案中,所述腺苷脱氨酶变体结构域相对于全长腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一个实施方案中,所述腺苷脱氨酶变体结构域包含或基本上由下列具有腺苷脱氨酶活性的序列或其片段组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在一个实施方案中,所述napDNAbp包含以下序列:
Figure BDA0003298963610000041
Figure BDA0003298963610000051
Figure BDA0003298963610000052
EGADKRTADGSEFESPKKKRKV*,其中粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示双核定位序列。
在本文描述的任何方面的各种实施方案中,所述napDNAbp是金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、化脓性链球菌Cas9(SpCas9)或其变体。在一个实施方案中,所述napDNAbp包含SpCas9的变体,其具有改变的原间隔序列临近基序(PAM)特异性或对非G PAM具有特异性。在一个实施方案中,所述改变的PAM对核酸序列5'-NGC-3'具有特异性。在一个实施方案中,所述经修饰的SpCas9包含D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R的氨基酸置换,或其相应的氨基酸置换。在本文描述的任何方面的各种实施方案中,所述napDNAbp包含核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。在一个实施方案中,所述切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。在本文描述的任何方面的各种实施方案中,所述碱基编辑器多肽进一步包含锌指结构域。在本文描述的任何方面的各种实施方案中,所述碱基编辑器多肽进一步包含一种或多种尿嘧啶糖基化酶抑制剂。在本文描述的任何方面的各种实施方案中,所述腺苷脱氨酶变体结构域能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨。在本文描述的任何方面的各种实施方案中,所述腺苷脱氨酶变体结构域是自然界中不存在的经修饰的腺苷脱氨酶。在本文描述的任何方面的各种实施方案中,所述腺苷脱氨酶变体是TadA*8。在一些实施方案中,所述TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。
在本文描述的任何方面的各种实施方案中,所述核碱基编辑器多肽进一步包含所述napDNAbp和所述腺苷脱氨酶变体结构域之间的连接子。在一个实施方案中,连接子包含氨基酸序列:
SGGSSGGSSGSETPGTSESATPES。
在本文描述的任何方面的各种实施方案中,所述碱基编辑器多肽进一步包含或多种核定位信号(NLS)。在一个实施方案中,所述NLS是双向NLS。在一个实施方案中,所述核碱基编辑器多肽包含N末端NLS和C末端NLS。在本文描述的任何方面的各种实施方案中,所述napDNAbp是经修饰的金黄色葡萄球菌Cas9(SaCas9)。在一个实施方案中,所述经修饰的SaCas9包含E782K、N968K和R1015H的氨基酸置换,或其相应的氨基酸置换。在一个实施方案中,所述经修饰的SaCas9包含氨基酸序列:
KRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG。
在本文描述的任何方面的各种实施方案中,两种或多种引导RNA在细胞中表达或接触细胞,每种靶向分离的多核苷酸。在各种实施方案中,多重碱基编辑涉及同时修饰1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或更多靶标基因组位点。在本文描述的任何方面的各种实施方案中,两种或多种引导RNA在细胞中表达或接触细胞,每种各自靶向B2M或TRAC多核苷酸。在本文描述的任何方面的各种实施方案中,三种引导RNA在细胞中表达或接触细胞。在本文描述的任何方面的各种实施方案中,三种引导RNA在细胞中表达或接触细胞,每种各自靶向B2M、CD7、TRAC、CIITA、PDCD1和/或CBLC多核苷酸。在本文描述的任何方面的各种实施方案中,三种引导RNA在细胞中表达或接触细胞,每种各自靶向B2M、TRAC和PDCD1多核苷酸。在本文描述的任何方面的各种实施方案中,三种引导RNA在细胞中表达或接触细胞,每种各自靶向B2M、TRAC和CIITA多核苷酸。在本文描述的任何方面的各种实施方案中,四种引导RNA在细胞中表达或接触细胞,每种各自靶向B2M、CD7、TRAC、CIITA、PDCD1和/或CBLC多核苷酸。在本文描述的任何方面的各种实施方案中,所述两种或更多种引导RNA靶向TRAC外显子4剪接受体位点、B2M外显子1剪接供体位点和/或PDCD1外显子1剪接供体位点。在本文描述的任何方面的各种实施方案中,所述两种或更多种引导RNA靶向靶标多核苷酸中的剪接受体位点或剪接供体位点。在本文描述的任何方面的各种实施方案中,所述核碱基编辑器多肽在靶标多核苷酸中产生终止密码子。。在本文描述的任何方面的各种实施方案中,所述核碱基编辑器多肽在PDCD1外显子2中产生终止密码子。在各种实施方案中,通过引入碱基编辑器和一个或多个靶向编码多肽的基因的引导RNA,一种或多种上述多肽的表达相对于参考降低了70、75、80、85、90、91、92、93、94、95、96、97、98、99%或更多,或甚至100%。
另一方面,本发明提供在本文描述的任何方面的经修饰的免疫细胞中表达嵌合抗原受体(CAR)。在本文描述的任何方面的各种实施方案中,所述免疫细胞经过离体修饰。在本文描述的任何方面的各种实施方案中,所述免疫细胞是细胞毒性T细胞、调节性T细胞或T辅助细胞。在本文描述的任何方面的各种实施方案中,所述经修饰的免疫细胞不包含可检测的易位。
另一方面,本发明提供了根据本文描述的任何方面的方法产生的经修饰的免疫细胞。在本文描述的任何方面的各种实施方案中,所述细胞具有降低的免疫原性和增强的抗肿瘤活性。在本文描述的任何方面的各种实施方案中,所述免疫细胞表达嵌合抗原受体。
在本文描述的任何方面的各种实施方案中,所述免疫细胞是T细胞。在本文描述的任何方面的各种实施方案中,所述细胞在编码B2M、CD7、CIITA、PD1、CBLB和/或TRAC的多核苷酸中包含一个或多个突变。在一个实施方案中,所述细胞在编码B2M、TRAC和CIITA的多核苷酸中包含一个或多个突变。在本文描述的任何方面的各种实施方案中,所述细胞在编码TIGIT、TGFBR2、ZAP70、NFATc1或TET2的一种或多种多核苷酸中包含突变。在本文描述的任何方面的各种实施方案中,所述细胞在编码V-Set免疫调节受体(VISTA)、T细胞免疫球蛋白粘蛋白3(Tim-3)、具有Ig及ITIM结构域的T细胞免疫受体(TIGIT)、转化生长因子β受体II(TGFbRII)、调节因子X相关含锚蛋白(RFXANK)、含PVR相关免疫球蛋白结构域(PVRIG)、淋巴细胞激活基因3(Lag3)、细胞毒性T淋巴细胞相关蛋白4(CTLA-4)、几丁质酶3样1(Chi3l1)、分化簇96(CD96)、B和T淋巴细胞相关(BTLA)、Tet甲基胞嘧啶双加氧酶2(TET2)、SproutyRTK信号拮抗剂1(Spry1)、Sprouty RTK信号拮抗剂2(Spry2)、II类主要组织相容性复合反式激活剂(CIITA)、分化簇7(CD7)、分化簇33(CD33)、分化簇52(CD52)、分化簇123(CD123)、T细胞受体β常数1(TRBC1)、T细胞受体β常数2(TRBC2)、细胞因子诱导型含SH2蛋白(CISH)、乙酰辅酶A乙酰转移酶1(ACAT1)、细胞色素P450家族11亚家族A成员1(Cyp11a1)、GATA结合蛋白3(GATA3)、核受体亚家族4A群成员1(NR4A1)、核受体亚家族4A群成员2(NR4A2)、核受体亚家族4A群成员3(NR4A3)、甲基化控制的J蛋白(MCJ)、Fas细胞表面死亡受体(FAS)或选择素P配体/P-选择素糖蛋白配体-1(SELPG/PSGL1)的一种或多种多核苷酸中包含突变。
在本文描述的任何方面的各种实施方案中,所述嵌合抗原受体包含对与肿瘤相关的标志物具有亲和力的胞外结构域。在一个实施方案中,所述肿瘤是多发性骨髓瘤。在本文描述的任何方面的各种实施方案中,所述标志物是B细胞成熟抗原(BCMA)。
另一方面,本发明提供了一种在受试者中调节免疫应答的方法,所述方法包含施用有效量的根据本文描述的任何方面的经修饰的免疫细胞。在本文描述的任何方面的各种实施方案中,所述方法增加或减少免疫应答。
另一方面,本发明提供了一种治疗受试者中的肿瘤的方法,所述方法包含施用有效量的根据本文描述的任何方面的经修饰的免疫细胞。
另一方面,本发明提供了一种用于治疗肿瘤的医药组合物,所述医药组合物包含有效量的根据本文描述的任何方面的经修饰的免疫细胞。
另一方面,本发明提供了一种医药组合物,所述医药组合物在药学上可接受的赋形剂中包含有效量的根据本文描述的任何方面的经修饰的免疫细胞。
另一方面,本发明提供了一种用于治疗肿瘤的试剂盒,所述试剂盒包含根据本文描述的任何方面的经修饰的免疫细胞。在本文描述的任何方面的各种实施方案中,所述试剂盒包含使用所述经修饰的免疫效应细胞治疗肿瘤的书面说明。
在本文描述的任何方面的各种实施方案中,所述经修饰的免疫细胞進一步包含对与腫瘤相关的标志物具有亲和力的嵌合抗原受体。在某些实施方案中,嵌合抗原受体通过病毒载体例如慢病毒载体引入细胞。在某些实施方案中,嵌合抗原受体通过双链DNA模板引入所述细胞中,以插入到被核酸酶切割的基因座处。在本文描述的任何方面的各种实施方案中,所述嵌合抗原受体包含对与肿瘤相关的标志物具有亲和力的胞外结构域。
在本文描述的任何方面的各种实施方案中,所述肿瘤是B细胞癌。在本文描述的任何方面的各种实施方案中,所述B细胞癌是淋巴瘤或白血病。在本文描述的任何方面的各种实施方案中,所述B细胞癌是多发性骨髓瘤。
另一方面,本发明提供了一种使用有效量的根据本文描述的任何方面的经修饰的免疫细胞治疗患有或具有发展移植物抗宿主病(GVHD)倾向的受试者的方法。另一方面,本发明提供了一种用于治疗GVHD的医药组合物,所述医药组合物包含有效量的根据本文描述的任何方面的经修饰的免疫细胞。另一方面,本发明提供了一种用于治疗GVHD的试剂盒,所述试剂盒包含根据本文描述的任何方面的经修饰的免疫细胞。在本文描述的任何方面的各种实施方案中,所述经修饰的免疫细胞缺乏或具有降低水平的功能性TRAC。
另一方面,本发明提供了一种使用有效量的根据本文描述的任何方面的经修饰的免疫细胞治疗患有或具有发展移植物抗宿主病(HVGD)倾向的受试者的方法。另一方面,本发明提供了一种用于治疗HVGD的医药组合物,所述医药组合物包含有效量的根据本文描述的任何方面的经修饰的免疫细胞。另一方面,本发明提供了一种用于治疗HVGD的试剂盒,所述试剂盒包含根据本文描述的任何方面的经修饰的免疫细胞。在本文描述的任何方面的各种实施方案中,所述经修饰的免疫细胞缺乏或具有降低水平的功能性B2M。
另一方面,本发明提供了一种产生经修饰的免疫细胞的方法,所述方法包含在免疫细胞中表达或引入核碱基编辑器多肽,并使所述细胞与能够靶向核酸分子的两种或更多种引导RNA接触,所述核酸分子编码至少一种选自由T细胞受体α常数(TRAC)、β-2微球蛋白(B2M)、程序性细胞死亡1(PD1)、分化簇7(CD7)、分化簇5(CD5)、分化簇33(CD33)、分化簇123(CD123)、Cbl原癌基因B(CBLB)和II类主要组织相容性复合反式激活因子(CIITA)多肽组成的群组的多肽,其中所述核碱基编辑器多肽包含至少一种插入核酸可编程DNA结合蛋白(napDNAbp)內的碱基腺苷脱氨酶变体结构域。
在一个实施例方案中,所述腺苷脱氨酶变体结构域包含氨基酸序列:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD,其中所述氨基酸序列包含至少一个改变。在一个实施例方案中,所述腺苷脱氨酶变体结构域在氨基酸位置82和/或166处包含改变。在一个实施例方案中,所述至少一种改变包含:V82S、T166R、Y147T、Y147R、Q154S、Y123H和/或Q154R。在一个实施方案中,所述腺苷脱氨酶变体包含以下一种改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。在一个实施方案中,所述腺苷脱氨酶变体是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23、TadA*8.24。在一个实施方案中,所述腺苷脱氨酶变体包含选自由149、150、151、152、153、154、155、156和157组成的群组中的残基开始的C末端的缺失。在一个实施方案中,所述腺苷脱氨酶变体结构域是腺苷脱氨酶单体。在一个实施方案中,所述腺苷脱氨酶变体是包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域的腺苷脱氨酶异二聚体。在一个实施方案中,所述腺苷脱氨酶变体是包含TadA结构域和腺苷脱氨酶变体结构域的腺苷脱氨酶异二聚体。
在一个实施方案中,所述napDNAbp是Cas9或Cas12多肽。在一个实施方案中,所述腺苷脱氨酶变体插入在所述napDNAbp的柔性环、α螺旋区、非结构化部分或溶剂可及部分内。在一个实施方案中,所述腺苷脱氨酶变体的侧翼是napDNAbp的N末端片段和C末端片段。在一个实施方案中,所述核碱基编辑器多肽包含结构NH2-[napDNAbp的N末端片段]-[腺苷脱氨酶变体]-[napDNAbp的C末端片段]-COOH,其中“]-[”的每个实例是可选的连接子。在一个实施方案中,所述N末端片段的C末端或所述C末端片段的N末端包含所述napDNAbp的柔性环的一部分。在一个实施方案中,所述柔性环包含靠近靶标核碱基的氨基酸。在一个实施方案中,所述靶标核碱基是距所述靶标多核苷酸序列中的PAM序列的1至20个核碱基。在一些实施方案中,所述靶标核碱基是所述PAM序列上游的2-12个核碱基。在一个实施方案中,所述napDNAbp的所述N末端片段或所述C末端片段结合所述靶标多核苷酸序列。
在一些实施方案中,所述N末端片段或所述C末端片段包含RuvC结构域;所述N末端片段或所述C末端片段包含NHN结构域;所述N末端片段和所述C末端片段均不包含HNH结构域;或所述N末端片段和所述C末端片段均不包含RuvC结构域。在一些实施方案中,所述napDNAbp在一个或多个结构域中包含部分或完全缺失,并且其中所述脱氨酶插入在所述napDNAbp的部分或完全缺失处。在一些实施方案中,所述缺失在RuvC结构域内;所述缺失在HNH结构域内;或所述缺失桥接RuvC结构域和C末端结构域、L-I结构域和HNH结构域或RuvC结构域和L-I结构域。
在另一个实施方案中,所述napDNAbp是Cas9或Cas12多肽。在一个实施方案中,所述napDNAbp包含Cas9多肽。在一个实施方案中,所述Cas9多肽是化脓性链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或其变体。在一个实施方案中,所述Cas9多肽以下氨基酸序列(Cas9参考序列):
Figure BDA0003298963610000121
Figure BDA0003298963610000131
Figure BDA0003298963610000132
(单下划线:HNH结构域;双下划线:RuvC结构域;(Cas9参考序列),或其相应区域。
在一些实施方案中,所述Cas9多肽包含在Cas9多肽参考序列中编号的氨基酸1017至1069或其相应氨基酸的缺失;所述Cas9多肽包含在Cas9多肽参考序列中编号的氨基酸792至872或其相应氨基酸的缺失;或所述Cas9多肽包含在Cas9多肽参考序列中编号的氨基酸792至906或其相应氨基酸的缺失。在一个实施方案中,所述腺苷脱氨酶变体插入Cas9多肽的柔性环内。在一个实施方案中,所述柔性环包含选自由在Cas9参考序列中编号530至537、569至579、686至691、768至793、943至947、1002至1040、1052至1077、1232至1248和1298至1300的氨基酸残基组成的群组的区域,或其相应的氨基酸位置。在一个实施方案中,所述脱氨酶插入Cas9参考序列中编号768至769、791至792、792至793、1015至1016、1022至1023、1026至1027、1029至1030、1040至1041、1052至1053、1054至1055、1067至1068、1068至1069、1247至1248或1248至1249之间的氨基酸位置,或其相应的氨基酸位置。在一个实施方案中,所述脱氨酶插入Cas9参考序列中编号768至769、792至793、1022至1023、1026至1027、1040至1041、1068至1069或1247至1248之间的氨基酸位置,或其相应的氨基酸位置。在一个实施方案中,所述脱氨酶插入Cas9参考序列中编号1016至1017、1023至1024、1029至1030、1040至1041、1069至1070或1247至1248之间的氨基酸位置,或其相应的氨基酸位置。在一个实施方案中,腺苷脱氨酶变体在表13A中鉴定的基因座处插入Cas9多肽内。在一个实施方案中,所述N末端片段包含Cas9参考序列的1至529、538至568、580至685、692至942、948至1001、1026至1051、1078至1231和/或1248至1297的氨基酸残基,或其相应的残基。在一个实施方案中,所述C末端片段包含Cas9参考序列的1301至1368、1248至1297、1078至1231、1026至1051、948至1001、692至942、580至685和/或538至568的氨基酸残基,或其相应的残基。
在另一个实施方案中,所述Cas9多肽是经修饰的Cas9并且对改变的PAM具有特异性。在一个实施方案中,所述Cas9多肽是切口酶或其中所述Cas9多肽是无核酸酶活性的。在一个实施方案中,所述Cas9多肽是经修饰的SpCas9多肽。在一个实施方案中,所述经修饰的SpCas9多肽,其包括氨基酸置换D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)并且对改变的PAM 5'-NGC-3'具有特异性。
在一些实施方案中,所述腺苷脱氨酶变体插入在Cas12多肽內。在一个实施方案中,所述Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i。在一个实施方案中,所述腺苷脱氨酶变体插入氨基酸位置之间:a)BhCas12b的153至154、255至256、306至307、980至981、1019至1020、534至535、604至605或344至345或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基;b)BvCas12b的147和148、248和249、299和300、991和992或1031和1032或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基;或c)AaCas12b的157和158、258和259、310和311、1008和1009或1044和1045或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基。在一个实施方案中,所述脱氨酶变体在表13B中鉴定的基因座处插入Cas12多肽内。在一个实施方案中,所述Cas12多肽是Cas12b。在一个实施方案中,所述Cas12多肽包含BhCas12b结构域、BvCas12b结构域或AACas12b结构域。
一方面,本发明提供了根据本文描述的任何方面的经修饰的免疫细胞。在一个实施方案中,所述免疫细胞是T细胞。在一个实施方案中,所述免疫细胞表达嵌合抗原受体。在一个实施方案中,所述方法包含施用有效量的本文描述的任何方面的经修饰的免疫细胞。在一方面,本发明提供了一种医药组合物,所述医药组合物在药学上可接受的赋形剂中包含有效量的根据本文描述的任何方面的经修饰的免疫细胞。在另一方面,本发明提供了一种包含本文描述的任何方面的经修饰的免疫细胞的试剂盒。
在一方面,本发明提供了一种碱基编辑器系统,其包含多核苷酸可编程DNA结合结构域和至少一种碱基编辑器结构域,所述碱基编辑器结构域包含在
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82或166处发生改变的腺苷脱氨酶变体和两种或多种靶向所述核碱基编辑器多肽的引导RNA,以影响核酸分子的改变,所述核酸分子编码至少一种选自由T细胞受体α常数(TRAC)、β-2微球蛋白(B2M)、程序性细胞死亡1(PD1)、分化簇7(CD7)、分化簇5(CD5)、分化簇33(CD33)、分化簇123(CD123)、Cbl原癌基因B(CBLB)和II类主要组织相容性复合反式激活因子(CIITA)多肽组成的群组的多肽。在一些实施方案中,所述腺苷脱氨酶变体包含V82S的改变和/或T166R的改变。在一些实施方案中,所述腺苷脱氨酶变体进一步包含以下一种或多种改变:Y147T、Y147R、Q154S、Y123H和Q154R。在一些实施方案中,所述碱基编辑器结构域是包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体的腺苷脱氨酶异二聚体。在一些实施方案中,所述腺苷脱氨酶变体是被截断的TadA*8,其相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方案中,所述腺苷脱氨酶变体相对于全长TadA8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中,所述多核苷酸可编程DNA结合结构域是金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、化脓性链球菌Cas9(SpCas9)或其变体。在一些实施方案中,所述多核苷酸可编程DNA结合结构域是SpCas9的变体,其具有改变的原间隔序列临近基序(PAM)特异性或对非G PAM具有特异性。在一些实施方案中,所述多核苷酸可编程DNA结合结构域是无核酸酶活性的Cas9。在一些实施方案中,所述多核苷酸可编程DNA结合结构域是Cas9切口酶。
一方面,本发明提供了一种碱基编辑器系统,其包含两种或多种引导RNA和融合蛋白,所述融合蛋白包含多核苷酸可编程DNA结合结构域,其包含以下序列:
Figure BDA0003298963610000161
Figure BDA0003298963610000171
Figure BDA0003298963610000172
其中粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示双核定位序列,和至少一种碱基编辑器结构域,所述碱基编辑器结构域包含在MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82或166处发生改变的腺苷脱氨酶变体和两种或多种靶向所述核碱基编辑器多肽的引导RNA,以影响核酸分子的改变,所述核酸分子编码至少一种选自由T细胞受体α常数(TRAC)、β-2微球蛋白(B2M)、程序性细胞死亡1(PD1)、分化簇7(CD7)、分化簇5(CD5)、分化簇33(CD33)、分化簇123(CD123)、Cbl原癌基因B(CBLB)和II类主要组织相容性复合反式激活因子(CIITA)多肽组成的群组的多肽。
一方面,提供了一种包含任何一个以上描述的碱基编辑器系统的细胞。任何一种细胞是人类细胞或哺乳动物细胞。在一些实施例中,所述細胞是离体的、体内的或体外的。
本文中的描述和示例详细说明了本公开的实施方案。应当理解,本公开不限于本文描述的特定实施方案并且因此可以变化。本领域技术人员将认识到,对本公开内容存在多种变化和修改,这些变化和修改包含在其范围内。
除非另外指明,否则本文公开的一些实施方案的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术,这些技术在本领域技术范围内。参见例如Sambrook和Green,Molecular Cloning:A Laboratory Manual,4th Edition(2012);the series Current Protocols in Molecular Biology(F.M.Ausubel,等人编);the series Methods In Enzymology(Academic Press,Inc.),PCR 2:A Practical Approach(M.J.MacPherson,B.D.Hames和G.R.Taylor编(1995)),Harlow和Lane,编(1988)Antibodies,A Laboratory Manual,and Culture of AnimalCells:A Manual of Basic Technique and Specialized Applications,6th Edition(R.I.Freshney,ed.(2010)).
此处使用的章节标题仅用于组织目的,不应被解释为限制所描述的主题。
尽管可以在单个实施例的上下文中描述本公开的各种特征,但是也可以单独地或以任何合适的组合来提供这些特征。相反地,尽管为了清楚起见可以在单独的实施例的上下文中在本文中描述本公开,但是本公开也可以在单个实施例中实施。此处使用的章节标题仅用于组织目的,不应被解释为限制所描述的主题。
本公开的特征在所附权利要求中具体阐述。通过参考以下阐述说明性实施例的详细描述,其中利用了本公开的原理,并鉴于如下所述的附图,将获得对本发明的特征和优点的更好理解。
定义
以下定义补充了本领域中的定义,并且针对当前申请,并且不归咎于任何相关或不相关的案例,例如,任何共同拥有的专利或申请。尽管与本文所述的那些相似或等效的任何方法和材料可用于测试本公开的实践中,但本文描述了优选的材料和方法。因此,本文中使用的术语仅用于描述特定实施例的目的,并不旨在进行限制。
除非另有定义,本文使用的所有技术和科学术语均具有本发明所属领域的技术人员通常理解的含义。以下参考文献为技术人员提供了本发明中使用的许多术语的一般定义:Singleton等人,Dictionary of Microbiology and Molecular Biology(2nded.1994);The Cambridge Dictionary of Science and Technology(Walker ed.,1988);The Glossary of Genetics,5th Ed.,R.Rieger等人(编),Springer Verlag(1991);和Hale&Marham,The Harper Collins Dictionary of Biology(1991).
在本申请中,除非另有特别说明,否则单数的使用包括复数。必须注意,在说明书中使用的单数形式“一个(a)”、“一个(an)”和“所述(the)”包括复数参考,除非上下文另有明确规定。在本申请中,除非另有说明,否则“或”的使用是指“和/或”,并且被理解为包括在内。此外,术语“包括(including)”以及诸如“包括(include)”、“包括(includes)”和“包括(included)”等其他形式的使用不是限制性的。
如在本说明书和权利要求中使用的,术语“包含(comprising)”(以及任何形式的包含,例如“包含(comprise)”和“包含(comprises)”)、“具有(having)”(以及任何形式的具有,例如“具有(have)”和“具有(has)”)、“包括(including)”(以及任何形式的包括,例如“包括(includes)”和“包括(include)”)或“含有(containing)”(以及任何形式的含有,例如“含有(contains)”和“含有(contain)”)是包容性或开放性的并且不排除额外的、未提及的元素或方法步骤。预期本说明书中讨论的任何实施方案可关于本公开的任何方法或组合实施,反之亦然。此外,本公开的组成物可用于实现本公开的方法。
术语“约(about)”或“大约(approximately)”是指在由本领域普通技术人员确定的特定值的可接受误差范围内,这将部分取决于如何测量或确定该值,即测量系统。例如,根据本领域的实践,“约”可以表示在1个标准偏差以内或超过1个标准偏差。或者,“约”可以表示给定值的最多20%、最多10%、最多5%或最多1%的范围。或者,特别是对于生物系统或过程,该术语可表示在一个数量级内,例如在值的5倍或2倍内。在申请和权利要求中描述特定值的情况下,除非另有说明,术语“约”的含义应假定在特定值的可接受误差范围内。
此处提供的范围应理解为该范围内所有值的简写。例如,1至50的范围被理解为包括来自1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50。
说明书中对“一些实施方案”、“一个(an)实施方案”、“一个(one)实施方案”或“其他实施方案”的引用是指结合实施例描述的特定特征、结构或特性包括在至少一些实施方案中,但不包括必须是本公开的所有实施方案。
“腺苷脱氨酶”是指能够催化腺嘌呤或腺苷水解脱氨的多肽或其片段。在一些实施方案中,所述脱氨酶或脱氨酶结构域是催化腺苷水解脱氨基为肌苷或脱氧腺苷水解脱氨为脱氧肌苷的腺苷脱氨酶。在一些实施方案中,所述腺苷脱氨酶催化脱氧核糖核酸(DNA)中腺嘌呤或腺苷的水解脱氨。本文提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可以来自任何生物体,例如细菌。
在一些实施方案中,所述腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,所述TadA脱氨酶是TadA变体。在一些实施方案中,所述TadA变体是TadA*8。在一些实施方案中,所述脱氨酶或脱氨酶结构域是来自生物体例如人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然存在的脱氨酶的变体。在一些实施方案中,所述脱氨酶或脱氨酶结构域不存在于自然界。例如,在一些实施例中,所述脱氨酶或脱氨酶结构域为至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%或至少99.9%与天然存在的脱氨酶相同。例如,国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述了脱氨酶结构域,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage”Nature551,464-471(2017);Komor,A.C.,等人,“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),和Rees,H.A.,等人,“Base editing:precision chemistry on thegenome and transcriptome of living cells.”Nat Rev Genet.2018Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容以引用方式并入本文。
野生型TadA(wt)腺苷脱氨酶具有以下序列(也称为TadA参考序列):
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
在一些实施方案中,所述腺苷脱氨酶包含以下序列的改变:
Figure BDA0003298963610000211
(也称为TadA*7.10)。
在一些实施方案中,TadA*7.10包含至少一个改变。在一些实施方案中,TadA*7.10包含在氨基酸82和/或166处的改变。在特定实施方案中,上述序列的变体包含以下一个或多个改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R。改变Y123H在本文中也称为H123H(TadA*7.10中的改变H123Y回复回Y123H(wt))。在其他实施方案中,TadA*7.10序列的变体包含选自以下群组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。
在其他实施方案中,本发明提供了包含缺失例如TadA*8的腺苷脱氨酶变体,其包含从残基149、150、151、152、153、154、155、156或157开始的C末端的缺失,相对到TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含一个或多个以下改变的TadA(例如,TadA*8)单体:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含选自以下群组的改变组合的单体:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,所述腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如TadA*8)的同源二聚体,每个结构域具有一个或多个以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含两个腺苷脱氨酶结构域(例如TadA*8)的同源二聚体,每个结构域具有选自以下群组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,所述腺苷脱氨酶变体是包含野生型TadA腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含一种或多种以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含野生型TadA腺苷脱氨酶结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含选自以下群组的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在其他实施方案中,所述腺苷脱氨酶变体是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含一种或多种以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,所述腺苷脱氨酶变体是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异二聚体,其包含选自以下的改变组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R或I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在一个实施方案中,所述腺苷脱氨酶是TadA*8,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在一些实施例中,所述TadA*8被截断。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中所述腺苷脱氨酶变体是全长TadA*8。
在特定实施方案中,腺苷脱氨酶异二聚体包含选自以下之一的TadA*8结构域和腺苷脱氨酶结构域:
金黄色葡萄球菌(S.aureus)TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌(B.subtilis)TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门氏菌(S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌F3031(H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTAHAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
柄杆菌(C.crescentus)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(G.sulfurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
TadA*7.10
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
“施用(Administering)”在本文中是指向患者或受试者提供本文所述的一种或多种组合物。例如但不限于,施用组成物,例如注射,可以通过静脉内(iv)注射、皮下(sc)注射、皮内(id)注射、腹膜内(ip)注射或肌肉内(im)进行注射。可以采用一种或多种这样的途径。肠胃外施用可以是,例如,通过推注或随时间逐渐灌注。或者或同时,可以通过口服途径施用。
“药剂”是指任何小分子化合物、抗体、核酸分子或多肽,或其片段。
如本文所用,“同种异体的(Allogeneic)”是指相同物种的细胞与在遗传上比较的细胞不同。
“改变”是指基因或多肽的结构、表达水平或活性的变化(例如增加或减少),如通过标准本领域已知方法例如本文所述的那些方法检测的。如本文所用,改变包括多核苷酸或多肽序列的变化或表达水平的变化,例如25%变化、40%变化、50%变化或更大。
“改善”是指减少、抑制、减弱、减弱、阻止或稳定疾病的发展或进展。
“类似物”是指不相同但具有类似功能或结构特征的分子。例如,多核苷酸或多肽类似物保留了相应的天然存在的多核苷酸或多肽的生物学活性,同时具有相对于天然存在的多核苷酸或多肽增强类似物功能的某些修饰。这种修饰可以增加类似物对DNA的亲和力、效率、特异性、蛋白酶或核酸酶抗性、膜渗透性和/或半衰期,而不改变例如配体结合。类似物可包括非天然核苷酸或氨基酸。
“抗肿瘤活性(anti-neoplasia activity)”是指防止或抑制肿瘤的成熟和/或增殖。
如本文所用,“自体的”是指来自同一受试者的细胞。
“碱基编辑器(BE)”或“核碱基编辑器(NBE)”是指结合多核苷酸并具有核碱基修饰活性的试剂。在各种实施方案中,碱基编辑器包含核碱基修饰多肽(例如,脱氨酶)和与引导多核苷酸(例如,指导RNA)结合的核酸可编程核苷酸结合结构域。在各种实施方案中,所述试剂是包含具有碱基编辑活性的蛋白质结构域的生物分子复合物,即能够修饰核酸分子(例如,A、T、C、G或U)内的碱基(例如,DNA)。在一些实施方案中,所述多核苷酸可编程DNA结合结构域是与脱氨酶结构域融合或连接。。在一个实施方案中,所述试剂是包含具有碱基编辑活性的结构域的融合蛋白。在另一个实施方案中,具有碱基编辑活性的蛋白质结构域与引导RNA连接(例如,通过引导RNA上的RNA结合基序和与脱氨酶融合的RNA结合结构域)。在一些实施方案中,具有碱基编辑活性的结构域能够使核酸分子内的碱基脱氨基。在一些实施方案中,所述碱基编辑器能够使DNA分子内的一个或多个碱基脱氨基。在一些实施方案中,所述碱基编辑器能够使DNA分子内的一个或多个碱基脱氨基。在一些实施方案中,所述碱基编辑器是腺苷碱基编辑器(ABE)。
在一些实施方案中,碱基编辑器是通过将腺苷脱氨酶变体(例如,TadA*8)克隆到包括环状置换Cas9(例如,spCAS9或saCAS9)和二分核定位序列的支架中来产生的(例如,ABE8)。环状置换Cas9s是本领域已知的并且描述于例如Oakes等人,Cell 176,254–267,2019.示例性环状排列如下,其中粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示双核定位序列。
CP5(with MSP“NGC=带有突变的Pam变体常规Cas9类NGG”PID=蛋白质相互作用结构域和“D10A”切口酶):
Figure BDA0003298963610000261
Figure BDA0003298963610000271
在一些实施方案中,所述ABE8选自以下表8、9、10或11的碱基编辑器。在一些实施方案中,ABE8含有从TadA进化而来的腺苷脱氨酶变体。在一些实施方案中,所述ABE8的腺苷脱氨酶变体是如下表9中所述的TadA*8变体。在一些实施方案中,腺苷脱氨酶变体是包含一个或多个选自Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R的改变的TadA*7.10变体(例如TadA*8)。在各种实施方案中,ABE8包含具有选自以下群组的改变组合的TadA*7.10变体(例如TadA*8):Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。在一些实施例中,ABE8是单体构建体。在一些实施例中,ABE8是异二聚体构建体。在一些实施方案中,所述ABE8包含序列:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在一些实施方案中,所述多核苷酸可编程DNA结合结构域是CRISPR相关(例如,Cas或Cpf1)酶。在一些实施方案中,碱基编辑器是与脱氨酶结构域融合的无催化活性的Cas9(dCas9)。在一些实施方案中,碱基编辑器是与脱氨酶结构域融合的Cas9切口酶(nCas9)。国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述了碱基编辑器,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA without double-strandedDNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable baseediting of A·T to G·C in genomic DNA without DNA cleavage”Nature551,464-471(2017);Komor,A.C.,等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017),和Rees,H.A.,等人,“Base editing:precision chemistry on the genome and transcriptome ofliving cells.”Nat Rev Genet.2018Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容以引用方式并入本文。.
举例来说,用于本文描述的碱基编辑组合物、系统和方法的腺嘌呤碱基编辑器(ABE)具有核酸序列(8877个碱基对),(Addgene,Watertown,MA.;Komor NM等人,2017,SciAdv.,30;3(8):2017Nov23;551(7681):464-471.doi:10.1038/nature24644;Koblan LW,等人,Nat Biotechnol.2018Oct;36(9):843-846.doi:10.1038/nbt.4172。)如下提供。还包括与ABE核酸序列具有至少95%或更高同一性的多核苷酸序列。
ATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACCATGAAACGGACAGCCGACGGAAGCGAGTTCGAGTCACCAAAGAAGAAGCGGAAAGTCTCTGAAGTCGAGTTTAGCCACGAGTATTGGATGAGGCACGCACTGACCCTGGCAAAGCGAGCATGGGATGAAAGAGAAGTCCCCGTGGGCGCCGTGCTGGTGCACAACAATAGAGTGATCGGAGAGGGATGGAACAGGCCAATCGGCCGCCACGACCCTACCGCACACGCAGAGATCATGGCACTGAGGCAGGGAGGCCTGGTCATGCAGAATTACCGCCTGATCGATGCCACCCTGTATGTGACACTGGAGCCATGCGTGATGTGCGCAGGAGCAATGATCCACAGCAGGATCGGAAGAGTGGTGTTCGGAGCACGGGACGCCAAGACCGGCGCAGCAGGCTCCCTGATGGATGTGCTGCACCACCCCGGCATGAACCACCGGGTGGAGATCACAGAGGGAATCCTGGCAGACGAGTGCGCCGCCCTGCTGAGCGATTTCTTTAGAATGCGGAGACAGGAGATCAAGGCCCAGAAGAAGGCACAGAGCTCCACCGACTCTGGAGGATCTAGCGGAGGATCCTCTGGAAGCGAGACACCAGGCACAAGCGAGTCCGCCACACCAGAGAGCTCCGGCGGCTCCTCCGGAGGATCCTCTGAGGTGGAGTTTTCCCACGAGTACTGGATGAGACATGCCCTGACCCTGGCCAAGAGGGCACGCGATGAGAGGGAGGTGCCTGTGGGAGCCGTGCTGGTGCTGAACAATAGAGTGATCGGCGAGGGCTGGAACAGAGCCATCGGCCTGCACGACCCAACAGCCCATGCCGAAATTATGGCCCTGAGACAGGGCGGCCTGGTCATGCAGAACTACAGACTGATTGACGCCACCCTGTACGTGACATTCGAGCCTTGCGTGATGTGCGCCGGCGCCATGATCCACTCTAGGATCGGCCGCGTGGTGTTTGGCGTGAGGAACGCAAAAACCGGCGCCGCAGGCTCCCTGATGGACGTGCTGCACTACCCCGGCATGAATCACCGCGTCGAAATTACCGAGGGAATCCTGGCAGATGAATGTGCCGCCCTGCTGTGCTATTTCTTTCGGATGCCTAGACAGGTGTTCAATGCTCAGAAGAAGGCCCAGAGCTCCACCGACTCCGGAGGATCTAGCGGAGGCTCCTCTGGCTCTGAGACACCTGGCACAAGCGAGAGCGCAACACCTGAAAGCAGCGGGGGCAGCAGCGGGGGGTCAGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACACTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATC
“碱基编辑活性”是指用于化学改变多核苷酸内的碱基。在一个实施方案中,第一个碱基被转化为第二个碱基。在一个实施方案中,所述碱基编辑活性是胞苷脱氨酶活性,例如将靶标C·G转化为T·A。在另一实施方案中,所述碱基编辑活性是腺苷或腺嘌呤脱氨酶活性,例如将靶标A·T转化为C·G。在另一实施方案中,所述碱基编辑活性是胞苷脱氨酶活性,例如将靶标C·G转化为T·A,以及腺苷或腺嘌呤脱氨酶活性,例如将A·T转化为G·C。在一些实施例中,碱基编辑活动通过编辑效率来评估。碱基编辑效率可以通过任何合适的方式来测量,例如,通过桑格测序(sanger sequencing)或次世代测序。在一些实施方案中,碱基编辑效率通过具有受碱基编辑器影响的核碱基转化的总测序读数的百分比来测量,例如,具有转化为G.C碱基对的目标A.T碱基对的总测序读数的百分比。在一些实施方案中,当在细胞群中进行碱基编辑时,碱基编辑效率通过具有受碱基编辑器影响的核碱基转化的总细胞的百分比来测量。
术语“碱基编辑器系统”是指用于编辑目标核苷酸序列的核碱基的系统。在各种实施方案中,所述碱基编辑器系统包含(1)多核苷酸可编程核苷酸结合结构域(例如Cas9);(2)用于使所述核碱基脱氨基的脱氨酶结构域(例如腺苷脱氨酶和/或胞苷脱氨酶;和(3)一种或多种引导多核苷酸(例如引导RNA)。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)。在一些实施方案中,所述碱基编辑器系統是ABE8。
在一些实施方案中,碱基编辑器系统可以包括不止一个碱基编辑组件。例如,碱基编辑器系统可以包括不止一种脱氨酶。在一些实施方案中,碱基编辑器系统可包括一种或多种腺苷脱氨酶。在一些实施方案中,可利用单个引导多核苷酸将不同的脱氨酶靶向靶标核酸序列。在一些实施方案中,可利用一对引导多核苷酸将不同的脱氨酶靶向靶标核酸序列。
碱基编辑器系统的脱氨酶结构域和多核苷酸可编程核苷酸结合组分可以共价或非共价地彼此关联,或其关联和相互作用的任何组合。例如,在一些实施方案中,脱氨酶结构域可以通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是与脱氨酶结构域融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与脱氨酶结构域非共价相互作用或缔合将脱氨酶结构域靶向靶核苷酸序列。例如,在一些实施方案中,脱氨酶结构域可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽连接子。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸连接子。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
碱基编辑器系统可进一步包含引导多核苷酸组件。应当理解,碱基编辑器系统的组件可以通过共价键、非共价相互作用或其关联和相互作用的任何组合彼此关联。在一些实施方案中,脱氨酶结构域可以通过引导多核苷酸靶向靶标核苷酸序列。例如,在一些实施方案中,所述脱氨酶结构域可包含能够与引导多核苷酸的一部分或区段(例如,多核苷酸基序)相互作用、缔合或能够与其形成复合物的另外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)。在一些实施方案中,所述额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与脱氨酶结构域融合或连接。在一些实施方案中,所述额外的异源部分可能能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽连接子。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸连接子。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施例中,碱基编辑器系统可进一步包含碱基切除修复(BER)组分的抑制剂。应当理解,碱基编辑器系统的组件可以通过共价键、非共价相互作用或其关联和相互作用的任何组合彼此关联。BER组分的抑制剂可以包括BER抑制剂。在一些实施例中,BER的抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施例中,BER的抑制剂可以是肌苷BER糖基化酶抑制剂。在一些实施方案中,BER的抑制剂可以通过所述多核苷酸可编程核苷酸结合结构域靶向所述靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与BER的抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域和BER的抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与BER的抑制剂非共价相互作用或缔合将BER的抑制剂靶向靶标核苷酸序列。例如,在一些实施方案中,BER的抑制剂可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、缔合或形成复合物。
在一些实施方案中,BER的抑制剂可以通过所述引导多核苷酸靶向所述靶标核苷酸序列。例如,在一些实施方案中,所述BER的抑制剂可包含能够与引导多核苷酸的一部分或区段(例如,多核苷酸基序)相互作用、缔合或能够与其形成复合物的另外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)。在一些实施方案中,所述引导多核苷酸的额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与BER的抑制剂融合或连接。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽连接子。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸连接子。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
“B细胞成熟抗原,或肿瘤坏死因子受体超家族成员17多肽,(BCMA)”是指与NCBI登录号NP_001183相同的蛋白质或其在成熟B淋巴细胞上表达的片段具有至少约85%的氨基酸序列。以下提供了示例性BCMA多肽序列。
>NP_001183.2肿瘤坏死因子受体超家族成员17[智人]MLQMAGQCSQNEYFDSLLHACIPCQLRCSSNTPPLTCQRYCNASVTNSVKGTNAILWTCLGLSLIISLAVFVLMFLLRKINSEPLKDEFKNTGSGLLGMANIDLEKSRTGDEIILPRGLEYTVEECTCEDCIKSKPKVDSDHCFPLPAMEEGATILVTTKTNDYCKSLPAALSATEIEKSISAR
该抗原可靶向复发或难治性多发性骨髓瘤和其他血液肿瘤治疗。
“B细胞成熟抗原,或肿瘤坏死因子受体超家族成员17,(BCMA)多核苷酸”是指编码BCMA多肽的核酸分子。BCMA基因编码识别B细胞激活因子的细胞表面受体。以下提供了示例性B2M多肽序列。
>NM_001192.2智人TNF受体超家族成员17(TNFRSF17),mRNA AAGACTCAAACTTAGAAACTTGAATTAGATGTGGTATTCAAATCCTTAGCTGCCGCGAAGACACAGACAGCCCCCGTAAGAACCCACGAAGCAGGCGAAGTTCATTGTTCTCAACATTCTAGCTGCTCTTGCTGCATTTGCTCTGGAATTCTTGTAGAGATATTACTTGTCCTTCCAGGCTGTTCTTTCTGTAGCTCCCTTGTTTTCTTTTTGTGATCATGTTGCAGATGGCTGGGCAGTGCTCCCAAAATGAATATTTTGACAGTTTGTTGCATGCTTGCATACCTTGTCAACTTCGATGTTCTTCTAATACTCCTCCTCTAACATGTCAGCGTTATTGTAATGCAAGTGTGACCAATTCAGTGAAAGGAACGAATGCGATTCTCTGGACCTGTTTGGGACTGAGCTTAATAATTTCTTTGGCAGTTTTCGTGCTAATGTTTTTGCTAAGGAAGATAAACTCTGAACCATTAAAGGACGAGTTTAAAAACACAGGATCAGGTCTCCTGGGCATGGCTAACATTGACCTGGAAAAGAGCAGGACTGGTGATGAAATTATTCTTCCGAGAGGCCTCGAGTACACGGTGGAAGAATGCACCTGTGAAGACTGCATCAAGAGCAAACCGAAGGTCGACTCTGACCATTGCTTTCCACTCCCAGCTATGGAGGAAGGCGCAACCATTCTTGTCACCACGAAAACGAATGACTATTGCAAGAGCCTGCCAGCTGCTTTGAGTGCTACGGAGATAGAGAAATCAATTTCTGCTAGGTAATTAACCATTTCGACTCGAGCAGTGCCACTTTAAAAATCTTTTGTCAGAATAGATGATGTGTCAGATCTCTTTAGGATGACTGTATTTTTCAGTTGCCGATACAGCTTTTTGTCCTCTAACTGTGGAAACTCTTTATGTTAGATATATTTCTCTAGGTTACTGTTGGGAGCTTAATGGTAGAAACTTCCTTGGTTTCATGATTAAACTCTTTTTTTTCCTGA
“β-2微球蛋白(B2M)多肽”是指与UniProt登录号P61769或其片段具有至少约85%的氨基酸序列同一性并具有免疫调节活性的蛋白质。以下提供了示例性B2M多肽序列。
>sp|P61769|B2MG_人类Beta-2-微球蛋白OS=智人OX=9606GN=B2M PE=1SV=1
MSRSVALAVLALLSLSGLEAIQRTPKIQVYSRHPAENGKSNFLNCYVSGFHPSDIEVDLL
KNGERIEKVEHSDLSFSKDWSFYLLYYTEFTPTEKDEYACRVNHVTLSQPKIVKWDRDM
“β-2-微球蛋白(B2M)多核苷酸”是指编码B2M多肽的核酸分子。β-2-微球蛋白基因编码一种与主要组织相容性复合体相关的血清蛋白。B2M参与宿主CD8+T细胞的非自我识别。以下提供了示例性B2M多核苷酸序列。
>DQ217933.1智人beta-2-微球蛋白(B2M)基因,完整密码子CATGTCATAAATGGTAAGTCCAAGAAAAATACAGGTATTCCCCCCCAAAGAAAACTGTAAAATCGACTTTTTTCTATCTGTACTGTTTTTTATTGGTTTTTAAATTGGTTTTCCAAGTGAGTAAATCAGAATCTATCTGTAATGGATTTTAAATTTAGTGTTTCTCTGTGATGTAGTAAACAAGAAACTAGAGGCAAAAATAGCCCTGTCCCTTGCTAAACTTCTAAGGCACTTTTCTAGTACAACTCAACACTAACATTTCAGGCCTTTAGTGCCTTATATGAGTTTTTAAAAGGGGGAAAAGGGAGGGAGCAAGAGTGTCTTAACTCATACATTTAGGCATAACAATTATTCTCATATTTTAGTTATTGAGAGGGCTGGTAGAAAAACTAGGTAAATAATATTAATAATTATAGCGCTTATTAAACACTACAGAACACTTACTATGTACCAGGCATTGTGGGAGGCTCTCTCTTGTGCATTATCTCATTTCATTAGGTCCATGGAGAGTATTGCATTTTCTTAGTTTAGGCATGGCCTCCACAATAAAGATTATCAAAAGCCTAAAAATATGTAAAAGAAACCTAGAAGTTATTTGTTGTGCTCCTTGGGGAAGCTAGGCAAATCCTTTCAACTGAAAACCATGGTGACTTCCAAGATCTCTGCCCCTCCCCATCGCCATGGTCCACTTCCTCTTCTCACTGTTCCTCTTAGAAAAGATCTGTGGACTCCACCACCACGAAATGGCGGCACCTTATTTATGGTCACTTTAGAGGGTAGGTTTTCTTAATGGGTCTGCCTGTCATGTTTAACGTCCTTGGCTGGGTCCAAGGCAGATGCAGTCCAAACTCTCACTAAAATTGCCGAGCCCTTTGTCTTCCAGTGTCTAAAATATTAATGTCAATGGAATCAGGCCAGAGTTTGAATTCTAGTCTCTTAGCCTTTGTTTCCCCTGTCCATAAAATGAATGGGGGTAATTCTTTCCTCCTACAGTTTATTTATATATTCACTAATTCATTCATTCATCCATCCATTCGTTCATTCGGTTTACTGAGTACCTACTATGTGCCAGCCCCTGTTCTAGGGTGGAAACTAAGAGAATGATGTACCTAGAGGGCGCTGGAAGCTCTAAAGCCCTAGCAGTTACTGCTTTTACTATTAGTGGTCGTTTTTTTCTCCCCCCCGCCCCCCGACAAATCAACAGAACAAAGAAAATTACCTAAACAGCAAGGACATAGGGAGGAACTTCTTGGCACAGAACTTTCCAAACACTTTTTCCTGAAGGGATACAAGAAGCAAGAAAGGTACTCTTTCACTAGGACCTTCTCTGAGCTGTCCTCAGGATGCTTTTGGGACTATTTTTCTTACCCAGAGAATGGAGAAACCCTGCAGGGAATTCCCAAGCTGTAGTTATAAACAGAAGTTCTCCTTCTGCTAGGTAGCATTCAAAGATCTTAATCTTCTGGGTTTCCGTTTTCTCGAATGAAAAATGCAGGTCCGAGCAGTTAACTGGCTGGGGCACCATTAGCAAGTCACTTAGCATCTCTGGGGCCAGTCTGCAAAGCGAGGGGGCAGCCTTAATGTGCCTCCAGCCTGAAGTCCTAGAATGAGCGCCCGGTGTCCCAAGCTGGGGCGCGCACCCCAGATCGGAGGGCGCCGATGTACAGACAGCAAACTCACCCAGTCTAGTGCATGCCTTCTTAAACATCACGAGACTCTAAGAAAAGGAAACTGAAAACGGGAAAGTCCCTCTCTCTAACCTGGCACTGCGTCGCTGGCTTGGAGACAGGTGACGGTCCCTGCGGGCCTTGTCCTGATTGGCTGGGCACGCGTTTAATATAAGTGGAGGCGTCGCGCTGGCGGGCATTCCTGAAGCTGACAGCATTCGGGCCGAGATGTCTCGCTCCGTGGCCTTAGCTGTGCTCGCGCTACTCTCTCTTTCTGGCCTGGAGGCTATCCAGCGTGAGTCTCTCCTACCCTCCCGCTCTGGTCCTTCCTCTCCCGCTCTGCACCCTCTGTGGCCCTCGCTGTGCTCTCTCGCTCCGTGACTTCCCTTCTCCAAGTTCTCCTTGGTGGCCCGCCGTGGGGCTAGTCCAGGGCTGGATCTCGGGGAAGCGGCGGGGTGGCCTGGGAGTGGGGAAGGGGGTGCGCACCCGGGACGCGCGCTACTTGCCCCTTTCGGCGGGGAGCAGGGGAGACCTTTGGCCTACGGCGACGGGAGGGTCGGGACAAAGTTTAGGGCGTCGATAAGCGTCAGAGCGCCGAGGTTGGGGGAGGGTTTCTCTTCCGCTCTTTCGCGGGGCCTCTGGCTCCCCCAGCGCAGCTGGAGTGGGGGACGGGTAGGCTCGTCCCAAAGGCGCGGCGCTGAGGTTTGTGAACGCGTGGAGGGGCGCTTGGGGTCTGGGGGAGGCGTCGCCCGGGTAAGCCTGTCTGCTGCGGCTCTGCTTCCCTTAGACTGGAGAGCTGTGGACTTCGTCTAGGCGCCCGCTAAGTTCGCATGTCCTAGCACCTCTGGGTCTATGTGGGGCCACACCGTGGGGAGGAAACAGCACGCGACGTTTGTAGAATGCTTGGCTGTGATACAAAGCGGTTTCGAATAATTAACTTATTTGTTCCCATCACATGTCACTTTTAAAAAATTATAAGAACTACCCGTTATTGACATCTTTCTGTGTGCCAAGGACTTTATGTGCTTTGCGTCATTTAATTTTGAAAACAGTTATCTTCCGCCATAGATAACTACTATGGTTATCTTCTGCCTCTCACAGATGAAGAAACTAAGGCACCGAGATTTTAAGAAACTTAATTACACAGGGGATAAATGGCAGCAATCGAGATTGAAGTCAAGCCTAACCAGGGCTTTTGCGGGAGCGCATGCCTTTTGGCTGTAATTCGTGCATTTTTTTTTAAGAAAAACGCCTGCCTTCTGCGTGAGATTCTCCAGAGCAAACTGGGCGGCATGGGCCCTGTGGTCTTTTCGTACAGAGGGCTTCCTCTTTGGCTCTTTGCCTGGTTGTTTCCAAGATGTACTGTGCCTCTTACTTTCGGTTTTGAAAACATGAGGGGGTTGGGCGTGGTAGCTTACGCCTGTAATCCCAGCACTTAGGGAGGCCGAGGCGGGAGGATGGCTTGAGGTCCGTAGTTGAGACCAGCCTGGCCAACATGGTGAAGCCTGGTCTCTACAAAAAATAATAACAAAAATTAGCCGGGTGTGGTGGCTCGTGCCTGTGGTCCCAGCTGCTCCGGTGGCTGAGGCGGGAGGATCTCTTGAGCTTAGGCTTTTGAGCTATCATGGCGCCAGTGCACTCCAGCGTGGGCAACAGAGCGAGACCCTGTCTCTCAAAAAAGAAAAAAAAAAAAAAAGAAAGAGAAAAGAAAAGAAAGAAAGAAGTGAAGGTTTGTCAGTCAGGGGAGCTGTAAAACCATTAATAAAGATAATCCAAGATGGTTACCAAGACTGTTGAGGACGCCAGAGATCTTGAGCACTTTCTAAGTACCTGGCAATACACTAAGCGCGCTCACCTTTTCCTCTGGCAAAACATGATCGAAAGCAGAATGTTTTGATCATGAGAAAATTGCATTTAATTTGAATACAATTTATTTACAACATAAAGGATAATGTATATATCACCACCATTACTGGTATTTGCTGGTTATGTTAGATGTCATTTTAAAAAATAACAATCTGATATTTAAAAAAAAATCTTATTTTGAAAATTTCCAAAGTAATACATGCCATGCATAGACCATTTCTGGAAGATACCACAAGAAACATGTAATGATGATTGCCTCTGAAGGTCTATTTTCCTCCTCTGACCTGTGTGTGGGTTTTGTTTTTGTTTTACTGTGGGCATAAATTAATTTTTCAGTTAAGTTTTGGAAGCTTAAATAACTCTCCAAAAGTCATAAAGCCAGTAACTGGTTGAGCCCAAATTCAAACCCAGCCTGTCTGATACTTGTCCTCTTCTTAGAAAAGATTACAGTGATGCTCTCACAAAATCTTGCCGCCTTCCCTCAAACAGAGAGTTCCAGGCAGGATGAATCTGTGCTCTGATCCCTGAGGCATTTAATATGTTCTTATTATTAGAAGCTCAGATGCAAAGAGCTCTCTTAGCTTTTAATGTTATGAAAAAAATCAGGTCTTCATTAGATTCCCCAATCCACCTCTTGATGGGGCTAGTAGCCTTTCCTTAATGATAGGGTGTTTCTAGAGAGATATATCTGGTCAAGGTGGCCTGGTACTCCTCCTTCTCCCCACAGCCTCCCAGACAAGGAGGAGTAGCTGCCTTTTAGTGATCATGTACCCTGAATATAAGTGTATTTAAAAGAATTTTATACACATATATTTAGTGTCAATCTGTATATTTAGTAGCACTAACACTTCTCTTCATTTTCAATGAAAAATATAGAGTTTATAATATTTTCTTCCCACTTCCCCATGGATGGTCTAGTCATGCCTCTCATTTTGGAAAGTACTGTTTCTGAAACATTAGGCAATATATTCCCAACCTGGCTAGTTTACAGCAATCACCTGTGGATGCTAATTAAAACGCAAATCCCACTGTCACATGCATTACTCCATTTGATCATAATGGAAAGTATGTTCTGTCCCATTTGCCATAGTCCTCACCTATCCCTGTTGTATTTTATCGGGTCCAACTCAACCATTTAAGGTATTTGCCAGCTCTTGTATGCATTTAGGTTTTGTTTCTTTGTTTTTTAGCTCATGAAATTAGGTACAAAGTCAGAGAGGGGTCTGGCATATAAAACCTCAGCAGAAATAAAGAGGTTTTGTTGTTTGGTAAGAACATACCTTGGGTTGGTTGGGCACGGTGGCTCGTGCCTGTAATCCCAACACTTTGGGAGGCCAAGGCAGGCTGATCACTTGAAGTTGGGAGTTCAAGACCAGCCTGGCCAACATGGTGAAATCCCGTCTCTACTGAAAATACAAAAATTAACCAGGCATGGTGGTGTGTGCCTGTAGTCCCAGGAATCACTTGAACCCAGGAGGCGGAGGTTGCAGTGAGCTGAGATCTCACCACTGCACACTGCACTCCAGCCTGGGCAATGGAATGAGATTCCATCCCAAAAAATAAAAAAATAAAAAAATAAAGAACATACCTTGGGTTGATCCACTTAGGAACCTCAGATAATAACATCTGCCACGTATAGAGCAATTGCTATGTCCCAGGCACTCTACTAGACACTTCATACAGTTTAGAAAATCAGATGGGTGTAGATCAAGGCAGGAGCAGGAACCAAAAAGAAAGGCATAAACATAAGAAAAAAAATGGAAGGGGTGGAAACAGAGTACAATAACATGAGTAATTTGATGGGGGCTATTATGAACTGAGAAATGAACTTTGAAAAGTATCTTGGGGCCAAATCATGTAGACTCTTGAGTGATGTGTTAAGGAATGCTATGAGTGCTGAGAGGGCATCAGAAGTCCTTGAGAGCCTCCAGAGAAAGGCTCTTAAAAATGCAGCGCAATCTCCAGTGACAGAAGATACTGCTAGAAATCTGCTAGAAAAAAAACAAAAAAGGCATGTATAGAGGAATTATGAGGGAAAGATACCAAGTCACGGTTTATTCTTCAAAATGGAGGTGGCTTGTTGGGAAGGTGGAAGCTCATTTGGCCAGAGTGGAAATGGAATTGGGAGAAATCGATGACCAAATGTAAACACTTGGTGCCTGATATAGCTTGACACCAAGTTAGCCCCAAGTGAAATACCCTGGCAATATTAATGTGTCTTTTCCCGATATTCCTCAGGTACTCCAAAGATTCAGGTTTACTCACGTCATCCAGCAGAGAATGGAAAGTCAAATTTCCTGAATTGCTATGTGTCTGGGTTTCATCCATCCGACATTGAAGTTGACTTACTGAAGAATGGAGAGAGAATTGAAAAAGTGGAGCATTCAGACTTGTCTTTCAGCAAGGACTGGTCTTTCTATCTCTTGTACTACACTGAATTCACCCCCACTGAAAAAGATGAGTATGCCTGCCGTGTGAACCATGTGACTTTGTCACAGCCCAAGATAGTTAAGTGGGGTAAGTCTTACATTCTTTTGTAAGCTGCTGAAAGTTGTGTATGAGTAGTCATATCATAAAGCTGCTTTGATATAAAAAAGGTCTATGGCCATACTACCCTGAATGAGTCCCATCCCATCTGATATAAACAATCTGCATATTGGGATTGTCAGGGAATGTTCTTAAAGATCAGATTAGTGGCACCTGCTGAGATACTGATGCACAGCATGGTTTCTGAACCAGTAGTTTCCCTGCAGTTGAGCAGGGAGCAGCAGCAGCACTTGCACAAATACATATACACTCTTAACACTTCTTACCTACTGGCTTCCTCTAGCTTTTGTGGCAGCTTCAGGTATATTTAGCACTGAACGAACATCTCAAGAAGGTATAGGCCTTTGTTTGTAAGTCCTGCTGTCCTAGCATCCTATAATCCTGGACTTCTCCAGTACTTTCTGGCTGGATTGGTATCTGAGGCTAGTAGGAAGGGCTTGTTCCTGCTGGGTAGCTCTAAACAATGTATTCATGGGTAGGAACAGCAGCCTATTCTGCCAGCCTTATTTCTAACCATTTTAGACATTTGTTAGTACATGGTATTTTAAAAGTAAAACTTAATGTCTTCCTTTTTTTTCTCCACTGTCTTTTTCATAGATCGAGACATGTAAGCAGCATCATGGAGGTAAGTTTTTGACCTTGAGAAAATGTTTTTGTTTCACTGTCCTGAGGACTATTTATAGACAGCTCTAACATGATAACCCTCACTATGTGGAGAACATTGACAGAGTAACATTTTAGCAGGGAAAGAAGAATCCTACAGGGTCATGTTCCCTTCTCCTGTGGAGTGGCATGAAGAAGGTGTATGGCCCCAGGTATGGCCATATTACTGACCCTCTACAGAGAGGGCAAAGGAACTGCCAGTATGGTATTGCAGGATAAAGGCAGGTGGTTACCCACATTACCTGCAAGGCTTTGATCTTTCTTCTGCCATTTCCACATTGGACATCTCTGCTGAGGAGAGAAAATGAACCACTCTTTTCCTTTGTATAATGTTGTTTTATTCTTCAGACAGAAGAGAGGAGTTATACAGCTCTGCAGACATCCCATTCCTGTATGGGGACTGTGTTTGCCTCTTAGAGGTTCCCAGGCCACTAGAGGAGATAAAGGGAAACAGATTGTTATAACTTGATATAATGATACTATAATAGATGTAACTACAAGGAGCTCCAGAAGCAAGAGAGAGGGAGGAACTTGGACTTCTCTGCATCTTTAGTTGGAGTCCAAAGGCTTTTCAATGAAATTCTACTGCCCAGGGTACATTGATGCTGAAACCCCATTCAAATCTCCTGTTATATTCTAGAACAGGGAATTGATTTGGGAGAGCATCAGGAAGGTGGATGATCTGCCCAGTCACACTGTTAGTAAATTGTAGAGCCAGGACCTGAACTCTAATATAGTCATGTGTTACTTAATGACGGGGACATGTTCTGAGAAATGCTTACACAAACCTAGGTGTTGTAGCCTACTACACGCATAGGCTACATGGTATAGCCTATTGCTCCTAGACTACAAACCTGTACAGCCTGTTACTGTACTGAATACTGTGGGCAGTTGTAACACAATGGTAAGTATTTGTGTATCTAAACATAGAAGTTGCAGTAAAAATATGCTATTTTAATCTTATGAGACCACTGTCATATATACAGTCCATCATTGACCAAAACATCATATCAGCATTTTTTCTTCTAAGATTTTGGGAGCACCAAAGGGATACACTAACAGGATATACTCTTTATAATGGGTTTGGAGAACTGTCTGCAGCTACTTCTTTTAAAAAGGTGATCTACACAGTAGAAATTAGACAAGTTTGGTAATGAGATCTGCAATCCAAATAAAATAAATTCATTGCTAACCTTTTTCTTTTCTTTTCAGGTTTGAAGATGCCGCATTTGGATTGGATGAATTCCAAATTCTGCTTGCTTGCTTTTTAATATTGATATGCTTATACACTTACACTTTATGCACAAAATGTAGGGTTATAATAATGTTAACATGGACATGATCTTCTTTATAATTCTACTTTGAGTGCTGTCTCCATGTTTGATGTATCTGAGCAGGTTGCTCCACAGGTAGCTCTAGGAGGGCTGGCAACTTAGAGGTGGGGAGCAGAGAATTCTCTTATCCAACATCAACATCTTGGTCAGATTTGAACTCTTCAATCTCTTGCACTCAAAGCTTGTTAAGATAGTTAAGCGTGCATAAGTTAACTTCCAATTTACATACTCTGCTTAGAATTTGGGGGAAAATTTAGAAATATAATTGACAGGATTATTGGAAATTTGTTATAATGAATGAAACATTTTGTCATATAAGATTCATATTTACTTCTTATACATTTGATAAAGTAAGGCATGGTTGTGGTTAATCTGGTTTATTTTTGTTCCACAAGTTAAATAAATCATAAAACTTGATGTGTTATCTCTTATATCTCACTCCCACTATTACCCCTTTATTTTCAAACAGGGAAACAGTCTTCAAGTTCCACTTGGTAAAAAATGTGAACCCCTTGTATATAGAGTTTGGCTCACAGTGTAAAGGGCCTCAGTGATTCACATTTTCCAGATTAGGAATCTGATGCTCAAAGAAGTTAAATGGCATAGTTGGGGTGACACAGCTGTCTAGTGGGAGGCCAGCCTTCTATATTTTAGCCAGCGTTCTTTCCTGCGGGCCAGGTCATGAGGAGTATGCAGACTCTAAGAGGGAGCAAAAGTATCTGAAGGATTTAATATTTTAGCAAGGAATAGATATACAATCATCCCTTGGTCTCCCTGGGGGATTGGTTTCAGGACCCCTTCTTGGACACCAAATCTATGGATATTTAAGTCCCTTCTATAAAATGGTATAGTATTTGCATATAACCTATCCACATCCTCCTGTATACTTTAAATCATTTCTAGATTACTTGTAATACCTAATACAATGTAAATGCTATGCAAATAGTTGTTATTGTTTAAGGAATAATGACAAGAAAAAAAAGTCTGTACATGCTCAGTAAAGACACAACCATCCCTTTTTTTCCCCAGTGTTTTTGATCCATGGTTTGCTGAATCCACAGATGTGGAGCCCCTGGATACGGAAGGCCCGCTGTACTTTGAATGACAAATAACAGATTTAAA
术语“Cas9”或“Cas9结构域”是指RNA引导的核酸酶,其包含Cas9蛋白或其片段(例如,包含Cas9的活性、无活性或部分活性的DNA切割结构域的蛋白,和/或gRNA Cas9的结合结构域)。Cas9核酸酶有时也称为Casnl核酸酶或CRISPR(规律成簇间隔短回文重复序列)相关核酸酶。CRISPR是一种适应性免疫系统,可针对移动遗传元件(病毒、转座元件和接合质粒)提供保护。CRISPR簇包含间隔序列、与先行移动元件互补的序列和靶标入侵核酸。CRISPR簇被转录并加工成CRISPR RNA(crRNA)。在第II型CRISPR系统中,正确处理pre-crRNA需要转编码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA作为核糖核酸酶3辅助处理pre-crRNA的引导。随后,Cas9/crRNA/tracrRNA核酸内切切割与间隔序列互补的线性或环状dsDNA靶标。与crRNA不互补的靶标链首先通过核酸内切方式切割,然后通过核酸外切方式修剪3′-5'。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,可以对单引导RNA(“sgRNA,”或简称为“gRNA”)进行工程改造,以便将crRNA和tracrRNA的各个方面整合到单个RNA种类中。参见,如,Jinek M.等人,Science 337:816-821(2012),其全部内容以引用方式并入本文。Cas9识别CRISPR重复序列(PAM或原间隔序列临近基序)中的一个短基序,以帮助区分自我与非自我。Cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,如“Complete genome sequence of an M1 strain ofStreptococcus pyogenes.”Ferretti等人,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factorRNase III.”Deltcheva E.等人,Nature 471:602-607(2011);和“Aprogrammable dual-RNA-guided DNA endonuclease in adaptive bacterial immunity.”Jinek M.等人,Science 337:816-821(2012)。,全部内容以引用方式并入本文)。Cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的Cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski,Rhun,和Charpentier,“The tracrRNA and Cas9 families of type IICRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737中公开的生物体和基因座的Cas9序列;其全部内容在此引入作为参考。
示例性的Cas9是化脓性链球菌Cas9(spCas9),其氨基酸序列提供如下:
Figure BDA0003298963610000421
Figure BDA0003298963610000431
(单下划线:HNH结构域;双下划线:RuvC结构域)
核酸酶灭活的Cas9蛋白可互换地称为“dCas9”蛋白(对于核酸酶-“死的”Cas9)或催化灭活的Cas9。用于产生具有无活性DNA切割结构域的Cas9蛋白(或其片段)的方法是已知的(参见,如Jinek等人,Science.337:816-821(2012);Qi等人“Repurposing CRISPR asan RNA-Guided Platform for Sequence-Specific Control of Gene Expression”(2013)Cell.28;152(5):1173-83,其全部内容以引用方式并入本文)。例如,已知Cas9的DNA切割结构域包括两个子结构域,HNH核酸酶子结构域和RuvC1子结构域。HNH子结构域切割与gRNA互补的链,而RuvC1子结构域切割非互补链。这些子结构域内的突变可以使Cas9的核酸酶活性静默。例如,突变D10A和H840A使化脓性链球菌Cas9的核酸酶活性完全灭活(Jinek等人,Science.337:816-821(2012);Qi等人,Cell.28:152(5):1173-83(2013)).在一些实施方案中,Cas9核酸酶具有无活性(例如,灭活的)DNA切割结构域,即,Cas9是切口酶,称为“nCas9”蛋白(对于“切口酶”Cas9)。在一些实施方案中,提供了包含Cas9片段的蛋白。例如,在一些实施例中,蛋白包含两个Cas9结构域之一:(1)Cas9的gRNA结合结构域;或(2)Cas9的DNA切割结构域。在一些实施方案中,包含Cas9或其片段的蛋白被称为“Cas9变体”。Cas9变体与Cas9或其片段具有同源性。例如,Cas9变体与野生型Cas9至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,与野生型Cas9相比,Cas9变体可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的氨基酸变化。在一些实施例中,Cas9变体包含Cas9的片段(例如,gRNA结合结构域或DNA切割结构域),使得该片段与野生型Cas9的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,所述片段是至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%相应野生型Cas9的氨基酸长度。
在一些实施例中,所述片段的长度为至少100个氨基酸。在一些实施方案中,所述片段的长度为至少100、150、200、250、300、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或1300个氨基酸。
在一些实施例中,野生型Cas9对应于来自化脓性链球菌的Cas9(NCBI参考序列:NC_017053.1,核苷酸和氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003298963610000471
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方案中,野生型Cas9对应于或包含以下核苷酸和/或氨基酸序列:
ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA
Figure BDA0003298963610000501
Figure BDA0003298963610000511
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施例中,野生型Cas9对应于来自化脓性链球菌的Cas9(NCBI参考序列:NC_002737.2(核苷酸序列如下);和Uniprot参考序列:Q99ZW2(氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003298963610000533
Figure BDA0003298963610000544
Figure BDA0003298963610000545
(SEQ ID NO:1.单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方案中,Cas9是指来自以下的Cas9:溃疡棒状杆菌(Corynebacteriumulcerans)(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);螺旋原体(Spiroplasma syrphidicola)(NCBI Refs:NC_021284.1);中間普雷沃菌(Prevotellaintermedia)(NCBI Refs:NC_017861.1);中国台湾螺旋体(Spiroplasma taiwanense,China)(NCBI Refs:NC_021846.1);链球菌(Streptococcus iniae)(NCBI Refs:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Refs:NC_018010.1);扭曲冷弯曲菌(Psychroflexus torquisI)(NCBI Refs:NC_018721.1);嗜热链球菌(Streptococcusthermophilus)(NCBI Refs:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBIRefs:NP_472073.1);曲状杆菌(Campylobacter jejuni)(NCBI Refs:YP_002344900.1);脑膜炎双球菌(Neisseria meningitidis)(NCBI Refs:YP_002342100.1)或来自任何其他生物体的Cas9。
在一些实施方案中,Cas9来自脑膜炎双球菌(Nme)。在一些实施方案中,所述Cas9是Nme1、Nme2或Nme3。在一些实施例中,Nme1、Nme2或Nme3的PAM相互作用結構域分别是N4GAT、N4CC和N4CAAA(参见,如Edraki,A.等人,A Compact,High-Accuracy Cas9 with aDinucleotide PAM for In Vivo Genome Editing,Molecular Cell(2018)).示例性脑膜炎双球菌Cas9蛋白Nme1Cas9,(NCBIReference:WP_002235162.1;第II型CRISPR RNA引导的核酸内切酶Cas9)具有以下氨基酸序列:
Figure BDA0003298963610000551
另一示例性脑膜炎双球菌Cas9蛋白Nme2Cas9,(NCBIReference:WP_002230835;第II型CRISPR RNA引导的核酸内切酶Cas9)具有以下氨基酸序列:
Figure BDA0003298963610000552
Figure BDA0003298963610000561
在一些实施方案中,dCas9对应于或部分或全部包含具有一个或多个使Cas9核酸酶活性灭活的突变的Cas9氨基酸序列。例如,在一些实施方案中,dCas9结构域包含D10A和H840A突变或另一个Cas9中的相应突变。在一些实施例中,dCas9包含dCas9(D10A和H840A)的氨基酸序列:
Figure BDA0003298963610000562
Figure BDA0003298963610000571
(单下划线:HNH结构域;双下划线:RuvC结构域)。
在一些实施方案中,所述Cas9结构域包含D10A突变,而840位的残基在上文提供的氨基酸序列中或在本文提供的任何氨基酸序列中的相应位置处仍为组氨酸
在其他实施方案中,提供了具有除D10A和H840A之外的突变的dCas9变体,其例如导致核酸酶灭活的Cas9(dCas9)。例如,此类突变包括在D10和H840处的其他氨基酸置换,或Cas9核酸酶域内的其他置换(例如,HNH核酸酶亚域和/或RuvC1亚域中的置换)。在一些实施例中,提供了dCas9的变体或同源物,其至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供具有较短或较长约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方案中,本文提供的Cas9融合蛋白包含Cas9蛋白的全长氨基酸序列,例如本文提供的Cas9序列之一。然而,在其他实施方案中,本文提供的融合蛋白不包含全长Cas9序列,而仅包含其一个或多个片段。本文提供了合适的Cas9结构域和Cas9片段的示例性氨基酸序列,并且Cas9结构域和片段的其他合适的序列对本领域技术人员来说是显而易见的。
应当理解,额外的Cas9蛋白(例如,核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9),包括其变体和同系物,在本公开内容的范围内。示例性的Cas9蛋白包括但不限于以下提供的那些。在一些实施方案中,所述Cas9蛋白是核酸酶无活性的Cas9(dCas9)。在一些实施方案中,所述Cas9蛋白是一种Cas9切口酶(nCas9)。在一些实施方案中,所述Cas9蛋白是一种具有核酸酶活性的Cas9。
示例性无催化活性的Cas9(dCas9):
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性催化活性的Cas9切口酶(nCas9):
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性催化活性的Cas9:
DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.
在一些实施方案中,Cas9是指来自古细菌(例如纳米古细菌)的Cas9,其构成单细胞原核微生物的域和界。在一些实施例中,Cas9是指CasX或CasY,其已被描述在例如,Burstein等人,"New CRISPR-Cas systems from uncultivated microbes."CellRes.2017Feb 21.doi:10.1038/cr.2017.21,其全部内容以引用方式并入本文。使用基因组解析的宏基因组学,确定了许多CRISPR-Cas系统,包括在古细菌领域首次报道的Cas9。这种发散的Cas9蛋白在很少被研究的纳米古细菌中被发现,作为活性CRISPR-Cas系统的一部分。在细菌中,发现了两个以前未知的系统,CRISPR-CasX和CRISPR-CasY,它们是迄今为止发现的最紧凑的系统之一。在一些实施例中,Cas9是指CasX,或CasX的变体。在一些实施例中,Cas9是指CasY,或CasY的变体。应当理解,其他RNA引导的DNA结合蛋白可以用作核酸可编程DNA结合蛋白(napDNAbp),并且在本公开的范围内。
在特定的实施方案中,可用于本发明的方法中的napDNAbps包括本领域已知的并且描述的环状置换物,例如由Oakes等人,Cell 176,254–267,2019.示例性环状置换如下,其中粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示双核定位,
CP5(with MSP“NGC=带有突变的Pam变体常规Cas9类NGG”PID=蛋白质相互作用结构域和“D10A”切口酶):
Figure BDA0003298963610000611
Figure BDA0003298963610000621
可并入碱基编辑器的多核苷酸可编程核苷酸结合结构域的非限制性实例包括CRISPR蛋白衍生结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是CasX或CasY蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的CasX或CasY蛋白相同。在一些实施方案中,napDNAbp是天然存在的CasX或CasY蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何CasX或CasY蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12b/C2c1、CasX和CasY。
Cas12b/C2c1(uniprot.org/uniprot/T0D7A2#2)
sp|T0D7A2|C2C1_ALIAG CRISPR-associated endo-nuclease C2c1 OS=酸土脂环杆菌(Alicyclobacillus acido-terrestris)(strain ATCC 49025/DSM 3922/CIP106132/NCIMB 13137/GD3B)GN=c2c1 PE=1SV=1
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMVNQRIEGYLVKQIRSRVPLQDSACENTGDI
CasX(uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)
>tr|F0NN87|F0NN87_SULIH CRISPR-associated Casx protein OS=冰岛硫化叶菌(Sulfolobus islandicus)(strain HVE10/4)GN=SiH_0402PE=4SV=1
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG
>tr|F0NH53|F0NH53_SULIR CRISPRassociated protein,Casx OS=冰岛硫化叶菌(Sulfolobus islandicus)(strain REY15A)GN=SiRe_0771PE=4SV=1
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG
Delta變形菌CasX
MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
CasY(ncbi.nlm.nih.gov/protein/APG80656.1)
>APG80656.1 CRISPR-associated protein CasY[u未培养的俭菌(Parcubacteria)菌群]
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI
术语“Cas12”或“Cas12结构域”是指RNA引导的核酸酶,其包含Cas12蛋白或其片段(例如,包含Cas12的活性、无活性或部分活性的DNA切割结构域的蛋白,和/或gRNA Cas12的结合结构域)。Cas12属于2类V型CRISPR/Cas系统。Cas12核酸酶有时也称为CRISPR(规律成簇间隔短回文重复序列)相关核酸酶。下面提供了示例性外村尚芽孢杆菌Cas 12b(BhCas12b)Cas 12结构域的序列:
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK.
与BhCas12b氨基酸序列具有至少85%或更高同一性的氨基酸序列也可用于本发明内容的方法。
“Cbl原癌基因B(CBLB)多肽”是指与基因库登录号ABC86700.1或其参与免疫反应调节的片段具有至少约85%氨基酸序列同一性的蛋白质。以下提供了示例性CBLB多肽序列。
>ABC86700.1 CBL-B[智人]
MANSMNGRNPGGRGGNPRKGRILGIIDAIQDAVGPPKQAAADRRTVEKTWKLMDKVVRLCQNPKLQLKNSPPYILDILPDTYQHLRLILSKYDDNQKLAQLSENEYFKIYIDSLMKKSKRAIRLFKEGKERMYEEQSQDRRNLTKLSLIFSHMLAEIKAIFPNGQFQGDNFRITKADAAEFWRKFFGDKTIVPWKVFRQCLHEVHQISSGLEAMALKSTIDLTCNDYISVFEFDIFTRLFQPWGSILRNWNFLAVTHPGYMAFLTYDEVKARLQKYSTKPGSYIFRLSCTRLGQWAIGYVTGDGNILQTIPHNKPLFQALIDGSREGFYLYPDGRSYNPDLTGLCEPTPHDHIKVTQEQYELYCEMGSTFQLCKICAENDKDVKIEPCGHLMCTSCLTAWQESDGQGCPFCRCEIKGTEPIIVDPFDPRDEGSRCCSIIDPFGMPMLDLDDDDDREESLMMNRLANVRKCTDRQNSPVTSPGSSPLAQRRKPQPDPLQIPHLSLPPVPPRLDLIQKGIVRSPCGSPTGSPKSSPCMVRKQDKPLPAPPPPLRDPPPPPPERPPPIPPDNRLSRHIHHVESVPSRDPPMPLEAWCPRDVFGTNQLVGCRLLGEGSPKPGITASSNVNGRHSRVGSDPVLMRKHRRHDLPLEGAKVFSNGHLGSEEYDVPPRLSPPPPVTTLLPSIKCTGPLANSLSEKTRDPVEEDDDEYKIPSSHPVSLNSQPSHCHNVKPPVRSCDNGHCMLNGTHGPSSEKKSNIPDLSIYLKGDVFDSASDPVPLPPARPPTRDNPKHGSSLNRTPSDYDLLIPPLGEDAFDALPPSLPPPPPPARHSLIEHSKPPGSSSRPSSGQDLFLLPSDPFVDLASGQVPLPPARRLPGENVKTNRTSQDYDQLPSCSDGSQAPARPPKPRPRRTAPEIHHRKPHGPEAALENVDAKIAKLMGEGYAFEEVKRALEIAQNNVEVARSILREFAFPPPVSPRLNL
“Cbl原癌基因B(CBLB)多核苷酸”是指编码CBLB多肽的核酸分子。CBLB基因编码E3泛素连接酶。以下提供了示例性CBLB核酸序列。
>DQ349203.1智人CBL-B mRNA,完整密码子
ATGGCAAACTCAATGAATGGCAGAAACCCTGGTGGTCGAGGAGGAAATCCCCGAAAAGGTCGAATTTTGGGTATTATTGATGCTATTCAGGATGCAGTTGGACCCCCTAAGCAAGCTGCCGCAGATCGCAGGACCGTGGAGAAGACTTGGAAGCTCATGGACAAAGTGGTAAGACTGTGCCAAAATCCCAAACTTCAGTTGAAAAATAGCCCACCATATATACTTGATATTTTGCCTGATACATATCAGCATTTACGACTTATATTGAGTAAATATGATGACAACCAGAAACTTGCCCAACTCAGTGAGAATGAGTACTTTAAAATCTACATTGATAGCCTTATGAAAAAGTCAAAACGGGCAATAAGACTCTTTAAAGAAGGCAAGGAGAGAATGTATGAAGAACAGTCACAGGACAGACGAAATCTCACAAAACTGTCCCTTATCTTCAGTCACATGCTGGCAGAAATCAAAGCAATCTTTCCCAATGGTCAATTCCAGGGAGATAACTTTCGTATCACAAAAGCAGATGCTGCTGAATTCTGGAGAAAGTTTTTTGGAGACAAAACTATCGTACCATGGAAAGTATTCAGACAGTGCCTTCATGAGGTCCACCAGATTAGCTCTGGCCTGGAAGCAATGGCTCTAAAATCAACAATTGATTTAACTTGCAATGATTACATTTCAGTTTTTGAATTTGATATTTTTACCAGGCTGTTTCAGCCTTGGGGCTCTATTTTGCGGAATTGGAATTTCTTAGCTGTGACACATCCAGGTTACATGGCATTTCTCACATATGATGAAGTTAAAGCACGACTACAGAAATATAGCACCAAACCCGGAAGCTATATTTTCCGGTTAAGTTGCACTCGATTGGGACAGTGGGCCATTGGCTATGTGACTGGGGATGGGAATATCTTACAGACCATACCTCATAACAAGCCCTTATTTCAAGCCCTGATTGATGGCAGCAGGGAAGGATTTTATCTTTATCCTGATGGGAGGAGTTATAATCCTGATTTAACTGGATTATGTGAACCTACACCTCATGACCATATAAAAGTTACACAGGAACAATATGAATTATATTGTGAAATGGGCTCCACTTTTCAGCTCTGTAAGATTTGTGCAGAGAATGACAAAGATGTCAAGATTGAGCCTTGTGGGCATTTGATGTGCACCTCTTGCCTTACGGCATGGCAGGAGTCGGATGGTCAGGGCTGCCCTTTCTGTCGTTGTGAAATAAAAGGAACTGAGCCCATAATCGTGGACCCCTTTGATCCAAGAGATGAAGGCTCCAGGTGTTGCAGCATCATTGACCCCTTTGGCATGCCGATGCTAGACTTGGACGACGATGATGATCGTGAGGAGTCCTTGATGATGAATCGGTTGGCAAACGTCCGAAAGTGCACTGACAGGCAGAACTCACCAGTCACATCACCAGGATCCTCTCCCCTTGCCCAGAGAAGAAAGCCACAGCCTGACCCACTCCAGATCCCACATCTAAGCCTGCCACCCGTGCCTCCTCGCCTGGATCTAATTCAGAAAGGCATAGTTAGATCTCCCTGTGGCAGCCCAACGGGTTCACCAAAGTCTTCTCCTTGCATGGTGAGAAAACAAGATAAACCACTCCCAGCACCACCTCCTCCCTTAAGAGATCCTCCTCCACCGCCACCTGAAAGACCTCCACCAATCCCACCAGACAATAGACTGAGTAGACACATCCATCATGTGGAAAGCGTGCCTTCCAGAGACCCGCCAATGCCTCTTGAAGCATGGTGCCCTCGGGATGTGTTTGGGACTAATCAGCTTGTGGGATGTCGACTCCTAGGGGAGGGCTCTCCAAAACCTGGAATCACAGCGAGTTCAAATGTCAATGGAAGGCACAGTAGAGTGGGCTCTGACCCAGTGCTTATGCGGAAACACAGACGCCATGATTTGCCTTTAGAAGGAGCTAAGGTCTTTTCCAATGGTCACCTTGGAAGTGAAGAATATGATGTTCCTCCCCGGCTTTCTCCTCCTCCTCCAGTTACCACCCTCCTCCCTAGCATAAAGTGTACTGGTCCGTTAGCAAATTCTCTTTCAGAGAAAACAAGAGACCCAGTAGAGGAAGATGATGATGAATACAAGATTCCTTCATCCCACCCTGTTTCCCTGAATTCACAACCATCTCATTGTCATAATGTAAAACCTCCTGTTCGGTCTTGTGATAATGGTCACTGTATGCTGAATGGAACACATGGTCCATCTTCAGAGAAGAAATCAAACATCCCTGACTTAAGCATATATTTAAAGGGAGATGTTTTTGATTCAGCCTCTGATCCCGTGCCATTACCACCTGCCAGGCCTCCAACTCGGGACAATCCAAAGCATGGTTCTTCACTCAACAGGACGCCCTCTGATTATGATCTTCTCATCCCTCCATTAGGTGAAGATGCTTTTGATGCCCTCCCTCCATCTCTCCCACCTCCCCCACCTCCTGCAAGGCATAGTCTCATTGAACATTCAAAACCTCCTGGCTCCAGTAGCCGGCCATCCTCAGGACAGGATCTTTTTCTTCTTCCTTCAGATCCCTTTGTTGATCTAGCAAGTGGCCAAGTTCCTTTGCCTCCTGCTAGAAGGTTACCAGGTGAAAATGTCAAAACTAACAGAACATCACAGGACTATGATCAGCTTCCTTCATGTTCAGATGGTTCACAGGCACCAGCCAGACCCCCTAAACCACGACCGCGCAGGACTGCACCAGAAATTCACCACAGAAAACCCCATGGGCCTGAGGCGGCATTGGAAAATGTCGATGCAAAAATTGCAAAACTCATGGGAGAGGGTTATGCCTTTGAAGAGGTGAAGAGAGCCTTAGAGATAGCCCAGAATAATGTCGAAGTTGCCCGGAGCATCCTCCGAGAATTTGCCTTCCCTCCTCCAGTATCCCCACGTCTAAATCTATAG
“嵌合抗原受体”或“CAR”是指包含细胞外抗原结合结构域、跨膜结构域和赋予免疫细胞抗原特异性的细胞内信号结构域的合成受体。
“II类主要组织相容性复合反式激活因子(CIITA)多肽”是指与NCBI参考序列:NP_000237.2或其片段具有至少约85%氨基酸序列同一性的蛋白质,或其作为转录共激活因子。以下提供了示例性CIITA多肽序列。
Figure BDA0003298963610000691
“II类主要组织相容性复合反式激活因子(CIITA)多核苷酸”是指编码CIITA多肽的核酸分子。以下提供了示例性CIITA核酸序列。
Figure BDA0003298963610000692
Figure BDA0003298963610000701
Figure BDA0003298963610000711
“分化簇7(CD7)多肽”是指与NCBI参考序列:NP_006128.1或其片段具有至少约85%氨基酸序列同一性的蛋白质,其参与T细胞和T细胞/B细胞相互作用。以下提供了示例性CD7多肽序列。
Figure BDA0003298963610000712
“分化簇7(CD7)多核苷酸”是指编码CD7多肽的核酸分子。所述CD7基因编码跨膜蛋白。以下提供了示例性CD7核酸序列。
Figure BDA0003298963610000713
Figure BDA0003298963610000721
“分化簇5(CD5)多肽”是指与NCBI参考序列:NP_001333385.1或其片段具有至少约85%氨基酸序列同一性的蛋白质,其在T细胞表面表达。以下提供了示例性CD5多肽序列。
Figure BDA0003298963610000722
“分化簇5(CD5)多核苷酸”是指编码CD5多肽的核酸分子。所述CD5基因编码跨膜蛋白。以下提供了示例性CD5核酸序列。
Figure BDA0003298963610000723
Figure BDA0003298963610000731
术语“保守氨基酸置换”或“保守突变”是指一个氨基酸被具有共同特性的另一个氨基酸置换。定义单个氨基酸之间共同特性的一种功能方法是分析同源生物的相应蛋白质之间氨基酸变化的标准化频率(Schulz,G.E.和Schirmer,R.H.,Principles of ProteinStructure,Springer-Verlag,New York(1979)).根据这样的分析,可以定义氨基酸组,其中组内的氨基酸优先相互交换,因此在它们对整体蛋白质结构的影响方面彼此最相似(Schulz,G.E.和Schirmer,R.H.,supra).保守突变的非限制性实例包括氨基酸的氨基酸置换,例如精氨酸的赖氨酸和反之亦然,从而可以保持正电荷;谷氨酸对天冬氨酸,反之亦然,以保持负电荷;苏氨酸的丝氨酸,这样可以保持一个游离的-OH;和谷氨酰胺用于天冬酰胺,这样可以保持游离的-NH2
如本文可互换使用的术语“编码序列”或“蛋白质编码序列”是指编码蛋白质的多核苷酸片段。该区域或序列在靠近5'端的地方有一个起始密码子,在靠近3'端的地方有一个终止密码子。编码序列也可称为开放阅读框。
“细胞毒性T淋巴细胞相关蛋白4(CTLA-4)多肽”是指与NCBI登录号EAW70354.1或其片段具有至少约85%序列同一性的蛋白质。以下提供了示例性氨基酸序列:
>EAW70354.1细胞毒性T淋巴细胞相关蛋白4[智人]
MACLGFQRHKAQLNLATRTWPCTLLFFLLFIPVFCKAMHVAQPAVVLASSRGIASFVCEYASPGKATEVRVTVLRQADSQVTEVCAATYMMGNELTFLDDSICTGTSSGNQVNLTIQGLRAMDTGLYICKVELMYPPPYYLGIGNGTQIYVIDPEPCPDSDFLLWILAAVSSGLFFYSFLLTAVSLSKMLKKRSPLTTGVYVKMPPTEPECEKQFQPYFIPIN
“细胞毒性T淋巴细胞相关蛋白4(CTLA-4)多核苷酸”是指编码CTLA-4多肽的核酸分子。所述CTLA-4基因编码一个免疫球蛋白超家族,并编码一种向T细胞传递抑制信号的蛋白质。以下提供了示例性的CTLA-4核酸序列。
>BC074842.2智人细胞毒性T淋巴细胞相关蛋白4,mRNA(cDNA clone MGC:104099IMAGE:30915552),complete cds
GACCTGAACACCGCTCCCATAAAGCCATGGCTTGCCTTGGATTTCAGCGGCACAAGGCTCAGCTGAACCTGGCTACCAGGACCTGGCCCTGCACTCTCCTGTTTTTTCTTCTCTTCATCCCTGTCTTCTGCAAAGCAATGCACGTGGCCCAGCCTGCTGTGGTACTGGCCAGCAGCCGAGGCATCGCCAGCTTTGTGTGTGAGTATGCATCTCCAGGCAAAGCCACTGAGGTCCGGGTGACAGTGCTTCGGCAGGCTGACAGCCAGGTGACTGAAGTCTGTGCGGCAACCTACATGATGGGGAATGAGTTGACCTTCCTAGATGATTCCATCTGCACGGGCACCTCCAGTGGAAATCAAGTGAACCTCACTATCCAAGGACTGAGGGCCATGGACACGGGACTCTACATCTGCAAGGTGGAGCTCATGTACCCACCGCCATACTACCTGGGCATAGGCAACGGAACCCAGATTTATGTAATTGATCCAGAACCGTGCCCAGATTCTGACTTCCTCCTCTGGATCCTTGCAGCAGTTAGTTCGGGGTTGTTTTTTTATAGCTTTCTCCTCACAGCTGTTTCTTTGAGCAAAATGCTAAAGAAAAGAAGCCCTCTTACAACAGGGGTCTATGTGAAAATGCCCCCAACAGAGCCAGAATGTGAAAAGCAATTTCAGCCTTATTTTATTCCCATCAATTGAGAAACCATTATGAAGAAGAGAGTCCATATTTCAATTTCCAAGAGCTGAGG
如本文所用,术语“脱氨酶”或“脱氨酶结构域”是指催化脱氨反应的蛋白质或酶。在一些实施方案中,脱氨酶是腺苷脱氨酶,其催化腺嘌呤水解脱氨为次黄嘌呤。在一些实施方案中,所述腺苷脱氨酶催化腺苷或腺嘌呤(A)水解脱氨基为肌苷(I)。在一些实施方案中,所述脱氨酶或脱氨酶结构域是分别催化腺苷或脱氧腺苷水解脱氨基为肌苷或脱氧肌苷的腺苷脱氨酶。在一些实施方案中,所述腺苷脱氨酶催化脱氧核糖核酸(DNA)中腺苷的水解脱氨。本文提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶、进化的腺苷脱氨酶)可来自任何生物体,例如细菌。在一些实施方案中,所述腺苷脱氨酶来自细菌,例如大肠杆菌、金黄色葡萄球菌、鼠伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、柄杆菌。
在一些实施方案中,所述腺苷脱氨酶是TadA脱氨酶。在一些实施方案中,所述TadA脱氨酶是TadA变体。在一些实施方案中,所述TadA变体是TadA*8。在一些实施方案中,所述脱氨酶或脱氨酶结构域是来自生物体例如人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的天然存在的脱氨酶的变体。在一些实施方案中,所述脱氨酶或脱氨酶结构域不存在于自然界。例如,在一些实施例中,所述脱氨酶或脱氨酶结构域为至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%或至少99.9%与天然存在的脱氨酶相同。例如,国际PCT申请号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中描述了脱氨酶结构域,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage”Nature551,464-471(2017);Komor,A.C.,等人,“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)),和Rees,H.A.,等人,“Base editing:precision chemistry on thegenome and transcriptome of living cells.”Nat Rev Genet.2018Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容以引用方式并入本文。.
“检测”是指鉴定待检测分析物的存在、不存在或量。在一个实施方案中,检测多核苷酸或多肽中的序列改变。在另一个实施方案中,检测插入缺失的存在。
“可检测标记”是指一种组合物,当与感兴趣的分子连接时,通过光谱、光化学、生物化学、免疫化学或化学手段使后者可检测。例如,有用的标记包括放射性同位素、磁珠、金属珠、胶体颗粒、荧光染料、电子致密试剂、酶(例如,通常用于ELISA)、生物素、地高辛或半抗原。
“疾病”是指损害或干扰细胞、组织或器官的正常功能的任何病症或病症。在一个实施方案中,疾病是肿瘤或癌症。
如本文所用,术语“有效量”是指足以引发所需生物反应的生物活性剂的量。用于实践本发明内容以治疗疾病的活性剂的有效量根据给药方式、受试者的年龄、体重和一般健康而变化。最终,主治医师或兽医将决定适当的量和剂量方案。这种量被称为“有效”量。在一个实施方案中,有效量是足以在细胞中的感兴趣基因中引入改变的本发明的碱基编辑器(例如,包含可编程DNA结合蛋白、核碱基编辑器和gRNA的融合蛋白)的量。例如,体外或体内细胞)。在一个实施方案中,有效量是实现治疗效果(例如,减轻或控制疾病或其症状或病症)所需的碱基编辑器的量。这种治疗效果不需要足以改变受试者、组织或器官的所有细胞中的感兴趣基因,而仅改变存在于受试者、组织或器官中的细胞的约1%、5%、10%、25%、50%、75%的感兴趣基因或更多。
如本文所用,“表位(Epitope)”是指抗原决定簇。表位是抗原分子的一部分,通过其结构决定识别和结合它的特定抗体分子。
“片段”是指多肽或核酸分子的一部分。该部分包含参考核酸分子或多肽全长的至少约10%、20%、30%、40%、50%、60%、70%、80%或90%。片段可包含10、20、30、40、50、60、70、80、90或100、200、300、400、500、600、700、800、900或1000个核苷酸或氨基酸。
“移植物抗宿主病”(GVHD)是指供体的移植细胞产生针对宿主细胞的免疫反应的病理状况。
“引导RNA”或“gRNA”是指可以特异于靶标序列并且可以与多核苷酸可编程核苷酸结合结构域蛋白(例如Cas9或Cpf1)形成复合物的多核苷酸。在一个实施方案中,引导多核苷酸是引导RNA(gRNA)。gRNA可以作为两个或多个RNA的复合物存在,也可以作为单个RNA分子存在。以单个RNA分子形式存在的gRNA可称为单引导RNA(sgRNA),但“gRNA”可互换使用,指以单个分子或两个或多个分子的复合体形式存在的引导RNA。通常,作为单一RNA种类存在的gRNA包含两个结构域:(1)与靶标核酸具有同源性的结构域(例如,指导Cas9复合物与靶标的结合);(2)结合Cas9蛋白的结构域。在一些实施方案中,结构域(2)对应于称为tracrRNA的序列,并且包含茎-环结构。例如,在一些实施方案中,结构域(2)与Jinek等人,Science337:816-821(2012)中提供的tracrRNA相同或同源,该文献的全部内容通过引用并入本文。gRNA的其他示例(例如,包括结构域2的那些)可以在美国临时专利申请,U.S.S.N.61/874,682,于2013年9月6日提交,题为“Switchable Cas9 Nucleases and UsesThereof”,以及美国临时专利申请,U.S.S.N.61/874,746,2013年9月6日提交,名称为“Delivery System For Functional Nucleases”中找到,每个的全部内容通过引用整体并入本文。在一些实施例中,gRNA包含结构域(1)和(2)中的两个或更多个,并且可以被称为“延伸的gRNA”。如本文所述,延伸的gRNA将结合两个或更多个Cas9蛋白并在两个或更多个不同区域结合靶核酸。gRNA包含与靶标位点互补的核苷酸序列,其介导核酸酶/RNA复合物与所述靶标位点的结合,提供核酸酶:RNA复合物的序列特异性。如本领域技术人员将理解的,RNA多核苷酸序列,例如gRNA序列,包括核碱基尿嘧啶(U),一种嘧啶衍生物,而不是包含在DNA多核苷酸序列中的核碱基胸腺嘧啶(T)。在RNA中,尿嘧啶与腺嘌呤碱基配对并在DNA转录过程中取代胸腺嘧啶。
“异二聚体”是指包含两个结构域的融合蛋白,例如野生型TadA结构域和TadA结构域的变体(例如,TadA*8)或两个变体的TadA结构域(例如,TadA*7.10和TadA*8或两个TadA*8域)。
“宿主抗移植物疾病”(HVGD)是指宿主的免疫系统对供体的移植细胞产生免疫反应的病理状况。
“杂交”是指互补核碱基之间的氢键,其可以是Watson-Crick、Hoogsteen或反向Hoogsteen氢键。例如,腺嘌呤和胸腺嘧啶是互补的核碱基,它们通过形成氢键配对。
“免疫细胞”是指能够产生免疫应答的免疫系统细胞。
“免疫效应细胞”是指淋巴细胞,一旦被激活,就能够对靶细胞产生免疫应答。T细胞是示例性的免疫效应细胞。
术语“碱基修复抑制剂”或“IBR”是指能够抑制核酸修复酶例如碱基切除修复(BER)酶的活性的蛋白。在一些实施方案中,所述IBR是肌苷碱基切除修复的抑制剂。碱基修复的示例性抑制剂包括APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGG1、hNEIL1、T7 Endol、T4PDG、UDG、hSMUG1和hAAG的抑制剂。在一些实施方案中,所述IBR是Endo V或hAAG的抑制剂。在一些实施方案中,所述IBR是无催化活性的EndoV或无催化活性的hAAG。在一些实施方案中,所述碱基修复抑制剂是Endo V或hAAG.的抑制剂。在一些实施方案中,所述碱基修复抑制剂是无催化活性的EndoV或无催化活性的hAAG。
在一些实施方案中,所述碱基修复抑制剂是尿嘧啶糖基化酶抑制剂(UGI)。UGI是指能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的蛋白质。在一些实施方案中,UGI结构域包含野生型UGI或野生型UGI的片段。在一些实施方案中,本文提供的UGI蛋白质包括UGI的片段和与UGI或UGI片段同源的蛋白。在一些实施方案中,所述碱基修复抑制剂是肌苷碱基切除修复的抑制剂。在一些实施方案中,所述碱基修复抑制剂是无催化活性的肌苷特异性核酸酶”或“死肌苷特异性核酸酶”。不希望受任何特定理论的束缚,无催化活性的肌苷糖基化酶(例如,烷基腺嘌呤糖基化酶(AAG))可以结合肌苷,但不能产生缺碱基位点或去除肌苷,从而在空间上阻断新形成的肌苷部分免受DNA损伤/修复机制。在一些实施方案中,无催化活性的肌苷特异性核酸酶能够结合核酸中的肌苷但不切割核酸。非限制性示例性无催化活性肌苷特异性核酸酶包括无催化活性烷基腺苷糖基化酶(AAG核酸酶),例如来自人,和无催化活性内切核酸酶V(EndoV核酸酶),例如来自大肠杆菌。在一些实施方案中,无催化活性的AAG核酸酶包含E125Q突变或另一种AAG核酸酶中的相应突变。
“增加”是指至少10%、25%、50%、75%或100%的正变化。
“内含肽(intein)”是一种蛋白质片段,它能够自我切除并在称为蛋白质剪接的过程中用肽键连接剩余的片段(外显肽(extein))。内含肽也称为“蛋白质内含子”。内含肽自身切除并连接蛋白质剩余部分的过程在本文中称为“蛋白质剪接”或“内含肽介导的蛋白质剪接”。在一些实施方案中,前体蛋白的内含肽(在内含肽介导的蛋白剪接之前含有内含肽的蛋白)来自两个基因。这种内含肽在本文中被称为分裂内含肽(例如,分裂内含肽-N和分裂内含肽-C)。例如,在藍綠藻(cyanobacteria)中,DNA聚合酶III的催化亚基a的DnaE由两个独立的基因dnaE-n和dnaE-c编码。由dnaE-n基因编码的内含肽在本文中可称为“内含肽-N”。由dnaE-c基因编码的内含肽在本文中可称为“内含肽-C”。
也可以使用其他内含肽系统。例如,已经描述了基于dnaE内含肽、Cfa-N(例如,分裂的内含肽-N)和Cfa-C(例如,分裂的内含肽-C)内含肽对的合成内含肽(例如,在Stevens等人,J Am Chem Soc.2016Feb.24;138(7):2162-5,以引用方式并入本文)。可根据本公开使用的内含肽对的非限制性实例包括:Cfa DnaE内含肽、Ssp GyrB内含肽、Ssp DnaX内含肽、Ter DnaE3内含肽、Ter ThyX内含肽、Rma DnaB内含肽和Cne Prp8内含肽(例如,如美国专利号8,394,604中所述,通过引用并入本文。
提供了内含肽的示例性核苷酸和氨基酸序列。
DnaE Intein-N DNA:
TGCCTGTCATACGAAACCGAGATACTGACAGTAGAATATGGCCTTCTGCCAATCGGGAAGATTGTGGAGAAACGGATAGAATGCACAGTTTACTCTGTCGATAACAATGGTAACATTTATACTCAGCCAGTTGCCCAGTGGCACGACCGGGGAGAGCAGGAAGTATTCGAATACTGTCTGGAGGATGGAAGTCTCATTAGGGCCACTAAGGACCACAAATTTATGACAGTCGATGGCCAGATGCTGCCTATAGACGAAATCTTTGAGCGAGAGTTGGACCTCATGCGAGTTGACAACCTTCCTAAT
DnaE Intein-N蛋白:
CLSYETEILTVEYGLLPIGKIVEKRIECTVYSVDNNGNIYTQPVAQWHDRGEQEVFEYCLEDGSLIRATKDHKFMTVDGQMLPIDEIFERELDLMRVDNLPN
DnaE Intein-C DNA:
ATGATCAAGATAGCTACAAGGAAGTATCTTGGCAAACAAAACGTTTATGATATTGGAGTCGAAAGAGATCACAACTTTGCTCTGAAGAACGGATTCATAGCTTCTAAT
Intein-C:MIKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN
Cfa-N DNA:
TGCCTGTCTTATGATACCGAGATACTTACCGTTGAATATGGCTTCTTGCCTATTGGAAAGATTGTCGAAGAGAGAATTGAATGCACAGTATATACTGTAGACAAGAATGGTTTCGTTTACACACAGCCCATTGCTCAATGGCACAATCGCGGCGAACAAGAAGTATTTGAGTACTGTCTCGAGGATGGAAGCATCATACGAGCAACTAAAGATCATAAATTCATGACCACTGACGGGCAGATGTTGCCAATAGATGAGATATTCGAGCGGGGCTTGGATCTCAAACAAGTGGATGGATTGCCA
Cfa-N蛋白:
CLSYDTEILTVEYGFLPIGKIVEERIECTVYTVDKNGFVYTQPIAQWHNRGEQEVFEYCLEDGSIIRATKDHKFMTTDGQMLPIDEIFERGLDLKQVDGLP
Cfa-C DNA:
ATGAAGAGGACTGCCGATGGATCAGAGTTTGAATCTCCCAAGAAGAAGAGGAAAGTAAAGATAATATCTCGAAAAAGTCTTGGTACCCAAAATGTCTATGATATTGGAGTGGAGAAAGATCACAACTTCCTTCTCAAGAACGGTCTCGTAGCCAGCAAC
Cfa-C蛋白:MKRTADGSEFESPKKKRKVKIISRKSLGTQNVYDIGVEKDHNFLLKNGLVASN
内含肽-N和内含肽-C可以分别融合到分裂Cas9的N端部分和分裂Cas9的C端部分,用于连接分裂Cas9的N端部分和分裂Cas9的C端部分。例如,在一些实施方案中,内含肽-N融合到分裂Cas9的N末端部分的C末端,即形成N--[分裂Cas9的N端部分]-[内含肽-N]--C的结构。在一些实施方案中,内含肽-C融合到分裂Cas9的C末端部分的N末端,即形成N-[内含肽-C]--[分裂Cas9的C末端部分]-C的结构。内含肽介导的蛋白剪接机制用于连接内含肽融合到的蛋白(例如,分裂的Cas9)是本领域已知的,例如,如Shah等人,Chem Sci.2014;5(1):446-461,以引用方式并入本文。用于设计和使用内含肽的方法是本领域已知的并且描述于例如WO2014004336、WO2017132580、US20150344549和US20180127780,它们各自通过引用整体并入本文。
术语“分离的”、“纯化的”或“生物学纯的”是指材料在不同程度上不含在其天然状态下通常伴随的组分。“分离”表示与原始来源或周围环境的分离程度。“纯化”表示高于分离的分离程度。“纯化的”或“生物学纯的”蛋白质充分不含其他材料,使得任何杂质不会实质性地影响蛋白质的生物学特性或引起其他不利后果。即,如果本发明的核酸或肽在通过重组DNA技术生产时基本上不含细胞材料、病毒材料或培养基,或者在化学合成时基本上不含化学前体或其他化学品,则该核酸或肽被纯化。纯度和均匀性通常使用分析化学技术确定,例如聚丙烯酰胺凝胶电泳或高效液相色谱。术语“纯化的”可以表示核酸或蛋白质在电泳凝胶中产生基本上一条带。对于可以进行修饰(例如磷酸化或糖基化)的蛋白,不同的修饰可能会产生不同的分离蛋白,这些蛋白可以单独纯化。
“分离的多核苷酸”是指不含基因的核酸(例如,DNA),所述基因在本发明的核酸分子所源自的生物的天然存在的基因组中位于该基因的侧翼。因此,该术语包括,例如,整合到载体中的重组DNA;进入自主复制的质粒或病毒;或进入原核生物或真核生物的基因组DNA;或作为独立于其他序列的独立分子(例如,通过PCR或限制性内切核酸酶消化产生的cDNA或基因组或cDNA片段)存在。此外,该术语包括从DNA分子转录的RNA分子,以及作为编码额外多肽序列的杂合基因的一部分的重组DNA。
“分离的多肽”是指已与天然伴随的组分分离的本发明内容的多肽。通常,当多肽至少60%(重量)不含蛋白和天然存在的有机分子时,多肽就被分离出来。优选地,制备本发明的多肽是至少75重量%,更优选至少90重量%,并且最优选至少99重量%。本发明的分离的多肽可以,例如,通过从天然来源中提取,通过编码这样的多肽的重组核酸的表达;或通过化学合成蛋白质來获得。纯度可以通过任何合适的方法测量,例如柱色谱、聚丙烯酰胺凝胶电泳或通过HPLC分析。
如本文所用,术语“连接子”可指共价连接子(例如,共价键)、非共价连接子、化学基团或连接两个分子或部分(例如,蛋白质复合物或核糖核复合体的两个组分)的分子,或融合蛋白的两个结构域,例如多核苷酸可编程DNA结合结构域(例如,dCas9)和脱氨酶结构域(例如,腺苷脱氨酶、胞苷脱氨酶或腺苷脱氨酶和胞苷脱氨酶)。连接子可以连接碱基编辑器系统的不同组分或组分的不同部分。例如,在一些实施方案中,连接子可以连接多核苷酸可编程核苷酸结合结构域的引导多核苷酸结合结构域和脱氨酶的催化结构域。在一些实施方案中,连接子可以连接CRISPR多肽和脱氨酶。在一些实施方案中,连接子可以连接Cas9和脱氨酶。在一些实施方案中,连接子可以连接dCas9和脱氨酶。在一些实施方案中,连接子可以连接nCas9和脱氨酶。在一些实施方案中,连接子可以连接引导多核苷酸和脱氨酶。在一些实施方案中,连接子可以连接脱氨基组分和碱基编辑器系统的多核苷酸可编程核苷酸结合组分。在一些实施方案中,连接子可以连接脱氨基组分的RNA结合部分和碱基编辑器系统的多核苷酸可编程核苷酸结合组分。在一些实施方案中,连接子可以连接脱氨基组分的RNA结合部分和碱基编辑器系统的多核苷酸可编程核苷酸结合组分的RNA结合部分。连接子可以位于两个基团、分子或其他部分之间或两侧,并通过共价键或非共价相互作用连接到每一个,从而连接这两者。在一些实施例中,连接子可以是有机分子、基团、聚合物或化学部分。在一些实施方案中,所述连接子可以是多核苷酸。在一些实施方案中,所述连接子可以是DNA连接子。在一些实施方案中,所述连接子可以是RNA连接子。在一些实施例中,连接子可包含能够结合配体的适体。在一些实施例中,配体可以是碳水化合物、肽、蛋白质或核酸。在一些实施例中,连接子可包含可衍生自核糖开关的适体。衍生适体的核糖开关可以选自茶碱核糖开关、焦磷酸硫胺素(TPP)核糖开关、腺苷钴胺素(AdoCbl)核糖开关、S-腺苷甲硫氨酸(SAM)核糖开关、SAH核糖开关、黄素单核苷酸(FMN)核糖开关、四氢叶酸核糖开关、赖氨酸核糖开关、甘氨酸核糖开关、嘌呤核糖开关、GlmS核糖开关或pre-queosine1(PreQ1)核糖开关。在一些实施方案中,连接子可包含与多肽或蛋白质结构域例如多肽配体结合的适体。在一些实施方案中,所述多肽配体可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。在一些实施方案中,所述多肽配体可以是碱基编辑器系统组分的一部分。例如,核碱基编辑组分可包含脱氨酶结构域和RNA识别基序。
在一些实施方案中,连接子可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施例中,所述连接子的长度可为约5-100个氨基酸,例如約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20-30、30-40、40-50、50-60、60-70、70-80、80-90或90-100个氨基酸长度。在一些实施例中,连接子的长度可为约100-150、150-200、200-250、250-300、300-350、350-400、400-450或450-500个氨基酸。也可以考虑更长或更短的连接子。
在一些实施方案中,连接子连接RNA可编程核酸酶的gRNA结合结构域,包括Cas9核酸酶结构域和核酸编辑蛋白(例如胞苷或腺苷脱氨酶)的催化结构域。在一些实施方案中,连接子连接dCas9和核酸编辑蛋白。例如,连接子位于两个基团、分子或其他部分之间或两侧,并通过共价键连接到每一个,从而连接这两者。在一些实施方案中,所述连接子可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,所述连接子是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施例中,所述连接子的长度可为约5-200个氨基酸,例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、35、45、50、55、60、60、65、70、70、75、80、85、90、90、95、100、101、102、103、104、105、110、120、130、140、150、160、175、180、190或更多的氨基酸长度。也可考虑更长或更短的连接子。
在一些实施方案中,核碱基编辑器的结构域通过包含以下氨基酸序列的连接子融合:SGGSSGSETPGTSESATPESSGGS、SGGSSGGSSGSETPGTSESATPESSGGSSGGS,或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS。在一些实施方案中,核碱基编辑器的结构域通过包含氨基酸序列SGSETPGTSESATPES的连接子融合,连接子也可称为XTEN连接子。在一些实施方案中,连接子包含氨基酸序列SGGS。在一些实施例中,连接子包含(SGGS)n、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES或(XP)n基序,或这些中的任何一个,其中n独立地是1和30之间的整数,并且其中X是任何氨基酸。在一些实施例中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。
在一些实施例中,所述连接子的长度是24个氨基酸。在一些实施方案中,所述连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPES。在一些实施例中,所述连接子的长度是40个氨基酸。在一些实施方案中,连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS。在一些实施例中,所述连接子的长度是64个氨基酸。在一些实施方案中,所述连接子包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGS SGGS。在一些实施例中,所述连接子的长度是92个氨基酸。在一些实施方案中,连接子包含氨基酸序列PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS。
“标记”是指在与疾病或病症相关的表达水平或活性方面具有改变的任何蛋白质或多核苷酸。
如本文所用,术语“突变”是指序列(例如核酸或氨基酸序列)内的残基被另一残基取代,或序列内一个或多个残基的缺失或插入。突变在本文中通常通过鉴定原始残基随后是该残基在序列中的位置以及通过新取代残基的身份来描述。用于进行本文提供的氨基酸取代(突变)的各种方法是本领域众所周知的,并且由例如Green and Sambrook,MolecularCloning:A Laboratory Manual(4th ed.,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.(2012))提供。在一些实施方案中,当前公开的碱基编辑器可以有效地在核酸(例如,受试者基因组内的核酸)中产生“预期突变”,例如点突变,而不会产生大量非预期突变,例如意外的点突变。在一些实施方案中,预期突变是由与引导多核苷酸(例如,gRNA)结合的特定碱基编辑器(例如,胞苷碱基编辑器或腺苷碱基编辑器)产生的突变,该引导多核苷酸专门设计用于产生预期突变。
通常,在序列(例如,如本文所述的氨基酸序列)中产生或鉴定的突变相对于参考(或野生型)序列,即不包含突变的序列进行编号。本领域技术人员将容易理解如何确定氨基酸和核酸序列中相对于参考序列的突变位置。
“肿瘤(Neoplasia)”是指表现出异常生长或增殖的细胞或组织。该术语肿瘤包括癌症和实体瘤。
术语“非保守性突变”涉及不同组之间的氨基酸置换,例如,色氨酸为赖氨酸,或丝氨酸为苯丙氨酸等。在这种情况下,非保守性氨基酸置换优选不干扰,或抑制功能变体的生物活性。非保守性氨基酸取代可增强功能变体的生物活性,从而与野生型蛋白质相比,功能变体的生物活性增加。
“活化T细胞核因子1(NFATc1)多肽”是指与NCBI登录号NM_172390.2或其片段具有至少约85%氨基酸序列同一性的蛋白质,并且是活化T细胞DNA-结合转录复合物的组分。以下提供了示例性氨基酸序列。
>NP_765978.1活化T细胞核因子,细胞质1异构型A[智人]
MPSTSFPVPSKFPLGPAAAVFGRGETLGPAPRAGGTMKSAEEEHYGYASSNVSPALPLPTAHSTLPAPCHNLQTSTPGIIPPADHPSGYGAALDGGPAGYFLSSGHTRPDGAPALESPRIEITSCLGLYHNNNQFFHDVEVEDVLPSSKRSPSTATLSLPSLEAYRDPSCLSPASSLSSRSCNSEASSYESNYSYPYASPQTSPWQSPCVSPKTTDPEEGFPRGLGACTLLGSPRHSPSTSPRASVTEESWLGARSSRPASPCNKRKYSLNGRQPPYSPHHSPTPSPHGSPRVSVTDDSWLGNTTQYTSSAIVAAINALTTDSSLDLGDGVPVKSRKTTLEQPPSVALKVEPVGEDLGSPPPPADFAPEDYSSFQHIRKGGFCDQYLAVPQHPYQWAKPKPLSPTSYMSPTLPALDWQLPSHSGPYELRIEVQPKSHHRAHYETEGSRGAVKASAGGHPIVQLHGYLENEPLMLQLFIGTADDRLLRPHAFYQVHRITGKTVSTTSHEAILSNTKVLEIPLLPENSMRAVIDCAGILKLRNSDIELRKGETDIGRKNTRVRLVFRVHVPQPSGRTLSLQVASNPIECSQRSAQELPLVEKQSTDSYPVVGGKKMVLSGHNFLQDSKVIFVEKAPDGHHVWEMEAKTDRDLCKPNSLVVEIPPFRNQRITSPVHVSFYVCNGKRKRSQYQRFTYLPANGNAIFLTVSREHERVGCFF
“活化T细胞核因子1(NFATc1)多核苷酸”是指编码NFATc1多肽的核酸分子。所述NFATc1基因编码一种蛋白质,该蛋白质参与T细胞中细胞因子基因,尤其是IL-2和IL-4的可诱导表达。以下提供了测序的示例性核酸。
>NM_172390.2智人活化T细胞核因子1(NFATC1),转录变体1,mRNA
GGCGGGCGCTCGGCGACTCGTCCCCGGGGCCCCGCGCGGGCCCGGGCAGCAGGGGCGTGATGTCACGGCAGGGAGGGGGCGCGGGAGCCGCCGGGCCGGCGGGGAGGCGGGGGAGGTGTTTTCCAGCTTTAAAAAGGCAGGAGGCAGAGCGCGGCCCTGCGTCAGAGCGAGACTCAGAGGCTCCGAACTCGCCGGCGGAGTCGCCGCGCCAGATCCCAGCAGCAGGGCGCGGGCACCGGGGCGCGGGCAGGGCTCGGAGCCACCGCGCAGGTCCTAGGGCCGCGGCCGGGCCCCGCCACGCGCGCACACGCCCCTCGATGACTTTCCTCCGGGGCGCGCGGCGCTGAGCCCGGGGCGAGGGCTGTCTTCCCGGAGACCCGACCCCGGCAGCGCGGGGCGGCCGCTTCTCCTGTGCCTCCGCCCGCCGCTCCACTCCCCGCCGCCGCCGCGCGGATGCCAAGCACCAGCTTTCCAGTCCCTTCCAAGTTTCCACTTGGCCCTGCGGCTGCGGTCTTCGGGAGAGGAGAAACTTTGGGGCCCGCGCCGCGCGCCGGCGGCACCATGAAGTCAGCGGAGGAAGAACACTATGGCTATGCATCCTCCAACGTCAGCCCCGCCCTGCCGCTCCCCACGGCGCACTCCACCCTGCCGGCCCCGTGCCACAACCTTCAGACCTCCACACCGGGCATCATCCCGCCGGCGGATCACCCCTCGGGGTACGGAGCAGCTTTGGACGGTGGGCCCGCGGGCTACTTCCTCTCCTCCGGCCACACCAGGCCTGATGGGGCCCCTGCCCTGGAGAGTCCTCGCATCGAGATAACCTCGTGCTTGGGCCTGTACCACAACAATAACCAGTTTTTCCACGATGTGGAGGTGGAAGACGTCCTCCCTAGCTCCAAACGGTCCCCCTCCACGGCCACGCTGAGTCTGCCCAGCCTGGAGGCCTACAGAGACCCCTCGTGCCTGAGCCCGGCCAGCAGCCTGTCCTCCCGGAGCTGCAACTCAGAGGCCTCCTCCTACGAGTCCAACTACTCGTACCCGTACGCGTCCCCCCAGACGTCGCCATGGCAGTCTCCCTGCGTGTCTCCCAAGACCACGGACCCCGAGGAGGGCTTTCCCCGCGGGCTGGGGGCCTGCACACTGCTGGGTTCCCCGCGGCACTCCCCCTCCACCTCGCCCCGCGCCAGCGTCACTGAGGAGAGCTGGCTGGGTGCCCGCTCCTCCAGACCCGCGTCCCCTTGCAACAAGAGGAAGTACAGCCTCAACGGCCGGCAGCCGCCCTACTCACCCCACCACTCGCCCACGCCGTCCCCGCACGGCTCCCCGCGGGTCAGCGTGACCGACGACTCGTGGTTGGGCAACACCACCCAGTACACCAGCTCGGCCATCGTGGCCGCCATCAACGCGCTGACCACCGACAGCAGCCTGGACCTGGGAGATGGCGTCCCTGTCAAGTCCCGCAAGACCACCCTGGAGCAGCCGCCCTCAGTGGCGCTCAAGGTGGAGCCCGTCGGGGAGGACCTGGGCAGCCCCCCGCCCCCGGCCGACTTCGCGCCCGAAGACTACTCCTCTTTCCAGCACATCAGGAAGGGCGGCTTCTGCGACCAGTACCTGGCGGTGCCGCAGCACCCCTACCAGTGGGCGAAGCCCAAGCCCCTGTCCCCTACGTCCTACATGAGCCCGACCCTGCCCGCCCTGGACTGGCAGCTGCCGTCCCACTCAGGCCCGTATGAGCTTCGGATTGAGGTGCAGCCCAAGTCCCACCACCGAGCCCACTACGAGACGGAGGGCAGCCGGGGGGCCGTGAAGGCGTCGGCCGGAGGACACCCCATCGTGCAGCTGCATGGCTACTTGGAGAATGAGCCGCTGATGCTGCAGCTTTTCATTGGGACGGCGGACGACCGCCTGCTGCGCCCGCACGCCTTCTACCAGGTGCACCGCATCACAGGGAAGACCGTGTCCACCACCAGCCACGAGGCCATCCTCTCCAACACCAAAGTCCTGGAGATCCCACTCCTGCCGGAGAACAGCATGCGAGCCGTCATTGACTGTGCCGGAATCCTGAAACTCAGAAACTCCGACATTGAACTTCGGAAAGGAGAGACGGACATCGGGAGGAAGAACACACGGGTACGGCTGGTGTTCCGCGTTCACGTCCCGCAACCCAGCGGCCGCACGCTGTCCCTGCAGGTGGCCTCCAACCCCATCGAATGCTCCCAGCGCTCAGCTCAGGAGCTGCCTCTGGTGGAGAAGCAGAGCACGGACAGCTATCCGGTCGTGGGCGGGAAGAAGATGGTCCTGTCTGGCCACAACTTCCTGCAGGACTCCAAGGTCATTTTCGTGGAGAAAGCCCCAGATGGCCACCATGTCTGGGAGATGGAAGCGAAAACTGACCGGGACCTGTGCAAGCCGAATTCTCTGGTGGTTGAGATCCCGCCATTTCGGAATCAGAGGATAACCAGCCCCGTTCACGTCAGTTTCTACGTCTGCAACGGGAAGAGAAAGCGAAGCCAGTACCAGCGTTTCACCTACCTTCCCGCCAACGGTAACGCCATCTTTCTAACCGTAAGCCGTGAACATGAGCGCGTGGGGTGCTTTTTCTAAAGACGCAGAAACGACGTCGCCGTAAAGCAGCGTGGCGTGTTGCACATTTAACTGTGTGATGTCCCGTTAGTGAGACCGAGCCATCGATGCCCTGAAAAGGAAAGGAAAAGGGAAGCTTCGGATGCATTTTCCTTGATCCCTGTTGGGGGTGGGGGGCGGGGGTTGCATACTCAGATAGTCACGGTTATTTTGCTTCTTGCGAATGTATAACAGCCAAGGGGAAAACATGGCTCTTCTGCTCCAAAAAACTGAGGGGGTCCTGGTGTGCATTTGCACCCTAAAGCTGCTTACGGTGAAAAGGCAAATAGGTATAGCTATTTTGCAGGCACCTTTAGGAATAAACTTTGCTTTTAAGCCTGTAAAAAAAAAAAAAA
术语“核定位序列”、“核定位信号”或“NLS”是指促进蛋白质输入细胞核的氨基酸序列。核定位序列是本领域已知的并且描述于例如Plank等人的国际PCT申请,PCT/EP2000/011690,2000年11月23日提交,2001年5月31日作为WO/2001/038547公布,其内容以引用方式并入本文以用于它们对示例性核定位序列的公开。在其他实施例中,所述NLS是优化的NLS,例如由Koblan等人,Nature Biotech.2018doi:10.1038/nbt.4172所描述。在一些实施例中,NLS包含氨基酸序列KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRK、PKKKRKV或MDSLLMNRRKFLYQFKNVRWAKGRRETY。
如本文所用,术语“核酸”和“核酸分子”是指包含核碱基和酸性部分的化合物,例如核苷、核苷酸或核苷酸的聚合物。通常,聚合核酸,例如包含三个或更多个核苷酸的核酸分子是线性分子,其中相邻核苷酸通过磷酸二酯键相互连接。在一些实施方案中,“核酸”是指单个核酸残基(例如核苷酸和/或核苷)。在一些实施方案中,“核酸”是指包含三个或更多个单独核苷酸残基的寡核苷酸链。如本文所用,术语“寡核苷酸”和“多核苷酸”可互换使用以指核苷酸的聚合物(例如,至少三个核苷酸的串)。在一些实施方案中,“核酸”包括RNA以及单链和/或双链DNA。核酸可以是天然存在的,例如在基因组、转录物、mRNA、tRNA、rRNA、siRNA、snRNA、质粒、粘粒、染色体、染色单体或其他天然存在的核酸分子的上下文中。另一方面,核酸分子可以是非天然存在的分子,例如重组DNA或RNA、人工染色体、工程基因组或其片段,或合成的DNA、RNA、DNA/RNA杂交体、或包括非天然存在的核苷酸或核苷。此外,术语“核酸”、“DNA”、“RNA”和/或类似术语包括核酸类似物,例如具有除磷酸二酯骨架之外的其他骨架的类似物。核酸可以从天然来源纯化、使用重组表达系统产生和任选地纯化、化学合成等。在合适的情况下,例如在化学合成分子的情况下,核酸可以包含核苷类似物,例如具有化学修饰碱基的类似物或糖和骨架修饰。除非另有说明,否则核酸序列以5'到3'方向呈现。在一些实施方案中,核酸是或包含天然核苷(例如腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷和脱氧胞苷);核苷类似物(例如,2-氨基腺苷、2-硫胸苷、肌苷、吡咯并嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟苷和2-硫代胞苷);化学修饰的碱基;生物修饰碱基(例如甲基化碱基);插入的碱基;修饰的糖(2'-例如氟核糖、核糖、2'-脱氧核糖、阿拉伯糖和己糖);和/或修饰的磷酸基团(例如,硫代磷酸酯和5'-N-亚磷酰胺键)。
术语“核酸可编程的DNA结合蛋白”或“napDNAbp”可以与“多核苷酸可编程的核苷酸结合结构域”互换使用,以指与核酸(例如,DNA或RNA)相关的蛋白质,例如引导核酸酸或引导多核苷酸(例如,gRNA),将napDNAbp引导至特定的核酸序列。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中,所述多核苷酸可编程核苷酸结合结构域是Cas9蛋白。Cas9蛋白可以与引导RNA相关联,该引导RNA将Cas9蛋白引导至与引导RNA互补的特定DNA序列。在一些实施方案中,napDNAbp是Cas9结构域,例如核酸酶活性Cas9、Cas9切口酶(nCas9)或核酸酶灭活Cas9(dCas9)。核酸可编程DNA结合蛋白的非限制性实例包括Cas9(例如dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g和Cas12i。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5,II型Cas效应蛋白、V型Cas效应蛋白、VI型蛋白质、CARF、DinG、其同源物或其修饰或工程化版本。其他核酸可编程的DNA结合蛋白也在本公开的范围内,尽管它们可能未在本公开中具体列出。参见,如Makarova等人,“Classification andNomenclature of CRISPR-Cas Systems:Where from Here?”CRISPR J.2018Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等人,“Functionally diverse type V CRISPR-Cas systems”Science.2019Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,其全部内容以引用方式并入本文。
术语“核碱基”、“含氮碱基”或“碱基”在本文中可互换使用,是指形成核苷的含氮生物化合物,核苷又是核苷酸的组分。核碱基形成碱基对并相互堆叠的能力直接导致长链螺旋结构,例如核糖核酸(RNA)和脱氧核糖核酸(DNA)。五种核碱基——腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)——被称为初级或典型。腺嘌呤和鸟嘌呤来源于嘌呤,胞嘧啶、尿嘧啶和胸腺嘧啶来源于嘧啶。DNA和RNA也可以包含其他(非主要)修饰的碱基。非限制性示例性修饰核碱基可包括次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶(m5C)和5-氢甲基胞嘧啶。次黄嘌呤和黄嘌呤可以通过诱变剂的存在产生,它们都是通过脱氨基(用羰基取代胺基团)产生的。次黄嘌呤可以由腺嘌呤修饰而成。黄嘌呤可以由鸟嘌呤修饰而成。尿嘧啶可由胞嘧啶脱氨基产生。“核苷”由核碱基和五碳糖(核糖或脱氧核糖)组成。核苷的实例包括腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷和脱氧胞苷。具有修饰的核碱基的核苷的实例包括肌苷(I)、黄苷(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)和假尿苷(Ψ)。“核苷酸”由核碱基、五碳糖(核糖或脱氧核糖)和至少一个磷酸基团组成。
如本文所用,术语“核苷碱基编辑结构域”或“核苷碱基编辑蛋白”是指可催化RNA或DNA中的核苷碱基修饰的蛋白质或酶,例如胞嘧啶(或胞苷)为尿嘧啶(或尿苷)或胸腺嘧啶(或胸苷)和腺嘌呤(或腺苷)到次黄嘌呤(或肌苷)脱氨基,以及非模板化的核苷酸添加和插入。在一些实施方案中,所述核碱基编辑结构域是脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶;或胞苷脱氨酶或胞嘧啶脱氨酶)。在一些实施方案中,所述核碱基编辑结构域是多个脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶和胞苷或胞嘧啶脱氨酶)。在一些实施方案中,所述核碱基编辑结构域可以是天然存在的核碱基编辑结构域。在一些实施方案中,所述核碱基编辑结构域可以是由天然存在的核碱基编辑结构域改造而来的或进化的核碱基编辑结构域。所述核碱基编辑结构域可以来自任何生物体,例如细菌、人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠。
如本文所用,“获得”如在“获得药剂”中包括合成、购买或以其他方式获得该药剂。
如本文所用,“患者”或“受试者”是指被诊断患有、有风险患有或发展、或怀疑患有或发展疾病或病症的哺乳动物受试者或个体。在一些实施方案中,术语“患者”是指具有高于平均发展疾病或病症的可能性的哺乳动物受试者。示例性患者可以是人类、非人类灵长类动物、猫、狗、猪、牛、猫、马、骆驼、美洲驼、山羊、绵羊、啮齿动物(例如小鼠、兔、大鼠或豚鼠)和其他可以受益于本文公开疗法的哺乳动物。示例性的人类患者可以是男性和/或女性。
“有需要的患者”或“有需要的受试者”在本文中是指被诊断患有、有风险或患有、预定患有或怀疑患有疾病或病症的患者。
术语“致病突变”、“致病变异”、“疾病外壳突变”、“致病变异”、“有害突变”或“易感突变”是指遗传改变或突变,其增加个体对某种疾病或障碍的易感性或倾向性。在一些实施方案中,致病性突变包含至少一种野生型氨基酸被基因编码的蛋白质中的至少一种致病性氨基酸取代。
术语“蛋白质”、“肽”、“多肽”及其语法等价物在本文中可互换使用,是指通过肽(酰胺)键连接在一起的氨基酸残基的聚合物。这些术语是指任何大小、结构或功能的蛋白质、肽或多肽。通常,蛋白质、肽或多肽的长度至少为三个氨基酸。蛋白质、肽或多肽可以指单个蛋白质或蛋白质的集合。蛋白质、肽或多肽中的一个或多个氨基酸可以被修饰,例如,通过添加化学实体例如碳水化合物基团、羟基、磷酸基团、法呢基、异法呢基、脂肪酸基团、用于缀合、功能化或其他修饰的连接子等。蛋白质、肽或多肽也可以是单分子或可以是多分子复合物。蛋白质、肽或多肽可以只是天然存在的蛋白质或肽的片段。蛋白质、肽或多肽可以是天然存在的、重组的或合成的,或其任何组合。如本文所用,术语“融合蛋白”是指包含来自至少两种不同蛋白质的蛋白质结构域的杂合多肽。一种蛋白质可以位于融合蛋白的氨基末端(N-末端)部分或羧基末端(C-末端)蛋白,从而分别形成氨基末端融合蛋白或羧基末端融合蛋白。蛋白质可以包含不同的结构域,例如,核酸结合结构域(例如,引导蛋白与靶标位点结合的Cas9的gRNA结合结构域)和核酸切割结构域,或核酸编辑蛋白的催化结构域。在一些实施方案中,蛋白质包含蛋白质部分,例如构成核酸结合结构域的氨基酸序列,和有机化合物,例如可以充当核酸切割剂的化合物。在一些实施方案中,蛋白质与核酸例如RNA或DNA形成复合物或缔合。本文提供的任何蛋白质可以通过本领域已知的任何方法产生。例如,本文提供的蛋白质可以通过重组蛋白质表达和纯化产生,这尤其适用于包含肽连接子的融合蛋白质。重组蛋白表达和纯化的方法是众所周知的,包括Green和Sambrook,Molecular Cloning:A Laboratory Manual(4th ed.,Cold Spring Harbor LaboratoryPress,Cold Spring Harbor,N.Y.(2012))所描述的,其全部内容以引用方式并入。
本文公开的多肽和蛋白质(包括其功能部分和功能变体)可包含合成氨基酸代替一种或多种天然存在的氨基酸。此类合成氨基酸是本领域已知的,包括例如氨基环己烷羧酸、正亮氨酸、α-氨基正癸酸、高丝氨酸、S-乙酰氨基甲基-半胱氨酸、反式-3-和反式-4-羟脯氨酸、4-氨基苯丙氨酸、4-硝基苯丙氨酸、4-氯苯丙氨酸、4-羧基苯丙氨酸、β-苯丝氨酸β-羟基苯丙氨酸、苯基甘氨酸、α-萘丙氨酸、环己基丙氨酸、环己基甘氨酸、二氢吲哚-2-四氢四氢、3-喹啉、3-羟基苯丙氨酸、3-2-羟基苯丙氨酸-羧酸、氨基丙二酸、氨基丙二酸单酰胺、N'-苄基-N'-甲基-赖氨酸、N',N'-二苄基-赖氨酸、6-羟基赖氨酸、鸟氨酸、α-氨基环戊烷羧酸、α-氨基环己烷羧酸、α-氨基环庚烷羧酸、α-(2-氨基-2-降冰片烷)-羧酸、α,γ-二氨基丁酸、α,β-二氨基丙酸、高苯丙氨酸和α-叔丁基甘氨酸。多肽和蛋白质可以与多肽构建体的一个或多个氨基酸的翻译后修饰相关。翻译后修饰的非限制性实例包括磷酸化、酰化(包括乙酰化和甲酰化)、糖基化(包括N-连接和O-连接)、酰胺化、羟基化、烷基化(包括甲基化和乙基化)、泛素化、添加吡咯烷酮羧酸、形成二硫键、硫酸化、肉豆蔻酰化、棕榈酰化、异戊二烯化、法呢基化、香叶基化、糖基化、脂酰化和碘化。
“程序性细胞死亡1(PDCD1或PD-1)多肽”是指与NCBI登录号AJS10360.1或其片段具有至少约85%氨基酸序列同一性的蛋白质。所述PD-1蛋白被认为参与免疫反应和耐受条件下的T细胞功能调节。以下提供了示例性B2M多肽序列。
>AJS10360.1程序性细胞死亡1蛋白[智人]
MQIPQAPWPVVWAVLQLGWRPGWFLDSPDRPWNPPTFSPALLVVTEGDNATFTCSFSNTSESFVLNWYRMSPSNQTDKLAAFPEDRSQPGQDCRFRVTQLPNGRDFHMSVVRARRNDSGTYLCGAISLAPKAQIKESLRAELRVTERRAEVPTAHPSPSPRPAGQFQTLVVGVVGGLLGSLVLLVWVLAVICSRAARGTIGARRTGQPLKEDPSAVPVFSVDYGELDFQWREKTPEPPVPCVPEQTEYATIVFPSGMGTSSPARRGSADGPRSAQPLRPEDGHCSWPL
“程序性细胞死亡1(PDCD1或PD-1)多核苷酸”是指编码PD-1多肽的核酸分子。所述PDCD1基因编码抑制性细胞表面受体,该受体以抗原特异性方式抑制T细胞效应器功能。以下提供了示例性的PDCD1核酸序列。
>AY238517.1智人程序性细胞死亡1(PDCD1)mRNA,complete cds
ATGCAGATCCCACAGGCGCCCTGGCCAGTCGTCTGGGCGGTGCTACAACTGGGCTGGCGGCCAGGATGGTTCTTAGACTCCCCAGACAGGCCCTGGAACCCCCCCACCTTCTCCCCAGCCCTGCTCGTGGTGACCGAAGGGGACAACGCCACCTTCACCTGCAGCTTCTCCAACACATCGGAGAGCTTCGTGCTAAACTGGTACCGCATGAGCCCCAGCAACCAGACGGACAAGCTGGCCGCCTTCCCCGAGGACCGCAGCCAGCCCGGCCAGGACTGCCGCTTCCGTGTCACACAACTGCCCAACGGGCGTGACTTCCACATGAGCGTGGTCAGGGCCCGGCGCAATGACAGCGGCACCTACCTCTGTGGGGCCATCTCCCTGGCCCCCAAGGCGCAGATCAAAGAGAGCCTGCGGGCAGAGCTCAGGGTGACAGAGAGAAGGGCAGAAGTGCCCACAGCCCACCCCAGCCCCTCACCCAGGCCAGCCGGCCAGTTCCAAACCCTGGTGGTTGGTGTCGTGGGCGGCCTGCTGGGCAGCCTGGTGCTGCTAGTCTGGGTCCTGGCCGTCATCTGCTCCCGGGCCGCACGAGGGACAATAGGAGCCAGGCGCACCGGCCAGCCCCTGAAGGAGGACCCCTCAGCCGTGCCTGTGTTCTCTGTGGACTATGGGGAGCTGGATTTCCAGTGGCGAGAGAAGACCCCGGAGCCCCCCGTGCCCTGTGTCCCTGAGCAGACGGAGTATGCCACCATTGTCTTTCCTAGCGGAATGGGCACCTCATCCCCCGCCCGCAGGGGCTCAGCTGACGGCCCTCGGAGTGCCCAGCCACTGAGGCCTGAGGATGGACACTGCTCTTGGCCCCTCTGA
如本文在蛋白质或核酸的上下文中使用的术语“重组”是指在自然界中不存在但为人类工程产物的蛋白质或核酸。例如,在一些实施方案中,重组蛋白或核酸分子包含氨基酸或核苷酸序列,与任何自然发生的序列相比,该序列包含至少一个、至少两个、至少三个、至少四个、至少五个、至少六个或至少七个突变。
“减少”是指至少10%、25%、50%、75%或100%的負变化。
“参考”是指标准或对照条件。在一个实施例中,所述参考是野生型或健康细胞。在其他实施方案中且不限于,参考是未处理的细胞,其未经受测试条件,或经受安慰剂或生理盐水、培养基、缓冲液和/或不含目标多核苷酸的对照载体。
“参考序列”是用作序列比较基础的定义序列。参考序列可以是特定序列的子集或全部;例如,全长cDNA或基因序列的片段,或完整的cDNA或基因序列。对于多肽,参考多肽序列的长度通常为至少约16个氨基酸、至少约20个氨基酸、至少约25个氨基酸、约35个氨基酸、约50个氨基酸或约100个氨基酸。对于核酸,参考核酸序列的长度通常为至少约50个核苷酸、至少约60个核苷酸、至少约75个核苷酸、约100个核苷酸或约300个核苷酸或其附近或之间的任何整数。在一些实施方案中,参考序列是目的蛋白质的野生型序列。在其他实施方案中,参考序列是编码野生型蛋白质的多核苷酸序列。
术语“RNA可编程核酸酶”和“RNA引导的核酸酶”与一种或多种不是切割靶标的RNA一起使用(例如,结合或缔合)。在一些实施方案中,当与RNA形成复合物时,RNA可编程核酸酶可被称为核酸酶:RNA复合物。通常,结合的RNA被称为引导RNA(gRNA)。gRNA可以作为两个或多个RNA的复合物存在,也可以作为单个RNA分子存在。以单个RNA分子形式存在的gRNA可称为单引导RNA(sgRNA),尽管“gRNA”可互换使用,指以单个分子或两个或多个分子的复合体形式存在的引导RNA。通常,作为单一RNA种类存在的gRNA包含两个结构域:(1)与靶标核酸具有同源性的结构域(例如,指导Cas9复合物与靶标的结合);(2)结合Cas9蛋白的结构域。在一些实施方案中,结构域(2)对应于称为tracrRNA的序列,并且包含茎-环结构。例如,在一些实施方案中,结构域(2)与Jinek等人,Science337:816-821(2012)中提供的tracrRNA相同或同源,该文献的全部内容通过引用并入本文。gRNA的其他示例(例如,包括结构域2的那些)可以在美国临时专利申请,U.S.S.N.61/874,682,于2013年9月6日提交,题为“Switchable Cas9 Nucleases and Uses Thereof”,以及美国临时专利申请,U.S.S.N.61/874,746,2013年9月6日提交,名称为“Delivery System For FunctionalNucleases”中找到,每个的全部内容通过引用整体并入本文。在一些实施例中,gRNA包含结构域(1)和(2)中的两个或更多个,并且可以被称为"延伸的gRNA。"例如,如本文所述,延伸的gRNA将结合两个或更多个Cas9蛋白并在两个或更多个不同区域结合靶核酸。gRNA包含与靶标位点互补的核苷酸序列,其介导核酸酶/RNA复合物与所述靶标位点的结合,提供核酸酶:RNA复合物的序列特异性。
在一些实施方案中,RNA可编程核酸酶是(CRISPR相关系统)Cas9核酸内切酶,例如来自化脓性链球菌的Cas9(Casnl)(参见例如“Complete genome sequence of an Mlstrain of Streptococcus pyogenes.”Ferretti J.J.,McShan W.M.,Ajdic D.J.,SavicD.J.,Savic G.,Lyon K.,Primeaux C,Sezate S.,Suvorov A.N.,Kenton S.,Lai H.S.,Lin S.P.,Qian Y.,Jia H.G.,Najar F.Z.,Ren Q.,Zhu H.,Song L.,White J.,Yuan X.,Clifton S.W.,Roe B.A.,McLaughlin R.E.,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);"CRISPR RNA maturation by trans-encoded small RNA and host factorRNase III."Deltcheva E.,Chylinski K.,Sharma CM.,Gonzales K.,Chao Y.,PirzadaZ.A.,Eckert M.R.,Vogel J.,Charpentier E.,Nature 471:602-607(2011).
由于RNA可编程核酸酶(例如Cas9)使用RNA:DNA杂交来靶向DNA切割位点,因此这些蛋白质原则上能够靶向引导RNA指定的任何序列。使用RNA可编程核酸酶(例如Cas9)进行位点特异性切割(例如,修饰基因组)的方法是本领域已知的(参见例如Cong,L.等人,Multiplex genome engineering using CRISPR/Cas systems.Science339,819-823(2013);Mali,P.等人,RNA-guided human genome engineering via Cas9.Science 339,823-826(2013);Hwang,W.Y.等人,Efficient genome editing in zebrafish using aCRISPR-Cas system.Nature biotechnology 31,227-229(2013);Jinek,M.et ah,RNA-programmed genome editing in human cells.eLife 2,e00471(2013);Dicarlo,J.E.等人,Genome engineering in Saccharomyces cerevisiae using CRISPR-Cassystems.Nucleic acids research(2013);Jiang,W.等人RNA-guided editing ofbacterial genomes using CRISPR-Cas systems.Nature biotechnology 31,233-239(2013);其全部内容以引用方式并入本文)。
术语“单核苷酸多态性(SNP)”是发生在基因组中特定位置的单个核苷酸的变异,其中每个变异在群体中都存在一定程度(例如,>1%)。例如,在人类基因组的特定碱基位置,C核苷酸可以出现在大多数个体中,但在少数个体中,该位置被A占据。这意味着在该特定位置存在SNP,并且两个可能的核苷酸变异,C或A,被称为该位置的等位基因。SNP是疾病易感性差异的基础。疾病的严重程度和我们身体对治疗的反应方式也是遗传变异的表现。SNP可以落入基因的编码区、基因的非编码区或基因间区(基因之间的区域)。在一些实施方案中,由于遗传密码的简并性,编码序列内的SNP不一定改变所产生蛋白质的氨基酸序列。编码区的SNP有两种类型:同义SNP和非同义SNP。同义SNP不影响蛋白质序列,非同义SNP改变蛋白质的氨基酸序列。所述非同义SNP有两种类型:错义和无义。不在蛋白质编码区的SNP仍然可以影响基因剪接、转录因子结合、信使RNA降解或非编码RNA的序列。受此类SNP影响的基因表达称为eSNP(表达SNP),可以位于基因的上游或下游。单核苷酸变异(SNV)是单个核苷酸的变异,没有任何频率限制,可以在体细胞中出现。体细胞单核苷酸变异也可称为单核苷酸改变。
“特异性结合”是指识别并结合本发明的多肽和/或核酸分子的核酸分子、多肽或其复合物(例如,核酸可编程DNA结合结构域和引导核酸)、化合物或分子,但基本上不识别和结合样品中的其他分子,例如生物样品。
可用于本发明内容的方法的核酸分子包括编码本发明内容的多肽或其片段的任何核酸分子。这样的核酸分子不需要与内源核酸序列100%相同,但通常会表现出基本的同一性。与内源序列具有“基本同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。可用于本发明的方法的核酸分子包括编码本发明的多肽或其片段的任何核酸分子。这样的核酸分子不需要与内源核酸序列100%相同,但通常会表现出基本的同一性。与内源序列具有“基本同一性”的多核苷酸通常能够与双链核酸分子的至少一条链杂交。“杂交”是指在各种严格条件下,在互补多核苷酸序列(例如,本文所述的基因)或其部分之间配对以形成双链分子。(參见,例如,Wahl,G.M.和S.L.Berger(1987)Methods Enzymol.152:399;Kimmel,A.R.(1987)Methods Enzymol.152:507).
例如,严格盐浓度通常低于约750mM NaCl和75mM柠檬酸三钠,优选低于约500mMNaCl和50mM柠檬酸三钠,更优选低于约250mM NaCl和25mM柠檬酸三钠。可以在不存在有机溶剂例如甲酰胺的情况下获得低严格杂交,而可以在存在至少约35%甲酰胺,更优选至少约50%甲酰胺的情况下获得高严格杂交。严格的温度条件通常包括至少约30℃,更优选至少约37℃,最优选至少约42℃的温度。例如,十二烷基硫酸钠(SDS),以及载体DNA的包含或排除,是本领域技术人员公知的。通过根据需要组合这些不同的条件来实现不同程度的严格性。在一个实施方案中,杂交将在30℃下在750mM NaCl、75mM柠檬酸三钠和1%SDS中发生。在另一个实施方案中,杂交将在37℃下在500mM NaCl、50mM柠檬酸三钠、1%SDS、35%甲酰胺和100μg/ml变性鲑鱼精子DNA(ssDNA)中发生。在一个实施方案中,杂交将在42℃下在250mM NaCl、25mM柠檬酸三钠、1%SDS、50%甲酰胺和200μg/ml ssDNA中发生。这些条件的有用变化对本领域技术人员来说是显而易见的。
对于大多数应用,杂交后的洗涤步骤在严格性方面也会有所不同。洗涤严格条件可以通过盐浓度和温度来定义。如上所述,可以通过降低盐浓度或提高温度来增加洗涤严格性。例如,洗涤步骤的严格盐浓度优选小于约30mM NaCl和3mM柠檬酸三钠,最优选小于约15mM NaCl和1.5mM柠檬酸三钠。洗涤步骤的严格温度条件通常包括至少约25℃,更优选至少约42℃,甚至更优选至少约68℃的温度。在一个实施例中,将发生洗涤步骤在25℃下,在30mM NaCl、3mM柠檬酸三钠和0.1%SDS中。在更优选的实施方案中,洗涤步骤将在42℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1%SDS中进行。在更优选的实施方案中,洗涤步骤将在68℃下在15mM NaCl、1.5mM柠檬酸三钠和0.1%SDS中进行。这些条件的其他变化对本领域技术人员来说是显而易见的。杂交技术是本领域技术人员公知的并且描述于例如Benton和Davis(Science 196:180,1977);Grunstein和Hogness(Proc.Natl.Acad.Sci.,USA 72:3961,1975);Ausubel等人(Current Protocols in Molecular Biology,WileyInterscience,New York,2001);Berger和Kimmel(Guide to Molecular CloningTechniques,1987,Academic Press,New York);和Sambrook等人,Molecular Cloning:ALaboratory Manual,Cold Spring Harbor Laboratory Press,New York.
“分裂”是指分成两个或更多个片段。
“分裂Cas9蛋白”或“分裂Cas9”是指作为由两个单独核苷酸序列编码的N端片段和C端片段提供的Cas9蛋白。对应于Cas9蛋白的N末端部分和C末端部分的多肽可以被剪接以形成“重建的”Cas9蛋白。在特定实施方案中,Cas9蛋白质在蛋白质的无序区域内被分成两个片段,例如,如Nishimasu等人,Cell,Volume 156,Issue 5,pp.935-949,2014中所述,或如在Jiang等人。(2016)Science 351:867-871.PDB file:5F9R,每个都通过引用并入本文。在一些实施方案中,该蛋白质在SpCas9区域内约氨基酸A292-G364、F445-K483或E565-T637之间的任何C、T、A或S处分成两个片段,或在任何其他Cas9、Cas9变体(例如,nCas9、dCas9)或其他napDNAbp。在一些实施方案中,蛋白质在SpCas9 T310、T313、A456、S469或C574处被分成两个片段。在一些实施方案中,将蛋白质分成两个片段的过程称为“分裂”蛋白质。
在其他实施方案中,Cas9蛋白的N末端部分包含氨基酸1-573或1-637化脓链球菌Cas9野生型(SpCas9)(NCBI参考序列:NC_002737.2,Uniprot Reference Sequence:Q99ZW2)和Cas9蛋白的C末端部分包含SpCas9野生型的氨基酸574-1368或638-1368的部分或其相应位置。
分裂的Cas9的C末端部分可以与分裂的Cas9的N末端部分连接以形成完整的Cas9蛋白。在一些实施方案中,Cas9蛋白的C末端部分从Cas9蛋白的N末端部分结束的地方开始。因此,在一些实施例中,分裂的Cas9的C末端部分包含spCas9的氨基酸(551-651)-1368的一部分。“(551-651)-1368”是指从氨基酸551-651(含)之间的氨基酸开始到氨基酸1368结束。例如,分裂的Cas9的C端部分可以包含spCas9的任一氨基酸的一部分:551-1368、552-1368、553-1368、554-1368、555-1368、556-1368、557-1368、558-1368、559-1368、560-1368、561-1368、562-1368、563-1368、564-1368、565-1368、566-1368、567-1368、568-1368、569-1368、570-1368、571-1368、572-1368、573-1368、574-1368、575-1368、576-1368、577-1368、578-1368、579-1368、580-1368、581-1368、582-1368、583-1368、584-1368、585-1368、586-1368、587-1368、588-1368、589-1368、590-1368、591-1368、592-1368、593-1368、594-1368、595-1368、596-1368、597-1368、598-1368、599-1368、600-1368、601-1368、602-1368、603-1368、604-1368、605-1368、606-1368、607-1368、608-1368、609-1368、610-1368、611-1368,612-1368,613-1368、614-1368、615-1368、616-1368、617-1368、618-1368、619-1368、620-1368、621-1368、622-1368、623-1368、624-1368、625-1368、626-1368、627-1368、628-1368、629-1368、630-1368、631-1368、632-1368、633-1368、634-1368、635-1368、636-1368、637-1368、638-1368、639-1368、640-1368、641-1368、642-1368、643-1368、644-1368、645-1368、646-1368、647-1368、648-1368、649-1368、650-1368或651-1368。在一些实施例中,分裂的Cas9的C末端部分包含SpCas9蛋白的574-1368或638-1368的一部分。
“受试者”是指哺乳动物,包括但不限于人类或非人类哺乳动物,例如牛、马、犬、绵羊或猫。受试者包括家畜、饲养以生产劳动力和提供商品如食物的驯养动物,包括但不限于牛、山羊、鸡、马、猪、兔和绵羊。
“基本相同”是指多肽或核酸分子与参考氨基酸序列(例如,本文所述的任何一种氨基酸序列)或核酸序列(例如,任何一种本文所述的核酸序列)。在一个实施方案中,这样的序列与用于比较的序列在氨基酸水平或核酸有至少60%、80%或85%、90%、95%或甚至99%相同。
序列同一性通常使用序列分析软件(例如,Sequence Analysis SoftwarePackage of the Genetics Computer Group,University of Wisconsin BiotechnologyCenter,1710University Avenue,Madison,Wis.53705,BLAST,BESTFIT,GAP,或PILEUP/PRETTYBOX程序)。此类软件通过为各种替换、缺失和/或其他修饰指定同源性程度来匹配相同或相似的序列。保守取代通常包括以下组内的取代:甘氨酸、丙氨酸;缬氨酸、异亮氨酸、亮氨酸;天冬氨酸、谷氨酸、天冬酰胺、谷氨酰胺;丝氨酸、苏氨酸;赖氨酸、精氨酸;和苯丙氨酸、酪氨酸。在确定同一性程度的示例性方法中,可以使用BLAST程序,其中e-3和e-100之间的概率分数表示密切相关的序列。
例如,COBALT与以下参数一起使用:
a)alignment parameters:Gap penalties-11,-1and End-Gap penalties-5,-1,
b)CDD Parameters:Use RPS BLAST on;Blast E-value 0.003;Find Conservedcolumns and Recompute on,and
c)Query Clustering Parameters:Use query clusters on;Word Size 4;Maxcluster distance 0.8;Alphabet Regular.
例如,EMBOSS与以下参数一起使用:
a)Matrix:BLOSUM62;
b)GAP OPEN:10;
c)GAP EXTEND:0.5;
d)OUTPUT FORMAT:pair;
e)END GAP PENALTY:false;
f)END GAP OPEN:10;and
g)END GAP EXTEND:0.5.
术语“靶标位点”是指被核碱基编辑器修饰的核酸分子内的序列。在一个实施方案中,靶标位点被脱氨酶或包含脱氨酶(例如,胞苷或腺嘌呤脱氨酶)的融合蛋白脱氨。
“tet甲基胞嘧啶双加氧酶2(TET2)多肽”是指与NCBI登录号FM992369.1或其片段具有至少约85%的氨基酸序列同一性并且具有将甲基胞嘧啶转化为5-羟甲基胞嘧啶的催化活性的蛋白质。该基因的缺陷与骨髓增殖性疾病有关,该酶甲基化胞嘧啶的能力有助于转录调节。以下提供了示例性的TET2氨基酸序列。
>CAX30492.1 tet癌基因家族成员2[智人]
MEQDRTNHVEGNRLSPFLIPSPPICQTEPLATKLQNGSPLPERAHPEVNGDTKWHSFKSYYGIPCMKGSQNSRVSPDFTQESRGYSKCLQNGGIKRTVSEPSLSGLLQIKKLKQDQKANGERRNFGVSQERNPGESSQPNVSDLSDKKESVSSVAQENAVKDFTSFSTHNCSGPENPELQILNEQEGKSANYHDKNIVLLKNKAVLMPNGATVSASSVEHTHGELLEKTLSQYYPDCVSIAVQKTTSHINAINSQATNELSCEITHPSHTSGQINSAQTSNSELPPKPAAVVSEACDADDADNASKLAAMLNTCSFQKPEQLQQQKSVFEICPSPAENNIQGTTKLASGEEFCSGSSSNLQAPGGSSERYLKQNEMNGAYFKQSSVFTKDSFSATTTPPPPSQLLLSPPPPLPQVPQLPSEGKSTLNGGVLEEHHHYPNQSNTTLLREVKIEGKPEAPPSQSPNPSTHVCSPSPMLSERPQNNCVNRNDIQTAGTMTVPLCSEKTRPMSEHLKHNPPIFGSSGELQDNCQQLMRNKEQEILKGRDKEQTRDLVPPTQHYLKPGWIELKAPRFHQAESHLKRNEASLPSILQYQPNLSNQMTSKQYTGNSNMPGGLPRQAYTQKTTQLEHKSQMYQVEMNQGQSQGTVDQHLQFQKPSHQVHFSKTDHLPKAHVQSLCGTRFHFQQRADSQTEKLMSPVLKQHLNQQASETEPFSNSHLLQHKPHKQAAQTQPSQSSHLPQNQQQQQKLQIKNKEEILQTFPHPQSNNDQQREGSFFGQTKVEECFHGENQYSKSSEFETHNVQMGLEEVQNINRRNSPYSQTMKSSACKIQVSCSNNTHLVSENKEQTTHPELFAGNKTQNLHHMQYFPNNVIPKQDLLHRCFQEQEQKSQQASVLQGYKNRNQDMSGQQAAQLAQQRYLIHNHANVFPVPDQGGSHTQTPPQKDTQKHAALRWHLLQKQEQQQTQQPQTESCHSQMHRPIKVEPGCKPHACMHTAPPENKTWKKVTKQENPPASCDNVQQKSIIETMEQHLKQFHAKSLFDHKALTLKSQKQVKVEMSGPVTVLTRQTTAAELDSHTPALEQQTTSSEKTPTKRTAASVLNNFIESPSKLLDTPIKNLLDTPVKTQYDFPSCRCVEQIIEKDEGPFYTHLGAGPNVAAIREIMEERFGQKGKAIRIERVIYTGKEGKSSQGCPIAKWVVRRSSSEEKLLCLVRERAGHTCEAAVIVILILVWEGIPLSLADKLYSELTETLRKYGTLTNRRCALNEERTCACQGLDPETCGASFSFGCSWSMYYNGCKFARSKIPRKFKLLGDDPKEEEKLESHLQNLSTLMAPTYKKLAPDAYNNQIEYEHRAPECRLGLKEGRPFSGVTACLDFCAHAHRDLHNMQNGSTLVCTLTREDNREFGGKPEDEQLHVLPLYKVSDVDEFGSVEAQEEKKRSGAIQVLSSFRRKVRMLAEPVKTCRQRKLEAKKAAAEKLSSLENSSNKNEKEKSAPSRTKQTENASQAKQLAELLRLSGPVMQQSQQPQPLQKQPPQPQQQQRPQQQQPHHPQTESVNSYSASGSTNPYMRRPNPVSPYPNSSHTSDIYGSTSPMNFYSTSSQAAGSYLNSSNPMNPYPGLLNQNTQYPSYQCNGNLSVDNCSPYLGSYSPQSQPMDLYRYPSQDPLSKLSLPPIHTLYQPRFGNSQSFTSKYLGYGNQNMQGDGFSSCTIRPNVHHVGKLPPYPTHEMDGHFMGATSRLPPNLSNPNMDYKNGEHHSPSHIIHNYSAAPGMFNSSLHALHLQNKENDMLSHTANGLSKMLPALNHDRTACVQGGLHKLSDANGQEKQPLALVQGVASGAEDNDEVWSDSEQSFLDPDIGGVAVAPTHGSILIECAKRELHATTPLKNPNRNHPTRISLVFYQHKSMNEPKHGLALWEAKMAEKAREKEEECEKYGPDYVPQKSHGKKVKREPAEPHETSEPTYLRFIKSLAERTMSVTTDSTVTTSPYAFTRVTGPYNRYI
“tet甲基胞嘧啶双加氧酶2(TET2)多核苷酸”是指编码TET2多肽的核酸分子。所述TETs多肽编码甲基胞嘧啶双加氧酶并具有转录调节活性。示例性的TET2核酸在以下呈现。
>FM992369.1智人mRNA for tet癌基因家族成员2(TET2基因)
CCGTGCCATCCCAACCTCCCACCTCGCCCCCAACCTTCGCGCTTGCTCTGCTTCTTCTCCCAGGGGTGGAGACCCGCCGAGGTCCCCGGGGTTCCCGAGGGCTGCACCCTTCCCCGCGCTCGCCAGCCCTGGCCCCTACTCCGCGCTGGTCCGGGCGCACCACTCCCCCCGCGCCACTGCACGGCGTGAGGGCAGCCCAGGTCTCCACTGCGCGCCCCGCTGTACGGCCCCAGGTGCCGCCGGCCTTTGTGCTGGACGCCCGGTGCGGGGGGCTAATTCCCTGGGAGCCGGGGCTGAGGGCCCCAGGGCGGCGGCGCAGGCCGGGGCGGAGCGGGAGGAGGCCGGGGCGGAGCAGGAGGAGGCCCGGGCGGAGGAGGAGAGCCGGCGGTAGCGGCAGTGGCAGCGGCGAGAGCTTGGGCGGCCGCCGCCGCCTCCTCGCGAGCGCCGCGCGCCCGGGTCCCGCTCGCATGCAAGTCACGTCCGCCCCCTCGGCGCGGCCGCCCCGAGACGCCGGCCCCGCTGAGTGATGAGAACAGACGTCAAACTGCCTTATGAATATTGATGCGGAGGCTAGGCTGCTTTCGTAGAGAAGCAGAAGGAAGCAAGATGGCTGCCCTTTAGGATTTGTTAGAAAGGAGACCCGACTGCAACTGCTGGATTGCTGCAAGGCTGAGGGACGAGAACGAGGCTGGCAAACATTCAGCAGCACACCCTCTCAAGATTGTTTACTTGCCTTTGCTCCTGTTGAGTTACAACGCTTGGAAGCAGGAGATGGGCTCAGCAGCAGCCAATAGGACATGATCCAGGAAGAGCAAATTCAACTAGAGGGCAGCCTTGTGGATGGCCCCGAAGCAAGCCTGATGGAACAGGATAGAACCAACCATGTTGAGGGCAACAGACTAAGTCCATTCCTGATACCATCACCTCCCATTTGCCAGACAGAACCTCTGGCTACAAAGCTCCAGAATGGAAGCCCACTGCCTGAGAGAGCTCATCCAGAAGTAAATGGAGACACCAAGTGGCACTCTTTCAAAAGTTATTATGGAATACCCTGTATGAAGGGAAGCCAGAATAGTCGTGTGAGTCCTGACTTTACACAAGAAAGTAGAGGGTATTCCAAGTGTTTGCAAAATGGAGGAATAAAACGCACAGTTAGTGAACCTTCTCTCTCTGGGCTCCTTCAGATCAAGAAATTGAAACAAGACCAAAAGGCTAATGGAGAAAGACGTAACTTCGGGGTAAGCCAAGAAAGAAATCCAGGTGAAAGCAGTCAACCAAATGTCTCCGATTTGAGTGATAAGAAAGAATCTGTGAGTTCTGTAGCCCAAGAAAATGCAGTTAAAGATTTCACCAGTTTTTCAACACATAACTGCAGTGGGCCTGAAAATCCAGAGCTTCAGATTCTGAATGAGCAGGAGGGGAAAAGTGCTAATTACCATGACAAGAACATTGTATTACTTAAAAACAAGGCAGTGCTAATGCCTAATGGTGCTACAGTTTCTGCCTCTTCCGTGGAACACACACATGGTGAACTCCTGGAAAAAACACTGTCTCAATATTATCCAGATTGTGTTTCCATTGCGGTGCAGAAAACCACATCTCACATAAATGCCATTAACAGTCAGGCTACTAATGAGTTGTCCTGTGAGATCACTCACCCATCGCATACCTCAGGGCAGATCAATTCCGCACAGACCTCTAACTCTGAGCTGCCTCCAAAGCCAGCTGCAGTGGTGAGTGAGGCCTGTGATGCTGATGATGCTGATAATGCCAGTAAACTAGCTGCAATGCTAAATACCTGTTCCTTTCAGAAACCAGAACAACTACAACAACAAAAATCAGTTTTTGAGATATGCCCATCTCCTGCAGAAAATAACATCCAGGGAACCACAAAGCTAGCGTCTGGTGAAGAATTCTGTTCAGGTTCCAGCAGCAATTTGCAAGCTCCTGGTGGCAGCTCTGAACGGTATTTAAAACAAAATGAAATGAATGGTGCTTACTTCAAGCAAAGCTCAGTGTTCACTAAGGATTCCTTTTCTGCCACTACCACACCACCACCACCATCACAATTGCTTCTTTCTCCCCCTCCTCCTCTTCCACAGGTTCCTCAGCTTCCTTCAGAAGGAAAAAGCACTCTGAATGGTGGAGTTTTAGAAGAACACCACCACTACCCCAACCAAAGTAACACAACACTTTTAAGGGAAGTGAAAATAGAGGGTAAACCTGAGGCACCACCTTCCCAGAGTCCTAATCCATCTACACATGTATGCAGCCCTTCTCCGATGCTTTCTGAAAGGCCTCAGAATAATTGTGTGAACAGGAATGACATACAGACTGCAGGGACAATGACTGTTCCATTGTGTTCTGAGAAAACAAGACCAATGTCAGAACACCTCAAGCATAACCCACCAATTTTTGGTAGCAGTGGAGAGCTACAGGACAACTGCCAGCAGTTGATGAGAAACAAAGAGCAAGAGATTCTGAAGGGTCGAGACAAGGAGCAAACACGAGATCTTGTGCCCCCAACACAGCACTATCTGAAACCAGGATGGATTGAATTGAAGGCCCCTCGTTTTCACCAAGCGGAATCCCATCTAAAACGTAATGAGGCATCACTGCCATCAATTCTTCAGTATCAACCCAATCTCTCCAATCAAATGACCTCCAAACAATACACTGGAAATTCCAACATGCCTGGGGGGCTCCCAAGGCAAGCTTACACCCAGAAAACAACACAGCTGGAGCACAAGTCACAAATGTACCAAGTTGAAATGAATCAAGGGCAGTCCCAAGGTACAGTGGACCAACATCTCCAGTTCCAAAAACCCTCACACCAGGTGCACTTCTCCAAAACAGACCATTTACCAAAAGCTCATGTGCAGTCACTGTGTGGCACTAGATTTCATTTTCAACAAAGAGCAGATTCCCAAACTGAAAAACTTATGTCCCCAGTGTTGAAACAGCACTTGAATCAACAGGCTTCAGAGACTGAGCCATTTTCAAACTCACACCTTTTGCAACATAAGCCTCATAAACAGGCAGCACAAACACAACCATCCCAGAGTTCACATCTCCCTCAAAACCAGCAACAGCAGCAAAAATTACAAATAAAGAATAAAGAGGAAATACTCCAGACTTTTCCTCACCCCCAAAGCAACAATGATCAGCAAAGAGAAGGATCATTCTTTGGCCAGACTAAAGTGGAAGAATGTTTTCATGGTGAAAATCAGTATTCAAAATCAAGCGAGTTCGAGACTCATAATGTCCAAATGGGACTGGAGGAAGTACAGAATATAAATCGTAGAAATTCCCCTTATAGTCAGACCATGAAATCAAGTGCATGCAAAATACAGGTTTCTTGTTCAAACAATACACACCTAGTTTCAGAGAATAAAGAACAGACTACACATCCTGAACTTTTTGCAGGAAACAAGACCCAAAACTTGCATCACATGCAATATTTTCCAAATAATGTGATCCCAAAGCAAGATCTTCTTCACAGGTGCTTTCAAGAACAGGAGCAGAAGTCACAACAAGCTTCAGTTCTACAGGGATATAAAAATAGAAACCAAGATATGTCTGGTCAACAAGCTGCGCAACTTGCTCAGCAAAGGTACTTGATACATAACCATGCAAATGTTTTTCCTGTGCCTGACCAGGGAGGAAGTCACACTCAGACCCCTCCCCAGAAGGACACTCAAAAGCATGCTGCTCTAAGGTGGCATCTCTTACAGAAGCAAGAACAGCAGCAAACACAGCAACCCCAAACTGAGTCTTGCCATAGTCAGATGCACAGGCCAATTAAGGTGGAACCTGGATGCAAGCCACATGCCTGTATGCACACAGCACCACCAGAAAACAAAACATGGAAAAAGGTAACTAAGCAAGAGAATCCACCTGCAAGCTGTGATAATGTGCAGCAAAAGAGCATCATTGAGACCATGGAGCAGCATCTGAAGCAGTTTCACGCCAAGTCGTTATTTGACCATAAGGCTCTTACTCTCAAATCACAGAAGCAAGTAAAAGTTGAAATGTCAGGGCCAGTCACAGTTTTGACTAGACAAACCACTGCTGCAGAACTTGATAGCCACACCCCAGCTTTAGAGCAGCAAACAACTTCTTCAGAAAAGACACCAACCAAAAGAACAGCTGCTTCTGTTCTCAATAATTTTATAGAGTCACCTTCCAAATTACTAGATACTCCTATAAAAAATTTATTGGATACACCTGTCAAGACTCAATATGATTTCCCATCTTGCAGATGTGTAGAGCAAATTATTGAAAAAGATGAAGGTCCTTTTTATACCCATCTAGGAGCAGGTCCTAATGTGGCAGCTATTAGAGAAATCATGGAAGAAAGGTTTGGACAGAAGGGTAAAGCTATTAGGATTGAAAGAGTCATCTATACTGGTAAAGAAGGCAAAAGTTCTCAGGGATGTCCTATTGCTAAGTGGGTGGTTCGCAGAAGCAGCAGTGAAGAGAAGCTACTGTGTTTGGTGCGGGAGCGAGCTGGCCACACCTGTGAGGCTGCAGTGATTGTGATTCTCATCCTGGTGTGGGAAGGAATCCCGCTGTCTCTGGCTGACAAACTCTACTCGGAGCTTACCGAGACGCTGAGGAAATACGGCACGCTCACCAATCGCCGGTGTGCCTTGAATGAAGAGAGAACTTGCGCCTGTCAGGGGCTGGATCCAGAAACCTGTGGTGCCTCCTTCTCTTTTGGTTGTTCATGGAGCATGTACTACAATGGATGTAAGTTTGCCAGAAGCAAGATCCCAAGGAAGTTTAAGCTGCTTGGGGATGACCCAAAAGAGGAAGAGAAACTGGAGTCTCATTTGCAAAACCTGTCCACTCTTATGGCACCAACATATAAGAAACTTGCACCTGATGCATATAATAATCAGATTGAATATGAACACAGAGCACCAGAGTGCCGTCTGGGTCTGAAGGAAGGCCGTCCATTCTCAGGGGTCACTGCATGTTTGGACTTCTGTGCTCATGCCCACAGAGACTTGCACAACATGCAGAATGGCAGCACATTGGTATGCACTCTCACTAGAGAAGACAATCGAGAATTTGGAGGAAAACCTGAGGATGAGCAGCTTCACGTTCTGCCTTTATACAAAGTCTCTGACGTGGATGAGTTTGGGAGTGTGGAAGCTCAGGAGGAGAAAAAACGGAGTGGTGCCATTCAGGTACTGAGTTCTTTTCGGCGAAAAGTCAGGATGTTAGCAGAGCCAGTCAAGACTTGCCGACAAAGGAAACTAGAAGCCAAGAAAGCTGCAGCTGAAAAGCTTTCCTCCCTGGAGAACAGCTCAAATAAAAATGAAAAGGAAAAGTCAGCCCCATCACGTACAAAACAAACTGAAAACGCAAGCCAGGCTAAACAGTTGGCAGAACTTTTGCGACTTTCAGGACCAGTCATGCAGCAGTCCCAGCAGCCCCAGCCTCTACAGAAGCAGCCACCACAGCCCCAGCAGCAGCAGAGACCCCAGCAGCAGCAGCCACATCACCCTCAGACAGAGTCTGTCAACTCTTATTCTGCTTCTGGATCCACCAATCCATACATGAGACGGCCCAATCCAGTTAGTCCTTATCCAAACTCTTCACACACTTCAGATATCTATGGAAGCACCAGCCCTATGAACTTCTATTCCACCTCATCTCAAGCTGCAGGTTCATATTTGAATTCTTCTAATCCCATGAACCCTTACCCTGGGCTTTTGAATCAGAATACCCAATATCCATCATATCAATGCAATGGAAACCTATCAGTGGACAACTGCTCCCCATATCTGGGTTCCTATTCTCCCCAGTCTCAGCCGATGGATCTGTATAGGTATCCAAGCCAAGACCCTCTGTCTAAGCTCAGTCTACCACCCATCCATACACTTTACCAGCCAAGGTTTGGAAATAGCCAGAGTTTTACATCTAAATACTTAGGTTATGGAAACCAAAATATGCAGGGAGATGGTTTCAGCAGTTGTACCATTAGACCAAATGTACATCATGTAGGGAAATTGCCTCCTTATCCCACTCATGAGATGGATGGCCACTTCATGGGAGCCACCTCTAGATTACCACCCAATCTGAGCAATCCAAACATGGACTATAAAAATGGTGAACATCATTCACCTTCTCACATAATCCATAACTACAGTGCAGCTCCGGGCATGTTCAACAGCTCTCTTCATGCCCTGCATCTCCAAAACAAGGAGAATGACATGCTTTCCCACACAGCTAATGGGTTATCAAAGATGCTTCCAGCTCTTAACCATGATAGAACTGCTTGTGTCCAAGGAGGCTTACACAAATTAAGTGATGCTAATGGTCAGGAAAAGCAGCCATTGGCACTAGTCCAGGGTGTGGCTTCTGGTGCAGAGGACAACGATGAGGTCTGGTCAGACAGCGAGCAGAGCTTTCTGGATCCTGACATTGGGGGAGTGGCCGTGGCTCCAACTCATGGGTCAATTCTCATTGAGTGTGCAAAGCGTGAGCTGCATGCCACAACCCCTTTAAAGAATCCCAATAGGAATCACCCCACCAGGATCTCCCTCGTCTTTTACCAGCATAAGAGCATGAATGAGCCAAAACATGGCTTGGCTCTTTGGGAAGCCAAAATGGCTGAAAAAGCCCGTGAGAAAGAGGAAGAGTGTGAAAAGTATGGCCCAGACTATGTGCCTCAGAAATCCCATGGCAAAAAAGTGAAACGGGAGCCTGCTGAGCCACATGAAACTTCAGAGCCCACTTACCTGCGTTTCATCAAGTCTCTTGCCGAAAGGACCATGTCCGTGACCACAGACTCCACAGTAACTACATCTCCATATGCCTTCACTCGGGTCACAGGGCCTTACAACAGATATATATGAAGATATATATGATATCACCCCCTTTTGTTGGTTACCTCACTTGAAAAGACCACAACCAACCTGTCAGTAGTATAGTTCTCATGACGTGGGCAGTGGGGAAAGGTCACAGTATTCATGACAAATGTGGTGGGAAAAACCTCAGCTCACCAGCAACAAAAGAGGTTATCTTACCATAGCACTTAATTTTCACTGGCTCCCAAGTGGTCACAGATGGCATCTAGGAAAAGACCAAAGCATTCTATGCAAAAAGAAGGTGGGGAAGAAAGTGTTCCGCAATTTACATTTTTAAACACTGGTTCTATTATTGGACGAGATGATATGTAAATGTGATCCCCCCCCCCCGCTTACAACTCTACACATCTGTGACCACTTTTAATAATATCAAGTTTGCATAGTCATGGAACACAAATCAAACAAGTACTGTAGTATTACAGTGACAGGAATCTTAAAATACCATCTGGTGCTGAATATATGATGTACTGAAATACTGGAATTATGGCTTTTTGAAATGCAGTTTTTACTGTAATCTTAACTTTTATTTATCAAAATAGCTACAGGAAACATGAATAGCAGGAAAACACTGAATTTGTTTGGATGTTCTAAGAAATGGTGCTAAGAAAATGGTGTCTTTAATAGCTAAAAATTTAATGCCTTTATATCATCAAGATGCTATCAGTGTACTCCAGTGCCCTTGAATAATAGGGGTACCTTTTCATTCAAGTTTTTATCATAATTACCTATTCTTACACAAGCTTAGTTTTTAAAATGTGGACATTTTAAAGGCCTCTGGATTTTGCTCATCCAGTGAAGTCCTTGTAGGACAATAAACGTATATATGTACATATATACACAAACATGTATATGTGCACACACATGTATATGTATAAATATTTTAAATGGTGTTTTAGAAGCACTTTGTCTACCTAAGCTTTGACAACTTGAACAATGCTAAGGTACTGAGATGTTTAAAAAACAAGTTTACTTTCATTTTAGAATGCAAAGTTGATTTTTTTAAGGAAACAAAGAAAGCTTTTAAAATATTTTTGCTTTTAGCCATGCATCTGCTGATGAGCAATTGTGTCCATTTTTAACACAGCCAGTTAAATCCACCATGGGGCTTACTGGATTCAAGGGAATACGTTAGTCCACAAAACATGTTTTCTGGTGCTCATCTCACATGCTATACTGTAAAACAGTTTTATACAAAATTGTATGACAAGTTCATTGCTCAAAAATGTACAGTTTTAAGAATTTTCTATTAACTGCAGGTAATAATTAGCTGCATGCTGCAGACTCAACAAAGCTAGTTCACTGAAGCCTATGCTATTTTATGGATCATAGGCTCTTCAGAGAACTGAATGGCAGTCTGCCTTTGTGTTGATAATTATGTACATTGTGACGTTGTCATTTCTTAGCTTAAGTGTCCTCTTTAACAAGAGGATTGAGCAGACTGATGCCTGCATAAGATGAATAAACAGGGTTAGTTCCATGTGAATCTGTCAGTTAAAAAGAAACAAAAACAGGCAGCTGGTTTGCTGTGGTGGTTTTAAATCATTAATTTGTATAAAGAAGTGAAAGAGTTGTATAGTAAATTAAATTGTAAACAAAACTTTTTTAATGCAATGCTTTAGTATTTTAGTACTGTAAAAAAATTAAATATATACATATATATATATATATATATATATATATATATGAGTTTGAAGCAGAATTCACATCATGATGGTGCTACTCAGCCTGCTACAAATATATCATAATGTGAGCTAAGAATTCATTAAATGTTTGAGTGATGTTCCTACTTGTCATATACCTCAACACTAGTTTGGCAATAGGATATTGAACTGAGAGTGAAAGCATTGTGTACCATCATTTTTTTCCAAGTCCTTTTTTTTATTGTTAAAAAAAAAAGCATACCTTTTTTCAATACTTGATTTCTTAGCAAGTATAACTTGAACTTCAACCTTTTTGTTCTAAAAATTCAGGGATATTTCAGCTCATGCTCTCCCTATGCCAACATGTCACCTGTGTTTATGTAAAATTGTTGTAGGTTAATAAATATATTCTTTGTCAGGGATTTAACCCTTTTATTTTGAATCCCTTCTATTTTACTTGTACATGTGCTGATGTAACTAAAACTAATTTTGTAAATCTGTTGGCTCTTTTTATTGTAAAGAAAAGCATTTTAAAAGTTTGAGGAATCTTTTGACTGTTTCAAGCAGGAAAAAAAAATTACATGAAAATAGAATGCACTGAGTTGATAAAGGGAAAAATTGTAAGGCAGGAGTTTGGCAAGTGGCTGTTGGCCAGAGACTTACTTGTAACTCTCTAAATGAAGTTTTTTTGATCCTGTAATCACTGAAGGTACATACTCCATGTGGACTTCCCTTAAACAGGCAAACACCTACAGGTATGGTGTGCAACAGATTGTACAATTACATTTTGGCCTAAATACATTTTTGCTTACTAGTATTTAAAATAAATTCTTAATCAGAGGAGGCCTTTGGGTTTTATTGGTCAAATCTTTGTAAGCTGGCTTTTGTCTTTTTAAAAAATTTCTTGAATTTGTGGTTGTGTCCAATTTGCAAACATTTCCAAAAATGTTTGCTTTGCTTACAAACCACATGATTTTAATGTTTTTTGTATACCATAATATCTAGCCCCAAACATTTGATTACTACATGTGCATTGGTGATTTTGATCATCCATTCTTAATATTTGATTTCTGTGTCACCTACTGTCATTTGTTAAACTGCTGGCCAACAAGAACAGGAAGTATAGTTTGGGGGGTTGGGGAGAGTTTACATAAGGAAGAGAAGAAATTGAGTGGCATATTGTAAATATCAGATCTATAATTGTAAATATAAAACCTGCCTCAGTTAGAATGAATGGAAAGCAGATCTACAATTTGCTAATATAGGAATATCAGGTTGACTATATAGCCATACTTGAAAATGCTTCTGAGTGGTGTCAACTTTACTTGAATGAATTTTTCATCTTGATTGACGCACAGTGATGTACAGTTCACTTCTGAAGCTAGTGGTTAACTTGTGTAGGAAACTTTTGCAGTTTGACACTAAGATAACTTCTGTGTGCATTTTTCTATGCTTTTTTAAAAACTAGTTTCATTTCATTTTCATGAGATGTTTGGTTTATAAGATCTGAGGATGGTTATAAATACTGTAAGTATTGTAATGTTATGAATGCAGGTTATTTGAAAGCTGTTTATTATTATATCATTCCTGATAATGCTATGTGAGTGTTTTTAATAAAATTTATATTTATTTAATGCACTCTAAGTGTTGTCTTCCT
“转化生长因子受体2(TGFBRII)多肽”是指与NCBI登录号ABG65632.1或其片段具有至少约85%的序列同一性并具有免疫抑制活性的蛋白质。以下提供了示例性氨基酸序列:
>ABG65632.1转化生长因子β受体II[智人]
MGRGLLRGLWPLHIVLWTRIASTIPPHVQKSVNNDMIVTDNNGAVKFPQLCKFCDVRFSTCDNQKSCMSNCSITSICEKPQEVCVAVWRKNDENITLETVCHDPKLPYHDFILEDAASPKCIMKEKKKPGETFFMCSCSSDECNDNIIFSEEYNTSNPDLLLVIFQVTGISLLPPLGVAISVIIIFYCYRVNRQQKLSSTWETGKTRKLMEFSEHCAIILEDDRSDISSTCANNINHNTELLPIELDTLVGKGRFAEVYKAKLKQNTSEQFETVAVKIFPYEEYASWKTEKDIFSDINLKHENILQFLTAEERKTELGKQYWLITAFHAKGNLQEYLTRHVISWEDLRKLGSSLARGIAHLHSDHTPCGRPKMPIVHRDLKSSNILVKNDLTCCLCDFGLSLRLDPTLSVDDLANSGQVGTARYMAPEVLESRMNLENVESFKQTDVYSMALVLWEMTSRCNAVGEVKDYEPPFGSKVREHPCVESMKDNVLRDRGRPEIPSFWLNHQGIQMVCETLTECWDHDPEARLTAQCVAERFSELEHLDRLSGRSCSEEKIPEDGSLNTTK
“转化生长因子受体2(TGFBRII)多核苷酸”是指编码TGFBRII多肽的核酸。所述TGFBRII基因编码具有丝氨酸/苏氨酸激酶活性的跨膜蛋白。以下提供了示例性TGFBRII核酸。
>M85079.1人类TGF-βII型受体mRNA,complete cds
GTTGGCGAGGAGTTTCCTGTTTCCCCCGCAGCGCTGAGTTGAAGTTGAGTGAGTCACTCGCGCGCACGGAGCGACGACACCCCCGCGCGTGCACCCGCTCGGGACAGGAGCCGGACTCCTGTGCAGCTTCCCTCGGCCGCCGGGGGCCTCCCCGCGCCTCGCCGGCCTCCAGGCCCCTCCTGGCTGGCGAGCGGGCGCCACATCTGGCCCGCACATCTGCGCTGCCGGCCCGGCGCGGGGTCCGGAGAGGGCGCGGCGCGGAGCGCAGCCAGGGGTCCGGGAAGGCGCCGTCCGTGCGCTGGGGGCTCGGTCTATGACGAGCAGCGGGGTCTGCCATGGGTCGGGGGCTGCTCAGGGGCCTGTGGCCGCTGCACATCGTCCTGTGGACGCGTATCGCCAGCACGATCCCACCGCACGTTCAGAAGTCGGTTAATAACGACATGATAGTCACTGACAACAACGGTGCAGTCAAGTTTCCACAACTGTGTAAATTTTGTGATGTGAGATTTTCCACCTGTGACAACCAGAAATCCTGCATGAGCAACTGCAGCATCACCTCCATCTGTGAGAAGCCACAGGAAGTCTGTGTGGCTGTATGGAGAAAGAATGACGAGAACATAACACTAGAGACAGTTTGCCATGACCCCAAGCTCCCCTACCATGACTTTATTCTGGAAGATGCTGCTTCTCCAAAGTGCATTATGAAGGAAAAAAAAAAGCCTGGTGAGACTTTCTTCATGTGTTCCTGTAGCTCTGATGAGTGCAATGACAACATCATCTTCTCAGAAGAATATAACACCAGCAATCCTGACTTGTTGCTAGTCATATTTCAAGTGACAGGCATCAGCCTCCTGCCACCACTGGGAGTTGCCATATCTGTCATCATCATCTTCTACTGCTACCGCGTTAACCGGCAGCAGAAGCTGAGTTCAACCTGGGAAACCGGCAAGACGCGGAAGCTCATGGAGTTCAGCGAGCACTGTGCCATCATCCTGGAAGATGACCGCTCTGACATCAGCTCCACGTGTGCCAACAACATCAACCACAACACAGAGCTGCTGCCCATTGAGCTGGACACCCTGGTGGGGAAAGGTCGCTTTGCTGAGGTCTATAAGGCCAAGCTGAAGCAGAACACTTCAGAGCAGTTTGAGACAGTGGCAGTCAAGATCTTTCCCTATGAGGAGTATGCCTCTTGGAAGACAGAGAAGGACATCTTCTCAGACATCAATCTGAAGCATGAGAACATACTCCAGTTCCTGACGGCTGAGGAGCGGAAGACGGAGTTGGGGAAACAATACTGGCTGATCACCGCCTTCCACGCCAAGGGCAACCTACAGGAGTACCTGACGCGGCATGTCATCAGCTGGGAGGACCTGCGCAAGCTGGGCAGCTCCCTCGCCCGGGGGATTGCTCACCTCCACAGTGATCACACTCCATGTGGGAGGCCCAAGATGCCCATCGTGCACAGGGACCTCAAGAGCTCCAATATCCTCGTGAAGAACGACCTAACCTGCTGCCTGTGTGACTTTGGGCTTTCCCTGCGTCTGGACCCTACTCTGTCTGTGGATGACCTGGCTAACAGTGGGCAGGTGGGAACTGCAAGATACATGGCTCCAGAAGTCCTAGAATCCAGGATGAATTTGGAGAATGCTGAGTCCTTCAAGCAGACCGATGTCTACTCCATGGCTCTGGTGCTCTGGGAAATGACATCTCGCTGTAATGCAGTGGGAGAAGTAAAAGATTATGAGCCTCCATTTGGTTCCAAGGTGCGGGAGCACCCCTGTGTCGAAAGCATGAAGGACAACGTGTTGAGAGATCGAGGGCGACCAGAAATTCCCAGCTTCTGGCTCAACCACCAGGGCATCCAGATGGTGTGTGAGACGTTGACTGAGTGCTGGGACCACGACCCAGAGGCCCGTCTCACAGCCCAGTGTGTGGCAGAACGCTTCAGTGAGCTGGAGCATCTGGACAGGCTCTCGGGGAGGAGCTGCTCGGAGGAGAAGATTCCTGAAGACGGCTCCCTAAACACTACCAAATAGCTCTTATGGGGCAGGCTGGGCATGTCCAAAGAGGCTGCCCCTCTCACCAAA
“具有Ig和ITIM结构域的T细胞免疫受体(TIGIT)多肽”是指与NCBI登录号ACD74757.1或其片段具有至少约85%序列同一性并具有免疫调节活性的蛋白质。以下提供了示例性的TIGIT氨基酸序列。
>ACD74757.1具有Ig和ITIM结构域的T细胞免疫受体[智人]MRWCLLLIWAQGLRQAPLASGMMTGTIETTGNISAEKGGSIILQCHLSSTTAQVTQVNWEQQDQLLAICNADLGWHISPSFKDRVAPGPGLGLTLQSLTVNDTGEYFCIYHTYPDGTYTGRIFLEVLESSVAEHGARFQIPLLGAMAATLVVICTAVIVVVALTRKKKALRIHSVEGDLRRKSAGQEEWSPSAPSPPGSCVQAEAAPAGLCGEQRGEDCAELHDYFNVLSYRSLGNCSFFTETG
“具有Ig和ITIM结构域(TIGIT)多核苷酸的T细胞免疫受体”是指编码TIGIT多肽的核酸。所述TIGIT基因编码与肿瘤形成和T细胞耗竭相关的抑制性免疫受体。以下提供了示例性核酸序列:
>EU675310.1智人具有Ig和ITIM结构域的T细胞免疫受体(TIGIT)mRNA,completecds
CGTCCTATCTGCAGTCGGCTACTTTCAGTGGCAGAAGAGGCCACATCTGCTTCCTGTAGGCCCTCTGGGCAGAAGCATGCGCTGGTGTCTCCTCCTGATCTGGGCCCAGGGGCTGAGGCAGGCTCCCCTCGCCTCAGGAATGATGACAGGCACAATAGAAACAACGGGGAACATTTCTGCAGAGAAAGGTGGCTCTATCATCTTACAATGTCACCTCTCCTCCACCACGGCACAAGTGACCCAGGTCAACTGGGAGCAGCAGGACCAGCTTCTGGCCATTTGTAATGCTGACTTGGGGTGGCACATCTCCCCATCCTTCAAGGATCGAGTGGCCCCAGGTCCCGGCCTGGGCCTCACCCTCCAGTCGCTGACCGTGAACGATACAGGGGAGTACTTCTGCATCTATCACACCTACCCTGATGGGACGTACACTGGGAGAATCTTCCTGGAGGTCCTAGAAAGCTCAGTGGCTGAGCACGGTGCCAGGTTCCAGATTCCATTGCTTGGAGCCATGGCCGCGACGCTGGTGGTCATCTGCACAGCAGTCATCGTGGTGGTCGCGTTGACTAGAAAGAAGAAAGCCCTCAGAATCCATTCTGTGGAAGGTGACCTCAGGAGAAAATCAGCTGGACAGGAGGAATGGAGCCCCAGTGCTCCCTCACCCCCAGGAAGCTGTGTCCAGGCAGAAGCTGCACCTGCTGGGCTCTGTGGAGAGCAGCGGGGAGAGGACTGTGCCGAGCTGCATGACTACTTCAATGTCCTGAGTTACAGAAGCCTGGGTAACTGCAGCTTCTTCACAGAGACTGGTTAGCAACCAGAGGCATCTTCTGG
“T细胞受体α常数(TRAC)多肽”是指与NCBI登录号P01848.2或其片段具有至少约85%的氨基酸序列同一性并具有免疫调节活性的蛋白质。以下提供了示例性氨基酸序列。
>sp|P01848.2|TRAC_HUMAN RecName:Full=T细胞受体α常数IQNPDPAVYQLRDSKSSDKSVCLFTDFDSQTNVSQSKDSDVYITDKTVLDMRSMDFKSNSAVAWSNKSDFACANAFNNSIIPEDTFFPSPESSCDVKLVEKSFETDTNLNFQNLSVIGFRILLLKVAGFNLLMTLRLWSS
“T细胞受体α常数(TRAC)多核苷酸”是指编码TRAC多肽的核酸。以下提供了示例性TRAC核酸序列。
>X02592.1 T细胞受体α链的人类mRNA(TCR-alpha)
TTTTGAAACCCTTCAAAGGCAGAGACTTGTCCAGCCTAACCTGCCTGCTGCTCCTAGCTCCTGAGGCTCAGGGCCCTTGGCTTCTGTCCGCTCTGCTCAGGGCCCTCCAGCGTGGCCACTGCTCAGCCATGCTCCTGCTGCTCGTCCCAGTGCTCGAGGTGATTTTTACCCTGGGAGGAACCAGAGCCCAGTCGGTGACCCAGCTTGGCAGCCACGTCTCTGTCTCTGAAGGAGCCCTGGTTCTGCTGAGGTGCAACTACTCATCGTCTGTTCCACCATATCTCTTCTGGTATGTGCAATACCCCAACCAAGGACTCCAGCTTCTCCTGAAGTACACATCAGCGGCCACCCTGGTTAAAGGCATCAACGGTTTTGAGGCTGAATTTAAGAAGAGTGAAACCTCCTTCCACCTGACGAAACCCTCAGCCCATATGAGCGACGCGGCTGAGTACTTCTGTGCTGTGAGTGATCTCGAACCGAACAGCAGTGCTTCCAAGATAATCTTTGGATCAGGGACCAGACTCAGCATCCGGCCAAATATCCAGAACCCTGACCCTGCCGTGTACCAGCTGAGAGACTCTAAATCCAGTGACAAGTCTGTCTGCCTATTCACCGATTTTGATTCTCAAACAAATGTGTCACAAAGTAAGGATTCTGATGTGTATATCACAGACAAAACTGTGCTAGACATGAGGTCTATGGACTTCAAGAGCAACAGTGCTGTGGCCTGGAGCAACAAATCTGACTTTGCATGTGCAAACGCCTTCAACAACAGCATTATTCCAGAAGACACCTTCTTCCCCAGCCCAGAAAGTTCCTGTGATGTCAAGCTGGTCGAGAAAAGCTTTGAAACAGATACGAACCTAAACTTTCAAAACCTGTCAGTGATTGGGTTCCGAATCCTCCTCCTGAAAGTGGCCGGGTTTAATCTGCTCATGACGCTGCGGCTGTGGTCCAGCTGAGATCTGCAAGATTGTAAGACAGCCTGTGCTCCCTCGCTCCTTCCTCTGCATTGCCCCTCTTCTCCCTCTCCAAACAGAGGGAACTCTCCTACCCCCAAGGAGGTGAAAGCTGCTACCACCTCTGTGCCCCCCCGGTAATGCCACCAACTGGATCCTACCCGAATTTATGATTAAGATTGCTGAAGAGCTGCCAAACACTGCTGCCACCCCCTCTGTTCCCTTATTGCTGCTTGTCACTGCCTGACATTCACGGCAGAGGCAAGGCTGCTGCAGCCTCCCCTGGCTGTGCACATTCCCTCCTGCTCCCCAGAGACTGCCTCCGCCATCCCACAGATGATGGATCTTCAGTGGGTTCTCTTGGGCTCTAGGTCCTGGAGAATGTTGTGAGGGGTTTATTTTTTTTTAATAGTGTTCATAAAGAAATACATAGTATTCTTCTTCTCAAGACGTGGGGGGAAATTATCTCATTATCGAGGCCCTGCTATGCTGTGTGTCTGGGCGTGTTGTATGTCCTGCTGCCGATGCCTTCATTAAAATGATTTGGAA
如本文所用,“转导(transduction)”是指通过病毒载体将基因或遗传物质转移至细胞。
如本文所用,“转化(transformation)”是指在通过引入外源核酸产生的细胞中引入遗传变化的过程。
“转染(transfection)”是指通过化学或物理方式将基因或遗传物质转移到细胞中。
“易位(translocation)”是指核酸片段在非同源染色体之间的重排。
如本文所用,术语“治疗(treat)”、“治疗(treating)”、“治疗(treatment)”等是指减少或改善病症和/或与其相关的症状或获得期望的药理学和/或生理学效果。应当理解,尽管不排除,治疗病症或病症并不要求完全消除病症、病症或与其相关的症状。在一些实施方案中,该作用是治疗性的,即但不限于,该作用部分或完全减少、减弱、消除、减轻、减轻、降低疾病和/或可归因于该疾病的不利症状的强度或治愈该疾病和/或不利症状。在一些实施方案中,该作用是预防性的,即该作用保护或防止疾病或病症的发生或复发。为此,目前公开的方法包括施用治疗有效量的如本文所述的组合物。
“尿嘧啶糖基化酶抑制剂”或“UGI”是指抑制尿嘧啶切除修复系统的药剂。在一个实施方案中,所述试剂是结合宿主尿嘧啶-DNA糖基化酶并防止从DNA中去除尿嘧啶残基的蛋白质或其片段。在一个实施方案中,UGI是能够抑制尿嘧啶-DNA糖基化酶碱基切除修复酶的蛋白质、其片段或结构域。在一些实施方案中,UGI结构域包含野生型UGI或其修改版。在一些实施方案中,UGI结构域包含下文阐述的示例性氨基酸序列的片段。在一些实施方案中,UGI片段包含的氨基酸序列包含下文提供的示例性UGI序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或100%相同。在一些实施方案中,UGI包含与示例性UGI氨基酸序列或其片段同源的氨基酸序列,如下所述。在一些实施方案中,所述UGI或其一部分与野生型UGI或UGI序列或其部分至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.5%、至少99.9%或至少99%或100%相同,如下所述。示例性的UGI包含如下氨基酸序列:
>splP14739IUNGI_BPPB2尿嘧啶-DNA糖基化酶抑制剂
MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVMLLTSDAPEYKPWALVIQDSNGENKIKML.
术语“载体”是指将核酸序列引入细胞中从而产生转化细胞的手段。载体包括质粒、转座子、噬菌体、病毒、脂质体和附加体。“表达载体”是包含待在受体细胞中表达的核苷酸序列的核酸序列。表达载体可以包括额外的核酸序列以促进和/或促进引入序列的表达,例如起始、终止、增强子、启动子和分泌序列。
“T细胞受体相关蛋白激酶70(ZAP70)多肽的zeta链”是指与NCBI登录号AAH53878.1具有至少约85%氨基酸序列同一性并具有激酶活性的蛋白质。以下提供了示例性氨基酸序列。
>AAH53878.1 Zeta-链(TCR)相关蛋白激酶70kDa[智人]
MPDPAAHLPFFYGSISRAEAEEHLKLAGMADGLFLLRQCLRSLGGYVLSLVHDVRFHHFPIERQLNGTYAIAGGKAHCGPAELCEFYSRDPDGLPCNLRKPCNRPSGLEPQPGVFDCLRDAMVRDYVRQTWKLEGEALEQAIISQAPQVEKLIATTAHERMPWYHSSLTREEAERKLYSGAQTDGKFLLRPRKEQGTYALSLIYGKTVYHYLISQDKAGKYCIPEGTKFDTLWQLVEYLKLKADGLIYCLKEACPNSSASNASGAAAPTLPAHPSTLTHPQRRIDTLNSDGYTPEPARITSPDKPRPMPMDTSVYESPYSDPEELKDKKLFLKRDNLLIADIELGCGNFGSVRQGVYRMRKKQIDVAIKVLKQGTEKADTEEMMREAQIMHQLDNPYIVRLIGVCQAEALMLVMEMAGGGPLHKFLVGKREEIPVSNVAELLHQVSMGMKYLEEKNFVHRDLAARNVLLVNRHYAKISDFGLSKALGADDSYYTARSAGKWPLKWYAPECINFRKFSSRSDVWSYGVTMWEALSYGQKPYKKMKGPEVMAFIEQGKRMECPPECPPELYALMSDCWIYKWEDRPDFLTVEQRMRACYYSLASKVEGPPGSTQKAEAACA
“T细胞受体相关蛋白激酶70(ZAP70)多核苷酸的zeta链”是指编码ZAP70多肽的核酸。所述ZAP70基因编码一种参与T细胞发育和淋巴细胞活化的酪氨酸激酶。缺乏功能性ZAP10可导致严重的联合免疫缺陷,其特征是缺乏CD8+T细胞。以下提供了示例性的ZAP70核酸序列。
>BC053878.1智人zeta-链(TCR)相关蛋白激酶70kDa,mRNA(cDNA clone MGC:61743IMAGE:5757161),complete cds
GCTTGCCGGAGCTCAGCAGACACCAGGCCTTCCGGGCAGGCCTGGCCCACCGTGGGCCTCAGAGCTGCTGCTGGGGCATTCAGAACCGGCTCTCCATTGGCATTGGGACCAGAGACCCCGCAAGTGGCCTGTTTGCCTGGACATCCACCTGTACGTCCCCAGGTTTCGGGAGGCCCAGGGGCGATGCCAGACCCCGCGGCGCACCTGCCCTTCTTCTACGGCAGCATCTCGCGTGCCGAGGCCGAGGAGCACCTGAAGCTGGCGGGCATGGCGGACGGGCTCTTCCTGCTGCGCCAGTGCCTGCGCTCGCTGGGCGGCTATGTGCTGTCGCTCGTGCACGATGTGCGCTTCCACCACTTTCCCATCGAGCGCCAGCTCAACGGCACCTACGCCATTGCCGGCGGCAAAGCGCACTGTGGACCGGCAGAGCTCTGCGAGTTCTACTCGCGCGACCCCGACGGGCTGCCCTGCAACCTGCGCAAGCCGTGCAACCGGCCGTCGGGCCTCGAGCCGCAGCCGGGGGTCTTCGACTGCCTGCGAGACGCCATGGTGCGTGACTACGTGCGCCAGACGTGGAAGCTGGAGGGCGAGGCCCTGGAGCAGGCCATCATCAGCCAGGCCCCGCAGGTGGAGAAGCTCATTGCTACGACGGCCCACGAGCGGATGCCCTGGTACCACAGCAGCCTGACGCGTGAGGAGGCCGAGCGCAAACTTTACTCTGGGGCGCAGACCGACGGCAAGTTCCTGCTGAGGCCGCGGAAGGAGCAGGGCACATACGCCCTGTCCCTCATCTATGGGAAGACGGTGTACCACTACCTCATCAGCCAAGACAAGGCGGGCAAGTACTGCATTCCCGAGGGCACCAAGTTTGACACGCTCTGGCAGCTGGTGGAGTATCTGAAGCTGAAGGCGGACGGGCTCATCTACTGCCTGAAGGAGGCCTGCCCCAACAGCAGTGCCAGCAACGCCTCAGGGGCTGCTGCTCCCACACTCCCAGCCCACCCATCCACGTTGACTCATCCTCAGAGACGAATCGACACCCTCAACTCAGATGGATACACCCCTGAGCCAGCACGCATAACGTCCCCAGACAAACCGCGGCCGATGCCCATGGACACGAGCGTGTATGAGAGCCCCTACAGCGACCCAGAGGAGCTCAAGGACAAGAAGCTCTTCCTGAAGCGCGATAACCTCCTCATAGCTGACATTGAACTTGGCTGCGGCAACTTTGGCTCAGTGCGCCAGGGCGTGTACCGCATGCGCAAGAAGCAGATCGACGTGGCCATCAAGGTGCTGAAGCAGGGCACGGAGAAGGCAGACACGGAAGAGATGATGCGCGAGGCGCAGATCATGCACCAGCTGGACAACCCCTACATCGTGCGGCTCATTGGCGTCTGCCAGGCCGAGGCCCTCATGCTGGTCATGGAGATGGCTGGGGGCGGGCCGCTGCACAAGTTCCTGGTCGGCAAGAGGGAGGAGATCCCTGTGAGCAATGTGGCCGAGCTGCTGCACCAGGTGTCCATGGGGATGAAGTACCTGGAGGAGAAGAACTTTGTGCACCGTGACCTGGCGGCCCGCAACGTCCTGCTGGTTAACCGGCACTACGCCAAGATCAGCGACTTTGGCCTCTCCAAAGCACTGGGTGCCGACGACAGCTACTACACTGCCCGCTCAGCAGGGAAGTGGCCGCTCAAGTGGTACGCACCCGAATGCATCAACTTCCGCAAGTTCTCCAGCCGCAGCGATGTCTGGAGCTATGGGGTCACCATGTGGGAGGCCTTGTCCTACGGCCAGAAGCCCTACAAGAAGATGAAAGGGCCGGAGGTCATGGCCTTCATCGAGCAGGGCAAGCGGATGGAATGCCCACCAGAGTGTCCACCCGAACTGTACGCACTCATGAGTGACTGCTGGATCTACAAGTGGGAGGATCGCCCCGACTTCCTGACCGTGGAGCAGCGCATGCGAGCCTGTTACTACAGCCTGGCCAGCAAGGTGGAAGGGCCCCCAGGCAGCACACAGAAGGCTGAGGCTGCCTGTGCCTGAGCTCCCGCTGCCCAGGGGAGCCCTCCACACCGGCTCTTCCCCACCCTCAGCCCCACCCCAGGTCCTGCAGTCTGGCTGAGCCCTGCTTGGTTGTCTCCACACACAGCTGGGCTGTGGTAGGGGGTGTCTCAGGCCACACCGGCCTTGCATTGCCTGCCTGGCCCCCTGTCCTCTCTGGCTGGGGAGCAGGGAGGTCCGGGAGGGTGCGGCTGTGCAGCCTGTCCTGGGCTGGTGGCTCCCGGAGGGCCCTGAGCTGAGGGCATTGCTTACACGGATGCCTTCCCCTGGGCCCTGACATTGGAGCCTGGGCATCCTCAGGTGGTCAGGCGTAGATCACCAGAATAAACCCAGCTTCCCTCTTGAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
本文提供的任何组合物或方法可以与本文提供的任何其他组合物和方法中的一种或多种组合。
DNA编辑已成为通过在基因水平上纠正致病突变来改变疾病状态的可行手段。直到最近,所有DNA编辑平台的功能都是通过在特定基因组位点诱导DNA双链断裂(DSB)并依靠内源性DNA修复途径以半随机方式确定产品结果,从而产生复杂的遗传产品群体。虽然可以通过同源定向修复(HDR)途径实现精确的、用户定义的修复结果,但许多挑战阻碍了在治疗相关细胞类型中使用HDR进行高效修复。在实践中,该途径相对于竞争性、易出错的非同源末端连接途径而言效率低下。此外,HDR被严格限制在细胞周期的G1和S期,阻止了有丝分裂后细胞中DSB的精确修复。因此,已经证明很难或不可能以用户定义的、可编程的方式在这些群体中高效地改变基因组序列。
附图说明
图1A和1B是影响T细胞功能的三种蛋白质的图示。图1A是TRAC蛋白的图示,它是移植物抗宿主病的关键成分。图1B是B2M蛋白的图示,B2M蛋白是存在于有核细胞上的MHC 1类抗原呈递复合物的一种成分,可被宿主的CD8+T细胞识别。图1C是导致PDCD1基因表达的T细胞信号传导的图示,由此产生的PD-1蛋白起到抑制T细胞信号传导的作用。
图2A至2D描绘了原代细胞中A·T到G·C的转化和表型结果。图2A是小提琴图,描绘了在用指定的mRNA和41个针对6种基因的单个sgRNA电穿孔原代人类T细胞后,通过流式细胞术测量的蛋白质表达降低。显示的单个值代表来自用指定mRNA编辑的两个重复细胞和测试的41个sgRNA之一的蛋白质表达降低的细胞的平均百分比。图2B是一个热图,描绘了8个ABE8 mRNA和ABE7.10-m/d在6个目标位点的A·T到G·C转化的NGS分析。显示的值反映了三个独立生物学重复的平均值。每个目标位点的编辑核苷酸的位置显示在热图上方。图2C是描绘了在原代人类T细胞被电穿孔后,在位点21(B2M)、位点25(TRAC)和位点24(CIITA)的多重编辑T细胞中A·T到G·C转换的NGS分析图指示的mRNA和三个sgRNA以多重编辑格式显示。图2D(上图)是B2M、CIITA和TRAC蛋白的蛋白表达图,如通过流式细胞术在图1中的细胞群上测量的。2C电穿孔后五天。显示的值来自代表性捐助者。图2D(下图)是一个表格,描述了在使用指定的ABE编辑后通过流式细胞术测量的细胞表达百分比。
图3是热图,描绘了原代T细胞中ABE编辑器通过流式细胞术测量的蛋白质敲低。将编码ABE8编辑器的八种mRNA和编码ABE7.10-m/d的两种mRNA分别转染到具有41种靶向6种基因的sgRNA的T细胞中,并使用流式细胞术测量它们对蛋白质表达的影响。显示的值是n=2独立重复的平均值。
图4是描绘ABE编辑的CAR-T细胞对抗原阳性肿瘤细胞具有有效细胞毒活性的图表。在时间=0小时接种荧光标记的RPMI-8226细胞,并在引入CAR-T细胞前28小时内使用IncuCyte活细胞成像系统监测它们的生长。使用指定的ABE(图1C)多重编辑的T细胞用编码抗BCMA CAR分子的慢病毒转导,并在时间=28小时时引入RPMI-8226细胞,RPMI-8226细胞的生长在额外的68小时内进行了监测。显示的值是n=3独立生物学重复的平均值。
图5A和5B描绘了RNA扩增子测序以检测与ABE治疗相关的RNA中的细胞A-to-I编辑。显示了单个数据点,误差线代表标准差。对于n=3独立的生物学重复,在不同的日子进行。图5A是描绘与ABE7和Cas9(D10A)切口酶对照相比核心ABE 8构建体的靶向RNA扩增子中的A-to-I编辑频率的图。图5B是描绘ABE8的靶向RNA扩增子中的A-to-I编辑频率的图,其具有据报导改善RNA脱靶编辑的突变。
图6A和6B是描述用于评估T细胞中蛋白质敲低的门的例子的图表。用于对活的、单个的淋巴细胞进行群体分析的代表性门控策略,以便通过流式细胞术确定表面蛋白的减少。
图7是描绘由跨越HEK293T细胞中8个不同基因组位点的ABE产生的等位基因的图。
图8A和8B描绘了来自用碱基编辑器mRNA处理的细胞的全转录组和全基因组测序数据。图8A是描绘用指定mRNA处理的HEK293T细胞中的全转录组测序的条带图。在重复的HEK293T细胞实验中观察到RNA转录组范围内A->G突变的变异等位基因频率。总A->G突变显示在每个样品上方。图8B是描绘用指定mRNA处理的T细胞中的全转录组测序的条带图。在三个不同的T细胞供体中观察到RNA转录组范围内A-to-G突变的变异等位基因频率。总A到G突变显示在每个样品上方。
图9A和9B描绘了用于在全基因组测序之前对B2M阳性和B2M阴性细胞进行流动分选的门的代表性实例。图9A描绘了在未处理条件下分选成单细胞克隆的活B2M阳性HEK293T细胞的代表性图和门。图9B描绘了针对所有处理条件(ABE、CBE或Cas9处理的细胞)分选的活的、B2M阴性的HEK293T细胞的代表性图和门。
图10是描述用于访问NRNN PAM空间内所有可能PAM的Cas9变体的表。仅列出了需要识别其PAM中三个或更少定义核苷酸的Cas9变体。非G PAM变体包括SpCas9-NRRH、SpCas9-NRTH和SpCas9-NRCH。
具体实施方式
本发明的特征在于包含新型腺苷碱基编辑器(例如,ABE8)的经基因修饰的免疫细胞,其具有增强的抗肿瘤活性、对免疫抑制的抗性和引起移植物抗宿主反应或宿主抗移植物反应的风险降低,或其组合。本发明的特征还在于生产和使用这些经修饰的免疫效应细胞(例如,免疫效应细胞,如T细胞)的方法。本发明的特征还在于用有效量的经修饰的免疫效应细胞(例如,CAR-T细胞)治疗患有或具有发展肿瘤、移植物抗宿主病(GVHD)或宿主抗移植物疾病(HVGD)的倾向的受试者的方法。
使用如本文描述的包含腺苷脱氨酶的碱基编辑器系统来修饰免疫效应细胞以表达嵌合抗原受体(CARs)并敲除或敲弱特定基因以减少其表达可能对免疫细胞功能产生的负面影响。
自体的、源自患者的嵌合抗原受体-T细胞(CAR-T)疗法在治疗一些血液癌症方面已显示出显著的功效。虽然这些产品为患者带来了显著的临床益处,但产生个性化疗法的需求带来了巨大的制造挑战和财务负担。同种异体CAR-T疗法被开发为应对这些挑战的潜在解决方案,具有与自体产品相似的临床疗效特征,同时使用来自单个健康供体的细胞治疗许多患者,从而大大降低了商品成本和批次间的差异。
大多数第一代同种异体CAR-T使用核酸酶在靶T细胞群中引入两个或多个靶向基因组DNA双链断裂(DSB),依靠容易出错的DNA修复来产生敲除靶基因的突变一种半随机的方式。这种基于核酸酶的基因敲除策略旨在降低移植物抗宿主病和宿主排斥CAR-T的风险。然而,同时诱导多个DSB导致最终细胞产物包含大规模基因组重排,例如平衡和不平衡易位,以及相对高丰度的局部重排,包括倒位和大缺失。此外,随着越来越多的同步遗传修饰由诱导的DSBs进行,在处理过的细胞群中观察到相当大的遗传毒性。这有可能显著降低每次生产运行的细胞扩增潜力,从而减少每个健康供体可以治疗的患者数量。
碱基编辑器(BEs)是一类新兴的基因编辑试剂,其能够高效地、使用者定义的目标基因组DNA修饰,而无需创建DSB。在这里,提出了一种生产同种异体CAR-T细胞的替代方法,通过使用碱基编辑技术来减少或消除可检测的基因组重排,同时提高细胞扩增。如本文所示,与仅核酸酶编辑策略相比,通过碱基编辑同时修饰三个基因座产生高效没有检测到易位事件的基因敲除。在一个实施方案中,所述碱基编辑器(例如,ABE8)用于T细胞中至少一种细胞表面标靶(例如,包括但不限于TRAC、B2M、CD7、PDCD1、CBLB和/或CITA)的多重碱基编辑。在一个实施方案中,ABE8用于T细胞中TRAC、B2M和CIITA的多重碱基编辑。基因的多重编辑可能有助于创建具有改进治疗特性的CAR-T细胞疗法。这种方法解决了多重编辑T细胞产品的已知局限性,是朝着下一代基于细胞的精确疗法的有希望的发展。
嵌合抗原受体和CAR-T细胞
本发明提供了使用本文所述的表达嵌合抗原受体(CARs)的核碱基编辑器经修饰的免疫细胞。修饰免疫细胞以表达嵌合抗原受体可以增强免疫细胞的免疫活性,其中嵌合抗原受体对抗原上的表位具有亲和力,其中抗原与生物体的适应性改变有关。例如,嵌合抗原受体可以对肿瘤细胞中表达的蛋白质上的表位具有亲和力。由于CAR-T细胞可以独立于主要组织相容性复合体(MHC)发挥作用,因此活化的CAR-T细胞可以杀死表达抗原的肿瘤细胞。CAR-T细胞的直接作用逃避了肿瘤细胞防御机制,这些机制是响应MHC向免疫细胞呈递抗原而进化的。
在一些实施方案中,本发明提供表达嵌合抗原受体的免疫效应细胞,所述嵌合抗原受体靶向参与自身免疫应答的B细胞(例如,表达针对个体自身组织产生的抗体的个体的B细胞)。
一些实施方案包含自体免疫细胞免疫疗法,其中免疫细胞获自患有疾病或适应性改变的个体,其特征在于表达表面标志物的癌性或其他改变的细胞。获得的免疫细胞经过基因改造以表达嵌合抗原受体,并有效地针对特定抗原重新定向。因此,在一些实施方案中,免疫细胞获自需要CAR-T免疫疗法的个体。在一些实施方案中,这些自体免疫细胞在从个体获得后不久被培养和修饰。在其他实施方案中,获得自体细胞然后储存以备将来使用。对于可能正在接受平行治疗的个体,这种做法可能是可取的,这些治疗将在未来减少免疫细胞计数。在同种异体免疫细胞免疫疗法中,免疫细胞可以从将接受治疗的个体以外的供体获得。在修饰以表达嵌合抗原受体之后,将免疫细胞施用于个体以治疗肿瘤。在一些实施方案中,可以从预先存在的免疫细胞原种培养物中获得要被修饰以表达嵌合抗原受体的免疫细胞。
可以使用本领域已知的标准技术从由个体或供体收集的样品中分离或纯化免疫细胞和/或免疫效应细胞。例如,可以通过裂解红细胞并通过离心去除外周单核血细胞,从全血样品中分离或纯化免疫效应细胞。可以使用选择性纯化方法进一步分离或纯化免疫效应细胞,所述方法基于细胞特异性标志物例如CD25、CD3、CD4、CD8、CD28、CD45RA或CD45RO分离免疫效应细胞。在一个实施方案中,CD25+用作选择调节性T细胞的标记。在另一个实施方案中,本发明提供在负责TCRαβ表面表达的TCR恒定区(TRAC)处具有靶向基因敲除的T细胞。TCRαβ缺陷型CAR T细胞与同种异体免疫疗法兼容(Qasim等人,Sci.Transl.Med.9,eaaj2013(2017);Valton等人,Mol Ther.2015Sep;23(9):1507–1518)。如果需要,可以使用CliniMACS磁珠去除法去除残留的TCRαβT细胞,以最大限度地降低GVHD的风险。在另一个实施方案中,本发明提供离体选择的供体T细胞以识别受体造血细胞上表达的次要组织相容性抗原,从而将移植物抗宿主病(GVHD)的风险降至最低,移植物抗宿主病(GVHD)是移植后发病率和死亡率的主要原因(Warren等人,Blood 2010;115(19):3869-3878)。另一种分离或纯化免疫效应细胞的技术是流式细胞术。在荧光激活细胞分选中,对免疫效应细胞标记物具有亲和力的荧光标记抗体用于标记样品中的免疫效应细胞。适用于表达标记的细胞的门控策略用于分离细胞。例如,T淋巴细胞可以通过使用例如对免疫效应细胞标记物(例如CD4、CD8、CD28、CD45)和相应的门控策略特异的荧光标记抗体与样品中的其他细胞分离。在一个实施方案中,采用CD45门控策略。在一些实施方案中,使用针对免疫效应细胞特异性的其他标志物的门控策略代替CD45门控策略或与CD45门控策略组合。
本发明中考虑的免疫效应细胞是效应T细胞。在一些实施方案中,效应T细胞是初始CD8+ T细胞、细胞毒性T细胞或调节性T(Treg)细胞。在一些实施方案中,效应T细胞是胸腺细胞、未成熟T淋巴细胞、成熟T淋巴细胞、静息T淋巴细胞或活化T淋巴细胞。在一些实施方案中,免疫效应细胞是CD4+ CD8+ T细胞或CD4-CD8-T细胞。在一些实施方案中,免疫效应细胞是辅助性T细胞。在一些实施方案中,辅助性T细胞是辅助性T细胞1(Th1)、辅助性T细胞2(Th2)或表达CD4的辅助性T细胞(CD4+ T细胞)。在一些实施方案中,免疫效应细胞是T细胞的任何其他子集。除了嵌合抗原受体之外,经修饰的免疫效应细胞还可以表达外源细胞因子、不同的嵌合受体或任何其他能增强免疫效应细胞信号传导或功能的试剂。例如,嵌合抗原受体和细胞因子的共表达可以增强CAR-T细胞裂解靶标细胞的能力。
本发明中考虑的嵌合抗原受体包含胞外结合结构域、跨膜结构域和胞内结构域。抗原与细胞外结合结构域的结合可以激活CAR-T细胞并产生效应反应,包括CAR-T细胞增殖、细胞因子产生和其他导致抗原表达细胞死亡的过程。在本发明的一些实施方案中,嵌合抗原受体进一步包含连接子。
本文考虑的嵌合抗原受体的胞外结合结构域包含对特定抗原具有亲和力的抗体或其抗原结合片段的氨基酸序列。在各种实施方案中,CAR特异性结合5T4。示例性抗5T4CAR包括但不限于CART-5T4(Oxford BioMedica plc)和UCART-5T4(Cellectis SA)。
在各种实施方案中,CAR特异性结合α-胎蛋白。示例性的抗α-胎蛋白CAR包括但不限于ET-1402(Eureka Therapeutics Inc)。在各种实施方案中,CAR特异性结合Axl。示例性抗Axl CAR包括但不限于CCT-301-38(F1 Oncology Inc)。在各种实施方案中,CAR特异性结合B7H6。示例性抗B7H6 CAR包括但不限于CYAD-04(Celyad SA)。
在各种实施方案中,CAR特异性结合BCMA。示例性的抗BCMA CAR包括但不限于ACTR-087+SEA-BCMA(Seattle Genetics Inc)、ALLO-715(Cellectis SA)、ARI-0002(Institut d'Investigacions Biomediques August Pi I Sunyer)、bb-2121(bluebirdbio Inc)、bb-21217(bluebird bio Inc)、CART-BCMA(University of Pennsylvania)、CT-053(Carsgen Therapeutics Ltd)、Descartes-08(Cartesian Therapeutics)、FCARH-143(Juno Therapeutics Inc)、ICTCAR-032(Innovative Cellular Therapeutics Co Ltd)、IM21 CART(北京Immunochina Medical Science&Technology Co Ltd)、JCARH-125(Memorial Sloan-Kettering Cancer Center)、KITE-585(Kite Pharma Inc)、LCAR-B38M(南京Legend Biotech Co Ltd)、LCAR-B4822M(南京Legend Biotech Co Ltd)、MCARH-171(Memorial Sloan-Kettering Cancer Center)、P-BCMA-101(Poseida TherapeuticsInc)、P-BCMA-ALLO1(Poseida Therapeutics Inc)、spCART-269(上海Unicar-TherapyBio-medicine Technology Co Ltd)和BCMA02/bb2121(bluebird bio Inc)。所述BCMA02/bb2121 CAR的多肽序列如下:
MALPVTALLLPLALLLHAARPDIVLTQSPPSLAMSLGKRATISCRASESVTILGSHLIHWYQQKPGQPPTLLIQLASNVQTGVPARFSGSGSRTDFTLTIDPVEEDDVAVYYCLQSRTIPRTFGGGTKLEIKGSTSGSGKPGSGEGSTKGQIQLVQSGPELKKPGETVKISCKASGYTFTDYSINWVKRAPGKGLKWMGWINTETREPAYAYDFRGRFAFSLETSASTAYLQINNLKYEDTATYFCALDYSYAMDYWGQGTSVTVSSAAATTTPAPRPPTPAPTIASQPLSLRPEACRPAAGGAVHTRGLDFACDIYIWAPLAGTCGVLLLSLVITLYCKRGRKKLLYIFKQPFMRPVQTTQEEDGCSCRFPEEEEGGCELRVKFSRSADAPAYQQGQNQLYNELNLGRREEYDVLDKRRGRDPEMGGKPRRKNPQEGLYNELQKDKMAEAYSEIGMKGERRRGKGHDGLYQGLSTATKDTYDALHMQALPPR
在各种实施方案中,CAR特异性结合CCK2R。示例性抗CCK2R CAR包括但不限于抗CCK2R CAR-T衔接分子(CAM)+抗FITC CAR T细胞疗法(癌症)、Endocyte/Purdue(PurdueUniversity)。
在各种实施方案中,CAR特异性结合CD抗原。示例性的抗CD抗原CAR包括但不限于VM-802(ViroMed Co Ltd)。在各种实施方案中,CAR特异性结合CD123。示例性抗CD123 CAR包括但不限于MB-102(Fortress Biotech Inc)、RNACART123(University ofPennsylvania)、SFG-iMC-CD123.zeta(Bellicum Pharmaceuticals Inc)和UCART-123(Cellectis SA)。在各种实施方案中,CAR特异性结合CD133。示例性的抗CD133 CAR包括但不限于KD-030(南京Kaedi Biotech Inc)。在各种实施方案中,CAR特异性结合CD138。示例性抗CD138 CAR包括但不限于ATLCAR.CD138(UNC Lineberger综合癌症中心)和CART-138(中国人民解放军总医院)。在各种实施方案中,CAR特异性结合CD171。示例性抗CD171 CAR包括但不限于JCAR-023(Juno Therapeutics Inc)。在各种实施方案中,CAR特异性结合CD19。示例性抗CD19 CAR包括但不限于1928z-41BBL(Memorial Sloan-Kettering CancerCenter)、1928z-E27(Memorial Sloan-Kettering Cancer Center)、19-28z-T2(广州Institutes of Biomedicine and Health)、4G7-CARD(University College London)、4SCAR19(深圳基因免疫医学研究所)、ALLO-501(Pfizer Inc)、ATA-190(QIMR Berghofer医学研究所)、AUTO-1(University College London)、AVA-008(Avacta)Ltd)、axicabtageneciloleucel(Kite Pharma Inc)、BG-T19(广州Bio-gene Technology Co Ltd.)、BinD-19(深圳BinDeBio Ltd.),BPX-401(Bellicum Pharmaceuticals Inc)、CAR19h28TM41BBz(Westmead Institute for Medical Research)、C-CAR-011(中国人民解放军总医院)、CD19CART(Innovative Cellular Therapeutics Co Ltd)、CIK-CAR.CD19(FormulaPharmaceuticals Inc)、CLIC-1901(Ottawa Hospital Research Institute)、CSG-CD19(Carsgen Therapeutics)Ltd)、CTL-119(University of Pennsylvania)、CTX-101(CRISPRTherapeutics AG)、DSCAR-01(上海恒瑞生物科技有限公司)、ET-190(EurekaTherapeutics Inc)、FT-819(Memorial Sloan-Kettering Cancer Center)、ICAR-19(Immune Cell Therapy Inc),IM19 CAR-T(北京Immunochina Medical Science&Technology Co Ltd)、JCAR-014(Juno Therapeutics Inc)、JWCAR-029(MingJuTherapeutics(上海)Co.,Ltd)、KD-C-19(南京Kaedi Biotech Inc)、LinCART19(iCellGene Therapeutics)、lisocabtagene maraleucel(Juno Therapeutics Inc)、MatchCART(上海Hrain Biotechnology)、MB-CART19.1(上海儿童医学中心)、PBCAR-0191(PrecisionBioSciences Inc)、PCAR-019(PersonGen Biomedicine(苏州)Co Ltd)、pCAR-19B(Chongqing Precision Biotech Co Ltd)、PZ-01(品泽生命科技有限公司)、RB-1916(Refuge Biotechnologies Inc)、SKLB-083019(成都银河生物医药有限公司)、spCART-19(上海尤尼卡-治疗生物医学科技有限公司)、TBI-1501(Takara Bio Inc)、TC-110(TCR2Therapeutics Inc)、TI-1007(Timmune Biotech Inc)、tisagenlecleucel(AbramsonCancer Center of the University of Pennsylvania)、U-CART(上海Bioray LaboratoryInc)、UCART-19(Wugen Inc)、UCART-19(Cellectis SA)、vadacabtagene leraleucel(Memorial Sloan-Kettering Cancer Center)、XLCART-001(南京Medical University)和yinnuokati-19(深圳Innovation Immunotechnology Co Ltd)。在各种实施方案中,CAR特异性结合CD2。示例性抗CD2 CAR包括但不限于UCART-2(Wugen Inc)。在各种实施方案中,CAR特异性结合CD20。示例性抗CD20 CAR包括但不限于ACTR-087(新加坡国立大学)、ACTR-707(Unum Therapeutics Inc)、CBM-C20.1(中国人民解放军总医院)、MB-106(FredHutchinson Cancer Research Center)和MB-CART20.1(Miltenyi Biotec GmbH)。
在各个实施方案中,CAR特异性结合CD22。示例性的抗CD22 CAR包括但不限于抗CD22 CAR T细胞疗法(B细胞急性淋巴细胞白血病)、University of Pennsylvania(University of Pennsylvania)、CD22-CART(上海尤尼卡-治疗生物医学科技有限公司)、JCAR-018(Opus Bio Inc)、MendCART(上海恒润生物科技)和UCART-22(Cellectis SA)。在各种实施方案中,CAR特异性结合CD30。示例性抗CD30 CAR包括但不限于ATLCAR.CD30(UNCLineberger综合癌症中心)、CBM-C30.1(中国人民解放军总医院)和Hu30-CD28zeta(国家癌症研究所)。在各种实施方案中,CAR特异性结合CD33。示例性的抗CD33 CAR包括但不限于抗CD33 CARγδT细胞疗法(急性髓性白血病)、TC BioPharm/University College London(University College London)、CAR33VH(Opus Bio Inc)、CART-33(中国人民解放军总医院)、CIK-CAR.CD33(Formula Pharmaceuticals Inc)、UCART-33(Cellectis SA)和VOR-33(Columbia University)。
在各种实施方案中,CAR特异性结合CD38。示例性抗CD38 CAR包括但不限于UCART-38(Cellectis SA)。在各种实施方案中,CAR特异性结合CD38A2。示例性的抗CD38 A2 CAR包括但不限于T-007(TNK Therapeutics Inc)。在各种实施方案中,CAR特异性结合CD4。示例性抗CD4 CAR包括但不限于CD4CAR(iCell Gene Therapeutics)。在各种实施方案中,CAR特异性结合CD44。示例性抗CD44 CAR包括但不限于CAR-CD44v6(Istituto Scientifico HSan Raffaele)。在各种实施方案中,CAR特异性结合CD5。示例性抗CD5 CAR包括但不限于CD5CAR(iCell Gene Therapeutics)。在各种实施方案中,CAR特异性结合CD7。示例性抗CD7CAR包括但不限于CAR-pNK(PersonGen Biomedicine(苏州)Co Ltd)和CD7.CAR/28zeta CART细胞(Baylor College of Medicine)、UCART7(Washington University in St Louis)。
在各种实施方案中,CAR特异性结合CDH17。示例性抗CDH17 CAR包括但不限于ARB-001.T(Arbele Ltd)。在各种实施方案中,CAR特异性结合CEA。示例性的抗CEA CAR包括但不限于HORC-020(HumOrigin Inc)。在各种实施方案中,CAR特异性结合嵌合TGF-β受体(CTBR)。示例性的抗嵌合TGF-β受体(CTBR)CAR包括但不限于CAR-CTBR T细胞(bluebirdbio Inc)。在各种实施方案中,CAR特异性结合Claudin18.2。示例性的抗Claudin18.2 CAR包括但不限于CAR-CLD18 T细胞(Carsgen Therapeutics Ltd)和KD-022(南京KaediBiotech Inc)。
在各种实施方案中,CAR特异性结合CLL1。示例性抗CLL1 CAR包括但不限于KITE-796(Kite Pharma Inc)。在各种实施方案中,CAR特异性结合DLL3。示例性抗DLL3 CAR包括但不限于AMG-119(Amgen Inc)。在各种实施方案中,CAR特异性结合双BCMA/TACI(APRIL)。示例性抗双BCMA/TACI(APRIL)CAR包括但不限于AUTO-2(Autolus TherapeuticsLimited)。在各种实施方案中,CAR特异性结合双CD19/CD22。示例性抗双CD19/CD22 CAR包括但不限于AUTO-3(Autolus Therapeutics Limited)和LCAR-L10D(南京Legend BiotechCo Ltd)。在各种实施方案中,CAR特异性结合CD19。在各种实施方案中,CAR特异性结合双CLL1/CD33。示例性抗双CLL1/CD33 CAR包括但不限于ICG-136(iCell GeneTherapeutics)。在各种实施方案中,CAR特异性结合双EpCAM/CD3。示例性抗双EpCAM/CD3CAR包括但不限于IKT-701(Icell Kealex Therapeutics)。在各种实施方案中,CAR特异性结合Dual ErbB/4ab。示例性的抗双ErbB/4ab CAR包括但不限于LEU-001(King's CollegeLondon)。在各种实施方案中,CAR特异性结合双FAP/CD3。示例性抗双FAP/CD3 CAR包括但不限于IKT-702(Icell Kealex Therapeutics)。在各种实施方案中,CAR特异性结合EBV。示例性的抗EBV CAR包括但不限于TT-18(Tessa Therapeutics Pte Ltd)。
在各种实施方案中,CAR特异性结合EGFR。示例性抗EGFR CAR包括但不限于抗EGFRCAR T细胞疗法(CBLB MegaTAL,癌症)、bluebird bio(bluebird bio Inc)、表达CTLA-4检查点抑制剂+PD-1检查点抑制剂单克隆抗体(EGFR阳性晚期实体肿瘤)的抗EGFR CAR T细胞疗法、上海细胞治疗研究所(上海细胞治疗研究所)、CSG-EGFR(Carsgen TherapeuticsLtd)和EGFR-IL12-CART(Pregene(深圳)生物技术有限公司)。
在各种实施方案中,CAR特异性结合EGFRvIII。示例性的抗EGFRvIII CAR包括但不限于KD-035(南京Kaedi Biotech Inc)和UCART-EgfrVIII(Cellectis SA)。在各种实施方案中,CAR特异性结合Flt3。示例性的抗Flt3 CAR包括但不限于ALLO-819(Pfizer Inc)和AMG-553(Amgen Inc)。在各种实施方案中,CAR特异性结合叶酸受体。示例性的抗叶酸受体CAR包括但不限于EC17/CAR T(Endocyte Inc)。在各种实施方案中,CAR特异性结合G250。示例性抗G250 CAR包括但不限于自体T淋巴细胞疗法(G250-scFV转导的肾细胞癌)、伊拉斯谟医学中心(Daniel den Hoed癌症中心)。
在各种实施方案中,CAR特异性结合GD2。示例性抗GD2 CAR包括但不限于1RG-CART(University College London)、4SCAR-GD2(深圳基因免疫医学研究所)、C7R-GD2.CART细胞(Baylor College of Medicine)、CMD-501(Baylor College of Medicine)、CSG-GD2(Carsgen Therapeutics Ltd)、GD2-CART01(Bambino Gesu Hospital and ResearchInstitute)、GINAKIT细胞(Baylor College of Medicine)、iC9-GD2-CAR-IL-15T细胞(UNCLineberger Comprehensive Cancer Center)和IKT-703(Icell Kealex Therapeutics)。在各种实施方案中,CAR特异性结合GD2和MUC1。示例性抗GD2/MUC1 CAR包括但不限于PSMACAR-T(University of Pennsylvania)。
在各种实施方案中,CAR特异性结合GPC3。示例性抗GPC3 CAR包括但不限于ARB-002.T(Arbele Ltd)、CSG-GPC3(Carsgen Therapeutics Ltd)、GLYCAR(Baylor College ofMedicine)和TT-14(Tessa Therapeutics Pte Ltd)。在各种实施方案中,CAR特异性结合Her2。示例性抗Her2 CAR包括但不限于ACTR-087+trastuzumab(Unum Therapeutics Inc)、ACTR-707+trastuzumab(Unum Therapeutics Inc)、CIDeCAR(Bellicum PharmaceuticalsInc)、MB-103(Mustang Bio Inc)、RB-H21(Refuge Biotechnologies Inc)和TT-16(BaylorCollege of Medicine)。在各种实施方案中,CAR特异性结合IL13R。示例性的抗IL13R CAR包括但不限于MB-101(City of Hope)和YYB-103(YooYoung Pharmaceuticals Co Ltd)。在各种实施方案中,CAR特异性结合整联蛋白β-7。示例性抗整合素β-7CAR包括但不限于MMG49CAR T细胞疗法(Osaka University)。在各种实施方案中,CAR特异性结合LC抗原。示例性的抗LC抗原CAR包括但不限于VM-803(ViroMed Co Ltd)和VM-804(ViroMed Co Ltd)。
在各种实施方案中,CAR特异性结合间皮素。示例性抗间皮素CAR包括但不限于CARMA-hMeso(Johns Hopkins University)、CSG-MESO(Carsgen Therapeutics Ltd)、iCasp9M28z(Memorial Sloan-Kettering Cancer Center)、KD-021(南京Kaedi BiotechInc)、m-28z-T2(广州生物医学与健康研究院)、MesoCART(University of Pennsylvania)、meso-CAR-T+PD-78(MirImmune LLC)、RB-M1(Refuge Biotechnologies Inc)和TC-210(TCR2 Therapeutics Inc)。
在各种实施方案中,CAR特异性结合MUC1。示例性抗MUC1 CAR包括但不限于抗MUC1CAR T细胞疗法+PD-1敲除T细胞疗法(食道癌/NSCLC)、广州安杰生物医学科技/悉尼科技大学(广州安杰生物医学科技有限公司)、ICTCAR-043(Innovative Cellular TherapeuticsCo Ltd)、ICTCAR-046(Innovative Cellular Therapeutics Co Ltd)、P-MUC1C-101(Poseida Therapeutics Inc)和TAB-28z(OncoTab Inc)。在各种实施方案中,CAR特异性结合MUC16。示例性抗MUC16 CAR包括但不限于4H1128Z-E27(Eureka Therapeutics Inc)和JCAR-020(Memorial Sloan-Kettering Cancer Center)。
在各种实施方案中,CAR特异性结合nfP2X7。示例性的抗nfP2X7CAR包括但不限于BIL-022c(Biosceptre International Ltd)。在各种实施方案中,CAR特异性结合PSCA。示例性的抗PSCA CAR包括但不限于BPX-601(Bellicum Pharmaceuticals Inc)。在各种实施方案中,CAR特异性结合PSMA。CIK-CAR.PSMA(Formula Pharmaceuticals Inc)和P-PSMA-101(Poseida Therapeutics Inc)。在各种实施方案中,CAR特异性结合ROR1。示例性的抗ROR1 CAR包括但不限于JCAR-024(Fred Hutchinson Cancer Research Center)。在各种实施方案中,CAR特异性结合ROR2。示例性抗ROR2 CAR包括但不限于CCT-301-59(F1OncologyInc)。在各种实施方案中,CAR特异性结合SLAMF7。示例性抗SLAMF7 CAR包括但不限于UCART-CS1(Cellectis SA)。在各种实施方案中,CAR特异性结合TRBC1。示例性的抗TRBC1CAR包括但不限于AUTO-4(Autolus Therapeutics Limited)。在各种实施方案中,CAR特异性结合TRBC2。示例性的抗TRBC2 CAR包括但不限于AUTO-5(Autolus TherapeuticsLimited)。在各种实施方案中,CAR特异性结合TSHR。示例性抗TSHR CAR包括但不限于ICTCAT-023(Innovative Cellular Therapeutics Co Ltd)。在各种实施方案中,CAR特异性结合VEGFR-1。示例性的抗VEGFR-1CAR包括但不限于SKLB-083017(四川大学)。
在各种实施方案中,CAR是AT-101(AbClon Inc);AU-101、AU-105和AU-180(AuroraBiopharma Inc);CARMA-0508(Carisma Therapeutics);CAR-T(Fate Therapeutics Inc);CAR-T(Cell Design Labs Inc);CM-CX1(Celdara Medical LLC);CMD-502、CMD-503和CMD-504(Baylor College of Medicine);CSG-002和CSG-005(Carsgen Therapeutics Ltd);ET-1501、ET-1502和ET-1504(Eureka Therapeutics Inc);FT-61314(Fate TherapeuticsInc);GB-7001(上海基因化学有限公司);IMA-201(Immatics Biotechnologies GmbH);IMM-005和IMM-039(Immunome Inc);ImmuniCAR(TC BioPharm Ltd);NT-0004和NT-0009(BioNTech Cell and Gene Therapies GmbH)、OGD-203(OGD2 Pharma SAS)、PMC-005B(PharmAbcine)和TI-7007(Timmune Biotech Inc)。
在一些实施方案中,嵌合抗原受体包含抗体的氨基酸序列。在一些实施方案中,嵌合抗原受体包含抗体的抗原结合片段的氨基酸序列。胞外结合结构域的抗体(或其片段)部分识别并结合抗原的表位。在一些实施方案中,嵌合抗原受体的抗体片段部分是单链可变片段(scFv)。scFV包含单克隆抗体的轻片段和可变片段。在其他实施方案中,嵌合抗原受体的抗体片段部分是多链可变片段,其可包含多于一个细胞外结合结构域并因此同时结合多于一种抗原。在多链可变片段实施方案中,铰链区可以分隔不同的可变片段,提供必要的空间排列和灵活性。
在其他实施方案中,嵌合抗原受体的抗体部分包含至少一条重链和至少一条轻链。在一些实施方案中,嵌合抗原受体的抗体部分包含通过二硫键连接的两条重链和两条轻链,其中轻链各自通过二硫桥连接到重链之一。在一些实施方案中,轻链包含恒定区和可变区。位于抗体可变区的互补决定区负责抗体对特定抗原的亲和力。因此,识别不同抗原的抗体包含不同的互补决定区。互补决定区位于胞外结合结构域的可变结构域中,以及可变结构域(即,可变重链和可变轻链)可以与连接子连接,或者在一些实施方式中,与二硫键连接。
在一些实施方案中,被胞外结构域识别和结合的抗原是蛋白质或肽、核酸、脂质或多糖。抗原可以是异源的,例如在病原细菌或病毒中表达的抗原。抗原也可以是合成的;例如,有些人对合成乳胶极度过敏,接触这种抗原会导致极端的免疫应答。在一些实施方案中,抗原是自体的,以及在患病或以其他方式改变的细胞上表达。例如,在一些实施方案中,抗原在肿瘤细胞中表达。在一些实施方案中,肿瘤细胞是实体肿瘤细胞。在其他实施方案中,肿瘤细胞是血液癌症,例如B细胞癌。在一些实施方案中,B细胞癌是淋巴瘤(例如霍奇金淋巴瘤或非霍奇金淋巴瘤)或白血病(例如B细胞急性淋巴细胞白血病)。示例性B细胞淋巴瘤包括弥漫性大B细胞淋巴瘤(DLBCL)、原发性纵隔B细胞淋巴瘤、滤泡性淋巴瘤、慢性淋巴细胞白血病(CLL)、小淋巴细胞淋巴瘤(SLL)、套细胞淋巴瘤、边缘区淋巴瘤、伯基特淋巴瘤、类伯基特淋巴瘤、淋巴浆细胞淋巴瘤(Waldenstrom巨球蛋白血症)和毛细胞白血病。在一些实施方案中,B细胞癌是多发性骨髓瘤。
抗体-抗原相互作用是由氢键、静电或疏水相互作用或范德华力引起的非共价相互作用。嵌合抗原受体的胞外结合结构域对抗原的亲和力可用下式计算:
KA=[抗体-抗原]/[抗体][抗原],其中
[Ab]=抗体上未占据结合位点的摩尔浓度;
[Ag]=抗原上未占据的结合位点的摩尔浓度;和
[Ab-Ag]=抗体-抗原复合物的摩尔浓度。
抗体-抗原相互作用也可以基于抗原与抗体的解离来表征。解离常数(KD)是结合率与解离率的比值,与亲和力常数成反比。因此,KD=1/KA。本领域技术人员将熟悉这些概念以及将知道传统方法,例如ELISA测定,可用于计算这些常数。
本文描述的嵌合抗原受体的跨膜结构域跨越CAR-T细胞脂质双层细胞膜并将细胞外结合结构域和细胞内信号传导结构域分开。在一些实施方案中,所述结构域源自具有跨膜结构域的其他受体,而在其他实施方案中,所述结构域是合成的。在一些实施方案中,跨膜结构域可源自非人跨膜结构域,以及在一些实施方案中,人源化。“人源化”是指使编码跨膜结构域的核酸序列得到优化,从而使其在人类个体中更可靠或有效地表达。在一些实施方案中,跨膜结构域源自在人免疫效应细胞中表达的另一种跨膜蛋白。此类蛋白质的实例包括但不限于T细胞受体(TCR)复合物、PD1或任何分化蛋白簇或其他蛋白质的亚基,其在免疫效应细胞中表达并具有跨膜结构域。在一些实施方案中,跨膜结构域将是合成的,以及此类序列将包含许多疏水残基。
在一些实施方案中,嵌合抗原受体被设计成在跨膜结构域和细胞外结构域、细胞内结构域或两者之间包含间隔序列。此类间隔序列的长度可为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个氨基酸。在一些实施方案中,所述连接子的长度可以是20、30、40、50、60、70、80、90或100个氨基酸。在其他实施方案中,间隔序列的长度可以在100和500个氨基酸之间。间隔序列可以是将一个结构域连接到另一个结构域并用于定位这样的连接结构域以增强或优化嵌合抗原受体功能的任何多肽。
本文考虑的嵌合抗原受体的胞内信号结构域包含初级信号结构域。在一些实施方案中,嵌合抗原受体包含初级信号结构域和次级或共刺激信号结构域。在一些实施方案中,结构域包含一个或多个基于酪氨酸的免疫受体激活基序或ITAM。在一些实施方案中,初级信号结构域包含一个以上的ITAM。整合到嵌合抗原受体中的ITAM可以源自其他细胞受体的ITAM。在一些实施方案中,包含ITAM的初级信号结构域可源自TCR复合物的亚基,例如CD3γ、CD3ε、CD3ζ或CD3δ(参见图1A)。在一些实施方案中,包含ITAM的初级信号结构域可以源自FcRγ、FcRβ、CD5、CD22、CD79a、CD79b或CD66d。在一些实施方案中,次级信号结构域源自CD28。在其他实施方案中,次级信号结构域源自CD2、CD4、CDS、CD8α、CD83、CD134、CD137、ICOS或CD154。
本文还提供了编码本文所述嵌合抗原受体的核酸。在一些实施方案中,核酸被分离或纯化。核酸的离体递送可以使用本领域已知的方法来完成。例如,可以用编码嵌合抗原受体的核酸载体转化从个体获得的免疫细胞。然后可以使用所述载体转化受体免疫细胞,从而使这些细胞表达嵌合抗原受体。转化免疫细胞的有效方法包括转染和转导。这样的方法是本领域公知的。例如,递送编码嵌合抗原受体的核酸分子(和编码碱基编辑器的核酸)的适用方法可以在国际第PCT/US2009/040040号专利申请案和美国专利号8,450,112;9,132,153;和9,669,058中找到,每个都在此全文并入。此外,本文描述的用于递送编码碱基编辑器(例如,ABE8)的核酸的那些方法和载体适用于递送编码嵌合抗原受体的核酸。
本发明的一些方面提供了包含嵌合抗原和改变的内源基因的免疫细胞,其增强免疫细胞功能、对免疫抑制或抑制的抗性或其组合。表达内源性免疫细胞受体以及嵌合抗原受体的同种异体免疫细胞可以识别并攻击宿主细胞,这种情况称为移植物抗宿主病(GVHD)。免疫细胞受体复合物的α组分由TRAC基因编码,以及在一些实施方案中,所述基因被编辑使得TCR复合物的α亚基无功能或不存在。由于所述亚基是内源性免疫细胞信号传导所必需的,因此编辑所述基因可以降低由同种异体免疫细胞引起的移植物抗宿主病的风险。
宿主免疫细胞可以潜在地将同种异体CAR-T细胞识别为非自身细胞并引发免疫应答以去除非自身细胞。B2M在几乎所有有核细胞中表达并与MHC I类复合物相关(图1B)。循环宿主CD8+T细胞可以将这种B2M蛋白识别为非自身并杀死同种异体细胞。为了克服这种移植排斥,在一些实施方案中,将B2M基因编辑为敲除或敲弱表达。
在本发明的一些实施方案中,在CAR-T细胞中编辑PDCD1基因以敲除或敲弱表达。PDCD1基因编码细胞表面受体PD-1,一种在免疫细胞中表达的免疫系统检查点,其通过促进抗原特异性免疫细胞的凋亡参与降低自身免疫。通过敲除或敲弱PDCD1基因的表达,修饰后的CAR-T细胞凋亡的可能性较小,增殖的可能性较大,以及可以逃脱程序性细胞死亡免疫检查点。
CBLB基因编码在抑制免疫效应细胞活化中起重要作用的E3泛素连接酶。参考图1C所示,CBLB蛋白有利于导致免疫效应细胞耐受的信号通路,并积极抑制导致免疫效应细胞活化的信号传导。因为免疫效应细胞活化对于CAR-T细胞在移植后体内增殖是必需的,所以在本发明的一些实施方案中,CBLB被编辑为敲除或敲弱表达。
在一些实施方案中,在细胞被转化以表达嵌合抗原受体之前,可以在免疫细胞中进行基因编辑以增强免疫细胞的功能或减少免疫抑制或抑制。在其他方面,可以在CAR-T细胞中进行基因编辑以增强免疫细胞的功能或减少免疫抑制或抑制,即,在免疫细胞被转化以表达嵌合抗原受体之后。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、PDCD1、CD7、CIITA、CBLB基因或其组合,其中經编辑的基因的表达被敲除或敲低。
在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC基因,其中經编辑的基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC基因以及B2M、PDCD1、CD7、CIITA和/或CBLB基因中的一种或多种,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC基因以及B2M基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC基因以及PDCD1基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC基因以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC基因以及CD7基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC基因以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M以及PDCD1基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、PDCD1以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M以及CD7基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、PDCD1以及CD7基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、PDCD1以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、PDCD1以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、CD7以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、CD7以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、CIITA以及CBLB基因,其中經编辑基因的表达被敲除或敲低。
在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、PDCD1以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、PDCD1以及CD7基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、CD7以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、CD7以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、PDCD1以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、CBLB以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、PDCD1、CD7以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、PDCD1、CD7以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、PDCD1、CIITA以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、CIITA、CD7以及CBLB基因,其中經编辑基因的表达被敲除或敲低。
在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、PDCD1、CD7以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、PDCD1、CD7以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、CD7、CIITA以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、PDCD1、CIITA以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、PDCD1、CD7、CIITA以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的TRAC、B2M、PDCD1、CD7以及CBLB基因,其中經编辑基因的表达被敲除或敲低。
在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M基因以及CBLB、PDCD1、CD7、CIITA和/或TRAC基因中的一种或多种,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M基因以及PDCD1基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M基因以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M基因以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M基因以及CD7基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M、CIITA以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M、PDCD1以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M、PDCD1以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M、CD7以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M、CD7以及PDCD1基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M、CD7以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M、PDCD1、CIITA以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M、PDCD1、CIITA以及CD7基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M、PDCD1、CD7以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的B2M、PDCD1、CD7、CIITA以及CBLB基因,其中經编辑基因的表达被敲除或敲低。
在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的PDCD1基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的PDCD1基因以及B2M、CBLB、CD7、CIITA和/或TRAC基因中的一种或多种,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的PDCD1以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的PDCD1以及CD7基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的PDCD1以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的PDCD1、CIITA以及CBLB基因,其中經编辑基因的表达被敲除或敲低。
在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CD7,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CBLB,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CD7以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CD7以及CBLB基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CD7、PDCD1以及CIITA基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CD7、PDCD1、CIITA以及CBLB基因,其中經编辑基因的表达被敲除或敲低。
在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CBLB,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CBLB基因以及B2M、PDCD1、CD7、CIITA和/或TRAC基因中的一种或多种,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CBLB以及CIITA基因,其中經编辑基因的表达被敲除或敲低。
在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CIITA,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和經编辑的CBLB基因以及B2M、PDCD1、CD7、CBLB和/或TRAC基因中的一种或多种,其中經编辑基因的表达被敲除或敲低。
在一些实施方案中,可以编辑免疫细胞,包括但不限于包含任何上述基因编辑的任何免疫细胞,以在其他基因中产生突变,从而增强CAR-T的功能或减少对所述细胞的免疫抑制或抑制。例如,在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2、ZAP70、NFATc1、TET2基因或其组合,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2以及ZAP70基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2以及ZAP70基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2以及NFATC1基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2以及TET2基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2、ZAP70以及NFATC1基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2、ZAP70以及TET2基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2、NFATC1以及TET2基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TGFBR2、ZAP70、NFATC1以及TET2基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的ZAP70基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的ZAP70以及NFATC1基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的ZAP70以及TET2基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的ZAP70、PDCD1以及TET2基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的PDCD1基因,其中經编辑基因的表达被敲除或敲低。在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的PDCD1以及TET2基因,其中經编辑基因的表达被敲除或敲低。以及在一些实施方案中,免疫细胞包含嵌合抗原受体和经编辑的TET2,其中經编辑基因的表达被敲除或敲低。
在一些实施方案中,嵌合抗原受体被插入到TRAC基因中。这有好处。首先,由于TRAC在免疫细胞中高度表达,当其构建体被设计为将嵌合抗原受体插入到TRAC基因中时,嵌合抗原受体将类似地表达,使得受体的表达由TRAC启动子驱动。其次,将嵌合抗原受体插入TRAC基因将敲除TRAC表达。在一些实施方案中,本文所述的基因编辑系统可用于将嵌合抗原受体插入TRAC基因座中。特异于TRAC基因座的gRNA可以将基因编辑系统向导至所述基因座并启动双链DNA切割。在特定实施方案中,gRNA与Cas12b结合使用。在各个实施方案中,基因编辑系统与具有编码CAR受体的序列的核酸结合使用。在下表1A中提供了示例性引导RNA。
表1A:TRAC引导RNAs
Figure BDA0003298963610001381
编码嵌合抗原受体和核酸的DNA构建体,其包含位于gRNA靶向序列侧翼的延伸的TRAC DNA片段。不受理论的束缚,构建体结合互补的TRAC序列,然后将位于构建体上TRAC序列附近的嵌合抗原受体DNA插入病变部位,有效地敲除TRAC基因并敲除在嵌合抗原受体核酸中。表1B提供了TRAC基因的引导RNA,可以将碱基编辑机制导向到TRAC基因座,从而能够插入嵌合抗原受体核酸。前11个gRNAS用于BhCas12b核酸酶。第二组11个用于BvCas12b核酸酶。这些都是为了通过创建双链断裂在TRAC插入CAR,而不是用于碱基编辑。
表1B:TRAC引导RNAs
Figure BDA0003298963610001382
Figure BDA0003298963610001391
在一些实施方案中,可以使用ABE8将编码本发明嵌合抗原受体的核酸靶向TRAC基因座。在一些实施方案中,嵌合抗原受体使用CRISPR/Cas9碱基编辑系统靶向TRAC基因座。为了产生上述基因编辑,从受试者收集免疫细胞并与两种或多种引导RNA和包含核酸可编程DNA结合蛋白(napDNAbp)和腺苷脱氨酶(例如TadA*8)的核碱基编辑器多肽接触。在一些实施方案中,收集的免疫细胞与至少一种核酸接触,其中所述至少一种核酸编码两种或更多种引导RNA和包含核酸可编程DNA结合蛋白(napDNAbp)和腺苷脱氨酶的核碱基编辑器多肽。在一些实施方案中,gRNA包含核苷酸类似物。这些核苷酸类似物可以抑制细胞过程中gRNA的降解。表2提供了用于gRNA的目标序列。
表2:示例性靶标序列
Figure BDA0003298963610001401
Figure BDA0003298963610001411
Figure BDA0003298963610001421
本发明中使用的腺苷脱氨酶核碱基编辑器(例如ABE8)可作用于DNA,包括单链DNA。介绍了使用它们在免疫细胞中的靶标核碱基序列中产生修饰的方法。在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性的特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。不希望受任何特定理论的束缚,催化残基(例如,H840)的存在保持了Cas9切割与靶向核碱基相对的非编辑(例如,非甲基化)链的活性。催化残基(例如,D10到A10)的突变可防止包含靶标A残基的编辑链的切割。此类Cas9变体可以根据gRNA定义的靶标序列在特定位置产生单链DNA断裂(切口),从而修复非编辑链,最终导致非编辑链上的核碱基改变。
核碱基编辑器
本文公开了用于编辑、修饰或改变多核苷酸的靶标核苷酸序列的碱基编辑器或核碱基编辑器。本文描述了包含多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,腺苷脱氨酶)的核碱基编辑器或碱基编辑器。多核苷酸可编程核苷酸结合结构域,当与结合的引导多核苷酸(例如,gRNA)结合时,可以特异性结合靶多核苷酸序列(即,通过结合的引导核酸的碱基和靶多核苷酸的碱基之间的互补碱基配对序列),从而将碱基编辑器定位到需要编辑的目标核酸序列。在一些实施方案中,所述靶标多核苷酸序列包含单链DNA或双链DNA。在一些实施方案中,所述靶标多核苷酸序列包含RNA。在一些实施方案中,靶标多核苷酸序列包含DNA-RNA杂交体。
多核苷酸可编程核苷酸结合结构域
应当理解,多核苷酸可编程核苷酸结合结构域还可以包括结合RNA的核酸可编程蛋白。例如,多核苷酸可编程核苷酸结合结构域可以与将多核苷酸可编程核苷酸结合结构域引导至RNA的核酸相关联。其他核酸可编程的DNA结合蛋白也在本公开的范围内,尽管它们未在本公开中具体列出。
碱基编辑器的多核苷酸可编程核苷酸结合结构域本身可以包含一个或多个结构域。例如,多核苷酸可编程核苷酸结合结构域可包含一个或多个核酸酶结构域。在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可包含内切核酸酶或外切核酸酶。在本文中,术语“外切核酸酶”是指能够从游离末端消化核酸(例如,RNA或DNA)的蛋白质或多肽,并且术语“内切核酸酶”是指能够催化(例如,切割)核酸(例如,DNA或RNA)内部的蛋白质或多肽。在一些实施方案中,核酸内切酶可以切割双链核酸的单链。在一些实施方案中,核酸内切酶可以切割双链核酸的双链。在一些实施方案中多核苷酸可编程核苷酸结合结构域可以是脱氧核糖核酸酶。在一些实施方案中多核苷酸可编程核苷酸结合结构域可以是核糖核酸酶。
在一些实施方案中,多核苷酸可编程核苷酸结合结构域的核酸酶结构域可以切割靶标多核苷酸的零、一条或两条链。。在一些实施方案中,所述多核苷酸可编程核苷酸结合结构域可包含切口酶结构域。在本文中,术语“切口酶”是指包含核酸酶结构域的多核苷酸可编程核苷酸结合结构域,该核酸酶结构域能够切割双链核酸分子(例如,DNA)中的两条链中的仅一条链。在一些实施方案中,切口酶可以通过将一个或多个突变引入活性多核苷酸可编程核苷酸结合结构域来衍生自完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,在多核苷酸可编程核苷酸结合结构域包含源自Cas9的切口酶结构域的情况下,源自Cas9的切口酶结构域可在位置840处包含D10A突变和组氨酸。在此类实施方案中,残基H840保留催化活性并由此可切割核酸双链体的单链。在另一个实例中,源自Cas9的切口酶结构域可包含H840A突变,而位置10处的氨基酸残基仍为D。在一些实施方案中,通过去除切口酶活性不需要的全部或部分核酸酶结构域,切口酶可源自具有完全催化活性(例如,天然)形式的多核苷酸可编程核苷酸结合结构域。例如,在多核苷酸可编程核苷酸结合结构域包含源自Cas9的切口酶结构域的情况下,源自Cas9的切口酶结构域可包含RuvC结构域或HNH结构域的全部或部分缺失。
示例性催化活性Cas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.
包含包含切口酶域的多核苷酸可编程核苷酸结合结构域的碱基编辑器因此能够在特定多核苷酸靶序列(例如,由结合的引导核酸的互补序列确定)处产生单链DNA断裂(切口)。在一些实施方案中,被包含切口酶结构域(例如,Cas9衍生的切口酶域)的碱基编辑器切割的核酸双链体靶多核苷酸序列的链是未被碱基编辑器编辑的链(即,链被碱基编辑器切割的链与包含要编辑的碱基的链相反)。在其他实施方案中,包含切口酶结构域(例如,Cas9衍生的切口酶结构域)的碱基编辑器可以切割被靶向进行编辑的DNA分子的链。在此类实施方案中,非靶向链未被切割。
本文还提供了碱基编辑器,其包含催化死亡的多核苷酸可编程核苷酸结合结构域(即,不能切割靶多核苷酸序列)。在本文中,术语“催化死亡(catalytically dead)”和“核酸酶死亡(nuclease dead)”可互换使用,指具有一个或多个突变和/或缺失导致其无法切割核酸链的多核苷酸可编程核苷酸结合结构域。在一些实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域碱基编辑器可能由于一个或多个核酸酶结构域中的特定点突变而缺乏核酸酶活性。例如,在碱基编辑器包含Cas9结构域的情况下,Cas9可以包含D10A突变和H840A突变。此类突变使两个核酸酶结构域灭活,从而导致核酸酶活性丧失。在其他实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域可包含催化结构域(例如,RuvC1和/或HNH结构域)的全部或部分的一个或多个缺失。在进一步的实施方案中,催化死亡的多核苷酸可编程核苷酸结合结构域包含点突变(例如,D10A或H840A)以及全部或部分核酸酶域的缺失。
本文还考虑了能够从多核苷酸可编程核苷酸结合结构域的先前功能版本产生催化死亡的多核苷酸可编程核苷酸结合结构域的突变。例如,在催化死亡的Cas9(“dCas9”)的情况下,提供了具有除D10A和H840A以外的突变的变体,这导致核酸酶灭活的Cas9。例如,此类突变包括在D10和H840处的其他氨基酸置换,或Cas9核酸酶域内的其他置换(例如,HNH核酸酶亚域和/或RuvC1亚域中的置换)。基于本公开内容和本领域的知识,其他合适的无核酸酶活性的dCas9结构域对于本领域技术人员来说是显而易见的,并且在本公开内容的范围内。这种额外的示例性合适的无核酸酶活性的Cas9域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变域(参见,例如Prashant等人,CAS9transcriptional activators for target specificity screening and pairednickases for cooperative genome engineering.Nature Biotechnology.2013;31(9):833-8338,其全部内容以引用方式并入。
可并入碱基编辑器的多核苷酸可编程核苷酸结合结构域的非限制性实例包括CRISPR蛋白衍生结构域、限制性核酸酶、大范围核酸酶、TAL核酸酶(TALEN)和锌指核酸酶(ZFN)。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域,其包含天然或修饰的蛋白质或其部分,其通过结合的引导核酸能够在CRISPR期间结合核酸序列(即,规律成簇间隔短回文重复序列))-介导的核酸修饰。这种蛋白质在本文中称为“CRISPR蛋白”。因此,本文公开了包含多核苷酸可编程核苷酸结合结构域的碱基编辑器,所述多核苷酸可编程核苷酸结合结构域包含CRISPR蛋白质的全部或一部分(即包含CRISPR蛋白质的全部或一部分作为结构域的碱基编辑器,也称为“CRISPR蛋白质”基编辑器的衍生结构域”)。与CRISPR蛋白的野生型或天然版本相比,可以对掺入碱基编辑器的CRISPR蛋白衍生结构域进行修饰。例如,如下所述,CRISPR蛋白衍生的结构域可包含一个或多个相对于CRISPR蛋白的野生型或天然形式的突变、插入、缺失、重排和/或重组。
CRISPR是一种适应性免疫系统,可针对移动遗传元件(病毒、转座元件和接合质粒)提供保护。CRISPR簇包含间隔序列、与先行移动元件互补的序列和靶标入侵核酸。CRISPR簇被转录并加工成CRISPR RNA(crRNA)。在第II型CRISPR系统中,正确处理pre-crRNA需要转编码的小RNA(tracrRNA)、内源性核糖核酸酶3(rnc)和Cas9蛋白。tracrRNA作为核糖核酸酶3辅助处理pre-crRNA的引导。随后,Cas9/crRNA/tracrRNA核酸内切切割与间隔序列互补的线性或环状dsDNA靶标。与crRNA不互补的靶标链首先通过核酸内切方式切割,然后通过核酸外切方式修剪3′-5'。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,可以对单引导RNA(“sgRNA,”或简称为“gRNA”)进行工程改造,以便将crRNA和tracrRNA的各个方面整合到单个RNA种类中。参见,如Jinek M.,Chylinski K.,FonfaraI.,Hauer M.,Doudna J.A.,Charpentier E.Science337:816-821(2012),其全部内容在此引入作为参考。Cas9识别CRISPR重复序列(PAM或原间隔序列临近基序)中的一个短基序,以帮助区分自我与非自我。
在一些实施方案中,本文所述的方法可以利用工程化的Cas蛋白。向导RNA(gRNA)是一种短的合成RNA,由Cas结合所需的支架序列和用户定义的~20个核苷酸间隔序列组成,该间隔序列定义了要修改的基因组靶标。因此,技术人员可以改变Cas蛋白的基因组靶标特异性部分取决于gRNA靶向序列与基因组其余部分相比对基因组靶标的特异性。
在一些实施例中,gRNA支架序列如下:GUUUUAGAGC UAGAAAUAGC AAGUUAAAAUAAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU.
在一些实施方案中,掺入碱基编辑器的CRISPR蛋白衍生结构域是当与结合的引导核酸结合时能够结合靶多核苷酸的核酸内切酶(例如,脱氧核糖核酸酶或核糖核酸酶)。在一些实施方案中,掺入碱基编辑器的CRISPR蛋白衍生结构域是当与结合的引导核酸结合时能够结合靶多核苷酸的切口酶。在一些实施方案中,掺入碱基编辑器的CRISPR蛋白衍生结构域是当与结合的引导核酸结合时能够结合靶多核苷酸的催化死亡结构域。在一些实施方案中,由碱基编辑器的CRISPR蛋白衍生结构域结合的靶多核苷酸是DNA。在一些实施方案中,由碱基编辑器的CRISPR蛋白衍生结构域结合的靶多核苷酸是RNA。
可用于本文的Cas蛋白包括第1类和第2类。Cas蛋白的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(也称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、和Cas12i、CARF、DinG、其同源物或其修饰版本。未经修饰的CRISPR酶可以具有DNA切割活性,例如Cas9,其具有两个功能性核酸内切酶结构域:RuvC和HNH。CRISPR酶可以指导切割靶标序列处的一条或两条链,例如在靶标序列内和/或在靶标序列的互补序列内。例如,CRISPR酶可以指导切割距靶标序列的第一个或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500或更多碱基对内的一条或两条链。
可以使用编码CRISPR酶的载体,所述CRISPR酶相对于相应的野生型酶突变,使得突变的CRISPR酶缺乏切割含有靶标序列的靶标多核苷酸的一条或两条链的能力。Cas9可指具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性与野生型示例性Cas9多肽(例如,来自化脓链球菌的Cas9)。Cas9可指具有至多或至多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性与野生型示例性Cas9多肽(例如,来自化脓链球菌的)。Cas9可指Cas9蛋白的野生型或修饰形式,其可包含氨基酸变化,例如缺失、插入、取代、变体、突变、融合、嵌合体或其任何组合。
在一些实施方案中,碱基编辑器的CRISPR蛋白衍生结构域可以包括来自溃疡棒状杆菌(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);螺旋原体(Spiroplasmasyrphidicola)(NCBI Refs:NC_021284.1);中間普雷沃菌(Prevotella intermedia)(NCBIRefs:NC_017861.1);中国台湾螺旋体(Spiroplasma taiwanense,China)(NCBI Refs:NC_021846.1);链球菌(Streptococcus iniae)(NCBI Refs:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Refs:NC_018010.1);扭曲冷弯曲菌(PsychroflexustorquisI)(NCBI Ref:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBIRefs:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Refs:NP_472073.1);曲状杆菌(Campylobacter jejuni)(NCBI Refs:YP_002344900.1);脑膜炎双球菌(Neisseriameningitidis)(NCBI Refs:YP_002342100.1),化脓性链球菌(Streptococcus pyogenes),或金黄色葡萄球菌(Staphylococcus aureus.)
核碱基编辑器的Cas9结构域
Cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,如“Completegenome sequence of an M1 strain of Streptococcus pyogenes.”Ferretti等人,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等人,Nature471:602-607(2011);和“A programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.等人,Science 337:816-821(2012),全部内容以引用方式并入本文)。Cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的Cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski,Rhun,和Charpentier,“The tracrRNAand Cas9families of type II CRISPR-Cas immunity systems”(2013)RNA Biology 10:5,726-737中公开的生物体和基因座的Cas9序列;其全部内容在此引入作为参考。
在一些实施方案中,核酸可编程DNA结合蛋白(napDNAbp)是Cas9结构域。本文提供了非限制性的示例性Cas9结构域。Cas9结构域可以是核酸酶活性Cas9结构域、核酸酶无活性Cas9结构域(dCas9)或Cas9切口酶(nCas9)。在一些实施方案中,所述Cas9结构域是一种具有核酸酶活性的结构域。例如,Cas9结构域可以是切割双链核酸的两条链(例如双链DNA分子的两条链)的Cas9结构域。在一些实施方案中,Cas9结构域包含如本文所述的任一氨基酸序列。在一些实施方案中,所述Cas9结构域包含的氨基酸序列与本文所述的任一氨基酸序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。在一些实施例中,与本文所述的任一氨基酸序列相比,所述Cas9结构域包含的氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本文所述的任一氨基酸序列相比,Cas9结构域包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,提供了包含Cas9片段的蛋白。例如,在一些实施例中,蛋白包含两个Cas9结构域之一:(1)Cas9的gRNA结合结构域;或(2)Cas9的DNA切割结构域。在一些实施方案中,包含Cas9或其片段的蛋白被称为“Cas9变体”。Cas9变体与Cas9或其片段具有同源性。例如,Cas9变体与野生型Cas9至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,与野生型Cas9相比,Cas9变体可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的氨基酸变化。在一些实施例中,Cas9变体包含Cas9的片段(例如,gRNA结合结构域或DNA切割结构域),使得该片段与野生型Cas9的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,所述片段是至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%相应野生型Cas9的氨基酸长度。在一些实施例中,所述片段的长度为至少100个氨基酸。在一些实施方案中,所述片段的长度为至少100、150、200、250、300、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或1300个氨基酸。
在一些实施方案中,本文提供的Cas9融合蛋白包含Cas9蛋白的全长氨基酸序列,例如本文提供的Cas9序列之一。然而,在其他实施方案中,本文提供的融合蛋白不包含全长Cas9序列,而仅包含其一个或多个片段。本文提供了合适的Cas9结构域和Cas9片段的示例性氨基酸序列,并且Cas9结构域和片段的其他合适的序列对本领域技术人员来说是显而易见的。
Cas9蛋白可以与引导RNA相关联,该引导RNA将Cas9蛋白引导至与引导RNA互补的特定DNA序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域是Cas9结构域,例如核酸酶活性Cas9、Cas9切口酶(nCas9)或核酸酶灭活Cas9(dCas9)。核酸可编程DNA结合蛋白的例子包括但不限于Cas9(例如dCas9和nCas9)、CasX、CasY、Cpf1、Cas12b/C2C1和Cas12c/C2C3。
在一些实施例中,野生型Cas9对应于来自化脓性链球菌的Cas9(NCBI参考序列:NC_017053.1,核苷酸和氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003298963610001541
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方案中,野生型Cas9对应于或包含以下核苷酸和/或氨基酸序列:ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA
Figure BDA0003298963610001571
Figure BDA0003298963610001581
(单下划线:HNH结构域;双下划线:RuvC结构域)。
在一些实施例中,野生型Cas9对应于来自化脓性链球菌的Cas9
(NCBI参考序列:NC_002737.2(核苷酸序列如下);和Uniprot参考序列:Q99ZW2(氨基酸序列如下):
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003298963610001603
Figure BDA0003298963610001611
Figure BDA0003298963610001612
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方案中,Cas9是指来自以下的Cas9:溃疡棒状杆菌(Corynebacteriumulcerans)(NCBI Refs:NC_015683.1,NC_017317.1);白喉棒杆菌(Corynebacteriumdiphtheria)(NCBI Refs:NC_016782.1,NC_016786.1);螺旋原体(Spiroplasmasyrphidicola)(NCBI Refs:NC_021284.1);中間普雷沃菌(Prevotellaintermedia)(NCBI Refs:NC_017861.1);中国台湾螺旋体(Spiroplasma taiwanense,China)(NCBI Refs:NC_021846.1);链球菌(Streptococcus iniae)(NCBI Refs:NC_021314.1);波罗的海贝尔氏菌(Belliella baltica)(NCBI Refs:NC_018010.1);扭曲冷弯曲菌(Psychroflexus torquisI)(NCBI Refs:NC_018721.1);嗜热链球菌(Streptococcusthermophilus)(NCBI Refs:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBIRefs:NP_472073.1);曲状杆菌(Campylobacter jejuni)(NCBI Refs:YP_002344900.1);脑膜炎双球菌(Neisseria meningitidis)(NCBI Refs:YP_002342100.1)或来自任何其他生物体的Cas9。
应当理解,额外的Cas9蛋白(例如,核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9),包括其变体和同系物,在本公开内容的范围内。示例性的Cas9蛋白包括但不限于以下提供的那些。在一些实施方案中,所述Cas9蛋白是核酸酶无活性的Cas9(dCas9)。在一些实施方案中,所述Cas9蛋白是一种Cas9切口酶(nCas9)。在一些实施方案中,所述Cas9蛋白是一种具有核酸酶活性的Cas9。
在一些实施方案中,所述Cas9结构域是一种核酸酶灭活的结构域(dCas9)。例如,dCas9结构域可以结合双链核酸分子(例如,通过gRNA分子)而不切割双链核酸分子的任何一条链。在一些实施方案中,核酸酶灭活的dCas9结构域包含本文所述氨基酸序列的D10X突变和H840X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸变化。在一些实施方案中,核酸酶灭活的dCas9结构域包含本文所述氨基酸序列的D10A突变和H840A突变,或本文提供的任何氨基酸序列中的相应突变。作为一个例子,无核酸酶活性的Cas9结构域包含在克隆载体pPlatTET-gRNA2(登录号BAV54124)中列出的氨基酸序列。
示例性无催化活性的Cas9(dCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD(参见,例如,Qi等人,“Repurposing CRISPR as an RNA-guided platform forsequence-specific control of gene expression.”Cell.2013;152(5):1173-83,其全部内容以引用方式并入本文)。
基于本公开内容和本领域的知识,其他合适的无核酸酶活性的dCas9结构域对于本领域技术人员来说是显而易见的,并且在本公开内容的范围内。这种额外的示例性合适的无核酸酶活性的Cas9域包括但不限于D10A/H840A、D10A/D839A/H840A和D10A/D839A/H840A/N863A突变域(参见,例如Prashant等人,CAS9transcriptional activators fortarget specificity screening and paired nickases for cooperative genomeengineering.Nature Biotechnology.2013;31(9):833-8338,其全部内容以引用方式并入。
在一些实施方案中,Cas9核酸酶具有无活性(例如,灭活的)DNA切割结构域,即,Cas9是切口酶,称为“nCas9”蛋白(对于“切口酶”Cas9)。核酸酶灭活的Cas9蛋白可互换地称为“dCas9”蛋白(对于核酸酶-“死的”Cas9)或催化灭活的Cas9。用于产生具有无活性DNA切割结构域的Cas9蛋白(或其片段)的方法是已知的(参见,如Jinek等人,Science.337:816-821(2012);Qi等人“Repurposing CRISPR as an RNA-Guided Platform for Sequence-Specific Control of Gene Expression”(2013)Cell.28;152(5):1173-83,其全部内容以引用方式并入本文)。例如,已知Cas9的DNA切割结构域包括两个子结构域,HNH核酸酶子结构域和RuvC1子结构域。HNH子结构域切割与gRNA互补的链,而RuvC1子结构域切割非互补链。这些子结构域内的突变可以使Cas9的核酸酶活性静默。例如,突变D10A和H840A使化脓性链球菌Cas9的核酸酶活性完全灭活(Jinek等人,Science.337:816-821(2012);Qi等人,Cell.28:152(5):1173-83(2013)).
在一些实施方案中,所述dCas9结构域包含的氨基酸序列与本文所述的任一Cas9结构域的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。在一些实施例中,与本文所述的任一氨基酸序列相比,所述Cas9结构域包含的氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本文所述的任一氨基酸序列相比,Cas9结构域包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,dCas9对应于或部分或全部包含具有一个或多个使Cas9核酸酶活性灭活的突变的Cas9氨基酸序列。例如,在一些实施方案中,dCas9结构域包含D10A和H840A突变或另一个Cas9中的相应突变。
在一些实施例中,dCas9包含dCas9(D10A和H840A)的氨基酸序列:
Figure BDA0003298963610001641
Figure BDA0003298963610001651
Figure BDA0003298963610001652
(单下划线:HNH 结构域;双下划线:RuvC 结构域)。
在一些实施方案中,所述Cas9结构域包含D10A突变,而840位的残基在上文提供的氨基酸序列中或在本文提供的任何氨基酸序列中的相应位置处仍为组氨酸
在其他实施方案中,提供了具有除D10A和H840A之外的突变的dCas9变体,其例如导致核酸酶灭活的Cas9 (dCas9)。例如,此类突变包括在 D10 和 H840 处的其他氨基酸置换,或 Cas9 核酸酶域内的其他置换(例如,HNH 核酸酶亚域和/或 RuvC1 亚域中的置换)。在一些实施例中,提供了dCas9的变体或同源物,其至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供具有较短或较长约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方案中,所述Cas9结构域是一种Cas9切口酶。Cas9切口酶可以是仅能够切割双链核酸分子(例如双链DNA分子)的一条链的Cas9蛋白。在一些实施方案中,Cas9切口酶切割双链核酸分子的靶链,意味着Cas9切口酶切割与结合至Cas9的gRNA(例如,sgRNA)碱基配对(互补)的链。在一些实施方案中,Cas9切口酶包含D10A突变并且在位置840处具有组氨酸。在一些实施方案中,Cas9切口酶切割双链核酸分子的非靶标、非碱基编辑链,这意味着Cas9切口酶切割不与与Cas9结合的gRNA(例如,sgRNA)碱基配对的链。在一些实施方案中,Cas9切口酶包含H840A突变并且在位置10处具有天冬氨酸残基或相应的突变。在一些实施方案中,所述Cas9切口酶包含的氨基酸序列与本文所述的任一Cas9切口酶的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。基于本公开内容和本领域的知识,其他合适的Cas9切口酶对于本领域技术人员来说是显而易见的,并且在本公开内容的范围内。
示例性催化活性Cas9切口酶(nCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在一些实施方案中,Cas9是指来自古细菌(例如纳米古细菌)的Cas9,其构成单细胞原核微生物的域和界。在一些实施例中,可编程核苷酸结合蛋白可以是CasX或CasY蛋白,其已被描述在例如,Burstein等人,"New CRISPR-Cas systems from uncultivatedmicrobes."Cell Res.2017Feb 21.doi:10.1038/cr.2017.21,其全部内容以引用方式并入本文。使用基因组解析的宏基因组学,确定了许多CRISPR-Cas系统,包括在古细菌领域首次报道的Cas9。这种发散的Cas9蛋白在很少被研究的纳米古细菌中被发现,作为活性CRISPR-Cas系统的一部分。在细菌中,发现了两个以前未知的系统,CRISPR-CasX和CRISPR-CasY,它们是迄今为止发现的最紧凑的系统之一。在一些实施例中,在本文所述的碱基编辑器系统中,Cas9被CasX或CasX的变体替代。在一些实施例中,在本文所述的碱基编辑器系统中,Cas9被CasY或CasY的变体替代。应当理解,其他RNA引导的DNA结合蛋白可以用作核酸可编程DNA结合蛋白(napDNAbp),并且在本公开的范围内。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是CasX或CasY蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp是CasY蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的CasX或CasY蛋白相同。在一些实施方案中,可编程核苷酸结合蛋白是天然存在的CasX或CasY蛋白。在一些实施方案中,可编程核苷酸结合蛋白包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何CasX或CasY蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的CasX和CasY。
示例性的CasX((uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)
tr|F0NN87|F0NN87_SULIHCRISPR-associatedCasx protein OS=冰岛硫化叶菌(strain HVE10/4)GN=SiH_0402PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG.
示例性的CasX(>tr|F0NH53|F0NH53_SULIR CRISPR associated protein,CasxOS=冰岛硫化叶菌(strain REY15A)GN=SiRe_0771PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG.
Delta變形菌CasX
MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDfAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
示例性的CasY((ncbi.nlm.nih.gov/protein/APG80656.1)>APG80656.1 CRISPR-associated protein CasY[未培养的俭菌(Parcubacteria)菌群])氨基酸序列如下:
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI.
Cas9核酸酶具有两个功能性核酸内切酶结构域:RuvC和HNH。Cas9在靶标结合后发生构象变化,定位核酸酶结构域以切割靶标DNA的相反链。Cas9介导的DNA切割的最终结果是靶标DNA(PAM序列上游约3-4个核苷酸)内的双链断裂(DSB)。然后通过以下两种一般修复途径之一修复产生的DSB:(1)高效但容易出错的非同源末端连接(NHEJ)途径;或(2)效率较低但保真度高的同源定向修复(HDR)途径。
非同源末端连接(NHEJ)和/或同源定向修复(HDR)的“效率”可以通过任何方便的方法计算。例如,在一些实施例中,效率可以用成功HDR的百分比来表示。例如,Surveyor核酸酶测定可用于产生切割产物,并且产物与底物的比率可用于计算百分比。例如,可以使用surveyor核酸酶直接切割含有作为成功HDR的结果的新整合的限制性序列的DNA。更多裂解的底物表明更高的HDR百分比(更高的HDR效率)。作为说明性示例,可以使用以下等式[(裂解产物)/(底物加裂解产物)](例如,(b+c)/(a+b+c)计算HDR的分数(百分比),其中“a”是DNA底物的条带强度,“b”和“c”是切割产物)。
在一些实施例中,效率可以用成功NHEJ的百分比来表示。例如,T7核酸内切酶I测定可用于产生切割产物,并且产物与底物的比率可用于计算NHEJ百分比。T7核酸内切酶I切割由野生型和突变DNA链杂交产生的错配异源双链DNA(NHEJ在原始断裂位点产生小的随机插入或缺失(indels))。更多裂解表明更高的NHEJ百分比(更高的NHEJ效率)。作为说明性示例,NHEJ的分数(百分比)可以使用以下等式计算:(1-(1-(b+c)/(a+b+c))1/2)×100,其中“a”是DNA底物的条带强度,“b”和“c”是切割产物(Ran等人,Cell.2013Sep.12;154(6):1380-9;和Ran等人,Nat Protoc.2013Nov.;8(11):2281–2308).
NHEJ修复途径是最活跃的修复机制,它经常导致DSB位点的小核苷酸插入或缺失(indels)。NHEJ介导的DSB修复的随机性具有重要的实际意义,因为表达Cas9和gRNA或引导多核苷酸的细胞群会导致多种突变。在大多数实施方案中,NHEJ在靶DNA中产生小的插入缺失,导致氨基酸缺失、插入或移码突变,导致靶标基因的开放阅读框(ORF)内的过早终止密码子。理想的最终结果是靶标基因内的功能丧失突变。
虽然NHEJ介导的DSB修复经常破坏基因的开放阅读框,但同源定向修复(HDR)可用于产生特定的核苷酸变化,范围从单个核苷酸变化到大插入,如添加荧光团或标签。
为了利用HDR进行基因编辑,可以使用gRNA和Cas9或Cas9切口酶将包含所需序列的DNA修复模板递送到感兴趣的细胞类型中。修复模板可以包含所需的编辑以及紧邻靶标上游和下游的其他同源序列(称为左右同源臂)。每个同源臂的长度取决于引入的变化的大小,更大的插入需要更长的同源臂。修复模板可以是单链寡核苷酸、双链寡核苷酸或双链DNA质粒。即使在表达Cas9、gRNA和外源修复模板的细胞中,HDR的效率通常也很低(<10%的修饰等位基因)。HDR的效率可以通过同步细胞来提高,因为HDR发生在细胞周期的S和G2阶段。NHEJ中涉及的化学或遗传抑制基因也可以增加HDR频率。
在一些实施例中,Cas9是经过修饰的Cas9。给定的gRNA靶向序列可以在整个基因组中具有额外的位点,其中存在部分同源性。这些位点称为脱靶位点,在设计gRNA时需要加以考虑。除了优化gRNA设计,还可以通过对Cas9的修改来提高CRISPR的特异性。Cas9通过两个核酸酶域RuvC和HNH的联合活性产生双链断裂(DSB)。Cas9切口酶是SpCas9的D10A突变体,保留一个核酸酶结构域并产生DNA切口而不是DSB。切口酶系统还可以与HDR介导的基因编辑相结合,以进行特定的基因编辑。
在一些实施例中,Cas9是一种变体Cas9蛋白。变体Cas9多肽具有与野生型Cas9蛋白的氨基酸序列相比相差一个氨基酸的氨基酸序列(例如,具有缺失、插入、取代、融合)。在一些情况下,变体Cas9多肽具有降低Cas9多肽的核酸酶活性的氨基酸变化(例如,缺失、插入或取代)。例如,在一些情况下,变体Cas9多肽具有少于50%、少于40%、少于30%、少于20%、少于10%、少于5%或少于1%的相应的野生型Cas9蛋白的核酸酶活性。在一些实施方案中,变体Cas9蛋白没有实质性核酸酶活性。当主题Cas9蛋白是没有实质性核酸酶活性的变体Cas9蛋白时,它可以被称为“dCas9”。
在一些实施方案中,变体Cas9蛋白具有降低的核酸酶活性。例如,变体Cas9蛋白表现出小于约20%、小于约15%、小于约10%、小于约5%、小于约1%或小于约0.1%的野生型Cas9蛋白的核酸内切酶活性,例如野生型Cas9蛋白。
在一些实施方案中,变体Cas9蛋白可以切割引导靶标序列的互补链,但切割双链引导标靶序列的非互补链的能力降低。例如,变体Cas9蛋白可以具有降低RuvC结构域功能的突变(氨基酸取代)。作为非限制性实例,在一些实施方案中,变体Cas9蛋白具有D10A(在氨基酸位置10处天冬氨酸到丙氨酸)并且因此可以切割双链引导靶标序列的互补链但切割非-双链引导靶标序列的互补链(因此当变体Cas9蛋白切割双链靶核酸时导致单链断裂(SSB)而不是双链断裂(DSB))(参见,例如,Jinek等人,Science.2012Aug.17;337(6096):816-21).
在一些实施方案中,变体Cas9蛋白可以切割双链引导靶标序列的非互补链,但切割引导靶标序列的互补链的能力降低。例如,变体Cas9蛋白可以具有降低HNH结构域(RuvC/HNH/RuvC结构域基序)功能的突变(氨基酸取代)。作为非限制性实例,在一些实施方案中,变体Cas9蛋白具有H840A(在氨基酸位置840处组氨酸到丙氨酸)突变,因此可以切割引导靶标序列的非互补链,但切割引导靶标序列的互补链的能力降低(从而导致当变异Cas9蛋白切割双链引导靶标序列时,使用SSB而不是DSB)。此类Cas9蛋白切割引导靶标序列(例如,单链引导靶标序列)的能力降低,但保留结合引导靶标序列(例如,单链引导靶标序列)的能力。
在一些实施方案中,变体Cas9蛋白切割双链靶标DNA的互补链和非互补链的能力降低。作为非限制性实例,在一些实施方案中,变体Cas9蛋白包含D10A和H840A突变两者,使得多肽切割双链靶标DNA的互补链和非互补链的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有W476A和W1126A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。
作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有H840A、W476A和W1126A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有H840A、D10A、W476A和W1126A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些实施方案中,变体Cas9在Cas9HNH结构域(A840H)中的位置840处恢复了催化性His残基。
作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1127A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些实施方案中,当变体Cas9蛋白包含W476A和W1126A突变或当变体Cas9蛋白包含P475A、W476A、N477A、D1125A、W1126A和D1127A突变时,变体Cas9蛋白不与PAM序列有效结合。因此,在一些此类实施方案中,当此类变体Cas9蛋白用于结合方法时,该方法不需要PAM序列。换言之,在一些实施方案中,当这种变体Cas9蛋白用于结合方法中时,该方法可以包括引导RNA,但是该方法可以在不存在PAM序列的情况下进行(并且结合的特异性是因此由引导RNA的靶向片段提供)。可以突变其他残基以实现上述效果(即灭活一个或其他核酸酶部分)。作为非限制性实例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即,被取代)。此外,丙氨酸取代以外的突变也是合适的。
在一些实施方案中,具有降低的催化活性的变体Cas9蛋白(例如,当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987突变时例如,D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A和/或D986A),变体Cas9蛋白仍然可以以位点特异性方式结合靶标DNA(因为它仍然被引导RNA引导到靶标DNA序列),只要它保留与引导RNA相互作用的能力。
在一些实施方案中,变体Cas蛋白可以是spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK或spCas9-LRVSQL。
在一些实施方案中,使用包括氨基酸取代D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)并且对改变的PAM 5’-NGC具有特异性的修饰的SpCas9。
化脓性链球菌Cas9的替代品可以包括来自Cpf1家族的RNA引导的核酸内切酶,它们在哺乳动物细胞中显示出切割活性。来自普雷沃氏菌和弗朗西斯菌1(CRISPR/Cpf1)的CRISPR是一种类似于CRISPR/Cas9系统的DNA编辑技术。Cpf1是II类CRISPR/Cas系统的RNA引导的核酸内切酶。这种获得性免疫机制存在于普氏菌和弗朗西斯菌中。Cpf1基因与CRISPR基因座相关,编码内切核酸酶,使用引导RNA来寻找和切割病毒DNA。Cpf1是一种比Cas9更小、更简单的核酸内切酶,克服了CRISPR/Cas9系统的一些限制。与Cas9核酸酶不同,Cpf1介导的DNA切割的结果是具有短3'突出端的双链断裂。Cpf1的交错切割模式可以开辟定向基因转移的可能性,类似于传统的限制酶克隆,可以提高基因编辑的效率。与上述Cas9变体和直向同源物一样,Cpf1还可以将CRISPR可靶向的位点数量扩大到富含AT的区域或富含AT的基因组,这些区域缺乏SpCas9青睐的NGG PAM位点。Cpf1基因座包含一个混合的alpha/beta结构域、一个RuvC-I后跟一个螺旋区域、一个RuvC-II和一个锌指样结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域。此外,Cpf1没有HNH核酸内切酶结构域,并且Cpf1的N末端没有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构表明Cpf1在功能上是独一无二的,被归类为2类V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2和Cas4蛋白更类似于I型和III型,而不是来自II型系统。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA),因此,只需要CRISPR(crRNA)。这有利于基因组编辑,因为Cpf1不仅比Cas9小,而且它的sgRNA分子更小(大约是Cas9的一半核苷酸)。与Cas9靶向的富含G的PAM相比,Cpf1-crRNA复合物通过识别原间隔序列临近基序5'-YTN-3'来切割靶标DNA或RNA。鉴定PAM后,Cpf1引入了一个粘性末端样DNA双链断裂,有4或5个核苷酸突出端。
在一些实施方案中,Cas9是对改变的PAM序列具有特异性的Cas9变体。在一些实施方案中,额外的Cas9变体和PAM序列在Miller,S.M.等人,Continuous evolution ofSpCas9 variants compatible with non-G PAMs,Nat.Biotechnol.(2020)中有所描述,其全部内容以引用方式并入本文。在一些实施例中,Cas9变体没有特定的PAM要求。在一些实施例中,Cas9变体,例如SpCas9变体对NRNH PAM具有特异性,其中R是A或G并且H是A、C或T。在一些实施方案中,SpCas9变体对PAM序列AAA、TAA、CAA、GAA、TAT、GAT或CAC具有特异性。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、134、137、127、137 1320、1321、1323、1332、1333、1335、1337或1339或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335或1337或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ IDNO:1的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349或其相应位置包含氨基酸取代。SpCas9变体的示例性氨基酸取代和PAM特异性显示在表3A-3D中。
表3A
Figure BDA0003298963610001761
Figure BDA0003298963610001771
表3B
Figure BDA0003298963610001772
表3C
Figure BDA0003298963610001781
表3D
Figure BDA0003298963610001782
在一些实施方案中,Cas9是脑膜炎双球菌Cas9(NmeCas9)或其变体。在一些实施方案中,NmeCas9对NNNNGAYW PAM具有特异性,其中Y是C或T并且W是A或T。在一些实施方案中,NmeCas9对NNNNGYTT PAM具有特异性,其中Y是C或T。在一些实施方案中,NmeCas9对NNNNGTCT PAM具有特异性。在一些实施方案中,所述NmeCas9是Nme1Cas9。在一些实施方案中,NmeCas9对NNNNGATT PAM、NNNNCCTA PAM、NNNNCCTC PAM、NNNNCCTT PAM、NNNNCCTG PAM、NNNNCCGT PAM、NNNNCCGGPAM、NNNNCCCA PAM、NNNNCCCT PAM、NNNNCCCC PAM、NNNNCCAT PAM、NNNNCCAG PAM、NNNNCCAT PAM或NNNGATT PAM具有特异性。在一些实施方案中,Nme1Cas9对NNNNGATT PAM、NNNNCCTA PAM、NNNNCCTC PAM、NNNNCCTT PAM或NNNNCCTG PAM具有特异性。在一些实施方案中,NmeCas9对CAA PAM、CAAA PAM或CCA PAM具有特异性。在一些实施方案中,所述NmeCas9是Nme2 Cas9。在一些实施例中,NmeCas9对NNNNCC(N4CC)PAM具有特异性,其中N是A、G、C或T中的任何一个。在一些实施例中,NmeCas9对NNNNCCGT PAM、NNNNCCGGPAM、NNNNCCCA PAM、NNNNCCCT PAM、NNNNCCCC PAM、NNNNCCAT PAM、NNNNCCAG PAM、NNNNCCAT PAM或NNNGATT PAM具有特异性。在一些实施方案中,所述NmeCas9是Nme3Cas9。在一些实施方案中,NmeCas9对NNNNCAAAPAM、NNNNCC PAM或NNNNCNNN PAM具有特异性。额外的NmeCas9特征和PAM序列,如Edraki等人Mol.Cell.(2019)73(4):714-726所述,以引用的方式全文并入本文。
以下提供了Nme1Cas9的示例性氨基酸序列:
II型CRISPR RNA引导的核酸内切酶Cas9[脑膜炎双球菌]WP_002235162.1
Figure BDA0003298963610001791
以下提供了Nme2Cas9的示例性氨基酸序列:
II型CRISPR RNA引导的核酸内切酶Cas9[脑膜炎双球菌]WP_002230835.1
Figure BDA0003298963610001801
核碱基编辑器的Cas12结构域
通常,微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应复合物,而2类系统具有单个蛋白质效应子。例如,Cas9和Cpf1是2类效应子,尽管类型不同(分别为II型和V型)。除了Cpf1,2类V型CRISPR-Cas系统还包括Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i)。参见,例如,Shmakov等人,“Discovery and Functional Characterization of Diverse Class 2 CRISPR CasSystems,”Mol.Cell,2015 Nov.5;60(3):385-397;Makarova等人,Classification andNomenclature of CRISPR-Cas Systems:Where from Here?”CRISPR Journal,2018,1(5):325-336;和Yan等人,“Functionally diverse type V CRISPR-Cas systems,”Science,2019 Jan.4;363:88-91中描述;其全部内容以引用方式并入本文。V型Cas蛋白包含一个RuvC(或RuvC样)核酸内切酶结构域。虽然成熟CRISPR RNA(crRNA)的生产通常不依赖于tracrRNA,但例如,Cas12b/C2c1需要tracrRNA来生产crRNA。Cas12b/C2c1依赖crRNA和tracrRNA进行DNA切割。
本发明内容中考虑的核酸可编程DNA结合蛋白包括归类为第2类V型(Cas12蛋白)的Cas蛋白。Cas 2类V型蛋白的非限制性实例包括Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h和Cas12i、其同源物或其修饰形式。如本文所用,Cas12蛋白也可称为Cas12核酸酶、Cas12结构域或Cas12蛋白结构域。在一些实施方案中,本发明的Cas12蛋白包含被内部融合蛋白结构域例如脱氨酶结构域中断的氨基酸序列。
在一些实施方案中,所述Cas12结构域是无核酸酶活性的Cas12结构域或Cas12切口酶。在一些实施方案中,所述Cas12结构域是一种具有核酸酶活性的结构域。例如,所述Cas12结构域可以是在双链核酸(例如双链DNA分子)的一条链上形成切口的Cas12结构域。在一些实施方案中,Cas12结构域包含如本文所述的任一氨基酸序列。在一些实施方案中,所述Cas12结构域包含的氨基酸序列与本文所述的任一氨基酸序列的至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。在一些实施例中,与本文所述的任一氨基酸序列相比,所述Cas12结构域包含的氨基酸序列具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本文所述的任一氨基酸序列相比,Cas12结构域包含具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100或至少1200个相同的连续氨基酸残基。
在一些实施方案中,提供了包含Cas12片段的蛋白。例如,在一些实施例中,蛋白包含两个Cas12结构域之一:(1)Cas12的gRNA结合结构域;或(2)Cas12的DNA切割结构域。在一些实施方案中,包含Cas12或其片段的蛋白被称为“Cas12变体”。Cas12变体与Cas12或其片段具有同源性。例如,Cas12变体与野生型Cas12至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,与野生型Cas12相比,Cas12变体可具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的氨基酸变化。在一些实施例中,Cas12变体包含Cas12的片段(例如,gRNA结合结构域或DNA切割结构域),使得该片段与野生型Cas12的相应片段至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施例中,所述片段是至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%相同、至少96%、至少97%、至少98%、至少99%或至少99.5%相应野生型Cas12的氨基酸长度。在一些实施例中,所述片段的长度为至少100个氨基酸。在一些实施方案中,所述片段的长度为至少100、150、200、250、300、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250或1300个氨基酸。
在一些实施方案中,Cas12对应于或部分或全部包含具有一个或多个使Cas12核酸酶活性改变的突变的Cas12氨基酸序列。举例来说,此类突变包括Cas12的RuvC核酸酶结构域内的氨基酸取代。在一些实施例中,提供了Cas12的变体或同源物,其与野生型Cas12至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同或至少约99.9%相同。在一些实施方案中,提供了Cas12的变体,其具有较短或较长约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方案中,本文提供的Cas12融合蛋白包含Cas12蛋白的全长氨基酸序列,例如本文提供的Cas12序列之一。然而,在其他实施方案中,本文提供的融合蛋白不包含全长Cas12序列,而仅包含其一个或多个片段。本文提供了合适的Cas12结构域的示例性氨基酸序列,并且Cas12结构域和片段的其他合适的序列对本领域技术人员来说是显而易见的。
通常,第2类V型Cas蛋白具有单个功能性RuvC核酸内切酶结构域(参见,例如,Chen等人,“CRISPR-Cas12a target binding unleashes indiscriminate-stranded DNaseactivity,”Science 360:436-439(2018)))。在一些实施例中,所述Cas12是一种变体Cas12b蛋白。(参见Strecker等人,Nature Communications,2019,10(1):Art.No.:212).在一个实施方案中,与野生型Cas12蛋白的氨基酸序列相比时,变体Cas12多肽具有相差1、2、3、4、5个或更多个氨基酸(例如,具有缺失、插入、取代、融合)的氨基酸序列。在一些情况下,变体Cas12多肽具有降低Cas12多肽活性的氨基酸变化(例如,缺失、插入或取代)。例如,在一些情况下,变体Cas12是Cas12b多肽,其具有少于50%、少于40%、少于30%、少于20%、少于10%、少于5%或少于1%的相应的野生型Cas12b蛋白的切口酶活性。在某些情况下,变体Cas12b蛋白没有实质性切口酶活性。
在某些情况下,变体Cas12b蛋白具有降低的切口酶活性。例如,变体Cas12b蛋白表现出小于约20%、小于约15%、小于约10%、小于约5%、小于约1%或小于约0.1%的野生型Cas12b蛋白的切口酶活性。
在一些实施方案中,Cas12蛋白包括来自Cas12a/Cpf1家族的RNA引导的核酸内切酶,其在哺乳动物细胞中表现出活性。来自普雷沃氏菌和弗朗西斯菌1(CRISPR/Cpf1)的CRISPR是一种类似于CRISPR/Cas9系统的DNA编辑技术。Cpf1是II类CRISPR/Cas系统的RNA引导的核酸内切酶。这种获得性免疫机制存在于普氏菌和弗朗西斯菌中。Cpf1基因与CRISPR基因座相关,编码内切核酸酶,使用引导RNA来寻找和切割病毒DNA。Cpf1是一种比Cas9更小、更简单的核酸内切酶,克服了CRISPR/Cas9系统的一些限制。与Cas9核酸酶不同,Cpf1介导的DNA切割的结果是具有短3'突出端的双链断裂。Cpf1的交错切割模式可以开辟定向基因转移的可能性,类似于传统的限制酶克隆,可以提高基因编辑的效率。与上述Cas9变体和直向同源物一样,Cpf1还可以将CRISPR可靶向的位点数量扩大到富含AT的区域或富含AT的基因组,这些区域缺乏SpCas9青睐的NGG PAM位点。Cpf1基因座包含一个混合的alpha/beta结构域、一个RuvC-I后跟一个螺旋区域、一个RuvC-II和一个锌指样结构域。Cpf1蛋白具有类似于Cas9的RuvC结构域的RuvC样核酸内切酶结构域。此外,Cpf1不像Cas9,其没有HNH核酸内切酶结构域,并且Cpf1的N末端没有Cas9的α-螺旋识别叶。Cpf1 CRISPR-Cas结构域架构表明Cpf1在功能上是独一无二的,被归类为2类V型CRISPR系统。Cpf1基因座编码的Cas1、Cas2和Cas4蛋白更类似于I型和III型,而不是II型系统。功能性Cpf1不需要反式激活CRISPR RNA(tracrRNA),因此,只需要CRISPR(crRNA)。这有利于基因组编辑,因为Cpf1不仅比Cas9小,而且它的sgRNA分子更小(大约是Cas9的一半核苷酸)。与Cas9靶向的富含G的PAM相比,Cpf1-crRNA复合物通过识别原间隔序列临近基序5’-YTN-3’或5'-TTTN-3'来切割靶标DNA或RNA。鉴定PAM后,Cpf1引入了一个粘性末端样DNA双链断裂,具有4或5个核苷酸的突出端。
在本发明的一些方面,载体编码一种CRISPR酶,该酶相对于相应的野生型酶发生突变,这样可以使用突变的CRISPR酶,该CRISPR酶缺乏切割含有靶标序列的靶标多核苷酸的一条或两条链的能力。Cas12可指与野生型示例性Cas12多肽(例如,来自外村尚芽孢杆菌的Cas12)具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性。Cas12可指具有至多或至多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%的序列同一性和/或序列同源性与野生型示例性Cas12多肽(例如,来自外村尚芽孢杆菌(BhCas12b)、芽孢杆菌属V3-13(BvCas12b)和嗜酸脂环杆菌(AaCas12b))。Cas12可指Cas12蛋白的野生型或修饰形式,其可包含氨基酸变化,例如缺失、插入、取代、变体、突变、融合、嵌合体或其任何组合。
核酸可编程DNA结合蛋白
本公开的一些方面提供了融合蛋白,其包含的结构域充当核酸可编程的DNA结合蛋白,其可以用于引导蛋白质,如碱编辑,到特定的核酸(例如,DNA或RNA)序列。在特定实施方案中,融合蛋白包含核酸可编程DNA结合蛋白结构域和脱氨酶结构域。核酸可编程DNA结合蛋白的非限制性实例包括Cas9(例如dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g和Cas12i。Cas酶的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5,II型Cas效应蛋白、V型Cas效应蛋白、VI型蛋白质、CARF、DinG、其同源物或其修饰或工程化版本。其他核酸可编程的DNA结合蛋白也在本公开的范围内,尽管它们可能未在本公开中具体列出。参见,如Makarova等人,“Classification andNomenclature of CRISPR-Cas Systems:Where from Here?”CRISPR J.2018Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等人,“Functionally diverse type V CRISPR-Cas systems”Science.2019Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,其全部内容以引用方式并入本文。
具有与Cas9不同的PAM特异性的核酸可编程DNA结合蛋白的一个例子是来自普雷沃氏菌和弗朗西斯氏菌1(Cpf1)的规律成簇间隔短回文重复序列。与Cas9类似,Cpf1也是2类CRISPR效应子。已经表明,Cpf1介导强大的DNA干扰,其特征与Cas9不同。Cpf1是一种单一的RNA引导的内切核酸酶,缺乏tracrRNA,它利用富含T的原间隔序列临近基序(TTN、TTTN或YTN)。此外,Cpf1通过交错的DNA双链断裂来切割DNA。在16个Cpf1家族蛋白中,来自胺基酸球菌属和毛螺菌的两种酶被证明在人类细胞中具有有效的基因组编辑活性。Cpf1蛋白是本领域已知的并且之前已经描述过,例如Yamano等人,“Crystal structure of Cpf1 incomplex with guide RNA and target DNA.”Cell(165)2016,p.949-962;其全部内容以引用方式并入本文。.
在本组合物和方法中有用的是核酸酶灭活的Cpf1(dCpf1)变体,其可用作引导核苷酸序列可编程的DNA结合蛋白结构域。Cpf1蛋白具有与Cas9的RuvC结构域相似但不具有HNH核酸内切酶结构域的RuvC样核酸内切酶结构域,且Cpf1的N端不具有Cas9的α-螺旋识别叶。Zetsche等人,Cell,163,759-771,2015(通过引用并入本文)表明,Cpf1的RuvC样结构域负责切割两条DNA链并使RuvC样结构域灭活灭活Cpf1核酸酶活性。例如,与新生弗朗西斯氏菌Cpf1中的D917A、E1006A或D1255A对应的突变使Cpf1核酸酶活性灭活。在一些实施方案中,本公开的dCpf1包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A或D917A/E1006A/D122的突变。应当理解,根据本公开可以使用使Cpf1的RuvC结构域灭活的任何突变,例如置换突变、缺失或插入。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是Cpf1蛋白。在一些实施方案中,所述Cpf1蛋白是一种Cpf1切口酶(nCpf1)。在一些实施方案中,所述Cpf1蛋白是核酸酶灭活的Cpf1(dCpf1)。在一些实施方案中,所述Cpf1、所述nCpf1或所述dCpf1包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何Cpf1蛋白相同。在一些实施方案中,dCpfl包含至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文公开的Cpf1序列相同,并且包含对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A的突变E1006A/D1255A或D917A/E1006A/D1255A。应当理解,根据本公开也可以使用来自其他细菌物种的Cpf1。
野生型弗朗西斯菌Cpf1(D917、E1006和D1255以粗体和下划线表示)
Figure BDA0003298963610001871
弗朗西斯菌Cpf1 D917A(A917、E1006和D1255以粗体和下划线表示)
Figure BDA0003298963610001881
弗朗西斯菌Cpf1 E1006A(D917、A1006和D1255以粗体和下划线表示)
Figure BDA0003298963610001882
Figure BDA0003298963610001891
弗朗西斯菌Cpf1 D1255A(D917、E1006和A1255以粗体和下划线表示)
Figure BDA0003298963610001892
Figure BDA0003298963610001901
弗朗西斯菌Cpf1Cpf1 D917A/E1006A(A917、A1006和D1255以粗体和下划线表示)
Figure BDA0003298963610001902
Figure BDA0003298963610001911
弗朗西斯菌Cpf1Cpf1 D917A/D1255A(A917、E1006和A1255以粗体和下划线表示)
Figure BDA0003298963610001912
Figure BDA0003298963610001921
弗朗西斯菌Cpf1Cpf1 E1006A/D1255A(D917、A1006和A1255以粗体和下划线表示)
Figure BDA0003298963610001922
弗朗西斯菌Cpf1Cpf1 D917A/E1006A/D1225A(A917、A1006和A1255以粗体和下划线表示)
Figure BDA0003298963610001923
Figure BDA0003298963610001931
在一些实施方案中,融合蛋白中存在的Cas9结构域之一可以被对PAM序列没有要求的引导核苷酸序列可编程的DNA结合蛋白结构域替换。
在一些实施方案中,所述Cas9结构域是来自金黄色葡萄球菌的Cas9结构域(SaCas9)。在一些实施方案中,SaCas9结构域是核酸酶活性的SaCas9、核酸酶灭活的SaCas9(SaCas9d)或SaCas9切口酶(SaCas9n)。在一些实施方案中,SaCas9包含N579A突变,或本文提供的任何氨基酸序列中的相应突变。
在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可结合具有非规范PAM的核酸序列。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可结合具有NNGRRT或NNGRRT PAM序列的核酸序列。在一些实施方案中,SaCas9结构域包含E781X、N967X和R1014X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SaCas9结构域包含E781K、N967K和R1014H突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SaCas9结构域包含E781K、N967K或R1014H突变,或本文提供的任何氨基酸序列中的相应突变。
示例性SaCas9序列
Figure BDA0003298963610001941
上述加下划线和粗体的残基N579可以突变(例如,突变到A579)以产生SaCas9切口酶。
示例性SaCas9n序列
Figure BDA0003298963610001951
上述的残基A579可以从N579突变以产生SaCas9切口酶,用下划线和粗体表示。
示例性SaKKH Cas9
Figure BDA0003298963610001952
Figure BDA0003298963610001961
上述的残基A579可以从N579突变以产生SaCas9切口酶,用下划线和粗体表示。上述的残基K781、K967和H1014,可以从E781、N967和R1014突变以产生SaKKH Cas9,用下划线和斜体表示。
在一些实施方案中,napDNAbp是一个循环置换。在以下序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,以及下划线序列表示二分核定位序列,双下划线序列表示突变。
CP5(带有MSP“NGC”PID和“D10A”切口酶):
Figure BDA0003298963610001962
Figure BDA0003298963610001971
在一些实施方案中,核酸可编程DNA结合蛋白(napDNAbp)是微生物CRISPR-Cas系统的单一效应物。微生物CRISPR-Cas系统的单一效应子包括但不限于Cas9、Cpf1、Cas12b/C2c1和Cas12c/C2c3。通常,微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应复合物,而2类系统具有单个蛋白质效应子。例如,Cas9和Cpf1是2类效应子。除了Cas9和Cpf1,三个不同的2类CRISPR-Cas系统(Cas12b/C2c1和Cas12c/C2c3)由Shmakov等人于“Discovery and Functional Characterization of Diverse Class2CRISPR CasSystems”,Mol.Cell,2015Nov.5;60(3):385-397中描述,全部内容以引用方式并入本文。其中两个系统Cas12b/C2c1和Cas12c/C2c3的效应子包含与Cpf1相关的RuvC样核酸内切酶结构域。第三个系统包含一个具有两个预测HEPN RNase结构域的效应子。成熟CRISPR RNA的产生不依赖于tracrRNA,这与Cas12b/C2c1产生的CRISPR RNA不同。Cas12b/C2c1依赖CRISPR RNA和tracrRNA进行DNA切割。
据报道,嗜酸脂环酸杆菌(Alicyclobaccillus acidoterrastris)Cas12b/C2c1(AacC2c1)的晶体结构与嵌合单分子向导RNA(sgRNA)复合。参见如,Liu等人,“C2c1-sgRNAComplex Structure Reveals RNA-Guided DNA Cleavage Mechanism”,Mol.Cell,2017Jan.19;65(2):310-322,其全部内容以引用方式并入本文。在以三元复合物形式与靶标DNA结合的嗜酸脂环酸杆菌C2c1中也报道了晶体结构。参见如,Yang等人,“PAM-dependent Target DNA Recognition and Cleavage by C2C1 CRISPR-Casendonuclease”,Cell,2016Dec.15;167(7):1814-1828,其全部内容以引用方式并入本文。AacC2c1的具有催化能力的构象,包括靶标DNA链和非靶标DNA链,已被独立地捕获在单个RuvC催化口袋内,Cas12b/C2c1介导的切割导致靶标DNA的七核苷酸交错断裂。Cas12b/C2c1三元复合物与先前鉴定的Cas9和Cpf1对应物之间的结构比较证明了CRISPR-Cas9系统使用的机制的多样性。
在一些实施方案中,本文提供的核酸可编程DNA结合蛋白(napDNAbp)或任何融合蛋白可以是Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp是Cas12b/C2c1蛋白。在一些实施方案中,napDNAbp是Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白相同。在一些实施方案中,napDNAbp是天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文提供的任何一种napDNAbp序列相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12b/C2c1或Cas12c/C2c3。
A Cas12b/C2c1((uniprot.org/uniprot/T0D7A2#2)sp|T0D7A2|C2C1_ALIAGCRISPR-associated endonuclease C2c1 OS=嗜酸脂环酸杆菌(strain ATCC 49025/DSM3922/CIP 106132/NCIMB 13137/GD3B)GN=c2c1 PE=1SV=1)氨基酸序列如下:
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMVNQRIEGYLVKQIRSRVPLQDSACENTGDI
AacCas12b(嗜酸脂环杆菌)-WP_067623834
MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI
BhCas12b(外村尚芽孢杆菌)NCBI Reference Sequence:WP_095142515
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK
Including the variant termed BvCas12bV4(S893R/K846R/E837G changesrel.to wt above).BhCas12b(V4)is expressed as follows:5’mRNA Cap---5’UTR---bhCas12b---STOP sequence---3’UTR---120polyA tail
5’UTR:
GGGAAATAAGAGAGAAAAGAAGAGTAAGAAGAAATATAAGAGCCACC
3’UTR(TriLink standard UTR)
GCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTTCCTGCACCCGTACCCCCGTGGTCTTTGAATAAAGTCTGA
bhCas12b的核酸序列(V4)
ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCCGCCACCAGATCCTTCATCCTGAAGATCGAGCCCAACGAGGAAGTGAAGAAAGGCCTCTGGAAAACCCACGAGGTGCTGAACCACGGAATCGCCTACTACATGAATATCCTGAAGCTGATCCGGCAAGAGGCCATCTACGAGCACCACGAGCAGGACCCCAAGAATCCCAAGAAGGTGTCCAAGGCCGAGATCCAGGCCGAGCTGTGGGATTTCGTGCTGAAGATGCAGAAGTGCAACAGCTTCACACACGAGGTGGACAAGGACGAGGTGTTCAACATCCTGAGAGAGCTGTACGAGGAACTGGTGCCCAGCAGCGTGGAAAAGAAGGGCGAAGCCAACCAGCTGAGCAACAAGTTTCTGTACCCTCTGGTGGACCCCAACAGCCAGTCTGGAAAGGGAACAGCCAGCAGCGGCAGAAAGCCCAGATGGTACAACCTGAAGATTGCCGGCGATCCCTCCTGGGAAGAAGAGAAGAAGAAGTGGGAAGAAGATAAGAAAAAGGACCCGCTGGCCAAGATCCTGGGCAAGCTGGCTGAGTACGGACTGATCCCTCTGTTCATCCCCTACACCGACAGCAACGAGCCCATCGTGAAAGAAATCAAGTGGATGGAAAAGTCCCGGAACCAGAGCGTGCGGCGGCTGGATAAGGACATGTTCATTCAGGCCCTGGAACGGTTCCTGAGCTGGGAGAGCTGGAACCTGAAAGTGAAAGAGGAATACGAGAAGGTCGAGAAAGAGTACAAGACCCTGGAAGAGAGGATCAAAGAGGACATCCAGGCTCTGAAGGCTCTGGAACAGTATGAGAAAGAGCGGCAAGAACAGCTGCTGCGGGACACCCTGAACACCAACGAGTACCGGCTGAGCAAGAGAGGCCTTAGAGGCTGGCGGGAAATCATCCAGAAATGGCTGAAAATGGACGAGAACGAGCCCTCCGAGAAGTACCTGGAAGTGTTCAAGGACTACCAGCGGAAGCACCCTAGAGAGGCCGGCGATTACAGCGTGTACGAGTTCCTGTCCAAGAAAGAGAACCACTTCATCTGGCGGAATCACCCTGAGTACCCCTACCTGTACGCCACCTTCTGCGAGATCGACAAGAAAAAGAAGGACGCCAAGCAGCAGGCCACCTTCACACTGGCCGATCCTATCAATCACCCTCTGTGGGTCCGATTCGAGGAAAGAAGCGGCAGCAACCTGAACAAGTACAGAATCCTGACCGAGCAGCTGCACACCGAGAAGCTGAAGAAAAAGCTGACAGTGCAGCTGGACCGGCTGATCTACCCTACAGAATCTGGCGGCTGGGAAGAGAAGGGCAAAGTGGACATTGTGCTGCTGCCCAGCCGGCAGTTCTACAACCAGATCTTCCTGGACATCGAGGAAAAGGGCAAGCACGCCTTCACCTACAAGGATGAGAGCATCAAGTTCCCTCTGAAGGGCACACTCGGCGGAGCCAGAGTGCAGTTCGACAGAGATCACCTGAGAAGATACCCTCACAAGGTGGAAAGCGGCAACGTGGGCAGAATCTACTTCAACATGACCGTGAACATCGAGCCTACAGAGTCCCCAGTGTCCAAGTCTCTGAAGATCCACCGGGACGACTTCCCCAAGGTGGTCAACTTCAAGCCCAAAGAACTGACCGAGTGGATCAAGGACAGCAAGGGCAAGAAACTGAAGTCCGGCATCGAGTCCCTGGAAATCGGCCTGAGAGTGATGAGCATCGACCTGGGACAGAGACAGGCCGCTGCCGCCTCTATTTTCGAGGTGGTGGATCAGAAGCCCGACATCGAAGGCAAGCTGTTTTTCCCAATCAAGGGCACCGAGCTGTATGCCGTGCACAGAGCCAGCTTCAACATCAAGCTGCCCGGCGAGACACTGGTCAAGAGCAGAGAAGTGCTGCGGAAGGCCAGAGAGGACAATCTGAAACTGATGAACCAGAAGCTCAACTTCCTGCGGAACGTGCTGCACTTCCAGCAGTTCGAGGACATCACCGAGAGAGAGAAGCGGGTCACCAAGTGGATCAGCAGACAAGAGAACAGCGACGTGCCCCTGGTGTACCAGGATGAGCTGATCCAGATCCGCGAGCTGATGTACAAGCCTTACAAGGACTGGGTCGCCTTCCTGAAGCAGCTCCACAAGAGACTGGAAGTCGAGATCGGCAAAGAAGTGAAGCACTGGCGGAAGTCCCTGAGCGACGGAAGAAAGGGCCTGTACGGCATCTCCCTGAAGAACATCGACGAGATCGATCGGACCCGGAAGTTCCTGCTGAGATGGTCCCTGAGGCCTACCGAACCTGGCGAAGTGCGTAGACTGGAACCCGGCCAGAGATTCGCCATCGACCAGCTGAATCACCTGAACGCCCTGAAAGAAGATCGGCTGAAGAAGATGGCCAACACCATCATCATGCACGCCCTGGGCTACTGCTACGACGTGCGGAAGAAGAAATGGCAGGCTAAGAACCCCGCCTGCCAGATCATCCTGTTCGAGGATCTGAGCAACTACAACCCCTACGAGGAAAGGTCCCGCTTCGAGAACAGCAAGCTCATGAAGTGGTCCAGACGCGAGATCCCCAGACAGGTTGCACTGCAGGGCGAGATCTATGGCCTGCAAGTGGGAGAAGTGGGCGCTCAGTTCAGCAGCAGATTCCACGCCAAGACAGGCAGCCCTGGCATCAGATGTAGCGTCGTGACCAAAGAGAAGCTGCAGGACAATCGGTTCTTCAAGAATCTGCAGAGAGAGGGCAGACTGACCCTGGACAAAATCGCCGTGCTGAAAGAGGGCGATCTGTACCCAGACAAAGGCGGCGAGAAGTTCATCAGCCTGAGCAAGGATCGGAAGTGCGTGACCACACACGCCGACATCAACGCCGCTCAGAACCTGCAGAAGCGGTTCTGGACAAGAACCCACGGCTTCTACAAGGTGTACTGCAAGGCCTACCAGGTGGACGGCCAGACCGTGTACATCCCTGAGAGCAAGGACCAGAAGCAGAAGATCATCGAAGAGTTCGGCGAGGGCTACTTCATTCTGAAGGACGGGGTGTACGAATGGGTCAACGCCGGCAAGCTGAAAATCAAGAAGGGCAGCTCCAAGCAGAGCAGCAGCGAGCTGGTGGATAGCGACATCCTGAAAGACAGCTTCGACCTGGCCTCCGAGCTGAAAGGCGAAAAGCTGATGCTGTACAGGGACCCCAGCGGCAATGTGTTCCCCAGCGACAAATGGATGGCCGCTGGCGTGTTCTTCGGAAAGCTGGAACGCATCCTGATCAGCAAGCTGACCAACCAGTACTCCATCAGCACCATCGAGGACGACAGCAGCAAGCAGTCTATGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG
在一些实施方案中,所述Cas12b是BvCas12B。在一些实施方案中,Cas12b包含氨基酸取代S893R、K846R和E837G,如下文提供的BvCas12B示例性序列中编号。
BvCas12b(芽孢杆菌属V3-13)NCBI参考序列:WP_101661451.1
MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQEAIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLLEGMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKNNKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEIVQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPYVGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSDNNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL
在一些实施例中,Cas12b是BTCas12b.BTCas12b(嗜热淀粉芽孢杆菌)NCBI参考序列:WP_041902512
MATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDVVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPFTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEHKTLEERIKEDIQAFKSLEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKFVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKLVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWGNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSM
在一些实施例中,napDNAbp是指Cas12c。在一些实施方案中,所述Cas12c是Cas12c1或Cas12c1的变体。在一些实施方案中,所述Cas12是Cas12c2或Cas12c2的变体。在一些实施方案中,所述Cas12蛋白是来自嗜油菌属(Oleiphilus sp.)HI0009(即OspCas12c)的Cas12c蛋白或OspCas12c的变体。这些Cas12c分子已在Yan等人,“Functionally DiverseType V CRISPR-Cas Systems,”Science,2019Jan.4;363:88-91中描述;全部内容以引用方式并入本文。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的Cas12c1、Cas12c2或OspCas12c蛋白相同。在一些实施方案中,napDNAbp是天然存在的Cas12c1、Cas12c2或OspCas12c蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何Cas12c1、Cas12c2或OspCas12c蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12c1、Cas12c2或OspCas12c。
Cas12c1
MQTKKTHLHLISAKASRKYRRTIACLSDTAKKDLERRKQSGAADPAQELSCLKTIKFKLEVPEGSKLPSFDRISQIYNALETIEKGSLSYLLFALILSGFRIFPNSSAAKTFASSSCYKNDQFASQIKEIFGEMVKNFIPSELESILKKGRRKNNKDWTEENIKRVLNSEFGRKNSEGSSALFDSFLSKFSQELFRKFDSWNEVNKKYLEAAELLDSMLASYGPFDSVCKMIGDSDSRNSLPDKSTIAFTNNAEITVDIESSVMPYMAIAALLREYRQSKSKAAPVAYVQSHLTTTNGNGLSWFFKFGLDLIRKAPVSSKQSTSDGSKSLQELFSVPDDKLDGLKFIKEACEALPEASLLCGEKGELLGYQDFRTSFAGHIDSWVANYVNRLFELIELVNQLPESIKLPSILTQKNHNLVASLGLQEAEVSHSLELFEGLVKNVRQTLKKLAGIDISSSPNEQDIKEFYAFSDVLNRLGSIRNQIENAVQTAKKDKIDLESAIEWKEWKKLKKLPKLNGLGGGVPKQQELLDKALESVKQIRHYQRIDFERVIQWAVNEHCLETVPKFLVDAEKKKINKESSTDFAAKENAVRFLLEGIGAAARGKTDSVSKAAYNWFVVNNFLAKKDLNRYFINCQGCIYKPPYSKRRSLAFALRSDNKDTIEVVWEKFETFYKEISKEIEKFNIFSQEFQTFLHLENLRMKLLLRRIQKPIPAEIAFFSLPQEYYDSLPPNVAFLALNQEITPSEYITQFNLYSSFLNGNLILLRRSRSYLRAKFSWVGNSKLIYAAKEARLWKIPNAYWKSDEWKMILDSNVLVFDKAGNVLPAPTLKKVCEREGDLRLFYPLLRQLPHDWCYRNPFVKSVGREKNVIEVNKEGEPKVASALPGSLFRLIGPAPFKSLLDDCFFNPLDKDLRECMLIVDQEISQKVEAQKVEASLESCTYSIAVPIRYHLEEPKVSNQFENVLAIDQGEAGLAYAVFSLKSIGEAETKPIAVGTIRIPSIRRLIHSVSTYRKKKQRLQNFKQNYDSTAFIMRENVTGDVCAKIVGLMKEFNAFPVLEYDVKNLESGSRQLSAVYKAVNSHFLYFKEPGRDALRKQLWYGGDSWTIDGIEIVTRERKEDGKEGVEKIVPLKVFPGRSVSARFTSKTCSCCGRNVFDWLFTEKKAKTNKKFNVNSKGELTTADGVIQLFEADRSKGPKFYARRKERTPLTKPIAKGSYSLEEIERRVRTNLRRAPKSKQSRDTSQSQYFCVYKDCALHFSGMQADENAAINIGRRFLTALRKNRRSDFPSNVKISDRLLDN
Cas12c2
MTKHSIPLHAFRNSGADARKWKGRIALLAKRGKETMRTLQFPLEMSEPEAAAINTTPFAVAYNAIEGTGKGTLFDYWAKLHLAGFRFFPSGGAATIFRQQAVFEDASWNAAFCQQSGKDWPWLVPSKLYERFTKAPREVAKKDGSKKSIEFTQENVANESHVSLVGASITDKTPEDQKEFFLKMAGALAEKFDSWKSANEDRIVAMKVIDEFLKSEGLHLPSLENIAVKCSVETKPDNATVAWHDAPMSGVQNLAIGVFATCASRIDNIYDLNGGKLSKLIQESATTPNVTALSWLFGKGLEYFRTTDIDTIMQDFNIPASAKESIKPLVESAQAIPTMTVLGKKNYAPFRPNFGGKIDSWIANYASRLMLLNDILEQIEPGFELPQALLDNETLMSGIDMTGDELKELIEAVYAWVDAAKQGLATLLGRGGNVDDAVQTFEQFSAMMDTLNGTLNTISARYVRAVEMAGKDEARLEKLIECKFDIPKWCKSVPKLVGISGGLPKVEEEIKVMNAAFKDVRARMFVRFEEIAAYVASKGAGMDVYDALEKRELEQIKKLKSAVPERAHIQAYRAVLHRIGRAVQNCSEKTKQLFSSKVIEMGVFKNPSHLNNFIFNQKGAIYRSPFDRSRHAPYQLHADKLLKNDWLELLAEISATLMASESTEQMEDALRLERTRLQLQLSGLPDWEYPASLAKPDIEVEIQTALKMQLAKDTVTSDVLQRAFNLYSSVLSGLTFKLLRRSFSLKMRFSVADTTQLIYVPKVCDWAIPKQYLQAEGEIGIAARVVTESSPAKMVTEVEMKEPKALGHFMQQAPHDWYFDASLGGTQVAGRIVEKGKEVGKERKLVGYRMRGNSAYKTVLDKSLVGNTELSQCSMIIEIPYTQTVDADFRAQVQAGLPKVSINLPVKETITASNKDEQMLFDRFVAIDLGERGLGYAVFDAKTLELQESGHRPIKAITNLLNRTHHYEQRPNQRQKFQAKFNVNLSELRENTVGDVCHQINRICAYYNAFPVLEYMVPDRLDKQLKSVYESVTNRYIWSSTDAHKSARVQFWLGGETWEHPYLKSAKDKKPLVLSPGRGASGKGTSQTCSCCGRNPFDLIKDMKPRAKIAVVDGKAKLENSELKLFERNLESKDDMLARRHRNERAGMEQPLTPGNYTVDEIKALLRANLRRAPKNRRTKDTTVSEYHCVFSDCGKTMHADENAAVNIGGKFIADIEK
OspCas12c
MTKLRHRQKKLTHDWAGSKKREVLGSNGKLQNPLLMPVKKGQVTEFRKAFSAYARATKGEMTDGRKNMFTHSFEPFKTKPSLHQCELADKAYQSLHSYLPGSLAHFLLSAHALGFRIFSKSGEATAFQASSKIEAYESKLASELACVDLSIQNLTISTLFNALTTSVRGKGEETSADPLIARFYTLLTGKPLSRDTQGPERDLAEVISRKIASSFGTWKEMTANPLQSLQFFEEELHALDANVSLSPAFDVLIKMNDLQGDLKNRTIVFDPDAPVFEYNAEDPADIIIKLTARYAKEAVIKNQNVGNYVKNAITTTNANGLGWLLNKGLSLLPVSTDDELLEFIGVERSHPSCHALIELIAQLEAPELFEKNVFSDTRSEVQGMIDSAVSNHIARLSSSRNSLSMDSEELERLIKSFQIHTPHCSLFIGAQSLSQQLESLPEALQSGVNSADILLGSTQYMLTNSLVEESIATYQRTLNRINYLSGVAGQINGAIKRKAIDGEKIHLPAAWSELISLPFIGQPVIDVESDLAHLKNQYQTLSNEFDTLISALQKNFDLNFNKALLNRTQHFEAMCRSTKKNALSKPEIVSYRDLLARLTSCLYRGSLVLRRAGIEVLKKHKIFESNSELREHVHERKHFVFVSPLDRKAKKLLRLTDSRPDLLHVIDEILQHDNLENKDRESLWLVRSGYLLAGLPDQLSSSFINLPIITQKGDRRLIDLIQYDQINRDAFVMLVTSAFKSNLSGLQYRANKQSFVVTRTLSPYLGSKLVYVPKDKDWLVPSQMFEGRFADILQSDYMVWKDAGRLCVIDTAKHLSNIKKSVFSSEEVLAFLRELPHRTFIQTEVRGLGVNVDGIAFNNGDIPSLKTFSNCVQVKVSRTNTSLVQTLNRWFEGGKVSPPSIQFERAYYKKDDQIHEDAAKRKIRFQMPATELVHASDDAGWTPSYLLGIDPGEYGMGLSLVSINNGEVLDSGFIHINSLINFASKKSNHQTKVVPRQQYKSPYANYLEQSKDSAAGDIAHILDRLIYKLNALPVFEALSGNSQSAADQVWTKVLSFYTWGDNDAQNSIRKQHWFGASHWDIKGMLRQPPTEKKPKPYIAFPGSQVSSYGNSQRCSCCGRNPIEQLREMAKDTSIKELKIRNSEIQLFDGTIKLFNPDPSTVIERRRHNLGPSRIPVADRTFKNISPSSLEFKELITIVSRSIRHSPEFIAKKRGIGSEYFCAYSDCNSSLNSEANAAANVAQKFQKQLFFEL
在一些实施例中,napDNAbp是指Cas12g、Cas12h或Cas12i,其已在例如,Yan等人,“Functionally Diverse Type V CRISPR-Cas Systems,”Science,2019Jan.4;363:88-91中描述;其全部内容以引用方式并入本文。通过聚合超过10TB的序列数据,确定了V型Cas蛋白的新分类,这些分类与先前表征的V类蛋白(包括Cas12g、Cas12h和Cas12i)表现出弱相似性。在一些实施方案中,所述Cas12是Cas12g或Cas12g的变体。在一些实施方案中,所述Cas12是Cas12h或Cas12h的变体。在一些实施方案中,所述Cas12是Cas12i或Cas12i的变体。应当理解,其他RNA引导的DNA结合蛋白可以用作napDNAbp,并且在本公开的范围内。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与天然存在的Cas12g、Cas12h或Cas12i蛋白相同。在一些实施方案中,napDNAbp是天然存在的Cas12g、Cas12h或Cas12i蛋白。在一些实施方案中,napDNAbp包含的氨基酸序列为至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的任何Cas12g、Cas12h或Cas12i蛋白相同。应当理解,根据本公开也可以使用来自其他细菌物种的Cas12g、Cas12h或Cas12i。在一些实施方案中,所述Cas12i是Cas12i1或Cas12i2。
Cas12g1
MAQASSTPAVSPRPRPRYREERTLVRKLLPRPGQSKQEFRENVKKLRKAFLQFNADVSGVCQWAIQFRPRYGKPAEPTETFWKFFLEPETSLPPNDSRSPEFRRLQAFEAAAGINGAAALDDPAFTNELRDSILAVASRPKTKEAQRLFSRLKDYQPAHRMILAKVAAEWIESRYRRAHQNWERNYEEWKKEKQEWEQNHPELTPEIREAFNQIFQQLEVKEKRVRICPAARLLQNKDNCQYAGKNKHSVLCNQFNEFKKNHLQGKAIKFFYKDAEKYLRCGLQSLKPNVQGPFREDWNKYLRYMNLKEETLRGKNGGRLPHCKNLGQECEFNPHTALCKQYQQQLSSRPDLVQHDELYRKWRREYWREPRKPVFRYPSVKRHSIAKIFGENYFQADFKNSVVGLRLDSMPAGQYLEFAFAPWPRNYRPQPGETEISSVHLHFVGTRPRIGFRFRVPHKRSRFDCTQEELDELRSRTFPRKAQDQKFLEAARKRLLETFPGNAEQELRLLAVDLGTDSARAAFFIGKTFQQAFPLKIVKIEKLYEQWPNQKQAGDRRDASSKQPRPGLSRDHVGRHLQKMRAQASEIAQKRQELTGTPAPETTTDQAAKKATLQPFDLRGLTVHTARMIRDWARLNARQIIQLAEENQVDLIVLESLRGFRPPGYENLDQEKKRRVAFFAHGRIRRKVTEKAVERGMRVVTVPYLASSKVCAECRKKQKDNKQWEKNKKRGLFKCEGCGSQAQVDENAARVLGRVFWGEIELPTAIP
Cas12h1
MKVHEIPRSQLLKIKQYEGSFVEWYRDLQEDRKKFASLLFRWAAFGYAAREDDGATYISPSQALLERRLLLGDAEDVAIKFLDVLFKGGAPSSSCYSLFYEDFALRDKAKYSGAKREFIEGLATMPLDKIIERIRQDEQLSKIPAEEWLILGAEYSPEEIWEQVAPRIVNVDRSLGKQLRERLGIKCRRPHDAGYCKILMEVVARQLRSHNETYHEYLNQTHEMKTKVANNLTNEFDLVCEFAEVLEEKNYGLGWYVLWQGVKQALKEQKKPTKIQIAVDQLRQPKFAGLLTAKWRALKGAYDTWKLKKRLEKRKAFPYMPNWDNDYQIPVGLTGLGVFTLEVKRTEVVVDLKEHGKLFCSHSHYFGDLTAEKHPSRYHLKFRHKLKLRKRDSRVEPTIGPWIEAALREITIQKKPNGVFYLGLPYALSHGIDNFQIAKRFFSAAKPDKEVINGLPSEMVVGAADLNLSNIVAPVKARIGKGLEGPLHALDYGYGELIDGPKILTPDGPRCGELISLKRDIVEIKSAIKEFKACQREGLTMSEETTTWLSEVESPSDSPRCMIQSRIADTSRRLNSFKYQMNKEGYQDLAEALRLLDAMDSYNSLLESYQRMHLSPGEQSPKEAKFDTKRASFRDLLRRRVAHTIVEYFDDCDIVFFEDLDGPSDSDSRNNALVKLLSPRTLLLYIRQALEKRGIGMVEVAKDGTSQNNPISGHVGWRNKQNKSEIYFYEDKELLVMDADEVGAMNILCRGLNHSVCPYSFVTKAPEKKNDEKKEGDYGKRVKRFLKDRYGSSNVRFLVASMGFVTVTTKRPKDALVGKRLYYHGGELVTHDLHNRMKDEIKYLVEKEVLARRVSLSDSTIKSYKSFAHV
Cas12i1
MSNKEKNASETRKAYTTKMIPRSHDRMKLLGNFMDYLMDGTPIFFELWNQFGGGIDRDIISGTANKDKISDDLLLAVNWFKVMPINSKPQGVSPSNLANLFQQYSGSEPDIQAQEYFASNFDTEKHQWKDMRVEYERLLAELQLSRSDMHHDLKLMYKEKCIGLSLSTAHYITSVMFGTGAKNNRQTKHQFYSKVIQLLEESTQINSVEQLASIILKAGDCDSYRKLRIRCSRKGATPSILKIVQDYELGTNHDDEVNVPSLIANLKEKLGRFEYECEWKCMEKIKAFLASKVGPYYLGSYSAMLENALSPIKGMTTKNCKFVLKQIDAKNDIKYENEPFGKIVEGFFDSPYFESDTNVKWVLHPHHIGESNIKTLWEDLNAIHSKYEEDIASLSEDKKEKRIKVYQGDVCQTINTYCEEVGKEAKTPLVQLLRYLYSRKDDIAVDKIIDGITFLSKKHKVEKQKINPVIQKYPSFNFGNNSKLLGKIISPKDKLKHNLKCNRNQVDNYIWIEIKVLNTKTMRWEKHHYALSSTRFLEEVYYPATSENPPDALAARFRTKTNGYEGKPALSAEQIEQIRSAPVGLRKVKKRQMRLEAARQQNLLPRYTWGKDFNINICKRGNNFEVTLATKVKKKKEKNYKVVLGYDANIVRKNTYAAIEAHANGDGVIDYNDLPVKPIESGFVTVESQVRDKSYDQLSYNGVKLLYCKPHVESRRSFLEKYRNGTMKDNRGNNIQIDFMKDFEAIADDETSLYYFNMKYCKLLQSSIRNHSSQAKEYREEIFELLRDGKLSVLKLSSLSNLSFVMFKVAKSLIGTYFGHLLKKPKNSKSDVKAPPITDEDKQKADPEMFALRLALEEKRLNKVKSKKEVIANKIVAKALELRDKYGPVLIKGENISDTTKKGKKSSTNSFLMDWLARGVANKVKEMVMMHQGLEFVEVNPNFTSHQDPFVHKNPENTFRARYSRCTPSELTEKNRKEILSFLSDKPSKRPTNAYYNEGAMAFLATYGLKKNDVLGVSLEKFKQIMANILHQRSEDQLLFPSRGGMFYLATYKLDADATSVNWNGKQFWVCNADLVAAYNVGLVDIQKDFKKK
Cas12i2
MSSAIKSYKSVLRPNERKNQLLKSTIQCLEDGSAFFFKMLQGLFGGITPEIVRFSTEQEKQQQDIALWCAVNWFRPVSQDSLTHTIASDNLVEKFEEYYGGTASDAIKQYFSASIGESYYWNDCRQQYYDLCRELGVEVSDLTHDLEILCREKCLAVATESNQNNSIISVLFGTGEKEDRSVKLRITKKILEAISNLKEIPKNVAPIQEIILNVAKATKETFRQVYAGNLGAPSTLEKFIAKDGQKEFDLKKLQTDLKKVIRGKSKERDWCCQEELRSYVEQNTIQYDLWAWGEMFNKAHTALKIKSTRNYNFAKQRLEQFKEIQSLNNLLVVKKLNDFFDSEFFSGEETYTICVHHLGGKDLSKLYKAWEDDPADPENAIVVLCDDLKNNFKKEPIRNILRYIFTIRQECSAQDILAAAKYNQQLDRYKSQKANPSVLGNQGFTWTNAVILPEKAQRNDRPNSLDLRIWLYLKLRHPDGRWKKHHIPFYDTRFFQEIYAAGNSPVDTCQFRTPRFGYHLPKLTDQTAIRVNKKHVKAAKTEARIRLAIQQGTLPVSNLKITEISATINSKGQVRIPVKFDVGRQKGTLQIGDRFCGYDQNQTASHAYSLWEVVKEGQYHKELGCFVRFISSGDIVSITENRGNQFDQLSYEGLAYPQYADWRKKASKFVSLWQITKKNKKKEIVTVEAKEKFDAICKYQPRLYKFNKEYAYLLRDIVRGKSLVELQQIRQEIFRFIEQDCGVTRLGSLSLSTLETVKAVKGIIYSYFSTALNASKNNPISDEQRKEFDPELFALLEKLELIRTRKKKQKVERIANSLIQTCLENNIKFIRGEGDLSTTNNATKKKANSRSMDWLARGVFNKIRQLAPMHNITLFGCGSLYTSHQDPLVHRNPDKAMKCRWAAIPVKDIGDWVLRKLSQNLRAKNIGTGEYYHQGVKEFLSHYELQDLEEELLKWRSDRKSNIPCWVLQNRLAEKLGNKEAVVYIPVRGGRIYFATHKVATGAVSIVFDQKQVWVCNADHVAAANIALTVKGIGEQSSDEENPDGSRIKLQLTS
碱基编辑器的代表性核酸和蛋白质序列如下:
BhCas12b GGSGGS-ABE8-Xten20 at P153
Figure BDA0003298963610002111
Figure BDA0003298963610002121
Figure BDA0003298963610002131
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas 12b GGSGGS-ABE8-Xten20 at K255
Figure BDA0003298963610002141
Figure BDA0003298963610002151
Figure BDA0003298963610002161
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-Xten20 at D306
Figure BDA0003298963610002171
Figure BDA0003298963610002181
Figure BDA0003298963610002191
Figure BDA0003298963610002201
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-Xten20 at D980
Figure BDA0003298963610002211
Figure BDA0003298963610002221
Figure BDA0003298963610002231
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
BhCas12b GGSGGS-ABE8-Xten20 at K1019
Figure BDA0003298963610002241
Figure BDA0003298963610002251
Figure BDA0003298963610002261
MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKGGSGGSSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDGSSGSETPGTSESATPESSGLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKKGSYPYDVPDYAYPYDVPDYAYPYDVPDYA
对于上面的序列,Kozak序列用粗体和下划线表示;标记N端核定位信号(NLS);小写字符表示GGGSGGS链接器;标记编码ABE8的序列,未修改的序列编码BhCas12b;双下划线表示Xten20链接器;单下划线表示C端NLS;GGATCC表示GS连接子;斜体字符代表3x血凝素(HA)标签的编码序列。
引导多核苷酸
在一个实施方案中,引导多核苷酸是引导RNA。RNA/Cas复合物可以帮助将Cas蛋白“引导”到靶标DNA。Cas9/crRNA/tracrRNA核酸内切切割与间隔序列互补的线性或环状dsDNA靶标。与crRNA不互补的靶标链首先通过核酸内切方式切割,然后通过核酸外切方式修剪3’-5'。在自然界中,DNA结合和切割通常需要蛋白质和两种RNA。然而,可以对单引导RNA(“sgRNA,”或简称为“gRNA”)进行工程改造,以便将crRNA和tracrRNA的各个方面整合到单个RNA种类中。参见,如Jinek M.等人,Science 337:816-821(2012),其全部内容在此引入作为参考。Cas9识别CRISPR重复序列(PAM或原间隔序列临近基序)中的一个短基序,以帮助区分自我与非自我。Cas9核酸酶序列和结构是本领域技术人员众所周知的(参见,如“Complete genome sequence of an M1 strain of Streptococcus pyogenes.”Ferretti,J.J.et al.,Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNAmaturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等人,Nature 471:602-607(2011);and“Programmable dual-RNA-guided DNAendonuclease in adaptive bacterial immunity.”Jinek M.等人,Science 337:816-821(2012),全部内容以引用方式并入本文)。Cas9直向同源物已在各种物种中得到描述,包括但不限于化脓链球菌和嗜热链球菌。基于本公开内容,其他合适的Cas9核酸酶和序列对本领域技术人员来说是显而易见的,并且此类Cas9核酸酶和序列包括来自Chylinski,Rhun,和Charpentier,“The tracrRNA and Cas9 families of type II CRISPR-Cas immunitysystems”(2013)RNA Biology 10:5,726-737中公开的生物体和基因座的Cas9序列;其全部内容在此引入作为参考。在一些实施方案中,Cas9核酸酶具有无活性(例如,灭活)DNA切割结构域,即Cas9是切口酶。
在一些实施方案中,所述引导多核苷酸是至少一种单一引导RNA(“sgRNA”或“gRNA”)。在一些实施方案中,所述引导多核苷酸是至少一种tracrRNA。在一些实施方案中,引导多核苷酸不需要PAM序列来将多核苷酸可编程的DNA结合结构域(例如,Cas9或Cpf1)引导至靶标核苷酸序列。
本文公开的碱基编辑器的多核苷酸可编程核苷酸结合结构域(例如,CRISPR衍生结构域)可以通过与引导多核苷酸关联来识别靶标多核苷酸序列。引导多核苷酸(例如,gRNA)通常是单链的并且可以被编程为位点特异性地结合(即,通过互补碱基配对)多核苷酸的靶标序列,从而将与引导核酸结合的碱基编辑器导向靶标序列。引导多核苷酸可以是DNA。引导多核苷酸可以是RNA。在一些实施方案中,所述引导多核苷酸包含天然核苷酸(例如,腺苷)。在一些实施方案中,所述引导多核苷酸包含非天然(或非天然)核苷酸(例如,肽核酸或核苷酸类似物)。在一些实施方案中,所述引导核酸序列的靶向区域的长度可以是至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个氨基酸。引导核酸的靶向区域的长度可以在10-30个核苷酸之间,或长度在15-25个核苷酸之间,或长度在15-20个核苷酸之间。
在一些实施方案中,引导多核苷酸包含两个或更多个单独的多核苷酸,它们可以通过例如互补碱基配对(例如,双引导多核苷酸)彼此相互作用。例如,引导多核苷酸可包含CRISPR RNA(crRNA)和反式激活CRISPR RNA(tracrRNA)。例如,引导多核苷酸可包含一种或多种反式激活CRISPR RNA(tracrRNA)。
在II型CRISPR系统中,CRISPR蛋白(例如,Cas9)靶向核酸通常需要包含识别靶标序列的序列的第一个RNA分子(crRNA)和包含识别靶标序列的第二个RNA分子(trRNA)之间的互补碱基配对重复序列形成支架区域,稳定引导RNA-CRISPR蛋白复合物。此类双引导RNA系统可用作引导多核苷酸以将本文公开的碱基编辑器引导至靶标多核苷酸序列。
在一些实施方案中,本文提供的碱基编辑器利用单个引导多核苷酸(例如,gRNA)。在一些实施方案中,本文提供的碱基编辑器利用双引导多核苷酸(例如,双gRNA)。在一些实施方案中,本文提供的碱基编辑器利用一个或多个引导多核苷酸(例如,多重gRNA)。在一些实施方案中,单个引导多核苷酸用于本文所述的不同碱基编辑器。例如,单个引导多核苷酸可用于胞苷碱基编辑器和腺苷碱基编辑器。
在其他实施方案中,引导多核苷酸可在单个分子(即,单分子引导核酸)中包含核酸的多核苷酸靶向部分和核酸的支架部分。例如,单分子引导多核苷酸可以是单引导RNA(sgRNA或gRNA)。在本文中,术语引导多核苷酸序列涵盖能够与碱基编辑器相互作用并将碱基编辑器引导至靶标多核苷酸序列的任何单、双或多分子核酸。
通常,引导多核苷酸(例如,crRNA/trRNA复合物或gRNA)包含“多核苷酸靶向片段”,该片段包括能够识别和结合靶标多核苷酸序列的序列,以及“蛋白质结合片段”,其稳定在碱基编辑器的多核苷酸可编程核苷酸结合结构域组件内引导多核苷酸。在一些实施方案中,引导多核苷酸的多核苷酸靶向区段识别并结合DNA多核苷酸,从而促进DNA中碱基的编辑。在其他实施方案中,引导多核苷酸的多核苷酸靶向区段识别并结合RNA多核苷酸,从而促进RNA中碱基的编辑。在本文中,“片段”是指分子的一部分或区域,例如,引导多核苷酸中的一段连续核苷酸。片段也可指复合物的区域/区段,使得区段可包含多于一种分子的区域。例如,当引导多核苷酸包含多个核酸分子时,蛋白质结合区段可包括例如沿着互补区域杂交的多个单独分子的全部或一部分。在一些实施方案中,包含两个单独分子的靶向DNA的RNA的蛋白质结合区段可包含(i)长度为100个碱基对的第一RNA分子的40-75个碱基对;(ii)长度为50个碱基对的第二个RNA分子的10-25个碱基对。除非在特定上下文中另有明确定义,否则“片段”的定义不限于特定总碱基对数,不限于来自给定RNA分子的任何特定碱基对数,不限于特定复合物中分离分子的数量,并且可以包括具有任意总长度的RNA分子区域,并且可以包括与其他分子互补的区域。
引导RNA或引导多核苷酸可包含两种或更多种RNA,例如CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)。引导RNA或引导多核苷酸有时可包含单链RNA或通过crRNA和tracrRNA的一部分(例如,功能部分)融合形成的单引导RNA(sgRNA)。引导RNA或引导多核苷酸也可以是包含crRNA和tracrRNA的双重RNA。此外,crRNA可以与靶标DNA杂交。
如上所述,引导RNA或引导多核苷酸可以是表达产物。例如,编码引导RNA的DNA可以是包含编码引导RNA的序列的载体。通过用包含编码引导RNA和启动子的序列的分离的引导RNA或质粒DNA转染细胞,可以将引导RNA或引导多核苷酸转移到细胞中。引导RNA或引导多核苷酸也可以以其他方式转移到细胞中,例如使用病毒介导的基因递送。
引导RNA或引导多核苷酸可以是分离的。例如,引导RNA可以以分离的RNA的形式转染到细胞或生物体中。可以使用本领域已知的任何体外转录系统通过体外转录来制备引导RNA。引导RNA可以以分离的RNA的形式而不是以包含引导RNA的编码序列的质粒的形式转移到细胞中。
引导RNA或引导多核苷酸可包含三个区域:5'端的第一区域可与染色体序列中的靶标位点互补,第二内部区域可形成茎环结构,以及第三3'可以是单链的区域。每个引导RNA的第一区域也可以不同,使得每个引导RNA将融合蛋白引导至特定靶标位点。此外,每个引导RNA的第二和第三区域在所有引导RNA中可以相同。
引导RNA或引导多核苷酸的第一区域可与染色体序列中靶标位点的序列互补,使得引导RNA的第一区域可与靶标位点碱基配对。在一些实施方案中,引导RNA的第一区域可包含或从约10个核苷酸到25个核苷酸(即,从10个核苷酸到核苷酸;或从约10个核苷酸到约25个核苷酸;或从10个核苷酸到约25个核苷酸;或从约10个核苷酸至25个核苷酸)或更多。例如,引导RNA的第一区域与染色体序列中的靶标位点之间的碱基配对区域可以是或可以是约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25或更多个核苷酸的长度。有时,引导RNA的第一区域的长度可以是或可以是约19、20或21个核苷酸。
引导RNA或引导多核苷酸还可包含形成二级结构的第二区域。例如,由引导RNA形成的二级结构可以包含茎(或发夹)和环。环和茎的长度可以变化。例如,环的长度范围可为约3至10个核苷酸,而茎的长度范围可为约6至20个碱基对。茎可包含一个或多个1至10个或约10个核苷酸的凸起。第二区域的总长度可在约16至60个核苷酸的长度范围内。例如,环的长度可以是或可以是约4个核苷酸,茎可以是或可以是约12个碱基对。
引导RNA或引导多核苷酸还可以在3'端包含基本上可以是单链的第三区域。例如,第三个区域有时与靶标细胞中的任何染色体序列不互补,有时与引导RNA的其余部分不互补。此外,第三区域的长度可以变化。第三区域的长度可以多于或多于约4个核苷酸。例如,第三区域的总长度可在约5至60个核苷酸的长度范围内。
引导RNA或引导多核苷酸可以靶向基因靶标的任何外显子或内含子。在一些实施方案中,引导可以靶向基因的外显子1或2;在其他实施方案中,引导可以靶向基因的外显子3或4。组合物可包含均靶向相同外显子的多个引导RNA,或在一些实施例中,可包含靶向不同外显子的多个引导RNA。可以靶向基因的外显子和内含子。
引导RNA或引导多核苷酸可以靶向约20个核苷酸或约20个核苷酸的核酸序列。靶标核酸可以少于或少于约20个核苷酸。靶标核酸的长度可为至少或至少约5、10、15、16、17、18、19、20、21、22、23、24、25、30或1-100个核苷酸之间的任何位置。靶标核酸的长度可为至多或至多约5,10,5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50或1-100个核苷酸之间的任何位置。靶标核酸序列可以是或可以是紧邻PAM的第一个核苷酸的5'处的约20个碱基。引导RNA可以靶向核酸序列。靶标核酸的长度可为至少或至少约1-10、1-20、1-30、1-40、1-50、1-60、1-70、1-80、1-90或1-100个核苷酸。
引导多核苷酸,例如引导RNA,可以指可以与另一种核酸杂交的核酸,例如细胞基因组中的靶标核酸或原间隔序列。引导多核苷酸可以是RNA。引导多核苷酸可以是DNA。引导多核苷酸可以被编程或设计成位点特异性地结合核酸序列。引导多核苷酸可以包含多核苷酸链并且可以称为单引导多核苷酸。引导多核苷酸可以包含两条多核苷酸链并且可以称为双引导多核苷酸。引导RNA可以作为RNA分子导入细胞或胚胎。例如,RNA分子可以在体外转录和/或可以化学合成。RNA可以从合成DNA分子转录,例如
Figure BDA0003298963610002321
基因片段。然后可以将引导RNA作为RNA分子导入细胞或胚胎中。引导RNA也可以以非RNA核酸分子例如DNA分子的形式引入细胞或胚胎中。例如,编码引导RNA的DNA可以与启动子控制序列可操作地连接,以在感兴趣的细胞或胚胎中表达引导RNA。RNA编码序列可以与被RNA聚合酶III(Pol III)识别的启动子序列可操作地连接。可用于表达引导RNA的质粒载体包括但不限于px330载体和px333载体。在一些实施方案中,质粒载体(例如,px333载体)可包含至少两个引导RNA编码的DNA序列。
用于选择、设计和验证引导多核苷酸例如引导RNA和靶向序列的方法在本文中描述并且是本领域技术人员已知的。例如,为了尽量减少核碱基编辑器系统(例如AID结构域)中脱氨酶结构域潜在底物混杂的影响,可能无意中成为脱氨目标(例如,可能存在于靶标核酸基因座内ssDNA上的脱靶C残基)的残基数量可以被最小化。此外,软件工具可用于优化对应于目标核酸序列的gRNA,例如,最大限度地减少整个基因组的总脱靶活性。例如,对于使用化脓性链球菌Cas9的每个可能的靶向结构域选择,所有脱靶序列(在选定的PAM之前,例如NAG或NGG)都可以在基因组中被识别,其中包含多达特定数量(例如,1、2、3、4、5、6、7、8、9或10)个错配的碱基对。可以识别与靶标位点互补的gRNA的第一个区域,并且可以根据其总预测的脱靶分数对所有第一个区域(例如,crRNA)进行排序;排名靠前的靶标结构域代表那些可能具有最大的目标和最少的脱靶活动的结构域。可以使用本领域已知的和/或如本文所述的方法对候选靶向gRNA进行功能评估。
作为非限制性实例,可使用DNA序列搜索算法来鉴定与Cas9一起使用的引导RNA的crRNA中的靶标DNA杂交序列。gRNA设计可以使用基于公共工具cas-offinder的定制gRNA设计软件进行,如Bae S.、Park J.和Kim J.-S.Cas-OFFinder:A fast and versatilealgorithm that searches for potential off-target sites of Cas9RNA-guidedendonucleases.Bioinformatics 30,1473-1475(2014).该软件在计算全基因组脱靶倾向后为引导评分。通常,对于长度从17到24的引导,会考虑从完美匹配到7个不匹配的匹配。一旦通过计算确定了脱靶位点,就会为每个引导计算一个总分,并使用Web界面在表格输出中汇总。除了识别与PAM序列相邻的潜在靶位点外,该软件还识别与所选靶标位点相差1、2、3或3个以上核苷酸的所有PAM相邻序列。可以获得靶标核酸序列例如靶标基因的基因组DNA序列并且可以使用公开可用的工具,例如,RepeatMasker程序筛选重复元件。RepeatMasker在输入DNA序列中搜索重复元素和低复杂性区域。输出是给定查询序列中存在的重复的详细注释。
在鉴定之后,引导RNA的第一区域,例如crRNA,可以根据它们与靶标位点的距离、它们的正交性和5'核苷酸的存在进行分级,以便与相关的PAM序列(例如,5'G基于人类基因组中包含相关PAM的密切匹配的鉴定,例如,化脓性链球菌的NGG PAM,金黄色葡萄球菌的NNGRRT或NNGRRV PAM)。如本文所用,正交性是指人类基因组中包含最少数量的与靶标序列的错配的序列的数量。例如,“高水平正交性”或“良好正交性”可以指在人类基因组中除了预期靶标之外没有相同序列的20聚体靶向域,也没有在靶标中包含一两个错配的任何序列顺序。可以选择具有良好正交性的靶向结构域以最小化脱靶DNA切割。
在一些实施方案中,报导系统可用于检测碱基编辑活性和测试候选引导多核苷酸。在一些实施方案中,报导系统可以包括基于报导基因的测定,其中碱基编辑活性导致报导基因的表达。例如,报导系统可包括包含失活起始密码子的报导基因,例如模板链上从3'-TAC-5'到3'-CAC-5'的突变。靶标C成功脱氨基后,相应的mRNA将转录为5'-AUG-3'而不是5'-GUG-3',从而实现报导基因的转译。合适的报导基因对本领域技术人员来说是显而易见的。报导基因的非限制性实例包括编码绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、荧光素酶、分泌性碱性磷酸酶(SEAP)或其表达对本领域技术人员来说是可检测的和显而易见的任何其他基因的基因。报导系统可用于测试许多不同的gRNA,例如,以确定相应脱氨酶将针对靶标DNA序列的哪些残基。还可以测试靶向非模板链的sgRNA,以评估特定碱基编辑蛋白(例如Cas9脱氨酶融合蛋白)的脱靶效应。在一些实施方案中,此类gRNA可以被设计为使得突变的起始密码子不会与gRNA碱基配对。引导多核苷酸可包含标准核糖核苷酸、修饰的核糖核苷酸(例如假尿苷)、核糖核苷酸异构体和/或核糖核苷酸类似物。在一些实施方案中,所述引导多核苷酸可包含至少一种可检测标记。可检测标记可以是荧光团(例如,FAM、TMR、Cy3、Cy5、德克萨斯红、俄勒冈绿、Alexa Fluors、Halo标签或合适的荧光染料)、检测标签(例如,生物素、地高辛等)、量子点或金粒子。
引导多核苷酸可以化学合成、酶促合成或其组合。例如,可以使用基于亚磷酰胺的标准固相合成方法合成引导RNA。或者,可以通过将编码引导RNA的DNA与被噬菌体RNA聚合酶识别的启动子控制序列可操作地连接来体外合成引导RNA。合适的噬菌体启动子序列的例子包括T7、T3、SP6启动子序列或其变体。在引导RNA包含两个单独的分子(例如,crRNA和tracrRNA)的实施方案中,crRNA可以化学合成并且tracrRNA可以酶促合成。
在一些实施方案中,碱基编辑器系统可以包含多个引导多核苷酸,例如gRNA。例如,gRNA可以靶向一个或多个靶标基因座(例如,至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个gRNA、至少50个gRNA)包含在碱基编辑器系统中。多个gRNA序列可以串联排列并且优选地由同向重复分开。
编码引导RNA或引导多核苷酸的DNA序列也可以是载体的一部分。此外,载体可以包含额外的表达控制序列(例如,增强子序列、Kozak序列、聚腺苷酸化序列、转录终止序列等)、选择标记序列(例如,GFP或抗生素抗性基因,例如嘌呤霉素)、复制起点、之类的。编码引导RNA的DNA分子也可以是线性的。编码引导RNA或引导多核苷酸的DNA分子也可以是环状的。
在一些实施例中,碱基编辑器系统的一个或多个组件可由DNA序列编码。此类DNA序列可以一起或单独引入表达系统,例如细胞。例如,可以将编码多核苷酸可编程核苷酸结合结构域和引导RNA的DNA序列引入细胞,每个DNA序列可以是单独分子的一部分(例如,一个包含多核苷酸可编程核苷酸结合结构域编码序列的载体和第二个含有引导RNA编码序列的载体)或两者可以是同一分子的一部分(例如,一种含有多核苷酸可编程核苷酸结合结构域和引导RNA的编码(和调控)序列的载体)。
引导多核苷酸可以包含一个或多个修饰以提供具有新的或增强的特征的核酸。引导多核苷酸可包含核酸亲和标签。引导多核苷酸可包括合成核苷酸、合成核苷酸类似物、核苷酸衍生物和/或修饰的核苷酸。
在一些实施例中,gRNA或引导多核苷酸可包含修饰。可以在gRNA或引导多核苷酸的任何位置进行修饰。可以对单个gRNA或引导多核苷酸进行不止一种修饰。gRNA或引导多核苷酸可以在修饰后进行质量控制。在一些实施例中,质量控制可包括PAGE、HPLC、MS或其任何组合。
gRNA或引导多核苷酸的修饰可以是取代、插入、缺失、化学修饰、物理修饰、稳定化、纯化或其任何组合。
gRNA或引导多核苷酸也可以被5'腺苷酸、5'鸟苷-三磷酸帽、5'N7-甲基鸟苷-三磷酸帽、5'三磷酸帽、3'磷酸、3'硫代磷酸、5'磷酸、5'修饰硫代磷酸酯、顺式-Syn胸苷二聚体、三聚体、C12间隔序列、C3间隔序列、C6间隔序列、dSpacer、PC间隔序列、r间隔序列、间隔序列18、间隔序列9,3'-3'修饰、5'-5'修饰、脱碱基、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇TEG、脱硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3'DABCYL、黑洞猝灭剂1、黑洞quencer 2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基连接子、巯基连接子、2'-脱氧核糖核苷类似物嘌呤、2'-脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2'-O-甲基核糖核苷类似物、糖修饰的类似物、摆动/通用碱基、荧光染料标记、2'-氟RNA、2'-O-甲基RNA、甲基膦酸酯、磷酸二酯DNA、磷磷酸二酯RNA、硫代磷酸酯DNA、硫代磷酸酯RNA、UNA、假尿苷-5'-三磷酸、5'-甲基胞苷-5'-三磷酸或其任何组合。
在一些实施例中,修饰是永久的。在一些实施例中,修饰是暂时的。在一些实施方案中,对gRNA或引导多核苷酸进行了多次修饰。gRNA或引导多核苷酸修饰可以改变核苷酸的理化特性,例如它们的构象、极性、疏水性、化学反应性、碱基配对相互作用或其任何组合。
PAM序列可以是本领域已知的任何PAM序列。合适的PAM序列包括但不限于NGG、NGA、NGC、NGN、NGT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW或NAAAAC。Y是嘧啶;N是任何核苷酸碱基;W是A或T。
修饰也可以是硫代磷酸酯替代物。在一些实施方案中,天然磷酸二酯键可易于被细胞核酸酶快速降解;使用硫代磷酸酯(PS)键替代物对核苷酸间键的修饰可以更稳定地通过细胞降解进行水解。修饰可以增加gRNA或指导多核苷酸的稳定性。修饰还可以增强生物活性。在一些实施方案中,硫代磷酸酯增强的RNA gRNA可以抑制RNase A、RNase T1、小牛血清核酸酶或其任何组合。这些特性可以使PS-RNA gRNA用于在体内或体外暴露于核酸酶的可能性很高的应用中。例如,可以在gRNA的5'-或”-末端的最后3-5个核苷酸之间引入硫代磷酸(PS)键,这可以抑制外切核酸酶降解。在一些实施方案中,可以在整个gRNA中添加硫代磷酸酯键以减少核酸内切酶的攻击。
原间隔序列临近基序
术语“原间隔序列临近基序(protospacer-adjacent motif,PAM)”或PAM样基序是指紧跟在CRISPR细菌适应性免疫系统中Cas9核酸酶靶向的DNA序列之后的2-6个碱基对DNA序列。在一些实施例中,PAM可以是5’PAM(即,位于原间隔序列5’端的上游)。在一些实施例中,PAM可以是3’PAM(即,位于原间隔序列5’端的下游)。
PAM序列对于靶标结合至关重要,但确切的序列取决于Cas蛋白的类型。
本文提供的碱基编辑器可包含CRISPR蛋白衍生结构域,该结构域能够结合包含规范或非规范原间隔序列临近基序(PAM)序列的核苷酸序列。PAM位点是靠近靶标多核苷酸序列的核苷酸序列。本公开的一些方面提供包含具有不同PAM特异性的全部或部分CRISPR蛋白的碱基编辑器。
例如,典型的Cas9蛋白,例如来自化脓性链球菌(spCas9)的Cas9,需要典型的NGGPAM序列来结合特定的核酸区域,其中“NGG”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)或胞嘧啶(C),并且G是鸟嘌呤。PAM可以是CRISPR蛋白质特异性的,并且在包含不同CRISPR蛋白质衍生结构域的不同碱基编辑器之间可以不同。PAM可以是靶标序列的5'或3'。PAM可以是靶标序列的上游或下游。PAM的长度可以是1、2、3、4、5、6、7、8、9、10个或更多个核苷酸。通常,PAM的长度在2-6个核苷酸之间。以下的表4中描述了几种PAM变体。
表4.Cas9蛋白和相应的PAM序列
Figure BDA0003298963610002371
Figure BDA0003298963610002381
在一些实施方案中,所述PAM是NGC。在一些实施方案中,所述NGC PAM被Cas9变体识别。在一些实施方案中,NGC PAM变体包括一个或多个选自D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(统称为“MQKFRAER”)的氨基酸取代。
在一些实施方案中,所述PAM是NGT。在一些实施方案中,所述NGT PAM被Cas9变体识别。在一些实施方案中,NGT PAM变体通过在一个或多个残基1335、1337、1135、1136、1218和/或1219处的靶向突变产生。在一些实施方案中,NGT PAM变体通过在一个或多个残基1219、1335、1337、1218处的靶向突变产生。在一些实施方案中,NGT PAM变体通过在一个或多个残基1135、1136、1218、1219和1335处的靶向突变产生。在一些实施方案中,NGT PAM变体选自以下表5A和5B中提供的一组靶向突变。
表5A:残基1219、1335、1337、1218处的NGT PAM变体突变
变体 E1219V R1335Q T1337 G1218
1 F V T
2 F V R
3 F V Q
4 F V L
5 F V T R
6 F V R R
7 F V Q R
8 F V L R
9 L L T
10 L L R
11 L L Q
12 L L L
13 F I T
14 F I R
15 F I Q
16 F I L
17 F G C
18 H L N
19 F G C A
20 H L N V
21 L A W
22 L A F
23 L A Y
24 I A W
25 I A F
26 I A Y
表5B:残基1135,1136、1218、1219和1335处的NGT PAM变体突变
Figure BDA0003298963610002391
Figure BDA0003298963610002401
在一些实施例中,NGT PAM变体选自表2和3中的变体5、7、28、31或36。在一些实施例中,变体具有改进的NGT PAM识别。
在一些实施方案中,NGT PAM变体在残基1219、1335、1337和/或1218处具有突变。在一些实施方案中,从以下表6中提供的变体中选择具有用于改进识别的突变的NGT PAM变体。
表6:残基1219、1335、1337和1218处的NGT PAM变体突变
变体 E1219V R1335Q T1337 G1218
1 F V T
2 F V R
3 F V Q
4 F V L
5 F V T R
6 F V R R
7 F V Q R
8 F V L R
在一些实施方案中,所述Cas9结构域是来自化脓性链球菌的Cas9结构域(SpCas9)。在一些实施方案中,SpCas9结构域是核酸酶活性的SpCas9、核酸酶灭活的SpCas9(SpCas9d)或SpCas9切口酶(SpCas9n)。在一些实施方案中,SpCas9包含D10X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是除D之外的任何氨基酸。在一些实施方案中,SpCas9包含D10A突变,或相应突变在本文提供的任何氨基酸序列中。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可结合具有非规范PAM的核酸序列。在一些实施方案中,SpCas9结构域、SpCas9d结构域或SpCas9n结构域可结合具有NGG、NGA或NGCGPAM序列的核酸序列。在一些实施方案中,SpCas9结构域包含D1135X、R1335X和T1337X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135E、R1335Q和T1337R突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SpCas9结构域包含D1135E、R1335Q和T1337R突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1135X、R1335X和T1337X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135V、R1335Q和T1337R突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SpCas9结构域包含D1135V、R1335Q和T1337R突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,SpCas9结构域包含D1135X、G1218X、R1335X和T1337X突变中的一个或多个,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变中的一个或多个,或本文提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方案中,SpCas9结构域包含D1135V、G1218R、R1335Q和T1337R突变,或本文提供的任何氨基酸序列中的相应突变。
在一些实施方案中,Cas9是对改变的PAM序列具有特异性的Cas9变体。在一些实施例中,额外的Cas9变体和PAM序列在Miller等人,Continuous evolution of SpCas9variants compatible with non-G PAMs.Nat Biotechnol(2020)中有所描述。https://doi.org/10.1038/s41587-020-0412-8,其全部内容以引用方式并入本文。在一些实施例中,Cas9变体没有特定的PAM要求。在一些实施例中,Cas9变体,例如SpCas9变体对NRNH PAM具有特异性,其中R是A或G并且H是A、C或T。在一些实施方案中,SpCas9变体对PAM序列AAA、TAA、CAA、GAA、TAT、GAT或CAC具有特异性。在一些实施方案中,SpCas9变体在编号SEQ IDNO:1的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1218、1219、1221、1249、134、137、127、137 1320、1321、1323、1332、1333、1335、1337或1339或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1135、1218、1219、1221、1249、1320、1321、1323、1332、1333、1335或1337或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1134、1135、1137、1139、1151、1180、1188、1211、1219、1221、1256、1264、1290、1318、1317、1320、1323、1333或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQ ID NO:1的位置1114、1131、1135、1150、1156、1180、1191、1218、1219、1221、1227、1249、1253、1286、1293、1320、1321、1332、1335、1339或其相应位置包含氨基酸取代。在一些实施方案中,SpCas9变体在编号SEQID NO:1的位置1114、1127、1135、1180、1207、1219、1234、1286、1301、1332、1335、1337、1338、1349或其相应位置包含氨基酸取代。
在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域包含的氨基酸序列为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%与本文所述的Cas9多肽相同。在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域包含本文描述的任何Cas9多肽的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白的Cas9结构域由本文所述的任何Cas9多肽的氨基酸序列组成。
在一些实例中,可将本文公开的碱基编辑器的CRISPR蛋白衍生结构域识别的PAM提供给与编码碱基编辑器的插入物(例如,AAV插入物)不同的寡核苷酸上的细胞。在这样的实施方案中,在单独的寡核苷酸上提供PAM可以允许切割否则将不能被切割的靶标序列,因为在与靶标序列相同的多核苷酸上不存在相邻的PAM。
在一个实施方案中,化脓性链球菌Cas9(SpCas9)可用作基因组工程的CRISPR核酸内切酶。但是,也可以使用其他的。在一些实施方案中,不同的核酸内切酶可用于靶向某些基因组靶标。在一些实施方案中,可以使用具有非NGG PAM序列的合成SpCas9衍生变体。此外,已经鉴定了来自不同物种的其他Cas9直向同源物,并且这些“非SpCas9”可以结合也可用于本公开的多种PAM序列。例如,相对较大的SpCas9(大约4kb编码序列)会导致携带SpCas9 cDNA的质粒无法在细胞中有效表达。相反,金黄色葡萄球菌Cas9(SaCas9)的编码序列比SpCas9短约1千碱基,可能使其在细胞中有效表达。与SpCas9类似,SaCas9核酸内切酶能够在体外和小鼠体内修饰哺乳动物细胞中的靶标基因。在一些实施方案中,Cas蛋白可以靶向不同的PAM序列。在一些实施方案中,靶标基因可以与例如Cas9 PAM、5’-NGG相邻。在其他实施例中,其他Cas9直向同源物可具有不同的PAM要求。例如,其他PAM,例如嗜热链球菌(CRISPR1为5'-NNAGAA,CRISPR3为5'-NGGNG)和脑膜炎双球菌(5'-NNNNGATT)的PAM也可以与靶标基因相邻。
在一些实施方案中,对于化脓性链球菌系统,靶标基因序列可以在(即,5'到)5'-NGG PAM之前,并且20-nt指导RNA序列可以与相反链碱基配对以介导与PAM相邻的Cas9裂解。在一些实施方案中,相邻切割可以是或可以是PAM上游的约3个碱基对。在一些实施方案中,相邻切割可以是或可以是PAM上游的约10个碱基对。在一些实施方案中,相邻切割可以是或可以是PAM上游的约0-20个碱基对。例如,相邻的切割可以紧挨着PAM上游的1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个碱基对。相邻的切割也可以在PAM的下游1到30个碱基对。能够结合PAM序列的示例性SpCas9蛋白的序列如下:
示例性结合PAM的SpCas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性结合PAM的SpCas9n的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性结合PAM的Cas9的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESVLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFESPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在上述序列中,残基E1134、Q1334和R1336可以从D1134、R1335和T1336突变以产生SpEQR Cas9,用下划线和粗体表示。
示例性PAM结合SpVQR Cas9的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在上述序列中,残基V1134、Q1334和R1336可以从D1134、R1335和T1336突变以产生SpVQR Cas9,用下划线和粗体表示。
示例性PAM结合SpVRER Cas9的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD.
在上述序列中,残基V1134、R1217、Q1334和R1336可以从D1134、G1217、R1335和T1336突变以产生SpVRER Cas9,用下划线和粗体表示。
在一些实施方案中,工程化的SpCas9变体能够识别侧翼为3'H(非G PAM)的原间隔序列临近基序(PAM)序列(参见表3A-3D;图10)。在一些实施方案中,SpCas9变体识别NRNHPAM(其中R是A或G并且H是A、C或T)。在一些实施例中,非G PAM是NRRH、NRTH或NRCH(参见例如,Miller,S.M.等人,Continuous evolution of SpCas9variants compatible withnon-G PAMs,Nat.Biotechnol.(2020),所述內容以引用的方式全文并入本文)。
在一些实施方案中,所述Cas9结构域是重组Cas9结构域。在一些实施方案中,所述Cas9结构域是SpyMacCas9结构域。在一些实施方案中,SpyMacCas9结构域是核酸酶活性的SpyMacCas9、核酸酶灭活的SpyMacCas9(SpyMacCas9d)或SpyMacCas9切口酶(SpyMacCas9n)。在一些实施方案中,SaCas9结构域、SaCas9d结构域或SaCas9n结构域可结合具有非规范PAM的核酸序列。在一些实施方案中,SpyMacCas9结构域、SpCas9d结构域或SpCas9n结构域可结合具有NAA PAM序列的核酸序列。
具有天然5'-NAAN-3'PAM特异性的猕猴链球菌中Spy Cas9的示例性Cas9 A同源物的序列是本领域已知的,并且例如由Jakimo等人(www.biorxiv.org/content/biorxiv/early/2018/09/27/429654.full.pdf)描述,并在下面提供。
SpyMacCas9
MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLIGALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSLHEQIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEIQTVGQNGGLFDDNPKSPLEVTPSKLVPLKKELNPKKYGGYQKPTTAYPVLLITDTKQLIPISVMNKKQFEQNPVKFLRDRGYQQVGKNDFIKLPKYTLVDIGDGIKRLWASSKEIHKGNQLVVSKKSQILLYHAHHLDSDLSNDYLQNHNQQFDVLFNEIISFSKKCKLGKEHIQKIENVYSNKKNSASIEELAESFIKLLGFTQLGATSPFNFLGVKLNQKQYKGKKDYILPCTEGTLIRQSITGLYETRVDLSKIGED.
在一些实施方案中,变体Cas9蛋白包含H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得多肽切割靶DNA或RNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。作为另一个非限制性实例,在一些实施方案中,变体Cas9蛋白含有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A和D1218A突变,使得多肽切割靶标DNA的能力降低。此类Cas9蛋白切割靶标DNA(例如,单链靶标DNA)的能力降低,但保留结合靶标DNA(例如,单链靶标DNA)的能力。在一些实施方案中,当变体Cas9蛋白包含W476A和W1126A突变或当变体Cas9蛋白包含P475A、W476A、N477A、D1125A、W1126A和D1218A突变时,变体Cas9蛋白不与PAM序列有效结合。因此,在某些这样的情况下,当此类变体Cas9蛋白用于结合方法时,该方法不需要PAM序列。换言之,在一些实施方案中,当这种变体Cas9蛋白用于结合方法中时,该方法可以包括引导RNA,但是该方法可以在不存在PAM序列的情况下进行(并且结合的特异性是因此由引导RNA的靶向片段提供)。可以突变其他残基以实现上述效果(即灭活一个或其他核酸酶部分)。作为非限制性实例,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986和/或A987可以被改变(即,被取代)。此外,丙氨酸取代以外的突变也是合适的。
在一些实施方案中,碱基编辑器的CRISPR蛋白衍生结构域可包含具有规范PAM序列(NGG)的Cas9蛋白的全部或部分。在其他实施例中,碱基编辑器的Cas9衍生结构域可采用非规范PAM序列。此类序列已在本领域中描述并且对技术人员来说是显而易见的。例如,在Kleinstiver,B.P.等人,“Engineered CRISPR-Cas9 nucleases with altered PAMspecificities”Nature 523,481-485(2015);和Kleinstiver,B.P.等人,“Broadening thetargeting range of Staphylococcus aureus CRISPR-Cas9 by modifying PAMrecognition”Nature Biotechnology 33,1293-1298(2015)中已经描述了结合非规范PAM序列的Cas9结构域,每个的全部内容在此通过引用并入。
降低PAM独占性的Cas9结构域
典型的Cas9蛋白,例如来自化脓性链球菌(spCas9)的Cas9,需要典型的NGG PAM序列来结合特定的核酸区域,其中“NGG”中的“N”是腺苷(A)、胸苷(T)或胞嘧啶(C),G是鸟苷。这可能会限制编辑基因组内所需碱基的能力。在一些实施方案中,本文提供的碱基编辑融合蛋白可能需要放置在精确位置,例如包含位于PAM上游的靶碱基的区域。参见例如,Komor,A.C.等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016),其全部内容在此引入作为参考。因此,在一些实施方案中,本文提供的任何融合蛋白可以包含能够结合不包含规范(例如,NGG)PAM序列的核苷酸序列的Cas9结构域。结合非规范PAM序列的Cas9结构域已在本领域中描述并且对技术人员来说是显而易见的。例如,在Kleinstiver,B.P.等人,“Engineered CRISPR-Cas9 nucleases with altered PAM specificities”Nature 523,481-485(2015);和Kleinstiver,B.P.等人,“Broadening the targeting range ofStaphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”NatureBiotechnology 33,1293-1298(2015)中已经描述了结合非规范PAM序列的Cas9结构域,每个的全部内容在此通过引用并入。
高保真Cas9结构域
本公开的一些方面提供高保真Cas9结构域。在一些实施方案中,高保真Cas9结构域是工程化的Cas9结构域,其包含一个或多个突变,与相应的野生型Cas9结构域相比,这些突变减少了Cas9结构域和DNA的糖-磷酸骨架之间的静电相互作用。不希望受任何特定理论的束缚,与DNA的糖-磷酸骨架的静电相互作用减少的高保真Cas9结构域可能具有较少的脱靶效应。在一些实施方案中,Cas9结构域(例如,野生型Cas9结构域)包含一种或多种降低Cas9结构域与DNA的糖-磷酸骨架之间的关联的突变。在一些实施方案中,Cas9结构域包含一种或多种突变,其将Cas9结构域与DNA的糖-磷酸骨架之间的关联降低至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%或至少70%。
在一些实施方案中,本文提供的任何Cas9融合蛋白包含一个或多个N497X、R661X、Q695X和/或Q926X突变,或本文提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方案中,本文提供的任何Cas9融合蛋白包含一个或多个N497A、R661A、Q695A和/或Q926A突变,或本文提供的任何氨基酸序列中的相应突变。在一些实施方案中,Cas9结构域包含D10A突变,或本文提供的任何氨基酸序列中的相应突变。具有高保真度的Cas9结构域是本领域已知的并且对技术人员来说是显而易见的。例如,具有高保真度的Cas9结构域已经被描述于Kleinstiver,B.P.等人,“High-fidelity CRISPR-Cas9 nucleases with nodetectable genome-wide off-target effects.”Nature 529,490-495(2016);和Slaymaker,I.M.,等人,“Rationally engineered Cas9 nucleases with improvedspecificity.”Science 351,84-88(2015);其全部内容以引用方式并入。
在一些实施方案中,所述修饰后的Cas9是一种高保真Cas9酶。在一些实施方案中,高保真Cas9酶是SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1或超准确Cas9变体(HypaCas9)。修饰后的Cas9eSpCas9(1.1)包含丙氨酸取代,削弱了HNH/RuvC凹槽与非靶标DNA链之间的相互作用,防止链分离和在脱靶位点切割。同样,SpCas9-HF1通过破坏Cas9与DNA磷酸骨架相互作用的丙氨酸取代降低脱靶编辑。HypaCas9在REC3结构域中包含突变(SpCas9 N692A/M694A/Q695A/H698A),可增加Cas9校对和目标区分。与野生型Cas9相比,所有三种高保真酶产生的脱靶编辑更少。
以下提供了示例性高保真度Cas9。相对于Cas9的高保真Cas9结构域突变以粗体和下划线显示。
Figure BDA0003298963610002521
包含Cas9结构域和胞苷脱氨酶和腺苷脱氨酶的融合蛋白
本公开的一些方面提供了包含napDNAbp(例如,Cas9结构域)和一个或多个腺苷脱氨酶结构域的融合蛋白。在一些实施方案中,所述融合蛋白包含Cas9结构域和腺苷脱氨酶结构域(例如,TadA*A)。应当理解,所述Cas9结构域可以是本文提供的任何Cas9结构域或Cas9蛋白(例如,dCas9或nCas9)。在一些实施方案中,本文提供的任何Cas9结构域或Cas9蛋白(例如,dCas9或nCas9)可以与本文提供的任何腺苷脱氨酶(例如,TadA*A)融合。例如但不限于,在一些实施方案中,融合蛋白包含以下结构:
NH2-[腺苷脱氨酶]-[Cas9结构域]-COOH;或
NH2-[Cas9结构域]-[腺苷脱氨酶]-NLS-COOH。
在一些实施方案中,包含腺苷脱氨酶和napDNAbp(例如Cas9结构域)的融合蛋白不包括连接子序列。在一些实施方案中,腺苷脱氨酶和napDNAbp之间存在一个连接子。在一些实施例中,以上通用架构中使用的“-”表示可选连接子的存在。在一些实施方案中,胞苷或腺苷脱氨酶以及napDNAbp通过本文提供的任何连接子融合。例如,在一些实施方案中,腺苷脱氨酶和napDNAbp通过本文提供的任何连接子融合。
包含核定位序列(NLS)的融合蛋白
在一些实施方案中,本文提供的融合蛋白进一步包含一个或多个(例如,2、3、4、5个)核靶向序列,例如核定位序列(NLS)。在一个实施例中,使用二分NLS。在一些实施方案中,NLS包含促进包含NLS的蛋白质输入细胞核(例如,通过核转运)的氨基酸序列。在一些实施方案中,本文提供的任何融合蛋白进一步包含核定位序列(NLS)。在一些实施方案中,NLS与融合蛋白的N末端融合。在一些实施方案中,NLS与融合蛋白的C末端融合。在一些实施方案中,NLS与Cas9结构域的N末端融合。在一些实施方案中,NLS融合到nCas9结构域或dCas9域的C端。在一些实施方案中,NLS与脱氨酶的N末端融合。在一些实施方案中,NLS与脱氨酶的C末端融合。在一些实施方案中,NLS通过一个或多个连接子与融合蛋白融合。在一些实施方案中,NLS与融合蛋白融合,无需连接子。在一些实施方案中,NLS包含本文提供或提及的任一NLS序列的氨基酸序列。额外的核定位序列是本领域已知的并且对技术人员来说是显而易见的。例如,Plank等人,PCT/EP2000/011690中描述了NLS序列,该文献的内容以引用的方式并入本文中,因为它们公开了示例性核定位序列。在一些实施例中,NLS包含氨基酸序列PKKKRKVEGADKRTADGSEFESPKKKRKV、KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRKPKKKRKV或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。
在一些实施方案中,NLS存在于连接子中或NLS的侧翼是连接子,例如本文所述的连接子。在一些实施方案中,N末端或C末端NLS是二分NLS。二分NLS包含两个基本氨基酸簇,它们由相对较短的间隔序列分隔(因此二分-2部分,而单部分NLS不是)。核质蛋白的NLS KR[PAATKKAGQA]KKKK是无处不在的二分信号的原型:两个碱性氨基酸簇,由大约10个氨基酸的间隔序列隔开。示例性二分NLS的序列如下:
PKKKRKVEGADKRTADGSEFESPKKKRKV
在一些实施方案中,包含腺苷脱氨酶、napDNAbp(例如,Cas9结构域)和NLS的融合蛋白不包含连接子序列。在一些实施方案中,存在一个或多个结构域或蛋白质(例如,腺苷脱氨酶、Cas9结构域或NLS)之间的连接子序列。在一些实施方案中,具有腺苷脱氨酶和Cas9结构域的示例性Cas9融合蛋白的一般结构包含以下结构中的任一种,其中NLS是核定位序列(例如,本文提供的任何NLS),NH2是融合蛋白的N末端,COOH是融合蛋白的C末端:
NH2-NLS-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-NLS[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-NLS-COOH;或
NH2-[Cas9结构域]-[腺苷脱氨酶]-NLS-COOH。
应当理解,本公开的融合蛋白可以包含一个或多个附加特征。例如,在一些实施方案中,融合蛋白可包含抑制剂、细胞质定位序列、输出序列,例如核输出序列或其他定位序列,以及可用于溶解、纯化或检测融合的序列标签。蛋白质。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签,也称为组氨酸标签或His-标签、麦芽糖结合蛋白(MBP)-标签、nus-标签、谷胱甘肽-S-转移酶(GST)-标签、绿色荧光蛋白(GFP)-标签、硫氧还蛋白-标签、S-标签、Softags(例如,Softag 1、Softag 3)、链标签、生物素连接酶标签、Flash标签、V5标签和SBP标签。其他合适的序列对本领域技术人员来说是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
可以使用编码包含一个或多个核定位序列(NLS)的CRISPR酶的载体。例如,可以使用或大约使用1、2、3、4、5、6、7、8、9、10个NLS。CRISPR酶可包含位于或靠近氨末端的NLS,约或多于约1、2、3、4、5、6、7、8、9、10个位于或靠近羧基端的NLS,或任何这些的组合(例如,在氨末端的一个或多个NLS和在羧基末端的一个或多个NLS)。当存在一个以上的NLS时,每个NLS可以独立于其他选择,使得单个NLS可以存在于一个以上的副本中和/或与一个或多个其他NLS存在于一个或多个副本中。
方法中使用的CRISPR酶可包含约6个NLS。当与NLS最接近的氨基酸在距N或C末端的多肽链约50个氨基酸内,例如在1、2、3、4、5、10、15、20、25、30、40或50个氨基酸。
核碱基编辑结构域
本文描述了包含融合蛋白的碱基编辑器,该融合蛋白包括多核苷酸可编程核苷酸结合结构域和核碱基编辑结构域(例如,脱氨酶结构域)。碱基编辑器可以被编程以通过与能够识别靶标序列的引导多核苷酸相互作用来编辑靶标多核苷酸序列中的一个或多个碱基。一旦识别了靶标序列,碱基编辑器就锚定在要进行编辑的多核苷酸上,然后碱基编辑器的脱氨酶结构域组件可以编辑靶标碱基。
在一些实施方案中,所述核碱基编辑结构域包括脱氨酶结构域。如本文特别描述的,脱氨酶结构域包括胞嘧啶脱氨酶或腺苷脱氨酶。在一些实施方案中,术语“胞嘧啶脱氨酶”和“胞苷脱氨酶”可以互换使用。在一些实施方案中,术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”可以互换使用。核碱基编辑蛋白的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中有所描述,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNAwithout DNA cleavage”Nature551,464-471(2017);Komor,A.C.,等人,“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
A到G编辑
在一些实施方案中,本文所述的碱基编辑器可包含脱氨酶结构域,其包括腺苷脱氨酶。碱基编辑器的这种腺苷脱氨酶结构域可以通过将A脱氨基形成肌苷(I)来促进将腺嘌呤(A)核碱基编辑为鸟嘌呤(G)核碱基,肌苷(I)具有G的碱基配对特性。腺苷脱氨酶能够脱氧核糖核酸(DNA)中脱氧腺苷残基的腺嘌呤脱氨基(即,除去胺基团)。
在一些实施方案中,本文提供的核碱基编辑器可以通过将一个或多个蛋白质结构域融合在一起来制备,从而产生融合蛋白。在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性(例如,效率、选择性和特异性)的特征。例如,本文提供的融合蛋白可包含核酸酶活性降低的Cas9结构域。在一些实施方案中,本文提供的融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。不希望受任何特定理论的束缚,催化残基(例如,H840)的存在保持了Cas9切割含有与靶向A相对的T的非编辑(例如,非脱氨基)链的活性。突变Cas9的催化残基(例如,D10到A10)的切割防止包含靶标A残基的编辑链的切割。此类Cas9变体能够基于gRNA定义的靶标序列在特定位置产生单链DNA断裂(缺口),从而修复未编辑的链,最终导致非编辑链上的T到C变化。在一些实施方案中,A-to-G碱基编辑器进一步包含肌苷碱基切除修复抑制剂,例如尿嘧啶糖基化酶抑制剂(UGI)结构域或无催化活性的肌苷特异性核酸酶。不希望受任何特定理论的束缚,UGI结构域或无催化活性的肌苷特异性核酸酶可以抑制或阻止脱氨基腺苷残基(例如肌苷)的碱基切除修复,这可以提高碱基编辑器的活性或效率。
包含腺苷脱氨酶的碱基编辑器可作用于任何多核苷酸,包括DNA、RNA和DNA-RNA杂交体。在某些实施方案中,包含腺苷脱氨酶的碱基编辑器可以使包含RNA的多核苷酸的靶标A脱氨基。例如,碱基编辑器可以包含能够使RNA多核苷酸和/或DNA-RNA杂合多核苷酸的靶A脱氨基的腺苷脱氨酶结构域。在一个实施方案中,掺入碱基编辑器的腺苷脱氨酶包含作用于RNA(ADAR,例如ADAR1或ADAR2)的全部或部分腺苷脱氨酶。在另一个实施方案中,掺入碱基编辑器的腺苷脱氨酶包含作用于tRNA(ADAT)的全部或部分腺苷脱氨酶。包含腺苷脱氨酶结构域的碱基编辑器也能够使DNA多核苷酸的A核碱基脱氨基。在一个实施方案中,碱基编辑器的腺苷脱氨酶结构域包含ADAT的全部或一部分,该ADAT包含一个或多个允许ADAT使DNA中的靶标A脱氨的突变。例如,碱基编辑器可包含来自大肠杆菌的ADAT(EcTadA)的全部或部分,其包含以下突变中的一种或多种:D108N、A106V、D147Y、E155V、L84F、H123Y、I156F或另一种腺苷脱氨酶中的相应突变。
腺苷脱氨酶可以源自任何合适的生物体(例如,大肠杆菌)。在一些实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括一个或多个对应于本文提供的任何突变(例如,ecTadA中的突变)的突变。任何同源蛋白质中的相应残基可以通过例如序列比对和同源残基的测定来鉴定。可以相应地产生对应于本文描述的任何突变(例如,在ecTadA中鉴定的任何突变)的任何天然存在的腺苷脱氨酶(例如,与ecTadA具有同源性)中的突变。
腺苷脱氨酶
在一些实施方案中,本文所述的碱基编辑器可包含脱氨酶结构域,其包括腺苷脱氨酶。碱基编辑器的这种腺苷脱氨酶结构域可以通过将A脱氨基形成肌苷(I)来促进将腺嘌呤(A)核碱基编辑为鸟嘌呤(G)核碱基,肌苷(I)具有G的碱基配对特性。腺苷脱氨酶能够脱氧核糖核酸(DNA)中脱氧腺苷残基的腺嘌呤脱氨基(即,除去胺基团)。
在一些实施方案中,本文提供的腺苷脱氨酶能够使腺嘌呤脱氨。在一些实施方案中,本文提供的腺苷脱氨酶能够使DNA的脱氧腺苷残基中的腺嘌呤脱氨。在一些实施方案中,腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括一个或多个对应于本文提供的任何突变(例如,ecTadA中的突变)的突变。本领域技术人员将能够鉴定任何同源蛋白质中的相应残基,例如通过序列比对和同源残基的确定。因此,本领域技术人员将能够在任何天然存在的腺苷脱氨酶(例如,与ecTadA具有同源性)中产生对应于本文所述的任何突变(例如,在ecTadA中鉴定的任何突变)的突变。在一些实施方案中,所述腺苷脱氨酶来自原核生物。在一些实施方案中,所述腺苷脱氨酶来自细菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌、金黄色葡萄球菌、腐败希瓦氏菌、流感嗜血杆菌、柄杆菌或枯草芽孢杆菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌。
本发明提供了具有增加的效率(>50-60%)和特异性的腺苷脱氨酶变体。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所需碱基,并且不太可能编辑不打算改变的碱基(即,“旁观者(bystander)”)。
在特定实施例中,TadA是PCT/US2017/045381(WO 2018/027078)中描述的TadA中的任一种,该专利通过引用整体并入本文。
在一些实施方案中,本发明内容的核碱基编辑器是包含以下序列改变的腺苷脱氨酶变体:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(也称为TadA*7.10)。
在特定实施方案中,融合蛋白包含单个(例如,作为单体提供)TadA*8变体。在一些实施方案中,TadA*8与Cas9切口酶连接。在一些实施方案中,本公开的融合蛋白包含与TadA*8变体连接的作为野生型TadA(TadA(wt))的异二聚体。在其他实施方案中,本发明的融合蛋白包含与TadA*8变体连接的TadA*7.10的异二聚体。在一些实施方案中,碱基编辑器是包含TadA*8变体单体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8变体和TadA(wt)的异二聚体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8变体和TadA*7.10的异二聚体的ABE8。在一些实施方案中,碱基编辑器是包含TadA*8变体的异二聚体的ABE8。在一些实施方案中,所述TadA*8变体选自表9。在一些实施方案中,所述ABE8选自表8、9、10或11。相关序列如下:
野生型TadA(TadA(wt))或“TadA参考序列”
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD(SEQ ID NO:2)
TadA*7.10:
Figure BDA0003298963610002591
在一些实施方案中,所述腺苷脱氨酶与本文提供的任何腺苷脱氨酶的任何一个氨基酸序列至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%或至少99%或99.5%相同。应当理解,本文提供的腺苷脱氨酶可以包括一个或多个突变(例如,本文提供的任何突变)。本公开提供具有一定百分比同一性的任何脱氨酶结构域加上本文所述的任何突变或其组合。在一些实施例中,与参考序列或本文提供的任何腺苷脱氨酶相比,所述腺苷脱氨酶具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多的突变。在一些实施方案中,与本领域已知或本文所述的任一氨基酸序列相比,腺苷脱氨酶包含具有至少5、至少10、至少15、至少20、至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160或至少170个相同的连续氨基酸残基。
在一些实施方案中,所述TadA脱氨酶是全长大肠杆菌TadA脱氨酶。例如,在某些实施方案中,所述腺苷脱氨酶包含氨基酸序列:
MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD.
然而,应当理解,可用于本申请的另外的腺苷脱氨酶对于技术人员是显而易见的并且在本公开的范围内。例如,腺苷脱氨酶可以是作用于tRNA的腺苷脱氨酶(ADAT)的同源物。非限制性地,示例性AD AT同源物的氨基酸序列包括以下:
金黄色葡萄球菌TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRK
KKKAARKNLSE
鼠伤寒沙门氏菌(S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌F3031(H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTΑΗAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
柄杆菌(C.crescentus)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(G.sulfurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
大肠杆菌TadA(ecTadA)的一个实施例包括以下:MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
在一些实施方案中,所述腺苷脱氨酶来自原核生物。在一些实施方案中,所述腺苷脱氨酶来自细菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌、伤寒沙门氏菌、腐败希瓦氏菌、流感嗜血杆菌、柄杆菌或枯草芽孢杆菌。在一些实施方案中,所述腺苷脱氨酶来自大肠杆菌。
在一个实施方案中,本发明的融合蛋白包含与TadA*7.10连接的野生型TadA,其与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*7.10结构域(例如,作为单体提供)。在其他实施方案中,ABE7.10编辑器包含能够形成异二聚体的TadA*7.10和TadA(wt)。
应当理解,本文提供的任何突变(例如,基于TadA参考序列)可以引入其他腺苷脱氨酶,例如大肠杆菌TadA(ecTadA)、金黄色葡萄球菌TadA(saTadA)或其他腺苷脱氨酶(例如,细菌腺苷脱氨酶)。对于技术人员显而易见的是,可以类似地比对额外的脱氨酶以鉴定可以如本文提供的突变的同源氨基酸残基。因此,可以在具有同源氨基酸残基的其他腺苷脱氨酶(例如,ecTada)中进行在TadA参考序列中鉴定的任何突变。还应当理解,本文提供的任何突变可以单独或以任何组合在TadA参考序列或另一种腺苷脱氨酶中进行。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含D108G、D108N、D108V、D108A或D108Y突变,或另一腺苷脱氨酶中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V突变,或另一种腺苷脱氨酶(例如,野生型TadA或ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E155X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E155D、E155G或E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D147X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D147Y突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106X、E155X或D147X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,所述腺苷脱氨酶变体包含E155D、E155G或E155V突变。在一些实施方案中,所述腺苷脱氨酶包含D147Y。
例如,腺苷脱氨酶可以在TadA参考序列中含有D108N、A106V、E155V和/或D147Y突变,或在另一种腺苷脱氨酶(例如,ecTadA)中含有相应的突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的以下突变组(突变组由“;”分隔),或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变:D108N和A106V;D108N和E155V;D108N和D147Y;A106V和E155V;A106V和D147Y;E155V和D147Y;D108N、A106V、和E155V;D108N、A106V、和D147Y;D108N、E155V、和D147Y;A106V、E155V、和D147Y;和D108N、A106V、E155V、和D147Y。然而,应当理解,本文提供的相应突变的任何组合可以在腺苷脱氨酶(例如,ecTadA)中进行。
在一些实施方案中,腺苷脱氨酶包含以下中的一种或多种:H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A107X、R108X、R108X、R110XTadA参考序列中的N127X、A138X、F149X、M151X、R153X、Q154X、I156X和/或K157X突变,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中除了野生型腺苷脱氨酶中的相应氨基酸,X的存在表示任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E或A56S、E59G、E85K或E85G、M94L、I95L、V102A、F104L、A106V、R107C或R107H或R107P、D108G或D108N或D108V或D108A或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D和/或K157R突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个H8X、D108X和/或N127X突变,或另一个腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示存在任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一种或多种H8Y、D108N和/或N127S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应突变。
在一些实施方案中,腺苷脱氨酶包含H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q161X、Q161X/6中的一个或多个序列,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施例中,腺苷脱氨酶包含H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155Q、或E155G、或E16 TadA参考序列中的T166P或T166P突变,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由H8X、D108X、N127X、D147X、R152X和Q154X组成的组的突变,或相应的一个或多个突变在另一种腺苷脱氨酶(例如,ecTadA)中,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个突变,其选自由TadA参考中的H8X、M61X、M70X、D108X、N127X、Q154X、E155X和Q163X组成的组序列,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变或突变,其中X表示除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸的存在。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8X、D108X、N127X、E155X和T166X组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA),其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶包含一个、两个、三个、四个、五个或六个突变,选自由H8X、A106X、D108X、另一种腺苷脱氨酶中的一个或多个突变组成的组,其中X指示任何氨基酸的存在除了野生型腺苷脱氨酶中的相应氨基酸。在一些实施方案中,腺苷脱氨酶包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8X、R26X、L68X、D108X、N127X、D147X和E155X组成的组的突变,或相应的突变或另一种腺苷脱氨酶中的突变,其中X表示存在除野生型腺苷脱氨酶中相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8X、D108X、A109X、N127X和E155X组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA),其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由H8Y、D108N、N127S、D147Y、R152C和Q154H组成的组的突变,或在另一种腺苷脱氨酶(例如,ecTadA)中相应的一个或多个突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8Y、M61I、M70V、D108N、N127S、Q154R、E155G和Q163H组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8Y、D108N、N127S、E155V和T166P组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA)。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由H8Y、A106T、D108N、N127S、E155D和K161Q组成的组的突变,或在另一种腺苷脱氨酶(例如,ecTadA)中相应的一个或多个突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个、七个或八个选自由H8Y、R26W、L68Q、D108N、N127S、D147Y和E155V组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8Y、D108N、A109T、N127S和E155G组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA)。
本文提供的任何突变和任何额外的突变(例如,基于ecTadA氨基酸序列)可以被引入到任何其他腺苷脱氨酶中。本文提供的任何突变可以单独或以任何组合在TadA参考序列或另一种腺苷脱氨酶(例如,ecTadA)中进行。
A到G核碱基编辑蛋白的详细信息在国际PCT申请号PCT/2017/045381(WO2018/027078)和Gaudelli,N.M.等人,“Programmable base editing of A·T to G·C ingenomic DNA without DNA cleavage”Nature,551,464-471(2017),其全部内容通过引用并入本文。
在一些实施方案中,腺苷脱氨酶包含另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D108G或D108V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V和D108N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107C和D108N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和Q154H突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N、N127S、D147Y和E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的D108N、D147Y和E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H8Y、D108N和N127S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A106V、D108N、D147Y和E155V突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变,或另一种腺苷脱氨酶中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S2A、H8Y、I49F、L84F、H123Y、N127S、I156F和/或K160S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应突变。
在一些实施方案中,腺苷脱氨酶包含L84X突变腺苷脱氨酶,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的L84F突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H123X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H123Y突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的I156X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的I156F突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个或七个选自由L84X,A106X、D108X、H123X、D147X、E155X和I156X组成的组的突变,或相应的一个或多个突变在另一种腺苷脱氨酶(例如,ecTadA)中,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由S2X、I49X、A106X、D108X、D147X和E155X组成的组的突变,或相应的一个或多个突变在另一种腺苷脱氨酶(例如,ecTadA)中,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8X、A106X、D108X、N127X和K160X组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA),其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个、六个或七个选自由L84F、A106V、D108N、H123Y、D147Y、E155V和I156F组成的组的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个、五个或六个选自由S2A、I49F、A106V、D108N、D147Y和E155V组成的组的突变。
在一些实施方案中,腺苷脱氨酶在TadA参考序列中包含一个、两个、三个、四个或五个选自由H8Y、A106T、D108N、N127S和K160S组成的组的突变,或另一腺苷中的一个或多个相应突变脱氨酶(例如,ecTadA)。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中一个或多个E25X、R26X、R107X、A142X和/或A143X突变,或另一种腺苷脱氨酶中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R107K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变。在一些实施方案中,腺苷脱氨酶包含一个或多个本文所述的对应于TadA参考序列的突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一种或多种相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S和E25Y突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R26X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R26G、R26N、R26Q、R26C、R26L和R26K突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R107P、R107K、R107A、R107N、R107W、R107H和R107S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N、A142D、A142G突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A143X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的一个或多个H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S146X、Q154X、K157X和/或K161X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的一个或多个相应突变,其中X表示存在除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施例中,腺苷脱氨酶包含TadA参考序列中的一个或多个H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N、和/或K161T突变,或另一种腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的H36L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的N37X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的N37T或N37S突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48T或P48L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R51X突变,或另一种腺苷脱氨酶中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R51H或R51L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S146X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的S146R或S146C突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的K157X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的K157N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的P48S、P48T或P48A突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的A142N突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的W23X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的W23R或W23L突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R152X突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变,其中X表示除野生型腺苷脱氨酶中的相应氨基酸之外的任何氨基酸。在一些实施方案中,腺苷脱氨酶包含TadA参考序列中的R152P或R52H突变,或另一种腺苷脱氨酶(例如,ecTadA)中的相应突变。
在一个实施方案中,腺苷脱氨酶可包含突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F和K157N。在一些实施方案中,腺苷脱氨酶包含以下相对于TadA参考序列的突变组合,其中组合的每个突变由“_”分隔并且每个突变组合在括号之间:
(A106V_D108N),
(R107C_D108N),
(H8Y_D108N_N127S_D147Y_Q154H),
(H8Y_D108N_N127S_D147Y_E155V),
(D108N_D147Y_E155V),
(H8Y_D108N_N127S),
(H8Y_D108N_N127S_D147Y_Q154H),
(A106V_D108N_D147Y_E155V),
(D108Q_D147Y_E155V),
(D108M_D147Y_E155V),
(D108L_D147Y_E155V),
(D108K_D147Y_E155V),
(D108I_D147Y_E155V),
(D108F_D147Y_E155V),
(A106V_D108N_D147Y),
(A106V_D108M_D147Y_E155V),
(E59A_A106V_D108N_D147Y_E155V),
(E59A cat dead_A106V_D108N_D147Y_E155V),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),(E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_I156F),
(R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F),
(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V_I156F),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(A106V_D108N_A142N_D147Y_E155V),
(R26G_A106V_D108N_A142N_D147Y_E155V),
(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V),
(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V),
(E25D_R26G_A106V_D108N_A142N_D147Y_E155V),
(A106V_R107K_D108N_A142N_D147Y_E155V),
(A106V_D108N_A142N_A143G_D147Y_E155V),
(A106V_D108N_A142N_A143L_D147Y_E155V),
(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F),
(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T),
(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F),
(N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F),
(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F),
(H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),
(H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),
(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E),
(H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I156F),
(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F),
(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F),
(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F),
(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F),
(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F),
(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(P48S_A142N),
(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N),
(P48T_I49V_A142N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152H_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155V_I156F_K157N).
在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性的特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。
在一些实施方案中,所述腺苷脱氨酶是TadA*7.10。在一些实施方案中,TadA*7.10包含至少一个改变。在特定实施方案中,TADA*7.10包含一个或多个下述改变的:Y147T、Y147R、Q154S、Y123H、V82S、T166R和Q154R。改变Y123H在本文中也称为H123H(TadA*7.10中的改变H123Y回复回Y123H(wt))。在其他实施方案中,TadA*7.10包含选自以下群组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。在其他实施方案中,腺苷脱氨酶变体包含相对于TadA*7.10、TadA参考序列,其包含从残基149、150、151、152、153、154、155、156或157开始的C末端的缺失,或另一个TadA中的相应突变。
在其他实施方案中,本发明内容的碱基编辑器是包含腺苷脱氨酶变体(例如,TadA*8)的单体,所述变体包含一个或多个以下改变:Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。在其他实施方案中,腺苷脱氨酶变体(TadA*8)是包含选自下组的改变组合的单体:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。在其他实施方案中,碱基编辑器是包含野生型腺苷脱氨酶和腺苷脱氨酶变体(例如,TadA*8)的异二聚体,其包含一个或多个以下改变Y147T、Y147R、Q154S、Y123H、V82S、T166R和/或Q154R,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在其他实施方案中,碱基编辑器是包含TadA*7.10结构域和腺苷脱氨酶变体结构域(例如TadA*8)的异源二聚体,其包含选自下组的改变的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA中的相应突变。
在一个实施方案中,所述腺苷脱氨酶是TadA*8,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD
在一些实施例中,所述TadA*8被截断。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中所述腺苷脱氨酶变体是全长TadA*8。
在一些实施方案中,所述TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23或TadA*8.24。
在一些实施方案中,可以如以下表7中提供的产生具有NGT PAM特异性的腺苷脱氨酶碱基编辑器。
表7.NGT PAM变体
Figure BDA0003298963610002761
在一些实施方案中所述NGTN变体是变体1。在一些实施方案中,所述NGTN变体是变体2。在一些实施方案中,所述NGTN变体是变体3。在一些实施方案中,所述NGTN变体是变体4。在一些实施方案中,所述NGTN变体是变体5。在一些实施方案中,所述NGTN变体是变体6。
在一个实施方案中,本发明的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如,TadA*8)连接的野生型TadA,其与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*8结构域(例如,作为单体提供)。在其他实施方案中,编辑器包含能够形成异二聚体的TadA*8和TadA(wt)。示例性序列如下:
TadA(wt):
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIG
RHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
TadA*7.10:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
TadA*8:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEI MALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
在特定实施方案中,TadA*8在以下以粗体显示的任何位置处包含一个或多个突变。在其他实施方案中,TadA*8在以下划线所示的任何位置处包含一个或多个突变:
Figure BDA0003298963610002771
例如,TadA*8包含单独或与以下Y147T、Y147R、Q154S、Y123H和/或Q154R中的任何一种或多种组合的氨基酸位置82和/或166(例如V82S、T166R)的改变,相对于TadA*7.10、TadA参考序列或另一个TadA中的相应突变。在特定实施例中,改变的组合选自以下组成的组:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R,相对到TadA*7.10、TadA参考序列或另一个TadA 7中的相应突变。
在一些实施方案中,所述腺苷脱氨酶是TadA*8,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
Figure BDA0003298963610002772
在一些实施例中,所述TadA*8被截断。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。在一些实施方案中,所述被截断的TadA*8相对于全长TadA*8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。在一些实施方案中所述腺苷脱氨酶变体是全长TadA*8。
在一个实施方案中,本发明的融合蛋白包含与本文所述的腺苷脱氨酶变体(例如,TadA*8)连接的野生型TadA,其与Cas9切口酶连接。在特定实施方案中,融合蛋白包含单个TadA*8结构域(例如,作为单体提供)。在其他实施方案中,编辑器包含能够形成异二聚体的TadA*8和TadA(wt)。
额外的結構域
本文所述的碱基编辑器可包括有助于促进多核苷酸的核碱基的核碱基编辑、修饰或改变的任何结构域。在一些实施方案中,碱基编辑器包含多核苷酸可编程核苷酸结合结构域(例如,Cas9)、核碱基编辑结构域(例如,脱氨酶结构域)和一个或多个额外的结构域。在一些实施方案中,额外的结构域可促进碱基编辑器的酶促或催化功能、碱基编辑器的结合功能,或者是可能干扰所需碱基编辑结果的细胞机制(例如酶)的抑制剂。在一些实施方案中,碱基编辑器可包含核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基化酶、乙酰化酶、乙酰转移酶、转录激活物或转录抑制结构域。
在一些实施例中,碱基编辑器可包含尿嘧啶糖基化酶抑制剂(UGI)结构域。在一些实施方案中,对U:G异源双链体DNA存在的细胞DNA修复反应可能是导致细胞核碱基编辑效率降低。在此类实施方案中,尿嘧啶DNA糖基化酶(UDG)可催化从细胞中的DNA去除U,这可启动碱基切除修复(BER),主要导致U:G对回复为C:G对。在这样的实施方案中,可以在碱基编辑器中抑制BER,所述碱基编辑器包含结合单链、阻断编辑碱基、抑制UGI、抑制BER、保护编辑碱基和/或促进非编辑链修复的一个或多个结构域。因此,本公开内容考虑包含UGI结构域的碱基编辑器融合蛋白。
在一些实施方案中,碱基编辑器包含双链断裂(DSB)结合蛋白的全部或部分作为结构域。例如,DSB结合蛋白可以包括噬菌体Mu的Gam蛋白,其可以结合DSB的末端并且可以保护它们免于降解。See Komor,A.C.等人,“Improved base excision repair inhibitionand bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances3:eaao4774(2017),其全部内容在此引入作为参考。
另外,在一些实施方案中,Gam蛋白可以融合到碱基编辑器的N末端。在一些实施方案中,Gam蛋白可以融合到碱基编辑器的C末端。噬菌体Mu的Gam蛋白可以与双链断裂(DSB)的末端结合并保护它们免于降解。在一些实施例中,使用Gam结合DSB的自由端可以减少碱基编辑过程中插入缺失的形成。在一些实施方案中,174个残基的Gam蛋白融合到碱基编辑器的N末端。参见Komor,A.C.等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在一些实施方案中,一个或多个突变可以改变碱基编辑器结构域相对于野生型结构域的长度。例如,在至少一个结构域中删除至少一个氨基酸可以减少碱基编辑器的长度。在另一种情况下,一个或多个突变不会改变结构域相对于野生型结构域的长度。例如,任何结构域中的替换都不会/不会改变碱基编辑器的长度。
在一些实施方案中,碱基编辑器可以包含核酸聚合酶(NAP)的全部或部分作为结构域。例如,碱基编辑器可以包含真核NAP的全部或一部分。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是DNA聚合酶。在一些实施方案中,整合到碱基编辑器中的NAP或其部分具有转移聚合酶活性。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是转移损伤DNA聚合酶。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是Rev7、Rev1复合物、聚合酶iota、聚合酶κ或聚合酶eta。在一些实施方案中,整合到碱基编辑器中的NAP或其部分是真核聚合酶α、β、γ、δ、ε、γ、eta、iota、κ、λ、mu或nu组分。在一些实施方案中,并入碱基编辑器中的NAP或其部分包含至少75%、80%、85%、90%、95%、96%、97%、98%、99%、或99.5%与核酸聚合酶(例如,易位DNA聚合酶)相同。
碱基编辑器系统
使用本文提供的碱基编辑器系统包括以下步骤:(a)将受试者的多核苷酸(例如,双链或单链DNA或RNA)的靶标核苷酸序列与包含核碱基编辑器(例如,腺苷碱基编辑器)和引导多核酸(例如,gRNA),其中靶标核苷酸序列包含靶标核碱基对;(b)诱导所述目标区域的链分离;(c)将目标区域的单链中的所述靶标核碱基对的第一个核碱基转化为第二个核碱基;(d)切割不超过所述目标区域的一条链,其中与第一核碱基互补的第三核碱基被与第二核碱基互补的第四核碱基替换。应当理解,在一些实施例中,省略了步骤(b)。在一些实施方案中,所述靶向核碱基对是一种或多种基因中的多个核碱基对。在一些实施方案中,本文提供的碱基编辑器系统能够多重编辑一个或多个基因中的多个核碱基对。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因中,其中至少一个基因位于不同基因座中。
在一些实施方案中,切割的单链(切口链)与引导核酸杂交。在一些实施方案中,切割的单链与包含第一核碱基的链相反。在一些实施方案中,碱基编辑器包含一个Cas9结构域。在一些实施方案中,第一个碱基是腺嘌呤,而第二个碱基不是G、C、A或T。在一些实施方案中,第二个碱基是肌苷。
本文提供的碱基编辑系统提供了一种新的基因组编辑方法,该方法使用包含催化缺陷化脓性链球菌Cas9、胞苷脱氨酶和碱基切除修复抑制剂的融合蛋白来诱导可编程的单核苷酸(C→T或A→G)改变DNA不会产生双链DNA断裂,不需要供体DNA模板,也不会引起过量的随机插入和缺失。
本文提供用于使用碱基编辑器系统编辑核碱基的系统、组合物和方法。在一些实施方案中,碱基编辑器系统包含(1)碱基编辑器(BE),其包含多核苷酸可编程核苷酸结合结构域和用于编辑核碱基的核碱基编辑结构域(例如脱氨酶域);(2)与多核苷酸可编程核苷酸结合结构域结合的引导多核苷酸(例如,引导RNA)。在一些实施方案中,所述碱基编辑器系统包含腺苷碱基编辑器(ABE)。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程DNA结合结构域。在一些实施方案中,所述多核苷酸可编程酸结合结构域是多核苷酸可编程RNA结合结构域。在一些实施方案中,所述核碱基编辑结构域是脱氨酶结构域。在一些实施方案中,脱氨酶结构域可以是腺嘌呤脱氨酶或腺苷脱氨酶。在一些实施方案中,腺苷碱基编辑器可使DNA中的腺嘌呤脱氨基。在一些实施方案中,ABE包含进化的TadA变体。
核碱基编辑蛋白的细节在国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中有所描述,它们各自通过引用整体并入本文。此外,请参阅Komor,A.C.,等人,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abaseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
在一些实施方案中,可利用单个引导多核苷酸将脱氨酶靶向靶标核酸序列。在一些实施方案中,可利用一对引导多核苷酸将不同的脱氨酶靶向靶标核酸序列。
碱基编辑器系统的核碱基成分和多核苷酸可编程核苷酸结合成分可以共价或非共价地彼此关联。例如,在一些实施方案中,所述脱氨酶结构域可以通过多核苷酸可编程核苷酸结合结构域靶向靶标核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以是与脱氨酶结构域融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与脱氨酶结构域非共价相互作用或缔合将脱氨酶结构域靶向靶核苷酸序列。例如,在一些实施方案中,核碱基编辑组件,例如脱氨酶组件,可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合的一部分的额外的异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽连接子。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸连接子。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
碱基编辑器系统可进一步包含引导多核苷酸组件。应当理解,碱基编辑器系统的组件可以通过共价键、非共价相互作用或其关联和相互作用的任何组合彼此关联。在一些实施方案中,脱氨酶结构域可以通过引导多核苷酸靶向靶标核苷酸序列。例如,在一些实施方案中,碱基编辑器系统的核碱基编辑组分,例如脱氨酶组分,可以包含额外的异源部分或结构域(例如,多核苷酸结合结构域,如RNA或DNA结合蛋白),所述异源部分或结构域能够与引导多核苷酸的部分或区段(例如,多核苷酸基序)相互作用、缔合或能够与其形成复合物。在一些实施方案中,所述额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与脱氨酶结构域融合或连接。在一些实施方案中,所述额外的异源部分可能能够与多肽结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽连接子。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸连接子。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施例中,碱基编辑器系统可进一步包含碱基切除修复(BER)组分的抑制剂。应当理解,碱基编辑器系统的组件可以通过共价键、非共价相互作用或其关联和相互作用的任何组合彼此关联。BER组分的抑制剂可以包括碱基切除修复抑制剂。在一些实施方案中,碱基切除修复抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方案中,碱基切除修复抑制剂可以是肌苷碱基切除修复抑制剂。在一些实施方案中,碱基切除修复抑制剂可以通过多核苷酸可编程核苷酸结合结构域靶向靶核苷酸序列。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与碱基切除修复抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以与脱氨酶结构域和碱基切除修复抑制剂融合或连接。在一些实施方案中,多核苷酸可编程核苷酸结合结构域可以通过与碱基切除修复抑制剂非共价相互作用或缔合将碱基切除修复抑制剂靶向靶核苷酸序列。例如,在一些实施方案中,碱基切除修复抑制剂组分可包含额外的异源部分或结构域,其能够与作为多核苷酸可编程核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、缔合或形成复合物。在一些实施方案中,碱基切除修复抑制剂可以通过引导多核苷酸靶向靶核苷酸序列。例如,在一些实施方案中,碱基切除修复抑制剂可包含额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白),其能够与引导多核苷酸的部分或区段(例如,多核苷酸基序)相互作用、缔合或能够形成复合物。在一些实施方案中,所述引导多核苷酸的额外的异源部分或结构域(例如,多核苷酸结合结构域,例如RNA或DNA结合蛋白)可以与碱基切除修复抑制剂融合或连接。在一些实施方案中,所述额外的异源部分可能能够与多核苷酸结合、相互作用、缔合或形成复合物。在一些实施方案中,所述额外的异源部分可能能够结合引导多核苷酸。在一些实施方案中,所述额外的异源部分可能能够结合多肽连接子。在一些实施方案中,所述额外的异源部分可能能够结合多核苷酸连接子。所述额外的异源部分可以是蛋白质结构域。在一些实施方案中,额外的异源部分可以是K同源(KH)结构域、MS2外壳蛋白结构域、PP7外壳蛋白结构域、SfMu Com外壳蛋白结构域、无菌α基序、端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施方案中,所述碱基编辑器抑制编辑链的碱基切除修复(BER)。在一些实施方案中,所述碱基编辑器保护或结合非编辑链。在一些实施方案中,所述碱基编辑器包含UGI活性。在一些实施方案中,碱基编辑器包含无催化活性的肌苷特异性核酸酶。在一些实施方案中,所述碱基编辑器包含切口酶活性。在一些实施方案中,碱基对的预期编辑在PAM位点的上游。在一些实施例中,所述碱基对的预期编辑是PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,所述碱基对的预期编辑在PAM位点的下游。在一些实施方案中,所述碱基对的预期编辑是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。
在一些实施例中,所述方法不需要规范的(例如,NGG)PAM站点。在一些实施方案中,所述碱基编辑器包含连接子或间隔序列。在一些实施例中,所述连接子或间隔序列的长度是1-25个氨基酸。在一些实施例中,所述连接子或间隔序列的长度是5-20个氨基酸。在一些实施例中,所述连接子或间隔序列的长度是10、11、12、13、14、15、16、17、18、19或20个氨基酸。
在一些实施方案中,本文提供的碱基编辑融合蛋白需要位于精确位置,例如,靶碱基位于限定区域(例如,“脱氨基窗口”)内的位置。在一些实施例中,靶标可以在4个碱基区域内。在一些实施方案中,这种限定的靶标区域可以是PAM上游的大约15个碱基。参见Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abaseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
在一些实施方案中,靶标区域包括靶标窗口,其中靶标窗口包含靶标核碱基对。在一些实施例中,靶标窗口包含1-10个核苷酸。在一些实施例中,靶标窗口的长度是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,碱基对的预期编辑在靶标窗口内。在一些实施例中,靶标窗口包括碱基对的预期编辑。在一些实施例中,所述方法使用本文提供的任何碱基编辑器进行。在一些实施例中,靶标窗口是脱氨基窗口。脱氨基窗口可以是碱基编辑器作用于靶标核苷酸并使其脱氨基的限定区域。在一些实施例中,脱氨基窗口在2、3、4、5、6、7、8、9或10个碱基区域内。在一些实施例中,脱氨基窗口是PAM上游的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。
本公开的碱基编辑器可以包含有助于编辑目标多核苷酸序列的任何结构域、特征或氨基酸序列。例如,在一些实施例中,碱基编辑器包含核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS位于脱氨酶结构域和多核苷酸可编程核苷酸结合结构域之间。在一些实施方案中,碱基编辑器的NLS位于多核苷酸可编程核苷酸结合结构域的C末端。
可存在于本文公开的碱基编辑器中的其他示例性特征是定位序列,例如细胞质定位序列、输出序列,例如核输出序列或其他定位序列,以及可用于增溶、纯化的序列标签,或融合蛋白的检测。本文提供的合适的蛋白质标签包括但不限于生物素羧化酶载体蛋白(BCCP)标签、myc标签、钙调蛋白标签、FLAG标签、血凝素(HA)标签、多组氨酸标签,也称为组氨酸标签或His-标签、麦芽糖结合蛋白(MBP)-标签、nus-标签、谷胱甘肽-S-转移酶(GST)-标签、绿色荧光蛋白(GFP)-标签、硫氧还蛋白-标签、S-标签、Softags(例如,Softag1、Softag 3)、链标签、生物素连接酶标签、Flash标签、V5标签和SBP标签。其他合适的序列对本领域技术人员来说是显而易见的。在一些实施方案中,融合蛋白包含一个或多个His标签。
可包含在融合蛋白中的蛋白质结构域的非限制性实例包括脱氨酶结构域(例如,胞苷脱氨酶,腺苷脱氨酶)、尿嘧啶糖基化酶抑制剂(UGI)结构域、表位标签和报导基因序列。
表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报导基因的例子包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡萄糖醛酸酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自发荧光蛋白,包括蓝色荧光蛋白(BFP)。额外的蛋白质序列可以包括结合DNA分子或结合其他细胞分子的氨基酸序列,包括但不限于麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合结构域(DBD)融合、GAL4 DNA结合结构域融合,和单纯疱疹病毒(HSV)BP16蛋白融合。
在一些实施方案中,腺苷碱基编辑器(ABE)可使DNA中的腺嘌呤脱氨基。在一些实施方案中,ABE是通过用天然或工程化的大肠杆菌TadA、人ADAR2、小鼠ADA或人ADAT2替换BE3的APOBEC1组分而产生的。在一些实施例中,ABE包含进化的TadA变体。在一些实施例中,ABE是ABE 1.2(TadA*-XTEN-nCas9-NLS)。在一些实施方案中,TadA*包含A106V和D108N突变。
在一些实施方案中,所述ABE是第二代ABE。在一些实施方案中,ABE是ABE2.1,其包含TadA*(TadA*2.1)中的额外突变D147Y和E155V。在一些实施方案中,ABE是ABE2.2,ABE2.1与催化灭活版本的人烷基腺嘌呤DNA糖基化酶(具有E125Q突变的AAG)融合。在一些实施方案中,ABE是ABE2.3,ABE2.1与催化灭活版本的大肠杆菌Endo V(用D35A突变灭活)融合。在一些实施方案中,ABE是ABE2.6,其连接子长度(32个氨基酸,(SGGS)2-XTEN-(SGGS)2)是ABE2.1中连接子的两倍。在一些实施方案中,ABE是ABE2.7,其是与另外的野生型TadA单体相连的ABE2.1。在一些实施例中,ABE是ABE2.8,其是与另外的TadA*2.1单体拴系的ABE2.1。在一些实施方案中,ABE是ABE2.9,其是进化的TadA(TadA*2.1)与ABE2.1的N-末端的直接融合。在一些实施方案中,ABE是ABE2.10,其是野生型TadA与ABE2.1的N末端的直接融合。在一些实施方案中,ABE是ABE2.11,其是在TadA*单体的N-末端具有灭活E59A突变的ABE2.9。在一些实施方案中,ABE是ABE2.12,其是ABE2.9,在内部TadA*单体中具有灭活的E59A突变。
在一些实施方案中,所述ABE是第三代ABE。在一些实施方案中,ABE是ABE3.1,即ABE2.3,带有三个额外的TadA突变(L84F、H123Y和I156F)。
在一些实施方案中,所述ABE是第四代ABE。在一些实施方案中,ABE是ABE4.3,其是带有额外TadA突变A142N(TadA*4.3)的ABE3.1。
在一些实施方案中,所述ABE是第五代ABE。在一些实施方案中,ABE是ABE5.1,其通过将来自存活克隆(H36L、R51L、S146C和K157N)的一组共有突变导入ABE3.1而产生。在一些实施方案中,ABE是ABE5.3,其具有包含融合到内部进化的TadA*的野生型大肠杆菌TadA的异二聚体构建体。在一些实施例中,ABE是ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13或ABE5.14,如下表8所示。在一些实施方案中,所述ABE是第六代ABE。在一些实施例中,ABE是ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5或ABE6.6,如下表8所示。在一些实施方案中,所述ABE是第七代ABE。在一些实施例中,ABE是ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE7.9或ABE7.10,如下表8所示。
表8.ABE的基因型
Figure BDA0003298963610002871
Figure BDA0003298963610002881
在一些实施方案中,所述碱基编辑器是是第八代ABE(ABE8)。在一些实施方案中,所述ABE8含有一个TadA*8变体。在一些实施方案中,所述ABE8具有包含TadA*8变体(“ABE8.x-m”)的单体构建体。在一些实施方案中,所述ABE8是ABE8.1-m,其具有包含TadA*7.10和Y147T突变(TadA*8.1)的单体构建体。在一些实施方案中,所述ABE8是ABE8.2-m,其具有包含TadA*7.10和Y147R突变(TadA*8.2)的单体构建体。在一些实施方案中,所述ABE8是ABE8.3-m,其具有包含TadA*7.10和Q154S突变(TadA*8.3)的单体构建体。在一些实施方案中,所述ABE8是ABE8.4-m,其具有包含TadA*7.10和Y123H突变(TadA*8.4)的单体构建体。在一些实施方案中,所述ABE8是ABE8.5-m,其具有包含TadA*7.10和V82S突变(TadA*8.5)的单体构建体。在一些实施方案中,所述ABE8是ABE8.6-m,其具有包含TadA*7.10和T166R突变(TadA*8.6)的单体构建体。在一些实施方案中,所述ABE8是ABE8.7-m,其具有包含TadA*7.10和Q154R突变(TadA*8.7)的单体构建体。在一些实施方案中,所述ABE8是ABE8.8-m,其具有包含TadA*7.10和Y147R、Q154R和Y123H突变(TadA*8.8)的单体构建体。在一些实施方案中,所述ABE8是ABE8.9-m,其具有包含TadA*7.10和Y147R、Q154R和I76Y突变(TadA*8.9)的单体构建体。在一些实施方案中,所述ABE8是ABE8.10-m,其具有包含TadA*7.10和Y147R、Q154R和T166R突变(TadA*8.10)的单体构建体。在一些实施方案中,所述ABE8是ABE8.11-m,其具有包含TadA*7.10和Y147R和Q154R突变(TadA*8.11)的单体构建体。在一些实施方案中,所述ABE8是ABE8.12-m,其具有包含TadA*7.10和Y147T和Q154S突变(TadA*8.12)的单体构建体。在一些实施方案中,所述ABE8是ABE8.13-m,其具有包含TadA*7.10和Y123H(从H123Y恢复的Y123H)、Y147R、Q154R和I76Y突变(TadA*8.13)的单体构建体。在一些实施方案中,所述ABE8是ABE8.14-m,其具有包含TadA*7.10和I76R和V82S突变(TadA*8.14)的单体构建体。在一些实施方案中,所述ABE8是ABE8.15-m,其具有包含TadA*7.10和V82S和Y147R突变(TadA*8.15)的单体构建体。在一些实施方案中,所述ABE8是ABE8.16-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)和Y147R突变(TadA*8.16)的单体构建体。在一些实施方案中,所述ABE8是ABE8.17-m,其具有包含TadA*7.10和V82S和Q154R突变(TadA*8.17)的单体构建体。在一些实施方案中,所述ABE8是ABE8.18-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)和Q154R突变(TadA*8.18)的单体构建体。在一些实施方案中,所述ABE8是ABE8.19-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)、Y147R和Q154R突变(TadA*8.19)的单体构建体。在一些实施方案中,所述ABE8是ABE8.20-m,其具有包含TadA*7.10和I76Y,V82S、Y123H(从H123Y恢复的Y123H)、Y147R和Q154R突变(TadA*8.20)的单体构建体。在一些实施方案中,所述ABE8是ABE8.21-m,其具有包含TadA*7.10和Y147R和Q154S突变(TadA*8.21)的单体构建体。在一些实施方案中,所述ABE8是ABE8.22-m,其具有包含TadA*7.10和V82S和Q154S突变(TadA*8.22)的单体构建体。在一些实施方案中,所述ABE8是ABE8.23-m,其具有包含TadA*7.10和V82S和Y123H(从H123Y恢复的Y123H)突变(TadA*8.23)的单体构建体。在一些实施方案中,所述ABE8是ABE8.24-m,其具有包含TadA*7.10和V82S、Y123H(从H123Y恢复的Y123H)和Y147T突变(TadA*8.24)的单体构建体。
在一些实施方案中,所述ABE8ABE8具有异二聚体构建体,其中包含与TadA*8变体(“ABE8.x-d”)融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.1-d,其具有异二聚体构建体,该构建体包含与具有Y147T突变(TadA*8.1)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.2-d,其具有异二聚体构建体,该构建体包含与具有Y147R突变(TadA*8.2)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.3-d,其具有异二聚体构建体,该构建体包含与具有Q154S突变(TadA*8.3)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.4-d,其具有异二聚体构建体,该构建体包含与具有Y123H突变(TadA*8.4)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.5-d,其具有异二聚体构建体,该构建体包含与具有V82S突变(TadA*8.5)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.6-d,其具有异二聚体构建体,该构建体包含与具有T166R突变(TadA*8.6)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.7-d,其具有异二聚体构建体,该构建体包含与具有Q154R突变(TadA*8.7)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.8-d,其具有异二聚体构建体,该构建体包含与具有Y147R、Q154R和Y123H突变(TadA*8.8)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.9-d,其具有异二聚体构建体,该构建体包含与具有Y147R、Q154R和I76Y突变(TadA*8.9)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.10-d,其具有异二聚体构建体,该构建体包含与具有Y147R、Q154R和T166R突变(TadA*8.10)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.11-d,其具有异二聚体构建体,该构建体包含与具有Y147T和Q154R突变(TadA*8.11)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.12-d,其具有异二聚体构建体,该构建体包含与具有Y147T和Q154S突变(TadA*8.12)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.13-d,其具有异二聚体构建体,该构建体包含与具有Y123H(从H123Y还原为Y123H)、Y147R、Q154R和I76Y突变(TadA*8.13)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.14-d,其具有异二聚体构建体,该构建体包含与具有I76Y和V82S突变(TadA*8.14)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.15-d,其具有异二聚体构建体,该构建体包含与具有V82S和Y147R突变(TadA*8.15)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.16-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)和Y147R突变(TadA*8.16)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.17-d,其具有异二聚体构建体,该构建体包含与具有V82S和Q154R突变(TadA*8.17)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.18-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)和Q154R突变(TadA*8.18)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.19-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)、Y147R和Q154R突变(TadA*8.19)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.20-d,其具有异二聚体构建体,该构建体包含与具有I76Y,V82S、Y123H(从H123Y还原为Y123H)、Y147R和Q154R突变(TadA*8.20)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.21-d,其具有异二聚体构建体,该构建体包含与具有Y147R和Q154S突变(TadA*8.21)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.22-d,其具有异二聚体构建体,该构建体包含与具有V82S和Q154S突变(TadA*8.22)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.23-d,其具有异二聚体构建体,该构建体包含与具有V82S和Y123H(从H123Y还原为Y123H)突变(TadA*8.23)的TadA*7.10融合的野生型大肠杆菌TadA。在一些实施方案中,ABE8是ABE8.24-d,其具有异二聚体构建体,该构建体包含与具有V82S、Y123H(从H123Y还原为Y123H)和Y147T突变(TadA*8.24)的TadA*7.10融合的野生型大肠杆菌TadA。
在一些实施方案中,ABE8具有包含与TadA*8变体(“ABE8.x-7”)融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.1-7,其具有包含与具有Y147T突变(TadA*8.1)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.2-7,其具有包含与具有Y147R突变(TadA*8.2)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.3-7,其具有包含与具有Q154S突变(TadA*8.3)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.4-7,其具有包含与具有Y123H突变(TadA*8.4)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.5-7,其具有包含与具有V82S突变(TadA*8.5)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.6-7,其具有包含与具有T166R突变(TadA*8.6)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.7-7,其具有包含与具有Q154R突变(TadA*8.7)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.8-7,其具有包含与具有Y147R、Q154R和Y123H突变(TadA*8.8)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.9-7,其具有包含与具有Y147R、Q154R和I76Y突变(TadA*8.9)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.10-7,其具有包含与具有Y147R、Q154R和T166R突变(TadA*8.10)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.11-7,其具有包含与具有Y147T和Q154R突变(TadA*8.11)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.12-7,其具有包含与具有Y147T和Q154S突变(TadA*8.12)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.13-7,其具有包含与具有Y123H(从H123Y回复的Y123H)、Y147R、Q154R和I76Y突变(TadA*8.13)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.14-7,其具有包含与具有I76Y和V82S突变(TadA*8.14)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.15-7,其具有包含与具有V82S和Y147R突变(TadA*8.15)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.16-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)和Y147R突变(TadA*8.16)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.17-7,其具有包含与具有V82S和Q154R突变(TadA*8.17)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.18-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)和Q154R突变(TadA*8.18)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.19-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)、Y147R和Q154R突变(TadA*8.19)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.20-7,其具有包含与具有I76Y,V82S、Y123H(从H123Y回复的Y123H)、Y147R和Q154R突变(TadA*8.20)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.21-7,其具有包含与具有Y147R和Q154S突变(TadA*8.21)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.22-7,其具有包含与具有V82S和Q154S突变(TadA*8.22)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.23-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)突变(TadA*8.23)的TadA*7.10融合的TadA*7.10的异二聚体构建体。在一些实施方案中,ABE8是ABE8.24-7,其具有包含与具有V82S、Y123H(从H123Y回复的Y123H)和Y147T突变(TadA*8.24)的TadA*7.10融合的TadA*7.10的异二聚体构建体。
在一些实施例中,ABE是ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m、ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d,如以下表9所示。
表9:腺苷脱氨酶碱基编辑器8(ABE8)变体
Figure BDA0003298963610002941
Figure BDA0003298963610002951
Figure BDA0003298963610002961
在一些实施方案中,碱基编辑器(例如,ABE8)通过将腺苷脱氨酶变体(例如,TadA*8)克隆到包括环状置换Cas9(例如,CP5或CP6)和二分核定位序列的支架中来产生。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是NGC PAM CP5变体(化脓性链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是AGA PAM CP5变体(化脓性链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是NGC PAM CP6变体(化脓性链球菌Cas9或spVRQR Cas9)。在一些实施方案中,碱基编辑器(例如,ABE7.9、ABE7.10或ABE8)是AGA PAM CP6变体(化脓性链球菌Cas9或spVRQR Cas9)。
在一些实施方案中,ABE具有如下表10所示的基因型。
表10.ABE的基因型
23 26 36 37 48 49 51 72 84 87 105 108 123 125 142 145 147 152 155 156 157 161
ABE7.9 L R L N A L N F S V N Y G N C Y P V F N K
ABE7.10 R R L N A L N F S V N Y G A C Y P V F N K
如下表11所示,描述了40个ABE8的基因型。指出了ABE进化的大肠杆菌TadA部分中的残留位置。当与ABE7.10突变不同时,显示了ABE8中的突变变化。在一些实施方案中,ABE具有如下表11所示的ABE之一的基因型。
表11.进化的TadA中的残基标识
Figure BDA0003298963610002962
Figure BDA0003298963610002971
Figure BDA0003298963610002981
在一些实施方案中,所述碱基编辑器是ABE8.1,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.1_Y147T_CP5_NGC PAM_单体
Figure BDA0003298963610002982
Figure BDA0003298963610002991
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列。
在一些实施方案中,所述碱基编辑器是ABE8.1,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
pNMG-B335 ABE8.1_Y147T_CP5_NGC PAM_单体
Figure BDA0003298963610002992
Figure BDA0003298963610003001
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列。
在一些实施方案中,所述碱基编辑器是ABE8.14,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
pNMG-357_ABE8.14 with NGC PAM CP5
Figure BDA0003298963610003002
Figure BDA0003298963610003011
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列。
在一些实施方案中,所述碱基编辑器是ABE8.8-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.8-m
Figure BDA0003298963610003012
Figure BDA0003298963610003021
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.8-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.8-d
Figure BDA0003298963610003022
Figure BDA0003298963610003031
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.13-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.13-m
Figure BDA0003298963610003032
Figure BDA0003298963610003041
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.13-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.13-d
Figure BDA0003298963610003051
Figure BDA0003298963610003061
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.17-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.17-m
Figure BDA0003298963610003062
Figure BDA0003298963610003071
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.17-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.17-d
Figure BDA0003298963610003072
Figure BDA0003298963610003081
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.20-m,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.20-m
Figure BDA0003298963610003082
Figure BDA0003298963610003091
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,所述碱基编辑器是ABE8.20-d,其包含或基本上由下列序列或其具有腺苷脱氨酶活性的片段组成:
ABE8.20-d
Figure BDA0003298963610003092
Figure BDA0003298963610003101
在上述序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示二分核定位序列,双下划线序列表示突变。
在一些实施方案中,本发明的ABE8选自以下序列:
01.monoABE8.1_bpNLS+Y147T
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
02.monoABE8.1_bpNLS+Y147R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
03.monoABE8.1_bpNLS+Q154S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
04.monoABE8.1_bpNLS+Y123H
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
05.monoABE8.1_bpNLS+V82S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
06.monoABE8.1_bpNLS+T166R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSRDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
07.monoABE8.1_bpNLS+Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
08.monoABE8.1_bpNLS+Y147R_Q154R_Y123H
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
09.monoABE8.1_bpNLS+Y147R_Q154R_I76Y
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
10.monoABE8.1_bpNLS+Y147R_Q154R_T166R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSRDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
11.monoABE8.1_bpNLS+Y147T_Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
12.monoABE8.1_bpNLS+Y147T_Q154S
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRSVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
13.monoABE8.1_bpNLS+H123Y123H_Y147R_Q154R_I76Y
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLYDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLCRFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
14.monoABE8.1_bpNLS+V82S+Q154R
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYSTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRRVFNAQKKAQSSTDSGGSSGGSSGSETPGTSESATPESSGGSSGGSDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFVSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASARELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDEGADKRTADGSEFESPKKKRKV
在一些实施方案中,碱基编辑器是包含融合至核碱基编辑域(例如,脱氨酶域的全部或部分)的多核苷酸可编程核苷酸结合结构域(例如,Cas9衍生域)的融合蛋白。在某些实施方案中,本文提供的融合蛋白包含一种或多种改善融合蛋白的碱基编辑活性的特征。例如,本文提供的任何融合蛋白可包含具有降低的核酸酶活性的Cas9结构域。在一些实施方案中,本文提供的任何融合蛋白可具有不具有核酸酶活性的Cas9结构域(dCas9),或切割双链DNA分子的一条链的Cas9结构域,称为Cas9切口酶(nCas9)。
在一些实施方案中,碱基编辑器进一步包含包含全部或部分尿嘧啶糖基化酶抑制剂(UGI)的结构域。在一些实施方案中,碱基编辑器包含包含尿嘧啶结合蛋白(UBP)例如尿嘧啶DNA糖基化酶(UDG)的全部或部分的结构域。在一些实施方案中,碱基编辑器包含包含全部或部分核酸聚合酶的结构域。在一些实施方案中,掺入碱基编辑器的核酸聚合酶或其部分是易位DNA聚合酶。
在一些实施例中,碱基编辑器的域可以包括多个结构域。例如,包含源自Cas9的多核苷酸可编程核苷酸结合结构域的碱基编辑器可以包含对应于野生型或天然Cas9的REC叶和NUC叶的REC叶和NUC叶。在另一实例中,碱基编辑器可包含RuvCI结构域、BH结构域、REC1结构域、REC2结构域、RuvCII结构域、L1结构域、HNH结构域、L2结构域、RuvCIII结构域、WED结构域、TOPO结构域或CTD结构域中的一个或多个。在一些实施方案中,碱基编辑器的一个或多个结构域包含相对于包含该结构域的多肽的野生型版本的突变(例如,取代、插入、缺失)。例如,多核苷酸可编程DNA结合结构域的HNH结构域可包含H840A取代。在另一个实例中,多核苷酸可编程DNA结合结构域的RuvCI结构域可包含D10A取代。
在使用或不使用一个或多个连接子结构域(例如,XTEN连接子结构域)的情况下,本文公开的碱基编辑器的不同结构域(例如,相邻结构域)可以彼此连接。在一些实施方案中,连接子结构域可以是键(例如共价键)、化学基团或连接两个分子或部分的分子,例如融合蛋白的两个结构域,例如第一结构域(例如、Cas9衍生结构域)和第二结构域(例如,腺苷脱氨酶结构域)。在一些实施例中,连接子是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,连接子是酰胺键的碳氮键。在某些实施方案中,连接子是环状或无环、取代或未取代、支链或未支链的脂族或杂脂族连接子。在某些实施例中,连接子是聚合的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,连接子包含氨基链烷酸的单体、二聚体或聚合物。在一些实施方案中,连接子包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在一些实施例中,连接子包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,连接子基于碳环部分(例如,环戊烷、环己烷)。在其他实施例中,连接子包含聚乙二醇部分(PEG)。在某些实施方案中,连接子包含芳基或杂芳基部分。在某些实施方案中,连接子基于苯环。连接子可以包括功能化部分以促进亲核试剂(例如,硫醇、氨基)从肽连接到连接子。任何亲电子试剂都可以用作连接子的一部分。示例性的亲电子试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰基卤和异硫氰酸酯。在一些实施方案中,连接子连接RNA可编程核酸酶的gRNA结合结构域,包括Cas9核酸酶结构域和核酸编辑蛋白的催化结构域。在一些实施方案中,连接子连接dCas9和第二个结构域(例如,UGI等)。
通常,连接子位于两个基团、分子或其他部分之间或两侧,并通过共价键与每个基团、分子或其他部分连接,从而将两者连接起来。在一些实施方案中,连接子可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,连接子是有机分子、基团、聚合物或化学部分。在一些实施例中,连接子的长度可为约2-100个氨基酸,例如2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150或150-200个氨基酸长度。在一些实施例中,所述连接子是约3至約104(例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、或100)个氨基酸长度。也可考虑更长或更短的连接子。在一些实施方案中,连接子结构域包含氨基酸序列SGSETPGTSESATPES,其也可称为XTEN连接子。可以使用任何连接融合蛋白结构域的方法(例如,从非常灵活的(SGGS)n、(GGGS)n、(GGGGS)n和(G)n形式的连接子到更刚性的连接子形式(EAAAK)n、(GGS)n、SGSETPGTSESATPES(参见,例如Guilinger JP,Thompson DB,Liu DR.Fusion ofcatalytically inactive Cas9 to FokI nuclease improves the specificity ofgenome modification.Nat.Biotechnol.2014;32(6):577-82;全部内容以引用方式并入本文)或(XP)n基序,以实现核碱基编辑器活性的最佳长度。在一些实施例中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,所述连接子包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的融合蛋白的Cas9结构域通过包含氨基酸序列SGSETPGTSESATPES的连接子融合。在一些实施方案中,连接子包含多个脯氨酸残基并且长度为5-21、5-14、5-9、5-7个氨基酸,例如,PAPAP、PAPAPA、PAPAPAP、PAPAPAPA、P(AP)4、P(AP)7、P(AP)10(参见,例如,Tan J,Zhang F,Karcher D,Bock R.Engineering of high-precision base editors for site-specific single nucleotide replacement.NatCommun.2019Jan 25;10(1):439;全部内容以引用方式并入本文)。这种富含脯氨酸的连接子也称为“刚性”连接子。
本发明的融合蛋白包含核酸编辑结构域。在一些实施方案中,所述脱氨酶是腺苷脱氨酶。在一些实施方案中,所述脱氨酶是脊椎动物脱氨酶。在一些实施方案中,所述脱氨酶是无脊椎动物脱氨酶。在一些实施方案中,所述脱氨酶是人、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠脱氨酶。在一些实施方案中,所述脱氨酶是人类脱氨酶。在一些实施方案中,所述脱氨酶是大鼠脱氨酶。
连接子
在某些实施方案中,连接子可用于连接本发明的任何肽或肽结构域。连接子可以像共价键一样简单,或者它可以是多个原子长度的聚合连接子。在某些实施方案中,所述连接子是多肽或基于氨基酸。在其他实施方案中,所述连接子不是肽样的。在某些实施方案中,所述连接子是共价键(例如,碳-碳键、二硫键、碳-杂原子键等)。在某些实施方案中,所述连接子是酰胺键的碳-氮键。在某些实施方案中,所述连接子是环状或无环、取代或未取代、支链或未支链的脂族或杂脂族连接子。在某些实施例中,所述连接子是聚合的(例如,聚乙烯、聚乙二醇、聚酰胺、聚酯等)。在某些实施方案中,所述连接子包含氨基链烷酸的单体、二聚体或聚合物。在某些实施方案中,所述连接子包含氨基链烷酸(例如,甘氨酸、乙酸、丙氨酸、β-丙氨酸、3-氨基丙酸、4-氨基丁酸、5-戊酸等)。在某些实施例中,所述连接子包含氨基己酸(Ahx)的单体、二聚体或聚合物。在某些实施方案中,所述连接子基于碳环部分(例如,环戊烷、环己烷)。在其他实施方案中,所述连接子包含聚乙二醇部分(PEG)。在其他实施方案中,所述连接子包含氨基酸。在某些实施方案中,所述连接子包含肽。在某些实施方案中,所述连接子包含芳基或杂芳基部分。在某些实施方案中,连接子基于苯环。连接子可以包括功能化部分以促进亲核试剂(例如,硫醇、氨基)从肽连接到连接子。任何亲电子试剂可以用作连接子的一部分。示例性的亲电子试剂包括但不限于活化酯、活化酰胺、迈克尔受体、卤代烷、芳基卤、酰基卤和异硫氰酸酯。
在一些实施方案中,所述连接子可以是一个氨基酸或多个氨基酸(例如,肽或蛋白质)。在一些实施方案中,所述连接子是键(例如共价键)、有机分子、基团、聚合物或化学部分。在一些实施例中,所述连接子是约3至約104(例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、或100)个氨基酸长度。
在一些实施方案中,腺苷脱氨酶和napDNAbp通过长度为4、16、32或104个氨基酸的连接子融合。在一些实施例中,连接子的长度为约3至约104个氨基酸。在一些实施方案中,本文提供的任何融合蛋白包含通过连接子彼此融合的腺苷脱氨酶和Cas9结构域。可以使用脱氨酶结构域(例如,工程化的ecTadA)和Cas9结构域之间的各种连接子长度和灵活性(例如,范围从非常灵活的(GGGS)n、(GGGGS)n和(G)n形式的连接子到(EAAAK)n、(SGGS)n、SGSETPGTSESATPES形式的更刚性连接子(参见,例如Guilinger JP,Thompson DB,LiuDR.Fusion of catalytically inactive Cas9 to FokI nuclease improves thespecificity of genome modification.Nat.Biotechnol.2014;32(6):577-82;全部内容以引用方式并入本文)和(XP)n),以实现核碱基编辑器活性的最佳长度。在一些实施例中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,所述连接子包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的任何融合蛋白的腺苷脱氨酶和Cas9结构域通过包含氨基酸序列SGSETPGTSESATPES的连接子(例如,XTEN连接子)融合。
Cas9与引导RNA的复合物
本公开的一些方面提供了包含本文提供的任何融合蛋白的复合物,以及和融合蛋白的CAS9结构域(例如,dCas9、核酸酶活性Cas9或Cas9切口酶)结合的引导RNA(例如,靶向A\突变的引导)。这些复合物也称为核糖核蛋白(RNP)。可以使用任何连接融合蛋白结构域的方法(例如,从非常灵活的(GGGS)n、(GGGGS)n和(G)n形式的连接子到更刚性的(EAAAK)n、(SGGS)n、SGSETPGTSESATPES形式的连接子(参见,例如Guilinger JP,Thompson DB,LiuDR.Fusion of catalytically inactive Cas9 to FokI nuclease improves thespecificity of genome modification.Nat.Biotechnol.2014;32(6):577-82;全部内容以引用方式并入本文)和(XP)n),以实现核碱基编辑器活性的最佳长度。在一些实施例中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14或15。在一些实施方案中,所述连接子包含(GGS)n基序,其中n是1、3或7。在一些实施方案中,本文提供的融合蛋白的Cas9结构域通过包含氨基酸序列SGSETPGTSESATPES的连接子融合。
在一些实施方案中,引导核酸(例如引导RNA)的长度为15-100个核苷酸并且包含与靶标序列互补的至少10个连续核苷酸的序列。在一些实施方案中,引导RNA是15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,引导RNA包含15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34 35、36、37、38、39或40个连续核苷酸的序列,其与靶标序列互补的。在一些实施方案中,靶标序列是DNA序列。在一些实施方案中,靶标序列是细菌、酵母、真菌、昆虫、植物或动物的基因组中的序列。在一些实施方案中,靶标序列是人类基因组中的序列。在一些实施方案中,靶标序列的3'端紧邻规范PAM序列(NGG)。在一些实施方案中,靶标序列的3'端紧邻非规范PAM序列(例如,表4或5'-NAA-3'中列出的序列)。在一些实施方案中,引导核酸(例如,引导RNA)与感兴趣的基因(例如,与疾病或病症相关的基因)中的序列互补。
本公开的一些方面提供了使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供了包括使DNA分子与本文提供的任何融合蛋白和至少一种引导RNA接触的方法,其中引导RNA长约15-100个核苷酸并且包含至少与靶标序列互补的10个连续核苷酸。在一些实施方案中,靶标序列的3'端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶标序列的3'端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5'(TTTV)序列。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身,物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和相应编码核酸中的相应残基。
对于本领域技术人员显而易见的是,为了将本文公开的任何融合蛋白靶向靶标位点,例如包含待编辑突变的位点,通常需要共表达融合蛋白蛋白质和指导RNA。如本文别处更详细解释的,引导RNA通常包含允许Cas9结合的tracrRNA框架和赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性的引导序列。或者,引导RNA和tracrRNA可以作为两个核酸分子分开提供。在一些实施方案中,引导RNA包含一种结构,其中引导序列包含与靶标序列互补的序列。引导序列的长度通常为20个核苷酸。基于本公开,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的引导RNA的序列对于本领域技术人员来说将是显而易见的。此类合适的引导RNA序列通常包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。本文提供了一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性引导RNA序列。
在一些实施方案中,引导RNA被设计成破坏剪接位点(即,剪接受体(SA)或剪接供体(SD))。在一些实施方案中,引导RNA被设计为使得碱基编辑导致过早的终止密码子(STOP)。表12A和12B提供了被设计为破坏剪接位点或导致过早终止密码子的gRNA靶标序列的非详尽列表。应当理解,gRNA靶标序列或靶向序列包括能够与gRNA序列(原间隔序列链)互补)和与原间隔序列链互补链杂交的DNA序列。在一些实施方案中,靶向序列位于互补链上。
表12A:gRNAs:剪接位点和终止密码子
Figure BDA0003298963610003301
Figure BDA0003298963610003311
Figure BDA0003298963610003321
Figure BDA0003298963610003331
Figure BDA0003298963610003341
Figure BDA0003298963610003351
Figure BDA0003298963610003361
Figure BDA0003298963610003371
Figure BDA0003298963610003381
Figure BDA0003298963610003391
Figure BDA0003298963610003401
Figure BDA0003298963610003411
Figure BDA0003298963610003421
Figure BDA0003298963610003431
表12B
Figure BDA0003298963610003432
Cas12与引导RNA的复合物
本公开的一些方面提供包含本文提供的任何融合蛋白和引导RNA(例如,靶向用于编辑的靶标多核苷酸的引导)的复合物。
在一些实施方案中,引导核酸(例如引导RNA)的长度为15-100个核苷酸并且包含与靶标序列互补的至少10个连续核苷酸的序列。在一些实施方案中,引导RNA是15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核苷酸长。在一些实施方案中,引导RNA包含15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34 35、36、37、38、39或40个连续核苷酸的序列,其与靶标序列互补的。在一些实施方案中,靶标序列是DNA序列。在一些实施方案中,靶标序列是细菌、酵母、真菌、昆虫、植物或动物的基因组中的序列。在一些实施方案中,靶标序列是人类基因组中的序列。在一些实施方案中,靶标序列的3'端紧邻规范的PAM序列。在一些实施方案中,靶标序列的3'端紧邻非规范的PAM序列。
本公开的一些方面提供了使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供了包括使DNA分子与本文提供的任何融合蛋白和至少一种引导RNA接触的方法,其中引导RNA长约15-100个核苷酸并且包含至少与靶标序列互补的10个连续核苷酸。在一些实施方案中,靶标序列的3'端紧邻例如TTN、DTTN、GTTN、ATTN、ATTC、DTTNT、WTTN、HATY、TTTN、TTTV、TTTC、TG、RTR或YTN PAM位点。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身,物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和相应编码核酸中的相应残基。
对于本领域技术人员显而易见的是,为了将本文公开的任何融合蛋白靶向靶标位点,例如包含待编辑突变的位点,通常需要共表达融合蛋白蛋白质和指导RNA。如本文别处更详细解释的,引导RNA通常包含允许Cas12结合的tracrRNA框架和赋予Cas12:核酸编辑酶/结构域融合蛋白序列特异性的引导序列。或者,引导RNA和tracrRNA可以作为两个核酸分子分开提供。在一些实施方案中,引导RNA包含一种结构,其中引导序列包含与靶标序列互补的序列。引导序列的长度通常为20个核苷酸。基于本公开,用于将Cas12:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的引导RNA的序列对于本领域技术人员来说将是显而易见的。此类合适的引导RNA序列通常包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。本文提供了一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性引导RNA序列。
本文公开的碱基编辑器的结构域可以以任何顺序排列,只要脱氨酶结构域内化在Cas12蛋白中即可。包含融合蛋白的碱基编辑器的非限制性实例,所述融合蛋白包含Cas12结构域和脱氨酶结构域可以排列如下:
NH2-[Cas12结构域]-连接子1-[ABE8]-连接子2-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-连接子1-[ABE8]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[ABE8]-连接子2-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-连接子1-[ABE8]-连接子2-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[Cas12结构域]-连接子1-[ABE8]-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[Cas12结构域]-[ABE8]-连接子2-[Cas12结构域]-[肌苷BER抑制剂]-COOH;;
NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-[肌苷BER抑制剂]-COOH;
NH2-[肌苷BER抑制剂]-[Cas12结构域]-连接子1-[ABE8]-连接子2-[Cas12结构域]-COOH;
NH2-[肌苷BER抑制剂]-[Cas12结构域]-连接子1-[ABE8]-[Cas12结构域]-COOH;
NH2-[肌苷BER抑制剂]-[Cas12结构域]-[ABE8]-连接子2-[Cas12结构域]-COOH;
NH2-[肌苷BER抑制剂]NH2-[Cas12结构域]-[ABE8]-[Cas12结构域]-COOH;
另外,在某些情况下,Gam蛋白可以融合到碱基编辑器的N末端。在某些情况下,Gam蛋白可以融合到碱基编辑器的C末端。噬菌体Mu的Gam蛋白可以与双链断裂(DSB)的末端结合并保护它们免于降解。在一些实施例中,使用Gam结合DSB的自由端可以减少碱基编辑过程中插入缺失的形成。在一些实施方案中,174个残基的Gam蛋白融合到碱基编辑器的N末端。参见Komor,A.C.等人,“Improved base excision repair inhibition andbacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances 3:eaao4774(2017)。在某些情况下,一个或多个突变可以改变碱基编辑器域相对于野生型域的长度。例如,在至少一个结构域中删除至少一个氨基酸可以减少碱基编辑器的长度。在另一种情况下,一个或多个突变不会改变结构域相对于野生型结构域的长度。例如,任何结构域中的替换都不会/不会改变碱基编辑器的长度。此类碱基编辑器的非限制性实例(其中所有结构域的长度与野生型结构域的长度相同)可包括:
NH2-[Cas12结构域]-连接子1-[APOBEC1]-连接子2-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-连接子1-[APOBEC1]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[APOBEC1]-连接子2-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-[APOBEC1]-[Cas12结构域]-COOH;
NH2-[Cas12结构域]-连接子1-[APOBEC1]-连接子2-[Cas12结构域]-[UGI]-COOH;
NH2-[Cas12结构域]-连接子1-[APOBEC1]-[Cas12结构域]-[UGI]-COOH;
NH2-[Cas12结构域]-[APOBEC1]-连接子2-[Cas12结构域]-[UGI]-COOH;
NH2-[Cas12结构域]-[APOBEC1]-[Cas12结构域]-[UGI]-COOH;
NH2-[UGI]-[Cas12结构域]-连接子1-[APOBEC1]-连接子2-[Cas12结构域]-COOH;
NH2-[UGI]-[Cas12结构域]-连接子1-[APOBEC1]-[Cas12结构域]-COOH;
NH2-[UGI]-[Cas12结构域]-[APOBEC1]-连接子2-[Cas12结构域]-COOH;
NH2-[UGI]-[Cas12结构域]-[APOBEC1]-[Cas12结构域]-COOH;
在一些实施方案中,本文提供的碱基编辑融合蛋白需要位于精确位置,例如,靶碱基位于限定区域(例如,“脱氨基窗口”)内的位置。在某些情况下,靶标可以在4个碱基区域内。在某些情况下,这种限定的靶标区域可以是PAM上游的大约15个碱基。参见Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abaseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容以引用方式并入本文。
定义的靶标区域可以是脱氨基窗口。脱氨基窗口可以是碱基编辑器作用于靶标核苷酸并使其脱氨基的限定区域。在一些实施例中,脱氨基窗口在2、3、4、5、6、7、8、9或10个碱基区域内。在一些实施例中,脱氨基窗口是PAM上游的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个碱基。
本公开的碱基编辑器可以包含有助于编辑目标多核苷酸序列的任何结构域、特征或氨基酸序列。例如,在一些实施例中,碱基编辑器包含核定位序列(NLS)。在一些实施方案中,碱基编辑器的NLS位于脱氨酶结构域和napDNAbp结构域之间。在一些实施方案中,碱基编辑器的NLS位于napDNAbp结构域的C末端。
融合蛋白中包含的蛋白质结构域可以是异源功能结构域。可包含在融合蛋白中的蛋白质结构域的非限制性实例包括脱氨酶结构域(例如,胞苷脱氨酶和/或腺苷脱氨酶)、尿嘧啶糖基化酶抑制剂(UGI)结构域、表位标签和报导基因序列。蛋白质结构域可以是异源功能结构域,例如,具有一种或多种以下活性:转录激活活性、转录抑制活性、转录释放因子活性、基因沉默活性、染色质修饰活性、表观遗传修饰活性、组蛋白修饰活性,RNA切割活性和核酸结合活性。此类异源功能结构域可赋予功能活性,例如修饰与靶标DNA(例如组蛋白、DNA结合蛋白等)相关的靶标多肽,导致例如组蛋白甲基化、组蛋白乙酰化、组蛋白泛素化,之类的。赋予的其他功能和/或活性可以包括转座酶活性、整合酶活性、重组酶活性、连接酶活性、泛素连接酶活性、去泛素化活性、腺苷酸化活性、去腺苷酸化活性、SUMOylation活性、去SUMOylation活性,或上述的任何组合。
可以用表位标签、报导蛋白、其他结合结构域检测或标记结构域。表位标签的非限制性实例包括组氨酸(His)标签、V5标签、FLAG标签、流感血凝素(HA)标签、Myc标签、VSV-G标签和硫氧还蛋白(Trx)标签。报导基因的例子包括但不限于谷胱甘肽-5-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡萄糖醛酸酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和自发荧光蛋白,包括蓝色荧光蛋白(BFP)。额外的蛋白质序列可以包括结合DNA分子或结合其他细胞分子的氨基酸序列,包括但不限于麦芽糖结合蛋白(MBP)、S-标签、Lex A DNA结合结构域(DBD)融合、GAL4 DNA结合结构域融合,和单纯疱疹病毒(HSV)BP16蛋白融合。
在一些实施方案中,BhCas12b引导多核苷酸具有以下序列:
BhCas12b sgRNA支架(下划线)+20nt到23nt引导序列(用Nn表示)
5’GUUCUGTCUUUUGGUCAGGACAACCGUCUAGCUAUAAGUGCUGCAGGGUGUGAGAAACUCCUAUUG CUGGACGAUGUCUCUUACGAGGCAUUAGCACNNNNNNNNNNNNNNNNNNNN-3’
在一些实施方案中,BvCas12b和AaCas12b引导多核苷酸具有以下序列:
BvCas12b sgRNA支架(下划线)+20nt到23nt引导序列(用Nn表示)
5’GACCUAUAGGGUCAAUGAAUCUGUGCGUGUGCCAUAAGUAAUUAAAAAUUACCCACCACAGGAGCA CCUGAAAACAGGUGCUUGGCACNNNNNNNNNNNNNNNNNNNN-3’
AaCas12b sgRNA支架(下划线)+20nt到23nt引导序列(用Nn表示)
5’GUCUAAAGGACAGAAUUUUUCAACGGGUGUGCCAAUGGCCACUUUCCAGGUGGCAAAGCCCGUUGA ACUUCUCAAAAAGAACGAUCUGAGAAGUGGCACNNNNNNNNNNNNNNNNNNNN-3’
使用包含腺苷脱氨酶变体和Cas9结构域的融合蛋白的方法
本公开的一些方面提供了使用本文提供的融合蛋白或复合物的方法。例如,本公开的一些方面提供了包含使编码蛋白质的突变形式的DNA分子与本文提供的任何融合蛋白和至少一种引导RNA接触的方法,其中引导RNA长约15-100个核苷酸并且包含至少与靶标序列互补的10个连续核苷酸。在一些实施方案中,靶标序列的3'端紧邻规范PAM序列(NGG)。在一些实施方案中,靶标序列的3'端不紧邻规范PAM序列(NGG)。在一些实施方案中,靶标序列的3'端紧邻AGC、GAG、TTT、GTG或CAA序列。在一些实施方案中,靶标序列的3'端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN或5'(TTTV)序列。
在一些实施方案中,本发明的融合蛋白用于诱变感兴趣的靶标。特别地,本文所述的腺苷脱氨酶核碱基编辑器(例如,ABE8)能够在靶标序列内产生多个突变。这些突变可能会影响靶标的功能。例如,当使用腺苷脱氨酶核碱基编辑器(例如ABE8)靶向调控区时,所述调控区的功能会发生改变,下游蛋白的表达会降低。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,成熟蛋白质的前体和成熟蛋白质本身,物种之间的序列差异可能会影响编号。本领域技术人员将能够通过本领域众所周知的方法,例如通过序列比对和同源残基的测定,鉴定任何同源蛋白质和相应编码核酸中的相应残基。
对本领域技术人员而言显而易见的是,为了将包含Cas9结构域和腺苷脱氨酶变体(例如,ABE8)的任何融合蛋白,如本文公开的,靶向至靶标位点,例如,包含对于要编辑的突变,通常需要将融合蛋白与引导RNA(例如sgRNA)共表达。如本文别处更详细解释的,引导RNA通常包含允许Cas9结合的tracrRNA框架和赋予Cas9:核酸编辑酶/结构域融合蛋白序列特异性的引导序列。或者,引导RNA和tracrRNA可以作为两个核酸分子分开提供。在一些实施方案中,引导RNA包含一种结构,其中引导序列包含与靶标序列互补的序列。引导序列的长度通常为20个核苷酸。基于本公开,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向特定基因组靶标位点的合适的引导RNA的序列对于本领域技术人员来说将是显而易见的。此类合适的引导RNA序列通常包含与待编辑的靶标核苷酸上游或下游50个核苷酸内的核酸序列互补的引导序列。本文提供了一些适用于将任何提供的融合蛋白靶向特定靶标序列的示例性引导RNA序列。
碱基编辑器效率
CRISPR-Cas9核酸酶已被广泛用于介导靶向基因组编辑。在大多数基因组编辑应用中,Cas9与引导多核苷酸(例如单引导RNA(sgRNA))形成复合物,并在sgRNA序列指定的靶标位点诱导双链DNA断裂(DSB)。细胞主要通过非同源末端连接(NHEJ)修复途径对这种DSB做出反应,这会导致随机插入缺失(indel),从而导致移码突变破坏基因。在存在与DSB侧翼序列高度同源的供体DNA模板的情况下,可以通过称为同源定向修复(HDR)的替代途径实现基因校正。不幸的是,在大多数非扰动条件下,HDR效率低下,取决于细胞状态和细胞类型,并且由更高频率的插入缺失主导。由于与人类疾病相关的大多数已知遗传变异都是点突变,因此需要能够更有效、更干净地进行精确点突变的方法。本文提供的碱基编辑系统提供了一种提供基因组编辑的新方法,无需产生双链DNA断裂,无需供体DNA模板,也无需诱导过量的随机插入和缺失。
本发明的融合蛋白有利地修饰编码包含突变的蛋白质的特定核苷酸碱基而不产生显著比例的插入缺失。如本文所用,“插入缺失”是指核酸内核苷酸碱基的插入或缺失。这种插入或缺失可导致基因编码区内的移码突变。在一些实施方案中,期望产生有效修饰(例如突变)核酸内的特定核苷酸而不在核酸中产生大量插入或缺失(即,插入缺失)的碱基编辑器。在某些实施方案中,本文提供的任何碱基编辑器与插入缺失相比能够产生更大比例的预期修饰(例如,突变)。
在一些实施例中,本文提供的任何碱基编辑器系统导致在靶标多核苷酸序列中形成小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%或小于0.01%的插入缺失。
在一些实施例中,包含本文描述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致在靶标多核苷酸序列中形成小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%或小于0.01%的插入缺失。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶标多核苷酸序列中形成小于0.8%的插入缺失。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶标多核苷酸序列中形成最多0.8%的插入缺失。在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶标多核苷酸序列中形成小于0.3%的插入缺失。在一些实施方案中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含所述ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶标多核苷酸序列中较低的插入缺失形成。在一些实施方案中,与包含ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致靶标多核苷酸序列中较低的插入缺失形成。
在一些实施方案中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含本文描述的ABE8碱基编辑器变体之一的任何碱基编辑器系统具有降低的插入/缺失频率。在一些实施例中,与包含ABE7碱基编辑器之一的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑器系统具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%降低的插入缺失频率。在一些实施例中,与包含ABE7.10的碱基编辑器相比,包含本文所述的ABE8碱基编辑器变体之一的碱基编辑器系统具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%或至少95%降低的插入缺失频率。
本发明提供了具有增加的效率和特异性的腺苷脱氨酶变体(例如,ABE8变体)。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所需碱基,并且不太可能编辑不打算改变的碱基(例如,“旁观者(bystander)”)。
在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统具有减少的旁观者编辑或突变。在一些实施方案中,非预期编辑或突变是旁观者突变或旁观者编辑,例如靶标核苷酸序列的靶标窗口中非预期或非靶标位置中的靶标碱基(例如,A或C)的碱基编辑。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统具有减少的旁观者编辑或突变。在一些实施例中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统已将旁观者编辑或突变减少至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统已将旁观者编辑或突变减少至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍,至少1.6倍,至少1.7倍,至少1.8倍,至少1.9倍,至少2.0倍,至少2.1倍,至少2.2倍,至少2.3倍,至少2.4倍,至少2.5倍至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。
在一些实施方案中,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统减少了虚假编辑。在一些实施方案中,非预期编辑或突变是虚假突变或虚假编辑,例如,非特异性编辑或引导独立编辑基因组的非预期或非靶标区域中的靶标碱基(例如,A或C)。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统减少了虚假编辑。在一些实施例中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统减少了虚假编辑至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%。在一些实施方案中,与包含ABE7碱基编辑器例如ABE7.10的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的任何碱基编辑系统减少了虚假编辑至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍,至少1.6倍,至少1.7倍,至少1.8倍,至少1.9倍,至少2.0倍,至少2.1倍,至少2.2倍,至少2.3倍,至少2.4倍,至少2.5倍至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍。
本公开的一些方面基于以下认识:本文提供的任何碱基编辑器能够有效地在核酸(例如,受试者基因组内的核酸)中产生预期突变,例如点突变不会产生大量意外突变,例如意外点突变(即旁观者的突变)。在一些实施方案中,本文提供的任何碱基编辑器能够产生至少0.01%的预期突变(即,至少0.01%的碱基编辑效率)。在一些实施方案中,本文提供的任何碱基编辑器能够产生至少0.01%、1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、40%、45%、50%、60%、70%、80%、90%、95%或99%的预期突变。
在一些实施例中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的碱基编辑效率。在一些实施方案中,碱基编辑效率可以通过计算细胞群中编辑的核碱基的百分比来测量。在一些实施例中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的碱基编辑效率如通过编辑的核碱基测量的细胞群。
在一些实施方案中,与ABE7碱基编辑器相比,本文所述的任何ABE8碱基编辑器变体具有更高的碱基编辑效率。在一些实施例中,与ABE7碱基编辑器(例如ABE7.10)相比,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少至少330%,至少340%,至少350%,至少360%,至少370%,至少380%,至少390%、至少400%、至少450%或至少500%更高碱基编辑效率。
在一些实施例中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍更高碱基编辑效率。
在一些实施例中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的在靶碱基编辑效率。在一些实施例中,本文所述的任何ABE8碱基编辑器变体具有至少0.01%、至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的在靶碱基编辑效率,如通过编辑的核碱基测量的细胞群。
在一些实施方案中,与ABE7碱基编辑器相比,本文所述的任何ABE8碱基编辑器变体具有更高的在靶碱基编辑效率。在一些实施例中,与ABE7碱基编辑器(例如ABE7.10)相比,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少至少230%、至少240%、至少250%、至少260%、至少270%、至少280%、至少290%、至少300%、至少310%、至少320%、至少至少330%,至少340%,至少350%,至少360%,至少370%,至少380%,至少390%、至少400%、至少450%或至少500%更高的在靶碱基编辑效率。
在一些实施例中,与ABE7碱基编辑器例如ABE7.10相比,本文所述的任何ABE8碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍更高的在靶碱基编辑效率。
本文所述的ABE8碱基编辑器变体可通过质粒、载体、LNP复合物或mRNA递送至宿主细胞。在一些实施方案中,本文所述的任何ABE8碱基编辑器变体作为mRNA递送至宿主细胞。在一些实施方案中,通过基于核酸的递送系统例如mRNA递送的ABE8碱基编辑器具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%的在靶编辑效率,通过编辑的核碱基测量。在一些实施方案中,与由质粒或载体系统递送的ABE8碱基编辑器相比,由mRNA系统递送的ABE8碱基编辑器具有更高的碱基编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少至少230%,至少240%,至少250%,至少260%,至少270%,至少280%,至少290%,至少高300%,至少310%,至少320%,至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%更高的在靶编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2、至少3.3倍、至少3.4倍、至少3.5倍、至少3.6倍、至少3.7倍、至少3.8倍、至少3.9倍、至少4.0倍、至少4.1倍、至少4.2倍、至少4.3倍、至少4.4倍、至少4.5倍、至少4.6倍、至少4.7倍、至少4.8倍、至少4.9倍或至少5.0倍更高的在靶碱基编辑效率。
在一些实施例中,包含本文描述的ABE8碱基编辑器变体之一的任何碱基编辑器系统导致在靶标多核苷酸序列中小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%或小于0.01%的脱靶碱基。
在一些实施方案中,与由质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在由mRNA系统递送时具有更低的引导脱靶编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%更低的引导脱靶编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍或至少3.0倍更低的引导脱靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在由mRNA系统递送时具有至少约2.2倍的引导脱靶编辑效率降低。
在一些实施方案中,与由质粒或载体系统递送时相比,本文所述的任何ABE8碱基编辑器变体在由mRNA系统递送时具有更低的独立于引导脱靶编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%或至少99%更低的独立于引导脱靶编辑效率。在一些实施例中,与由质粒或载体系统递送时相比,当由mRNA系统递送时,本文所述的任何ABE8碱基编辑器变体具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少5.0倍、至少10.0倍、至少20.0倍、至少50.0倍、至少70.0倍、至少100.0倍、至少120.0倍、至少130.0倍、至少150.0倍更低的独立于引导脱靶编辑效率。在一些实施方案中,与由质粒或载体系统递送时相比,本文所述的ABE8碱基编辑器变体在由mRNA系统递送时具有134.0倍降低的不依赖于指导的脱靶编辑效率(例如,假RNA脱氨基)。在一些实施方案中,本文所述的ABE8碱基编辑器变体不增加跨基因组的不依赖于指导的突变率。
本公开的一些方面基于以下认识:本文提供的任何碱基编辑器能够有效地在核酸(例如,受试者基因组内的核酸)中产生预期突变,例如点突变不会产生大量意外突变(例如,假脱靶编辑或旁观者编辑)。在一些实施方案中,预期突变是由与gRNA结合的特定碱基编辑器产生的突变,专门设计用于改变或纠正靶基因中的突变。本公开的一些方面基于以下认识:本文提供的任何碱基编辑器能够有效地在核酸(例如受试者基因组内的核酸)中产生预期突变而不产生大量非预期突变。在一些实施方案中,预期突变是由与gRNA结合的特定碱基编辑器产生的突变,专门设计用于改变或纠正预期突变。在一些实施方案中,预期突变是产生终止密码子的突变,例如基因编码区内的提前终止密码子。在一些实施方案中,预期突变是消除终止密码子的突变。在一些实施方案中,预期突变是改变基因剪接的突变。在一些实施方案中,预期突变是改变基因(例如,基因启动子或基因阻遏物)的调控序列的突变。
在一些实施方案中,本文提供的碱基编辑器能够产生大于1:1的预期突变与插入缺失(即,非预期突变)的比率。在一些实施方案中,本文提供的碱基编辑器能够产生的预期突变与插入缺失的比率至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少200:1、至少300:1、至少400:1、至少500:1、至少600:1、至少700:1、至少800:1、至少900:1、或至少1000:1或更多。应当理解,本文描述的碱基编辑器的特征可以应用于任何融合蛋白,或使用本文提供的融合蛋白的方法。
可以使用任何合适的方法确定预期突变和插入缺失的数量,例如,如国际PCT申请号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632);Komor,A.C.,等人,“Programmable editing of a target base in genomic DNA withoutdouble-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.,等人,“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature551,464-471(2017);Komor,A.C.,等人,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abaseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017)中所述,其全部内容以引用方式并入本文。
在一些实施方案中,为了计算插入缺失频率,扫描测序读数以寻找与两个10-bp序列的精确匹配,所述两个10-bp序列位于可以发生插入缺失的窗口两侧。如果未找到完全匹配,则从分析中排除读取。如果此插入缺失窗口的长度与参考序列完全匹配,则读取被归类为不包含插入缺失。如果插入缺失窗口比参考序列长或短两个或更多碱基,则测序读数分别被归类为插入或缺失。在一些实施方案中,本文提供的碱基编辑器可以限制核酸区域中插入缺失的形成。在一些实施方案中,该区域位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。
在靶标核苷酸区域形成的插入缺失的数量可取决于核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施例中,插入缺失的数量或比例在将靶标核苷酸序列(例如,细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定。应当理解,本文描述的碱基编辑器的特征可以应用于任何融合蛋白,或使用本文提供的融合蛋白的方法。
在一些实施方案中,本文提供的碱基编辑器能够限制核酸区域中插入缺失的形成。在一些实施方案中,该区域位于碱基编辑器靶向的核苷酸处或碱基编辑器靶向的核苷酸的2、3、4、5、6、7、8、9或10个核苷酸内的区域。在一些实施方案中,本文提供的任何碱基编辑器能够将核酸区域处插入缺失的形成限制为小于1%、小于1.5%、小于2%、小于2.5%、小于3%、小于3.5%、小于4%、小于4.5%、小于5%、小于6%、小于7%、小于8%、小于9%、小于10%、小于12%、小于15%或小于20%。在核酸区域形成的插入缺失的数量可取决于核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器的时间量。在一些实施例中,插入缺失的任何数量或比例在将核酸(例如,细胞基因组内的核酸)暴露于碱基编辑器至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天或至少14天后确定。
多重编辑
在一些实施方案中,本文提供的碱基编辑器系统能够多重编辑一个或多个基因中的多个核碱基对。在一些实施方案中,多个核碱基对位于同一基因中。在一些实施方案中,多个核碱基对位于一个或多个基因中,其中至少一个基因位于不同基因座中。在一些实施方案中,所述多重编辑可包含一种或多种指导多核苷酸。在一些实施方案中,所述多重编辑可包含一种或多种碱基编辑器系统。在一些实施方案中,所述多重编辑可包含一种或多种具有单个引导多核苷酸的碱基编辑器系统。在一些实施方案中,所述多重编辑可包含一种或多种具有多个引导多核苷酸的碱基编辑器系统。在一些实施方案中,所述多重编辑可包含一个或多个具有单个碱基编辑器系统的引导多核苷酸。在一些实施方案中,多重编辑可包含至少一种不需要PAM序列来靶向结合靶标多核苷酸序列的引导多核苷酸。在一些实施方案中,多重编辑可包含至少一种需要PAM序列来靶向结合靶标多核苷酸序列的引导多核苷酸。在一些实施方案中,多重编辑可以包括至少一种不需要PAM序列靶向结合靶标多核苷酸序列的引导多核苷酸和至少一种需要PAM序列靶向结合靶标多核苷酸序列的引导多核苷酸的混合物。应当理解,使用本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解,使用本文所述的任何碱基编辑器的多重编辑可以包括多个核碱基对的顺序编辑。
在一些实施方案中,多个核碱基对在一个或多个基因中。在一些实施方案中,多个核碱基对在同一基因中。在一些实施方案中,一个或多个基因中的至少一个基因位于不同基因座中。
在一些实施方案中,所述编辑是编辑至少一个蛋白质编码区中的多个核碱基对。在一些实施方案中,所述编辑是编辑至少一个蛋白质非编码区中的多个核碱基对。在一些实施方案中,所述编辑是编辑至少一个蛋白质编码区和至少一个蛋白质非编码区中的多个核碱基对。
在一些实施方案中,所述编辑与一个或多个指导多核苷酸结合。在一些实施方案中,所述碱基编辑器系统可包含一种或多种碱基编辑器系统。在一些实施方案中,所述碱基编辑器系统可以包含一个或多个碱基编辑器系统与单个指导多核苷酸结合。在一些实施方案中,所述碱基编辑器系统可以包括一个或多个碱基编辑器系统与多个指导多核苷酸相结合。在一些实施方案中,所述编辑与具有单个碱基编辑器系统的一个或多个指导多核苷酸结合。在一些实施方案中,所述编辑与至少一种不需要PAM序列来靶向结合靶多核苷酸序列的引导多核苷酸结合。在一些实施方案中,所述编辑与至少一种引导多核苷酸结合,该引导多核苷酸需要PAM序列靶向结合靶多核苷酸序列。在一些实施方案中,所述编辑与不需要PAM序列靶向结合靶多核苷酸序列的至少一种引导多核苷酸和需要PAM序列靶向结合靶多核苷酸序列的至少一种引导多核苷酸的混合物结合。应当理解,使用本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文提供的任何碱基编辑器的方法的任何组合。还应当理解,编辑可以包括多个核碱基对的顺序编辑。
在一些实施方案中,能够对一种或多种基因中的多个核碱基对进行多重编辑的碱基编辑器系统包含本文所述的ABE8碱基编辑器变体之一。在一些实施方案中,能够多重编辑一个或多个基因中的多个核碱基对的碱基编辑器系统包含ABE7碱基编辑器之一。在一些实施例中,与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比,包含本文描述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有更高的多重编辑效率。在一些实施例中,与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少99%、至少100%、至少105%、至少110%、至少至少115%、至少120%、至少125%、至少130%、至少135%、至少140%、至少145%、至少150%、至少155%、至少160%、至少至少165%、至少170%、至少175%、至少180%、至少185%、至少190%、至少195%、至少200%、至少210%、至少220%、至少至少230%,至少240%,至少250%,至少260%,至少270%,至少280%,至少290%,至少高300%,至少310%,至少320%,至少330%、至少340%、至少350%、至少360%、至少370%、至少380%、至少390%、至少400%、至少450%或至少500%更高的多重编辑效率。在一些实施例中,与包含ABE7碱基编辑器之一的能够多重编辑的碱基编辑器系统相比,包含本文所述的ABE8碱基编辑器变体之一的能够多重编辑的碱基编辑器系统具有至少1.1倍、至少1.2倍、至少1.3倍、至少1.4倍、至少1.5倍、至少1.6倍、至少1.7倍、至少1.8倍、至少1.9倍、至少2.0倍、至少2.1倍、至少2.2倍、至少2.3倍、至少2.4倍、至少2.5倍、至少2.6倍、至少2.7倍、至少2.8倍、至少2.9倍、至少3.0倍、至少3.1倍、至少3.2倍、至少3.3倍、至少3.4倍、至少3.5倍、至少4.0倍、至少4.5倍、至少5.0倍、至少5.5倍或至少6.0倍更高的多重编辑效率。
具有内部插入的融合蛋白
本文提供了融合蛋白,其包含与核酸可编程核酸结合蛋白(例如,napDNAbp)融合的异源多肽。异源多肽可以是在天然或野生型napDNAbp多肽序列中未发现的多肽。异源多肽可以在napDNAbp的C末端、napDNAbp的N末端融合至napDNAbp,或插入到napDNAbp的内部位置。在一些实施方案中,异源多肽插入到napDNAbp的内部位置。
在一些实施方案中,异源多肽是脱氨酶或其功能片段。例如,融合蛋白可包含侧翼为Cas9或Cas12(例如,Cas12b/C2c1)多肽的N末端片段和C末端片段的脱氨酶(例如,腺苷脱氨酶)。融合蛋白中的脱氨酶可以是腺苷脱氨酶。在一些实施方案中,所述腺苷脱氨酶是TadA(例如,TadA7.10或TadA*8)。在一些实施方案中,所述TadA是TadA*8。如本文所述的TadA序列(例如,TadA7.10或TadA*8)是适用于上述融合蛋白的脱氨酶。
所述脱氨酶可以是环状置换脱氨酶。例如,所述脱氨酶可以是环状置换腺苷脱氨酶。在一些实施方案中,所述脱氨酶是环状排列的TadA,在TadA参考序列中编号的氨基酸残基116处环状排列。在一些实施方案中,所述脱氨酶是环状排列的TadA,在TadA参考序列中编号的氨基酸残基136处环状排列。在一些实施方案中,所述脱氨酶是环状排列的TadA,在TadA参考序列中编号的氨基酸残基65处环状排列。
所述融合蛋白可包含多于一种脱氨酶。所述融合蛋白可包含例如1、2、3、4、5或更多种脱氨酶。在一些实施方案中,所述融合蛋白包含一种脱氨酶。在一些实施方案中,所述融合蛋白包含2种脱氨酶。两种或更多种脱氨酶可以是同型二聚体。两种或更多种脱氨酶可以是异二聚体。两种或多种脱氨酶可以串联插入到napDNAbp中。在一些实施方案中,两种或更多种脱氨酶在napDNAbp中可能不串联。
在一些实施方案中,融合蛋白中的napDNAbp是Cas9多肽或其片段。Cas9多肽可以是变体Cas9多肽。在一些实施方案中,所述Cas9多肽是Cas9切口酶(nCas9)多肽或其片段。在一些实施方案中,所述Cas9多肽是核酸酶死亡的Cas9(dCas9)多肽或其片段。融合蛋白中的Cas9多肽可以是全长Cas9多肽。在一些情况下,融合蛋白中的Cas9多肽可能不是全长Cas9多肽。Cas9多肽可以在例如相对于天然存在的Cas9蛋白的N末端或C末端被截短。Cas9多肽可以是是循环排列的Cas9蛋白。Cas9多肽可以是Cas9多肽的片段、部分或结构域,其仍然能够结合靶标多核苷酸和引导核酸序列。
在一些实施方案中,所述Cas9多肽是化脓性链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或其片段或变体。
融合蛋白的Cas9多肽可包含与天然存在的Cas9多肽至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同。
融合蛋白的Cas9多肽可包含与下文阐述的Cas9氨基酸序列(下文称为“Cas9参考序列”)至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%相同:
Figure BDA0003298963610003651
Figure BDA0003298963610003661
Figure BDA0003298963610003662
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方案中,融合蛋白中的napDNAbp是Cas12多肽,例如Cas12b/C2c1,或其片段。Cas12多肽可以是变体Cas12多肽。
异源多肽(例如,脱氨酶)可以插入到napDNAbp(例如,Cas9或Cas12(例如,Cas12b/C2c1))的合适位置,例如,使得napDNAbp保持其结合靶标多核苷酸和引导核酸。脱氨酶(例如腺苷脱氨酶)可以插入到napDNAbp中而不损害脱氨酶(例如碱基编辑活性)或napDNAbp(例如结合靶标核酸和引导核酸的能力)的功能。脱氨酶(例如,腺苷脱氨酶)可以插入到napDNAbp中,例如晶体学研究显示的无序区域或包含高温因子或B因子的区域。较不有序、无序或非结构化的蛋白质区域,例如溶剂暴露区域和环,可用于插入而不损害结构或功能。脱氨酶(例如腺苷脱氨酶)可以插入到napDNAbp的柔性环区或溶剂暴露区中。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入到Cas9或Cas12b/C2c1多肽的柔性环中。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)的插入位置通过Cas9多肽的晶体结构的B因子分析确定。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入Cas9多肽的区域,其包含高于平均B因子(例如,与总蛋白或包含无序区域的蛋白质结构域相比,更高的B因子)。B因子或温度因子可以表示原子从其平均位置的波动(例如,由于温度相关的原子振动或晶格中的静态无序)。骨架原子的高B因子(例如,高于平均B因子)可以指示具有相对较高局部迁移率的区域。这样的区域可用于插入脱氨酶而不损害结构或功能。脱氨酶(例如,腺苷脱氨酶)可以插入具有Cα原子的残基的位置,该残基的B因子比总蛋白质平均B因子高50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或大于200%。脱氨酶(例如,腺苷脱氨酶)可以插入具有Cα原子的残基的位置,该残基的B因子比包含残基的Cas9蛋白质结构域的平均B因子高50%、60%、70%、80%、90%、100%、110%、120%、130%、140%、150%、160%、170%、180%、190%、200%或大于200%。包含高于平均B因子的Cas9多肽位置可以包括,例如,上述Cas9参考序列中编号为768、792、1052、1015、1022、1026、1029、1067、1040、1054、1068、1246、12247的残基。包含高于平均B因子的Cas9多肽位置可以包括,例如,上述Cas9参考序列中编号为792-872、792-906和2-791的残基。
异源多肽(例如,脱氨酶)可以插入到napDNAbp中的氨基酸残基处,该氨基酸残基选自:上述Cas9参考序列中编号为768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247、和1248,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,所述异源多肽插入Cas9参考序列中编号768至769、791至792、792至793、1015至1016、1022至1023、1026至1027、1029至1030、1040至1041、1052至1053、1054至1055、1067至1068、1068至1069、1247至1248或1248至1249之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽插入Cas9参考序列中编号769至770、792至793、793至794、1016至1017、1023至1024、1027至1028、1030至1031、1041至1042、1053至1054、1055至1056、1068至1069、1069至1070、1248至1249或1249至1250之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽替换选自由以下组成的组的氨基酸残基:上述Cas9参考序列中编号为768、791、792、1015、1016、1022、1023、1026、1029、1040、1052、1054、1067、1068、1069、1246、1247、和1248,或另一个Cas9多肽中的相应氨基酸残基。应当理解,关于插入位置对上述Cas9参考序列的引用是为了说明的目的。如本文所讨论的插入不限于上述Cas9参考序列的Cas9多肽序列,而是包括在变体Cas9多肽中相应位置的插入,例如Cas9切口酶(nCas9)、核酸酶死亡Cas9(dCas9)、Cas9变体缺少核酸酶结构域、截短的Cas9或缺少部分或完整HNH结构域的Cas9结构域。
异源多肽(例如,脱氨酶)可以插入到napDNAbp中的氨基酸残基处,该氨基酸残基选自:上述Cas9参考序列中编号为768、792、1022、1026、1040、1068和1247,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,所述异源多肽插入上述Cas9参考序列中编号768至769、792至793、1022至1023、1026至1027、1029至1030、1040至1041、1068至1069或1247至1248之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽插入上述Cas9参考序列中编号769至770、793至794、1023至1024、1027至1028、1030至1031、1041至1042、1069至1070或1248至1249之间的氨基酸位置,或其相应的氨基酸位置。在一些实施方案中,所述异源多肽替换选自由以下组成的组的氨基酸残基:上述Cas9参考序列中编号为768、792、1022、1026、1040、1068和1247,或另一个Cas9多肽中的相应氨基酸残基。
异源多肽(例如,脱氨酶)可以在如本文所述的氨基酸残基处或另一Cas9多肽中的相应氨基酸残基处插入napDNAbp中。在一个实施方案中,异源多肽(例如,脱氨酶)可以插入到napDNAbp中的氨基酸残基处,该氨基酸残基选自:上述Cas9参考序列中编号为1002、1003、1025、1052-1056、1242-1247、1061-1077、943-947、686-691、569-578、530-539、和1066-1077,或另一个Cas9多肽中的相应氨基酸残基。脱氨酶(例如腺苷脱氨酶)可以插入残基的N末端或C末端或替换残基。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在残基的C末端。
在一些实施方案中,腺苷脱氨酶(例如,TadA)被插入选自由以下组成的组的氨基酸残基处:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶(例如,TadA)被插入以代替如以上Cas9参考序列中编号的残基792-872、792-906或2-791,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶插入在选自下组的氨基酸的N末端:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,腺苷脱氨酶插入在选自下组的氨基酸的C末端:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。在一些实施方案中,插入腺苷脱氨酶以替换选自由以下组成的组的氨基酸:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基768处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基768的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基768的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基768,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基791或氨基酸残792处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基791的N末端或氨基酸残基792的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基791的C末端或氨基酸残基792的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基791或氨基酸残基792,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1016处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1016的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1016的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1016,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1022或氨基酸残1023处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1022的N末端或氨基酸残基1023的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1022的C末端或氨基酸残基1023的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1022或氨基酸残基1023,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1026或氨基酸残1029处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1026的N末端或氨基酸残基1029的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1026的C末端或氨基酸残基1029的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1026或氨基酸残基1029,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1040处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1040的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1040的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1040,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1052或氨基酸残1054处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1052的N末端或氨基酸残基1054的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1052的C末端或氨基酸残基1054的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1052或氨基酸残基1054,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1067、或氨基酸残1068、或氨基酸残1069处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1067的N末端、或氨基酸残基1068的N末端、或氨基酸残基1069的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1067的C末端、或氨基酸残基1068的C末端、或氨基酸残基1069的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1067、或氨基酸残1068、或氨基酸残1069,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1246、或氨基酸残1247、或氨基酸残1248处,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1246的N末端、或氨基酸残基1247的N末端、或氨基酸残基1248的N末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入在如以上Cas9参考序列中编号的氨基酸残基1246的C末端、或氨基酸残基1247的C末端、或氨基酸残基1248的C末端,或另一Cas9多肽中的相应氨基酸残基处。在一些实施方案中,脱氨酶(例如,腺苷脱氨酶)插入以取代如以上Cas9参考序列中编号的氨基酸残基1246、或氨基酸残1247、或氨基酸残1248,或另一Cas9多肽中的相应氨基酸残基。
在一些实施方案中,异源多肽(例如,脱氨酶)被插入到Cas9多肽的柔性环中。柔性环部分可以选自由以上Cas9编号的530-537、569-570、686-691、943-947、1002-1025、1052-1077、1232-1247或1298-1300组成群组的参考序列,或另一个Cas9多肽中的相应氨基酸残基。柔性环部分可以从由以下组成的群组中选择:上述Cas9参考序列中编号为1-529、538-568、580-685、692-942、948-1001、1026-1051、1078-1231或1248-1297,或另一个Cas9多肽中的相应氨基酸残基。
可以将异源多肽(例如,腺嘌呤脱氨酶)插入对应于氨基酸残基的Cas9多肽区域:上述Cas9参考序列中编号为1017-1069、1242-1247、1052–1056、1060-1077、1002-1003、943-947、530-537、568-579、686-691、1242–1247、1298-1300、1066-1077、1052-1056或1066-1077,或另一个Cas9多肽中的相应氨基酸残基。
可以插入异源多肽(例如腺嘌呤脱氨酶)代替Cas9多肽的缺失区域。缺失区域可以对应于Cas9多肽的N末端或C末端部分。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基792-872,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基792-906,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基2-791,或另一Cas9多肽中的相应氨基酸残基。在一些实施方案中,缺失区域对应于如以上Cas9参考序列中编号的残基1017-1069,或其相应氨基酸残基。
示例性内部融合碱基编辑器在下表13A中提供:
表13A:Cas9蛋白中的插入位点
BE ID 修饰 其他ID
IBE001 Cas9 TadA ins 1015 ISLAY01
IBE002 Cas9 TadA ins 1022 ISLAY02
IBE003 Cas9 TadA ins 1029 ISLAY03
IBE004 Cas9 TadA ins 1040 ISLAY04
IBE005 Cas9 TadA ins 1068 ISLAY05
IBE006 Cas9 TadA ins 1247 ISLAY06
IBE007 Cas9 TadA ins 1054 ISLAY07
IBE008 Cas9 TadA ins 1026 ISLAY08
IBE009 Cas9 TadA ins 768 ISLAY09
IBE020 delta HNH TadA 792 ISLAY20
IBE021 N末端融合单TadA螺旋截断165端 ISLAY21
IBE029 TadA-循环置换116ins1067 ISLAY29
IBE031 TadA-循环置换136ins1248 ISLAY31
IBE032 TadA-循环置换136ins1052 ISLAY32
IBE035 delta 792-872TadA ins ISLAY35
IBE036 delta 792-906TadA ins ISLAY36
IBE043 TadA-循环置换65ins1246 ISLAY43
IBE044 TadA ins C末端截断2 791 ISLAY44
异源多肽(例如,脱氨酶)可以插入到Cas9多肽的结构域或功能结构域内。异源多肽(例如,脱氨酶)可以插入在Cas9多肽的两个结构域或功能结构域之间。例如,在从Cas9多肽中删除结构域之后,可以插入异源多肽(例如,脱氨酶)代替Cas9多肽的结构域或功能结构域。Cas9多肽的结构域或功能结构域可以包括例如RuvC I、RuvC II、RuvC III、Rec1、Rec2、PI或HNH。
在一些实施方案中,所述Cas9多肽缺少一个或多个选自以下群组的结构域:RuvCI、RuvC II、RuvC III、Rec1、Rec2、PI或HNH结构域。在一些实施方案中,所述Cas9多肽缺少核酸酶结构域。在一些实施方案中,所述Cas9多肽缺少HNH结构域。在一些实施方案中,所述Cas9多肽缺少HNH结构域的一部分,使得Cas9多肽具有降低或消除的HNH活性。
在一些实施方案中,所述Cas9多肽包含核酸酶结构域的缺失,并且插入脱氨酶以替代核酸酶结构域。在一些实施方案中,所述HNH结构域被删除并且脱氨酶被插入在其位置上。在一些实施方案中,删除一个或多个RuvC结构域,并在其位置插入脱氨酶。
包含异源多肽的融合蛋白的侧翼可以是napDNAbp的N末端和C末端片段。在一些实施方案中,所述融合蛋白包含侧翼为Cas9多肽的N末端片段和C末端片段的脱氨酶。N末端片段或C末端片段可以结合靶标多核苷酸序列。N末端片段的C端或C末端片段的N端可包含Cas9多肽的柔性环的一部分。N末端片段的C端或C末端片段的N端可包含Cas9多肽的α-螺旋结构的一部分。所述N末端片段或所述C末端片段可包含DNA结合结构域。所述N末端片段或所述C末端片段可包含RuvC结构域。所述N末端片段或所述C末端片段可包含HNH结构域。在一些实施方案中,所述N末端片段和所述C末端片段均不包含HNH结构域。
在一些实施方案中,当所述融合蛋白使靶标核碱基脱氨基时,N末端Cas9片段的C末端包含接近靶标核碱基的氨基酸。在一些实施方案中,当所述融合蛋白使靶标核碱基脱氨基时,C末端Cas9片段的N末端包含接近靶标核碱基的氨基酸。不同脱氨酶的插入位置可以不同,以使靶标核碱基与N末端Cas9片段的C末端或C末端Cas9片段的N末端的氨基酸接近。例如,ABE的插入位置可以位于选自由以下组成的群组的氨基酸残基处:上述Cas9参考序列中编号为1015、1022、1029、1040、1068、1247、1054、1026、768、1067、1248、1052和1246,或另一个Cas9多肽中的相应氨基酸残基。
融合蛋白的N末端Cas9片段(即融合蛋白中位于脱氨酶侧翼的N末端Cas9片段)可包含Cas9多肽的N末端。融合蛋白的N末端Cas9片段可包含的长度至少约:100、200、300或400、500、600、700、800、900、1000、1100、1200或1300个氨基酸。融合蛋白的N末端Cas9片段可包含对应于以下氨基酸残基的序列:上述Cas9参考序列中编号为1-56、1-95、1–200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1000,或另一个Cas9多肽中的相应氨基酸残基。N末端Cas9片段可包含的序列包含:与氨基酸残基至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的序列同一性:上述Cas9参考序列中编号为1-56、1-95、1–200、1-300、1-400、1-500、1-600、1-700、1-718、1-765、1-780、1-906、1-918或1-1000,或另一个Cas9多肽中的相应氨基酸残基。
融合蛋白的C末端Cas9片段(即融合蛋白中位于脱氨酶侧翼的C末端Cas9片段)可包含Cas9多肽的C末端。融合蛋白的C末端Cas9片段可包含的长度至少约:100、200、300或400、500、600、700、800、900、1000、1100、1200或1300个氨基酸。融合蛋白的C末端Cas9片段可包含对应于以下氨基酸残基的序列:上述Cas9参考序列中编号为1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368,或另一个Cas9多肽中的相应氨基酸残基。N末端Cas9片段可包含的序列包含:与氨基酸残基至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或至少99.5%的序列同一性:上述Cas9参考序列中编号为1099-1368、918-1368、906-1368、780-1368、765-1368、718-1368、94-1368或56-1368,或另一个Cas9多肽中的相应氨基酸残基。
融合蛋白的N端Cas9片段和C端Cas9片段合在一起可能不对应于全长天然存在的Cas9多肽序列,例如,如上述Cas9参考序列中所述。
本文所述的融合蛋白可以通过减少非靶位点(例如,脱靶位点)的脱氨作用,例如减少全基因组的假脱氨作用来实现靶向脱氨基作用。本文所述的融合蛋白可以在非靶位点处以减少的旁观者脱氨基作用实现靶向脱氨基作用。与例如包含与Cas9多肽的N末端或C末端融合的脱氨酶的末端融合蛋白相比,不希望的脱氨基或脱靶脱氨基可以减少至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或至少99%。与例如包含与Cas9多肽的N末端或C末端融合的脱氨酶的末端融合蛋白相比,不需要的脱氨基或脱靶脱氨基可以减少至少一倍、至少两倍、至少三倍、至少四倍、至少五倍、至少十倍、至少十五倍、至少二十倍、至少三十倍、至少四十倍、至少五十倍、至少60倍、至少70倍、至少80倍、至少90倍或至少一百倍。
在一些实施方案中,融合蛋白的脱氨酶(例如,腺苷脱氨酶)使R环范围内不超过二个核碱基脱氨。在一些实施方案中,融合蛋白的脱氨酶使R环范围内不超过三个核碱基脱氨。在一些实施方案中,融合蛋白的脱氨酶使R环范围内不超过2、3、4、5、6、7、8、9或10个核碱基脱氨基。R环是三链核酸结构,包括DNA:RNA杂交体、DNA:DNA或RNA:RNA互补结构与单链DNA相关联。如本文所用,当靶标多核苷酸与CRISPR复合物或碱基编辑复合物接触时可形成R环,其中引导多核苷酸的一部分,例如,引导RNA,与靶标多核苷酸的一部分杂交并置换,例如,靶标DNA。在一些实施方案中,R-环包含间隔序列和靶标DNA互补序列的杂交区域。R环区可以是长度为约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49或50个核碱基对。在一些实施方案中,R-环区的长度为约20个核碱基对。应当理解,如本文所用,R-环区不限于与引导多核苷酸杂交的靶标DNA链。例如,R-环区域内的靶核碱基的编辑可以针对包含与引导RNA互补链的DNA链,或者可以针对作为与引导RNA互补的链的相反链的DNA链。在一些实施方案中,在R环区域中编辑包括将非互补链(原间隔序列链)上的核碱基编辑为靶标DNA序列中的引导RNA。
本文所述的融合蛋白可以在不同于规范碱基编辑的编辑窗口中实现靶标脱氨基。在一些实施方案中,所述靶标核碱基在靶标多核苷酸序列中PAM序列上游约1至约20个碱基。在一些实施方案中,所述靶标核碱基在靶标多核苷酸序列中PAM序列上游约2至约12个碱基。在一些实施方案中,目标核碱基在PAM序列的远离或上游大约1至9个碱基对、约2至10个碱基对、约3至11个碱基对、约4至12个碱基对、约5至13个碱基对、约6至14个碱基对、约7至15个碱基对、约8至16个碱基对、约9至17个碱基对、约10至18个碱基对、约11至19个碱基对、约12至20个碱基对、约1至7个碱基对、约2至8个碱基对、约3至9个碱基对、约4至10个碱基对、约5至11个碱基对、约6至12个碱基对、约7至13个碱基对、约8至14个碱基对、约9至15个碱基对、约10至16个碱基对、约11至17个碱基对、约12至18个碱基对、约13至19个碱基对、约14至20个碱基对、约1至5个碱基对、约2至6个碱基对、约3至7个碱基对、约4至8个碱基对、约5至9个碱基对、约6至10个碱基对、约7至11个碱基对、约8至12个碱基对、约9至13个碱基对、约10至14个碱基对、约11至15个碱基对、约12至16个碱基对、约13至17个碱基对、约14至18个碱基对、约15至19个碱基对、约16至20个碱基对、约1至3个碱基对、约2至4个碱基对、约3至5个碱基对、约4至6个碱基对、约5至7个碱基对、约6至8个碱基对、约7至9个碱基对、约8至10个碱基对、约9至11个碱基对、约10至12个碱基对、约11至13个碱基对、约12至14个碱基对、约13至15个碱基对、约14至16个碱基对、约15至17个碱基对、约16至18个碱基对、约17至19个碱基对、約18至20个碱基对。在一些实施例中,靶标核碱基是远离或上游PAM序列的约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多碱基对。在一些实施方案中,靶标核碱基是PAM序列上游的约1、2、3、4、5、6、7、8或9个碱基对。在一些实施方案中,靶标核碱基是PAM序列上游约2、3、4或6个碱基对。
所述融合蛋白可包含多于一种异源多肽。例如,融合蛋白可以另外包含一个或多个UGI结构域和/或一个或多个核定位信号。两个或多个异源域可以串联插入。两个或更多个异源结构域可以插入在这样的位置,使得它们在NapDNAbp中不串联。
融合蛋白可包含脱氨酶和napDNAbp多肽之间的连接子。连接子可以是肽或非肽连接子。例如,连接子可以是XTEN、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES。在一些实施方案中,融合蛋白包含N末端Cas9片段和脱氨酶之间的连接子。在一些实施方案中,融合蛋白包含C末端Cas9片段和脱氨酶之间的连接子。在一些实施方案中,napDNAbp的N末端和C末端片段通过连接子与脱氨酶连接。在一些实施方案中,N末端和C末端片段在没有连接子的情况下连接到脱氨酶结构域。在一些实施方案中,融合蛋白包含N末端Cas9片段与脱氨酶之间的连接子,但不包含C末端Cas9片段与脱氨酶之间的连接子。在一些实施方案中,融合蛋白包含C末端Cas9片段与脱氨酶之间的连接子,但不包含N末端Cas9片段与脱氨酶之间的连接子。
在其他实施方案中,Cas12多肽的N末端或C末端片段包含核酸可编程DNA结合结构域或RuvC结构域。在其他实施方案中,融合蛋白在Cas12多肽和催化结构域之间含有连接子。在其他实施方案中,连接子的氨基酸序列是GGSGGS或GSSGSETPGTSESATPESSG。在其他实施方案中,所述连接子是刚性的连接子。在上述方面的其他实施方式中,连接子由GGAGGCTCTGGAGGAAGC或GGCTCTTCTGGATCTGAAACACCTGGCACAAGCGAGAGCGCCACCCCTGAGAGCTCTGGC编码。
包含侧翼为Cas9或Cas12多肽的N和C末端片段的异源催化结构域的融合蛋白也可用于本文所述方法中的碱基编辑。包含Cas9或Cas12和一个或多个脱氨酶结构域,例如腺苷脱氨酶,或包含侧接有Cas9或Cas12序列的腺苷脱氨酶结构域的融合蛋白也可用于靶标序列的高度特异性和有效的碱基编辑。在一个实施方案中,嵌合Cas9或Cas12融合蛋白包含插入Cas12多肽内的异源催化结构域。
在各种实施方案中,催化结构域具有DNA修饰活性(例如,脱氨酶活性),例如腺苷脱氨酶活性。在一些实施方案中,所述腺苷脱氨酶是TadA(例如,TadA7.10)。在一些实施方案中,所述TadA是TadA*8。在一些实施方案中,融合蛋白含有一个或多个催化结构域。在其他实施方案中,一个或多个催化结构域中的至少一个插入Cas12多肽内或融合在Cas12 N末端或C末端。在其他实施方案中,一个或多个催化结构域中的至少一个插入Cas12多肽的环、α螺旋区、非结构化部分或溶剂可及部分内。在一些实施方案中,所述Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i。在一些实施方案中,所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillusthermoamylovorans)Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌(Alicyclobacillus acidiphilus)Cas12b具有至少约85%的氨基酸序列同一性。在一些实施方案中,所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌(Alicyclobacillus acidiphilus)Cas12b具有至少约90%的氨基酸序列同一性。在一些实施方案中,所述Cas12多肽与外村尚芽孢杆菌(Bacillus hisashii)Cas12b、嗜热淀粉芽孢杆菌(Bacillus thermoamylovorans)Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌(Alicyclobacillus acidiphilus)Cas12b具有至少约95%的氨基酸序列同一性。在一些实施方案中,所述Cas12多肽包含或基本上由以下的片段组成:外村尚芽孢杆菌Cas12b、嗜热淀粉芽孢杆菌Cas12b、芽孢杆菌属V3-13 Cas12b或嗜酸脂环杆菌Cas12b。
在其他实施方案中,催化结构域插入在BhCas12b或相应的氨基酸位置153-154、255-256、306-307、980-981、1019-1020、534-535、604-605或344-345或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸P153和S154之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K255和E256之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸D980和G981之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K1019和L1020之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸F534和P535之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸K604和G605之间。在其他实施方案中,催化结构域插入在BhCas12b的氨基酸H344和F345之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸位置147和148、248和249、299和300、991和992或1031和1032或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸P147和D148之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸G248和G249之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸P299和E300之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸G991和E992之间。在其他实施方案中,催化结构域插入在BvCas12b的氨基酸K1031和M1032之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸位置157和158、258和259、310和311、1008和1009或1044和1045或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸P157和G158之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸V258和G259之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸D310和P311之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸G1008和E1009之间。在其他实施方案中,催化结构域插入在AaCas12b的氨基酸G1044和K1045之间。
在其他实施方案中,融合蛋白包含核定位信号(例如,二分核定位信号)。在其他实施方案中,核定位信号的氨基酸序列是MAPKKKRKVGIHGVPAA。在上述方面的其他实施方式中,核定位信号由以下序列编码:
ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCC.在其他实施方案中,Cas12b多肽含有使RuvC结构域的催化活性沉默的突变。在其他实施方案中,Cas12b多肽D574A、D829A和/或D952A突变。在其他实施方案中,融合蛋白还包含标签(例如,流感血凝素标签)。
在一些实施方案中,融合蛋白包含具有内部融合的核碱基编辑结构域(例如,脱氨酶结构域,例如腺苷脱氨酶结构域)的全部或部分的napDNAbp结构域(例如,Cas12衍生结构域)。在一些实施方案中,所述napDNAbp是Cas12b。在一些实施方案中,碱基编辑器包含BhCas12b结构域,在下表13B中提供的基因座处插入了一个内部融合的TadA*8域。
表13B:Cas12b蛋白中的插入位点
Figure BDA0003298963610003801
Figure BDA0003298963610003811
作为非限制性实例,可以将腺苷脱氨酶(例如,ABE8.13)插入到BhCas12b中以产生有效编辑核酸序列的融合蛋白(例如,ABE8.13-BhCas12b)。
示例性但非限制性的融合蛋白在美国临时申请号62/852,228和62/852,224中有所描述,其内容通过引用整体并入本文。
编辑核酸的方法
本公开的一些方面提供了用于编辑核酸的方法。在一些实施方案中,所述方法是用于编辑编码蛋白质的核酸分子的核碱基(例如,双链DNA序列的碱基对)的方法。在一些实施例中,该方法包括以下步骤:a)使核酸的靶标区域(例如双链DNA序列)与包含碱基编辑器和引导核酸(例如gRNA)的复合物接触,b)诱导所述靶标区域的链分离,c)将靶标区域的单链中的所述靶标核碱基对的第一个核碱基转化为第二个核碱基,和d)使用nCas9切割不超过一条所述靶标区域的链,其中与第一个核碱基互补的第三个核碱基是被与第二个核碱基互补的第四个核碱基取代。在一些实施方案中,该方法导致核酸中少于20%的插入缺失形成。应当理解,在一些实施方案中,省略了步骤b。在一些实施例中,该方法导致小于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或低于0.1%的插入缺失形成率。在一些实施方案中,该方法进一步包括用与第四个核碱基互补的第五个核碱基替换第二个核碱基,从而产生预期的编辑碱基对(例如,G·C到A·T)。在一些实施方案中,至少5%的预期碱基对被编辑。在一些实施方案中,至少10%、15%、20%、25%、30%、35%、40%、45%或50%的预期碱基对被编辑。
在一些实施方案中,靶标核苷酸中的预期产物与非预期产物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或200:1或更高。在一些实施方案中,预期突变与插入缺失形成的比率大于1:1、10:1、50:1、100:1、500:1或1000:1或更多。在一些实施方案中,切割的单链(切口链)与引导核酸杂交。在一些实施方案中,切割的单链与包含第一核碱基的链相反。在一些实施方案中,碱基编辑器包含一个dCas9结构域。在一些实施方案中,所述碱基编辑器保护或结合非编辑链。在一些实施方案中,预期的编辑碱基对位于PAM位点的上游。在一些实施例中,所述碱基对的预期编辑是PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,预期的编辑碱基对位于PAM位点的下游。在一些实施方案中,所述碱基对的预期编辑是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,所述方法不需要规范的(例如,NGG)PAM站点。在一些实施方案中,所述核碱基编辑器包含一个连接子。在一些实施方案中,所述连接子的长度是1-25个氨基酸。在一些实施方案中,所述连接子的长度是5-20个氨基酸。在一些实施方案中,连接子的长度是10、11、12、13、14、15、16、17、18、19或20个氨基酸。在一个实施方案中,连接子的长度为32个氨基酸。在另一个实施方案中,“长连接子”的长度为至少约60个氨基酸。在其他实施方案中,连接子长度在约3-100个氨基酸之间。在一些实施方案中,靶标区域包括靶标窗口,其中靶标窗口包含靶标核碱基对。在一些实施例中,靶标窗口包含1-10个核苷酸。在一些实施例中,靶标窗口的长度是1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸。在一些实施例中,靶标窗口的长度是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,碱基对的预期编辑在靶标窗口内。在一些实施例中,靶标窗口包含碱基对的预期编辑。在一些实施例中,所述方法使用本文提供的任何碱基编辑器进行。在一些实施例中,靶标窗口是甲基化窗口。
在一些实施方案中,本公开提供了用于编辑核苷酸(例如,编码蛋白质的基因中的SNP)的方法。在一些实施方案中,本公开提供了一种用于编辑双链DNA序列的核碱基对的方法。在一些实施方案中,该方法包括a)使双链DNA序列的靶标区域与包含碱基编辑器和引导核酸(例如gRNA)的复合物接触,其中靶标区域包含靶标核碱基对,b)诱导所述靶标区域的链分离,c)将靶标区域的单链中的所述靶标核碱基对的第一个核碱基转化为第二个核碱基,d)切割不超过一条所述靶标区域的链,其中第三个核碱基互补第一核碱基被与第二核碱基互补的第四核碱基替换,并且第二核碱基被与第四核碱基互补的第五核碱基替换,从而产生预期的编辑碱基对,其中产生预期的编辑碱基对的效率至少为5%。应当理解,在一些实施方案中,省略了步骤b。在一些实施方案中,至少5%的预期碱基对被编辑。在一些实施方案中,至少10%、15%、20%、25%、30%、35%、40%、45%或50%的预期碱基对被编辑。在一些实施方案中,所述方法导致小于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%或低于0.1%的插入缺失形成率。在一些实施方案中,靶标核苷酸处的预期产物与非预期产物的比率为至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1或200:1或更高。在一些实施方案中,预期突变与插入缺失形成的比率大于1:1、10:1、50:1、100:1、500:1或1000:1或更多。在一些实施方案中,切割的单链与引导核酸杂交。在一些实施方案中,切割的单链与包含第一核碱基的链相反。在一些实施方案中,预期的编辑碱基对位于PAM位点的上游。在一些实施例中,所述碱基对的预期编辑是PAM位点上游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,预期的编辑碱基对位于PAM位点的下游。在一些实施方案中,所述碱基对的预期编辑是PAM位点下游1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施例中,所述方法不需要规范的(例如,NGG)PAM站点。在一些实施方案中,所述连接子的长度是1-25个氨基酸。在一些实施方案中,所述连接子的长度是5-20个氨基酸。在一些实施方案中,所述连接子的长度是10、11、12、13、14、15、16、17、18、19或20个氨基酸。在一些实施方案中,靶标区域包括靶标窗口,其中靶标窗口包含靶标核碱基对。在一些实施例中,靶标窗口包含1-10个核苷酸。在一些实施例中,靶标窗口的长度是1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2或1个核苷酸。在一些实施例中,靶标窗口的长度是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个核苷酸。在一些实施方案中,预期编辑的碱基对出现在靶标窗口内。在一些实施例中,靶标窗口包含碱基对的预期编辑。在一些实施例中,所述核碱基编辑器是本文提供的任何一种碱基编辑器。
融合蛋白在宿主细胞中的表达
包含腺苷脱氨酶变体的本发明的融合蛋白可以使用技术人员已知的常规方法在实际上任何感兴趣的宿主细胞中表达,包括但不限于细菌、酵母、真菌、昆虫、植物和动物细胞。例如,可以通过基于cDNA序列为CDS的上游和下游设计合适的引物来克隆编码本发明的腺苷脱氨酶的DNA。克隆的DNA可以直接,或在需要时用限制酶消化后,或在添加合适的连接子和/或核定位信号后与编码碱基编辑系统的一种或多种额外组分的DNA连接。碱基编辑系统在宿主细胞中被转译以形成复合体。
编码本文所述的蛋白质结构域的DNA可以通过化学合成DNA获得,或者通过利用PCR方法和Gibson组装法连接合成的部分重叠的寡聚DNA短链以构建编码其全长的DNA。通过化学合成或结合PCR方法或Gibson Assembly方法构建全长DNA的优点是,可以根据引入DNA的宿主以CDS全长形式设计要使用的密码子。在异源DNA的表达中,通过将其DNA序列转化为宿主生物中频繁使用的密码子,预计蛋白质表达水平会增加。作为要使用的宿主中密码子使用频率的数据,例如可以使用在Kazusa DNA研究所的主页中公开的遗传密码使用频率数据库(http://www.kazusa.or.jp/codon/index.html),也可以参考显示每个宿主中密码子使用频率的文件。参考获得的数据和要引入的DNA序列,可以将用于DNA序列的密码子中在宿主中显示低使用频率的密码子转换为编码相同氨基酸并显示高使用频率的密码子。
包含编码核酸序列识别模块和/或核酸碱基转化酶的DNA的表达载体可以例如通过将DNA连接到合适表达载体中的启动子的下游来生产。
作为表达载体,来源于大肠杆菌的质粒(例如,pBR322、pBR325、pUC12、pUC13);枯草芽孢杆菌衍生的质粒(例如,pUB110、pTP5、pC194);酵母来源的质粒(例如,pSH19、pSH15);昆虫细胞表达质粒(例如,pFast-Bac);动物细胞表达质粒(例如,pA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo);噬菌体如.lamda.phage等;昆虫病毒载体例如杆状病毒等(例如,BmNPV、AcNPV);使用动物病毒载体,例如逆转录病毒、痘苗病毒、腺病毒等。
作为启动子,可以使用适合用于基因表达的宿主的任何启动子。在使用DSB的常规方法中,由于宿主细胞的存活率有时会因毒性而显著降低,因此期望通过使用诱导启动子在诱导开始时增加细胞数。然而,由于通过表达本发明的核酸修饰酶复合物也可以提供足够的细胞增殖,因此也可以不受限制地使用构成启动子。
例如,当宿主是动物细胞时,使用SR.alpha.启动子、SV40启动子、LTR启动子、CMV(巨细胞病毒)启动子、RSV(劳斯肉瘤病毒)启动子、MoMuLV(莫洛尼鼠白血病病毒)LTR、HSV-TK(单纯疱疹病毒胸苷激酶)启动子等。其中,优选CMV启动子、SR.alpha.启动子等。
当宿主为大肠杆菌时,优选trp启动子、lac启动子、recA启动子、lamda.P.sub.L启动子、lpp启动子、T7启动子等。
当宿主为芽孢杆菌属时,优选SPO1启动子、SPO2启动子、penP启动子等。
当宿主为酵母时,优选Gal1/10启动子、PHO5启动子、PGK启动子、GAP启动子、ADH启动子等。
当宿主是昆虫细胞时,优选多角体蛋白启动子、P10启动子等。
当宿主是植物细胞时,优选CaMV35S启动子、CaMV19S启动子、NOS启动子等。
作为表达载体,除上述载体外,还可以根据需要使用含有增强子、剪接信号、终止子、polyA添加信号、抗药性基因、营养缺陷型互补基因等选择标记、复制起点等的表达载体。
编码本文所述的蛋白质结构域的RNA可以通过例如在本身已知的体外转录系统中通过使用编码上述核酸序列识别模块和/或核酸的编码DNA的载体转录为mRNA来制备。以碱基转化酶为模板。
本发明的融合蛋白可以通过将含有编码核酸序列识别模块和/或核酸碱基转化酶的DNA的表达载体导入宿主细胞并培养宿主细胞而在细胞内表达。
作为宿主,使用埃希氏菌属、芽孢杆菌属、酵母、昆虫细胞、昆虫、动物细胞等。
作为大肠杆菌属,大肠杆菌K12.cndot.DH1[Proc.Natl.Acad.Sci.USA,60,160(1968)],大肠杆菌JM103[Nucleic Acids Research,9,309(1981)],大肠杆菌JA221[Journal of Molecular Biology,120,517(1978)],大肠杆菌HB101[Journal ofMolecular Biology,41,459(1969)],大肠杆菌C600[Genetics,39,440(1954)]等被使用。
作为芽孢杆菌属,使用枯草芽孢杆菌M1114[Gene,24,255(1983)],枯草芽孢杆菌207-21[Journal of Biochemistry,95,87(1984)]等。
作为酵母,使用酿酒酵母AH22、AH22R.sup.-、NA87-11A、DKD-5D、20B-12、粟酒裂殖酵母NCYC1913、NCYC2036、毕赤酵母KM71等。
作为昆虫细胞,当病毒为AcNPV时,白菜夜蛾幼虫来源的细胞建立系(草地夜蛾细胞;Sf细胞),粉纹夜蛾中肠来源的MG1细胞,High Five.TM。使用源于Trichoplusia ni的卵的细胞、源于Mamestra brasicae的细胞、源于Estigmena acrea的细胞等。当病毒为BmNPV时,家蚕来源的建立系(家蚕N细胞;BmN细胞)等的细胞用作昆虫细胞。作为Sf细胞,例如使用Sf9细胞(ATCC CRL1711)、Sf21细胞[all above,In Vivo,13,213-217(1977)]等。
作为昆虫,例如使用家蚕、果蝇、蟋蟀等的幼虫[Nature,315,592(1985)]。
作为动物细胞,细胞系如猴COS-7细胞、猴Vero细胞、中国仓鼠卵巢(CHO)细胞、dhfr基因缺陷型CHO细胞、小鼠L细胞、小鼠AtT-20细胞、小鼠骨髓瘤细胞、大鼠GH3使用人类和其他哺乳动物的iPS细胞、ES细胞等多能干细胞,以及由各种组织制备的原代培养细胞。此外,还可以使用斑马鱼胚胎、非洲爪蟾卵母细胞等。
作为植物细胞,悬浮培养的细胞、愈伤组织、原生质体、叶段、根段等由各种植物(例如水稻、小麦、玉米等谷物,番茄、黄瓜、茄子等产品作物)制备而成。如康乃馨、洋桔梗等园林植物,烟草、拟南芥等实验植物等)。
上述所有宿主细胞都可以是单倍体(单倍体),也可以是多倍体(例如二倍体、三倍体、四倍体等)。在传统的突变引入方法中,突变原则上只引入一个同源染色体以产生异种基因类型。因此,除非发生显性突变,否则不会表达所需的表型,并且纯合子不方便地需要劳力和时间。相比之下,根据本发明,由于可以将突变引入基因组中同源染色体上的任何等位基因,因此即使在隐性突变的情况下也可以在一代中表达期望的表型,这非常有用,因为常规方法可以解决。
根据宿主的种类,表达载体可以通过已知的方法(例如溶菌酶法、感受态法、PEG法、CaCl2.sub.2共沉淀法、电穿孔法、显微注射法、粒子枪法、脂质转染法、农杆菌法等)导入。
大肠杆菌可以根据所述方法转化,例如,Proc.Natl.Acad.Sci.USA,69,2110(1972),Gene,17,107(1982)等。
芽孢杆菌属可以根据例如Molecular&General Genetics,168,111(1979)等中描述的方法引入载体中。
酵母可以根据描述的方法引入载体中,例如Molecular&General Genetics,194,187(1991),Proc.Natl.Acad.Sci.USA,75,1929(1978)等。
昆虫细胞和昆虫可以根据描述于例如Bio/Technology,6,47-55(1988)等方法引入到载体中。
动物细胞可根据描述于,例如,Cell Engineering additional volume 8,NewCell Engineering Experiment Protocol,263-267(1995)(published by Shujunsha),和Virology,52,456(1973)方法引入到载体。
导入了载体的细胞可以根据宿主的种类按照公知的方法进行培养。
例如,当培养大肠杆菌或芽孢杆菌属时,优选液体培养基作为用于培养的培养基。培养基优选含有转化体生长所需的碳源、氮源、无机物等。碳源的例子包括葡萄糖、糊精、可溶性淀粉、蔗糖等;氮源的例子包括无机或有机物质,例如铵盐、硝酸盐、玉米浆、蛋白胨、酪蛋白、肉提取物、豆饼、马铃薯提取物等。无机物的例子包括氯化钙、磷酸二氢钠、氯化镁等。培养基可以含有酵母提取物、维生素、生长促进因子等。培养基的pH值优选为约5至约8。
作为用于培养大肠杆菌的培养基,例如,含有葡萄糖、酪蛋白氨基酸的M9培养基[Journal of Experiments in Molecular Genetics,431-433,Cold Spring HarborLaboratory,New York 1972]是优选的。必要时,例如,可以将诸如3β-吲哚基丙烯酸之类的试剂添加到培养基中以确保促进剂的有效功能。大肠杆菌通常在约15到约43C下培养。必要时可进行曝气和搅拌。
芽孢杆菌属通常在约30到约40℃下培养。必要时可进行曝气和搅拌。
用于培养酵母的培养基的例子包括Burkholder最小培养基[Proc.Natl.Acad.Sci.USA,77,4505(1980)],SD培养基含有0.5%酪蛋白氨基酸[Proc.Natl.Acad.Sci.USA,81,5330(1984)]等。培养基的pH值优选为约5至约8。培养通常在约20℃到约35℃下进行。必要时可进行曝气和搅拌。
作为用于培养昆虫细胞或昆虫的培养基,例如,使用适当地含有诸如灭活的10%牛血清等添加剂的Grace's Insect Medium[Nature,195,788(1962)]等。培养基的pH值优选为约6.2至约6.4。培养通常在约27℃下进行。必要时可进行曝气和搅拌。
作为用于培养动物细胞的培养基,例如,含有约5到约20%胎牛血清的最低必需培养基(MEM)[Science,122,501(1952)]、Dulbecco's modified Eagle medium(DMEM)[Virology,8,396(1959)]、RPMI 1640medium[The Journal of the American MedicalAssociation,199,519(1967)]、199medium[Proceeding of the Society for theBiological Medicine,73,1(1950)]等被使用。培养基的pH值优选为约6至约8。培养通常在约30℃到约40℃下进行。必要时可进行曝气和搅拌。
作为培养植物细胞的培养基,例如使用MS培养基、LS培养基、B5培养基等。培养基的pH值优选为约5至约8。培养通常在约20℃到约30℃下进行。必要时可进行曝气和搅拌。
当高等真核细胞,例如动物细胞、昆虫细胞、植物细胞等用作宿主细胞时,将编码本发明的碱基编辑系统(例如,包含腺苷脱氨酶变体)的DNA引入到在诱导型启动子(例如,金属硫蛋白启动子(由重金属离子诱导)、热休克蛋白启动子(由热休克诱导)、Tet-ON/Tet-OFF系统启动子(通过添加或去除四环素诱导)调控下的宿主细胞)或其衍生物)、类固醇反应启动子(由类固醇激素或其衍生物诱导)等),在适当的阶段将诱导物质加入培养基中(或从培养基中去除)以诱导核酸的表达-修饰酶复合物,培养一定时间进行碱基编辑,将突变引入靶基因,实现碱基编辑系统的瞬时表达。
原核细胞例如大肠杆菌等可以利用诱导型启动子。诱导型启动子的实例包括但不限于lac启动子(由IPTG诱导)、cspA启动子(由冷休克诱导)、araBAD启动子(由阿拉伯糖诱导)等。
或者,当以动物细胞、昆虫细胞、植物细胞等高等真核细胞作为宿主细胞时,也可以利用上述诱导性启动子作为载体去除机制。即,载体安装有在宿主细胞中起作用的复制起点和编码复制所必需的蛋白质的核酸(例如,SV40和大T抗原、oriP和EBNA-1等用于动物细胞),编码蛋白质的核酸的表达受上述诱导型启动子调控。因此,虽然载体在诱导物质存在的情况下可以自主复制,但当去除诱导物质时,自主复制不可用,载体自然随着细胞分裂而脱落(通过添加不能自主复制Tet-OFF系统载体中的四环素和强力霉素)。
递送系统
基于核酸的核碱基编辑器和gRNA的递送
可以通过本领域已知的方法或如本文所述,在体外或体内将编码根据本公开内容的碱基编辑系统的核酸施用于受试者或递送至细胞中。在一个实施方案中,核碱基编辑器可以通过例如载体(例如病毒或非病毒载体)、基于非载体的方法(例如,使用裸DNA、DNA复合物、脂质纳米颗粒)或其组合递送。
编码核碱基编辑器的核酸可以以裸露的DNA或RNA的形式直接递送至细胞(例如,造血细胞或其祖细胞、造血干细胞和/或诱导多能干细胞),例如通过转染或电穿孔,或者可以是与促进靶细胞摄取的分子(例如,N-乙酰半乳糖胺)结合。也可以使用核酸载体,例如本文所述的载体。
核酸载体可包含编码本文所述的融合蛋白的结构域的一个或多个序列。载体还可包含编码信号肽(例如,用于核定位、核仁定位或线粒体定位)的序列,该序列与编码蛋白质的序列相关联(例如,插入或融合到)。作为一个实例,核酸载体可以包括Cas9编码序列,其包括一个或多个核定位序列(例如,来自SV40的核定位序列)和腺苷脱氨酶变体(例如,TadA*8)。
核酸载体还可包括任何合适数量的调节/控制元件,例如启动子、增强子、内含子、聚腺苷酸化信号、Kozak共有序列或内部核糖体进入位点(IRES)。这些元件在本领域中是众所周知的。对于造血细胞,合适的启动子可以包括IFNβ或CD45。
根据本公开的核酸载体包括重组病毒载体。示例性病毒载体在本文中阐述。也可以使用本领域已知的其他病毒载体。此外,病毒颗粒可用于递送核酸和/或肽形式的碱基编辑系统组件。例如,“空”病毒颗粒可以组装成包含任何合适的货物。病毒载体和病毒颗粒也可以被设计成结合靶向配体来改变靶组织特异性。
除了病毒载体,非病毒载体可用于递送编码根据本公开的基因组编辑系统的核酸。一类重要的非病毒核酸载体是纳米颗粒,它可以是有机的或无机的。纳米颗粒在本领域中是众所周知的。任何合适的纳米颗粒设计均可用于递送基因组编辑系统组件或编码此类组件的核酸。例如,有机(例如脂质和/或聚合物)纳米颗粒可适合用作本公开的某些实施例中的递送载体。用于纳米颗粒制剂和/或基因转移的示例性脂质示于表14(以下)。
表14:
Figure BDA0003298963610003901
Figure BDA0003298963610003911
表15列出了用于基因转移和/或纳米颗粒制剂的示例性聚合物。
表15:
Figure BDA0003298963610003912
Figure BDA0003298963610003921
表16总结了编码本文所述融合蛋白的多核苷酸的递送方法。
表16:
Figure BDA0003298963610003922
Figure BDA0003298963610003931
在另一方面,基因组编辑系统组件或编码此类组件的核酸,例如核酸结合蛋白,例如Cas9或其变体,以及靶向感兴趣的基因组核酸序列的gRNA的递送,可以通过将核糖核蛋白(RNP)递送至细胞来实现。RNP包含与靶向gRNA复合的核酸结合蛋白,例如Cas9。可以使用已知方法将RNPs递送至细胞,例如电穿孔、核转染或阳离子脂质介导的方法,例如Zuris,J.A.等人,2015,Nat.Biotechnology,33(1):73-80报导的。RNPs有利于在CRISPR基础编辑系统中使用,特别是对于难以转染的细胞,如原代细胞。此外,RNP还可以缓解细胞中蛋白质表达可能出现的困难,特别是当真核启动子(例如CRISPR质粒中使用的CMV或EF1A)未得到良好表达时。有利地,RNP的使用不需要将外源DNA递送到细胞中。此外,由于包含核酸结合蛋白和gRNA复合物的RNP会随时间降解,因此使用RNP有可能限制脱靶效应。以类似于基于质粒的技术的方式,RNP可用于递送结合蛋白(例如,Cas9变体)和指导同源定向修复(HDR)。
用于驱动碱基编辑器编码核酸分子表达的启动子可以包括AAV ITR。这有利于消除对额外启动子元件的需要,该元件会占据载体中的空间。释放的额外空间可用于驱动额外元件的表达,例如引导核酸或选择标记。ITR活性相对较弱,因此可用于降低因所选核酸酶过度表达而导致的潜在毒性。
可以使用任何合适的启动子来驱动碱基编辑器和在适当情况下引导核酸的表达。对于普及的表达,可以使用的启动子包括CMV、CAG、CBh、PGK、SV40、铁蛋白重链或轻链等。对于脑或其他CNS细胞表达,合适的启动子可以包括:SynapsinI适用于所有神经元,CaMKIIalpha适用于兴奋性神经元,GAD67或GAD65或VGAT适用于GABA能神经元等。对于肝细胞表达,合适的启动子包括白蛋白启动子。对于肺细胞表达,合适的启动子可以包括SP-B。对于内皮细胞,合适的启动子可以包括ICAM。对于造血细胞,合适的启动子可以包括IFNβ或CD45。对于成骨细胞,合适的启动子可以包括OG-2。
在一些实施方案中,本公开的碱基编辑器具有足够小的尺寸以允许单独的启动子驱动碱基编辑器和相容的引导核酸在同一核酸分子内的表达。例如,载体或病毒载体可包含与编码碱基编辑器的核酸可操作连接的第一启动子和与引导核酸可操作连接的第二启动子。
用于驱动引导核酸表达的启动子可以包括:Pol III启动子,例如U6或H1使用PolII启动子和内含子盒来表达gRNA腺相关病毒(AAV)。
在一些实施方案中,本文所述的用于编辑免疫细胞中特定基因的方法可用于遗传修饰CAR-T细胞。此类CAR-T细胞和产生此类CAR-T细胞的方法描述于国际申请号PCT/US2016/060736、PCT/US2016/060734、PCT/US2016/034873、PCT/US2015/040660、PCT/EP2016/055332、PCT/IB2015/058650、PCT/EP2015/067441、PCT/EP2014/078876、PCT/EP2014/059662、PCT/IB2014/061409、PCT/US2016/019192、PCT/US2015/059106、PCT/US2016/052260、PCT/US2015/020606、PCT/US2015/055764、PCT/CN2014/094393、PCT/US2017/059989、PCT/US2017/027606和PCT/US2015/064269,其各自的全部内容在此并入。
病毒载体
因此,本文所述的碱基编辑器可以与病毒载体一起递送。在一些实施方案中,本文公开的碱基编辑器可以在病毒载体中包含的核酸上编码。在一些实施方案中,碱基编辑器系统的一种或多种组件可以在一种或多种病毒载体上编码。例如,碱基编辑器和引导核酸可以在单个病毒载体上编码。在其他实施方案中,碱基编辑器和引导核酸在不同的病毒载体上编码。在任一情况下,碱基编辑器和引导核酸均可与启动子和终止子可操作地连接。病毒载体上编码的组分的组合可以通过所选病毒载体的货物大小限制来确定。
使用基于RNA或DNA病毒的系统来递送碱基编辑器,利用高度进化的过程将病毒靶向培养中或宿主中的特定细胞,并将病毒有效载荷运送到细胞核或宿主细胞基因组。病毒载体可以直接施用于培养中的细胞、患者(体内),或者它们可以用于体外处理细胞,并且可以任选地将修饰的细胞施用于患者(离体)。常规的基于病毒的系统可以包括用于基因转移的逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体。逆转录病毒、慢病毒和腺相关病毒基因转移方法可以整合到宿主基因组中,通常会导致插入的转基因长期表达。此外,在许多不同的细胞类型和靶组织中都观察到了高转导效率。
病毒载体可包括慢病毒(例如基于HIV和FIV的载体)、腺病毒(例如AD100)、逆转录病毒(例如马洛尼鼠白血病病毒MML-V)、疱疹病毒载体(例如HSV-2)和腺病毒载体。相关病毒(AAV)或其他质粒或病毒载体类型,特别是使用来自例如美国专利第8,454,972号(腺病毒的制剂、剂量)、美国专利第8,404,658号(AAV的制剂、剂量)的制剂和剂量)和美国专利第5,846,946号(DNA质粒的制剂、剂量)以及来自涉及慢病毒、AAV和腺病毒的临床试验的临床试验和出版物。例如,对于AAV,给药途径、制剂和剂量可以如美国专利号8,454,972和涉及AAV的临床试验。对于腺病毒,给药途径、制剂和剂量可以如美国专利号8,404,658和涉及腺病毒的临床试验。对于质粒递送,给药途径、制剂和剂量可以如美国专利号5,846,946和涉及质粒的临床研究。剂量可以基于或外推到平均70公斤的个体(例如成年男性),并且可以针对不同体重和物种的患者、受试者、哺乳动物进行调整。给药频率在医学或兽医从业者(例如,医师、兽医)的范围内,这取决于通常的因素,包括患者或受试者的年龄、性别、一般健康状况、其他状况以及正在解决的特定状况或症状。病毒载体可以注射到感兴趣的组织中。对于细胞类型特异性碱基编辑,碱基编辑器和可选引导核酸的表达可由细胞类型特异性启动子驱动。
逆转录病毒的趋向性可以通过掺入外来包膜蛋白来改变,扩大靶细胞的潜在目标群体。慢病毒载体是能够转导或感染非分裂细胞并通常产生高病毒滴度的逆转录病毒载体。因此,逆转录病毒基因转移系统的选择将取决于靶标组织。逆转录病毒载体由顺式作用的长末端重复序列组成,其包装能力高达6-10kb的外源序列。最小的顺式作用LTR足以复制和包装载体,然后用于将治疗基因整合到靶标细胞中以提供永久的转基因表达。广泛使用的逆转录病毒载体包括基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人类免疫缺陷病毒(HIV)及其组合的那些(参见,例如,Buchscher等人,J.Virol.66:2731-2739(1992);Johann等人,J.Virol.66:1635-1640(1992);Sommnerfelt等人,Virol.176:58-59(1990);Wilson等人,J.Virol.63:2374-2378(1989);Miller等人,J.Virol.65:2220-2224(1991);PCT/US94/05700).
逆转录病毒载体,尤其是慢病毒载体,可能需要小于给定长度的多核苷酸序列以有效整合到靶细胞中。例如,长度大于9kb的逆转录病毒载体与较小的病毒载体相比,会导致病毒滴度较低。在一些方面,本公开内容的碱基编辑器具有足够的大小以使得能够通过逆转录病毒载体有效包装和递送到靶标细胞中。在一些实施方案中,碱基编辑器的大小使得即使在与引导核酸和/或可靶向核酸酶系统的其他组分一起表达时也允许有效包装和递送。
在首选暂时表达的应用中,可以使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有非常高的转导效率并且不需要细胞分裂。使用这样的载体,已经获得了高滴度和表达水平。该载体可以在相对简单的系统中大量生产。腺相关病毒(“AAV”)载体也可用于用靶标核酸转导细胞,例如在核酸和肽的体外生产中,以及用于体内和离体基因治疗程序(参见,例如,West等人,Virology160:38-47(1987);美国专利号4,797,368;WO93/24641;Kotin,Human Gene Therapy 5:793-801(1994);Muzyczka,J.Clin.Invest.94:1351(1994).重组AAV载体的构建在许多出版物中有所描述,包括美国专利号5,173,414;Tratschin等人,Mol.Cell.Biol.5:3251-3260(1985);Tratschin,等人,Mol.Cell.Biol.4:2072-2081(1984);Hermonat&Muzyczka,PNAS81:6466-6470(1984);和Samulski等人,J.Virol.63:03822-3828(1989).
AAV是一种小型的单链DNA依赖性病毒,属于细小病毒家族。4.7kb野生型(wt)AAV基因组由两个基因组成,分别编码四种复制蛋白和三种衣壳蛋白,两侧各有145bp反向末端重复序列(ITR)。病毒粒子由三种衣壳蛋白Vp1、Vp2和Vp3组成,它们以1:1:10的比例从相同的开放阅读框产生,但来自差异剪接(Vp1)和替代转译起始位点(分别为Vp2和Vp3)。Vp3是病毒体中最丰富的亚基,并参与定义病毒向性的细胞表面受体识别。已在Vp1的独特N末端鉴定出一个在病毒感染性中起作用的磷脂酶结构域。
与wt AAV类似,重组AAV(rAAV)利用顺式作用的145bp ITR位于载体转基因盒的侧翼,提供高达4.5kb的外源DNA包装。感染后,rAAV可以表达本发明内容的融合蛋白,并通过环状头尾串联体中游离存在的方式持续存在而不整合到宿主基因组中。尽管有许多使用该系统在体外和体内成功的rAAV实例,但当基因编码序列的长度等于或大于wt AAV基因组。
可以根据应用选择病毒载体。例如,对于体内基因传递,AAV可能优于其他病毒载体。在一些实施方案中,AAV允许低毒性,这可能是由于纯化方法不需要可以激活免疫反应的细胞颗粒的超速离心。在一些实施例中,AAV允许引起插入诱变的可能性很低,因为它不整合到宿主基因组中。腺病毒通常用作疫苗,因为它们诱导强烈的免疫原性反应。病毒载体的包装容量会限制可以包装到载体中的碱基编辑器的大小。
AAV的包装容量约为4.5Kb或4.75Kb,包括两个145碱基反向末端重复序列(ITR)。这意味着公开的碱基编辑器以及启动子和转录终止子可以适合单个病毒载体。大于4.5或4.75Kb的构建体会导致病毒产量显著降低。比如SpCas9很大,基因本身就超过4.1Kb,很难打包成AAV。因此,本公开的实施例包括利用长度比常规碱基编辑器短的公开碱基编辑器。在一些示例中,碱基编辑器小于4kb。公开的碱基编辑器可以小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.3kb、3.3kb kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb或1.5kb。在一些实施例中,所公开的碱基编辑器的长度为4.5kb或更小。
AAV可以是AAV1、AAV2、AAV5或其任意组合。可以根据要靶向的细胞选择AAV的类型;例如,可以选择AAV血清型1、2、5或混合衣壳AAV1、AAV2、AAV5或其任何组合来靶向脑或神经元细胞;并且可以选择AAV4来靶向心脏组织。AAV8可用于递送至肝脏。关于这些细胞的某些AAV血清型的列表可以在Grimm,D.等人,J.Virol.82:5887-5911(2008))中找到。
慢病毒是复杂的逆转录病毒,具有在有丝分裂和有丝分裂后细胞中感染和表达其基因的能力。最常见的慢病毒是人类免疫缺陷病毒(HIV),它使用其他病毒的包膜糖蛋白来靶向广泛的细胞类型。
慢病毒可以如下制备。克隆pCasES10(包含慢病毒转移质粒骨架)后,将低传代(p=5)的HEK293FT接种到T-75烧瓶中,在转染前一天在含有10%胎牛血清且不含抗生素的DMEM中达到50%汇合。20小时后,将培养基更换为OptiMEM(无血清)培养基,4小时后进行转染。用10μg慢病毒转移质粒(pCasES10)和以下包装质粒转染细胞:5μg pMD2.G(VSV-g假型)和7.5μg psPAX2(gag/pol/rev/tat)。可以在4mL OptiMEM中使用阳离子脂质递送剂(50μlLipofectamine2000和100μl Plus试剂)进行转染。6小时后,将培养基更换为含10%胎牛血清的不含抗生素的DMEM。这些方法在细胞培养过程中使用血清,但优选无血清方法。
慢病毒可以如下纯化。48小时后收获病毒上清液。上清液首先清除碎屑,然后通过0.45μm低蛋白结合(PVDF)过滤器过滤。然后将它们在超速离心机中以24,000rpm的速度旋转2小时。病毒颗粒在50μl DMEM中于4℃下重悬过夜。然后等分并立即在-80℃下冷冻。
在另一个实施方案中,还考虑了基于马传染性贫血病毒(EIAV)的最小非灵长类慢病毒载体。在另一个实施方案中,RetinoStat.RTM.,一种基于马传染性贫血病毒的慢病毒基因治疗载体,其表达预期通过视网膜下注射递送的血管抑制蛋白内皮抑制素和血管抑制素。在另一个实施方案中,考虑使用自我灭活的慢病毒载体。
该系统的任何RNA,例如引导RNA或碱基编辑器编码的mRNA,都可以以RNA的形式递送。可以使用体外转录生成碱基编辑器编码mRNA。例如,可以使用包含以下元件的PCR盒合成核酸酶mRNA:T7启动子、可选的kozak序列(GCCACC)、核酸酶序列和3'UTR,例如来自β珠蛋白-polyA尾部的3'UTR。该盒可用于T7聚合酶的转录。引导多核苷酸(例如,gRNA)也可以使用体外转录从包含T7启动子的盒中转录,然后是序列“GG”和引导多核苷酸序列。
为了增强表达并降低可能的毒性,可以修饰碱基编辑器编码序列和/或引导核酸以包括一种或多种修饰的核苷,例如使用伪U或5-甲基-C。
AAV载体的小包装容量使得大量基因的传递和/或大型生理调控元件的使用具有挑战性。例如,可以通过将要递送的蛋白质分成两个或多个片段来解决这些挑战,其中N端片段与分裂的内含肽-N融合,C端片段与分裂的内含肽融合内含肽-C。然后将这些片段打包成两个或多个AAV载体。如本文所用,“内含子”是指连接侧翼N-末端和C-末端外显子(例如,要连接的片段)的自剪接蛋白质内含子(例如,肽)。某些内含肽用于连接异源蛋白质片段的用途在例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中被描述。例如,当与分离的蛋白质片段融合时,内含肽IntN和IntC相互识别,将自身剪断并同时连接它们所融合的蛋白质片段的侧翼N和C端外显肽,从而重建来自两个蛋白质片段的全长蛋白质。其他合适的内含肽对本领域技术人员来说是显而易见的。
本发明的融合蛋白的片段的长度可以不同。在一些实施例中,蛋白质片段的长度从2个氨基酸到约1000个氨基酸。在一些实施例中,蛋白质片段的长度从5个氨基酸到约500个氨基酸。在一些实施例中,蛋白质片段的长度从20个氨基酸到约200个氨基酸。在一些实施例中,蛋白质片段的长度从10个氨基酸到约100个氨基酸。其他长度的合适蛋白质片段对本领域技术人员来说是显而易见的。
在一个实施方案中,双AAV载体是通过将一个大的转基因表达盒分成两半(5'和3'端,或头和尾)而产生的,其中盒的每一半都被包装在一个AAV载体中(<5KB)。然后通过两种双AAV载体共感染同一细胞实现全长转基因表达盒的重新组装,然后:(1)5'和3'基因组之间的同源重组(HR)(双AAV重叠载体);(2)ITR介导的5'和3'基因组的尾对头串联(双AAV反式剪接载体);或(3)这两种机制的组合(双AAV混合载体)。在体内使用双AAV载体导致全长蛋白质的表达。双AAV载体平台的使用代表了一种有效且可行的基因转移策略,适用于大小大于4.7kb的转基因。
内含肽
在一些实施方案中,核酸酶(例如,Cas9)的一部分或片段与内含肽融合。核酸酶可以融合到内含肽的N末端或C末端。在一些实施方案中,融合蛋白的一部分或片段与内含肽融合并与AAV衣壳蛋白融合。内含肽、核酸酶和衣壳蛋白可以任何排列融合在一起(例如,核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶等)。在一些实施方案中,内含肽的N末端与融合蛋白的C末端融合,并且内含肽的C末端与AAV衣壳蛋白的N末端融合。
内含肽(中间蛋白)是在各种不同生物体中发现的自动加工结构域,其执行称为蛋白质剪接的过程。蛋白质剪接是一个多步骤的生化反应,包括肽键的断裂和形成。虽然蛋白质剪接的内源性底物是在含有内含肽的生物体中发现的蛋白质,但内含肽也可用于化学操作几乎任何多肽骨架。
在蛋白质剪接中,内含肽通过切割两个肽键将自身从前体多肽中切除,从而通过形成新的肽键连接侧翼外显肽(外部蛋白质)序列。这种重排发生在转译后(或可能是共转译)。内含肽介导的蛋白质剪接自发发生,只需要内含肽结构域的折叠。
大约5%的内含肽是分裂内含肽,它们被转录和转译为两个独立的多肽,N-内含肽和C-内含肽,每个都融合到一个外显肽上。翻译后,内含肽片段自发地非共价组装成典型的内含肽结构以进行蛋白质反式剪接。蛋白质剪接的机制需要一系列酰基转移反应,导致内含肽-外显肽连接处的两个肽键断裂,并在N-和C-外显肽之间形成新的肽键。该过程通过激活连接N-外显肽和内含肽N末端的肽键而启动。几乎所有内含肽在其N末端都有一个半胱氨酸或丝氨酸,它们攻击C末端N-外显肽残基的羰基碳。这种N到O/S酰基转移是由保守的苏氨酸和组氨酸(称为TXXH基序)以及常见的天冬氨酸促进的,这导致形成线性(硫)酯中间体。接下来,该中间体通过第一个C-外显肽残基(+1)的亲核攻击进行反式(硫代)酯化,该残基是半胱氨酸、丝氨酸或苏氨酸。产生的支化(硫)酯中间体通过独特的转化得到分解:内含肽的高度保守的C端天冬酰胺的环化。该过程由组氨酸(在高度保守的HNF基序中发现)和倒数第二个组氨酸促进,也可能涉及天冬氨酸。这种琥珀酰亚胺形成反应从反应复合物中切除内含肽,并留下通过非肽键连接的外含肽。这种结构以独立于内含肽的方式迅速重排成稳定的肽键。
在一些实施方案中,碱基编辑器(例如,ABE、CBE)的N末端片段与分裂的内含肽-N融合并且C末端片段与分裂的内含肽-C融合。然后将这些片段打包成两个或多个AAV载体。某些内含肽用于连接异源蛋白质片段的用途在例如Wood等人,J.Biol.Chem.289(21);14512-9(2014)中被描述。例如,当与分离的蛋白质片段融合时,内含肽IntN和IntC相互识别,将自身剪断并同时连接它们所融合的蛋白质片段的侧翼N和C端外显肽,从而重建来自两个蛋白质片段的全长蛋白质。其他合适的内含肽对本领域技术人员来说是显而易见的。
在一些实施方案中,ABE在SpCas9的选定区域内的Ala、Ser、Thr或Cys残基处分裂成N和C末端片段。这些区域对应于由Cas9晶体结构分析确定的环区域。每个片段的N末端与内含肽-N融合,每个片段的C末端与内含肽C在氨基酸位置S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589和S590,按以下顺序以粗体大写字母表示。
Figure BDA0003298963610004011
Figure BDA0003298963610004021
使用核碱基编辑器靶向突变
如本文所述评估靶向突变的核碱基编辑器的适用性。在一个实施方案中,用碱基编辑系统连同少量编码报导基因(例如,GFP)的载体转导单个感兴趣的细胞。这些细胞可以是本领域已知的任何细胞系,包括永生化人细胞系,例如293T、K562或U20S。或者,可以使用原代细胞(例如,人)。这样的细胞可能与最终的细胞靶标相关。
可以使用病毒载体进行递送。在一个实施方案中,转染可以使用脂质转染(例如Lipofectamine或Fugene)或通过电穿孔进行。转染后,可以通过荧光显微镜或流式细胞术确定GFP的表达,以确认一致和高水平的转染。这些初步转染可以包含不同的核碱基编辑器,以确定哪种编辑器组合具有最大的活性。
如本文所述评估核碱基编辑器的活性,即通过对细胞基因组进行测序以检测靶序列中的改变。对于Sanger测序,纯化的PCR扩增子被克隆到质粒骨架中,转化、小量制备并用单一引物测序。也可以使用下一代测序技术进行测序。使用下一代测序时,扩增子可能为300-500bp,预期切割位点不对称放置。PCR之后,可以将下一代测序连接子和条形码(例如Illumina多重连接子和索引)添加到扩增子的末端,例如用于高通量测序(例如在IlluminaMiSeq上)。
可以选择在初始测试中诱导最大水平靶标特异性改变的融合蛋白进行进一步评估。
在特定实施方案中,核碱基编辑器用于靶向感兴趣的多核苷酸。在一个实施方案中,将本发明内容的核碱基编辑器与用于靶向感兴趣突变的引导RNA一起递送至细胞(例如,造血细胞或其祖细胞、造血干细胞和/或诱导多能干细胞)在细胞的基因组内,从而改变突变。在一些实施方案中,碱基编辑器被引导RNA靶向以向感兴趣基因的序列引入一个或多个编辑。
该系统可以包括一种或多种不同的载体。在一个方面,碱基编辑器是密码子优化的以表达期望的细胞类型,优选真核细胞,优选哺乳动物细胞或人类细胞。
一般而言,密码子优化是指通过替换至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50或更多个密码子)与在该宿主细胞的基因中更频繁或最频繁使用的密码子同时保持天然氨基酸序列。各种物种对特定氨基酸的某些密码子表现出特定的偏向性。密码子偏向性(生物体之间密码子使用的差异)通常与信使RNA(mRNA)的转译效率相关,其又被认为取决于,除其它外,被转译密码子的特性和特定转移RNA(tRNA)分子的可用性。细胞中所选tRNA的优势通常反映了肽合成中最常用的密码子。因此,可以基于密码子优化来定制基因以在给定生物体中进行最佳基因表达。密码子使用表很容易获得,例如,在www.kazusa.orjp/codon/上可用的“Codon Usage Database”(2002年7月9日访问)中,这些表可以通过多种方式进行调整。参见,Nakamura,Y.等人,"Codon usage tabulated fromthe international DNA sequence databases:status for the year2000"Nucl.AcidsRes.28:292(2000).用于密码子优化用于在特定宿主细胞中表达的特定序列的计算机算法也是可用的,例如Gene Forge(Aptagen;Jacobus,PA)也是可用的。在一些实施方案中,编码工程化核酸酶的序列中的一个或多个密码子(例如1、2、3、4、5、10、15、20、25、50或更多或所有密码子)对应于最常用的特定氨基酸的密码子。
包装细胞通常用于形成能够感染宿主细胞的病毒颗粒。这些细胞包括包装腺病毒的293细胞和包装逆转录病毒的psi.2细胞或PA317细胞。用于基因治疗的病毒载体通常是通过产生将核酸载体包装成病毒颗粒的细胞系来产生的。载体通常包含包装和随后整合到宿主中所需的最少病毒序列,其他病毒序列被用于要表达的多核苷酸的表达盒替换。缺失的病毒功能通常由包装细胞系反式提供。例如,用于基因治疗的AAV载体通常仅具有来自AAV基因组的ITR序列,这些序列是包装和整合到宿主基因组中所需的。病毒DNA可以包装在细胞系中,该细胞系包含编码其他AAV基因(即rep和cap)的辅助质粒,但缺少ITR序列。细胞系也可以用腺病毒作为辅助感染。辅助病毒可以促进AAV载体的复制和辅助质粒中AAV基因的表达。在某些情况下,由于缺乏ITR序列,辅助质粒没有大量包装。腺病毒的污染可以通过,例如,热处理来减少,腺病毒对于热处理比AAV更敏感的。
医药组合物
本公开的其他方面涉及包含本文所述的任何基因修饰免疫细胞、碱基编辑器、融合蛋白或融合蛋白-引导多核苷酸复合物的医药组合物。如本文所用,术语“医物组合物”是指配制用于医药用途的组合物。在一些实施方案中,医药组合物进一步包含药学上可接受的载体。在一些实施方案中,医药组合物包含另外的药剂(例如,用于特异性递送、增加半衰期或其他治疗化合物)。
在一些实施方案中,本发明提供包含本发明的经基因修饰的免疫细胞的医药组合物。更具体地,本文提供包含表达嵌合抗原受体的经基因修饰的免疫细胞或此类免疫细胞的群体的医药组合物,其中所述经修饰的免疫细胞或其群体具有至少一种经编辑的基因,其被编辑以增强所述经修饰的免疫细胞的所述功能或减少所述经修饰的免疫细胞的免疫抑制或抑制,其中所述经编辑的基因的表达被敲除或敲低。在一些实施方案中,所述至少一种经编辑的基因是TRAC、B2M、PDCD1、CBLB、CD7、CIITA、TGFBR2、ZAP70、NFATc1、TET2或其组合。除了所述经修饰的免疫细胞或其群体和载体之外,本发明的医药组合物可以包括至少一种用于治疗疾病的另外的治疗剂。例如,本文描述的医药组合物的一些实施方案进一步包含化疗剂。在一些实施方案中,所述医药组合物进一步包含细胞因子肽或编码细胞因子肽的核酸序列。在一些实施方案中,包含所述经修饰的免疫细胞或其群体的所述医药组合物可以与另外的治疗剂分开施用。
本发明的医药组合物可用于治疗对自体或同种异体免疫细胞免疫疗法有反应的任何疾病或病症。例如,在一些实施方案中,所述医药组合物可用于治疗肿瘤。在一些实施方案中,所述肿瘤是一种血液癌症。在一些实施方式中,所述血液癌症是B细胞癌,并且在一些实施方式中,所述B细胞癌是多发性骨髓瘤。在一些实施方案中,所述B细胞癌是复发性/难治性多发性骨髓瘤的复发。
关于本发明的经基因修饰的免疫细胞的治疗用途的一个考虑因素是实现最佳或令人满意的效果所必需的细胞数量。待施用的细胞量可因接受治疗的受试者而异。在一个实施方案中,向人类受试者施用104至1010、105至109或106至108之间的本发明经基因修饰的免疫应答细胞。在一些实施方案中,向人类受试者施用至少约1×108、2×108、3×108、4×108和5×108个本发明的经基因修饰的免疫细胞。确定精确的有效剂量可能基于每个个体受试者的因素,包括他们的大小、年龄、性别、体重和状况。本领域技术人员根据本公开内容和本领域知识可以容易地确定剂量。
本发明的医药组合物可根据已知技术制备。参见,例如,Remington,The Science和Practice of Pharmacy(21st ed.2005)。通常,免疫细胞或其群体在施用或储存之前与合适的载体混合,并且在一些实施方案中,医药组合物进一步包含药学上可接受的载体。如本文所用,术语“药学上可接受的载体”是指药学上可接受的材料、组合物或载体,例如液体或固体填充剂、稀释剂、赋形剂、制造助剂(例如,润滑剂、滑石镁、硬脂酸钙或锌、或硬脂酸)或溶剂包封材料,参与将化合物从身体的一个部位(例如,递送部位)运载或运输到另一部位(例如,器官、组织或身体的一部分)。药学上可接受的载体在与制剂的其他成分相容并且对受试者的组织没有伤害的意义上是“可接受的”(例如,生理相容的、无菌的、生理pH等)。
合适的药学上可接受的载体通常包含惰性物质,这些惰性物质有助于将医药组合物给予受试者,有助于将医药组合物加工成可递送的制剂,或有助于在给药前储存医药组合物。药学上可接受的载体可以包括能够稳定、优化或以其他方式改变制剂的形式、稠度、粘度、pH、药代动力学、溶解度的试剂。此类试剂包括缓冲剂、润湿剂、乳化剂、稀释剂、包封剂和皮肤渗透促进剂。例如,载体可包括但不限于盐水、缓冲盐水、葡萄糖、精氨酸、蔗糖、水、甘油、乙醇、山梨糖醇、葡聚糖、羧甲基纤维素钠及其组合。
可用作药学上可接受的载体的材料的一些非限制性实例包括:(1)糖类,如乳糖、葡萄糖和蔗糖;(2)淀粉,如玉米淀粉、马铃薯淀粉;(3)纤维素及其衍生物,如羧甲基纤维素钠、甲基纤维素、乙基纤维素、微晶纤维素、醋酸纤维素等;(4)黄蓍胶粉;(5)麦芽;(6)明胶;(7)润滑剂,如硬脂酸镁、十二烷基硫酸钠、滑石粉等;(8)可可脂、栓剂蜡等赋形剂;(9)油类,如花生油、棉籽油、红花油、香油、橄榄油、玉米油、豆油等;(10)二醇类,如丙二醇;(11)多元醇,如甘油、山梨糖醇、甘露糖醇和聚乙二醇(PEG);(12)油酸乙酯、月桂酸乙酯等酯类;(13)琼脂;(14)缓冲剂,如氢氧化镁、氢氧化铝等;(15)海藻酸;(16)无热原水;(17)等渗盐水;(18)林格解;(19)乙醇;(20)pH缓冲溶液;(21)聚酯、聚碳酸酯和/或聚酐;(22)填充剂,例如多肽和氨基酸。(23)血清醇,例如乙醇;(23)用于药物制剂的其他无毒相容物质。润湿剂、着色剂、脱模剂、涂层剂、甜味剂、调味剂、加香剂、防腐剂和抗氧化剂也可存在于制剂中。诸如“赋形剂”、“载体”、“药学上可接受的载体”、“载体”等术语在本文中可互换使用。
本领域技术人员可以容易地确定组合物中的细胞数量和任选的添加剂、赋形剂和/或载体的量,并在本发明的方法中施用。通常,添加剂(除活性免疫细胞外)以0.001至50%(重量)的磷酸盐缓冲盐水溶液存在,活性成分以微克至毫克的数量级存在,例如约0.0001至约5wt%,优选约0.0001至约1wt%,还更优选约0.0001至约0.05wt%或约0.001至约20wt%,优选约0.01至约10wt%,甚至更优选约0.05至约5wt%。当然,对于给予动物或人的任何组合物,以及对于任何特定的给药方法,优选确定:毒性,例如通过确定合适动物模型(例如,啮齿动物,如老鼠)中的致死剂量(LD)和LD50;以及组合物的剂量、其中组分的浓度和施用组合物的时间,这会引起合适的反应。根据本领域技术人员的知识、本公开内容和本文引用的文件,这样的确定不需要过多的实验。并且,无需过度实验即可确定连续给药的时间。
医药组合物可包含一种或多种pH缓冲化合物以将制剂的pH维持在反映生理pH的预定水平,例如在约5.0至约8.0的范围内。水性液体制剂中使用的pH缓冲化合物可以是氨基酸或氨基酸混合物,例如组氨酸或氨基酸混合物,例如组氨酸和甘氨酸。或者,pH缓冲化合物优选是将制剂的pH维持在预定水平,例如在约5.0至约8.0的范围内并且不螯合钙离子的试剂。这种pH缓冲化合物的说明性实例包括但不限于咪唑和乙酸根离子。pH缓冲化合物可以以适合将制剂的pH维持在预定水平的任何量存在。
医药组合物还可包含一种或多种渗透调节剂,即,将制剂的渗透特性(例如,渗透压、渗透压和/或渗透压)调节至接收个体血流和血细胞可接受的水平的化合物。渗透调节剂可以是不螯合钙离子的试剂。渗透调节剂可以是本领域技术人员已知或可获得的调节制剂渗透特性的任何化合物。本领域技术人员可以凭经验确定给定渗透调节剂用于本发明制剂的适用性。合适类型的渗透调节剂的说明性实例包括但不限于:盐,例如氯化钠和乙酸钠;糖类,例如蔗糖、右旋糖和甘露醇;氨基酸,如甘氨酸;以及一种或多种这些药剂和/或药剂类型的混合物。渗透调节剂可以以足以调节制剂渗透特性的任何浓度存在。
在一些实施方案中,医药组合物被配制用于递送至受试者。施用本文所述的医药组合物的合适途径包括但不限于:局部、皮下、经皮、皮内、病灶内、关节内、腹膜内、膀胱内、经粘膜、牙龈、牙内、耳蜗内、经鼓膜、器官内、硬膜外、鞘内、肌肉内、静脉内、血管内、骨内、眼周、瘤内、脑内和脑室内给药。
在一些实施方案中,将本文所述的药物组合物局部施用至患病部位(例如,肿瘤部位)。在一些实施方案中,本文所述的药物组合物通过注射、通过导管、通过栓剂或通过植入物给予受试者,植入物为多孔、无孔或凝胶状材料,包括膜,例如唾液酸膜,或纤维。
在其他实施方案中,本文所述的药物组合物在控释系统中递送。在一个实施例中,可以使用泵(参见,例如,Langer,1990,Science249:1527-1533;Sefton,1989,CRCCrit.Ref.Biomed.Eng.14:201;Buchwald等人,1980,Surgery 88:507;Saudek等人,1989,N.Engl.J.Med.321:574).在另一个实施例中,可以使用聚合材料。(参见,例如,MedicalApplications of Controlled Release(Langer和Wise编,CRC Press,Boca Raton,Fla.,1974);Controlled Drug Bioavailability,Drug Product Design和Performance(Smolen和Ball编,Wiley,New York,1984);Ranger和Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61.也可参见Levy等人,1985,Science 228:190;During等人,1989,Ann.Neurol.25:351;Howard et ah,1989,J.Neurosurg.71:105.)其他控释系统在如上Langer中有讨论。
在一些实施方案中,根据常规程序将药物组合物配制成适于静脉内或皮下施用至受试者例如人的组合物。在一些实施方案中,用于通过注射给药的药物组合物是无菌等渗用途的溶液,用作增溶剂和局部麻醉剂例如利多卡因以缓解注射部位的疼痛。通常,成分以单位剂型单独提供或混合在一起提供,例如,作为指示活性剂量的密封容器如安瓿或小袋中的干燥冻干粉或无水浓缩物。当药物通过输液给药时,可以用装有无菌药用级水或盐水的输液瓶进行分配。当药物组合物通过注射给药时,可以提供无菌注射用水或盐水的安瓿,以便在给药前可以混合成分。
用于全身给药的药物组合物可以是液体,例如无菌盐水、乳酸林格氏溶液或汉克氏溶液。此外,药物组合物可以是固体形式并在使用前立即重新溶解或悬浮。还考虑了冻干形式。药物组合物可包含在脂质颗粒或囊泡中,例如脂质体或微晶,其也适用于肠胃外给药。颗粒可以具有任何合适的结构,例如单层或多层,只要其中包含组合物。化合物可以被包裹在含有融合脂质二油酰磷脂酰乙醇胺(DOPE)、低水平(5-10mol%)阳离子脂质的“稳定质粒-脂质颗粒”(SPLP)中,并通过聚乙二醇(PEG)涂层稳定(Zhang Y.P.等人,GeneTher.1999,6:1438-47).带正电荷的脂质如N-[1-(2,3-二油酰氧基)丙基]-N,N,N-三甲基-甲基硫酸铵或“DOTAP”特别优选用于此类颗粒和囊泡。这种脂质颗粒的制备是众所周知的。参见,例如,美国专利号4,880,635;4,906,477;4,911,928;4,917,951;4,920,016;和4,921,757;其中每一个都通过引用并入本文。
例如,本文所述的医药组合物可以作为单位剂量给药或包装。当用于本公开的医药组合物时,术语“单位剂量”是指适合作为受试者的单位剂量的物理上离散的单位,每个单位包含经计算以产生期望的治疗效果的预定量的活性物质和所需的稀释剂;即,载体(carrier)或媒介物(vehicle)。
此外,该医药组合物可以作为药物试剂盒提供,该试剂盒包含(a)含有冻干形式的本发明化合物的容器和(b)含有药学上可接受的稀释剂(例如,用于重构或稀释本发明的冻干化合物。任选地与这种容器相关联的可以是由管理药物或生物产品的制造、使用或销售的政府机构规定的形式的通知,该通知反映了制造、使用或销售机构对人类给药的批准。
在另一方面,包括含有可用于治疗上述疾病的材料的制品。在一些实施例中,制品包括容器和标签。合适的容器包括例如瓶子、小瓶、注射器和试管。容器可由多种材料制成,例如玻璃或塑料。在一些实施方案中,容器容纳有效治疗本文所述疾病的组合物并且可以具有无菌进入口。例如,容器可以是静脉内溶液袋或具有可被皮下注射针刺穿的塞子的小瓶。组合物中的活性剂是本发明的化合物。在一些实施方案中,容器上或与容器相关的标签表明组合物用于治疗选择的疾病。制品可进一步包括第二容器,其包含药学上可接受的缓冲液,例如磷酸盐缓冲盐水、林格氏溶液或葡萄糖溶液。从商业和用户的角度来看,它还可以包括其他所需的材料,包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。
在一些实施方案中,本文描述的任何融合蛋白、gRNA和/或复合物作为医药组合物的一部分提供。在一些实施方案中,医药组合物包含本文提供的任何融合蛋白。在一些实施方案中,医药组合物包含本文提供的任何复合物。在一些实施方案中,医药组合物包含核糖核蛋白复合物,该复合物包含与gRNA和阳离子脂质形成复合物的RNA引导的核酸酶(例如Cas9)。在一些实施方案中,医药组合物包含gRNA、核酸可编程DNA结合蛋白、阳离子脂质和药学上可接受的赋形剂。医药组合物可任选地包含一种或多种额外的治疗活性物质。
在一些实施方案中,将本文提供的组合物施用于受试者,例如施用于人类受试者,以在受试者内实现靶向基因组修饰。在一些实施方案中,细胞获自受试者并与本文提供的任何医药组合物接触。在一些实施方案中,任选地在细胞中实现或检测到所需基因组修饰之后,从受试者取出并离体与医药组合物接触的细胞重新引入受试者。递送包含核酸酶的药物组合物的方法是已知的,并且描述于例如美国专利号6,453,242、6,503,717、6,534,261、6,599,692、6,607,882、6,689,558、6,824,978、6,933,113、6,979,539、7,013,219和7,163,824,所有这些的公开内容通过引用整体并入本文。尽管本文提供的医药组合物的描述主要涉及适合于施用于人的医药组合物,但本领域技术人员将理解此类组合物通常适合于施用于各种动物或生物体,例如,兽医用。
为使组合物适合于对各种动物给药而对适合对人给药的医药组合物进行修饰是众所周知的,并且普通的兽医药理学家可以仅通过普通的实验(如果有的话)来设计和/或进行这种修饰。考虑给予药物组合物的受试者包括但不限于人类和/或其他灵长类动物;哺乳动物、驯养动物、宠物和商业相关的哺乳动物,例如牛、猪、马、羊、猫、狗、小鼠和/或大鼠;和/或鸟类,包括商业相关的鸟类,例如鸡、鸭、鹅和/或火鸡。
本文所述的医药组合物的制剂可以通过药理学领域中已知或以后开发的任何方法来制备。通常,此类制备方法包括将活性成分与赋形剂和/或一种或多种其他辅助成分结合的步骤,然后,如果需要和/或需要,将产品成型和/或包装成所需的单剂量或多剂量单位。药物制剂可另外包含药学上可接受的赋形剂,如本文所用,其包括任何和所有溶剂、分散介质、稀释剂或其他液体载体、分散或悬浮助剂、表面活性剂、等渗剂、增稠剂或乳化剂、防腐剂固体粘合剂、润滑剂等,适合于所需的特定剂型。Remington’s The Science andPractice of Pharmacy,21st Edition,A.R.Gennaro(Lippincott,Williams&Wilkins,Baltimore,MD,2006;以引用方式整体并入本文)公开了用于配制药物组合物的各种赋形剂及其制备的已知技术。另见PCT申请号PCT/US2010/055131(公开号WO2011/053982A8,2010年11月2日提交的),通过引用整体并入本文,提供用于生产包含核酸酶的药物组合物的其他合适的方法、试剂、赋形剂和溶剂。
除非任何常规赋形剂介质与物质或其衍生物不相容,例如通过产生任何不希望的生物效应或以有害方式与药物组合物的任何其他成分相互作用,否则其用途被认为是在本公开的范围。
如上所述的组合物可以有效量给药。有效量将取决于给药方式、所治疗的特定病症和期望的结果。它还可能取决于病症的阶段、受试者的年龄和身体状况、同时治疗的性质(如果有的话)以及医师公知的类似因素。对于治疗应用,该量足以达到医学上所需的结果。
在一些实施例中,根据本公开的组合物可用于治疗多种疾病、病症和/或状况中的任一种。
治疗方法
本发明的一些方面提供了治疗有需要的受试者的方法,所述方法包含向有需要的受试者施用有效治疗量的如本文所述的医药组合物。更具体地,治疗方法包含向有需要的受试者施用医药组合物,所述医药组合物包含表达嵌合受体并具有至少一种编辑基因的经修饰的免疫细胞的群体,其中所述至少一种编辑基因增强功能或降低经修饰的免疫细胞的免疫抑制或抑制,以及其中至少一种编辑基因的表达被敲除或敲弱。在一些实施方案中,治疗方法是自体免疫细胞疗法。在其他实施方案中,治疗方法是同种异体免疫细胞疗法。
在某些实施方案中,通过遗传修饰免疫细胞以表达本文考虑的嵌合抗原受体,将免疫细胞的特异性重定向至在受试者患病或改变的细胞表面上表达的标记物。在一些实施方案中,治疗方法包含向受试者施用如本文所述的免疫细胞,其中免疫细胞已被遗传修饰以将其特异性重定向至在肿瘤细胞上表达的标记物。在一些实施方案中,肿瘤是B细胞癌;例如,B细胞癌如淋巴瘤、白血病或骨髓瘤,如多发性骨髓瘤。因此,本发明的一些实施方案提供了治疗受试者的肿瘤的方法。在一些实施方案中,被治疗的肿瘤是B细胞癌。在一些实施方案中,B细胞癌是淋巴瘤、白血病或多发性骨髓瘤。
在受试者中治疗肿瘤的方法的一些实施方案包含向受试者施用如本文所述的免疫细胞和一种或多种另外的治疗剂。例如,本发明的免疫细胞可以与细胞因子共同施用。在一些实施方案中,细胞因子是IL-2、IFN-α、IFN-γ或其组合。在一些实施方案中,免疫细胞与化疗剂共同施用。化疗剂可以是环磷酰胺(cyclophosphamide)、多柔比星(doxorubicin)、长春新碱(vincristine)、泼尼松(prednisone)或利妥昔单抗(rituximab),或其组合。其他化疗药物包括奥比妥珠单抗(obinutuzumab)、苯达莫司汀(bendamustine)、苯丁酸氮芥(chlorambucil)、环磷酰胺(cyclophosphamide)、依鲁替尼(ibrutinib)、甲氨蝶呤(methotrexate)、阿糖胞苷(cytarabine)、地塞米松(dexamethasone)、顺铂(cisplatin)、硼替佐米(bortezomib)、氟达拉滨(fludarabine)、艾德拉利西布(idelalisib)、阿卡布替尼(acalabrutinib)、来那度胺(lenalidomide)、唯可来(venetoclax)、环磷酰胺(cyclophosphamide)、异环磷酰胺(ifosfamide)、依托泊苷(etoposide)、喷司他丁(pentostatin)、美法仑(melphalan)、卡非佐米(carfilzomib)、伊沙佐米(ixazomib)、帕比司他(panobinostat)、达雷妥尤单抗(daratumumab)、埃洛妥珠单抗(elotuzumab)、沙利度胺(lenalidomide)、来那度胺(thalidomide)或泊马度胺(pomalidomide),或其组合。“共同施用”是指在治疗过程中施用两种或更多种治疗剂或药物组成物。这种共同给药可以是同时给药或顺序给药。后续给药的治疗剂或药物组成物的顺序给药可以在给药第一种药物组成物或治疗剂后的治疗过程中的任何时间进行。
在一些实施方案中,治疗方法包括向受试者施用具有有效量的CAR-T细胞,所述CAR-T细胞缺乏或具有降低水平的功能性T细胞受体α常数(TRAC)、β2微球蛋白(B2M)、分化簇7(CD7)、程序性细胞死亡1(PDCD1)、Cbl原癌基因B(CBLB)和/或II类主要组织相容性复合反式激活因子(CIITA)。在一些实施方案中,治疗方法包含向患有或具有发展移植物抗宿主病(GVHD)倾向的受试者施用有效量的缺乏或降低水平的功能性TRAC的CAR-T细胞。在一些实施方案中,治疗方法包含向患有或具有发展宿主抗移植物病(HVGD)倾向的受试者施用有效量的缺乏或降低水平的功能性B2M的CAR-T细胞。
在本发明的一些实施方案中,施用的免疫细胞在体内增殖以及可以在个体体内持续较长时间。在一些实施方案中,本发明的免疫细胞可以成熟为记忆免疫细胞并在个体体内保持循环,从而产生能够积极响应表达嵌合抗原识别的标志物的患病或改变的细胞的复发的细胞群受体。
本文考虑的药物组成物的施用可以使用常规技术进行,包括但不限于输注、输注或肠胃外。在一些实施方案中,肠胃外施用包括血管内、静脉内、肌肉内、动脉内、鞘内、瘤内、皮内、腹膜内、经气管、皮下、皮下、关节内、囊下、蛛网膜下和胸骨内输注或注射。
试剂盒、载体、细胞
本公开的各个方面提供包含碱基编辑器系统的试剂盒。在一个实施方案中,该试剂盒包含核酸构建体,该核酸构建体包含编码核碱基编辑器融合蛋白的核苷酸序列。融合蛋白包含脱氨酶(例如胞苷脱氨酶或腺嘌呤脱氨酶)和核酸可编程DNA结合蛋白(napDNAbp)。在一些实施方案中,试剂盒包含至少一种能够靶向感兴趣的核酸分子的引导RNA。在一些实施方案中,该试剂盒包含包含编码至少一种引导RNA的核苷酸序列的核酸构建体。
本发明还提供了包含核酸构建体的试剂盒,所述核酸构建体包含编码腺苷脱氨酶核碱基编辑器(例如,ABE8)至少两个引导RNA的核苷酸序列,每个引导RNA具有与编码TRAC、CD7、B2M、PD1、CBLB和/或CIITA的基因的核酸序列至少85%互补的核酸序列。在一些实施方案中,编码腺苷脱氨酶(例如,TadA*8)的核苷酸序列包含驱动腺苷脱氨酶核碱基编辑器(例如,ABE8)表达的异源启动子。
本公开的一些方面提供了包含核酸构建体的试剂盒,所述核酸构建体包含(a)编码与本文提供的腺苷脱氨酶(例如,TadA*8)融合的(a)Cas9结构域的核苷酸序列;和(b)驱动(a)序列表达的异源启动子。
本公开的一些方面提供用于治疗肿瘤的试剂盒,其包含经修饰的免疫细胞或具有降低的免疫原性和增强的抗肿瘤活性的免疫细胞。在一些实施方案中,所述免疫或免疫细胞在TRAC、CD7、B2M、PD1、CBLB和/或CIITA多肽或其组合中包含突变。在一些实施方案中,经修饰的免疫细胞进一步包含对与肿瘤相关的标记物具有亲和力的嵌合抗原受体。所述肿瘤治疗试剂盒包含使用经修饰的免疫细胞治疗肿瘤的书面说明。
在一些实施方案中,该试剂盒提供了使用该试剂盒编辑一个或多个突变的说明。说明通常包括关于使用试剂盒编辑核酸分子的信息。在其他实施例中,说明包括以下至少一项:注意事项、警告、临床研究和/或参考。说明可以直接印在容器上(如果有),或者作为贴在容器上的标签,或者作为单独的纸张、小册子、卡片或文件夹提供在容器中或随容器一起提供。在进一步的实施方案中,试剂盒可以包括标签或单独的插页(包装插页)形式的用于合适的操作参数的说明。在又一个实施方案中,试剂盒可以包括一个或多个容器,其中装有合适的阳性和阴性对照或对照样品,用作检测、校准或标准化的标准。试剂盒可进一步包括第二容器,其包含药学上可接受的缓冲液,例如(无菌)磷酸盐缓冲盐水、林格氏溶液或葡萄糖溶液。从商业和用户的角度来看,它还可以包括其他所需的材料,包括其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明的包装插页。
除非另有说明,否则本发明的实践采用分子生物学(包括重组技术)、微生物学、细胞生物学、生物化学和免疫学的常规技术,这些技术在技术人员的能力范围内。此类技术在文献中得到了充分解释,例如“Molecular Cloning:A Laboratory Manual”,secondedition(Sambrook,1989);“Oligonucleotide Synthesis”(Gait,1984);“Animal CellCulture”(Freshney,1987);“Methods in Enzymology”“Handbook of ExperimentalImmunology”(Weir,1996);“Gene Transfer Vectors for Mammalian Cells”(Miller和Calos,1987);“Current Protocols in Molecular Biology”(Ausubel,1987);“PCR:ThePolymerase Chain Reaction”,(Mullis,1994);“Current Protocols in Immunology”(Coligan,1991).这些技术适用于本发明内容的多核苷酸和多肽的生产,并且因此可以在制作和实践本发明内容时考虑。特定实施方案的特别有用的技术将在以下部分中讨论。
提出以下实施例是为了向本领域普通技术人员提供如何进行和使用本发明的测定、筛选和治疗方法的完整公开和描述,并且不旨在限制本发明的发明者认为是他们的发明范围。
实施例
实施例1:原代人类T细胞中靶标的单一和多重编辑
嵌合抗原受体-T细胞(CAR-T)疗法在治疗某些癌症方面表现出显著疗效(June,C.H.&Sadelain,M.,Chimeric Antigen Receptor Therapy.N Engl J Med 379,64-73,doi:10.1056/NEJMra1706169(2018))。然而,在每个患者的基础上生成自体CAR-T疗法在逻辑上具有挑战性,而且漫长的制造时间可能会给患者带来临床负担。为了缓解这些问题,已经开发出普遍兼容的CAR-T细胞策略,使取自单个供体的细胞能够用于治疗许多患者(Themeli,M.,Riviere,I.&Sadelain,M.,New cell sources for T cell engineeringand adoptive immunotherapy.Cell Stem Cell 16,357-366,doi:10.1016/j.stem.2015.03.011(2015))。必须修改这些细胞以减少对受体的同种异体反应,以及宿主识别移植细胞的能力(Qasim,W.等人,Molecular remission of infant B-ALL afterinfusion of universal TALEN gene-edited CAR T cells.Sci Transl Med 9,doi:10.1126/scitranslmed.aaj2013(2017);Ren,J.等人,Multiplex Genome Editing toGenerate Universal CAR T Cells Resistant to PD1 Inhibition.Clin Cancer Res23,2255-2266,doi:10.1158/1078-0432.CCR-16-1300(2017))。
转基因T细胞已在某些治疗应用中显示出临床疗效(June,C.H.&Sadelain,M.Chimeric Antigen Receptor Therapy.N Engl J Med379,64-73,doi:10.1056/NEJMra1706169(2018))并且越来越多的证据表明,通过破坏同一细胞中的多个基因以获得理想的细胞表型,可以显著增强过继性T细胞疗法的治疗潜力(Depil,S.等人,'Off-the-shelf'allogeneic CAR T cells:development and challenges.Nat Rev Drug Discov,doi:10.1038/s41573-019-0051-2(2020);Stadtmauer,E.A.等人,First-in-HumanAssessment of Feasibility and Safety of Multiplexed Genetic Engineering ofAutologous T Cells Expressing NY-ESO-1TCR and CRISPR/Cas9 Gene Edited toEliminate Endogenous TCR and PD-1(NYCE T cells)in Advanced Multiple Myeloma(MM)and Sarcoma.Blood 134,49,doi:10.1182/blood-2019-122374(2019))。使用核酸酶在靶标基因中引入插入缺失突变的方法,从而降低它们在供体T细胞中的表达的方法是有效的(Qasim,W.等人,Molecular remission of infant B-ALL after infusion ofuniversal TALEN gene-edited CAR T cells.Sci Transl Med 9,doi:10.1126/scitranslmed.aaj2013(2017);Ren,J.等人,Multiplex Genome Editing to GenerateUniversal CAR T Cells Resistant to PD1 Inhibition.Clin Cancer Res 23,2255-2266,doi:10.1158/1078-0432.CCR-16-1300(2017)),但在靶标细胞中同时产生多个DSB会导致基因组重排频率不一(Webber,B.R.等人,Highly efficient multiplex human Tcell engineering without double-strand breaks using Cas9 baseeditors.Biorxiv,doi:10.1101/482497(2018);Poirot,L.等人,Multiplex Genome-Edited T-cell Manufacturing Platform for"Off-the-Shelf"Adoptive T-cellImmunotherapies.Cancer Res 75,3853-3864,doi:10.1158/0008-5472.CAN-14-3321(2015))。由于ABE通过进行单核苷酸基因组变化而不产生DSB来发挥作用,因此使用ABE8进行多重碱基编辑是创建转基因T细胞的一种有吸引力的方法。
首先,为了确定ABE8是否可用于阻止与通用CAR-T疗法创建相关的单个基因的表达,使用以前与胞嘧啶碱基编辑器一起使用的策略将保守序列基序靶向mRNA剪接位点(B2M、CD7、PDCD1、CIITA、TRAC和CBLB)(参见Webber,B.R.等人,Highly efficientmultiplex human T cell engineering without double-strand breaks usingCas9base editors.Biorxiv,doi:10.1101/482497(2018))。除了ABE7.10外,八(8)个性能最高的ABE8还通过用编码每个编辑器的mRNA和41个靶向六个总基因的sgRNA单独转染原代人类T细胞来筛选活性,并通过流式细胞术测量蛋白质敲低以作为基因组编辑的代理(图2A)。在所有sgRNA中,ABE7.10以2%-85%的效率诱导蛋白质敲低(ABE7.10-m和ABE7.10-d的中位数分别为20.7%和26.4%)。尽管所有ABE8的表现都优于其ABE7.10对应物,但ABE8.20-m始终产生最高的蛋白质敲低效率(范围为4%-96%,中位数为60%;图2A)。然后使用下一代测序测量每个基因的基因组编辑效率和最佳目标位点(图2B,确定的位点在图3)。ABE7.10-m/d以14-98%的效率编辑了六个目标位点,而ABE8.20-m以98-99%的效率编辑了每个相同的位点。
为了确定ABE8.20-m是否能够进行有效的多重编辑,在原代人类T细胞中测试了同时编辑三个基因。B2M、CIITA和TRAC被靶向。这些基因在敲除时分别降低了MHC I类、MHC II类和T细胞受体的细胞表面表达(Qasim,W.等人,Molecular remission of infant B-ALLafter infusion of universal TALEN gene-edited CAR T cells.SciTransl Med 9,doi:10.1126/scitranslmed.aaj2013(2017);Serreze,D.V.等人,Majorhistocompatibility complex class I-deficient NOD-B2M null mice are diabetesand insulitis resistant.Diabetes43,505-509,doi:10.2337/diab.43.3.505(1994);LeibundGut-Landmann,S.等人,Mini-review:Specificity and expression of CIITA,the master regulator of MHC class II genes.Eur J Immunol 34,1513-1525,doi:10.1002/eji.200424964(2004)),这些表型被假设为在同种异体细胞疗法的背景下降低同种异体反应性和免疫识别。ABE8.20-m以98.1%、98.3%或98.6%的效率编辑每个单独的目标,比ABE7.10提高了3.4、6.9和1.4倍(图2C)。DNA编辑效率与B2M、HLA-DR和CD3的细胞表面表达降低相关(图2D)。
然而,ABE8.20-m对TRAC基因座的>98%基因组编辑仅导致T细胞受体向细胞表面的运输适度减少,表明ABE8对剪接位点的修饰并不总是完全消除mRNA剪接,并且还必须严格评估每个sgRNA的蛋白质表达。即使是不完全的TRAC蛋白敲低,ABE8.20-m产生了大约34.8%的细胞,所有三个目标的蛋白表达都降低,而ABE7.10-m/d产生的三重敲低细胞数量可以忽略不计(图2D)。此外,通过慢病毒转导将CAR转基因添加到B2M/CIITA/TRAC编辑的细胞中产生了抗BCMA CAR-T,对抗原阳性肿瘤细胞具有强大的细胞毒性(图4)。ABE8s展示了腺嘌呤碱基编辑为单一和多重编辑创造高度工程化的细胞疗法的潜力,在六个目标基因位点上实现98-99%的碱基编辑效率,这可以赋予一系列理想的治疗属性。
实施例2:全转录组测序
为了检查虚假的细胞RNA脱氨基,对HEK293T和用ABE7.10-d、ABE8.17-m、ABE8.20-m和ABE8.17-m+V106W编码的mRNA处理的人类T细胞进行全转录组测序(图8A为HEK293T细胞,图8B为T细胞)。在这两种细胞类型中,全转录组测序显示,与Cas9对照相比,用ABE7.10-d、ABE8.17-m和ABE8.20-m处理的细胞中细胞腺嘌呤脱氨作用可检测到增加(图8A和8B)。然而,通过在ABE8.17m+V106W处理的样本中包含V106W突变(图8A为HEK293T细胞,图8B为T细胞),可以减轻mRNA脱氨的频率升高,这表明编辑器和递送方式的选择可以减轻并在某些情况下消除脱靶细胞RNA脱氨由ABE处理产生,用于需要关注瞬时RNA编辑的应用。
实施例3:材料和方法
一般方法:
所有克隆均通过USER酶(New England Biolabs)克隆方法进行(参见Geu-Flores等人,USER fusion:a rapid and efficient method for simultaneous fusion andcloning of multiple PCR products.Nucleic Acids Res 35,e55,doi:10.1093/nar/gkm106(2007))用于PCR扩增的模板是购买的,其作为细菌或哺乳动物密码子优化的基因片段(GeneArt)。创建的载体被转化到Mach T1R感受态细胞(Thermo Fisher Scientific)并保持在-80℃以进行长期储存。引物购自Integrated DNA Technologies,并使用Phusion UDNA Polymerase Green MultiPlex PCR Master Mix(ThermoFisher)或Q5Hot StartHigh-Fidelity 2x Master Mix(New England Biolabs)进行PCRs。质粒使用ZymoPUREPlasmid Midiprep(Zymo Research Corporation)从50mL的Mach1培养物中新鲜制备,其中涉及内毒素去除程序。分子生物学级Hyclone水(GE Healthcare Life Sciences)用于所有分析、转染和PCR反应,以确保排除DNAse活性。
用于Hek293T哺乳动物细胞转染的sgRNA的氨基酸序列在下表17中提供。20-nt目标protospacer以粗体显示。当目标DNA序列不以“G”开头时,会在引物的5'端添加一个“G”,因为已经确定人类U6启动子在转录起始位点更喜欢“G”(参见Cong,L.等人,Multiplexgenome engineering using CRISPR/Cas systems.Science 339,819-823,doi:10.1126/science.1231143(2013)).前面描述的pFYF sgRNA质粒用作PCR扩增的模板。
表17:用于Hek293T哺乳动物细胞转染的sgRNA序列。
Figure BDA0003298963610004191
sgRNA支架序列如下:
化脓链球菌:
GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC
金黄色葡萄球菌
GUUUUAGUACUCUGUAAUGAAAAUUACAGAAUCUACUAAAACAAGGCAAAAUGCCGUGUUUAUCUCGUCAACUUGUUGGCGAGA
生成用于定向进化的输入细菌TadA*文库
TadA*8.0文库旨在编码TadA*7.10开放阅读框中每个氨基酸位置的所有20个氨基酸(Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNAwithout DNA cleavage.Nature551,464-471,doi:10.1038/nature24644(2017)).每个TadA*8.0文库成员包含大约1-2个新的编码突变,是化学合成的,购自Ranomics Inc(Toronto,Canada)。TadA*8.0文库使用Phusion U Green MultiPlex PCR Master Mix进行PCR扩增,并由用户组装成针对ABE定向进化优化的细菌载体(Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNA without DNAcleavage.Nature551,464-471,doi:10.1038/nature24644(2017)).
TadaA变体的细菌进化
如前所述进行包含TadA*8文库的ABE的定向进化(Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNA without DNAcleavage.Nature 551,464-471,doi:10.1038/nature24644(2017))有以下变化:i)大肠杆菌10betas(New England Biolabs)被用作进化宿主;ii)卡那霉素的存活依赖于三种基因灭活成分的校正(例如,存活需要逆转卡那霉素中的两个终止突变和一个活性位点突变)。卡那霉素抗性基因序列(以下)包含ABE8进化的选择突变。在10个β宿主细胞中将选择质粒和编辑器共培养过夜后,将文库培养物铺在2xYT琼脂培养基上,该培养基补充有质粒维持抗生素和增加浓度的选择抗生素卡那霉素(64-512g/mL)。让细菌生长1天,富集后对存活克隆的TadA*8部分进行Sanger测序。通过USER组装将经鉴定的感兴趣的TadA*8突变整合到哺乳动物表达载体中。
在以下序列中,小写字母表示卡那霉素抗性启动子区域,粗体序列表示靶向灭活部分(Q4*和W15*),斜体序列表示卡那霉素抗性基因(D208N)靶向灭活位点,下划线序列表示PAM序列。
灭活的卡那霉素抗性基因:
Figure BDA0003298963610004201
Figure BDA0003298963610004211
一般HEK293T和RPMI-8226哺乳动物细胞培养条件
细胞在37℃、5%CO2条件下培养。HEK293T细胞[CLBTx013,American Type CellCulture Collection(ATCC)]在Dulbecco改良的Eagles培养基加Glutamax(10566-016,Thermo Fisher Scientific)和10%(v/v)胎牛血清(A31606-02,Thermo FisherScientific)中培养。RPMI-8226(CCL-155,ATCC)细胞在含有10%(v/v)胎牛血清(Gibco)的RPMI-1640培养基(Gibco)中培养。从供应商处收到后,细胞被检测为支原体阴性。
Hek293T质粒转染和gDNA提取
HEK293T细胞以35,000个细胞/孔的密度接种到48孔聚-D-赖氨酸处理的BioCoat板(Corning)上,并在铺板后18-24小时进行转染。使用NucleoCounter NC-200(Chemometec)对细胞进行计数。向这些细胞中加入750ng碱基编辑器或核酸酶对照、250ngsgRNA和10ng GFP-max质粒(Lonza),在Opti-MEM减少血清培养基(ThermoFisherScientific)中稀释至12.5μL总体积。将该溶液与11μL Opti-MEM减少血清培养基中的1.5μL Lipofectamine 2000(ThermoFisher)混合,并在室温下静置15分钟。然后将整个25μL混合物转移到预先接种的Hek293T细胞中并孵育约120小时。孵育后,吸出培养基并用250μL1x PBS溶液(ThermoFisher Scientific)洗涤细胞两次,并加入100μL新鲜制备的裂解缓冲液(100mM Tris-HCl,pH 7.0,0.05%SDS,25μg/mL蛋白酶K(Thermo Fisher Scientific)。含有裂解缓冲液的转染板在37℃下孵育1小时,然后将混合物转移到96孔PCR板中,在80℃下加热30分钟。
用于全基因组测序的HEK293T细胞处理,包括基因组DNA的制备和编辑细胞的克隆分离
细胞用碱基编辑器或编码Cas9的mRNA结合靶向B2M中某个区域的sgRNA进行脂质转染,当ABE、CBE或Cas9成功靶向B2M时会导致B2M(sgRNA靶标序列:5’-CTTACCCCACTTAACTATCT-3’,Synthego)(Qasim,W.等人,Molecular remission of infantB-ALL after infusion of universal TALEN gene-edited CAR T cells.Sci TranslMed 9,doi:10.1126/scitranslmed.aaj2013(2017))通过剪接位点破坏(ABE、Cas9)或终止密码子(CBE)的掺入,如本文所述。转染后24小时,将细胞以3:8的比例分成新的平板以促进细胞生长。转染后三天,用TryplE Express(ThermoFisher)收获HEK293T细胞,用FACS缓冲液(PBS,1%BSA,两者都是ThermoFisher)洗涤1次,并在4℃下冷却15分钟。然后将细胞沉淀(1500*g,5分钟)并重新悬浮在具有1:100稀释的PE抗人B2-微球蛋白(Biolegend 316306)的FACS缓冲液溶液中。将细胞在4℃下避光孵育30分钟。然后通过离心(1500×g,5分钟)用FACS缓冲液洗涤细胞3次并重悬于FACS缓冲液中。将单个B2M阴性细胞分选到96孔板中,未处理的细胞除外,其中B2M阳性细胞分选到96孔板中。代表性的FACS图显示在图9A和9B。分选后9天,检查孔,标记含有单菌落的孔并用TryplE Express处理以促进细胞生长。在额外生长四天后,根据制造商的说明,使用Agincourt DNAdvance试剂盒(Beckmann Coulter)从细胞中收获基因组DNA。
根据制造商的说明,使用Nextera DNA Flex Library Prep Kit(Illumina)使用96孔板Nextera索引引物(Illumina)对基因组DNA进行片段化和连接子连接。文库大小和浓度由片段分析仪(Agilent)确认,并发送到Nogene使用Illumina HiSeq进行全基因组测序。
全转录组和全基因组测序数据分析
通过执行四个一般步骤来分析所有靶向NGS数据:(1)对齐,(2)重复标记,(3)变异调用(4)变异的背景过滤以去除伪影和种系突变。下面描述了每个步骤。突变参考和替代等位基因是相对于参考基因组的正链报告的。
全转录组分析详情
使用STAR(v2.7.2a)将跑道水平FASTQ文件分别与人类基因组(GencodeGRCh38v31初级组装)对齐,参数设置为指定ReadGroup,并输出基因组对齐的BAM文件和转录组对齐的BAM文件。
合并步骤(1)中创建的每个样本的跑道水平基因组比对,按坐标排序,并使用Picard(v2.20.5)标记重复。
Cigar串中包含Ns的读取,因为它们跨越剪接点使用GATK(v4.1.3.0)SplitNCigarReads进行拆分。
使用默认设置的Picard重新校准碱基质量分数。
使用GATK HaplotypeCaller调用变体。仅考虑映射质量≥30的读数,并将非参考碱基计数的最低碱基质量(Phred分数)设置为20。使用了RNA-seq中变异调用的标准设置:minimum-base-quality=20,minimum-mapping-quality=30,don’t-use-soft-clipped-bases,standard-call-conf=20。
使用背景过滤识别碱基编辑器处理的样品私有的突变。覆盖率最高的“未处理”样本用作背景样本。只考虑了规范染色体上的替换。如果突变满足以下标准,则突变被视为基础编辑器处理样本时私有的:
突变的基因组位置在处理样本中覆盖≥30个读数,在未处理样本中覆盖≥20个读数
未经处理的样本有≥99%的读数支持突变位置的参考、非突变、碱基
处理样品中突变的变异等位基因频率≥20%。
全基因组测序分析详情
使用BWA(0.7.17-r1188)mem将跑道水平FASTQ文件分别与人类基因组(GencodeGRCh38v31初级组装)对齐,参数设置为指定ReadGroup。该-M标志也被设置为标记短路分裂命中次要对齐。
合并步骤(1)中创建的每个样本的跑道水平基因组比对,按坐标排序,并使用Picard(v2.20.5)使用默认设置标记重复。
使用GATK(v4.1.3.0)HaplotypeCaller调用变体。仅考虑映射质量≥30的读数,并将非参考碱基计数的最低碱基质量(Phred分数)设置为20。使用了DNA-seq中变异调用的标准设置。
使用背景过滤识别碱基编辑器处理的样品私有的突变。覆盖率最高的“未处理”样本用作背景样本。只考虑了规范染色体上的替换。如果突变满足以下标准,则突变被视为基础编辑器处理样本时私有的:
处理和未处理样本中突变的基因组位置覆盖≥10个读数。
未经处理的样本有≥99%的读数支持突变位置的参考、非突变、碱基
分析ABE架构和ABE8构建体的DNA和RNA脱靶编辑
在脂质转染前16至20小时,将HEK293T细胞以每孔30,000个细胞的密度接种在不含抗生素的DMEM+Glutamax培养基(Thermo Fisher Scientific)中的48孔聚D-赖氨酸涂层板(Corning)上。750ng切口酶或碱基编辑器表达质粒DNA与250ng sgRNA表达质粒DNA混合在15μl OPTIMEM+Glutamax中。将其与10μl脂质混合物组合,每孔包含1.5μlLipofectamine 2000和8.5μlOPTIMEM+Glutamax。转染后3天收获细胞并收获DNA或RNA。对于DNA分析,将细胞在1X PBS中洗涤一次,然后根据制造商的说明在100μl QuickExtractTMBuffer(Lucigen)中裂解。对于RNA收获,根据制造商的说明,将MagMAXTM mirVanaTM TotalRNA Isolation Kit(Thermo Fisher Scientific)与KingFisherTM Flex纯化系统一起使用。
进行靶向RNA测序(见Rees,H.A.等人,Analysis and minimization of cellularRNA editing by DNA adenine base editors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019))。根据制造商的说明,使用SuperScript IV一步法RT-PCR系统和EZDNase(Thermo Fisher Scientific)从分离的RNA中制备cDNA。使用了以下程序:58°℃12分钟;98°℃2分钟;随后是因扩增子而异的PCR循环:对于CTNNB1和IP90:[98C 10秒;32个循环;60C 10秒;72C 30秒]和RSL1D1 35个循环[98C 10秒;58C10秒;72C 30秒]。没有与样品同时运行RT对照。在组合的RT-PCR之后,使用Illumina Miseq对扩增子进行条形码化和测序。每个扩增子中的第一个125nt,从每个扩增子中正向引物末端后的第一个碱基开始,与参考序列比对,用于分析每个扩增子中的平均和最大A-to-I频率(图5A和5B)。
使用以下表18中列出的引物进行脱靶DNA测序,使用两步PCR和条形码方法来制备样品以使用上述Illumina Miseq测序仪进行测序(参见Komor,A.C.等人,Programmableediting of a target base in genomic DNA without double-stranded DNAcleavage.Nature 533,420-424,doi:10.1038/nature17946(2016);Rees,H.A.等人,Analysis and minimization of cellular RNA editing by DNA adenine baseeditors.Sci Adv 5,eaax5717,doi:10.1126/sciadv.aax5717(2019)).
表18:用于扩增基因组位点的HTS引物
Figure BDA0003298963610004251
Figure BDA0003298963610004261
Figure BDA0003298963610004271
Figure BDA0003298963610004281
T细胞和THEK293T细胞中使用的ABE编辑器的mRNA生产
使用以下合成方案生成腺苷碱基编辑器mRNA。编辑器被克隆到编码dT7启动子的质粒中,然后是5'UTR、Kozak序列、ORF和3'UTR。dT7启动子在T7启动子内携带一个灭活点突变,可防止从环状质粒转录。该质粒以PCR反应(Q5 Hot Start 2X Master Mix)为模板,其中正向引物校正T7启动子内的SNP,反向引物将120A尾部附加到3'UTR。所得PCR产物在ZymoResearch 25μg DCC柱上纯化,并用作后续体外转录中的mRNA模板。按照说明手册使用NEBHiScribe High-Yield试剂盒,但用N1-甲基-假尿苷完全取代尿苷,并用CleanCap AG(Trilink)进行共转录加帽。通过氯化锂沉淀进行反应净化。用于扩增的引物见表19。Cas9mRNA购自Trilink(CleanCap Cas9 mRNA 5moU)。
表19:用于ABE8 T7体外转录反应的引物
Figure BDA0003298963610004291
抗BCMA CAR慢病毒的产生
构建了包含MND启动子、抗BCMA scFv、CD8a铰链、CD8a跨膜结构域、CD137和CD3zeta共刺激结构域的抗BCMA CAR质粒,然后是wPRE。复制缺陷、自灭活(SIN)、基于第三代人类免疫缺陷病毒1型(HIV-1)的LVV编码CAR,用水泡性口炎病毒-糖蛋白(VSV-G)包膜蛋白假型由Flash Therapeutics生产。
T细胞的产生
将从健康供体获得的冷冻散装PBMC解冻并在T细胞生长培养基(TCGM)中培养,该培养基由X-VIVO15(Lonza)组成,辅以5%人血清、AB型(Valley Biomedical)、2mMGlutaMAX(Gibco)、10mM HEPES缓冲溶液(Gibco)和250IU/mL重组人白细胞介素-2(rhIL-2,CellGenix GmbH)。细胞用可溶性人抗CD3(克隆OKT3,Miltenyi Biotec)和人抗CD28(克隆15E8,Miltenyi Biotec)激活,并在37℃下在5%CO2培养箱中培养。对于CAR修饰的T细胞,慢病毒转导发生在激活后24小时,MOI为10,使用0.25mg/mL LentiBoostTM(SirionBiotech)。
原代人类T细胞的电穿孔
在T细胞活化后72小时或96小时,细胞以500g离心5分钟。去除上清液,然后用DPBS(Gibco)洗涤细胞一次并再次离心。去除DPBS并将细胞以50e6个细胞/mL的浓度重新悬浮在P3原代细胞电穿孔缓冲液(Lonza)中。将2微克ABE8 mRNA和1微克5'/3'末端修饰的sgRNA(Synthego)添加到1e6细胞(20μL),然后使用带有96孔ShuttleTM插件的Lonza 4-DNucleofector进行电穿孔(Lonza)。sgRNA的序列可以在下表20中找到。电穿孔后,使用100uL TCGM培养基淬灭反应,随后将细胞转移到
Figure BDA0003298963610004301
24孔板(Wilson Wolf)的单个孔中,其中含有8mL预热的TCGM+IL-2。然后将板置于培养箱(37℃,5%CO2)中直至进一步分析。
表20:用于T细胞转染的sgRNA序列
Figure BDA0003298963610004302
a,c,g,u:2'-O-甲基残基
s:硫代磷酸酯
sgRNA支架序列:
化脓链球菌:
5’-GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUsususu-3’
流式细胞术
为了评估编辑效率,在电穿孔后5天从培养物中取出1x106个细胞,并用以下主要抗人抗体染色:Cbl-b(Clone D3C12,Cell Signaling Technologies),然后是AlexaFluor647F(ab')2羊抗兔IgG(H+L)(Invitrogen),CD3(Clone UCHT1,PE,Biolegend)CD7(CloneCD7-6B7,FITC,Biolegend),HLA-DR(Clone L243,PE Biolegend),B2M(Clone 2M2,PE,Biolegend),CD279(Clone eBioJ105,PE,Biolegend)。
CAR分子的细胞表面检测利用PE标记的重组TNFRSF17(BCMA)蛋白(CreativeBiomart)。简而言之,根据制造商的说明,使用
Figure BDA0003298963610004311
Fixable Near-IR Dead CellStain Kit(Molecular Probes)标记1x 106个细胞。然后将细胞与100ng TNFRSF17重组蛋白在4℃下孵育20分钟,然后固定。使用Attune NxT流式细胞仪采集数据并使用FlowJo单细胞分析软件v10.6.1(FlowJo,LLC)进行分析。门控策略的例子显示在图6A和6B。
CAR-T细胞毒性
将用NucLight Red慢病毒(Sartorius)标记的RPMI-8226细胞(ATCC)接种在100uLRPMI培养基(Gibco)+10%FBS(Gibco)中的96孔板中,然后放入Incucyte S3活细胞成像系统(Sartorius)过夜。第二天,将CAR修饰的T细胞以1:1的E:T比置于RPMI-8226细胞上。通过减少来自标记肿瘤细胞的红色信号来测量来自CAR-T细胞的抗原依赖性杀伤。
人类T-细胞的基因组DNA提取
孵育后,将约1x 106处理过的T细胞离心,用PBS洗涤并重新悬浮在200L QuickExtract(Lucigen)裂解缓冲液中,然后根据制造商的方案裂解细胞。基因组DNA直接用于随后的PCR扩增步骤。
基因组DNA样本的下一代测序(NGS)
基因组DNA样本被扩增并准备用于高通量测序(参见Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNA without DNAcleavage.Nature 551,464-471,doi:10.1038/nature24644(2017)).简要地,将1μL gDNA添加到包含Phusion UGreen Multiplex PCR Master Mix和每个正向和反向引物0.5μM的25μL PCR反应中。扩增后,使用独特的Illumina条形码引物对对PCR产物进行条形码标记。条形码反应包含0.5μM的每个illumina正向和反向引物、2μL含有扩增的目标基因组位点的PCR混合物和Q5热启动高保真2x预混液,总体积为25μL。所有PCR条件按照以前发表过(见Gaudelli,N.M.等人,Programmable base editing of A*T to G*C in genomic DNAwithout DNA cleavage.Nature 551,464-471,doi:10.1038/nature24644(2017)).用于位点特异性哺乳动物细胞基因组DNA扩增的引物列于表18。使用NanoDrop 1000分光光度计(ThermoFisher Scientific)量化DNA浓度,并根据制造商的方案在Illumina MiSeq仪器上测序。
靶向NGS数据分析
通过执行四个一般步骤来分析所有靶向NGS数据:(1)Illumina多路分解,(2)读取修剪和过滤,(3)将所有读取与预期的扩增子序列对齐,以及(4)生成对齐统计数据和量化编辑率。在以下段落中更详细地描述了每个步骤:由ABE7和ABE8在不同基因座产生的单倍型示于图7.
1.为了从MiSeq生成的碱基检出文件(BCF)生成FASTQ文件,通过使用以下参数运行Illumina bcl2fastq(v2.20.0.422)来执行多路分解:
bcl2fastq\
--ignore-missing-bcls\
--ignore-missing-filter\
--ignore-missing-positions\
--ignore-missing-controls\
--auto-set-to-zero-barcode-mismatches\
--find-adapters-with-sliding-window\
--adapter-stringency 0.9\
--mask-short-adapter-reads 35\
--minimum-trimmed-read-length 35\
2.在步骤(1)中创建的FASTQ文件使用trimmomatic(v0.39)处理(Bolger,A.M.等人,Trimmomatic:a flexible trimmer for Illumina sequence data.Bioinformatics30,2114-2120,doi:10.1093/bioinformatics/btu170(2014))将参数设置为剪切IlluminaTruSeq连接子,排除短于20个碱基的读数,如果4bp滑动窗口中的平均碱基质量(Phred分数)低于15,则修剪剩余的3'末端读数。此外,在读取结束时质量得分为3或更低的任何碱基都被删除。最后,由于第1轮PCR引物在读取1引物序列之后包含四个随机碱基,因此修剪了每个读取的前四个碱基。用于执行修剪(trimmomatic)的命令如下所示:
trimmomatic SE-phred33$input_fastq$output_fastq\
ILLUMINACLIP:illumine_adapters.fa:2:30:10\
LEADING:3TRAILING:3\
SLIDINGWINDOW:4:15\
MINLEN:20\
HEADCROP:4
3.使用bowtie2(v2.35)(Langmead,B.&Salzberg,S.L.,Fast gapped-readalignment with Bowtie 2.Nat Methods 9,357-359,doi:10.1038/nmeth.1923(2012)),在端到端模式下,使用--非常敏感标志指定的对齐参数将读数与扩增子序列对齐。参考序列被确定为基于人类基因组(GRCh38)的每个引物对的预期扩增子序列(包括引物)。bowtie2创建的SAM文件被转换为BAM文件,使用SAMtools包(v1.9)进行排序和索引(Li,H.等人,The Sequence Alignment/Map format and SAMtools.Bioinformatics 25,2078-2079,doi:10.1093/bioinformatics/btp352(2009)).仅考虑具有至少5,000个对齐读数的样本进行分析。
4.使用bam-readcounts工具(https://github.com/genome/bam-readcount)处理步骤(3)中创建的BAM文件以生成纯文本文件,汇总非参考碱基、删除和插入的数量对齐中的每个位置。计数非参考碱基的最低碱基质量(Phred分数)设置为29,以便从有关编辑率的统计数据中排除低置信度碱基调用。只有插入和/或删除与碱基编辑器目标位点(定义为其原间隔序列+PAM序列)重叠的读取才计入插入和删除率。靶标位点中每个位置的编辑率计算为给定类型(例如G)的非参考碱基与在比对中给定位置通过碱基质量阈值的碱基总数的比例。
其他实施例
从前面的描述中,很明显可以对这里描述的本发明进行变化和修改以将其用于各种用途和条件。这样的实施例也在所附权利要求的范围内。
在本文中对变量的任何定义中的元素列表的叙述包括将该变量定义为任何单个元素或所列元素的组合(或子组合)。此处对实施例的叙述包括作为任何单个实施例或与任何其他实施例或其部分组合的实施例。
本说明书中提及的所有出版物、专利和专利申请均在此以引用方式并入本文,其程度就如同每个单独的出版物、专利或专利申请被具体地和单独地指示为以引用方式并入一样。除非另有说明,本说明书中提及的出版物、专利和专利申请通过引用整体并入本文。

Claims (152)

1.一种产生经修饰的免疫细胞的方法,所述方法包含在免疫细胞中表达或引入核碱基编辑器多肽,并使所述细胞与两种或更多种靶向所述核碱基编辑器多肽的引导RNA接触,以影响核酸分子的改变,所述核酸分子编码至少一种选自由T细胞受体α常数(TRAC)、β-2微球蛋白(B2M)、程序性细胞死亡1(PD1)、分化簇7(CD7)、分化簇5(CD5)、分化簇33(CD33)、分化簇123(CD123)、Cbl原癌基因B(CBLB)和II类主要组织相容性复合反式激活因子(CIITA)多肽组成的群组的多肽,其中所述核碱基编辑器多肽包含核酸可编程DNA结合蛋白(napDNAbp)和至少一种碱基编辑器结构域,所述碱基编辑器结构域包含腺苷脱氨酶变体结构域,所述结构域包含在
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82和/或166处的改变。
2.根据权利要求1所述的方法,其中所述腺苷脱氨酶变体结构域包含在氨基酸位置82和166处的改变。
3.根据权利要求1所述的方法,其中所述腺苷脱氨酶变体包含V82S的改变。
4.根据权利要求1所述的方法,其中所述腺苷脱氨酶变体包含T166R的改变。
5.根据权利要求1所述的方法,其中所述腺苷脱氨酶变体包含V82S和T166R的改变。
6.根据权利要求1至5中任一项所述的方法,其中所述腺苷脱氨酶变体进一步包含以下一个或多个改变:Y147T、Y147R、Q154S、Y123H和Q154R。
7.根据权利要求1至6中任一项所述的方法,其中所述腺苷脱氨酶变体包含选自由以下组成的群组的改變的组合:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。
8.根据权利要求1至7中任一项所述的方法,其中所述腺苷脱氨酶变体为TadA*8。
9.根据权利要求8所述的方法,其中所述TadA*8是TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23、TadA*8.24。
10.根据权利要求1至9中任一项所述的方法,其中所述腺苷脱氨酶变体结构域包含选自由149、150、151、152、153、154、155、156和157组成的群组中的残基开始的C末端的缺失。
11.根据权利要求1至10中任一项所述的方法,其中所述碱基编辑器结构域为腺苷脱氨酶变体单体。
12.根据权利要求11所述的方法,其中所述碱基编辑器结构域为ABE8.1-m、ABE8.2-m、ABE8.3-m、ABE8.4-m、ABE8.5-m、ABE8.6-m、ABE8.7-m、ABE8.8-m、ABE8.9-m、ABE8.10-m、ABE8.11-m、ABE8.12-m、ABE8.13-m、ABE8.14-m、ABE8.15-m、ABE8.16-m、ABE8.17-m、ABE8.18-m、ABE8.19-m、ABE8.20-m、ABE8.21-m、ABE8.22-m、ABE8.23-m、ABE8.24-m。
13.根据权利要求1至10中任一项所述的方法,其中所述碱基编辑器结构域为腺苷脱氨酶变体异二聚体,所述腺苷脱氨酶变体异二聚体包含野生型腺苷脱氨酶结构域和所述腺苷脱氨酶变体结构域。
14.根据权利要求13所述的方法,其中所述碱基编辑器结构域为ABE8.1-d、ABE8.2-d、ABE8.3-d、ABE8.4-d、ABE8.5-d、ABE8.6-d、ABE8.7-d、ABE8.8-d、ABE8.9-d、ABE8.10-d、ABE8.11-d、ABE8.12-d、ABE8.13-d、ABE8.14-d、ABE8.15-d、ABE8.16-d、ABE8.17-d、ABE8.18-d、ABE8.19-d、ABE8.20-d、ABE8.21-d、ABE8.22-d、ABE8.23-d或ABE8.24-d。
15.根据权利要求1至10中任一项所述的融合蛋白,其中所述碱基编辑器结构域为腺苷脱氨酶变体异二聚体,所述腺苷脱氨酶变体异二聚体包含TadA*7.10结构域和腺苷脱氨酶变体结构域。
16.根据权利要求1至15中任一项所述的方法,其中所述腺苷脱氨酶变体结构域包含或基本上由下列具有腺苷脱氨酶活性的序列或其片段组成:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCTFFRMPRQVFNAQKKAQSSTD。
17.根据权利要求1至16中任一项所述的方法,其中所述腺苷脱氨酶变体相对于全长腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。
18.根据权利要求1至17中任一项所述的方法,其中所述napDNAbp包含下列序列:
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV*,其中粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示双核定位序列。
19.根据权利要求1至18中任一项所述的方法,其中所述napDNAbp是金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、化脓性链球菌Cas9(SpCas9)或其变体。
20.根据权利要求1至19中任一项所述的方法,其中所述napDNAbp包含具有改变的原间隔序列临近基序(PAM)特异性或对非G PAM具有特异性的变体SpCas9。
21.根据权利要求20所述的方法,其中所述改变的PAM对核酸序列5'-NGC-3'具有特异性。
22.根据权利要求20或21所述的方法,其中所述SpCas9包含D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R的氨基酸置换,或其相应的氨基酸置换。
23.根据权利要求1至19中任一项所述的方法,其中所述napDNAbp包含核酸酶死亡Cas9(dCas9)、Cas9切口酶(nCas9)或核酸酶活性Cas9。
24.根据权利要求23所述的方法,其中所述切口酶变体包含氨基酸置换D10A或其相应的氨基酸置换。
25.根据权利要求1至24中任一项所述的方法,其中所述核碱基编辑器多肽进一步包含锌指结构域。
26.根据权利要求1至25中任一项所述的方法,其中所述腺苷脱氨酶变体结构域能够使脱氧核糖核酸(DNA)中的腺嘌呤脱氨。
27.根据权利要求1至26中任一项所述的方法,其中所述腺苷脱氨酶变体结构域是自然界中不存在的经修饰的腺苷脱氨酶。
28.根据权利要求1至27中任一项所述的方法,其中所述腺苷脱氨酶变体为TadA*8。
29.根据权利要求1至28中任一项所述的方法,其中所述核碱基编辑器多肽进一步包含所述napDNAbp和所述腺苷脱氨酶变体结构域之间的连接子。
30.根据权利要求29所述的方法,其中所述连接子包含氨基酸序列:
SGGSSGGSSGSETPGTSESATPES。
31.根据权利要求1至30中任一项所述的方法,其中所述核碱基编辑器多肽进一步包含或更多核定位信号(NLS)。
32.根据权利要求31所述的方法,其中所述NLS是双向NLS。
33.根据权利要求31所述的方法,其中所述核碱基编辑器多肽包含N末端NLS和C末端NLS。
34.根据权利要求19所述的方法,其中所述napDNAbp为经修饰的金黄色葡萄球菌Cas9(SaCas9)。
35.根据权利要求34所述的方法,其中所述经修饰的SaCas9包含E782K、N968K和R1015H的氨基酸置换,或其相应的氨基酸置换。
36.根据权利要求34所述的方法,其中所述经修饰的SaCas9包含氨基酸序列:
KRNYILGLAIGITSVGYGIIDYETRDVIDAGVRLFKEANVENNEGRRSKRGARRLKRRRRHRIQRVKKLLFDYNLLTDHSELSGINPYEARVKGLSQKLSEEEFSAALLHLAKRRGVHNVNEVEEDTGNELSTKEQISRNSKALEEKYVAELQLERLKKDGEVRGSINRFKTSDYVKEAKQLLKVQKAYHQLDQSFIDTYIDLLETRRTYYEGPGEGSPFGWKDIKEWYEMLMGHCTYFPEELRSVKYAYNADLYNALNDLNNLVITRDENEKLEYYEKFQIIENVFKQKKKPTLKQIAKEILVNEEDIKGYRVTSTGKPEFTNLKVYHDIKDITARKEIIENAELLDQIAKILTIYQSSEDIQEELTNLNSELTQEEIEQISNLKGYTGTHNLSLKAINLILDELWHTNDNQIAIFNRLKLVPKKVDLSQQKEIPTTLVDDFILSPVVKRSFIQSIKVINAIIKKYGLPNDIIIELAREKNSKDAQKMINEMQKRNRQTNERIEEIIRTTGKENAKYLIEKIKLHDMQEGKCLYSLEAIPLEDLLNNPFNYEVDHIIPRSVSFDNSFNNKVLVKQEENSKKGNRTPFQYLSSSDSKISYETFKKHILNLAKGKGRISKTKKEYLLEERDINRFSVQKDFINRNLVDTRYATRGLMNLLRSYFRVNNLDVKVKSINGGFTSFLRRKWKFKKERNKGYKHHAEDALIIANADFIFKEWKKLDKAKKVMENQMFEEKQAESMPEIETEQEYKEIFITPHQIKHIKDFKDYKYSHRVDKKPNRKLINDTLYSTRKDDKGNTLIVNNLNGLYDKDNDKLKKLINKSPEKLLMYHHDPQTYQKLKLIMEQYGDEKNPLYKYYEETGNYLTKYSKKDNGPVIKKIKYYGNKLNAHLDITDDYPNSRNKVVKLSLKPYRFDVYLDNGVYKFVTVKNLDVIKKENYYEVNSKCYEEAKKLKKISNQAEFIASFYKNDLIKINGELYRVIGVNNDLLNRIEVNMIDITYREYLENMNDKRPPHIIKTIASKTQSIKKYSTDILGNLYEVKSKKHPQIIKKG。
37.根据权利要求1至36中任一项所述的方法,其中所述免疫细胞为T细胞。
38.根据权利要求1至37中任一项所述的方法,其中所述免疫细胞取自健康受试者。
39.根据权利要求1至38中任一项所述的方法,其中所述两种或更多种引导RNA在细胞中表达或接触细胞。
40.根据权利要求1至38中任一项所述的方法,其中所述三种引导RNA在细胞中表达或接触细胞。
41.根据权利要求40所述的方法,其中所述三种引导RNA各自靶向B2M、TRAC和CIITA多核苷酸。
42.根据权利要求1至38中任一项所述的方法,其中所述两种或更多种引导RNA靶向TRAC外显子4剪接受体位点、B2M外显子1剪接供体位点和/或PDCD1外显子1剪接供体位点。
43.根据权利要求1至38中任一项所述的方法,其中所述两种或更多种引导RNA靶向靶标多核苷酸中的剪接受体位点或剪接供体位点。
44.根据权利要求1至38中任一项所述的方法,其中所述核碱基编辑器多肽在靶标多核苷酸中产生终止密码子。
45.根据权利要求44所述的方法,其中所述核碱基编辑器多肽在PDCD1外显子2中产生终止密码子。
46.根据权利要求1至45中任一项所述的方法,其中所述核碱基编辑器多肽进一步包含一种或多种尿嘧啶糖基化酶抑制剂。
47.根据权利要求1至46中任一项所述的方法,进一步包含在经修饰的免疫细胞中表达嵌合抗原受体(CAR)。
48.根据权利要求1至47中任一项所述的方法,其中所述免疫细胞经过离体修饰。
49.根据权利要求1至48中任一项所述的方法,其中所述免疫细胞是细胞毒性T细胞、调节性T细胞或T辅助细胞。
50.根据权利要求1至49中任一项所述的方法,其中所述经修饰的免疫细胞不包含可检测的易位。
51.一种经修饰的免疫细胞,其根据权利要求1至50中任一项的方法而产生。
52.根据权利要求51所述的经修饰的免疫细胞,其中所述细胞具有降低的免疫原性和增强的抗肿瘤活性。
53.根据权利要求51或52所述的经修饰的免疫细胞,其中所述免疫细胞为T细胞。
54.根据权利要求51至53中任一项所述的经修饰的免疫细胞,其中所述细胞在编码B2M、CD7、CIITA、PD1、CBLB和/或TRAC的多核苷酸中包含一个或多个突变。
55.根据权利要求54所述的经修饰的免疫细胞,其中所述细胞在编码B2M、TRAC和CIITA的多核苷酸中包含一个或多个突变。
56.根据权利要求51至55中任一项所述的经修饰的免疫细胞,其中所述细胞在编码TIGIT、TGFBR2、ZAP70、NFATc1或TET2的一种或多种多核苷酸中包含突变。
57.根据权利要求51至56中任一项所述的经修饰的免疫细胞,其中所述细胞在编码V-Set免疫调节受体(VISTA)、T细胞免疫球蛋白粘蛋白3(Tim-3)、具有Ig及ITIM结构域的T细胞免疫受体(TIGIT)、转化生长因子β受体II(TGFbRII)、调节因子X相关含锚蛋白(RFXANK)、含PVR相关免疫球蛋白结构域(PVRIG)、淋巴细胞激活基因3(Lag3)、细胞毒性T淋巴细胞相关蛋白4(CTLA-4)、几丁质酶3样1(Chi3l1)、分化簇96(CD96)、B和T淋巴细胞相关(BTLA)、Tet甲基胞嘧啶双加氧酶2(TET2)、Sprouty RTK信号拮抗剂1(Spry1)、Sprouty RTK信号拮抗剂2(Spry2)、II类主要组织相容性复合反式激活剂(CIITA)、分化簇7(CD7)、分化簇33(CD33)、分化簇52(CD52)、分化簇123(CD123)、T细胞受体β常数1(TRBC1)、T细胞受体β常数2(TRBC2)、细胞因子诱导型含SH2蛋白(CISH)、乙酰辅酶A乙酰转移酶1(ACAT1)、细胞色素P450家族11亚家族A成员1(Cyp11a1)、GATA结合蛋白3(GATA3)、核受体亚家族4A群成员1(NR4A1)、核受体亚家族4A群成员2(NR4A2)、核受体亚家族4A群成员3(NR4A3)、甲基化控制的J蛋白(MCJ)、Fas细胞表面死亡受体(FAS)或选择素P配体/P-选择素糖蛋白配体-1(SELPG/PSGL1)的一种或多种多核苷酸中包含突变。
58.根据权利要求51至58中任一项所述的经修饰的免疫细胞,其中所述免疫细胞表达嵌合抗原受体。
59.根据权利要求58所述的经修饰的免疫细胞,其中所述嵌合抗原受体包含对与肿瘤相关的标志物具有亲和力的胞外结构域。
60.根据权利要求59所述的经修饰的免疫细胞,其中所述肿瘤为B细胞癌症。
61.根据权利要求或60所述的经修饰的免疫细胞,其中所述B细胞癌症为淋巴瘤或白血病。
62.根据权利要求59所述的经修饰的免疫细胞,其中所述肿瘤为多发性骨髓瘤。
63.根据权利要求59所述的经修饰的免疫细胞,其中所述标志物是B细胞成熟抗原(BCMA)。
64.一种调节受试者免疫应答的方法,所述方法包含施用有效量的权利要求51至63中任一项所述的经修饰的免疫细胞。
65.根据权利要求64所述的方法,其中所述方法增加或减少免疫应答。
66.一种治疗受试者中的肿瘤的方法,所述方法包含施用有效量的权利要求51至63中任一项所述的经修饰的免疫细胞。
67.根据权利要求66所述的方法,其中所述肿瘤为B细胞癌症。
68.根据权利要求67所述的方法,其中所述B细胞癌症为淋巴瘤或白血病。
69.根据权利要求67所述的方法,其中所述B细胞癌症为多发性骨髓瘤。
70.一种使用有效量的权利要求51至63中任一项所述的经修饰的免疫细胞治疗患有或具有发展移植物抗宿主病(GVHD)倾向的受试者的方法。
71.根据权利要求70所述的方法,其中所述经修饰的免疫细胞缺乏或具有降低水平的功能性TRAC。
72.一种使用有效量的权利要求51至63中任一项所述的经修饰的免疫细胞治疗患有或具有发展宿主抗移植物病(HVGD)倾向的受试者的方法。
73.根据权利要求72所述的方法,其中所述经修饰的免疫细胞缺乏或具有降低水平的功能性B2M。
74.一种医药组合物,其包含在药学上可接受的赋形剂中的有效量的权利要求51至63中任一项所述的经修饰的免疫细胞。
75.一种用于治疗肿瘤的医药组合物,其包含有效量的权利要求51至63中任一项所述的经修饰的免疫细胞。
76.根据权利要求75所述的方法,其中所述肿瘤为B细胞癌症。
77.根据权利要求76所述的方法,其中所述B细胞癌症为淋巴瘤或白血病。
78.根据权利要求76所述的方法,其中所述B细胞癌症为多发性骨髓瘤。
79.一种用于治疗GVHD的医药组合物,其包含有效量的权利要求51至63中任一项所述的经修饰的免疫细胞。
80.根据权利要求79所述的医药组合物,其中所述经修饰的免疫细胞缺乏或具有降低水平的功能性TRAC。
81.一种用于治疗HVGD的医药组合物,其包含有效量的权利要求51至63中任一项所述的经修饰的免疫细胞。
82.根据权利要求81所述的医药组合物,其中所述经修饰的免疫细胞缺乏或具有降低水平的功能性B2M。
83.一种用于治疗肿瘤的试剂盒,其包含有效量的权利要求51至63中任一项所述的经修饰的免疫细胞。
84.根据权利要求83所述的试剂盒,其中所述经修饰的免疫细胞進一步包含对与肿瘤相关的标志物具有亲和力的嵌合抗原受体。
85.根据权利要求83或84所述的试剂盒,其进一步包含使用所述经修饰的免疫效应细胞治疗肿瘤的书面说明。
86.一种用于治疗HVGD或GVHD的试剂盒,所述试剂盒包含权利要求51至63中任一项所述的经修饰的免疫细胞。
87.根据权利要求86所述的试剂盒,其进一步包含使用所述经修饰的免疫效应细胞治疗HVGD或GVHD的书面说明。
88.根据权利要求86或87所述的试剂盒,用于治疗GVHD的所述经修饰的免疫效应细胞缺乏或具有降低水平的功能性TRAC,或用于治疗的HVGD的所述经修饰的免疫效应细胞缺乏或具有降低的功能性B2M水平。
89.一种产生经修饰的免疫细胞的方法,所述方法包含在免疫细胞中表达或引入核碱基编辑器多肽,并使所述细胞与能够靶向核酸分子的两种或更多种引导RNA接触,所述核酸分子编码至少一种选自由T细胞受体α常数(TRAC)、β-2微球蛋白(B2M)、程序性细胞死亡1(PD1)、分化簇7(CD7)、分化簇5(CD5)、分化簇33(CD33)、分化簇123(CD123)、Cbl原癌基因B(CBLB)和II类主要组织相容性复合反式激活因子(CIITA)多肽组成的群组的多肽,其中所述核碱基编辑器多肽包含至少一种插入核酸可编程DNA结合蛋白(napDNAbp)內的碱基腺苷脱氨酶变体结构域。
90.根据权利要求89所述的方法,其中所述腺苷脱氨酶变体结构域包含所述氨基酸序列:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD;
其中所述氨基酸序列包含至少一个改变。
91.根据权利要求90所述的方法,其中所述腺苷脱氨酶变体结构域在氨基酸位置82和/或166处包含改变。
92.根据权利要求90或91所述的方法,其中所述至少一个改变包含:V82S、T166R、Y147T、Y147R、Q154S、Y123H和/或Q154R。
93.根据权利要求90至92中任一项所述的方法,其中所述腺苷脱氨酶变体结构域包含以下改变组合之一:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R和I76Y+V82S+Y123H+Y147R+Q154R。
94.根据权利要求89至93中任一项所述的方法,其中所述腺苷脱氨酶变体结构域为TadA*8.1、TadA*8.2、TadA*8.3、TadA*8.4、TadA*8.5、TadA*8.6、TadA*8.7、TadA*8.8、TadA*8.9、TadA*8.10、TadA*8.11、TadA*8.12、TadA*8.13、TadA*8.14、TadA*8.15、TadA*8.16、TadA*8.17、TadA*8.18、TadA*8.19、TadA*8.20、TadA*8.21、TadA*8.22、TadA*8.23、TadA*8.24。
95.根据权利要求90至94中任一项所述的方法,其中所述腺苷脱氨酶变体包含选自由149、150、151、152、153、154、155、156和157组成的群组中的残基开始的C末端的缺失。
96.根据权利要求89至95中任一项所述的方法,其中所述腺苷脱氨酶变体结构域为腺苷脱氨酶单体。
97.根据权利要求89至95中任一项所述的方法,其中所述腺苷脱氨酶变体是包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体结构域的腺苷脱氨酶异二聚体。
98.根据权利要求85至95中任一项所述的方法,其中所述腺苷脱氨酶变体是包含TadA结构域和腺苷脱氨酶变体结构域的腺苷脱氨酶异二聚体。
99.根据权利要求89至98中任一项所述的方法,其中所述napDNAbp是Cas9或Cas12多肽。
100.根据权利要求89至99中任一项所述的方法,其中所述腺苷脱氨酶变体插入在所述napDNAbp的柔性环、α螺旋区、非结构化部分或溶剂可及部分内。
101.根据权利要求89至100中任一项所述的方法,其中所述腺苷脱氨酶变体的侧翼是napDNAbp的N末端片段和C末端片段。
102.根据权利要求89至101中任一项所述的方法,其中所述核碱基编辑器多肽包含结构NH2-[napDNAbp的N末端片段]-[腺苷脱氨酶变体]-[napDNAbp的C末端片段]-COOH,其中“]-[”的每个实例是可选的连接子。
103.根据权利要求101至102中任一项所述的方法,其中所述N末端片段的C末端或C末端片段的N末端包含napDNAbp的柔性环的一部分。
104.根据权利要求103所述的方法,其中所述柔性环包含靠近靶标核碱基的氨基酸。
105.根据权利要求104所述的方法,其中所述靶标核碱基与靶标多核苷酸序列中的PAM序列相距1至20个核碱基。
106.根据权利要求104所述的方法,其中所述靶标核碱基是所述PAM序列上游的2至12个核碱基。
107.根据权利要求101至106中任一项所述的方法,其中所述napDNAbp的N末端片段或C末端片段结合所述靶标多核苷酸序列。
108.根据权利要求101至107中任一项所述的方法,其中:
所述N末端片段或所述C末端片段包含RuvC结构域;
所述N末端片段或所述C末端片段包含HNH结构域;
所述N末端片段和所述C末端片段均不包含HNH结构域;或
所述N末端片段和所述C末端片段均不包含RuvC结构域。
109.根据权利要求101至108中任一项所述的方法,其中所述napDNAbp在一个或多个结构域中包含部分或完全缺失,并且其中所述腺苷脱氨酶插入在所述napDNAbp的部分或完全缺失处。
110.根据权利要求109所述的方法,其中:
所述缺失在RuvC结构域内;
所述缺失在HNH结构域内;
所述缺失桥接RuvC结构域和C末端结构域、L-I结构域和HNH结构域或RuvC结构域和L-I结构域。
111.根据实施例89至110中任一项所述的方法,其中所述napDNAbp包含Cas9多肽。
112.根据权利要求99至111中任一项所述的方法,其中所述Cas9多肽是化脓性链球菌Cas9(SpCas9)、金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)或其变体。
113.根据权利要求99、111或112中任一项所述的方法,其中所述Cas9多肽以下氨基酸序列(Cas9参考序列):
Figure FDA0003298963600000161
Figure FDA0003298963600000171
Figure FDA0003298963600000172
(单下划线:HNH结构域;双下划线:RuvC结构域;(Cas9参考序列),或其相应区域。
114.根据权利要求113所述的方法,其中:
所述Cas9多肽包含在所述Cas9多肽参考序列中编号的氨基酸1017至1069或其相应氨基酸的缺失;
所述Cas9多肽包含在所述Cas9多肽参考序列中编号的氨基酸792至872或其相应氨基酸的缺失;或
所述Cas9多肽包含在所述Cas9多肽参考序列中编号的氨基酸792至906或其相应氨基酸的缺失。
115.根据权利要求111至114中任一项所述的方法,其中所述腺苷脱氨酶变体插入所述Cas9多肽的柔性环内。
116.根据权利要求115所述的方法,其中所述柔性环包含选自由在所述Cas9参考序列中编号530至537、569至579、686至691、768至793、943至947、1002至1040、1052至1077、1232至1248和1298至1300的氨基酸残基组成的群组的区域,或其相应的氨基酸位置。
117.根据权利要求113至116所述的方法,其中所述脱氨酶插入所述Cas9参考序列中编号768至769、791至792、792至793、1015至1016、1022至1023、1026至1027、1029至1030、1040至1041、1052至1053、1054至1055、1067至1068、1068至1069、1247至1248或1248至1249之间的氨基酸位置,或其相应的氨基酸位置。
118.根据权利要求113至116所述的方法,其中所述脱氨酶插入所述Cas9参考序列中编号768至769、792至793、1022至1023、1026至1027、1040至1041、1068至1069或1247至1248之间的氨基酸位置,或其相应的氨基酸位置。
119.根据权利要求113至118所述的方法,其中所述脱氨酶插入所述Cas9参考序列中编号1016至1017、1023至1024、1029至1030、1040至1041、1069至1070或1247至1248之间的氨基酸位置,或其相应的氨基酸位置。
120.根据权利要求113至118中任一项所述的方法,其中所述腺苷脱氨酶变体在表13A中鉴定的基因座处插入所述Cas9多肽内。
121.根据权利要求113至120所述的方法,其中所述N末端片段包含所述Cas9参考序列的1至529、538至568、580至685、692至942、948至1001、1026至1051、1078至1231和/或1248至1297的氨基酸残基,或其相应的残基。
122.根据权利要求113至121所述的方法,其中所述C末端片段包含所述Cas9参考序列的1301至1368、1248至1297、1078至1231、1026至1051、948至1001、692至942、580至685和/或538至568的氨基酸残基,或其相应的残基。
123.根据权利要求113至122中任一项所述的方法,其中所述Cas9多肽是经修饰的Cas9并且对改变的PAM具有特异性。
124.根据权利要求113至123中任一项所述的方法,其中所述Cas9多肽是切口酶或其中所述Cas9多肽是无核酸酶活性的。
125.根据权利要求123或124中任一项所述的方法,其中所述Cas9多肽经修饰的SpCas9多肽。
126.根据权利要求125所述的方法,其中所述经修饰的SpCas9多肽,其包括氨基酸置换D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E和T1337R(SpCas9-MQKFRAER)并且对改变的PAM5'-NGC-3'具有特异性。
127.根据权利要求89至110中任一项所述的方法,其中所述腺苷脱氨酶变体插入Cas12多肽内。
128.根据权利要求127所述的方法,其中所述Cas12多肽是Cas12a、Cas12b、Cas12c、Cas12d、Cas12e、Cas12g、Cas12h或Cas12i。
129.根据权利要求127或128所述的方法,其中所述腺苷脱氨酶变体插入氨基酸位置之间:
a)BhCas12b的153至154、255至256、306至307、980至981、1019至1020、534至535、604至605或344至345或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基;
b)BvCas12b的147和148、248和249、299和300、991和992或1031和1032或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基;
c)AaCas12b的157和158、258和259、310和311、1008和1009或1044和1045或Cas12a、Cas12c、Cas2d、Cas12e、Cas12g、Cas12h或Cas12i的相应氨基酸残基。
130.根据权利要求127或128所述的方法,其中所述腺苷脱氨酶变体在表13B中鉴定的基因座处插入所述Cas12多肽内。
131.根据权利要求127至130中任一项所述的方法,其中所述Cas12多肽是Cas12b。
132.根据权利要求131所述的方法,其中所述Cas12多肽包含BhCas12b结构域、BvCas12b结构域或AACas12b结构域。
133.一种经修饰的免疫细胞,其根据权利要求89至132中任一项的方法而产生。
134.根据权利要求133所述的经修饰的免疫细胞,其中所述免疫细胞为T细胞。
135.根据权利要求133至134中任一项所述的经修饰的免疫细胞,其中所述免疫细胞表达嵌合抗原受体。
136.一种调节受试者免疫应答的方法,所述方法包含施用有效量的权利要求133至135中任一项所述的经修饰的免疫细胞。
137.一种医药组合物,其包含在药学上可接受的赋形剂中的有效量的权利要求133至135中任一项所述的经修饰的免疫细胞。
138.一种包含如权利要求133至135中任一项所述的经修饰的免疫细胞的试剂盒。
139.一种碱基编辑器系统,其包含多核苷酸可编程DNA结合结构域和至少一种碱基编辑器结构域,所述碱基编辑器结构域包含在MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82或166处发生改变的腺苷脱氨酶变体和两种或多种靶向所述核碱基编辑器多肽的引导RNA,以影响核酸分子的改变,所述核酸分子编码至少一种选自由T细胞受体α常数(TRAC)、β-2微球蛋白(B2M)、程序性细胞死亡1(PD1)、分化簇7(CD7)、分化簇5(CD5)、分化簇33(CD33)、分化簇123(CD123)、Cbl原癌基因B(CBLB)和II类主要组织相容性复合反式激活因子(CIITA)多肽组成的群组的多肽。
140.一种碱基编辑器系统,其包含如权利要求139所述的碱基编辑器,其中所述腺苷脱氨酶变体包含V82S改变和/或T166R改变。
141.根据权利要求140所述的碱基编辑器系统,其中所述腺苷脱氨酶变体进一步包含以下一个或多个以下改变:Y147T、Y147R、Q154S、Y123H和Q154R。
142.根据权利要求140或141中任一项所述的碱基编辑器系统,其中所述碱基编辑器结构域包含腺苷脱氨酶异二聚体,所述腺苷脱氨酶异二聚体包含野生型腺苷脱氨酶结构域和腺苷脱氨酶变体。
143.根据权利要求140至142中任一项所述的碱基编辑器,其中所述腺苷脱氨酶变体是截短的TadA8其相对于全长TadA8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个N末端氨基酸残基。
144.根据权利要求140至142中任一项所述的碱基编辑器,其中所述腺苷脱氨酶变体是截短的TadA8其相对于全长TadA8缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个C末端氨基酸残基。
145.根据权利要求140至144中任一项所述的碱基编辑器系统,其中所述多核苷酸可编程DNA结合结构域是经修饰的金黄色葡萄球菌Cas9(SaCas9)、嗜热链球菌1Cas9(St1Cas9)、化脓性链球菌Cas9(SpCas9)或其变体。
146.根据权利要求145所述的碱基编辑器系统,其中所述多核苷酸可编程DNA结合结构域是SpCas9的变体,其具有改变的原间隔序列临近基序(PAM)特异性或对非G PAM具有特异性。
147.根据权利要求146所述的碱基编辑器系统,其中所述多核苷酸可编程DNA结合结构域是无核酸酶活性Cas9。
148.根据权利要求146所述的碱基编辑器系统,其中所述多核苷酸可编程DNA结合结构域为Cas9切口酶。
149.一种碱基编辑器系统,其包含两种或多种引导RNA和融合蛋白,所述融合蛋白包含多核苷酸可编程DNA结合结构域,其包含以下序列:
EIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFMQPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAKFLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPRAFKYFDTTIARKEYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDGGSGGSGGSGGSGGSGGSGGMDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEGADKRTADGSEFESPKKKRKV*,其中粗体序列表示源自Cas9的序列,斜体序列表示连接子序列,下划线序列表示双核定位序列,和至少一种碱基编辑器结构域,所述碱基编辑器结构域包含在MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD的氨基酸位置82或166处发生改变的腺苷脱氨酶变体和两种或多种靶向所述核碱基编辑器多肽的引导RNA,以影响核酸分子的改变,所述核酸分子编码至少一种选自由T细胞受体α常数(TRAC)、β-2微球蛋白(B2M)、程序性细胞死亡1(PD1)、分化簇7(CD7)、分化簇5(CD5)、分化簇33(CD33)、分化簇123(CD123)、Cbl原癌基因B(CBLB)和II类主要组织相容性复合反式激活因子(CIITA)多肽组成的群组的多肽。
150.一种细胞,其包含如权利要求139至149中任一项所述的碱基编辑器系统。
151.根据权利要求150所述的细胞,其中所述细胞是人类细胞或哺乳动物细胞。
152.根据权利要求150所述的细胞,其中所述细胞是离体的、体内的或体外的。
CN202080028181.2A 2019-02-13 2020-02-13 具有用于修饰靶标序列中核碱基的腺苷脱氨酶碱基编辑器的经修饰的免疫细胞 Pending CN114026227A (zh)

Applications Claiming Priority (15)

Application Number Priority Date Filing Date Title
US201962805271P 2019-02-13 2019-02-13
US62/805,271 2019-02-13
US201962852228P 2019-05-23 2019-05-23
US201962852224P 2019-05-23 2019-05-23
US62/852,228 2019-05-23
US62/852,224 2019-05-23
US201962931722P 2019-11-06 2019-11-06
US62/931,722 2019-11-06
US201962941523P 2019-11-27 2019-11-27
US201962941569P 2019-11-27 2019-11-27
US62/941,523 2019-11-27
US62/941,569 2019-11-27
US202062966526P 2020-01-27 2020-01-27
US62/966,526 2020-01-27
PCT/US2020/018178 WO2020168122A1 (en) 2019-02-13 2020-02-13 Modified immune cells having adenosine deaminase base editors for modifying a nucleobase in a target sequence

Publications (1)

Publication Number Publication Date
CN114026227A true CN114026227A (zh) 2022-02-08

Family

ID=72043867

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080028181.2A Pending CN114026227A (zh) 2019-02-13 2020-02-13 具有用于修饰靶标序列中核碱基的腺苷脱氨酶碱基编辑器的经修饰的免疫细胞

Country Status (9)

Country Link
US (1) US20230080198A1 (zh)
EP (1) EP3924480A4 (zh)
JP (1) JP2022520233A (zh)
KR (1) KR20210138603A (zh)
CN (1) CN114026227A (zh)
AU (1) AU2020221279A1 (zh)
CA (1) CA3129157A1 (zh)
SG (1) SG11202108346WA (zh)
WO (1) WO2020168122A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116590237A (zh) * 2023-05-29 2023-08-15 上海贝斯昂科生物科技有限公司 一种遗传修饰的自然杀伤细胞及其制备和用途
WO2023193536A1 (zh) * 2022-04-07 2023-10-12 尧唐(上海)生物科技有限公司 一种腺苷脱氨酶、碱基编辑器及应用

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2018229351B2 (en) 2017-02-28 2024-01-04 Vor Biopharma, Inc. Compositions and methods for inhibition of lineage specific proteins
EP4257696A3 (en) 2018-03-14 2024-01-24 Arbor Biotechnologies, Inc. Novel crispr dna targeting enzymes and systems
US11389485B2 (en) 2018-08-28 2022-07-19 Vor Biopharma Inc. Genetically engineered hematopoietic stem cells and uses thereof
CN114787352A (zh) * 2019-08-28 2022-07-22 Vor生物制药股份有限公司 用于cd123修饰的组合物和方法
US20220380776A1 (en) * 2019-10-22 2022-12-01 Fred Hutchinson Cancer Center Base editor-mediated cd33 reduction to selectively protect therapeutic cells
US20230235315A1 (en) * 2020-07-10 2023-07-27 Horizon Discovery Limited Method for producing genetically modified cells
JP2023540277A (ja) * 2020-08-28 2023-09-22 ブイオーアール バイオファーマ インコーポレーテッド Cd123改変のための組成物および方法
WO2023034408A1 (en) * 2021-08-31 2023-03-09 The Texas A&M University System Chimeric antigen receptor (car) t cell therapy platform
WO2023034475A1 (en) * 2021-09-01 2023-03-09 Arbor Biotechnologies, Inc. Cells modified by a cas12i polypeptide
WO2023088440A1 (en) * 2021-11-18 2023-05-25 Correctsequence Therapeutics Regeneration of surface antigen-negative cells

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106103475A (zh) * 2014-03-11 2016-11-09 塞勒克提斯公司 产生同种异体移植相容的t细胞的方法
WO2018027078A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
WO2018071868A1 (en) * 2016-10-14 2018-04-19 President And Fellows Of Harvard College Aav delivery of nucleobase editors
WO2018213708A1 (en) * 2017-05-18 2018-11-22 The Broad Institute, Inc. Systems, methods, and compositions for targeted nucleic acid editing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3365357B1 (en) * 2015-10-23 2024-02-14 President and Fellows of Harvard College Evolved cas9 proteins for gene editing
AU2018229351B2 (en) * 2017-02-28 2024-01-04 Vor Biopharma, Inc. Compositions and methods for inhibition of lineage specific proteins
JP2020534795A (ja) * 2017-07-28 2020-12-03 プレジデント アンド フェローズ オブ ハーバード カレッジ ファージによって支援される連続的進化(pace)を用いて塩基編集因子を進化させるための方法および組成物

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106103475A (zh) * 2014-03-11 2016-11-09 塞勒克提斯公司 产生同种异体移植相容的t细胞的方法
WO2018027078A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
WO2018071868A1 (en) * 2016-10-14 2018-04-19 President And Fellows Of Harvard College Aav delivery of nucleobase editors
WO2018213708A1 (en) * 2017-05-18 2018-11-22 The Broad Institute, Inc. Systems, methods, and compositions for targeted nucleic acid editing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
BENJAMIN P. KLEINSTIVER等: "Engineered CRISPR-Cas9 nucleases with altered PAM specificities", NATURE, vol. 523, no. 7561, pages 481 - 485, XP055293257, DOI: 10.1038/nature14592 *
魏瑜等: "基因编辑之"新宠"―单碱基基因组编辑系统", 遗传, vol. 39, no. 12, pages 1115 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023193536A1 (zh) * 2022-04-07 2023-10-12 尧唐(上海)生物科技有限公司 一种腺苷脱氨酶、碱基编辑器及应用
CN116590237A (zh) * 2023-05-29 2023-08-15 上海贝斯昂科生物科技有限公司 一种遗传修饰的自然杀伤细胞及其制备和用途
CN116590237B (zh) * 2023-05-29 2023-10-31 上海贝斯昂科生物科技有限公司 一种遗传修饰的自然杀伤细胞及其制备和用途

Also Published As

Publication number Publication date
JP2022520233A (ja) 2022-03-29
KR20210138603A (ko) 2021-11-19
WO2020168122A1 (en) 2020-08-20
SG11202108346WA (en) 2021-08-30
EP3924480A1 (en) 2021-12-22
US20230080198A1 (en) 2023-03-16
AU2020221279A1 (en) 2021-08-26
CA3129157A1 (en) 2020-08-20
EP3924480A4 (en) 2023-08-02

Similar Documents

Publication Publication Date Title
US20230080198A1 (en) Modified immune cells having adenosine deaminase base editors for modifying a nucleobase in a target sequence
CN114072496A (zh) 腺苷脱氨酶碱基编辑器及使用其修饰靶标序列中的核碱基的方法
WO2020150534A9 (en) Modified immune cells having enhanced anti-neoplasia activity and immunosuppression resistance
EP4034138A2 (en) Compositions and methods for treatment of liquid cancers
US11344609B2 (en) Compositions and methods for treating hemoglobinopathies
WO2020168051A9 (en) Methods of editing a disease-associated gene using adenosine deaminase base editors, including for the treatment of genetic disease
EP4022051A2 (en) Compositions and methods for non-toxic conditioning
US20220387622A1 (en) Methods of editing a single nucleotide polymorphism using programmable base editor systems
AU2022331424A1 (en) Persistent allogeneic modified immune cells and methods of use thereof
WO2022067089A1 (en) Fratricide resistant modified immune cells and methods of using the same
CN114026237A (zh) 用于治疗1a型糖原贮积病的组成物和方法
US20240158775A1 (en) Adenosine deaminase variants and uses thereof
WO2023108107A2 (en) Modified immune cells and methods of using the same
WO2023183434A2 (en) Compositions and methods for generating cells with reduced immunogenicty
WO2023115012A2 (en) Compositions and methods for the treatment of spinal muscular atrophy (sma)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination