CN114072509A - 脱氨反应脱靶减低的核碱基编辑器和使用其修饰核碱基靶序列的方法 - Google Patents

脱氨反应脱靶减低的核碱基编辑器和使用其修饰核碱基靶序列的方法 Download PDF

Info

Publication number
CN114072509A
CN114072509A CN202080026310.4A CN202080026310A CN114072509A CN 114072509 A CN114072509 A CN 114072509A CN 202080026310 A CN202080026310 A CN 202080026310A CN 114072509 A CN114072509 A CN 114072509A
Authority
CN
China
Prior art keywords
cytidine
deaminase
fusion protein
base editor
cytidine deaminase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080026310.4A
Other languages
English (en)
Inventor
N·戈代尔利
Y·于
I·斯雷梅克
J·M·格尔克
S-J·李
D·A·玻恩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Bim Medical Co ltd
Original Assignee
Bim Medical Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Bim Medical Co ltd filed Critical Bim Medical Co ltd
Publication of CN114072509A publication Critical patent/CN114072509A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/87Introduction of foreign genetic material using processes not otherwise provided for, e.g. co-transformation
    • C12N15/90Stable introduction of foreign DNA into chromosome
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/24Hydrolases (3) acting on glycosyl compounds (3.2)
    • C12N9/2497Hydrolases (3) acting on glycosyl compounds (3.2) hydrolysing N- glycosyl compounds (3.2.2)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/78Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5)
    • C12N9/80Hydrolases (3) acting on carbon to nitrogen bonds other than peptide bonds (3.5) acting on amide bonds in linear amides (3.5.1)
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • CCHEMISTRY; METALLURGY
    • C07ORGANIC CHEMISTRY
    • C07KPEPTIDES
    • C07K2319/00Fusion polypeptide
    • C07K2319/80Fusion polypeptide containing a DNA binding domain, e.g. Lacl or Tet-repressor
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y305/00Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5)
    • C12Y305/04Hydrolases acting on carbon-nitrogen bonds, other than peptide bonds (3.5) in cyclic amidines (3.5.4)
    • C12Y305/04005Cytidine deaminase (3.5.4.5)

Abstract

本发明的特征为:具有改良过的编辑设定(即脱氨反应脱靶为最小限度)的核碱基编辑器和多效应器核碱基编辑器,包括此类编辑器的组合物,以及使用其在靶核碱基序列中生成修饰的方法。

Description

脱氨反应脱靶减低的核碱基编辑器和使用其修饰核碱基靶序 列的方法
技术领域
相关申请的交叉引用
本申请是一项国际PCT申请,本申请要求2019年01月31日所提交的第62/799,702号;2019年04月17日所提交的第62/835,456号;以及2019年11月27日所提交的第62/941,569号美国临时专利申请的权益,其每个的全部内容在此通过引用并入本文。
背景技术
核酸序列的靶向编辑,例如基因组DNA的靶向切开或靶向修饰,是用于基因功能研究的一种颇具前景的方法,也有潜力为人类遗传疾病提供新的疗法。目前可用的碱基编辑器包含将标靶C·G碱基对转换为T·A的胞苷碱基编辑器(例如BE4)和将A·T转换为G·C的腺嘌呤碱基编辑器(例如ABE7.10)。本领域需要能够以更高的特异性和效率在靶序列内诱导修饰的改良过的碱基编辑器。
发明内容
如下所述,本发明的特征为:具有改良过的编辑设定(即脱氨反应脱靶为最小限度)的核碱基编辑器和多效应器核碱基编辑器,包括此类编辑器的组合物,以及使用其在靶核碱基序列中生成修饰的方法。
一方面本文提供了一种胞苷碱基编辑器,其包括(i)多核苷酸可编程的DNA结合结构域和(ii)胞苷脱氨酶,其中该胞苷碱基编辑器,与标准的胞苷碱基编辑器相比,具有增大的顺式活性对反式活性的比率(顺式:反式)。
在一些实施方式中,该标准的胞苷碱基编辑器包括(i)多核苷酸可编程的DNA结合结构域和(ii)APOBEC胞苷脱氨酶。在一些实施方式中,该标准的胞苷碱基编辑器的APOBEC胞苷脱氨酶是大鼠APOBEC-1胞苷脱氨酶(rAPOBEC-1)。在一些实施方式中,该标准的胞苷碱基编辑器的多核苷酸可编程的DNA结合结构域是Cas9切口酶。在一些实施方式中,该标准的胞苷碱基编辑器包括尿嘧啶糖基化酶抑制剂(UGI)结构域。在一些实施方式中,该标准的胞苷碱基编辑器是BE3或BE4。在一些实施方式中,该增大的顺式活性对反式活性的比率是增大了至少2、2.5、5、10、15、20、25、30、35、40、45、50、60倍或更多。在一些实施方式中,该胞苷碱基编辑器,与标准的胞苷碱基编辑器相比,具有至少50%、60%、70%、80%、90%、95%、100%、105%、110%、115%、120%、或更高的顺式活性。
在一些实施方式中,该胞苷碱基编辑器,与标准的胞苷碱基编辑器相比,具有至少低2、5、10、15、20、25、30、35、40、45、50、60或更多倍的反式活性。
在一些实施方式中,该胞苷脱氨酶是选自于由以下所组成的群组:APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3E、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4、活化-诱导的(胞苷)脱氨酶(AID)、hAPOBEC1、rAPOBEC1、ppAPOBEC1、AmAPOBEC1(BEM3.31)、ocAPOBEC1、SsAPOBEC2(BEM3.39)、hAPOBEC3A、maAPOBEC1、mdAPOBEC1、胞苷脱氨酶1(CDA1)、hA3A、RrA3F(BEM3.14)、PmCDA1、AID(活化-诱导的胞苷脱氨酶;AICDA)、hAID、和FENRY。在一些实施方式中,该胞苷脱氨酶是APOBEC1。在一些实施方式中,该胞苷脱氨酶是(a)APOBEC-1,其来自黄金仓鼠(MaAPOBEC-1)、婆罗洲猩猩(PpAPOBEC-1)、穴兔(OcAPOBEC-1)、灰短尾负鼠(MdAPOBEC-1)、或美国短吻鳄(AmAPOBEC-1)、(b)APOBEC-2,其来自婆罗洲猩猩(PpAPOBEC-2)、家牛(BtAPOBEC-2)、或欧洲猪(SsAPOBEC-2)、(c)APOBEC-4,其来自食蟹猕猴(MfAPOBEC-4)、(d)AID,其来自犬(ClAID)或家牛(BtAID)、(e)酵母胞嘧啶脱氨酶(yCD),其来自酿酒酵母、(f)APOBEC-3F,其来自川金丝猴(RrA3F)、或(g)具有与(a)-(f)中任一蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
在一些实施方式中,该胞苷脱氨酶是APOBEC-1,其来自黄金仓鼠(MaAPOBEC-1)、婆罗洲猩猩(PpAPOBEC-1)、穴兔(OcAPOBEC-1)、灰短尾负鼠(MdAPOBEC-1)、或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。在一些实施方式中,该胞苷脱氨酶是rAPOBEC1。在一些实施方式中,该胞苷脱氨酶是hAPOBEC3A。在一些实施方式中,该胞苷脱氨酶是ppAPOBEC1。在一些实施方式中,该胞苷脱氨酶是APOBEC-2,其衍生自婆罗洲猩猩(PpAPOBEC-2)、家牛(BtAPOBEC-2)、或欧洲猪(SsAPOBEC-2)、或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。在一些实施方式中,该胞苷脱氨酶是APOBEC-4,其衍生自食蟹猕猴(MfAPOBEC-4)、或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。在一些实施方式中,该胞苷脱氨酶是AID,其来自犬(ClAID)、家牛(BtAID)、或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
在一些实施方式中,该胞苷脱氨酶是酵母胞嘧啶脱氨酶(yCD),其来自酿酒酵母,或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。在一些实施方式中,该胞苷脱氨酶是APOBEC-3F,其来自川金丝猴(RrA3F),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。在一些实施方式中,该胞苷脱氨酶是表13中所提供的任一胞苷脱氨酶,或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。在一些实施方式中,该胞苷脱氨酶是来自川金丝猴的APOBEC-3F(RrA3F)、来自美国短吻鳄的APOBEC-1(AmAPOBEC-1)、来自欧洲猪的APOBEC-2(SsAPOBEC-2)、来自婆罗洲猩猩的APOBEC-1(PpAPOBEC-1),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其位于位置R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X或R132X(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括位于位置Y120F的改变和一个或多个改变,其选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括位于位置Y130X或R28X的改变(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变,其中X是任一氨基酸。
在一些实施方式中,该胞苷脱氨酶包括位于位置Y130A或R28A的改变(如SEQ IDNO:1中所编号的)抑或所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括位于位置Y130A和R28A的改变(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其位于位置H122X、K34X、R33X、W90X、或R128X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:H122A、K34A、R33A、W90F、W90A、和R128A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:R33A+K34A、W90F+K34A、R33A+K34A+W90F、和R33A+K34A+H122A+W90F(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
在一些实施方式中,该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MTSEKGPSTGDPTLRRRIESWEFDVFYDPRELRKETCLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERRFHSSISCSITWFLSWSPCWECSQAIREFLSQHPGVTLVIYVARLFWHMDQRNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLAFFRLHLQNCHYQTIPPHILLATGLIHPSVTWR.
在一些实施方式中,该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MKPQIRDHRPNPMEAMYPHIFYFHFENLEKAYGRNETWLCFTVEIIKQYLPVPWKKGVFRNQVDPETHCHAEKCFLSWFCNNTLSPKKNYQVTWYTSWSPCPECAGEVAEFLAEHSNVKLTIYTARLYYFWDTDYQEGLRSLSEEGASVEIMDYEDFQYCWENFVYDDGEPFKRWKGLKYNFQSLTRRLREILQ.
在一些实施方式中,该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MADSSEKMRGQYISRDTFEKNYKPIDGTKEAHLLCEIKWGKYGKPWLHWCQNQRMNIHAEDYFMNNI
FKAKKHPVHCYVTWYLSWSPCADCASKIVKFLEERPYLKLTIYVAQLYYHTEEENRKGLRLLRSKKVIIRVMDISDYNYCWKVFVSNQNGNEDYWPLQFDPWVKENYSRLLDIFWESKCRSPNPW.
在一些实施方式中,该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MDPQRLRQWPGPGPASRGGYGQRPRIRNPEEWFHELSPRTFSFHFRNLRFASGRNRSYICCQVEGKN
CFFQGIFQNQVPPDPPCHAELCFLSWFQSWGLSPDEHYYVTWFISWSPCCECAAKVAQFLEENRNVS
LSLSAARLYYFWKSESREGLRRLSDLGAQVGIMSFQDFQHCWNNFVHNLGMPFQPWKKLHKNYQRLV
TELKQILREEPATYGSPQAQGKVRIGSTAAGLRHSHSHTRSEAHLRPNHSSRQHRILNPPREARARTCVLVDASWICYR.
在一些实施方式中,该胞苷脱氨酶包括一H122A改变。在一些实施方式中,上述任一方面的胞苷碱基编辑器,进一步包括至少一个腺苷脱氨酶或其催化活性片段。在一些实施方式中,该腺苷脱氨酶是TadA脱氨酶。在一些实施方式中,该TadA脱氨酶是修饰过的腺苷脱氨酶,其在自然界中不存在。在一些实施方式中,该胞苷碱基编辑器包括两个腺苷脱氨酶,其为相同或不同。在一些实施方式中,该两个腺苷脱氨酶能够形成异二聚体或同二聚体。在一些实施方式中,该腺苷脱氨酶结构域为野生型TadA和TadA7.10。
在一些实施方式中,该腺苷脱氨酶包括从一残基开始的C端缺失,该残基选自于由以下所组成的群组:149、150、151、152、153、154、155、156、和157。在一些实施方式中,相对于全长腺苷脱氨酶,该腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个N末端氨基酸残基。在一些实施方式中,相对于全长腺苷脱氨酶,该腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个C末端氨基酸残基。在一些实施方式中,至少一个核碱基编辑器结构域进一步包括无碱基核碱基编辑器。在一些实施方式中,上述任一方面的胞苷碱基编辑器,进一步包括一个或多个核定位信号(NLS)。在一些实施方式中,该胞苷碱基编辑器包括N末端NLS和/或C末端NLS。在一些实施方式中,该NLS是双分型NLS。
在一些实施方式中,该多核苷酸可编程的DNA结合结构域是Cas9。在一些实施方式中,该多核苷酸可编程的DNA结合结构域是金黄色葡萄球菌Cas9(SaCas9),化脓链球菌Cas9(SpCas9),或其变体。在一些实施方式中,该多核苷酸可编程的DNA结合结构域包括核酸酶失活的Cas9(dCas9),Cas9切口酶(nCas9),或核酸酶活性的Cas9。在一些实施方式中,该多核苷酸可编程的DNA结合结构域包括一个能够切开核酸序列的反向互补股的催化结构域。在一些实施方式中,该多核苷酸可编程的DNA结合结构域不包括一个能够切开核酸序列的催化结构域。在一些实施方式中,该Cas9是dCas9。在一些实施方式中,该Cas9是Cas9切口酶(nCas9)。在一些实施方式中,该nCas9包括氨基酸替换D10A或其相应的氨基酸替换。
在一些实施方式中,上述任一方面的该胞苷碱基编辑器,进一步包括一个或多个尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方式中,该一个或多个UGI是衍生自枯草芽孢杆菌噬菌体PBS1并抑制人UDG活性。在一些实施方式中,该胞苷碱基编辑器包括两个尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方式中,上述任一方面的胞苷碱基编辑器,进一步包括一个或多个链接子。
本文提供了包括上述任一方面的胞苷碱基编辑器的细胞。在一些实施方式中,该细胞是细菌细胞,植物细胞,昆虫细胞,或哺乳动物细胞。
本文提供了一种分子复合体,其包括上述任一方面的胞苷碱基编辑器和一种或多种向导RNA序列,tracrRNA序列,或标靶DNA序列。
本文提供了一种编辑核酸序列的核碱基的方法,该方法包括使核酸序列与上述任一方面的胞苷碱基编辑器接触并将该DNA序列的第一核碱基转换为第二核碱基。
在一些实施方式中,该方法进一步包括使核酸序列与向导多核苷酸接触以达成上述转换。在一些实施方式中,第一核碱基是胞嘧啶并且第二核碱基是胸苷。
一方面、本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是(i)APOBEC-1,其来自黄金仓鼠(MaAPOBEC-1)、婆罗洲猩猩(PpAPOBEC-1)、穴兔(OcAPOBEC-1)、灰短尾负鼠(MdAPOBEC-1)、或美国短吻鳄(AmAPOBEC-1)、(ii)APOBEC-2,其来自婆罗洲猩猩(PpAPOBEC-2)、家牛(BtAPOBEC-2)、或欧洲猪(SsAPOBEC-2)、(iii)APOBEC-4,其来自食蟹猕猴(MfAPOBEC-4)、(iv)AID,其来自犬(ClAID)或家牛(BtAID)、(v)酵母胞嘧啶脱氨酶(yCD),其来自酿酒酵母、(vi)APOBEC-3F,其来自川金丝猴(RrA3F)、或者(vii)具有与(i)-(viii)中任一蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是APOBEC-1,其来自黄金仓鼠(MaAPOBEC-1)、婆罗洲猩猩(PpAPOBEC-1)、穴兔(OcAPOBEC-1)、灰短尾负鼠(MdAPOBEC-1),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是APOBEC-2,其来自婆罗洲猩猩(PpAPOBEC-2)、家牛(BtAPOBEC-2)、或欧洲猪(SsAPOBEC-2),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是APOBEC-4,其来自食蟹猕猴(MfAPOBEC-4),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是AID,其来自犬(ClAID)、家牛(BtAID),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是酵母胞嘧啶脱氨酶(yCD),其来自酿酒酵母,或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是APOBEC-3F,其来自川金丝猴(RrA3F),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是表13中所提供的任一胞苷脱氨酶,或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是来自川金丝猴的APOBEC-3F(RrA3F)、来自美国短吻鳄的APOBEC-1(AmAPOBEC-1)、来自欧洲猪的APOBEC-2(SsAPOBEC-2)、来自婆罗洲猩猩的APOBEC-1(PpAPOBEC-1)、或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其位于位置R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X或R132X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,该组合的改变选自于由Y120F和一个或多个改变所组成的群组,而所述一个或多个改变则选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其位于位置Y130X或R28X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:Y130A和R28A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括改变Y130A和R28A(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其位于位置H122X、K34X、R33X、W90X、或R128X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:H122A、K34A、R33A、W90F、W90A、和R128A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:R33A+K34A、W90F+K34A、R33A+K34A+W90F、和R33A+K34A+H122A+W90F(如SEQ IDNO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括H122A改变(如SEQ ID NO:1中所编号的),抑或所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶是rAPOBEC1并且包括一个或多个改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶选自于由以下所组成的群组:APOBEC2家族成员,APOBEC3家族成员,APOBEC4家族成员,胞苷脱氨酶1家族成员(CDA1),A3A家族成员,RrA3F家族成员,PmCDA1家族成员,和FENRY家族成员。
在一些实施方式中,该APOBEC3家族成员是选自于由以下所组成的群组:APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3E、APOBEC3F、APOBEC3G、和APOBEC3H。在一些实施方式中,该APOBEC2家族成员是SsAPOBEC2。
本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括APOBEC1的核碱基编辑器结构域,其中该APOBEC1选自于由以下所组成的群组:ppAPOBEC1、AmAPOBEC1(BEM3.31)、ocAPOBEC1、SsAPOBEC2(BEM3.39)、hAPOBEC3A、maAPOBEC1、和mdAPOBEC1。
在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其位于位置R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X或R132X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。在一些实施方式中,该一个或多个改变是选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,该组合的改变选自于由Y120F和一个或多个改变所组成的群组,而所述一个或多个改变则选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A、(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶包括一个或多个改变,其位于位置R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X或R132X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括位于位置Y120F的改变和一个或多个改变,其选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶包括一个或多个改变,其位于位置Y130X和R28X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:Y130A和R28A、(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括改变Y130A和R28A。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶包括一个或多个改变,其位于位置H122X、K34X、R33X、W90X、或R128X(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
在一些实施方式中,该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:H122A、K34A、R33A、W90F、W90A、和R128A(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:R33A+K34A、W90F+K34A、R33A+K34A+W90F、和R33A+K34A+H122A+W90F(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶是选自于由以下所组成的群组:
APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3E、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4、活化-诱导的(胞苷)脱氨酶(AID)、hAPOBEC1、rAPOBEC1、ppAPOBEC1、AmAPOBEC1(BEM3.31)、ocAPOBEC1、SsAPOBEC2(BEM3.39)、hAPOBEC3A、maAPOBEC1、mdAPOBEC1、胞苷脱氨酶1(CDA1)、hA3A、RrA3F(BEM3.14)、PmCDA1、AID(活化-诱导的胞苷脱氨酶;AICDA)、hAID、和FENRY。在一些实施方式中,该胞苷脱氨酶是APOBEC1。在一些实施方式中,该胞苷脱氨酶是rAPOBEC1。在一些实施方式中,该胞苷脱氨酶是hAPOBEC3A。在一些实施方式中,该胞苷脱氨酶是ppAPOBEC1。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MTSEKGPSTGDPTLRRRIESWEFDVFYDPRELRKETCLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERRFHSSISCSITWFLSWSPCWECSQAIREFLSQHPGVTLVIYVARLFWHMDQRNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLAFFRLHLQNCHYQTIPPHILLATGLIHPSVTWR.
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MKPQIRDHRPNPMEAMYPHIFYFHFENLEKAYGRNETWLCFTVEIIKQYLPVPWKKGVFRNQVDPETHCHAEKCFLSWFCNNTLSPKKNYQVTWYTSWSPCPECAGEVAEFLAEHSNVKLTIYTARLYYFWDTDYQEGLRSLSEEGASVEIMDYEDFQYCWENFVYDDGEPFKRWKGLKYNFQSLTRRLREILQ.
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MADSSEKMRGQYISRDTFEKNYKPIDGTKEAHLLCEIKWGKYGKPWLHWCQNQRMNIHAEDYFMNNIFKAKKHPVHCYVTWYLSWSPCADCASKIVKFLEERPYLKLTIYVAQLYYHTEEENRKGLRLLRSKKVIIRVMDISDYNYCWKVFVSNQNGNEDYWPLQFDPWVKENYSRLLDIFWESKCRSPNPW.
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MDPQRLRQWPGPGPASRGGYGQRPRIRNPEEWFHELSPRTFSFHFRNLRFASGRNRSYICCQVEGKNCFFQGIFQNQVPPDPPCHAELCFLSWFQSWGLSPDEHYYVTWFISWSPCCECAAKVAQFLEENRNVSLSLSAARLYYFWKSESREGLRRLSDLGAQVGIMSFQDFQHCWNNFVHNLGMPFQPWKKLHKNYQRLVTELKQILREEPATYGSPQAQGKVRIGSTAAGLRHSHSHTRSEAHLRPNHSSRQHRILNPPREARARTCVLVDASWICYR.
在一些实施方式中,该胞苷脱氨酶包括H122A改变。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶是APOBEC1脱氨酶并且包括H122A改变。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶是rAPOBEC1并且包括一个或多个改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E。
一方面本文提供了一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括APOBEC1的核碱基编辑器结构域,其中该APOBEC1选自于由以下所组成的群组:ppAPOBEC1、AmAPOBEC1(BEM3.31)、ocAPOBEC1、SsAPOBEC2(BEM3.39)、hAPOBEC3A、maAPOBEC1、和mdAPOBEC1。
在一些实施方式中,该APOBEC1包括一个或多个改变,其位于位置R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X或R132X(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
在一些实施方式中,该一个或多个改变是选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该APOBEC1包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变。在一些实施方式中,该APOBEC1包括位于位置Y120F的改变和一个或多个改变,其选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
在一些实施方式中,上述任一方面的该融合蛋白,进一步包括至少一个腺苷脱氨酶或其催化活性片段。在一些实施方式中,该腺苷脱氨酶是TadA脱氨酶。在一些实施方式中,该TadA脱氨酶是修饰过的腺苷脱氨酶,其在自然界中不存在。在一些实施方式中,该融合蛋白包括两个腺苷脱氨酶,其为相同或不同。在一些实施方式中,该两个腺苷脱氨酶能够形成异二聚体或同二聚体。在一些实施方式中,该两个腺苷脱氨酶结构域为野生型TadA和TadA7.10。
在一些实施方式中,该腺苷脱氨酶包括从一残基开始的C端缺失,该残基选自于由以下所组成的群组:149、150、151、152、153、154、155、156、和157。在一些实施方式中,相对于全长腺苷脱氨酶,该腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个N末端氨基酸残基。在一些实施方式中,相对于全长腺苷脱氨酶,该腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个C末端氨基酸残基。在一些实施方式中,至少一个核碱基编辑器结构域进一步包括无碱基核碱基编辑器。
在一些实施方式中,上述任一方面的融合蛋白进一步包括一个或多个核定位信号(NLS)。在一些实施方式中,该融合蛋白包括N末端NLS和/或C末端NLS。在一些实施方式中,该NLS是双分型NLS。
在一些实施方式中,该多核苷酸可编程的DNA结合结构域是Cas9。在一些实施方式中,该多核苷酸可编程的DNA结合结构域是金黄色葡萄球菌Cas9(SaCas9),化脓链球菌Cas9(SpCas9),或其变体。在一些实施方式中,该多核苷酸可编程的DNA结合结构域包括核酸酶失活的Cas9(dCas9),Cas9切口酶(nCas9),或核酸酶活性的Cas9。
在一些实施方式中,该多核苷酸可编程的DNA结合结构域包括一个能够切开核酸序列的反向互补股的催化结构域。在一些实施方式中,该多核苷酸可编程的DNA结合结构域不包括一个能够切开核酸序列的催化结构域。
在一些实施方式中,该Cas9是dCas9。在一些实施方式中,该Cas9是Cas9切口酶(nCas9)。在一些实施方式中,该nCas9包括氨基酸替换D10A或其相应的氨基酸替换。在一些实施方式中,上述任一方面的该融合蛋白,进一步包括一个或多个尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方式中,该一个或多个UGI是衍生自枯草芽孢杆菌噬菌体PBS1并抑制人UDG活性。在一些实施方式中,该融合蛋白包括两个尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方式中,上述任一方面的该融合蛋白,进一步包括一个或多个链接子。在一些实施方式中,该融合蛋白使标靶核苷酸序列中的核碱基脱氨基,并且其中该脱氨反应与标准的胞苷碱基编辑器相比,具有增大的顺式活性对反式活性的比率(顺式:反式)。
在一些实施方式中,该标准的胞苷碱基编辑器包括(i)多核苷酸可编程的DNA结合结构域和(ii)APOBEC胞苷脱氨酶。
在一些实施方式中,该标准的胞苷碱基编辑器的APOBEC胞苷脱氨酶是大鼠APOBEC-1胞苷脱氨酶(rAPOBEC-1)。在一些实施方式中,该标准的胞苷碱基编辑器的多核苷酸可编程的DNA结合结构域是Cas9切口酶。在一些实施方式中,该标准的胞苷碱基编辑器包括尿嘧啶糖基化酶抑制剂(UGI)结构域。在一些实施方式中,该标准的胞苷碱基编辑器是BE3或BE4.在一些实施方式中,该增大的顺式活性对反式活性的比率是增大了至少2、2.5、5、10、15、20、25、30、35、40、45、50、60倍或更多。在一些实施方式中,该胞苷碱基编辑器与标准的胞苷碱基编辑器相比,具有至少50%、60%、70%、80%、90%、95%、100%、105%、110%、115%、120%、或更高的顺式活性。在一些实施方式中,该胞苷碱基编辑器,与标准的胞苷碱基编辑器相比,具有至少低2、5、10、15、20、25、30、35、40、45、50、60、或更多倍的反式活性。
一方面本文提供了编码上述任一方面的融合蛋白的多核苷酸分子。在一些实施方式中,该多核苷酸分子是密码子优化过的。
本文提供了包括上述多核苷酸分子的表达载体。在一些实施方式中,该表达载体是哺乳动物表达载体。在一些实施方式中,该载体是病毒载体,其选自于由以下所组成的群组:腺相关病毒(AAV)载体、逆转录病毒载体、腺病毒载体、慢病毒载体、仙台病毒载体和疱疹病毒载体的病毒载体。在一些实施方式中,该载体包括启动子。
本文提供了包括上述多核苷酸或上述载体的细胞。在一些实施方式中,该细胞是细菌细胞,植物细胞,昆虫细胞,人类细胞,或哺乳动物细胞。
本文提供了一种分子复合体,其包括上述任一方面的融合蛋白以及一种或多种向导RNA序列,tracrRNA序列,或标靶DNA序列。
本文提供了试剂盒,其包括上述任一方面的融合蛋白,上述多核苷酸,上述载体,或上述分子复合体。
本文提供了一种编辑核酸序列的核碱基的方法,该方法包括使核酸序列与碱基编辑器(其包括上述任一方面的融合蛋白)接触,并将该DNA序列的第一核碱基转换为第二核碱基。在一些实施方式中,该第一核碱基是胞嘧啶并且该第二个核碱基是胸苷。
本文提供了一种编辑核酸序列的核碱基的方法,该方法包括使核酸序列与碱基编辑器(其包括上述任一方面的融合蛋白)接触,并将该DNA序列的第一核碱基转换为第二核碱基。在一些实施方式中,该第一核碱基是胞嘧啶并且该第二个核碱基是胸苷抑或该第一核碱基是腺嘌呤并且该第二核碱基是鸟嘌呤。在一些实施方式中,该方法进一步包括将第三核碱基转换为第四核碱基。在一些实施方式中,该第三核碱基是鸟嘌呤并且第四核碱基是腺嘌呤抑或该第三核碱基是胸腺嘧啶并且该第四核碱基是胞嘧啶。
本文提供了一种用于最优碱基编辑的方法,该方法包括使靶核苷酸序列中的靶核碱基与胞苷碱基编辑器接触,该胞苷碱基编辑器包括(i)多核苷酸可编程的DNA结合结构域和(ii)胞苷脱氨酶,其中该胞苷碱基编辑器,与包括rAPOBEC1的正准的胞苷碱基编辑器相比,以较低的假性脱氨反应在靶核苷酸序列中使靶核碱基脱氨基。在一些实施方式中,该胞苷碱基编辑器,与正准的胞苷碱基编辑器相比,以更高效率使靶核碱基脱氨基。在一些实施方式中,该正准的胞苷碱基编辑器进一步包括尿嘧啶糖基化酶抑制剂(UGI)结构域,在一些实施方式中,该正准的胞苷碱基编辑器是BE3或BE4。在一些实施方式中,如藉由顺式/反式脱氨反应测定所测量的,该胞苷碱基编辑器,与正准的胞苷碱基编辑器相比,生成的假性脱氨反应至少降低20%、30%、50%、70%、或90%。在一些实施方式中,该胞苷碱基编辑器,与正准的胞苷碱基编辑器相比,具有至少50%、60%、70%、80%、90%、95%、100%、105%、110%、115%、120%、或更多的顺式活性。在一些实施方式中,该胞苷碱基编辑器,与正准的胞苷碱基编辑器相比,具有至少低2、5、10、15、20、25、30、35、40、45、50、60、或更多倍的反式活性。在一些实施方式中,该胞苷脱氨酶是(a)APOBEC-1,其来自黄金仓鼠(MaAPOBEC-1)、婆罗洲猩猩(PpAPOBEC-1)、穴兔(OcAPOBEC-1)、灰短尾负鼠(MdAPOBEC-1)、或美国短吻鳄(AmAPOBEC-1)、(b)APOBEC-2,其来自婆罗洲猩猩(PpAPOBEC-2)、家牛(BtAPOBEC-2)、或欧洲猪(SsAPOBEC-2)、(c)APOBEC-4,其来自食蟹猕猴(MfAPOBEC-4)、(d)AID,其来自犬(ClAID)或家牛(BtAID)、(e)酵母胞嘧啶脱氨酶(yCD),其来自酿酒酵母、(f)APOBEC-3F,其来自川金丝猴(RrA3F)、或(g)具有与(a)-(f)中任一蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
在一些实施方式中,该胞苷脱氨酶是AID,其来自犬(ClAID),家牛(BtAID),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。在一些实施方式中,该胞苷脱氨酶是APOBEC-3F,其来自川金丝猴(RrA3F),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
在一些实施方式中,该胞苷脱氨酶包括改变,其选自于由以下所组成的群组:R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X、和R132X(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变,其中X是任一氨基酸。在一些实施方式中,该胞苷脱氨酶包括改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQID NO:1中所编号的)或所述改变的组合的相应改变的组合。
在一些实施方式中,该胞苷脱氨酶包括位于位置Y120F的改变和一个或多个改变,其选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括位于位置Y130X或R28X的改变(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变,其中X是任一氨基酸。在一些实施方式中,该胞苷脱氨酶包括Y130A改变或R28A改变(如SEQ IDNO:1中所编号的)抑或所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括Y130A和R28A改变(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
在一些实施方式中,该胞苷脱氨酶包括位于位置H122X、K34X、R33X、W90X、和R128X的改变(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变,其中X是任一氨基酸。在一些实施方式中,该胞苷脱氨酶包括改变,其选自于由以下所组成的群组:H122A、K34A、R33A、W90F、W90A、和R128A(如SEQ ID NO:1中所编号的),抑或所述改变的相应改变。在一些实施方式中,该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:R33A+K34A、W90F+K34A、R33A+K34A+W90F、和R33A+K34A+H122A+W90F(如SEQ ID NO:1中所编号的)或所述改变的组合的相应改变的组合。
在一些实施方式中,该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MTSEKGPSTGDPTLRRRIESWEFDVFYDPRELRKETCLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERRFHSSISCSITWFLSWSPCWECSQAIREFLSQHPGVTLVIYVARLFWHMDQRNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLAFFRLHLQNCHYQTIPPHILLATGLIHPSVTWR.
在一些实施方式中,该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MKPQIRDHRPNPMEAMYPHIFYFHFENLEKAYGRNETWLCFTVEIIKQYLPVPWKKGVFRNQVDPETHCHAEKCFLSWFCNNTLSPKKNYQVTWYTSWSPCPECAGEVAEFLAEHSNVKLTIYTARLYYFWDTDYQEGLRSLSEEGASVEIMDYEDFQYCWENFVYDDGEPFKRWKGLKYNFQSLTRRLREILQ.
在一些实施方式中,该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MADSSEKMRGQYISRDTFEKNYKPIDGTKEAHLLCEIKWGKYGKPWLHWCQNQRMNIHAEDYFMNNIFKAKKHPVHCYVTWYLSWSPCADCASKIVKFLEERPYLKLTIYVAQLYYHTEEENRKGLRLLRSKKVIIRVMDISDYNYCWKVFVSNQNGNEDYWPLQFDPWVKENYSRLLDIFWESKCRSPNPW.
在一些实施方式中,该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MDPQRLRQWPGPGPASRGGYGQRPRIRNPEEWFHELSPRTFSFHFRNLRFASGRNRSYICCQVEGKNCFFQGIFQNQVPPDPPCHAELCFLSWFQSWGLSPDEHYYVTWFISWSPCCECAAKVAQFLEENRNVSLSLSAARLYYFWKSESREGLRRLSDLGAQVGIMSFQDFQHCWNNFVHNLGMPFQPWKKLHKNYQRLVTELKQILREEPATYGSPQAQGKVRIGSTAAGLRHSHSHTRSEAHLRPNHSSRQHRILNPPREARARTCVLVDASWICYR.
在一些实施方式中,该胞苷脱氨酶包括H122A改变。在一些实施方式中,所述接触是在细胞中执行。在一些实施方式中,该细胞是人类细胞或哺乳动物细胞。在一些实施方式中,所述接触是在体内(in vivo)或离体(ex vivo)。
一方面本文提供了包括氨基酸序列的胞苷脱氨酶,该氨基酸序列与选自于以下的氨基酸序列具有至少80%同一性:
MTSEKGPSTGDPTLRRRIESWEFDVFYDPRELRKETCLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERRFHSSISCSITWFLSWSPCWECSQAIREFLSQHPGVTLVIYVARLFWHMDQRNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLAFFRLHLQNCHYQTIPPHILLATGLIHPSVTWR;
MKPQIRDHRPNPMEAMYPHIFYFHFENLEKAYGRNETWLCFTVEIIKQYLPVPWKKGVFRNQVDPETHCHAEKCFLSWFCNNTLSPKKNYQVTWYTSWSPCPECAGEVAEFLAEHSNVKLTIYTARLYYFWDTDYQEGLRSLSEEGASVEIMDYEDFQYCWENFVYDDGEPFKRWKGLKYNFQSLTRRLREILQ;
MADSSEKMRGQYISRDTFEKNYKPIDGTKEAHLLCEIKWGKYGKPWLHWCQNQRMNIHAEDYFMNNIFKAKKHPVHCYVTWYLSWSPCADCASKIVKFLEERPYLKLTIYVAQLYYHTEEENRKGLRLLRSKKVIIRVMDISDYNYCWKVFVSNQNGNEDYWPLQFDPWVKENYSRLLDIFWESKCRSPNPW;和
MDPQRLRQWPGPGPASRGGYGQRPRIRNPEEWFHELSPRTFSFHFRNLRFASGRNRSYICCQVEGKNCFFQGIFQNQVPPDPPCHAELCFLSWFQSWGLSPDEHYYVTWFISWSPCCECAAKVAQFLEENRNVSLSLSAARLYYFWKSESREGLRRLSDLGAQVGIMSFQDFQHCWNNFVHNLGMPFQPWKKLHKNYQRLVTELKQILREEPATYGSPQAQGKVRIGSTAAGLRHSHSHTRSEAHLRPNHSSRQHRILNPPREARARTCVLVDASWICYR.
本文的描述和实施例详细地说明了本公开披露的实施方式。应当理解,本公开披露不受限于本文所述的特定实施方式,并且因此可以变化。本领域技术人员将辨识出本公开披露的许多变动和修饰的存在,该变动和修饰是被本公开披露的范围所涵盖。
除非另有说明,本文所揭示的一些实施方式的实践使用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技法,其在本领域技术范围内。参见例如Sambrook和Green,《分子克隆:实验室手册》第四版(2012);《当代实验方案系列-分子生物学》(F.M.Ausubel等编);《酶学方法系列》(Academic Press公司);《PCR 2:实用方法》(M.J.MacPherson,B.D.Hames和G.R.Taylor编(1995));Harlow和Lane编辑的(1988)《抗体,实验室手册》;和《动物细胞培养:基本技法和专业应用手册》第六版(R.I.Freshney编(2010))。
本文所使用的段落标题仅用于组织目的,而不应被解释为对所描述的主题内容进行限制。
尽管可以在单一实施方式的上下文中描述本公开披露的各种特征,但这些特征也可以被单独提供或以任何适合的组合来提供。相反地,尽管本文出于清晰度考量而可以在单一实施方式的上下文中描述本公开披露,但本公开披露也可以在单一实施方式中被实行。本文所使用的段落标题仅用于组织目的,而不应被解释为对所描述的主题内容进行限制。
本公开披露的特征在所附权利要求中详细列出。通过参考以下的列出了例证性实施方式(其中应用了本公开披露的原理)的详细描述,并鉴于如本文后面所述的附图,应能更好地理解本发明的特征和优点。
定义
以下的定义充实了本领域中的原有定义,并且指向当前的申请,而且不诿过于任何相关或不相关的案例,例如,任何共同拥有的专利或申请。尽管与本文所述的那些方法和材料类似或等效的任何方法和材料皆可用于测试本公开披露的实践中,但本文描述了优选的材料和方法。因此,本文所用的术语仅用于描述特定实施方式的目的,并非意图起到限制作用。
除非另做界定,否则本文所使用的所有技术和科学术语具有本发明所属领域技术人员一般理解的意义。以下参考文献向技术人员提供本发明中所用的许多术语的通常定义:Singleton等的《微生物学和分子生物学词典(1994第二版)》;《剑桥科学和技术词典》(Walker编,1988);《遗传学词汇(第五版)》(R.Rieger等(编),施普林格出版社(1991));以及Hale和Marham的《哈珀柯林斯生物学词典(1991)》。
在本申请中,除非另有特别说明,否则单数的使用包含复数。必须注意,如说明书中所用,除非上下文另有明确指定,否则单数形式“一(a)”,“一(an)”和“该(the)”包括复数参考值。在本申请中,除非另有说明,否则“或(or)”的使用是指“和/或”,并且被理解为包含在内。此外,在使用术语“包含(including)”以及其他形式时,诸如“包含(include)”,“包含(includes)”和“包含(included)”,并非是限制性的。
如在此说明书和权利要求中所用,词语“包括(comprising)”(以及任何形式的包括,诸如“包括(comprise)”和“包括(comprises)包含”),“具有(having)”(以及任何形式的具有,诸如“具有(have)”和“具有(has)”),“包含(including)”(以及任何形式的包含,诸如“包含(includes)”和“包含(include)”)或“含有(containing)”(以及任何形式的含有,例如“含有(contains)”和“含有(contain)”)是包容的或开放式的,而并不排除额外的、未列举出的元素或方法步骤。应当预期本说明书中所讨论的任何实施方式皆可搭配本公开披露的任何方法或组合物而被实行,反之亦然。此外,本公开披露的组合物可用于实现本公开披露的方法。
术语“约”或“大约”意为在特定数值的可接受误差范围内(如由本领域普通技术人员所确定的),其将部分地取决于如何测量或确定该数值,即测量系统的局限性。例如,根据本领域中的实践,“约”可以表示在1个标准差以内或超过1个标准差。或者,“约”可以表示给定数值的20%以内、10%以内、5%以内或1%以内的范围。或者,特别是对于生物系统或过程,该术语可表示在一个数量级内,诸如在数值的5倍内或2倍内。当在申请和权利要求中描述特定数值时,除非另有说明,应假定该术语“约”意味着在特定数值的可接受误差范围内。
本文所提供的范围应被理解为该范围内所有数值的简略表达。例如,1到50的范围应被理解为包含任何数字、数字的组合或任何子范围,其来自于由以下所组成的群组:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或50。
说明书中对“一些实施方式”、“一实施方式”、“一个实施方式”或“其他实施方式”的引用意为结合该实施方式所描述的特定特征、结构或特性是被至少一些本公开披露的实施方式所包含,但未必是被本公开披露的所有实施方式所包含。
“无碱基碱基编辑器”意为能够切除核碱基并插入DNA核碱基(A、T、C、或G)的剂。无碱基碱基编辑器包括核酸糖基化酶多肽或其片段。在一个实施方式中,该核酸糖基化酶是人类尿嘧啶DNA糖基化酶的突变体,其包括以下序列中的氨基酸204处(或尿嘧啶DNA糖基化酶中的相应位置)的Asp(例如,取代氨基酸204处的Asn),并且具有胞嘧啶-DNA糖基化酶活性或其活性片段。在一个实施方式中,该核酸糖基化酶是人类尿嘧啶DNA糖基化酶的突变体,其包括以下序列中的氨基酸147处(或尿嘧啶DNA糖基化酶中的相应位置)的Ala、Gly、Cys、或Ser(例如,取代氨基酸147处的Tyr),并且具有胸腺嘧啶-DNA糖基化酶活性,或其活性片段。示例性的人类尿嘧啶-DNA糖基化酶,异构体1,的序列如下:
Figure BDA0003286956470000241
人类尿嘧啶-DNA糖基化酶,异构体2,的序列如下:
Figure BDA0003286956470000242
在其他实施方式中,该无碱基(碱基)编辑器为PCT/JP2015/080958和US20170321210(其通过引用并入本文)中所描述的任何一种无碱基(碱基)编辑器。在特定的实施方式中,该无碱基(碱基)编辑器包括突变,该突变是位于上述序列中加粗并以下划线所示的位置,或位于本领域已知的在任何其他无碱基(碱基)编辑器或尿嘧啶去糖基化酶中的相应氨基酸处。在一个实施方式中,该无碱基(碱基)编辑器包括位于Y147、N204、L272、和/或R276、或相应位置的突变。在另一个实施方式中,该无碱基(碱基)编辑器包括Y147A或Y147G突变,或相应突变。在另一个实施方式中,该无碱基(碱基)编辑器包括N204D突变,或相应突变。在另一个实施方式中,该无碱基(碱基)编辑器包括L272A突变,或相应突变。在另一个实施方式中,该无碱基(碱基)编辑器包括R276E或R276C突变,或相应突变。
“腺苷脱氨酶”意为能够催化腺嘌呤或腺苷的水解脱氨反应的多肽或其片段。在一些实施方式中,该脱氨酶或脱氨酶结构域是催化腺苷为肌苷或脱氧腺苷为脱氧肌苷的水解脱氨反应的腺苷脱氨酶。在一些实施方式中,该腺苷脱氨酶催化在脱氧核糖核酸(DNA)中的腺嘌呤或腺苷的水解脱氨反应。本文所提供的腺苷脱氨酶(例如,工程化的腺苷脱氨酶,进化版的腺苷脱氨酶)可以来自任何生物体,诸如细菌。
在一些实施方式中,该腺苷脱氨酶是TadA脱氨酶。在一些实施方式中,该TadA脱氨酶是TadA变体。在一些实施方式中,该TadA变体是TadA*7.10。在一些实施方式中,该脱氨酶或脱氨酶结构域是来自生物体的天然存在的脱氨酶的变体,诸如人类、黑猩猩、大猩猩、猴、母牛、狗、大鼠或小鼠。在一些实施方式中,该脱氨酶或脱氨酶结构域在自然界中不存在。例如,在一些实施方式中,该脱氨酶或脱氨酶结构域是至少50%、至少55%、至少60%、至少65%、至少70%、至少75%至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.1%、至少99.2%、至少99.3%、至少99.4%、至少99.5%、至少99.6%、至少99.7%、至少99.8%、或至少99.9%与天然存在的脱氨酶相同。例如,脱氨酶结构域在国际PCT申请编号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO2017/070632)(其每个的全部内容通过引用并入本文)中被描述。亦请参见Komor,A.C.等“无需双股DNA切开的基因组DNA中标靶碱基的可编程的编辑”Nature 533,420-424(2016);Gaudelli,N.M.等“无需DNA切开的基因组DNA中A·T到G·C的可编程的碱基编辑”Nature551,464-471(2017);Komor,A.C.等“改良过的碱基切除修复抑制合并噬菌体Mu Gam蛋白所产生的C:G-到-T:A碱基编辑器具有更高的效率和更高的产品纯度”Science Advances 3:eaao4774(2017),和Rees,H.A.等“碱基编辑:活体细胞的基因组和转录组上的精密化学”Nat Rev Genet.2018Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容在此通过引用并入本文。
在一些实施方式中,该腺苷脱氨酶包括在以下序列中的改变:
Figure BDA0003286956470000251
Figure BDA0003286956470000261
(也被称为TadA*7.10)。
在特定的实施方式中,腺苷脱氨酶异二聚体包括TadA*7.10结构域和腺苷脱氨酶结构域,其选自以下之一:
金黄色葡萄球菌(金黄色葡萄球菌)TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌(B.subtilis)TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门菌(S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌F3031(H.influenzae)TadA:
MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTΑΗAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
新月柄杆菌(C.crescentus)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(G.sulfurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
TadA*7.10
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
“给药”在本文中是指向患者或受试者提供本文所述的一种或多种组合物。举例来说但不限于,组合物给药,例如注射,可以通过静脉内(i.v.)注射、皮下(s.c.)注射、皮内(i.d.)注射、腹膜内(i.p.)注射或肌肉内(i.m.)注射而执行。可以采用一种或多种上述路径。非消化道给药可以是,例如,通过弹丸注射或依时渐进灌注。在一些实施方式中,非消化道给药包含血管内、静脉内、肌肉内、动脉内、鞘内、肿瘤内、皮内、腹膜内、经气管、皮下、透皮、关节内、囊下、蛛网膜下和胸骨内的输液或注射。或者,抑或同步地,可以通过口服路径给药。
“剂”意为任何小分子化学化合物,抗体,核酸分子,或多肽,或其片段。
“改变”意为通过标准的本领域已知的方法,诸如本文所述的方法,所检测到的基因或多肽的结构、表达水平或活性的变化(例如,增加或减少)。如本文所用,改变包含多核苷酸或多肽序列的变化或表达水平的变化,诸如10%变化,25%变化,40%变化,50%或更大变化。
“改善”意为降低,抑制,衰减,减少,停滞,或稳定疾病的发展或进程。
“类似物”意为不相同但具有类似的功能或结构特征的分子。例如,多核苷酸类似物或多肽类似物保留了相应的天然存在的多核苷酸或多肽的生物学活性,同时具有某些修饰,该修饰相对于天然存在的多核苷酸或多肽增强了类似物的功能。此种修饰可以增加该类似物的对DNA的亲和力,效力,特异性,蛋白酶或核酸酶抗性、膜渗透性和/或半衰期,而不改变例如配体结合。类似物可能包含非天然的核苷酸或氨基酸。
“碱基编辑器(BE)”或“核碱基编辑器(NBE)”意为结合多核苷酸并且具有核碱基修饰活性的剂。在好几个实施方式中,该碱基编辑器包括核碱基修饰多肽(例如脱氨酶)和核酸可编程的核苷酸结合结构域,其与向导多核苷酸(例如向导RNA)相连。在好几个实施方式中,该剂是生物分子复合体,其包括具有碱基编辑活性的蛋白结构域,即,能够修饰核酸分子(例如DNA)内的碱基(例如A、T、C、G、或U)的结构域。在一些实施方式中,该多核苷酸可编程的DNA结合结构域是融合到或链接到一个或多个脱氨酶结构域上。在一个实施方式中,该剂是一种融合蛋白,该融合蛋白包括一个或多个具有碱基编辑活性的结构域。在另一个实施方式中,具有碱基编辑活性的蛋白结构域是链接到前述向导RNA上(例如,经由该向导RNA上的RNA结合基序与融合到该脱氨酶上的RNA结合结构域)。在一些实施方式中,该具有碱基编辑活性的结构域能够使核酸分子内的碱基脱氨基。在一些实施方式中,该碱基编辑器能够使DNA分子内的一个或多个碱基脱氨基。在一些实施方式中,该碱基编辑器能够使DNA内的胞嘧啶(C)或腺苷(A)脱氨基。在一些实施方式中,该碱基编辑器能够使DNA内的胞嘧啶(C)和腺苷(A)脱氨基。在一些实施方式中,该碱基编辑器能够使DNA内的胞嘧啶(C)脱氨基。在一些实施方式中,该碱基编辑器是胞苷碱基编辑器(CBE)(例如BE4)。在一些实施方式中,该碱基编辑器能够使DNA内的腺苷(A)脱氨基。在一些实施方式中,该碱基编辑器是标准的碱基编辑器,其包括天然存在的蛋白结构域,所述天然存在的蛋白结构域具有碱基编辑活性和/或可编程的DNA结合活性。例如,标准的胞苷碱基编辑器可能含有胞苷脱氨酶,例如APOBEC胞苷脱氨酶或AID脱氨酶。在一些实施方式中,该标准的胞苷脱氨酶含有APOBEC1胞苷脱氨酶,例如rAPOBEC1。在一些实施方式中,该标准的胞苷碱基编辑器进一步包括与胞苷脱氨酶相联或相链接的另外的结构域,例如,可能链接到胞苷脱氨酶上的一个或多个UGI结构域。在一些实施方式中,该碱基编辑器是腺苷碱基编辑器(ABE)和胞苷碱基编辑器(CBE)。
在一些实施方式中,该碱基编辑器是融合到腺苷脱氨酶和/或胞苷脱氨酶上的核酸酶-失活Cas9(dCas9)。在一些实施方式中,该Cas9是环状变换排列体Cas9(例如spCas9或saCas9)。环状变换排列体Cas9是本领域已知的,并在例如Oakes等,Cell 176,254–267,2019中进行了描述。在一些实施方式中,该碱基编辑器是融合到碱基切除修复的抑制剂上,例如,UGI结构域或dISN结构域。在一些实施方式中,该融合蛋白包括融合到一个或多个脱氨酶上的Cas9切口酶以及碱基切除修复的抑制剂,诸如UGI或dISN结构域)。在其他实施方式中,该碱基编辑器是无碱基碱基编辑器。
在一些实施方式中,通过将腺苷脱氨酶变体克隆进入支架中生成腺苷碱基编辑器,该支架包含环状变换排列体Cas9(例如spCAS9或saCAS9)和双分型核定位序列。环状变换排列体Cas9是本领域已知的,并在例如Oakes等,Cell 176,254–267,2019中进行了描述。示例性的环状变换排列体如下,其中粗体序列表示衍生自Cas9的序列,斜体序列表示链接子序列,而下划线序列表示双分型核定位序列。
CP5(具有MSP“NGC=带有突变的Pam变体,正常Cas9喜欢NGG”PID=蛋白相互作用结构域和“D10A”切口酶):
Figure BDA0003286956470000291
Figure BDA0003286956470000301
在一些实施方式中,该多核苷酸可编程的DNA结合结构域是CRISPR关联(例如Cas或Cpf1)酶。在一些实施方式中,该碱基编辑器是融合到一个或多个脱氨酶结构域上的催化失活Cas9(dCas9)。在一些实施方式中,该碱基编辑器是融合到一个或多个脱氨酶结构域上的Cas9切口酶(nCas9)。在一些实施方式中,该碱基编辑器是融合到碱基切除修复(BER)的抑制剂上。在一些实施方式中,该碱基切除修复的抑制剂是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方式中,该碱基切除修复的抑制剂是肌苷碱基切除修复抑制剂。
碱基编辑器的细节在国际PCT申请编号PCT/2017/045381(WO 2018/027078)和PCT/US2016/058344(WO 2017/070632)中被描述,其每个的全部内容通过引用并入本文。亦请参见Komor,A.C.等,“无需双股DNA切开的基因组DNA中标靶碱基的可编程的编辑”Nature533,420-424(2016);Gaudelli,N.M.等,“无需DNA切开的基因组DNA中A·T到G·C的可编程的碱基编辑”Nature 551,464-471(2017);Komor,A.C.等,“改良过的碱基切除修复抑制合并噬菌体Mu Gam蛋白所产生的C:G-到-T:A碱基编辑器具有更高的效率和更高的产品纯度”Science Advances 3:eaao4774(2017),和Rees,H.A.等,“碱基编辑:活体细胞的基因组和转录组上的精密化学”Nat Rev Genet.2018 Dec;19(12):770-788.doi:10.1038/s41576-018-0059-1,其全部内容在此通过引用并入本文。
举例来说,如本文所述的碱基编辑组合物、系统和方法中所使用的腺嘌呤碱基编辑器(ABE)具有如下面所提供的核酸序列(8877碱基对)(Addgene,Watertown,MA.;Gaudelli NM等,Nature.2017Nov23;551(7681):464-471.doi:10.1038/nature24644;Koblan LW等,Nat Biotechnol.2018Oct;36(9):843-846.doi:10.1038/nbt.4172.)。与该ABE核酸序列具有至少95%或更高同一性的多核苷酸序列也被涵盖。
ATATGCCAAGTACGCCCCCTATTGACGTCAATGACGGTAAATGGCCCGCCTGGCATTATGCCCAGTACATGACCTTATGGGACTTTCCTACTTGGCAGTACATCTACGTATTAGTCATCGCTATTACCATGGTGATGCGGTTTTGGCAGTACATCAATGGGCGTGGATAGCGGTTTGACTCACGGGGATTTCCAAGTCTCCACCCCATTGACGTCAATGGGAGTTTGTTTTGGCACCAAAATCAACGGGACTTTCCAAAATGTCGTAACAACTCCGCCCCATTGACGCAAATGGGCGGTAGGCGTGTACGGTGGGAGGTCTATATAAGCAGAGCTGGTTTAGTGAACCGTCAGATCCGCTAGAGATCCGCGGCCGCTAATACGACTCACTATAGGGAGAGCCGCCACCATGAAACGGACAGCCGACGGAAGCGAGTTCGAGTCACCAAAGAAGAAGCGGAAAGTCTCTGAAGTCGAGTTTAGCCACGAGTATTGGATGAGGCACGCACTGACCCTGGCAAAGCGAGCATGGGATGAAAGAGAAGTCCCCGTGGGCGCCGTGCTGGTGCACAACAATAGAGTGATCGGAGAGGGATGGAACAGGCCAATCGGCCGCCACGACCCTACCGCACACGCAGAGATCATGGCACTGAGGCAGGGAGGCCTGGTCATGCAGAATTACCGCCTGATCGATGCCACCCTGTATGTGACACTGGAGCCATGCGTGATGTGCGCAGGAGCAATGATCCACAGCAGGATCGGAAGAGTGGTGTTCGGAGCACGGGACGCCAAGACCGGCGCAGCAGGCTCCCTGATGGATGTGCTGCACCACCCCGGCATGAACCACCGGGTGGAGATCACAGAGGGAATCCTGGCAGACGAGTGCGCCGCCCTGCTGAGCGATTTCTTTAGAATGCGGAGACAGGAGATCAAGGCCCAGAAGAAGGCACAGAGCTCCACCGACTCTGGAGGATCTAGCGGAGGATCCTCTGGAAGCGAGACACCAGGCACAAGCGAGTCCGCCACACCAGAGAGCTCCGGCGGCTCCTCCGGAGGATCCTCTGAGGTGGAGTTTTCCCACGAGTACTGGATGAGACATGCCCTGACCCTGGCCAAGAGGGCACGCGATGAGAGGGAGGTGCCTGTGGGAGCCGTGCTGGTGCTGAACAATAGAGTGATCGGCGAGGGCTGGAACAGAGCCATCGGCCTGCACGACCCAACAGCCCATGCCGAAATTATGGCCCTGAGACAGGGCGGCCTGGTCATGCAGAACTACAGACTGATTGACGCCACCCTGTACGTGACATTCGAGCCTTGCGTGATGTGCGCCGGCGCCATGATCCACTCTAGGATCGGCCGCGTGGTGTTTGGCGTGAGGAACGCAAAAACCGGCGCCGCAGGCTCCCTGATGGACGTGCTGCACTACCCCGGCATGAATCACCGCGTCGAAATTACCGAGGGAATCCTGGCAGATGAATGTGCCGCCCTGCTGTGCTATTTCTTTCGGATGCCTAGACAGGTGTTCAATGCTCAGAAGAAGGCCCAGAGCTCCACCGACTCCGGAGGATCTAGCGGAGGCTCCTCTGGCTCTGAGACACCTGGCACAAGCGAGAGCGCAACACCTGAAAGCAGCGGGGGCAGCAGCGGGGGGTCAGACAAGAAGTACAGCATCGGCCTGGCCATCGGCACCAACTCTGTGGGCTGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGCTGGGCAACACCGACCGGCACAGCATCAAGAAGAACCTGATCGGAGCCCTGCTGTTCGACAGCGGCGAAACAGCCGAGGCCACCCGGCTGAAGAGAACCGCCAGAAGAAGATACACCAGACGGAAGAACCGGATCTGCTATCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGATAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGACGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGCGGCTGATCTATCTGGCCCTGGCCCACATGATCAAGTTCCGGGGCCACTTCCTGATCGAGGGCGACCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCAGCGGCGTGGACGCCAAGGCCATCCTGTCTGCCAGACTGAGCAAGAGCAGACGGCTGGAAAATCTGATCGCCCAGCTGCCCGGCGAGAAGAAGAATGGCCTGTTCGGAAACCTGATTGCCCTGAGCCTGGGCCTGACCCCCAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAACCTGCTGGCCCAGATCGGCGACCAGTACGCCGACCTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGACATCCTGAGAGTGAACACCGAGATCACCAAGGCCCCCCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGACCTGACCCTGCTGAAAGCTCTCGTGCGGCAGCAGCTGCCTGAGAAGTACAAAGAGATTTTCTTCGACCAGAGCAAGAACGGCTACGCCGGCTACATTGACGGCGGAGCCAGCCAGGAAGAGTTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTCGTGAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAACGGCAGCATCCCCCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGCGGCAGGAAGATTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCCGCATCCCCTACTACGTGGGCCCTCTGGCCAGGGGAAACAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACCCCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCTTCCGCCCAGAGCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCCAACGAGAAGGTGCTGCCCAAGCACAGCCTGCTGTACGAGTACTTCACCGTGTATAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTCCTGAGCGGCGAGCAGAAAAAGGCCATCGTGGACCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACTCCGTGGAAATCTCCGGCGTGGAAGATCGGTTCAACGCCTCCCTGGGCACATACCACGATCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAATGAGGAAAACGAGGACATTCTGGAAGATATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACCTATGCCCACCTGTTCGACGACAAAGTGATGAAGCAGCTGAAGCGGCGGAGATACACCGGCTGGGGCAGGCTGAGCCGGAAGCTGATCAACGGCATCCGGGACAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAGGGCGATAGCCTGCACGAGCACATTGCCAATCTGGCCGGCAGCCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTCGTGAAAGTGATGGGCCGGCACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACCCAGAAGGGACAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGGCGGGATATGTACGTGGACCAGGAACTGGACATCAACCGGCTGTCCGACTACGATGTGGACCATATCGTGCCTCAGAGCTTTCTGAAGGACGACTCCATCGACAACAAGGTGCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGACAACGTGCCCTCCGAAGAGGTCGTGAAGAAGATGAAGAACTACTGGCGGCAGCTGCTGAACGCCAAGCTGATTACCCAGAGAAAGTTCGACAATCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTGGATAAGGCCGGCTTCATCAAGAGACAGCTGGTGGAAACCCGGCAGATCACAAAGCACGTGGCACAGATCCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTGATCACCCTGAAGTCCAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTTTACAAAGTGCGCGAGATCAACAACTACCACCACGCCCACGACGCCTACCTGAACGCCGTCGTGGGAACCGCCCTGATCAAAAAGTACCCTAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAGCAGGAAATCGGCAAGGCTACCGCCAAGTACTTCTTCTACAGCAACATCATGAACTTTTTCAAGACCGAGATTACCCTGGCCAACGGCGAGATCCGGAAGCGGCCTCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCCGGGATTTTGCCACCGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAAAAGACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCCAAGAGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGACAGCCCCACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAGAAACTGAAGAGTGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTCGAGAAGAATCCCATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTGAAAAAGGACCTGATCATCAAGCTGCCTAAGTACTCCCTGTTCGAGCTGGAAAACGGCCGGAAGAGAATGCTGGCCTCTGCCGGCGAACTGCAGAAGGGAAACGAACTGGCCCTGCCCTCCAAATATGTGAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCTCCCCCGAGGATAATGAGCAGAAACAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAATCTGGACAAAGTGCTGTCCGCCTACAACAAGCACCGGGATAAGCCCATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAATCTGGGAGCCCCTGCCGCCTTCAAGTACTTTGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACCCTGATCCACCAGAGCATCACCGGCCTGTACGAGACACGGATCGACCTGTCTCAGCTGGGAGGTGACTCTGGCGGCTCAAAAAGAACCGCCGACGGCAGCGAATTCGAGCCCAAGAAGAAGAGGAAAGTCTAACCGGTCATCATCACCATCACCATTGAGTTTAAACCCGCTGATCAGCCTCGACTGTGCCTTCTAGTTGCCAGCCATCTGTTGTTTGCCCCTCCCCCGTGCCTTCCTTGACCCTGGAAGGTGCCACTCCCACTGTCCTTTCCTAATAAAATGAGGAAATTGCATCGCATTGTCTGAGTAGGTGTCATTCTATTCTGGGGGGTGGGGTGGGGCAGGACAGCAAGGGGGAGGATTGGGAAGACAATAGCAGGCATGCTGGGGATGCGGTGGGCTCTATGGCTTCTGAGGCGGAAAGAACCAGCTGGGGCTCGATACCGTCGACCTCTAGCTAGAGCTTGGCGTAATCATGGTCATAGCTGTTTCCTGTGTGAAATTGTTATCCGCTCACAATTCCACACAACATACGAGCCGGAAGCATAAAGTGTAAAGCCTAGGGTGCCTAATGAGTGAGCTAACTCACATTAATTGCGTTGCGCTCACTGCCCGCTTTCCAGTCGGGAAACCTGTCGTGCCAGCTGCATTAATGAATCGGCCAACGCGCGGGGAGAGGCGGTTTGCGTATTGGGCGCTCTTCCGCTTCCTCGCTCACTGACTCGCTGCGCTCGGTCGTTCGGCTGCGGCGAGCGGTATCAGCTCACTCAAAGGCGGTAATACGGTTATCCACAGAATCAGGGGATAACGCAGGAAAGAACATGTGAGCAAAAGGCCAGCAAAAGGCCAGGAACCGTAAAAAGGCCGCGTTGCTGGCGTTTTTCCATAGGCTCCGCCCCCCTGACGAGCATCACAAAAATCGACGCTCAAGTCAGAGGTGGCGAAACCCGACAGGACTATAAAGATACCAGGCGTTTCCCCCTGGAAGCTCCCTCGTGCGCTCTCCTGTTCCGACCCTGCCGCTTACCGGATACCTGTCCGCCTTTCTCCCTTCGGGAAGCGTGGCGCTTTCTCATAGCTCACGCTGTAGGTATCTCAGTTCGGTGTAGGTCGTTCGCTCCAAGCTGGGCTGTGTGCACGAACCCCCCGTTCAGCCCGACCGCTGCGCCTTATCCGGTAACTATCGTCTTGAGTCCAACCCGGTAAGACACGACTTATCGCCACTGGCAGCAGCCACTGGTAACAGGATTAGCAGAGCGAGGTATGTAGGCGGTGCTACAGAGTTCTTGAAGTGGTGGCCTAACTACGGCTACACTAGAAGAACAGTATTTGGTATCTGCGCTCTGCTGAAGCCAGTTACCTTCGGAAAAAGAGTTGGTAGCTCTTGATCCGGCAAACAAACCACCGCTGGTAGCGGTGGTTTTTTTGTTTGCAAGCAGCAGATTACGCGCAGAAAAAAAGGATCTCAAGAAGATCCTTTGATCTTTTCTACGGGGTCTGACACTCAGTGGAACGAAAACTCACGTTAAGGGATTTTGGTCATGAGATTATCAAAAAGGATCTTCACCTAGATCCTTTTAAATTAAAAATGAAGTTTTAAATCAATCTAAAGTATATATGAGTAAACTTGGTCTGACAGTTACCAATGCTTAATCAGTGAGGCACCTATCTCAGCGATCTGTCTATTTCGTTCATCCATAGTTGCCTGACTCCCCGTCGTGTAGATAACTACGATACGGGAGGGCTTACCATCTGGCCCCAGTGCTGCAATGATACCGCGAGACCCACGCTCACCGGCTCCAGATTTATCAGCAATAAACCAGCCAGCCGGAAGGGCCGAGCGCAGAAGTGGTCCTGCAACTTTATCCGCCTCCATCCAGTCTATTAATTGTTGCCGGGAAGCTAGAGTAAGTAGTTCGCCAGTTAATAGTTTGCGCAACGTTGTTGCCATTGCTACAGGCATCGTGGTGTCACGCTCGTCGTTTGGTATGGCTTCATTCAGCTCCGGTTCCCAACGATCAAGGCGAGTTACATGATCCCCCATGTTGTGCAAAAAAGCGGTTAGCTCCTTCGGTCCTCCGATCGTTGTCAGAAGTAAGTTGGCCGCAGTGTTATCACTCATGGTTATGGCAGCACTGCATAATTCTCTTACTGTCATGCCATCCGTAAGATGCTTTTCTGTGACTGGTGAGTACTCAACCAAGTCATTCTGAGAATAGTGTATGCGGCGACCGAGTTGCTCTTGCCCGGCGTCAATACGGGATAATACCGCGCCACATAGCAGAACTTTAAAAGTGCTCATCATTGGAAAACGTTCTTCGGGGCGAAAACTCTCAAGGATCTTACCGCTGTTGAGATCCAGTTCGATGTAACCCACTCGTGCACCCAACTGATCTTCAGCATCTTTTACTTTCACCAGCGTTTCTGGGTGAGCAAAAACAGGAAGGCAAAATGCCGCAAAAAAGGGAATAAGGGCGACACGGAAATGTTGAATACTCATACTCTTCCTTTTTCAATATTATTGAAGCATTTATCAGGGTTATTGTCTCATGAGCGGATACATATTTGAATGTATTTAGAAAAATAAACAAATAGGGGTTCCGCGCACATTTCCCCGAAAAGTGCCACCTGACGTCGACGGATCGGGAGATCGATCTCCCGATCCCCTAGGGTCGACTCTCAGTACAATCTGCTCTGATGCCGCATAGTTAAGCCAGTATCTGCTCCCTGCTTGTGTGTTGGAGGTCGCTGAGTAGTGCGCGAGCAAAATTTAAGCTACAACAAGGCAAGGCTTGACCGACAATTGCATGAAGAATCTGCTTAGGGTTAGGCGTTTTGCGCTGCTTCGCGATGTACGGGCCAGATATACGCGTTGACATTGATTATTGACTAGTTATTAATAGTAATCAATTACGGGGTCATTAGTTCATAGCCCATATATGGAGTTCCGCGTTACATAACTTACGGTAAATGGCCCGCCTGGCTGACCGCCCAACGACCCCCGCCCATTGACGTCAATAATGACGTATGTTCCCATAGTAACGCCAATAGGGACTTTCCATTGACGTCAATGGGTGGAGTATTTACGGTAAACTGCCCACTTGGCAGTACATCAAGTGTATC
举例来说,如本文所述的碱基编辑组合物、系统和方法中所使用的胞苷碱基编辑器(CBE)具有如下面所提供的以下核酸序列(8877碱基对)(Addgene,Watertown,MA.;KomorAC等,2017,Sci Adv.,30;3(8):eaao4774.doi:10.1126/sciadv.aao4774)。与该BE4核酸序列具有至少95%或更高同一性的多核苷酸序列也被涵盖。
Figure BDA0003286956470000331
Figure BDA0003286956470000341
Figure BDA0003286956470000351
Figure BDA0003286956470000361
在一些实施方式中,该胞苷碱基编辑器是BE4,其具有选自以下之一的核酸序列:
原始的BE4核酸序列:
ATGagctcagagactggcccagtggctgtggaccccacattgagacggcggatcgagccccatgagtttgaggtattcttcgatccgagagagctccgcaaggagacctgcctgctttacgaaattaattgggggggccggcactccatttggcgacatacatcacagaacactaacaagcacgtcgaagtcaacttcatcgagaagttcacgacagaaagatatttctgtccgaacacaaggtgcagcattacctggtttctcagctggagccgcgaatgtagtagggccatcactgaattcctgtcaaggtatccccacgtcactctgtttatttacatcgcaaggctgtaccaccacgctgacccccgcaatcgacaaggcctgcgggatttgatctcttcaggtgtgactatccaaattatgactgagcaggagtcaggatactgctggagaaactttgtgaattatagcccgagtaatgaagcccactggcctaggtatccccatctgtgggtacgactgtacgttcttgaactgtactgcatcatactgggcctgcctccttgtctcaacattctgagaaggaagcagccacagctgacattctttaccatcgctcttcagtcttgtcattaccagcgactgcccccacacattctctgggccaccgggttgaaatctggtggttcttctggtggttctagcggcagcgagactcccgggacctcagagtccgccacacccgaaagttctggtggttcttctggtggttctgataaaaagtattctattggtttagccatcggcactaattccgttggatgggctgtcataaccgatgaatacaaagtaccttcaaagaaatttaaggtgttggggaacacagaccgtcattcgattaaaaagaatcttatcggtgccctcctattcgatagtggcgaaacggcagaggcgactcgcctgaaacgaaccgctcggagaaggtatacacgtcgcaagaaccgaatatgttacttacaagaaatttttagcaatgagatggccaaagttgacgattctttctttcaccgtttggaagagtccttccttgtcgaagaggacaagaaacatgaacggcaccccatctttggaaacatagtagatgaggtggcatatcatgaaaagtacccaacgatttatcacctcagaaaaaagctagttgactcaactgataaagcggacctgaggttaatctacttggctcttgcccatatgataaagttccgtgggcactttctcattgagggtgatctaaatccggacaactcggatgtcgacaaactgttcatccagttagtacaaacctataatcagttgtttgaagagaaccctataaatgcaagtggcgtggatgcgaaggctattcttagcgcccgcctctctaaatcccgacggctagaaaacctgatcgcacaattacccggagagaagaaaaatgggttgttcggtaaccttatagcgctctcactaggcctgacaccaaattttaagtcgaacttcgacttagctgaagatgccaaattgcagcttagtaaggacacgtacgatgacgatctcgacaatctactggcacaaattggagatcagtatgcggacttatttttggctgccaaaaaccttagcgatgcaatcctcctatctgacatactgagagttaatactgagattaccaaggcgccgttatccgcttcaatgatcaaaaggtacgatgaacatcaccaagacttgacacttctcaaggccctagtccgtcagcaactgcctgagaaatataaggaaatattctttgatcagtcgaaaaacgggtacgcaggttatattgacggcggagcgagtcaagaggaattctacaagtttatcaaacccatattagagaagatggatgggacggaagagttgcttgtaaaactcaatcgcgaagatctactgcgaaagcagcggactttcgacaacggtagcattccacatcaaatccacttaggcgaattgcatgctatacttagaaggcaggaggatttttatccgttcctcaaagacaatcgtgaaaagattgagaaaatcctaacctttcgcataccttactatgtgggacccctggcccgagggaactctcggttcgcatggatgacaagaaagtccgaagaaacgattactccatggaattttgaggaagttgtcgataaaggtgcgtcagctcaatcgttcatcgagaggatgaccaactttgacaagaatttaccgaacgaaaaagtattgcctaagcacagtttactttacgagtatttcacagtgtacaatgaactcacgaaagttaagtatgtcactgagggcatgcgtaaacccgcctttctaagcggagaacagaagaaagcaatagtagatctgttattcaagaccaaccgcaaagtgacagttaagcaattgaaagaggactactttaagaaaattgaatgcttcgattctgtcgagatctccggggtagaagatcgatttaatgcgtcacttggtacgtatcatgacctcctaaagataattaaagataaggacttcctggataacgaagagaatgaagatatcttagaagatatagtgttgactcttaccctctttgaagatcgggaaatgattgaggaaagactaaaaacatacgctcacctgttcgacgataaggttatgaaacagttaaagaggcgtcgctatacgggctggggacgattgtcgcggaaacttatcaacgggataagagacaagcaaagtggtaaaactattctcgattttctaaagagcgacggcttcgccaataggaactttatgcagctgatccatgatgactctttaaccttcaaagaggatatacaaaaggcacaggtttccggacaaggggactcattgcacgaacatattgcgaatcttgctggttcgccagccatcaaaaagggcatactccagacagtcaaagtagtggatgagctagttaaggtcatgggacgtcacaaaccggaaaacattgtaatcgagatggcacgcgaaaatcaaacgactcagaaggggcaaaaaaacagtcgagagcggatgaagagaatagaagagggtattaaagaactgggcagccagatcttaaaggagcatcctgtggaaaatacccaattgcagaacgagaaactttacctctattacctacaaaatggaagggacatgtatgttgatcaggaactggacataaaccgtttatctgattacgacgtcgatcacattgtaccccaatcctttttgaaggacgattcaatcgacaataaagtgcttacacgctcggataagaaccgagggaaaagtgacaatgttccaagcgaggaagtcgtaaagaaaatgaagaactattggcggcagctcctaaatgcgaaactgataacgcaaagaaagttcgataacttaactaaagctgagaggggtggcttgtctgaacttgacaaggccggatttattaaacgtcagctcgtggaaacccgccaaatcacaaagcatgttgcacagatactagattcccgaatgaatacgaaatacgacgagaacgataagctgattcgggaagtcaaagtaatcactttaaagtcaaaattggtgtcggacttcagaaaggattttcaattctataaagttagggagataaataactaccaccatgcgcacgacgcttatcttaatgccgtcgtagggaccgcactcattaagaaatacccgaagctagaaagtgagtttgtgtatggtgattacaaagtttatgacgtccgtaagatgatcgcgaaaagcgaacaggagataggcaaggctacagccaaatacttcttttattctaacattatgaatttctttaagacggaaatcactctggcaaacggagagatacgcaaacgacctttaattgaaaccaatggggagacaggtgaaatcgtatgggataagggccgggacttcgcgacggtgagaaaagttttgtccatgccccaagtcaacatagtaaagaaaactgaggtgcagaccggagggttttcaaaggaatcgattcttccaaaaaggaatagtgataagctcatcgctcgtaaaaaggactgggacccgaaaaagtacggtggcttcgatagccctacagttgcctattctgtcctagtagtggcaaaagttgagaagggaaaatccaagaaactgaagtcagtcaaagaattattggggataacgattatggagcgctcgtcttttgaaaagaaccccatcgacttccttgaggcgaaaggttacaaggaagtaaaaaaggatctcataattaaactaccaaagtatagtctgtttgagttagaaaatggccgaaaacggatgttggctagcgccggagagcttcaaaaggggaacgaactcgcactaccgtctaaatacgtgaatttcctgtatttagcgtcccattacgagaagttgaaaggttcacctgaagataacgaacagaagcaactttttgttgagcagcacaaacattatctcgacgaaatcatagagcaaatttcggaattcagtaagagagtcatcctagctgatgccaatctggacaaagtattaagcgcatacaacaagcacagggataaacccatacgtgagcaggcggaaaatattatccatttgtttactcttaccaacctcggcgctccagccgcattcaagtattttgacacaacgatagatcgcaaacgatacacttctaccaaggaggtgctagacgcgacactgattcaccaatccatcacgggattatatgaaactcggatagatttgtcacagcttgggggtgactctggtggttctggaggatctggtggttctactaatctgtcagatattattgaaaaggagaccggtaagcaactggttatccaggaatccatcctcatgctcccagaggaggtggaagaagtcattgggaacaagccggaaagcgatatactcgtgcacaccgcctacgacgagagcaccgacgagaatgtcatgcttctgactagcgacgcccctgaatacaagccttgggctctggtcatacaggatagcaacggtgagaacaagattaagatgctctctggtggttctggaggatctggtggttctactaatctgtcagatattattgaaaaggagaccggtaagcaactggttatccaggaatccatcctcatgctcccagaggaggtggaagaagtcattgggaacaagccggaaagcgatatactcgtgcacaccgcctacgacgagagcaccgacgagaatgtcatgcttctgactagcgacgcccctgaatacaagccttgggctctggtcatacaggatagcaacggtgagaacaagattaagatgctctctggtggttctAAAAGGACGGCGGACGGATCAGAGTTCGAGAGTCCGAAAAAAAAACGAAAGGTCGAAtaa
BE4密码子优化1核酸序列:
ATGTCATCCGAAACCGGGCCAGTGGCCGTAGACCCAACACTCAGGAGGCGGATAGAACCCCATGAGTTTGAAGTGTTCTTCGACCCCAGAGAGCTGCGCAAAGAGACTTGCCTCCTGTATGAAATAAATTGGGGGGGTCGCCATTCAATTTGGAGGCACACTAGCCAGAATACTAACAAACACGTGGAGGTAAATTTTATCGAGAAGTTTACCACCGAAAGATACTTTTGCCCCAATACACGGTGTTCAATTACCTGGTTTCTGTCATGGAGTCCATGTGGAGAATGTAGTAGAGCGATAACTGAGTTCCTGTCTCGATATCCTCACGTCACGTTGTTTATATACATCGCTCGGCTTTATCACCATGCGGACCCGCGGAACAGGCAAGGTCTTCGGGACCTCATATCCTCTGGGGTGACCATCCAGATAATGACGGAGCAAGAGAGCGGATACTGCTGGCGAAACTTTGTTAACTACAGCCCAAGCAATGAGGCACACTGGCCTAGATATCCGCATCTCTGGGTTCGACTGTATGTCCTTGAACTGTACTGCATAATTCTGGGACTTCCGCCATGCTTGAACATTCTGCGGCGGAAACAACCACAGCTGACCTTTTTCACGATTGCTCTCCAAAGTTGTCACTACCAGCGATTGCCACCCCACATCTTGTGGGCTACTGGACTCAAGTCTGGAGGAAGTTCAGGCGGAAGCAGCGGGTCTGAAACGCCCGGAACCTCAGAGAGCGCAACGCCCGAAAGCTCTGGAGGGTCAAGTGGTGGTAGTGATAAGAAATACTCCATCGGCCTCGCCATCGGTACGAATTCTGTCGGTTGGGCCGTTATCACCGATGAGTACAAGGTCCCTTCTAAGAAATTCAAGGTTTTGGGCAATACAGACCGCCATTCTATAAAAAAAAACCTGATCGGCGCCCTTTTGTTTGACAGTGGTGAGACTGCTGAAGCGACTCGCCTGAAGCGAACTGCCAGGAGGCGGTATACGAGGCGAAAAAACCGAATTTGTTACCTCCAGGAGATTTTCTCAAATGAAATGGCCAAGGTAGATGATAGTTTTTTTCACCGCTTGGAAGAAAGTTTTCTCGTTGAGGAGGACAAAAAGCACGAGAGGCACCCAATCTTTGGCAACATAGTCGATGAGGTCGCATACCATGAGAAATATCCTACGATCTATCATCTCCGCAAGAAGCTGGTCGATAGCACGGATAAAGCTGACCTCCGGCTGATCTACCTTGCTCTTGCTCACATGATTAAATTCAGGGGCCATTTCCTGATAGAAGGAGACCTCAATCCCGACAATTCTGATGTCGACAAACTGTTTATTCAGCTCGTTCAGACCTATAATC
AACTCTTTGAGGAGAACCCCATCAATGCTTCAGGGGTGGACGCAAAGGCCATTTTGTCCGCGCGCTTGAGTAAATCACGACGCCTCGAGAATTTGATAGCTCAACTGCCGGGTGAGAAGAAAAACGGGTTGTTTGGGAATCTCATAGCGTTGAGTTTGGGACTTACGCCAAACTTTAAGTCTAACTTTGATTTGGCCGAAGATGCCAAATTGCAGCTGTCCAAAGATACCTATGATGACGACTTGGATAACCTTCTTGCGCAGATTGGTGACCAATACGCGGATCTGTTTCTTGCCGCAAAAAATCTGTCCGACGCCATACTCTTGTCCGATATACTGCGCGTCAATACTGAGATAACTAAGGCTCCCCTCAGCGCGTCCATGATTAAAAGATACGATGAGCACCACCAAGATCTCACTCTGTTGAAAGCCCTGGTTCGCCAGCAGCTTCCAGAGAAGTATAAGGAGATATTTTTCGACCAATCTAAAAACGGCTATGCGGGTTACATTGACGGTGGCGCCTCTCAAGAAGAATTCTACAAGTTTATAAAGCCGATACTTGAGAAAATGGACGGTACAGAGGAATTGTTGGTTAAGCTCAATCGCGAGGACTTGTTGAGAAAGCAGCGCACATTTGACAATGGTAGTATTCCACACCAGATTCATCTGGGCGAGTTGCATGCCATTCTTAGAAGACAAGAAGATTTTTATCCGTTTCTGAAAGATAACAGAGAAAAGATTGAAAAGATACTTACCTTTCGCATACCGTATTATGTAGGTCCCCTGGCTAGAGGGAACAGTCGCTTCGCTTGGATGACTCGAAAATCAGAAGAAACAATAACCCCCTGGAATTTTGAAGAAGTGGTAGATAAAGGTGCGAGTGCCCAATCTTTTATTGAGCGGATGACAAATTTTGACAAGAATCTGCCTAACGAAAAGGTGCTTCCCAAGCATTCCCTTTTGTATGAATACTTTACAGTATATAATGAACTGACTAAAGTGAAGTACGTTACCGAGGGGATGCGAAAGCCAGCTTTTCTCAGTGGCGAGCAGAAAAAAGCAATAGTTGACCTGCTGTTCAAGACGAATAGGAAGGTTACCGTCAAACAGCTCAAAGAAGATTACTTTAAAAAGATCGAATGTTTTGATTCAGTTGAGATAAGCGGAGTAGAGGATAGATTTAACGCAAGTCTTGGAACTTATCATGACCTTTTGAAGATCATCAAGGATAAAGATTTTTTGGACAACGAGGAGAATGAAGATATCCTGGAAGATATAGTACTTACCTTGACGCTTTTTGAAGATCGAGAGATGATCGAGGAGCGACTTAAGACGTACGCACATCTCTTTGACGATAAGGTTATGAAACAATTGAAACGCCGGCGGTATACTGGCTGGGGCAGGCTTTCTCGAAAGCTGATTAATGGTATCCGCGATAAGCAGTCTGGAAAGACAATCCTTGACTTTCTGAAAAGTGATGGATTTGCAAATAGAAACTTTATGCAGCTTATACATGATGACTCTTTGACGTTCAAGGAAGACATCCAGAAGGCACAGGTATCCGGCCAAGGGGATAGCCTCCATGAACACATAGCCAACCTGGCCGGCTCACCAGCTATTAAAAAGGGAATATTGCAAACCGTTAAGGTTGTTGACGAACTCGTTAAGGTTATGGGCCGACACAAACCAGAGAATATCGTGATTGAGATGGCTAGGGAGAATCAGACCACTCAAAAAGGTCAGAAAAATTCTCGCGAAAGGATGAAGCGAATTGAAGAGGGAATCAAAGAACTTGGCTCTCAAATTTTGAAAGAGCACCCGGTAGAAAACACTCAGCTGCAGAATGAAAAGCTGTATCTGTATTATCTGCAGAATGGTCGAGATATGTACGTTGATCAGGAGCTGGATATCAATAGGCTCAGTGACTACGATGTCGACCACATCGTTCCTCAATCTTTCCTGAAAGATGACTCTATCGACAACAAAGTGTTGACGCGATCAGATAAGAACCGGGGAAAATCCGACAATGTACCCTCAGAAGAAGTTGTCAAGAAGATGAAAAACTATTGGAGACAATTGCTGAACGCCAAGCTCATAACACAACGCAAGTTCGATAACTTGACGAAAGCCGAAAGAGGTGGGTTGTCAGAATTGGACAAAGCTGGCTTTATTAAGCGCCAATTGGTGGAGACCCGGCAGATTACGAAACACGTAGCACAAATTTTGGATTCACGAATGAATACCAAATACGACGAAAACGACAAATTGATACGCGAGGTGAAAGTGATTACGCTTAAGAGTAAGTTGGTTTCCGATTTCAGGAAGGATTTTCAGTTTTACAAAGTAAGAGAAATAAACAACTACCACCACGCCCATGATGCTTACCTCAACGCGGTAGTTGGCACAGCTCTTATCAAAAAATATCCAAAGCTGGAAAGCGAGTTCGTTTACGGTGACTATAAAGTATACGACGTTCGGAAGATGATAGCCAAATCAGAGCAGGAAATTGGGAAGGCA
ACCGCAAAATACTTCTTCTATTCAAACATCATGAACTTCTTTAAGACGGAGATTACGCTCGCGAACGGCGAAATACGCAAGAGGCCCCTCATAGAGACTAACGGCGAAACCGGGGAGATCGTATGGGACAAAGGACGGGACTTTGCGACCGTTAGAAAAGTACTTTCAATGCCACAAGTGAATATTGTTAAAAAGACAGAAGTACAAACAGGGGGGTTCAGTAAGGAATCCATTTTGCCCAAGCGGAACAGTGATAAATTGATAGCAAGGAAAAAAGATTGGGACCCTAAGAAGTACGGTGGTTTCGACTCTCCTACCGTTGCATATTCAGTCCTTGTAGTTGCGAAAGTGGAAAAGGGGAAAAGTAAGAAGCTTAAGAGTGTTAAAGAGCTTCTGGGCATAACCATAATGGAACGGTCTAGCTTCGAGAAAAATCCAATTGACTTTCTCGAGGCTAAAGGTTACAAGGAGGTAAAAAAGGACCTGATAATTAAACTCCCAAAGTACAGTCTCTTCGAGTTGGAGAATGGGAGGAAGAGAATGTTGGCATCTGCAGGGGAGCTCCAAAAGGGGAACGAGCTGGCTCTGCCTTCAAAATACGTGAACTTTCTGTACCTGGCCAGCCACTACGAGAAACTCAAGGGTTCTCCTGAGGATAACGAGCAGAAACAGCTGTTTGTAGAGCAGCACAAGCATTACCTGGACGAGATAATTGAGCAAATTAGTGAGTTCTCAAAAAGAGTAATCCTTGCAGACGCGAATCTGGATAAAGTTCTTTCCGCCTATAATAAGCACCGGGACAAGCCTATACGAGAACAAGCCGAGAACATCATTCACCTCTTTACCCTTACTAATCTGGGCGCGCCGGCCGCCTTCAAATACTTCGACACCACGATAGACAGGAAAAGGTATACGAGTACCAAAGAAGTACTTGACGCCACTCTCATCCACCAGTCTATAACAGGGTTGTACGAAACGAGGATAGATTTGTCCCAGCTCGGCGGCGACTCAGGAGGGTCAGGCGGCTCCGGTGGATCAACGAATCTTTCCGACATAATCGAGAAAGAAACCGGCAAACAGTTGGTGATCCAAGAATCAATCCTGATGCTGCCTGAAGAAGTAGAAGAGGTGATTGGCAACAAACCTGAGTCTGACATTCTTGTCCACACCGCGTATGACGAGAGCACGGACGAGAACGTTATGCTTCTCACTAGCGACGCCCCTGAGTATAAACCATGGGCGCTGGTCATCCAAGATTCCAATGGGGAAAACAAGATTAAGATGCTTAGTGGTGGGTCTGGAGGGAGCGGTGGGTCCACGAACCTCAGCGACATTATTGAAAAAGAGACTGGTAAACAACTTGTAATACAAGAGTCTATTCTGATGTTGCCTGAAGAGGTGGAGGAGGTGATTGGGAACAAACCGGAGTCTGATATACTTGTTCATACCGCCTATGACGAATCTACTGATGAGAATGTGATGCTTTTaACGTCAGACGCTCCCGAGTACAAACCCTGGGCTCTGGTGATTCAGGACAGCAATGGTGAGAATAAGATTAAAATGTTGAGTGGGGGCTCAAAGCGCACGGCTGACGGTAGCGAATTTGAGAGCCCCAAAAAAAAACGAAAGGTCGAAtaa
BE4密码子优化2核酸序列:
ATGAGCAGCGAGACAGGCCCTGTGGCTGTGGATCCTACACTGCGGAGAAGAATCGAGCCCCACGAGTTCGAGGTGTTCTTCGACCCCAGAGAGCTGCGGAAAGAGACATGCCTGCTGTACGAGATCAACTGGGGCGGCAGACACTCTATCTGGCGGCACACAAGCCAGAACACCAACAAGCACGTGGAAGTGAACTTTATCGAGAAGTTTACGACCGAGCGGTACTTCTGCCCCAACACCAGATGCAGCATCACCTGGTTTCTGAGCTGGTCCCCTTGCGGCGAGTGCAGCAGAGCCATCACCGAGTTTCTGTCCAGATATCCCCACGTGACCCTGTTCATCTATATCGCCCGGCTGTACCACCACGCCGATCCTAGAAATAGACAGGGACTGCGCGACCTGATCAGCAGCGGAGTGACCATCCAGATCATGACCGAGCAAGAGAGCGGCTACTGCTGGCGGAACTTCGTGAACTACAGCCCCAGCAACGAAGCCCACTGGCCTAGATATCCTCACCTGTGGGTCCGACTGTACGTGCTGGAACTGTACTGCATCATCCTGGGCCTGCCTCCATGCCGGAACATCCTGAGAAGAAAGCAGCCTCAGCTGACCTTCTTCACAATCGCCCTGCAGAGCTGCCACTACCAGAGACTGCCTCCACACATCCTGTGGGCCACCGGACTTAAGAGCGGAGGATCTAGCGGCGGCTCTAGCGGATCTGAGACACCTGGCACAAGCGAGT
CTGCCACACCTGAGAGTAGCGGCGGATCTTCTGGCGGCTCCGACAAGAAGTACTCTATCGGACTGGCCATCGGCACCAACTCTGTTGGATGGGCCGTGATCACCGACGAGTACAAGGTGCCCAGCAAGAAATTCAAGGTGC TGGGCAACACCGACCGGCACAGCATCAAGAAGAATCTGATCGGCGCCCTGCTGTTCGACTCTGGCGAAACAGCCGAAGCCACCAGACTGAAGAGAACCGCCAGGCGGAGATACACCCGGCGGAAGAACCGGATCTGCTACCTGCAAGAGATCTTCAGCAACGAGATGGCCAAGGTGGACGACAGCTTCTTCCACAGACTGGAAGAGTCCTTCCTGGTGGAAGAGGACAAGAAGCACGAGCGGCACCCCATCTTCGGCAACATCGTGGATGAGGTGGCCTACCACGAGAAGTACCCCACCATCTACCACCTGAGAAAGAAACTGGTGGACAGCACCGACAAGGCCGACCTGAGACTGATCTACCTGGCTCTGGCCCACATGATCAAGTTCCGGGGCCACTTTCTGATCGAGGGCGATCTGAACCCCGACAACAGCGACGTGGACAAGCTGTTCATCCAGCTGGTGCAGACCTACAACCAGCTGTTCGAGGAAAACCCCATCAACGCCTCTGGCGTGGACGCCAAGGCTATCCTGTCTGCCAGACTGAGCAAGAGCAGAAGGCTGGAAAACCTGATCGCCCAGCTGCCTGGCGAGAAGAAGAATGGCCTGTTCGGCAACCTGATTGCCCTGAGCCTGGGACTGACCCCTAACTTCAAGAGCAACTTCGACCTGGCCGAGGATGCCAAACTGCAGCTGAGCAAGGACACCTACGACGACGACCTGGACAATCTGCTGGCCCAGATCGGCGATCAGTACGCCGACTTGTTTCTGGCCGCCAAGAACCTGTCCGACGCCATCCTGCTGAGCGATATCCTGAGAGTGAACACCGAGATCACAAAGGCCCCTCTGAGCGCCTCTATGATCAAGAGATACGACGAGCACCACCAGGATCTGACCCTGCTGAAGGCCCTCGTTAGACAGCAGCTGCCAGAGAAGTACAAAGAGATTTTCTTCGATCAGTCCAAGAACGGCTACGCCGGCTACATTGATGGCGGAGCCAGCCAAGAGGAATTCTACAAGTTCATCAAGCCCATCCTGGAAAAGATGGACGGCACCGAGGAACTGCTGGTCAAGCTGAACAGAGAGGACCTGCTGCGGAAGCAGCGGACCTTCGACAATGGCTCTATCCCTCACCAGATCCACCTGGGAGAGCTGCACGCCATTCTGCGGAGACAAGAGGACTTTTACCCATTCCTGAAGGACAACCGGGAAAAGATCGAGAAGATCCTGACCTTCAGGATCCCCTACTACGTGGGACCACTGGCCAGAGGCAATAGCAGATTCGCCTGGATGACCAGAAAGAGCGAGGAAACCATCACACCCTGGAACTTCGAGGAAGTGGTGGACAAGGGCGCCAGCGCTCAGTCCTTCATCGAGCGGATGACCAACTTCGATAAGAACCTGCCTAACGAGAAGGTGCTGCCCAAGCACTCCCTGCTGTATGAGTACTTCACCGTGTACAACGAGCTGACCAAAGTGAAATACGTGACCGAGGGAATGAGAAAGCCCGCCTTTCTGAGCGGCGAGCAGAAAAAGGCCATTGTGGATCTGCTGTTCAAGACCAACCGGAAAGTGACCGTGAAGCAGCTGAAAGAGGACTACTTCAAGAAAATCGAGTGCTTCGACAGCGTGGAAATCAGCGGCGTGGAAGATCGGTTCAATGCCAGCCTGGGCACATACCACGACCTGCTGAAAATTATCAAGGACAAGGACTTCCTGGACAACGAAGAGAACGAGGACATTCTCGAGGACATCGTGCTGACCCTGACACTGTTTGAGGACAGAGAGATGATCGAGGAACGGCTGAAAACATACGCCCACCTGTTCGACGACAAAGTGATGAAGCAACTGAAGCGGAGGCGGTACACAGGCTGGGGCAGACTGTCTCGGAAGCTGATCAACGGCATCCGGGATAAGCAGTCCGGCAAGACAATCCTGGATTTCCTGAAGTCCGACGGCTTCGCCAACAGAAACTTCATGCAGCTGATCCACGACGACAGCCTGACCTTTAAAGAGGACATCCAGAAAGCCCAGGTGTCCGGCCAAGGCGATTCTCTGCACGAGCACATTGCCAACCTGGCCGGATCTCCCGCCATTAAGAAGGGCATCCTGCAGACAGTGAAGGTGGTGGACGAGCTTGTGAAAGTGATGGGCAGACACAAGCCCGAGAACATCGTGATCGAAATGGCCAGAGAGAACCAGACCACACAGAAGGGCCAGAAGAACAGCCGCGAGAGAATGAAGCGGATCGAAGAGGGCATCAAAGAGCTGGGCAGCCAGATCCTGAAAGAACACCCCGTGGAAAACACCCAGCTGCAGAACGAGAAGCTGTACCTGTACTACCTGCAGAATGGACGGGATATGTACGTGGACCAA
GAGCTGGACATCAACCGGCTGAGCGACTACGATGTGGACCATATCGTGCCCCAGAGCTTTCTGAAGGACGACTCCATCGATAACAAGGTCCTGACCAGAAGCGACAAGAACCGGGGCAAGAGCGATAACGTGCCCTCCGAAGAGGTGGTCAAGAAGATGAAGAACTACTGGCGACAGCTGCTGAACGCCAAGCTGATTACCCAGCGGAAGTTCGATAACCTGACCAAGGCCGAGAGAGGCGGCCTGAGCGAACTTGATAAGGCCGGCTTCATTAAGCGGCAGCTGGTGGAAACCCGGCAGATCACCAAACACGTGGCACAGATTCTGGACTCCCGGATGAACACTAAGTACGACGAGAATGACAAGCTGATCCGGGAAGTGAAAGTCATCACCCTGAAGTCTAAGCTGGTGTCCGATTTCCGGAAGGATTTCCAGTTCTACAAAGTGCGGGAAATCAACAACTACCATCACGCCCACGACGCCTACCTGAATGCCGTTGTTGGAACAGCCCTGATCAAGAAGTATCCCAAGCTGGAAAGCGAGTTCGTGTACGGCGACTACAAGGTGTACGACGTGCGGAAGATGATCGCCAAGAGCGAACAAGAGATCGGCAAGGCTACCGCCAAGTACTTTTTCTACAGCAACATCATGAACTTTTTCAAGACAGAGATCACCCTGGCCAACGGCGAGATCCGGAAAAGACCCCTGATCGAGACAAACGGCGAAACCGGGGAGATCGTGTGGGATAAGGGCAGAGATTTTGCCACAGTGCGGAAAGTGCTGAGCATGCCCCAAGTGAATATCGTGAAGAAAACCGAGGTGCAGACAGGCGGCTTCAGCAAAGAGTCTATCCTGCCTAAGCGGAACAGCGATAAGCTGATCGCCAGAAAGAAGGACTGGGACCCTAAGAAGTACGGCGGCTTCGATAGCCCTACCGTGGCCTATTCTGTGCTGGTGGTGGCCAAAGTGGAAAAGGGCAAGTCCAAAAAGCTCAAGAGCGTGAAAGAGCTGCTGGGGATCACCATCATGGAAAGAAGCAGCTTTGAGAAGAACCCGATCGACTTTCTGGAAGCCAAGGGCTACAAAGAAGTCAAGAAGGACCTCATCATCAAGCTCCCCAAGTACAGCCTGTTCGAGCTGGAAAATGGCCGGAAGCGGATGCTGGCCTCAGCAGGCGAACTGCAGAAAGGCAATGAACTGGCCCTGCCTAGCAAATACGTCAACTTCCTGTACCTGGCCAGCCACTATGAGAAGCTGAAGGGCAGCCCCGAGGACAATGAGCAAAAGCAGCTGTTTGTGGAACAGCACAAGCACTACCTGGACGAGATCATCGAGCAGATCAGCGAGTTCTCCAAGAGAGTGATCCTGGCCGACGCTAACCTGGATAAGGTGCTGTCTGCCTATAACAAGCACCGGGACAAGCCTATCAGAGAGCAGGCCGAGAATATCATCCACCTGTTTACCCTGACCAACCTGGGAGCCCCTGCCGCCTTCAAGTACTTCGACACCACCATCGACCGGAAGAGGTACACCAGCACCAAAGAGGTGCTGGACGCCACACTGATCCACCAGTCTATCACCGGCCTGTACGAAACCCGGATCGACCTGTCTCAGCTCGGCGGCGATTCTGGTGGTTCTGGCGGAAGTGGCGGATCCACCAATCTGAGCGACATCATCGAAAAAGAGACAGGCAAGCAGCTCGTGATCCAAGAATCCATCCTGATGCTGCCTGAAGAGGTTGAGGAAGTGATCGGCAACAAGCCTGAGTCCGACATCCTGGTGCACACCGCCTACGATGAGAGCACCGATGAGAACGTCATGCTGCTGACAAGCGACGCCCCTGAGTACAAGCCTTGGGCTCTCGTGATTCAGGACAGCAATGGGGAGAACAAGATCAAGATGCTGAGCGGAGGTAGCGGAGGCAGTGGCGGAAGCACAAACCTGTCTGATATCATTGAAAAAGAAACCGGGAAGCAACTGGTCATTCAAGAGTCCATTCTCATGCTCCCGGAAGAAGTCGAGGAAGTCATTGGAAACAAACCCGAGAGCGATATTCTGGTCCACACAGCCTATGACGAGTCTACAGACGAAAACGTGATGCTCCTGACCTCTGACGCTCCCGAGTATAAGCCCTGGGCACTTGTTATCCAGGACTCTAACGGGGAAAACAAAATCAAAATGTTGTCCGGCGGCAGCAAGCGGACAGCCGATGGATCTGAGTTCGAGAGCCCCAAGAAGAAACGGAAGGTgGAGtaa
“碱基编辑活性”意为化学性改变多核苷酸内的碱基的作用。在一个实施方式中,第一碱基被转换为第二碱基。在一个实施方式中,该碱基编辑活性是胞苷脱氨酶活性,例如将标靶C·G转换为T·A。在另一个实施方式中,该碱基编辑活性是腺苷或腺嘌呤脱氨酶活性,例如将A·T转换为G·C。在另一个实施方式中,该碱基编辑活性是胞苷脱氨酶活性(例如将标靶C·G转换为T·A)和腺苷或腺嘌呤脱氨酶活性(例如将A·T转换为G·C)。
术语“碱基编辑器系统”是指用于编辑靶核苷酸序列的核碱基的系统。在好几个实施方式中,该碱基编辑器系统包括(1)多核苷酸可编程的核苷酸结合结构域(例如Cas9);(2)用于使所述核碱基脱氨基的一个或多个脱氨酶结构域(例如腺苷脱氨酶和/或胞苷脱氨酶);和(3)一个或多个向导多核苷酸(例如向导RNA)。在一些实施方式中,该碱基编辑器(BE)系统包括(1)多核苷酸可编程的核苷酸结合结构域(例如Cas9),腺苷脱氨酶结构域和胞苷脱氨酶结构域,其用于使靶核苷酸序列中的核碱基脱氨基;和(2)一个或多个向导多核苷酸(例如向导RNA),其与所述多核苷酸可编程的核苷酸结合结构域相连。在一些实施方式中,该多核苷酸可编程的核苷酸结合结构域是多核苷酸可编程的DNA结合结构域。在一些实施方式中,该碱基编辑器是胞苷碱基编辑器(CBE)。在一些实施方式中,该碱基编辑器系统是BE4。在一些实施方式中,该碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)。在一些实施方式中,该碱基编辑器是腺嘌呤或腺苷碱基编辑器(ABE)和胞苷碱基编辑器(CBE)。在一些实施方式中,该碱基编辑器是无碱基(碱基)编辑器。
在一些实施方式中,碱基编辑器系统可能包括不止一个碱基编辑组分。例如,碱基编辑器系统可能包含一个或多个脱氨酶(例如,腺苷脱氨酶、胞苷脱氨酶)。在一些实施方式中,可利用单一向导多核苷酸将不同脱氨酶靶向至标靶核酸序列。在一些实施方式中,可利用单对向导多核苷酸将不同脱氨酶靶向至标靶核酸序列。
碱基编辑器系统的脱氨酶结构域与多核苷酸可编程的核苷酸结合组分可共价地或非共价地彼此相联,或以其相联和相互作用的任何组合而彼此相联。例如,在一些实施方式中,可以通过多核苷酸可编程的核苷酸结合结构域而将一个或多个脱氨酶结构域靶向至标靶核苷酸序列。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域可以融合到或链接到一个或多个脱氨酶结构域上。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域可以通过与脱氨酶结构域的非共价相互作用或与其相联而将一个或多个脱氨酶结构域靶向到标靶核苷酸序列。例如,在一些实施方式中,该脱氨酶结构域可以包括能够与身为多核苷酸可编程的核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、相联或形成复合体的另外的异源部分或结构域。在一些实施方式中,该额外的异源部分可能能够与多肽结合、相互作用、相联、或形成复合体。在一些实施方式中,该额外的异源部分可能能够与多核苷酸结合、相互作用、相联、或形成复合体。在一些实施方式中,该额外的异源部分可能能够与向导多核苷酸结合。在一些实施方式中,该额外的异源部分可能能够与多肽链接子结合。在一些实施方式中,该额外的异源部分可能能够与多核苷酸链接子结合。该额外的异源部分可能是蛋白结构域。在一些实施方式中,该额外的异源部分可能是K同源(KH)结构域,MS2外壳蛋白结构域,PP7外壳蛋白结构域,SfMu Com外壳蛋白结构域,不育α基序,端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
碱基编辑器系统可能进一步包括向导多核苷酸组分。应当理解,碱基编辑器系统的各组分可以经由共价键、非共价相互作用、或其相联和相互作用的任何组合而彼此相联。在一些实施方式中,可以通过向导多核苷酸将一个或多个脱氨酶结构域靶向至标靶核苷酸序列。例如,在一些实施方式中,该脱氨酶结构域可以包括额外的异源部分或结构域(例如多核苷酸结合结构域,诸如RNA或DNA结合结构域),其能够与向导多核苷酸的部分或节段(例如,多核苷酸基序)相互作用、相联或形成复合体。在一些实施方式中,该额外的异源部分或结构域(例如多核苷酸结合结构域,诸如RNA或DNA结合蛋白)可以融合到或链接到该脱氨酶结构域上。在一些实施方式中,该额外的异源部分可能能够与多肽结合、相互作用、相联、或形成复合体。在一些实施方式中,该额外的异源部分可能能够与多核苷酸结合、相互作用、相联、或形成复合体。在一些实施方式中,该额外的异源部分可能能够与向导多核苷酸结合。在一些实施方式中,该额外的异源部分可能能够与多肽链接子结合。在一些实施方式中,该额外的异源部分可能能够与多核苷酸链接子结合。该额外的异源部分可能是蛋白结构域。在一些实施方式中,该额外的异源部分可能是K同源(KH)结构域,MS2外壳蛋白结构域,PP7外壳蛋白结构域,SfMu Com外壳蛋白结构域,不育α基序,端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施方式中,碱基编辑器系统可以进一步包括碱基切除修复(BER)组分的抑制剂。应当理解,碱基编辑器系统的各组分可以经由共价键、非共价相互作用、或其相联和相互作用的任何组合而彼此相联。该BER组分的抑制剂可能包括BER抑制剂。在一些实施方式中,该BER的抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方式中,该BER的抑制剂可以是肌苷BER抑制剂。在一些实施方式中,可以通过多核苷酸可编程的核苷酸结合结构域将BER的抑制剂靶向至标靶核苷酸序列。在一些实施方式中,可以将多核苷酸可编程的核苷酸结合结构域融合到或链接到BER的抑制剂上。在一些实施方式中,可以将多核苷酸可编程的核苷酸结合结构域融合到或链接到一个或多个脱氨酶结构域和BER的抑制剂上。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域可以通过与BER的抑制剂的非共价相互作用或相联而将BER的抑制剂靶向到标靶核苷酸序列。例如,在一些实施方式中,该BER组分的抑制剂可以包括额外的异源部分或结构域,其能够与身为多核苷酸可编程的核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、相联或形成复合体。
在一些实施方式中,可以通过向导多核苷酸将该BER的抑制剂靶向到标靶核苷酸序列。例如,在一些实施方式中,该BER的抑制剂可以包括额外的异源部分或结构域(例如多核苷酸结合结构域,诸如RNA或DNA结合结构域),其能够与向导多核苷酸的部分或节段(例如,多核苷酸基序)相互作用、相联或形成复合体。在一些实施方式中,可以将向导多核苷酸额外的异源部分或结构域(例如,多核苷酸结合结构域,诸如RNA或DNA结合结构域)融合到或链接到BER的抑制剂上。在一些实施方式中,该额外的异源部分可能能够与多核苷酸结合、相互作用、相联、或形成复合体。在一些实施方式中,该额外的异源部分可能能够与向导多核苷酸结合。在一些实施方式中,该额外的异源部分可能能够与多肽链接子结合。在一些实施方式中,该额外的异源部分可能能够与多核苷酸链接子结合。该额外的异源部分可能是蛋白结构域。在一些实施方式中,该额外的异源部分可能是K同源(KH)结构域,MS2外壳蛋白结构域,PP7外壳蛋白结构域,SfMu Com外壳蛋白结构域,不育α基序,端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
术语“Cas9”或“Cas9结构域”是指包括Cas9蛋白或其片段(例如一蛋白,其包括活性的、失活的或部分活性的Cas9的DNA切开结构域,和/或Cas9的gRNA结合结构域)的RNA导向的核酸酶。Cas9核酸酶有时也被称为Casnl核酸酶或CRISPR(规律成簇间隔短回文重复序列)-关联核酸酶.CRISPR是一种适应性免疫系统,其针对可移动的遗传元件(病毒,转座因子和接合型质粒)提供保护。CRISPR簇含有间隔序列,即与先前的可移动的元件互补的序列,并靶向入侵的核酸。CRISPR簇被转录并加工成为CRISPR RNA(crRNA)。在II型CRISPR系统中,pre-crRNA的正确加工需要反式-编码的小RNA(tracrRNA),内源性核糖核酸酶3(rnc)以及Cas9蛋白。该tracrRNA作为核糖核酸酶3-辅助的pre-crRNA的加工的向导。随后,Cas9/crRNA/tracrRNA以核酸内裂解的方式切开与前述间隔序列互补的线性或环状dsDNA标靶。不与crRNA互补的标靶股先以核酸内裂解的方式被切割,然后以核酸外裂解的方式被3′-5′修剪。在自然界中,DNA-结合和切开通常需要蛋白质和两种RNA。然而,可以对单一向导RNAs(“sgRNA”,或简称“gNRA”)进行工程化以便将crRNA和tracrRNA二者的各方面都并入单一RNA种类之中。参见例如Jinek M.等,Science 337:816-821(2012),其全部内容在此通过引用并入本文。Cas9识别CRISPR重复序列中的短基序(即PAM或原间隔序列临近基序)以帮助区分自体与非自体。Cas9核酸酶序列和结构是本领域技术人员熟知的(参见例如“Completegenome sequence of an M1 strain of Streptococcus pyogenes.”Ferretti等,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等,Nature471:602-607(2011);以及“A programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.等,Science 337:816-821(2012),其每个的全部内容通过引用并入本文)。已在好几种物种中描述了Cas9的异种同源物,包含但不限于化脓链球菌和嗜热链球菌。基于本公开披露,额外的适合的Cas9核酸酶和序列对于本领域技术人员将是显而易见的,并且此种Cas9核酸酶和序列包含来自Chylinski,Rhun,和Charpentier,“ThetracrRNA and Cas9families of type II CRISPR-Cas immunity systems”(2013)RNABiology 10:5,726-737中所揭示的生物体和基因座的Cas9序列;其全部内容通过引用并入本文。
示例性的Cas9,为化脓链球菌Cas9(spCas9),其氨基酸序列提供如下:
Figure BDA0003286956470000471
Figure BDA0003286956470000481
(单下划线:HNH结构域;双下划线:RuvC结构域)
核酸酶-去活性化的Cas9蛋白可互换地被称为“dCas9”蛋白(出于核酸酶-“死(dead)”Cas9)或催化失活的Cas9。生成具有失活的DNA切开结构域的Cas9蛋白(或其片段)的方法是已知的(参见例如Jinek等,Science.337:816-821(2012);Qi等,“RepurposingCRISPR as an RNA-Guided Platform for Sequence-Specific Control of GeneExpression”(2013)Cell.28;152(5):1173-83,其每个的全部内容通过引用并入本文)。例如,已知Cas9的DNA切开结构域包含两个亚结构域,HNH核酸酶亚结构域和RuvC1亚结构域。该HNH亚结构域切开与gRNA互补的股,而该RuvC1亚结构域切开非互补的股。这些亚结构域内的突变可以沉默化Cas9的核酸酶活性。例如,突变D10A和H840A完全去活性化化脓链球菌Cas9的核酸酶活性(Jinek等,Science.337:816-821(2012);Qi等,Cell.28;152(5):1173-83(2013))。在一些实施方式中,Cas9核酸酶具有失活的(例如去活性化的)DNA切开结构域,即是说,该Cas9为一切口酶,被称为“nCas9”蛋白(出于“切口酶(nickase)”Cas9)。在一些实施方式中,提供了包括Cas9的片段的蛋白。例如,在一些实施方式中,蛋白包括两个Cas9结构域之一:(1)Cas9的gRNA结合结构域;或(2)Cas9的DNA切开结构域。在一些实施方式中,包括Cas9或其片段的蛋白被称为“Cas9变体”。Cas9变体与Cas9或其片段共享同源性。例如,Cas9变体与野生型Cas9是至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同、或至少约99.9%相同。在一些实施方式中,与野生型Cas9相比,该Cas9变体可能具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个氨基酸的变化。在一些实施方式中,该Cas9变体包括Cas9的片段(例如gRNA结合结构域或DNA-切开结构域),使得该片段与相应的野生型Cas9片段是至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同、或至少约99.9%相同。在一些实施方式中,该片段是相应的野生型Cas9的氨基酸长度的至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%。
在一些实施方式中,该片段的长度是至少100个氨基酸。在一些实施方式中,该片段的长度是至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、或至少1300个氨基酸。
在一些实施方式中,野生型Cas9对应于来自化脓链球菌的Cas9(NCBI参考序列:NC_017053.1,核苷酸和氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTAC
AAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003286956470000511
Figure BDA0003286956470000521
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方式中,野生型Cas9对应于或包括以下的核苷酸和/或氨基酸序列:
ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGAGATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGAT
TGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAG
CTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA
Figure BDA0003286956470000551
Figure BDA0003286956470000561
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方式中,野生型Cas9对应于来自化脓链球菌的Cas9(NCBI参考序列:NC_002737.2)(核苷酸序列如下);和Uniprot参考序列:Q99ZW2(氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAG
AAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003286956470000581
Figure BDA0003286956470000591
Figure BDA0003286956470000592
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方式中,Cas9是指来自以下的Cas9:溃疡棒状杆菌(NCBI Refs:NC_015683.1、NC_017317.1);白喉棒状杆菌(NCBI Refs:NC_016782.1、NC_016786.1);栖蚜蝇螺原体(NCBI Ref:NC_021284.1);中间普雷沃菌(NCBI Ref:NC_017861.1);中国台湾螺原体(NCBI Ref:NC_021846.1);海豚链球菌(NCBI Ref:NC_021314.1);波罗的海Belliella属菌(Belliella baltica)(NCBI Ref:NC_018010.1);扭曲冷弯曲菌I(NCBI Ref:NC_018721.1);嗜热链球菌(NCBI Ref:YP_820832.1),无害李斯特菌(NCBI Ref:NP_472073.1),空肠弯曲菌(NCBI Ref:YP_002344900.1)或脑膜炎双球菌(NCBI Ref:YP_002342100.1)或来自任何其他生物体的Cas9。
在一些实施方式中,dCas9对应于或包括Cas9氨基酸序列的一部分或全部,该序列具有一个或多个去活性化Cas9核酸酶活性的突变。例如,在一些实施方式中,dCas9结构域包括D10A和H840A突变,或另一个Cas9中的相应突变。在一些实施方式中,该dCas9包括dCas9(D10A和H840A)的氨基酸序列:
Figure BDA0003286956470000593
Figure BDA0003286956470000601
(单下划线:HNH结构域;双下划线:RuvC结构域).
在一些实施方式中,该Cas9结构域包括D10A突变,而在上面所提供的氨基酸序列中位置840的残基,或在任何本文所提供的氨基酸序列的相应位置上的残基,仍然是组氨酸。
在其他实施方式中,提供了具有除了D10A和H840A以外突变的dCas9变体,所述突变,例如,导致核酸酶去活性化的Cas9(dCas9)。此种突变,举例来说,包含在D10和H840处其他的氨基酸替换,或在Cas9的核酸酶结构域内的其他替换(例如,在HNH核酸酶亚结构域和/或RuvC1亚结构域内的替换)。在一些实施方式中,提供了dCas9的变体或同源物,其为至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同、或至少约99.9%相同。在一些实施方式中,提供了dCas9的变体,其所具有的氨基酸序列的较短或较长的程度为约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方式中,如本文所提供的Cas9融合蛋白包括Cas9蛋白的全长氨基酸序列,例如,本文所提供的Cas9序列之一。然而,在其他实施方式中,如本文所提供的融合蛋白不包括全长Cas9序列,而是仅包含其一个或多个片段。本文提供了适合的Cas9结构域和Cas9片段的示例性的氨基酸序列,而额外的适合的Cas9结构域和片段的序列对本领域技术人员而言是显而易见的。
应当理解,额外的Cas9蛋白(例如核酸酶失活的Cas9(dCas9)、Cas9切口酶(nCas9)、或核酸酶有活性的Cas9),包含其变体和同源物,是在本公开披露的范围之内。示例性的Cas9蛋白包含但不限于如下所提供的那些。在一些实施方式中,该Cas9蛋白是核酸酶失活的Cas9(dCas9)。在一些实施方式中,该Cas9蛋白是Cas9切口酶(nCas9)。在一些实施方式中,该Cas9蛋白是核酸酶有活性的Cas9。
示例性的催化失活的Cas9(dCas9):
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性的催化的Cas9切口酶(nCas9):
DKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性的催化有活性的Cas9:
DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.
在一些实施方式中,Cas9是指来自古菌(archaea)(例如,纳古菌门(nanoarchaea))的Cas9,而古菌构成了单细胞原核微生物的一个域和界。在一些实施方式中,Cas是指CasX或CasY,其已被描述过,例如,在Burstein等,“New CRISPR-Cas systemsfrom uncultivated microbes.”Cell Res.2017Feb 21.doi:10.1038/cr.2017.21中,其全部内容在此通过引用并入本文。使用基因组-分辨的宏基因组学,识别出了一些CRISPR-Cas系统,包含在生命的古菌域中首次被报道的Cas9。这种相异的Cas9蛋白是在很少被研究的纳古菌属中作为有活性的CRISPR-Cas的一部分而被发现的。在细菌中,发现了两个之前未知的系统,CRISPR-CasX和CRISPR-CasY,其为迄今为止所发现的最致密紧凑的系统之一。在一些实施方式中,Cas9是指CasX或CasX的变体。在一些实施方式中,Cas9是指CasY或CasY的变体。应该理解,其他RNA-导向DNA结合蛋白可能被用作核酸可编程的DNA结合蛋白(napDNAbp),并且是在本公开披露的范围内。
在特定的实施方式中,可用于本发明的方法中的napDNAbps包含环状变换排列体,其是本领域已知的并被例如Oakes等,Cell 176,254–267,2019所描述。示例性的环状变换排列体如下,其中粗体序列表示衍生自Cas9的序列,斜体序列表示链接子序列,而下划线序列表示双分型核定位序列。
CP5(具有MSP“NGC=带有突变的Pam变体,正常Cas9喜欢NGG”PID=蛋白相互作用结构域和“D10A”切口酶):
Figure BDA0003286956470000641
Figure BDA0003286956470000651
可以并入碱基编辑器内的多核苷酸可编程的核苷酸结合结构域的非限制性实例包含CRISPR蛋白-衍生的结构域,限制性核酸酶,巨核酸酶(meganuclease),TAL核酸酶(TALEN),和锌指核酸酶(ZFN)。
在一些实施方式中,本文所提供的任何融合蛋白的核酸可编程的DNA结合蛋白(napDNAbp)可以是CasX或CasY蛋白。在一些实施方式中,该napDNAbp是CasX蛋白。在一些实施方式中,该napDNAbp是CasY蛋白。在一些实施方式中,该napDNAbp所包括的氨基酸序列与天然存在的CasX或CasY蛋白是至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。在一些实施方式中,该napDNAbp是天然存在的CasX或CasY蛋白。在一些实施方式中,该napDNAbp所包括的氨基酸序列与本文所描述的任何CasX或CasY蛋白是至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。应该理解,Cas12b/C2c1、CasX和CasY,其来自其他细菌种类,也可以根据本公开披露而被使用。
Cas12b/C2c1(uniprot.org/uniprot/T0D7A2#2)
sp|T0D7A2|C2C1_ALIAG CRISPR-关联内(切)-核酸酶C2c1OS=酸土脂环酸芽孢杆菌(Alicyclobacillus acido-terrestris)(菌株ATCC 49025/DSM 3922/CIP 106132/NCIMB 13137/GD3B)GN=c2c1 PE=1 SV=1
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQKNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMV NQRIEGYLVKQIRSRVPLQDSACENTGDI
CasX
(uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)>tr|F0NN87|F0NN87_SULIH CRISPR-关联Casx蛋白OS=冰岛硫化叶菌(Sulfolobus islandicus)(菌株HVE10/4)GN=SiH_0402PE=4 SV=1
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG
>tr|F0NH53|F0NH53_SULIR CRISPR关联蛋白,Casx OS=冰岛硫化叶菌(菌株REY15A)GN=SiRe_0771 PE=4 SV=1
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG
δ-变形菌纲(Deltaproteobacteria)CasX
MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEK
RNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
CasY(ncbi.nlm.nih.gov/protein/APG80656.1)>APG80656.1CRISPR-关联蛋白CasY[未培养的俭菌(Parcubacteria)菌群 细菌]
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI
术语“保守性氨基酸替换”或“保守性突变”是指一个氨基酸被另一个具有共同特性的氨基酸取代。定义单个氨基酸之间共同特性的一种功能性方式是分析同源生物体的相应蛋白质之间氨基酸变化的归一化频率(Schulz,G.E.和Schirmer,R.H.,Principles ofProtein Structure,Springer-Verlag,New York(1979))。根据此种分析,可以定义氨基酸的群组,其中群组内的氨基酸优先互换,而因此它们对整体蛋白质结构的影响彼此也最相似(Schulz,G.E.和Schirmer,R.H.,同上)。保守性突变的非限制性实例包含氨基酸的氨基酸替换,例如精氨酸换赖氨酸而反之亦然,而使正电荷得以保留;谷氨酸换天冬氨酸而反之亦然,而使负电荷得以保留;苏氨酸换丝氨酸,而使游离–OH得以保留;以及谷氨酰胺换天冬酰胺,而使游离的–NH2得以保留。
术语“编码序列”或“蛋白(质)编码序列”,如本文中可互换使用的,是指用于编码蛋白质的多核苷酸的节段。该区域或序列在靠近5’端以起始密码子为界,而在靠近3’端则以终止密码子为界。编码序列也可称为开放阅读框。
“胞苷脱氨酶”意为能够催化将氨基基团转换为羰基基团的脱氨反应的多肽或其片段。在一个实施方式中,该胞苷脱氨酶将胞嘧啶转换为尿嘧啶,或将5-甲基胞嘧啶转换为胸腺嘧啶。本文所提供的胞苷脱氨酶(例如,工程化的胞苷脱氨酶,进化版的胞苷脱氨酶)可以来自任何生物体,诸如细菌。
在一些实施方式中,碱基编辑器的胞苷脱氨酶可以包括载脂蛋白BmRNA编辑复合体(APOBEC)家族脱氨酶的全部或部分。APOBEC是进化上保守的胞苷脱氨酶的家族。这个家族的成员是C-变-U编辑酶。在一些实施方式中,该胞苷脱氨酶包含但不限于:APOBEC家族成员,包含但不限于:APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D("APOBEC3E"现在是指这个)、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4、活化-诱导的(胞苷)脱氨酶(AID)、hAPOBEC1、其衍生自智人、rAPOBEC1、其衍生自褐大鼠/挪威鼠(Rattusnorvegicus)、ppAPOBEC1、其衍生自婆罗洲猩猩(Pongo pygmaeus)、AmAPOBEC1(BEM3.31)、衍生自美国短吻鳄(Alligator mississippiensis)、ocAPOBEC1、其衍生自穴兔(Oryctolagus cuniculus)、SsAPOBEC2(BEM3.39)、其衍生自欧洲猪(Sus scrofa)、hAPOBEC3A、其衍生自智人(Homo sapiens)、maAPOBEC1、其衍生自黄金仓鼠(Mesocricetusauratus)、mdAPOBEC1、其衍生自灰短尾负鼠(Monodelphis domestica);胞苷脱氨酶1(CDA1)、hA3A、其为衍生自智人的APOBEC3A、RrA3F(BEM3.14)、其为衍生自川金丝猴(Rhinopithecus roxellana)的APOBEC3F;PmCDA1、其衍生自海七鳃鳗(Petromyzonmarinus)(海七鳃鳗胞嘧啶脱氨酶1、“PmCDA1”);AID(活化-诱导的胞苷脱氨酶;AICDA)、其衍生自哺乳动物(例如,人类,猪,牛,马,猴等);hAID、其衍生自智人;以及FENRY。
术语“脱氨酶”或“脱氨酶结构域”,如本文所用,是指催化脱氨反应的蛋白质或酶。在一些实施方式中,该脱氨酶或脱氨酶结构域是胞苷脱氨酶,其催化胞苷为尿苷或脱氧胞苷为脱氧尿苷的水解脱氨反应。在一些实施方式中,该脱氨酶或脱氨酶结构域是胞嘧啶脱氨酶,其催化胞嘧啶为尿嘧啶的水解脱氨反应。在一些实施方式中,该脱氨酶是腺苷脱氨酶,其催化腺嘌呤为次黄嘌呤的水解脱氨反应。在一些实施方式中,该脱氨酶是腺苷脱氨酶,其催化腺苷或腺嘌呤(A)为肌苷(I)的水解脱氨反应。在一些实施方式中,该脱氨酶或脱氨酶结构域是腺苷脱氨酶,其催化腺苷为肌苷或脱氧腺苷为脱氧肌苷的水解脱氨反应。在一些实施方式中,该腺苷脱氨酶催化脱氧核糖核酸(DNA)中腺苷的水解脱氨反应。本文所提供的脱氨酶(例如工程化的腺苷脱氨酶,进化版的腺苷脱氨酶)可以来自任何生物体,诸如细菌。在一些实施方式中,该脱氨酶是来自于细菌,诸如大肠杆菌,金黄色葡萄球菌,鼠伤寒沙门菌,腐败希瓦氏菌,流感嗜血杆菌,或新月柄杆菌。
“检测”是指鉴别待检测的分析物的存在、不存在或其数量。在一个实施方式中,多核苷酸或多肽中的序列改变被检测到。在另一个实施方式中,插入/缺失的存在被检测到。
“可检测标记”意为当与目标分子链接时,使得该目标分子可经由分光的、光化学的,生物化学的,免疫化学的,或化学的手段而被检测到的组合物。例如,有用的标记包含放射性同位素、磁珠、金属珠、胶体颗粒、荧光染料、电子致密试剂、酶(例如,像酶联免疫吸附测定(ELISA)中常用的)、生物素、地高辛、或半抗原。
“疾病”意为损害或干扰细胞、组织或器官的正常功能的任何病况或病症。
术语“有效量”,如本文所用,是指足以引起所期望的生物应答的生物活性剂的量。用于实施本发明以治疗疾病的一种(或几种)活性剂的有效量取决于给药方式、受试者的年龄、体重和总体健康状况而变化。最终,主治医师或兽医将决定适当的量和剂量方案。此量被称为“有效”量。在一个实施方式中,有效量是足以在细胞中(例如,体内或体外的细胞)的目标基因中引入改变的本发明的碱基编辑器(例如,一种融合蛋白,该融合蛋白包括可编程的DNA结合蛋白、核碱基编辑器和gRNA)的量。在一些实施方式中,本文所提供的融合蛋白(例如包括nCas9结构域和一个或多个脱氨酶结构域(例如,腺苷脱氨酶、胞苷脱氨酶)的多效应器核碱基编辑器)的有效量,可指足以诱导对标靶位点(其被该多效应器核碱基编辑器特异性结合并编辑)的编辑过程的该融合蛋白的量。在一个实施方式中,有效量是实现治疗效果(例如,减低或控制疾病或其症状或病况)所需的碱基编辑器的量。此种治疗效果不需要足以改变受试者、组织或器官的所有细胞中的目标基因,而仅需要改变受试者、组织或器官中现有细胞中的约1%、5%、10%、25%、50%、75%或更多的目标基因。
在一些实施方式中,本文所提供的融合蛋白(例如,包括nCas9结构域和一个或多个脱氨酶结构域(例如,腺苷脱氨酶、胞苷脱氨酶)的核碱基编辑器)的有效量,是指足以诱导对标靶位点(其被本文所述的多效应器核碱基编辑器特异性结合并编辑)的编辑过程的该融合蛋白的量。本领域技术人员将理解,剂(例如融合蛋白、核酸酶、杂合蛋白、蛋白二聚体、蛋白(或蛋白二聚体)和多核苷酸的复合体、或多核苷酸)的有效量可取决于各种因素而变化,如,举例来说,取决于所期望的生物学反应,例如,取决于特定等位基因、基因组或待编辑的靶位点,取决于被靶向的细胞或组织,和/或取决于所使用的剂。
“片段”意为多肽或核酸分子的一部分。这部分含有,该参考核酸分子或多肽的全长的至少约10%、20%、30%、40%、50%、60%、70%、80%、或90%。片段可能含有10、20、30、40、50、60、70、80、90、或100、200、300、400、500、600、700、800、900、或1000个核苷酸或氨基酸。
“向导RNA”或“gRNA”意为一种多核苷酸,该多核苷酸可以对靶序列有特异性,并且可以与多核苷酸可编程的核苷酸结合结构域蛋白(例如Cas9或Cpf1)形成复合体。在一个实施方式中,该向导多核苷酸是向导RNA(gRNA)。gRNA可以作为具有两个或多个RNA的复合体存在,也可以作为单一RNA分子存在。以单一RNA分子存在的gRNA可被称为单-向导RNA(sgRNA),尽管“gRNA”可互换使用以指代以单个分子存在或以具有两个或多个分子的复合体存在的向导RNA。通常,以单一RNA种类存在的gRNA包括两个结构域:(1)与标靶核酸共享同源性的结构域(例如,并且导引Cas9复合体结合到标靶上);(2)结合Cas9蛋白的结构域。在一些实施方式中,结构域(2)对应于被称为tracrRNA的序列,并包含茎-环结构。例如,在一些实施方式中,结构域(2)与Jinek等、Science 337:816-821(2012)(其全部内容通过引用并入本文)中所提供的tracrRNA是相同的或同源的。gRNA的其他实例(例如,包括结构域2的那些)可以在2013年9月6日提交的题为“Switchable Cas9 Nucleases and UsesThereof,”的美国临时专利申请U.S.S.N.61/874,682中,以及在2013年9月6日提交的题为“Delivery System For Functional Nucleases,”的美国临时专利申请U.S.S.N.61/874,746中找到,其每个的全部内容在此通过引用并入本文。在一些实施方式中,gRNA包括两个或更多个的结构域(1)和(2),并可以被称为“延伸的gRNA”。如本文所述,延伸的gRNA将结合两个或更多个Cas9蛋白并在两个或更多个独特的区域处结合标靶核酸。该gRNA包括与标靶位点互补的核苷酸序列,其介导该核酸酶/RNA复合体结合到所述标靶位点,并提供了该核酸酶:RNA复合体的序列特异性。
“杂交”意为互补核碱基之间的氢键键结,其可以是沃森-克里克,Hoogsteen或反向Hoogsteen氢键键结。例如,腺嘌呤和胸腺嘧啶是通过氢键的形成而配对的互补核碱基。
术语“碱基修复的抑制剂”或“IBR”是指能够抑制核酸修复酶(例如碱基切除修复(BER)酶)的活性的蛋白。在一些实施方式中,该IBR是肌苷碱基切除修复的抑制剂。示例性的碱基修复的抑制剂包含APE1、Endo III、Endo IV、Endo V、Endo VIII、Fpg、hOGGl、hNEILl、T7 Endol、T4PDG、UDG、hSMUGl、和hAAG的抑制剂。在一些实施方式中,该IBR是EndoV或hAAG的抑制剂。在一些实施方式中,该IBR是催化失活的EndoV或催化失活的hAAG。在一些实施方式中,该碱基修复抑制剂是Endo V或hAAG的抑制剂。在一些实施方式中,该碱基修复抑制剂是催化失活的EndoV或催化失活的hAAG。
在一些实施方式中,该碱基修复抑制剂是尿嘧啶糖基化酶抑制剂(UGI)。UGI是指能够抑制尿嘧啶-DNA糖基化酶碱基-切除修复酶的蛋白。在一些实施方式中,UGI结构域包括野生型UGI或野生型UGI的片段。在一些实施方式中,本文所提供的UGI蛋白包含UGI的片段和与UGI或UGI片段同源的蛋白。在一些实施方式中,该碱基修复抑制剂是肌苷碱基切除修复的抑制剂。在一些实施方式中,该碱基修复抑制剂是“催化失活的肌苷特异性核酸酶”或“失活的肌苷特异性核酸酶”。不希望被任何特定理论束缚,催化失活的肌苷糖基化酶(例如烷基腺嘌呤糖基化酶(AAG))可以结合肌苷,但不能产生创造无碱基位点或去除所述肌苷,从而在空间上阻断了新形成的肌苷部分体使其免除了DNA损伤/修复机制。在一些实施方式中,该催化失活的肌苷特异性核酸酶可以有能力结合核酸中的肌苷但不切开该核酸。非限制性的示例性的催化失活的肌苷特异性核酸酶包含催化失活的烷基腺苷糖基化酶(AAG核酸酶),例如,其来自人类,和催化失活的核酸内切酶V(EndoV核酸酶),例如,其来自大肠杆菌。在一些实施方式中,该催化失活的AAG核酸酶包括E125Q突变或另一种AAG核酸酶中的相应突变。
“增加”意为至少10%、25%、50%、75%、或100%的正向改变。
“内含肽”是蛋白质的片段,其能够切除自身并在名为蛋白质剪接的过程中将剩余的片段(外显肽)用肽键连接在一起。内含肽也被称为“蛋白质内含子”。内含肽切除自身并连接蛋白质剩余的部分的过程在本文中称为“蛋白质剪接”或“内含肽-介导的蛋白质剪接”。在一些实施方式中,前体蛋白(先前于内含肽-介导的蛋白剪接的含有内含肽的蛋白)的内含肽来自两个基因。此种内含肽在本文中被称为断裂内含肽(例如,断裂内含肽-N和断裂内含肽-C)。例如,在蓝细菌中,DnaE,即DNA聚合酶III的催化亚基,是由两个分开的基因,dnaE-n和dnaE-c所编码。由dnaE-n基因所编码的内含肽在本文中可称为“内含肽-N”。由dnaE-c基因所编码的内含肽在本文中可称为“内含肽-C”。
亦可使用其他内含肽系统。例如,基于dnaE内含肽的合成内含肽,即Cfa-N(例如,断裂内含肽-N)和Cfa-C(例如,断裂内含肽-C)内含肽对,已被描述(例如,在Stevens等,JAm Chem Soc.2016Feb.24;138(7):2162-5中,通过引用并入本文)。可以根据本公开披露使用的内含肽对的非限制性实例包含:Cfa DnaE内含肽、Ssp GyrB内含肽、Ssp DnaX内含肽、Ter DnaE3内含肽、Ter ThyX内含肽、Rma DnaB内含肽和Cne Prp8内含肽(例如,如美国专利号8,394,604中所述,通过引用并入本文)。
提供了内含肽的示例性的核苷酸和氨基酸序列。
DnaE内含肽-N DNA:
TGCCTGTCATACGAAACCGAGATACTGACAGTAGAATATGGCCTTCTGCCAATCGGGAAGATTGTGGAGAAACGGATAGAATGCACAGTTTACTCTGTCGATAACAATGGTAACATTTATACTCAGCCAGTTGCCCAGTGGCACGACCGGGGAGAGCAGGAAGTATTCGAATACTGTCTGGAGGATGGAAGTCTCATTAGGGCCACTAAGGACCACAAATTTATGACAGTCGATGGCCAGATGCTGCCTATAGACGAAATCTTTGAGCGAGAGTTGGACCTCATGCGAGTTGACAACCTTCCTAAT
DnaE内含肽-N蛋白:
CLSYETEILTVEYGLLPIGKIVEKRIECTVYSVDNNGNIYTQPVAQWHDRGEQEVFEYCLEDGSLIRATKDHKFMTVDGQMLPIDEIFERELDLMRVDNLPN
DnaE内含肽-C DNA:
ATGATCAAGATAGCTACAAGGAAGTATCTTGGCAAACAAAACGTTTATGATATTGGAGTCGAAAGAGATCACAACTTTGCTCTGAAGAACGGATTCATAGCTTCTAAT
内含肽-C:MIKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN
Cfa-N DNA:
TGCCTGTCTTATGATACCGAGATACTTACCGTTGAATATGGCTTCTTGCCTATTGGAAAGATTGTCGAAGAGAGAATTGAATGCACAGTATATACTGTAGACAAGAATGGTTTCGTTTACACACAGCCCATTGCTCAATGGCACAATCGCGGCGAACAAGAAGTATTTGAGTACTGTCTCGAGGATGGAAGCATCATACGAGCAACTAAAGATCATAAATTCATGACCACTGACGGGCAGATGTTGCCAATAGATGAGATATTCGAGCGGGGCTTGGATCTCAAACAAGTGGATGGATTGCCA
Cfa-N蛋白:
CLSYDTEILTVEYGFLPIGKIVEERIECTVYTVDKNGFVYTQPIAQWHNRGEQEVFEYCLEDGSIIRATKDHKFMTTDGQMLPIDEIFERGLDLKQVDGLP
Cfa-C DNA:
ATGAAGAGGACTGCCGATGGATCAGAGTTTGAATCTCCCAAGAAGAAGAGGAAAGTAAAGATAATATCTCGAAAAAGTCTTGGTACCCAAAATGTCTATGATATTGGAGTGGAGAAAGATCACAACTTCCTTCTCAAGAACGGTCTCGTAGCCAGCAAC
Cfa-C蛋白:
MKRTADGSEFESPKKKRKVKIISRKSLGTQNVYDIGVEKDHNFLLKNGLVASN
内含肽-N和内含肽-C可分别融合到断裂Cas9的N末端部分和断裂Cas9的C末端部分,以连接断裂Cas9的N末端部分和断裂Cas9的C末端部分。例如,在一些实施方式中,内含肽-N融合到断裂Cas9的N末端部分的C-端,即,形成N--[断裂Cas9的N末端部分]-[内含肽-N]--C的结构。在一些实施方式中,内含肽-C融合到断裂Cas9的C末端部分的N-端,即,形成N-[内含肽-C]--[断裂Cas9的C末端部分]-C的结构。用于将内含肽所融合到的蛋白(例如,断裂Cas9)连接起来的内含肽-介导的蛋白质剪接的机制是本领域已知的,例如,如在Shah等,Chem Sci.2014;5(1):446-461中所描述的,通过引用并入本文。用于设计和使用内含肽的方法在本领域中是已知的并且被描述,例如WO2014004336、WO2017132580、US20150344549、和US20180127780,其每个的全部内容通过引用并入本文。
术语“分离的”,“纯化的”,或“生物学纯的”是指材料和天然状态下通常与其相伴的组分的分离的不同程度。“分离”表示与原始来源或周围环境的一种分离程度。“纯化”表示高于分离的一种分离程度。“纯化的”或“生物学纯的”蛋白质充分地不含其他材料,使得任何杂质不会实质地影响蛋白质的生物学特性或造成其他不利后果。也就是说,本发明的核酸或肽,如果以重组DNA技法生产而基本地不含细胞材料、病毒材料或培养介质;或,如果以化学合成而基本地不含化学前体或其他化学品,则本发明的核酸或肽即视为纯化的。纯度和同质性通常用分析化学技法确定,例如,聚丙烯酰胺凝胶电泳或高效液相色谱。术语“纯化的”可表示核酸或蛋白质在电泳凝胶中基本上产生一条带。对于可以被修饰的蛋白质,例如磷酸化或糖基化,不同的修饰可能产生不同的分离的蛋白质,其可以被各自纯化。
“分离的核酸”意为核酸(例如DNA),其不含在本发明的核酸分子所来源生物体的天然存在的基因组中位于该核酸两侧翼的基因。该术语因此包含,例如,并入载体内的重组DNA;并入自主复制的质粒内或病毒内的重组DNA;或并入原核生物或真核生物的基因组DNA内的重组DNA;或作为独立于其他序列的单独的分子(例如,通过PCR或限制性核酸内切酶消化所产生的cDNA或基因组片段或cDNA片段)存在。另外,该术语包含从DNA分子转录而来的RNA分子,以及编码额外的多肽序列的作为杂合基因一部分的重组DNA。
“分离的多肽”意为已同与其天然相伴的组分分离的本发明的多肽。通常,以重量计,当多肽至少60%不含与其天然伴随的蛋白质和天然存在的有机分子时,该多肽即视为分离的。优选地,以重量计,制备为至少75%,更优选至少90%,最优选至少99%,本发明的多肽。可获得分离的本发明的多肽,例如,通过从天然来源提取,通过表达编码此多肽的重组核酸;或通过化学合成该蛋白质。纯度可以通过任何适当的方法测量,例如柱色谱,聚丙烯酰胺凝胶电泳,或通过HPLC(高效液相色谱)分析。
术语“链接子”,如本文所用,可以指共价链接子(例如共价键),非共价链接子,化学基团,或分子,其链接两个分子或部分体,例如,蛋白质复合体或核糖核复合体的两个组分,或融合蛋白的两个结构域,诸如,举例来说,多核苷酸可编程的DNA结合结构域(例如dCas9)和一个或多个脱氨酶结构域(例如腺苷脱氨酶和/或胞苷脱氨酶)。链接子可以连接碱基编辑器系统的不同组分或组分的不同部分。例如,在一些实施方式中,链接子可以连接多核苷酸可编程的核苷酸结合结构域的向导多核苷酸结合结构域和脱氨酶的催化结构域。在一些实施方式中,链接子可以连接CRISPR多肽和脱氨酶。在一些实施方式中,链接子可以连接Cas9和脱氨酶。在一些实施方式中,链接子可以连接dCas9和脱氨酶。在一些实施方式中,链接子可以连接nCas9和脱氨酶。在一些实施方式中,链接子可以连接向导多核苷酸和脱氨酶。在一些实施方式中,链接子可以连接碱基编辑器系统的脱氨基组分和多核苷酸可编程的核苷酸结合组分。在一些实施方式中,链接子可以连接碱基编辑器系统的脱氨基组分的RNA-结合部分和多核苷酸可编程的核苷酸结合组分。在一些实施方式中,链接子可以连接碱基编辑器系统的脱氨基组分的RNA-结合部分和多核苷酸可编程的核苷酸结合组分的RNA-结合部分。链接子可以位于两个基团、分子或其他部分体的之间或两侧,并经由共价键或非共价相互作用与两个中的每个都连结,从而将两个连结起来。在一些实施方式中,该链接子可以是有机分子、基团、聚合物或化学部分体。在一些实施方式中,该链接子可以是多核苷酸。在一些实施方式中,该链接子可以是DNA链接子。在一些实施方式中,该链接子可以是RNA链接子。在一些实施方式中,链接子可以包括能够结合到配体的适体(aptamer)。在一些实施方式中,该配体可能是碳水化合物、肽、蛋白或核酸。在一些实施方式中,该链接子可包括可衍生自核糖开关的适体。衍生出该适体的核糖开关可选自茶碱核糖开关,硫胺素焦磷酸(TPP)核糖开关,腺苷钴胺素核糖开关,S-腺苷基蛋氨酸(SAM)核糖开关,SAH核糖开关,黄素单核苷酸(FMN)核糖开关,四氢叶酸核糖开关,赖氨酸核糖开关,甘氨酸核糖开关,嘌呤核糖开关,GlmS核糖开关或前体-Q核苷(pre-queosine1)(PreQ1)核糖开关。在一些实施方式中,链接子可能包括结合到多肽或蛋白结构域(诸如多肽配体)上的适体。在一些实施方式中,该多肽配体可能是K同源(KH)结构域,MS2外壳蛋白结构域,PP7外壳蛋白结构域,SfMu Com外壳蛋白结构域,不育α基序,端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。在一些实施方式中,该多肽配体可能是碱基编辑器系统组分的一部分。例如,核碱基编辑组分可能包括一个或多个脱氨酶结构域和RNA识别基序。
在一些实施方式中,该链接子可以是一氨基酸或复数个氨基酸(例如,肽或蛋白质)。在一些实施方式中,该链接子可以是约5-100个氨基酸的长度,例如,约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、20-30、30-40、40-50、50-60、60-70、70-80、80-90、或90-100个氨基酸的长度。在一些实施方式中,该链接子可以是约100-150、150-200、200-250、250-300、300-350、350-400、400-450、或450-500个氨基酸的长度。也可以预期更长或更短的链接子。
在一些实施方式中,链接子连接RNA-可编程的核酸酶(其包含Cas9核酸酶结构域)的gRNA结合结构域和核酸编辑蛋白(例如胞苷和/或腺苷脱氨酶)的催化结构域。在一些实施方式中,链接子连接dCas9和核酸编辑蛋白。例如,该链接子是位于两个基团、分子或其他部分体的之间或两侧,并经由共价键与两个中的每个都连结,从而将两个连结起来。在一些实施方式中,该链接子是氨基酸或复数个氨基酸(例如肽或蛋白质)。在一些实施方式中,该链接子是有机分子、基团、聚合物或化学部分体。在一些实施方式中,该链接子是5至200个氨基酸的长度,例如,5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、35、45、50、55、60、60、65、70、70、75、80、85、90、90、95、100、101、102、103、104、105、110、120、130、140、150、160、175、180、190、或200个氨基酸的长度。也可以预期更长或更短的链接子。
在一些实施方式中,核碱基编辑器(例如,多效应器核碱基编辑器)的各结构域是经由包括以下氨基酸序列的链接子融合:SGGSSGSETPGTSESATPESSGGS、SGGSSGGSSGSETPGTSESATPESSGGSSGGS、或GGSGGSPGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATSGGSGGS。在一些实施方式中,核碱基编辑器(例如,多效应器核碱基编辑器)的各结构域是经由包括以下氨基酸序列的链接子融合:SGSETPGTSESATPES,其也可称为XTEN链接子。在一些实施方式中,链接子包括氨基酸序列SGGS。在一些实施方式中,链接子包括(SGGS)n、(GGGS)n、(GGGGS)n、(G)n、(EAAAK)n、(GGS)n、SGSETPGTSESATPES、或(XP)n基序,或以上这些的任何组合,其中n独立地是1和30之间的整数,并且其中X是任一氨基酸。在一些实施方式中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14、或15。
在一些实施方式中,该链接子是24个氨基酸的长度。在一些实施方式中,该链接子包括氨基酸序列SGGSSGGSSGSETPGTSESATPES。在一些实施方式中,该链接子是40个氨基酸的长度。在一些实施方式中,该链接包括氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGS。在一些实施方式中,该链接子是64个氨基酸的长度。在一些实施方式中,该链接子包括氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSSGGSSGGSSGSETPGTSESATPESSGGSSGGS。在一些实施方式中,该链接子是92个氨基酸的长度。在一些实施方式中,该链接子包括氨基酸序列PGSPAGSPTSTEEGTSESATPESGPGTSTEPSEGSAPGSPAGSPTSTEEGTSTEPSEGSAPGTSTEPSEGSAPGTSESATPESGPGSEPATS。
“标记物”意为具有与疾病或病症相关的表达水平或活性的改变的任何蛋白质或多核苷酸。
术语“突变”,如本文所用,是指序列(例如核酸或氨基酸序列)中的一残基被另一残基替换,或序列中一个或多个残基的缺失或插入。在本文中,突变的描述通常是通过首先指出原始的残基,随后指出该序列中该残基的位置,然后再指出新替换的残基的身份。制造出本文所提供的氨基酸替换(突变)的各种方法在本领域中是众所周知的,例如由Green和Sambrook,《分子克隆:实验室手册》(第4版,Cold Spring Harbor Laboratory Press,ColdSpring Harbor,N.Y.(2012))所提供。在一些实施方式中,本文所揭示的碱基编辑器能够在核酸(例如,受试者的基因组内的核酸)内有效地生成“预期突变”(诸如点突变),而不生成显著数目的非预期突变(诸如非预期的点突变)。在一些实施方式中,预期突变是由与向导多核苷酸(例如gRNA)结合的特定的碱基编辑器所生成的突变,而该向导多核苷酸经特别设计以产生该预期突变。
通常,在一序列(例如,如本文所述的氨基酸序列)中所制造出的或所鉴别出的突变是相对于参考(或野生型)序列(即不含有突变的序列)而被编号的。本领域技术人员将容易理解,相对于参考序列来说,如何确定氨基酸和核酸序列中的突变的位置。
术语“非保守性突变”涉及不同群组之间的氨基酸替换,例如,色氨酸换赖氨酸,丝氨酸换苯丙氨酸等。在这种情况下,该非保守性氨基酸替换最好不干扰或不抑制该功能性变体的生物学活性。该非保守性氨基酸替换可以增强该功能性变体的生物学活性,使得该功能性变体的生物学活性较野生型蛋白是增加的。
术语“核定位序列”,“核定位信号”或“NLS”是指促进蛋白质导入细胞核的氨基酸序列。核定位序列在本领域中是已知的,并且描述于例如Plank等,国际PCT申请,PCT/EP2000/011690,其提交于2000年11月23日,以WO/2001/038547公布于2001年5月31日,针对其示例性核定位序列的公开披露,其内容在此通过引用并入本文。在其他实施方式中,NLS是优化的NLS,其描述于例如Koblan等,Nature Biotech.2018doi:10.1038/nbt.4172。在一些实施方式中,NLS包括氨基酸序列KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRK、PKKKRKV、或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。
术语“核酸”和“核酸分子”,如本文所用,是指化合物,其包括核碱基和酸性部分体,例如核苷、核苷酸或核苷酸的聚合物。通常,聚合核酸,例如包括三个或更多个核苷酸的核酸分子,是线性分子,其中相邻的核苷酸经由磷酸二酯键合彼此链接。在一些实施方式中,“核酸”是指单个的核酸残基(例如,核苷酸和/或核苷)。在一些实施方式中,“核酸”是指包括三个或更多个单个核苷酸残基的寡核苷酸链。如本文所用,术语“寡核苷酸”和“多核苷酸”可以互换使用以指代核苷酸的聚合物(例如,至少三个核苷酸的一串)。在一些实施方式中,“核酸”涵盖了RNA以及单股和/或双股DNA。核酸可以是天然存在的,例如在如下情境中:基因组,转录本,mRNA,tRNA,rRNA,siRNA,snRNA,质粒,黏粒,染色体,染色单体,或其他天然存在的核酸分子。另一方面,核酸分子可以是非天然存在的分子,例如,重组DNA或RNA,人工染色体,工程化的基因组,或其片段,或合成的DNA,RNA,DNA/RNA杂合体,或包含非天然存在的核苷酸或核苷。此外,术语“核酸”、“DNA”,“RNA”和/或类似术语包含核酸类似物,例如,具有非磷酸二酯主干的类似物。核酸可以从天然来源中被纯化,使用重组表达系统加以生产,并可选地被纯化、被化学合成等。在适当的情况下,例如,在化学合成的分子的情况下,核酸可以包括核苷类似物,诸如具有化学修饰过的碱基或糖,以及主干修饰。除非另有说明,否则核酸序列是以5′至3′方向呈现。在一些实施方式中,核酸是或包括天然核苷(例如,腺苷、胸苷、鸟苷、胞苷、尿苷、脱氧腺苷、脱氧胸苷、脱氧鸟苷、和脱氧胞苷);核苷类似物(例如、2-氨基腺苷、2-硫胸苷、肌苷、吡咯-嘧啶、3-甲基腺苷、5-甲基胞苷、2-氨基腺苷、C5-溴尿苷、C5-氟尿苷、C5-碘尿苷、C5-丙炔基-尿苷、C5-丙炔基-胞苷、C5-甲基胞苷、2-氨基腺苷、7-脱氮腺苷、7-脱氮鸟苷、8-氧代腺苷、8-氧代鸟苷、O(6)-甲基鸟嘌呤、和2-硫胞苷);化学修饰过的碱基;生物修饰过的碱基(例如、甲基化的碱基);嵌和的碱基;修饰过的糖(例如、2′-氟核糖、核糖、2′-脱氧核糖、阿拉伯糖、和己糖);和/或修饰过的磷酸基团(例如,硫代磷酸和5′-N-亚磷酰胺键合)
术语“核酸可编程的DNA结合蛋白”或“napDNAbp”可与“多核苷酸可编程的核苷酸结合结构域”互换使用以指代与核酸(例如DNA或RNA),诸如将napDNAbp导向至特定核酸序列的向导核酸,相联的蛋白质。在一些实施方式中,该多核苷酸可编程的核苷酸结合结构域是多核苷酸可编程的DNA结合结构域。在一些实施方式中,该多核苷酸可编程的核苷酸结合结构域是多核苷酸可编程的RNA结合结构域。在一些实施方式中,该多核苷酸可编程的核苷酸结合结构域是Cas9蛋白。Cas9蛋白可以与向导RNA相联,该向导RNA将该Cas9蛋白导向至与该向导RNA互补的特定DNA序列。在一些实施方式中,该napDNAbp是Cas9结构域,例如核酸酶活性的Cas9,Cas9切口酶(nCas9),或核酸酶失活的Cas9(dCas9)。核酸可编程的DNA结合蛋白的非限制性实例包含,Cas9(例如dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、和Cas12i。Cas酶的非限制性实例包含Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5,II型Cas效应蛋白,V型Cas效应蛋白,VI型Cas效应蛋白,CARF,DinG,其同源物,或其修饰过的或工程化的版本。其他核酸可编程的DNA结合蛋白也在此公开披露的范围内,尽管它们在本公开披露中可能未被明确列出。参见例如Makarova等、“Classification and Nomenclature of CRISPR-Cas Systems:Where from Here?”CRISPR J.2018Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等、“Functionallydiverse type V CRISPR-Cas systems”Science.2019Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,其每个的全部内容在此通过引用并入。
术语“核碱基”、“含氮碱基”、或“碱基”,本文中可互换使用以指代形成核苷(其为核苷酸的组分)的含有氮的生物化合物。核碱基形成碱基对并相互堆叠的能力直接导致长链螺旋结构,诸如核糖核酸(RNA)和脱氧核糖核酸(DNA)。五种核碱基–腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)、和尿嘧啶(U)–被称为主要的或正准的。腺嘌呤和鸟嘌呤是衍生自嘌呤,而胞嘧啶、尿嘧啶、和胸腺嘧啶是衍生自嘧啶。DNA和RNA也可以含有其他(非主要的)修饰过的碱基。非限制性示例性的修饰过的碱基可以包含次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、5、6-二氢尿嘧啶、5-甲基胞嘧啶(m5C)、和5-氢甲基胞嘧啶。次黄嘌呤和黄嘌呤可以通过诱变剂的存在而制造出来,两者都是通过脱氨反应(以羰基基团取代胺基基团)。次黄嘌呤可以从腺嘌呤修饰而来。黄嘌呤可以从鸟嘌呤修饰而来。尿嘧啶可以由胞嘧啶的脱氨反应产生。“核苷”由核碱基和五碳糖(要么是核糖要么是脱氧核糖)组成。核苷的实例包含腺苷、鸟苷、尿苷、胞苷、5-甲基尿苷(m5U)、脱氧腺苷、脱氧鸟苷、胸苷、脱氧尿苷、和脱氧胞苷。具有修饰过的核碱基的核苷的实例包含肌苷(I)、黄苷(X)、7-甲基鸟苷(m7G)、二氢尿苷(D)、5-甲基胞苷(m5C)、和假尿苷(Ψ)。“核苷酸”由核碱基,五碳糖(要么是核糖要么是脱氧核糖),和至少一个磷酸基团组成。
术语“核碱基编辑结构域”或“核碱基编辑蛋白”,如本文所用,是指可以催化RNA或DNA中核碱基修饰反应的蛋白或酶,诸如胞嘧啶(或胞苷)变尿嘧啶(或尿苷)或胸腺嘧啶(或胸苷),以及腺嘌呤(或腺苷)变次黄嘌呤(或肌苷)的脱氨反应,以及非模板化的核苷酸添加和插入。在一些实施方式中,该核碱基编辑结构域是脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶;或胞苷脱氨酶或胞嘧啶脱氨酶)。在一些实施方式中,该核碱基编辑结构域是多于一个的脱氨酶结构域(例如,腺嘌呤脱氨酶或腺苷脱氨酶和胞苷或胞嘧啶脱氨酶)。在一些实施方式中,该核碱基编辑结构域可以是天然存在的核碱基编辑结构域。在一些实施方式中,该核碱基编辑结构域可以是源自天然存在的核碱基编辑结构域的工程化的或进化版的核碱基编辑结构域。该核碱基编辑结构域可以来自任何生物体,诸如细菌、人类、黑猩猩、大猩猩、猴、母牛、狗、大鼠或小鼠。
如本文所用,“获得”,正如“获得(一)剂”中那样,包含合成、购买或以其他方式取得该剂。
“患者”或“受试者”,如本文所用,是指被诊断患有,有风险患有或正在发展,或被怀疑患有或正在发展某一疾病或病症的哺乳动物受试者或个体。在一些实施方式中,术语“患者”是指具有高于平均水平的发展出某一疾病或病症的可能性的哺乳动物受试者。示例性的患者可以是人类、非人类的灵长类动物、猫、狗、猪、牛、猫、马、骆驼、大羊驼、山羊、绵羊、啮齿类动物(例如小鼠,兔子,大鼠或豚鼠)和其他可以从本文所揭示的疗法中受益的哺乳动物。示例性的人类患者可以是男性和/或女性。
“有需要的患者”或“有需要的受试者”在本文中是指被诊断患有,有风险患有或已经患有,倾向于患有,或被怀疑患有某一疾病或病症的患者。
术语“致病性突变”、“致病性变体”、“致病突变”、“致病变体”、“有害突变”或“易患突变”是指增加个体对某种疾病或病症的易受性或易患性的遗传改变或突变。在一些实施方式中,该致病性突变包括在由基因所编码的蛋白中的至少一个野生型氨基酸被至少一个致病性氨基酸所替代。
术语“药学上可接受的载体”是指药学上可接受的材料、组合物或媒介物,诸如液体或固体填充剂,稀释剂,赋形剂,制造助剂(例如润滑剂,镁滑石,硬脂酸钙或硬脂酸锌,或硬脂酸),或涉及将该化合物从身体的一个位置(例如递送位置)携带或运输到另一位置(例如人体的器官、组织或身体部位)的溶剂封装材料。药学上可接受的载体,在与制剂的其他成分相容并且对受试者的组织无害(例如,生理相容性,无菌,生理性的pH等)的意义上,是“可接受的”。诸如“赋形剂”、“载体”、“药学上可接受的载体”、“媒介物”等术语在本文中是互换使用的。
术语“药物组合物”意为用于药物用途的配制好的组合物。
术语“蛋白质”、“肽”、“多肽”及其语法等价物在本文中可互换使用,并指代通过肽(酰胺)键链接在一起的氨基酸残基的聚合物。这些术语是指任何大小、结构或功能的蛋白质、肽或多肽。通常,蛋白质、肽或多肽的长度将至少为三个氨基酸。蛋白质、肽或多肽可以指单个蛋白质或蛋白质的集合。蛋白质、肽或多肽中的一个或多个氨基酸可以被修饰,例如,通过化学实体的添加,诸如碳水化合物基团、羟基基团、磷酸基团、法尼基基团、异法尼基基团、脂肪酸基团、用于偶联、功能化或其他修饰的链接子等。蛋白质、肽或多肽也可以是单一分子或可以是多分子复合体。蛋白质、肽或多肽可以只是天然存在的蛋白质或肽的片段。蛋白质、肽或多肽可以是天然存在的,重组的,或合成的,或其任何组合。如本文所用的术语“融合蛋白”是指包括来自至少两个不同蛋白质的蛋白结构域的杂合多肽。一个蛋白可以位于该融合蛋白的氨基-末端(N末端)部分或羧基-末端(C末端),因此分别形成氨基-末端融合蛋白或羧基-末端融合蛋白。蛋白质可以包括不同的结构域,例如,核酸结合结构域(例如,Cas9的gRNA结合结构域,其导引该蛋白质与标靶位点的结合)和核酸切开结构域,或核酸编辑蛋白的催化结构域。在一些实施方式中,蛋白质包括蛋白的部分,例如构成核酸结合结构域的氨基酸序列,以及有机化合物,例如可以充当核酸切开剂的化合物。在一些实施方式中,蛋白质与核酸(例如RNA或DNA)形成复合体或相联。本文所提供的任何蛋白质可以通过本领域已知的方法生产。例如,本文所提供的蛋白质可以经由重组蛋白表达和纯化生产,这特别适合于包括肽链接子的融合蛋白。重组蛋白表达和纯化的方法是众所周知的,且包含如下所描述的:Green和Sambrook,《分子克隆:实验室手册》(第4版,Cold SpringHarbor Laboratory Press,Cold Spring Harbor,N.Y.(2012)),其全部内容通过引用并入本文。
本文所揭示的多肽和蛋白(包含其功能性部分和功能性变体)可以包括合成的氨基酸,以代替一个或多个天然存在的氨基酸。此种合成的氨基酸是本领域已知的,并且包含,例如,氨基环己烷羧酸、正亮氨酸、α-氨基n-癸酸、高丝氨酸、S-乙酰氨基甲基-半胱氨酸、反式-3-和反式-4-羟脯氨酸、4-氨基苯丙氨酸、4-硝基苯丙氨酸、4-氯苯丙氨酸、4-羧基苯丙氨酸、β-苯基丝氨酸、β-羟基苯丙氨酸、苯基甘氨酸、α-萘基丙氨酸、环己基丙氨酸、环己基甘氨酸、吲哚啉-2-羧酸、1、2、3、4-四氢异喹啉-3-羧酸、氨基丙二酸、氨基丙二酸单酰胺、N’-苄基-N’-甲基-赖氨酸、N’、N’-二苄基-赖氨酸、6-羟基赖氨酸、鸟氨酸、α-氨基环戊烷羧酸、α-氨基环己烷羧酸、α-氨基环庚烷羧酸、α-(2-氨基-2-降冰片烷)-羧酸、α、γ-二氨基丁酸、α、β-二氨基丙酸,高苯丙氨酸、和α-叔丁基甘氨酸。该多肽和蛋白质可以与该多肽构建体的一个或多个氨基酸的翻译后修饰相联。翻译后修饰的非限制性实例包含:磷酸化、酰化(包含乙酰化和甲酰化)、糖基化(包含N-链接的和O-链接的)、酰胺化、羟基化、烷基化(包含甲基化和乙基化)、泛素化、吡咯烷酮羧酸的添加、二硫键的形成、硫酸化(sulfation)、肉豆蔻酰化、棕榈酰化、异戊二烯化、法尼基化、香叶基化、糖基磷脂酰肌醇化(glypiation)、硫辛酰化(lipoylation)和碘化。
术语“重组”,如本文在蛋白质或核酸的上下文中使用的,是指自然界中并不存在,而是人类工程学的产物的蛋白质或核酸。例如,在一些实施方式中,重组蛋白或重组核酸分子包括氨基酸或核苷酸序列,该氨基酸或核苷酸序列与任何天然存在的序列相比包括至少一个,至少两个,至少三个,至少四个,至少五个,至少六个,或至少七个突变。
“减少”意为至少10%、25%、50%、75%、或100%的负向改变。
“参考”意为一标准或对照条件。在一个实施方式中,该参考是野生型或健康的细胞。在其他实施方式中且不受限,参考是未经处理的细胞,其未经受过测试条件,或是经受了安慰剂或常规的生理盐水、培养基、缓冲液和/或并不具有目标多核苷酸的对照载体。
“参考序列”是用作序列比对的基准的界定的序列。参考序列可以是指定序列的子集或全部;例如,全长cDNA或基因序列的一节段,或完整的cDNA或基因序列。对多肽来说,参考多肽序列的长度将一般为至少约16个氨基酸,至少约20个氨基酸,至少约25个氨基酸,约35个氨基酸、约50个氨基酸、或约100个氨基酸。对核酸来说,参考核酸序列的长度一般为至少约50个核苷酸,至少约60个核苷酸,至少约75个核苷酸,约100个核苷酸或约300个核苷酸或任何约等于它们或在它们之间的整数。在一些实施方式中,参考序列是目标蛋白的野生型序列。在其他实施方式中,参考序列是编码野生型蛋白的多核苷酸序列。
术语“RNA-可编程的核酸酶”和“RNA-导向的核酸酶”与不是切开标靶的一种或多种RNA一起使用(例如结合或相联)。在一些实施方式中,当RNA-可编程的核酸酶与RNA形成复合体时,可以称其为核酸酶:RNA复合体。通常,结合的RNA被称为向导RNA(gRNA)。
在一些实施方式中,该RNA-可编程的核酸酶是(CRISPR-关联系统)Cas9核酸内切酶,例如,来自化脓链球菌的Cas9(Csnl)(参见例如“Complete genome sequence of an Mlstrain of Streptococcus pyogenes.”Ferretti J.J.等,Proc.Natl.Acad.Sci.美国98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and hostfactor RNase III.”Deltcheva E.等,Nature471:602-607(2011))。
因为RNA-可编程的核酸酶(例如Cas9)使用RNA:DNA杂交来靶向DNA切开位点,所以这些蛋白质原则上有能力被靶向到向导RNA所指定的任何序列上。使用RNA-可编程的核酸酶(诸如Cas9)用于位点特异性切开(例如,以修饰基因组)的方法是本领域已知的(参见例如,Cong,L.等,Multiplex genome engineering using CRISPR/Cas systems.Science339,819-823(2013);Mali,P.等,RNA-guided human genome engineering viaCas9.Science 339,823-826(2013);Hwang,W.Y.等,Efficient genome editing inzebrafish using aCRISPR-Cas system.Nature biotechnology 31,227-229(2013);Jinek,M.等,RNA-programmed genome editing in human cells.eLife2,e00471(2013);Dicarlo,J.E.等,Genome engineering in Saccharomyces cerevisiae using CRISPR-Cas systems.Nucleic acids research(2013);Jiang,W.等,RNA-guided editing ofbacterial genomes using CRISPR-Cas systems.Nature biotechnology 31,233-239(2013);其每个的全部内容通过引用并入本文)。
术语“单核苷酸多态性(SNP)”是在基因组中特定位置发生的单一核苷酸中的变异,其中每个变异在群体中以某种可观的程度存在(例如,>1%)。例如,在人类基因组的特定碱基位置,C核苷酸可出现在大多数个体中,但在少数个体中,该位置被A占据。这意味着在这个特定位置存在一个SNP,并且这两个可能的核苷酸变异,C或A,被认为是此位置的等位基因。SNPs构成疾病易受性差异的基础。疾病的严重程度以及人体对治疗的反应方式也是遗传变异的临床表征。SNPs可以落入基因的编码区域、基因的非编码区域或位于基因间区域(基因之间的区域)。在一些实施方式中,由于遗传密码的简并性,编码序列内的SNPs不一定改变所生产蛋白质的氨基酸序列。编码区内的SNPs有两种类型:同义和非同义SNPs。同义SNPs不会影响该蛋白序列,而非同义SNPs改变蛋白的氨基酸序列。非同义SNPs有两种类型:错义和无义。不在蛋白质-编码区内的SNPs仍可能影响基因剪接、转录因子结合、信使RNA降解或非编码RNA的序列。受这种类型SNP影响的基因表达称为eSNP(表达SNP),并可以在基因的上游或下游。单核苷酸变体(SNV)是单一核苷酸中的变异,其不受频率的限制并且可以在体细胞中发生。体细胞单核苷酸变异亦可称为单-核苷酸改变。
“特异性结合”意为识别并结合本发明的多肽和/或核酸分子,但基本上不识别和结合样品(例如生物学样品)中其他分子的核酸分子、多肽或其复合体(例如,核酸可编程的DNA结合结构域和向导核酸)、化合物或分子。
可用于本发明的方法的核酸分子包含任何编码本发明的多肽或该多肽片段的核酸分子。此种核酸分子不需要与内源性核酸序列100%相同,但通常将展现出实质的同一性。与内源性序列具有“实质的同一性”的多核苷酸通常能够与双股核酸分子的至少一股杂交。可用于本发明的方法的核酸分子包含任何编码本发明的多肽或该多肽片段的核酸分子。此种核酸分子不需要与内源性核酸序列100%相同,但通常将展现出实质的同一性。与内源性序列具有“实质的同一性”的多核苷酸通常能够与双股核酸分子的至少一股杂交。“杂交”意为在各种严格条件下,互补的多核苷酸序列(例如本文所述的基因)或其部分之间配对并且形成双股分子(参见例如,Wahl,G.M.和S.L.Berger(1987)Methods Enzymol.152:399;Kimmel,A.R.(1987)Methods Enzymol.152:507)。
例如,严格的盐浓度将一般小于约750mM氯化钠和75mM柠檬酸钠,优选小于约500mM氯化钠和50mM柠檬酸钠,更优选小于约250mM氯化钠和25mM柠檬酸钠。低严格度杂交可在无有机溶剂(例如甲酰胺)的情况下获得,而高严格度杂交可在至少约35%甲酰胺,和更优选至少约50%甲酰胺的存在下获得。严格的温度条件将一般包含至少约30℃,更优选至少约37℃,最优选至少约42℃的温度。变化其他参数,诸如杂交时间、洗涤剂(例如十二烷基硫酸钠(SDS))的浓度、以及载具DNA的包含或排除,是本领域技术人员熟知的。根据需要,通过合并这些不同的条件来实现各种严格程度。在一个实施方式中,杂交将发生在30℃下、750mM氯化钠、75mM柠檬酸钠和1%SDS中。在另一个实施方式中,杂交将发生在37℃下、500mM氯化钠、50mM柠檬酸钠、1%SDS、35%甲酰胺和100μg/ml变性的鲑鱼精子DNA(ssDNA)中。在另一个实施方式中,杂交将发生在42℃下、250mM氯化钠、25mM柠檬酸钠、1%SDS、50%甲酰胺和200μg/ml ssDNA中。对于本领域技术人员来说,在这些条件上的有用的变化是显而易见的。
对于大多数应用,杂交后的清洗步骤在严格度方面也将变化。清洗的严格条件可以通过盐浓度和通过温度来定义。如上,可以通过降低盐浓度或通过升高温度而提高清洗的严格度。例如,用于清洗步骤的严格盐浓度将优选是小于约30mM氯化钠和3mM柠檬酸钠,最优选是小于约15mM氯化钠和1.5mM柠檬酸钠。用于清洗步骤的严格温度条件将一般包含至少约25℃的温度,更优选至少约42℃,甚至更优选至少约68℃。在一实施方式中,清洗步骤将发生在25℃下,30mM氯化钠,3mM柠檬酸钠和0.1%SDS中。在一更优选的实施方式中,清洗步骤将发生在42℃下,15mM氯化钠,1.5mM柠檬酸钠和0.1%SDS中。在一更优选的实施方式中,清洗步骤将发生在68℃下,15mM氯化钠,1.5mM柠檬酸钠和0.1%SDS中。对于本领域技术人员来说,在这些条件上的额外的变化是显而易见的。杂交技法是本领域技术人员熟知的,并且在如下文献中描述,例如:Benton和Davis(Science196:180,1977);Grunstein和Hogness(Proc.Natl.Acad.Sci.,美国72:3961,1975);Ausubel等(Current Protocols inMolecular Biology,Wiley Interscience,New York,2001);Berger和Kimmel(Guide toMolecular Cloning Techniques,1987,Academic Press,New York);以及Sambrook等,Molecular Cloning:A Laboratory Manual,Cold Spring Harbor Laboratory Press,NewYork。
“断裂”意为分为两个或更多个片段。
“断裂Cas9蛋白”或“断裂Cas9”是指一种Cas9蛋白,其被提供为由两个分开的核苷酸序列编码的N末端片段和C末端片段。Cas9蛋白的N末端部分和C末端部分所对应的多肽可被剪接以形成“重构的”Cas9蛋白。在特定的实施方式中,该Cas9蛋白在该蛋白的无序区域内被分成两个片段,例如,如Nishimasu等,Cell,第156卷,第5期,pp.935-949,2014中所述,或如Jiang等.(2016)Science 351:867-871.PDB file:5F9R中所述,其每个的全部内容通过引用并入本文。在一些实施方式中,在大约氨基酸A292-G364、F445-K483、或E565-T637之间的SpCas9的一区域内,或在任何其他Cas9、Cas9变体(例如nCas9、dCas9)或其他napDNAbp的对应位置上,该蛋白质在任一C、T、A、或S处被分为两个片段。在一些实施方式中,蛋白质在SpCas9的T310、T313、A456、S469、或C574处被分为两个片段。在一些实施方式中,将蛋白质分为两个片段的过程称为蛋白质的“断裂过程”
在其他实施方式中,该Cas9蛋白的N末端部分包括化脓链球菌Cas9野生型(SpCas9)(NCBI参考序列:NC_002737.2,Uniprot参考序列:Q99ZW2)的氨基酸1-573或1-637并且该Cas9蛋白的C末端部分包括SpCas9野生型的氨基酸574-1368或638-1368的一部分。
断裂Cas9的C末端部分可以与该断裂Cas9的N末端部分连接以形成完整的Cas9蛋白。在一些实施方式中,该Cas9蛋白的C末端部分起始于该Cas9蛋白的N末端部分结束的地方。因此,在一些实施方式中,该断裂Cas9的C末端部分包括spCas9的氨基酸(551-651)-1368的一部分。“(551-651)-1368”意为起始于氨基酸551-651(含)之间的某一氨基酸并终止于氨基酸1368。例如,该断裂Cas9的C末端部分可能包括如下任一氨基酸的一部分:spCas9的氨基酸551-1368、552-1368、553-1368、554-1368、555-1368、556-1368、557-1368、558-1368、559-1368、560-1368、561-1368、562-1368、563-1368、564-1368、565-1368、566-1368、567-1368、568-1368、569-1368、570-1368、571-1368、572-1368、573-1368、574-1368、575-1368、576-1368、577-1368、578-1368、579-1368、580-1368、581-1368、582-1368、583-1368、584-1368、585-1368、586-1368、587-1368、588-1368、589-1368、590-1368、591-1368、592-1368、593-1368、594-1368、595-1368、596-1368、597-1368、598-1368、599-1368、600-1368、601-1368、602-1368、603-1368、604-1368、605-1368、606-1368、607-1368、608-1368、609-1368、610-1368、611-1368、612-1368、613-1368、614-1368、615-1368、616-1368、617-1368、618-1368、619-1368、620-1368、621-1368、622-1368、623-1368、624-1368、625-1368、626-1368、627-1368、628-1368、629-1368、630-1368、631-1368、632-1368、633-1368、634-1368、635-1368、636-1368、637-1368、638-1368、639-1368、640-1368、641-1368、642-1368、643-1368、644-1368、645-1368、646-1368、647-1368、648-1368、649-1368、650-1368、或651-1368。在一些实施方式中,该断裂Cas9蛋白的C末端部分包括SpCas9的氨基酸574-1368或638-1368的一部分。
“受试者”意为哺乳动物,包含但不限于人类或非人类哺乳动物,诸如牛、马、犬、绵羊或猫。受试者包含家畜,即饲养以产出劳动力和提供商品(诸如食物)的驯养动物,包含但不限于牛、山羊、鸡、马、猪、兔和绵羊。
“基本上相同”意为与参考氨基酸序列(例如本文所述的任何一段氨基酸序列)或核酸序列(例如本文所述的任何一段核酸序列)展现出至少50%同一性的多肽或核酸分子。在一个实施方式中,此一序列与用于比较的序列在氨基酸水平或核酸水平上是至少60%、80%或85%、90%、95%或甚至99%相同的。
序列同一性通常使用序列分析软件来测量(例如,遗传学计算机小组的序列分析软件包(Sequence Analysis Software Package of the Genetics Computer Group)、Wisconsin Biotechnology Center,17101710University Avenue,Madison,Wis.53705、BLAST、BESTFIT、GAP、或PILEUP/PRETTYBOX程序)。此种软件匹配相同或相似的序列,是通过为各种替换、缺失和/或其他修饰指定同源性程度。保守性替换通常包含以下群组的组内替换:甘氨酸,丙氨酸;缬氨酸,异亮氨酸,亮氨酸;天冬氨酸,谷氨酸,天冬酰胺,谷氨酰胺;丝氨酸,苏氨酸;赖氨酸,精氨酸;和苯丙氨酸,酪氨酸。在确定同一性程度的示例性方法中,可以使用BLAST程序,其中e-3和e-100之间的概率分数表示密切相关的序列。
例如,搭配以下参数使用了COBALT:
a)alignment parameters(比对参数):Gap penalties(空位罚分)-11、-1and(和)End(末端)-Gap penalties-5、-1、
b)CDD参数:Use(使用)RPS BLAST on(开);Blast E-value(E-数值)0.003;FindConserved columns和Recompute(查找保守栏位并重新计算)on、and
c)Query Clustering(查询聚类)参数:Use query clusters on;Word Size(文字大小)4;Max cluster distance(最大聚类距离)0.8;Alphabet Regular(字母正常).
例如,搭配以下参数使用了EMBOSS Needle:
a)Matrix(矩阵):BLOSUM62;
b)GAP OPEN(空位开放):10;
c)GAP EXTEND(空位扩展):0.5;
d)OUTPUT FORMAT(输出格式):pair(对);
e)END GAP PENALTY(末端空位罚分):false(伪);
f)END GAP OPEN(末端空位开放):10;and
g)END GAP EXTEND(末端空位扩展):0.5.
术语“(标)靶位点”是指核酸分子内被核碱基编辑器所修饰的序列。在一个实施方式中,该标靶位点被脱氨酶或包括脱氨酶(例如胞苷或腺嘌呤脱氨酶)的融合蛋白脱氨基。
如本文所用,术语“治疗(treat)”,“(进行)治疗(treating)”,“治疗(过程)(treatment)”等是指减低或改善一种病症和/或伴随其的症状或获得所期望的药理学和/或生理学效力。应知悉,尽管不排除,对病症或病况的治疗不需要该病症、病况或伴随其的症状被完全消除。在一些实施方式中,前述效力是治疗性的,即但不限于,该效力部分地或完全地减低、减少、压制、减轻、缓和、降低疾病的强度和/或可归因于该疾病的有害症状,或治愈疾病。在一些实施方式中,该效力是预防性的,即,该效力保护或预防疾病或病况的发生或复发。为此,本文所揭示的方法包括施用治疗有效量的如本文所述的组合物。
“尿嘧啶糖基化酶抑制剂”或“UGI”意为抑制尿嘧啶-切除修复系统的剂。在一个实施方式中,该剂是结合宿主尿嘧啶-DNA糖基化酶并防止尿嘧啶从DNA中被移除的蛋白质或其片段。在一个实施方式中,UGI是能够抑制尿嘧啶-DNA糖基化酶碱基-切除修复酶的蛋白质、其片段或结构域。在一些实施方式中,UGI结构域包括野生型UGI或其修饰过的版本。在一些实施方式中,UGI结构域包括下面列出的示例性氨基酸序列的片段。在一些实施方式中,UGI片段包括的氨基酸序列包括至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或100%的下文所提供的示例性UGI序列。在一些实施方式中,UGI包括与该示例性UGI氨基酸序列或其片段(如下面所列出的)同源的氨基酸序列。在一些实施方式中,该UGI或其一部分,与野生型UGI或如下面所列出的UGI序列或其一部分,是至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、至少99.5%、或至少99.9%或100%相同。示例性的UGI包括如下的氨基酸序列s:>splP14739IUNGI_BPPB2尿嘧啶-DNA糖基化酶抑制剂
MTNLSDIIEKETGKQLVIQESILMLPEEVEEVIGNKPESDILVHTAYDESTDENVM LLTSDAPEYKPWALVIQDSNGENKIKML.
术语“载体”是指将核酸序列导入细胞中从而得到转化细胞的工具。载体包含质粒、转座子、噬菌体、病毒、脂质体和附加体。“表达载体”是包括在受体细胞中待表达的核苷酸序列的核酸序列。表达载体可以包含额外的核酸序列以增进和/或促进被导入序列的表达,例如起始、终止、增强子、启动子和分泌序列。
本文所提供的任何组合物或方法可以与本文所提供的任何其他组合物和方法中的一个或多个加以组合。
藉由在基因水平上更正致病性突变,DNA编辑已成为调节疾病状态的可行手段。直到最近,所有DNA编辑平台的功用都是通过在特定基因组位点诱导DNA双股断裂(DSB)并依靠内源性DNA修复途径以半随机方式确定产物成果,导致复杂的基因产物群体。虽然可以通过同源定向修复(HDR)途径实现精确的、用户定义的修复成果,但一些挑战阻碍了在治疗相关细胞类型中使用HDR进行高效修复。在实践中,此途径相对于竞争对手(即容易出错的非同源末端连接途径)而言是低效的。此外,HDR被严格限制在细胞周期的G1和S期,阻碍了在有丝分裂后细胞中DSB的精确修复。因此,已经证明在这些群体中以用户定义的、可编程的方式高效地改变基因组序列是困难的或不可能的。
附图说明
图1A-1C描绘了游离脱氨酶的顺式-反式活性。图1A的示意图描述了以碱基编辑器复合体或以未被拴住形式存在的SpCas9和脱氨酶的顺式-反式测定的实验设计。图1B是描绘了rAPOBEC的顺式-反式活性。图1C描绘了TadA7.10和TadA-TadA7.10的顺式-反式活性。
图2A-2F描绘了碱基编辑器的顺式-反式测定、脱氨酶相似性网络的图示和153种脱氨酶的筛选。图2A的示意图描绘了顺式-反式测定的实验设计。使用编码SaCas9的分开的质粒、用于SaCas9的gRNA和标靶碱基编辑器来转染HEK293T细胞。图2B的示意图描绘了APOBEC样脱氨酶的相似性网络。各点代表被筛选为下一代CBE的胞苷脱氨酶,并指出核心的下一代CBE。点的阴影代表反式/顺式比率的平均值;点的大小代表顺式活性的平均值。创建图2B所示胞苷脱氨酶相似性网络的方法如下:为了将搜索空间集中在APOBEC1样蛋白质家族内,人类APOBEC1被用作针对NCBI非冗余蛋白质序列数据库(nr_v5)的蛋白质BLAST搜索的查询序列。前1000个序列用于生成序列相似性网络(SSN),其蛋白质BLAST-log(E值)边缘阈值为115。选择一个43种脱氨酶的集合对SSN内的序列空间进行采样。为了鉴别出可以充当碱基-编辑酶的来自其他家族的脱氨酶,从以所有脱氨酶构筑的SSN中取出80个序列进行采样,并使用以下InterPro注记:IPR002125(胞苷和脱氧胞苷酸脱氨酶结构域)、IPR016192(APOBEC/CMP脱氨酶,锌-结合)和IPR016193(胞苷脱氨酶样)。此集合的82、043个序列首先使用Cd-HIT3以55%的同一性聚类,然后通过蛋白质BLAST生成SSN网络,其-log(E值)边缘阈值为50。序列被选中是基于它们在聚类内的中心性。图2C是描绘ppBE4及其突变体的顺式-反式活性的S图表。图2D是描绘所选编辑器的顺式-反式活性的图表。单独地,基于在三个靶位点,即位点1、位点4和位点6上的顺式/反式测定而生成了顺式-反式-活性的数据,如图2E和图2F所示。图2E呈现了柱状图,其显示了所鉴别出的CBE的顺式和反式编辑活动。所显示的是用候选CBE处理过的哺乳动物细胞的顺式和反式编辑频率的比较。编号1-36的编辑器分别是碱基编辑器:pYY-BEM3.8、pYY-BEM3.9、pYY-BEM3.10、pYY-BEM3.11、pYY-BEM3.12、pYY-BEM3.13、pYY-BEM3.14、pYY-BEM3.15、pYY-BEM3.16、pYY-BEM3.17、pYY-BEM3.18、pYY-BEM3.19、pYY-BEM3.20、pYY-BEM3.21、pYY-BEM3.22、pYY-BEM3.23、pYY-BEM3.24、pYY-BEM3.25、pYY-BEM3.26、pYY-BEM3.27、pYY-BEM3.28、pYY-BEM3.29、pYY-BEM3.30、pYY-BEM3.31、pYY-BEM3.32、pYY-BEM3.33、pYY-BEM3.34、pYY-BEM3.35、pYY-BEM3.36、pYY-BEM3.37、pYY-BEM3.38、pYY-BEM3.39、pYY-BEM3.40、pYY-BEM3.41、pYY-BEM3.42、pYY-BEM3.43。所报告的碱基编辑效率是出于标靶位点中被编辑最多的碱基。图2F呈现了柱状图,其显示了所鉴别出的CBE的顺式和反式编辑活性。所显示的是用候选CBE处理过的哺乳动物细胞的顺式和反式编辑频率的比较。编号1-37的编辑器分别是:rBE4max、mAPOBEC-1、MaAPOBEC-1、hAPOBEC-1、ppAPOBEC-1、OcAPOBEC1、MdAPOBEC-1、mAPOBEC-2、hAPOBEC-2、ppAPOBEC-2、BtAPOBEC-2、mAPOBEC-3、hAPOBEC-3A、hAPOBEC-3B、hAPOBEC-3C、hAPOBEC-3D、hAPOBEC-3F、hAPOBEC-3G、hAPOBEC-4、mAPOBEC-4、rAPOBEC-4、MfAPOBEC-4、hAID、阴性对照、btAID、mAID、pmCDA-1、pmCDA-2、pmCDA-5、yCD、pYY-BEM3.1、pYY-BEM3.2、pYY-BEM3.3、pYY-BEM3.4、pYY-BEM3.5、pYY-BEM3.6、pYY-BEM3.7。所报告的碱基编辑效率是出于标靶位点中被编辑最多的碱基。
图3A和3B描绘了顺式-反式活性。图3A是描绘了ABE7.10的顺式-反式活性的图表。图3B是描绘了BE4max的顺式-反式活性的图表。
图4A和4B描绘了使用hAPOBEC3C结构(PDB ID 3VM8)藉由SWISSMODEL生成的rAPOBEC1同源模型。来自hAPOBEC3A结构(PDB ID5SWW)的ssDNA是手动对接的。图4A是描绘有潜力影响ssDNA结合的突变的示意图。图4B是描绘有潜力影响催化活性的突变的示意图。
图5A-5C描绘了rAPOBEC1突变体的顺式-反式活性。
图6A-6E描绘了rAPOBEC1双突变体的顺式-反式活性。图6A是描绘了rAPOBEC1双突变体的顺式和反式活性的图表。图6B是描绘了6个位点处的顺式活性的图表。图6C是描绘了顺式/反式活性的图表。图6D是描绘了5个位点处的顺式活性的图表。图6E是描绘了顺式/反式活性的图表。
图7A和7B描绘了第一轮筛选中的脱氨酶的顺式-反式活性。
图8A-8C是描绘了ppAPOBEC1相对于rAPOBEC1的在靶活性的图表。
图9是描绘了APOBEC样蛋白质的相似性网络的示意图。
图10A和10B是分别描绘了TadA-TadA7.10和rAPOBEC1中顺式活性和反式活性的剂量依赖性研究的图表。
图11是描绘了所选CBE的脱靶编辑的图表。通过外显子组测序来鉴别出SNV。
图12A和12B是分别描绘了来自用碱基编辑器质粒转染的HEK293T细胞的碱基编辑器mRNA和蛋白质的定量的图表。
图13是描绘了所选定编辑器的靶向RNA测序的图表。三个200-300bp的区域被测序。
图14是描绘了所选CBE的导向的脱靶编辑的图表。
图15A-15E描绘了所选定编辑器的编辑窗口。
图16是描绘了所选定CBE在10个标靶位点处的插入/缺失率的图表。
图17A-17D显示了与非导向ssDNA脱氨反应和顺式/反式测定相关的图示图解和图表。图17A说明了在转录或翻译期间的基因组中潜在的ssDNA的形成。图17B说明了顺式/反式测定的实验设计。使用了编码SaCas9、用于SaCas9的gRNA和碱基编辑器的分开的构建体转染HEK293T细胞。在不同转染中测量了在标靶位点(具有NGGRRT PAM序列)处的顺式和反式活性。图17C显示了具有rAPOBEC1的BE4的顺式/反式活性。图17D显示了在34个基因组位点处的ABE7.10变体。x-轴上每个基因组位点最左边的条形表示顺式在靶的编辑。x-轴上每个基因组位点最右边的条形表示反式编辑。所报告的碱基编辑效率是出于标靶位点中被编辑最多的碱基。数值和误差棒反映了独立的生物学重复的平均值和标准差(s.d.)。
图18所呈现的柱状图显示了鉴别出的与具有rAPOBEC1的BE4相比具有高顺式活性和减低的反式活性的下一代CBEs。所显示的是用所述下一代CBEs(具有PpAPOBEC1[wt,H122]、RrA3F[wt,F130L]、AmAPOBEC1、SsAPOBEC2[wt,R54Q的BE4)处理过的哺乳动物细胞在10个基因组位点处的顺式和反式编辑频率的比较。所报告的碱基编辑效率是出于标靶位点中被编辑最多的碱基。数值和误差棒反映了4个独立的生物学重复的平均值和标准差。
图19A-19E显示了与下一代CBEs(其相对于BE4,在哺乳动物细胞中具有减低的DNA和RNA脱靶编辑)相关的等位基因频率和图表。图19A显示了表达假性脱氨作用最小化的胞嘧啶碱基编辑器的Hek293T细胞的全转录组测序和靶RNA测序(图19B)。图19C显示了已知的导向脱靶位点处的C变T编辑的百分比。图19D显示了在单股DNA底物的体外酶促测定中C变T编辑的百分比。在ssDNA底物上对核心的下一代CBEs测定了C变U编辑。各点代表编辑的NC本地序列情境。黑线表示底物中标靶胞嘧啶的平均编辑效率。图19E呈现了以含有所选定CBEs的细胞裂解物所进行的体外酶促测定中的产物形成的时程变化。图19D和19E中所使用的寡核苷酸序列于下面实施例5中的表被列出。数值和误差棒反映了3个独立的生物学重复(图19A、B、C)和2个独立的生物学重复(图19D、E)的平均值和标准差。
图20图解地描绘了具有如图4A和4B所示rAPOBEC1突变体的BE4在标靶位点1处的的顺式/反式编辑活性。所报告的碱基编辑效率是出于标靶位点中被编辑最多的碱基。反式效率由x-轴上每个标靶位点的最左边的条形表示;顺式效率由x轴-上每个标靶位点的右侧条形表示。数值和误差棒反映了独立的生物学重复的平均值和标准差。
图21描绘了在10个标靶位点处的具有HiFi突变的BE4-rAPOBEC1的顺式/反式编辑活性。数值和误差棒反映了4个独立的生物学重复的平均值和标准差。
图22A和22B显示了与在前述第一轮筛选中所测试的CBEs的顺式/反式编辑活性和序列比对相关的图表和序列比对。所示为所选定CBEs在位点10处的顺式/反式编辑活性(图22A)和序列比对(图22B)。高亮显示了比对到rAPOBEC1中HiFi突变的氨基酸残基。数值和误差棒反映了独立的生物学重复的平均值和标准差。
图23展示了在10个标靶位点处的具有HiFi突变的BE4-PpAPOBEC1和BE4-PpAPOBEC的顺式/反式活性。报告的碱基编辑效率是出于标靶位点中被编辑最多的碱基。数值和误差棒反映了4个独立的生物学重复的平均值和标准差。
图24显示了热度图,其表明了图18中所示的CBEs的先前碱基偏好。用于生成该热度图的数值反映了4个独立的生物学重复的平均值。
图25呈现了在10个标靶位点处的图18中所示的CBEs的编辑窗口。数值反映了4个独立的生物学重复的平均值。顺式和反式编辑分别呈现在最左侧和最右侧的面板热图中。
图26呈现了表格,其显示了在10个标靶位点处的图18中所示的CBEs的插入/缺失率。用于生成该热度图的数值反映了4个独立的生物学重复的平均值。
图27A-27D描绘了基于现有晶体结构的所选定的四种胞苷脱氨酶的同源模型。图27A:PpAPOBEC1的同源模型基于推定的APOBEC3G结构(PDB ID 5K81)。图27B:RrA3F基于hAPOBEC3F的Vif-结合结构域(PDB ID 3WUS)。图27C:AmAPOBEC1基于hAPOBEC3B N末端结构域(PDB ID 5TKM)。图27D:SsAPOBEC2基于hAPOBEC3F的Vif-结合结构域(PDB ID 3WUS)。
图28A-28D呈现了图表,其说明了所选定下一代CBEs的导向脱靶编辑。图28A:在HEK2、HEK3、HEK4位点上的下一代CBEs的编辑效率,以及图28B和28C:所报告的HEK2 sgRNA、HEK3 sgRNA的导向脱靶位点以及图28D:HEK4 sgRNA。报告的碱基编辑效率是出于标靶位点中被编辑最多的碱基。数值和误差棒反映了3个独立的生物学重复的平均值和标准差。
图29呈现的图表显示了在体外酶促测定中的所选定CBEs在ssDNA底物上的C变T编辑效率。编辑效率是在2个DNA底物上的所有25个胞苷处测得的,并按NC序列情境分组。所用的两种底物的序列于本文表18中列出。数值和误差棒反映了来自独立的生物学重复的数据的平均值和标准差。
图30呈现的图表显示了在转染了碱基编辑器表达质粒的HEK293T细胞中的CBE蛋白浓度的定量分析。碱基编辑器蛋白浓度是通过测量细胞裂解液中总Cas9蛋白浓度和总蛋白量来定量的。BE蛋白浓度相对于BE4-rAPOBEC1被归一化。数值和误差棒反映了来自两个或多个独立的生物学重复的平均值和标准差。
图31呈现的图表显示了通过全基因组测序(WGS)检查的CBEs的假性脱氨反应活性。相对突变率以优势比显示。
具体实施方式
本发明提供了具有改良过的编辑设定(即脱氨反应脱靶为最小限度)的核碱基编辑器和多效应器核碱基编辑器,包括此类编辑器的组合物,以及使用它们在靶核碱基序列中生成修饰的方法。
核碱基编辑器
本文揭示了碱基编辑器或核碱基编辑器或多效应器核碱基编辑器,其用于编辑、修饰或改变多核苷酸的靶核苷酸序列。本文描述了核碱基编辑器或碱基编辑器或多效应器核碱基编辑器,其包括多核苷酸可编程的核苷酸结合结构域(例如Cas9)和至少一个核碱基编辑结构域(例如腺苷脱氨酶和/或胞苷脱氨酶)。多核苷酸可编程的核苷酸结合结构域(例如Cas9),当与所结合的向导多核苷酸(例如gRNA)相连时,可以特异性结合靶核苷酸序列(即,经由所述所结合的向导核酸和所述靶核苷酸序列碱基之间的互补碱基配对),从而将该碱基编辑器定位到待编辑的靶核酸序列。
多核苷酸可编程的核苷酸结合结构域
应当理解,多核苷酸可编程的核苷酸结合结构域也可以包含结合RNA的核酸可编程的蛋白质。例如,该多核苷酸可编程的核苷酸结合结构域可以与将该多核苷酸可编程的核苷酸结合结构域导向到RNA的核酸相联。其他核酸可编程的DNA结合蛋白也在本公开披露的范围内,尽管它们未在本公开披露中具体列出。
碱基编辑器的多核苷酸可编程的核苷酸结合结构域本身可以包括一个或多个结构域。例如,多核苷酸可编程的核苷酸结合结构域可以包括一个或多个核酸酶结构域。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域的核酸酶结构域可以包括核酸内切酶或核酸外切酶。术语“核酸外切酶”在本文中是指能够从末端消化核酸(例如RNA或DNA)的蛋白或多肽,而术语“核酸内切酶”是指能够催化(例如切开)核酸(例如DNA或RNA)中内部区域的蛋白或多肽。在一些实施方式中,核酸内切酶可以切开双股核酸的单股。在一些实施方式中,核酸内切酶可以切开双股核酸分子的两股。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域可以是脱氧核糖核酸酶。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域可以是核糖核酸酶。
在一些实施方式中,多核苷酸可编程的核苷酸结合结构域的核酸酶结构域可以切割靶多核苷酸的零、一股或两股。在一些实施方式中,该多核苷酸可编程的核苷酸结合结构域可以包括切口酶结构域。术语“切口酶”在本文中是指包括核酸酶结构域的多核苷酸可编程的核苷酸结合结构域,该核酸酶结构域,能够仅切开双股螺旋核酸分子(例如DNA)中两股中的一股。在一些实施方式中,切口酶可以衍生自完全催化活性的(例如天然的)形式的多核苷酸可编程的核苷酸结合结构域,其是藉由将一个或多个突变引入活性的多核苷酸可编程的核苷酸结合结构域。例如,当多核苷酸可编程的核苷酸结合结构域包括衍生自Cas9的切口酶结构域时,该Cas9-衍生的切口酶结构域可以包含D10A突变和在位置840处的组氨酸。在此实施方式中,该残基H840保留催化活性并因此可以切开该核酸双股螺旋的单股。在另一个实例中,Cas9-衍生的切口酶结构域可以包括H840A突变,而在位置10处的氨基酸残基仍为D。在一些实施方式中,切口酶可以衍生自完全催化活性的(例如天然的)形式的多核苷酸可编程的核苷酸结合结构域,其是藉由去除切口酶活性非必需的核酸酶结构域的全部或部分。例如,当多核苷酸可编程的核苷酸结合结构域包括衍生自Cas9的切口酶结构域时,该Cas9-衍生的切口酶结构域可以包括RuvC结构域或HNH结构域的全部或部分的缺失。
示例性的催化活性的Cas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMT
NFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD.
包括多核苷酸可编程的核苷酸结合结构域(其包括切口酶结构域)的碱基编辑器因此能够在特定的多核苷酸靶序列(例如,由所结合的向导核酸的互补序列所确定的)处生成单股DNA断裂(切口)。在一些实施方式中,被包括切口酶结构域(例如Cas9-衍生的切口酶结构域)的碱基编辑器所切开的核酸双股螺旋标靶多核苷酸序列的那一股是未被该碱基编辑器编辑的那一股(即,被该碱基编辑器切开的那一股是在包括待编辑碱基的股的对侧)。在其他实施方式中,包括切口酶结构域(例如Cas9-衍生的切口酶结构域)的碱基编辑器可以切开将要被靶向以供编辑的DNA的那一股。在此类实施方式中,非靶向股是未被切开的。
本文也提供了碱基编辑器,其包括催化失活的(即,不能切开靶多核苷酸序列的)多核苷酸可编程的核苷酸结合结构域。术语“催化失活的”和“核酸酶失活的”在本文中互换使用以指代多核苷酸可编程的核苷酸结合结构域,其具有一个或多个突变和/或缺失导致其不能切开核酸股。在一些实施方式中,催化失活的多核苷酸可编程的核苷酸结合结构域碱基编辑器可由于一个或多个核酸酶结构域中的特定的点突变而欠缺核酸酶活性。例如,在包括Cas9结构域的碱基编辑器的情况下,该Cas9可以包括两个突变,即D10A突变和H840A突变。此类突变去活性化两个核酸酶结构域,从而导致核酸酶活性的丧失。在其他实施方式中,催化失活的多核苷酸可编程的核苷酸结合结构域可以包括催化结构域(例如RuvC1和/或HNH结构域)的全部或部分的一个或多个缺失。在进一步的实施方式中,催化失活的多核苷酸可编程的核苷酸结合结构域包括点突变(例如D10A或H840A)以及核酸酶结构域的全部或部分的缺失。
本文也检视了能够从多核苷酸可编程的核苷酸结合结构域先前的功能性版本生成催化失活的该多核苷酸可编程的核苷酸结合结构域的突变。例如,在催化失活的Cas9(“dCas9”)的情况下,提供了具有除D10A和H840A以外的突变(其导致去活性化的Cas9)的变体。此类突变,举例来说,包含在D10和H840处的其他氨基酸替换,或在Cas9的核酸酶结构域内的其他替换(例如,在HNH核酸酶亚结构域和/或RuvC1亚结构域内的替换)。基于本公开披露和本领域的知识,额外的适合的核酸酶-失活的dCas9结构域对本领域技术人员而言可以是显而易见的,并且在本公开披露的范围内。此类额外的示例性的适合的核酸酶-失活的Cas9结构域包含但不限于D10A/H840A、D10A/D839A/H840A、和D10A/D839A/H840A/N863A突变结构域(参见例如,Prashant等、CAS9 transcriptional activators for targetspecificity screening and paired nickases for cooperative genomeengineering.Nature Biotechnology.2013;31(9):833-838,其全部内容通过引用并入本文)。
可以并入碱基编辑器内的多核苷酸可编程的核苷酸结合结构域的非限制性实例包含CRISPR蛋白-衍生的结构域,限制性核酸酶,巨核酸酶,TAL核酸酶(TALEN),和锌指核酸酶(ZFN)。在一些实施方式中,碱基编辑器包括多核苷酸可编程的核苷酸结合结构域,其包括天然的或修饰过的蛋白质或其部分,该蛋白质或其部分经由所结合的向导核酸,能够在CRISPR(即,规律成簇间隔短回文重复序列)-介导的核酸修饰期间结合到核酸序列上。此蛋白质在本文中称为“CRISPR蛋白”。因此,本文揭示了包括多核苷酸可编程的核苷酸结合结构域的碱基编辑器,该包括多核苷酸可编程的核苷酸结合结构域包括CRISPR蛋白的全部或部分(即,包括CRISPR蛋白的全部或部分作为结构域的碱基编辑器,则该结构域也被称为该碱基编辑器的“CRISPR蛋白-衍生的结构域”)。与CRISPR蛋白的野生型或天然版本相比,并入碱基编辑器内的CRISPR蛋白-衍生的结构域可以被修饰。例如,如下所述CRISPR蛋白-衍生的结构域可以包括一个或多个相对于CRISPR蛋白的野生型或天然版本的突变、插入、缺失、重排和/或重组。
CRISPR是一种适应性免疫系统,其针对可移动的遗传元件(病毒,转座子和接合型质粒)提供保护。CRISPR簇含有间隔序列,即与先前的可移动的元件互补的序列,并靶向入侵的核酸。CRISPR簇被转录并加工成为CRISPR RNA(crRNA)。在II型CRISPR系统中,pre-crRNA的正确加工需要反式-编码的小RNA(tracrRNA),内源性核糖核酸酶3(rnc)以及Cas9蛋白。该tracrRNA充当核糖核酸酶3-辅助的pre-crRNA加工过程的向导。随后,Cas9/crRNA/tracrRNA以核酸内裂解的方式切开与间隔序列互补的线性或环状dsDNA标靶。不与crRNA互补的标靶股先以核酸内裂解的方式被切割,然后以核酸外裂解的方式被3′-5′修剪。在自然界中,DNA-结合和切开通常需要蛋白和两种RNA。然而,可以工程化单一向导RNAs(“sgRNA”,或简称“gNRA”)以便将crRNA和tracrRNA的各方面都并入单一RNA种类之中。参见例如JinekM.等,Science 337:816-821(2012),其全部内容在此通过引用并入本文。Cas9识别CRISPR重复序列中的短基序(PAM或原间隔序列临近基序)以帮助区分自体与非自体。
在一些实施方式中,本文所述的方法可以利用工程化的Cas蛋白。向导RNA(gRNA)是一种短的合成RNA,其由Cas-结合所需的支架序列和用户定义的约20个核苷酸间隔序列组成,该间隔序列定义了待修饰的基因组标靶。因此,本领域技术人员可以改变所述Cas蛋白的基因组靶标特异性,其部分地取决于,与基因组其余部分相比,gRNA靶向序列对于基因组标靶的特异程度。
在一些实施方式中,该gRNA支架序列如下:
在一些实施方式中,该gRNA支架序列如下:GUUUUAGAGC UAGAAAUAGC AAGUUAAAAUAAGGCUAGUC CGUUAUCAAC UUGAAAAAGU GGCACCGAGU CGGUGCUUUU.
在一些实施方式中,并入碱基编辑器内的CRISPR蛋白-衍生的结构域是当与所结合的向导核酸相连时能够结合标靶多核苷酸序列的核酸内切酶(例如,脱氧核糖核酸酶或核糖核酸酶)。在一些实施方式中,并入碱基编辑器内的CRISPR蛋白-衍生的结构域是当与所结合的向导核酸相连时能够结合标靶多核苷酸序列的切口酶。在一些实施方式中,并入碱基编辑器内的CRISPR蛋白-衍生的结构域是当与所结合的向导核酸相连时能够结合标靶多核苷酸序列的催化失活的结构域。在一些实施方式中,被碱基编辑器的CRISPR蛋白衍生的结构域所结合的标靶多核苷酸是DNA。在一些实施方式中,被碱基编辑器的CRISPR蛋白-衍生的结构域所结合的标靶多核苷酸是RNA。
可用于本文的Cas蛋白包含第1类和第2类。Cas蛋白的非限制性实例包含:Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas9(也称为Csn1或Csx12)、Cas10、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Cas12a/Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、和Cas12i、CARF、DinG、其同源物,或其修饰过的版本。未修饰过的CRISPR酶可以具有DNA切开活性,诸如Cas9,其具有两个功能性核酸内切酶结构域:RuvC和HNH。CRISPR酶可以导引在标靶序列处的一股或两股的切开,诸如在标靶序列内和/或标靶序列的互补(序列)内。例如,CRISPR酶可以导引距靶序列的第一个或最后一个核苷酸约1、2、3、4、5、6、7、8、9、10、15、20、25、50、100、200、500、或更多个碱基对内的一股或两股的切开。
可以使用编码CRISPR酶的载体,该CRISPR酶(相对于相应的野生型酶)被突变化,使得该突变过的CRISPR酶欠缺切开含有靶序列的靶多核苷酸的一股或两股的能力。Cas9可以指,相对于野生型示例性的Cas9多肽(例如来自化脓链球菌的Cas9),具有至少或至少约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%序列同一性和/或序列同源性的多肽。Cas9可以指,相对于野生型示例性的Cas9多肽(例如来自化脓链球菌的Cas9),具有最多或最多约50%、60%、70%、80%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、或100%序列同一性和/或序列同源性的多肽。Cas9可以指Cas9蛋白的野生型或修饰过的形式,其包括氨基酸变化,诸如缺失、插入、替换、变体、突变、融合、嵌合体或任何其组合。
在一些实施方式中,碱基编辑器的CRISPR蛋白-衍生的结构域可以包括Cas9的全部或部分,该Cas9的全部或部分是来自:溃疡棒状杆菌(Corynebacterium ulcerans)(NCBIRefs:NC_015683.1、NC_017317.1);白喉棒状杆菌(Corynebacterium diphtheria)(NCBIRefs:NC_016782.1、NC_016786.1);栖蚜蝇螺原体(Spiroplasma syrphidicola)(NCBIRef:NC_021284.1);中间普雷沃菌(Prevotella intermedia)(NCBI Ref:NC_017861.1);中国台湾螺原体(Spiroplasma taiwanense,China)(NCBI Ref:NC_021846.1);海豚链球菌(Streptococcus iniae)(NCBI Ref:NC_021314.1);波罗的海Belliella属菌(Belliellabaltica)(NCBI Ref:NC_018010.1);扭曲冷弯曲菌I(Psychroflexus torquis)(NCBI Ref:NC_018721.1);嗜热链球菌(Streptococcus thermophilus)(NCBI Ref:YP_820832.1);无害李斯特菌(Listeria innocua)(NCBI Ref:NP_472073.1;空肠弯曲菌(Campylobacterjejuni)(NCBI Ref:YP_002344900.1);脑膜炎双球菌(Neisseria meningitidis)(NCBIRef:YP_002342100.1),化脓链球菌(Streptococcus pyogenes),或金黄色葡萄球菌(Staphylococcus aureus)。
核碱基编辑器的Cas9结构域
Cas9核酸酶序列和结构是本领域技术人员熟知的(参见例如“Complete genomesequence of an Ml strain of Streptococcus pyogenes.”Ferretti等、Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等、Nature471:602-607(2011);以及“A programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.等,Science 337:816-821(2012),其每个的全部内容通过引用并入本文)。已在各种物种中描述了Cas9的异种同源物,包含但不限于化脓链球菌和嗜热链球菌。基于本公开披露,额外的适合的Cas9核酸酶和序列对于本领域技术人员将是显而易见的,并且此种Cas9核酸酶和序列包含来自Chylinski、Rhun、和Charpentier“ThetracrRNA and Cas9families of type II CRISPR-Cas immunity systems”(2013)RNABiology 10:5、726-737中所揭示的生物体和基因座的Cas9序列;其全部内容通过引用并入本文。
在一些实施方式中,核酸可编程的DNA结合蛋白(napDNAbp)是Cas9结构域。本文提供了非限制性的示例性Cas9结构域。该Cas9结构域可能是核酸酶活性Cas9结构域、核酸酶失活Cas9结构域(dCas9)或Cas9切口酶(nCas9)。在一些实施方式中,该Cas9结构域是核酸酶活性结构域。例如,该Cas9结构域可能是切割双股螺旋核酸(例如,双股螺旋DNA分子的两股)的两股的Cas9结构域。在一些实施方式中,该Cas9结构域包括本文所列出的任一氨基酸序列。在一些实施方式中,该Cas9结构域包括的氨基酸序列,与本文所列出的任一氨基酸序列相比,为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。在一些实施方式中,该Cas9结构域包括的氨基酸序列,与本文所列出的任一氨基酸序列相比,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变。在一些实施方式中,该Cas9结构域包括的氨基酸序列,与本文所列出的任一氨基酸序列相比,具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、或至少1200个相同的接连的氨基酸残基。
在一些实施方式中,提供了包括Cas9的片段的蛋白。例如,在一些实施方式中,蛋白包括两个Cas9结构域之一:(1)Cas9的gRNA结合结构域;或是(2)Cas9的DNA切开结构域。在一些实施方式中,包括Cas9或其片段的蛋白被称为“Cas9变体”。Cas9变体与Cas9或其片段共享同源性。例如,Cas9变体与野生型Cas9是至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同、或至少约99.9%相同。在一些实施方式中,与野生型Cas9相比,Cas9变体可能具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50或更多个氨基酸的变化。在一些实施方式中,该Cas9变体包括Cas9的片段(例如gRNA结合结构域或DNA-切开结构域),使得该片段与相应的野生型Cas9片段是至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约96%相同、至少约97%相同、至少约98%相同、至少约99%相同、至少约99.5%相同、或至少约99.9%相同。在一些实施方式中,该片段是相应的野生型Cas9的氨基酸长度的至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%、或至少约99.5%。在一些实施方式中,该片段的长度是至少100个氨基酸。在一些实施方式中,该片段的长度是至少100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、或至少1300个氨基酸。
在一些实施方式中,本文所提供的Cas9融合蛋白包括Cas9蛋白的全长氨基酸序列,例如本文所提供的Cas9序列之一。然而,在其他实施方式中,本文所提供的融合蛋白不包括全长Cas9序列,而仅包括一个或多个其片段。本文提供了适合的Cas9结构域和Cas9片段的示例性氨基酸序列,并且Cas9结构域和片段的额外的适合的序列对于本领域技术人员将是显而易见的。
Cas9蛋白可以与向导RNA相联,该向导RNA将Cas9蛋白导向至与该向导RNA互补的特定DNA序列。在一些实施方式中,该多核苷酸可编程的核苷酸结合结构域是Cas9结构域,例如,核酸酶活性Cas9、Cas9切口酶(nCas9)或核酸酶失活Cas9(dCas9)。核酸可编程的DNA结合蛋白的实例包含但不限于Cas9(例如dCas9和nCas9)、CasX、CasY、Cpf1、Cas12b/C2C1和Cas12c/C2C3。
在一些实施方式中,野生型Cas9对应于来自化脓链球菌的Cas9(NCBI参考序列:NC_017053.1、核苷酸和氨基酸序列如下)。
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGATTATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGGCAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGCAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAATCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTAGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAGAAATGGCTTGTTTGGGAATCTCATTGCTTTGTCATTGGGATTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATAGTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAGCGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAA
TTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAGGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGCGCCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGGGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGACATTTAAAGAAGATATTCAAAAAGCACAGGTGTCTGGACAAGGCCATAGTTTACATGAACAGATTGCTAACTTAGCTGGCAGTCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAATTGTTGATGAACTGGTCAAAGTAATGGGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTACAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCATTAAAGACGATTCAATAGACAATAAGGTACTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGAC
AAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003286956470001091
Figure BDA0003286956470001101
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方式中,野生型Cas9对应于或包括以下的核苷酸和/或氨基酸序列:
ATGGATAAAAAGTATTCTATTGGTTTAGACATCGGCACTAATTCCGTTGGATGGGCTGTCATAACCGATGAATACAAAGTACCTTCAAAGAAATTTAAGGTGTTGGGGAACACAGACCGTCATTCGATTAAAAAGAATCTTATCGGTGCCCTCCTATTCGATAGTGGCGAAACGGCAGAGGCGACTCGCCTGAAACGAACCGCTCGGAGAAGGTATACACGTCGCAAGAACCGAATATGTTACTTACAAGAAATTTTTAGCAATGAGATGGCCAAAGTTGACGATTCTTTCTTTCACCGTTTGGAAGAGTCCTTCCTTGTCGAAGAGGACAAGAAACATGAACGGCACCCCATCTTTGGAAACATAGTAGATGAGGTGGCATATCATGAAAAGTACCCAACGATTTATCACCTCAGAAAAAAGCTAGTTGACTCAACTGATAAAGCGGACCTGAGGTTAATCTACTTGGCTCTTGCCCATATGATAAAGTTCCGTGGGCACTTTCTCATTGAGGGTGATCTAAATCCGGACAACTCGGATGTCGACAAACTGTTCATCCAGTTAGTACAAACCTATAATCAGTTGTTTGAAGAGAACCCTATAAATGCAAGTGGCGTGGATGCGAAGGCTATTCTTAGCGCCCGCCTCTCTAAATCCCGACGGCTAGAAAACCTGATCGCACAATTACCCGGAGAGAAGAAAAATGGGTTGTTCGGTAACCTTATAGCGCTCTCACTAGGCCTGACACCAAATTTTAAGTCGAACTTCGACTTAGCTGAAGATGCCAAATTGCAGCTTAGTAAGGACACGTACGATGACGATCTCGACAATCTACTGGCACAAATTGGAGATCAGTATGCGGACTTATTTTTGGCTGCCAAAAACCTTAGCGATGCAATCCTCCTATCTGACATACTGAGAGTTAATACTGAGATTACCAAGGCGCCGTTATCCGCTTCAATGATCAAAAGGTACGATGAACATCACCAAGACTTGACACTTCTCAAGGCCCTAGTCCGTCAGCAACTGCCTGAGAAATATAAGGAAATATTCTTTGATCAGTCGAAAAACGGGTACGCAGGTTATATTGACGGCGGAGCGAGTCAAGAGGAATTCTACAAGTTTATCAAACCCATATTAGAGAAGATGGATGGGACGGAAGAGTTGCTTGTAAAACTCAATCGCGAAGATCTACTGCGAAAGCAGCGGACTTTCGACAACGGTAGCATTCCACATCAAATCCACTTAGGCGAATTGCATGCTATACTTAGAAGGCAGGAGGATTTTTATCCGTTCCTCAAAGACAATCGTGAAAAGATTGAGAAAATCCTAACCTTTCGCATACCTTACTATGTGGGACCCCTGGCCCGAGGGAACTCTCGGTTCGCATGGATGACAAGAAAGTCCGAAGAAACGATTACTCCATGGAATTTTGAGGAAGTTGTCGATAAAGGTGCGTCAGCTCAATCGTTCATCGAGAGGATGACCAACTTTGACAAGAATTTACCGAACGAAAAAGTATTGCCTAAGCACAGTTTACTTTACGAGTATTTCACAGTGTACAATGAACTCACGAAAGTTAAGTATGTCACTGAGGGCATGCGTAAACCCGCCTTTCTAAGCGGAGAACAGAAGAAAGCAATAGTAGATCTGTTATTCAAGACCAACCGCAAAGTGACAGTTAAGCAATTGAAAGAGGACTACTTTAAGAAAATTGAATGCTTCGATTCTGTCGA
GATCTCCGGGGTAGAAGATCGATTTAATGCGTCACTTGGTACGTATCATGACCTCCTAAAGATAATTAAAGATAAGGACTTCCTGGATAACGAAGAGAATGAAGATATCTTAGAAGATATAGTGTTGACTCTTACCCTCTTTGAAGATCGGGAAATGATTGAGGAAAGACTAAAAACATACGCTCACCTGTTCGACGATAAGGTTATGAAACAGTTAAAGAGGCGTCGCTATACGGGCTGGGGACGATTGTCGCGGAAACTTATCAACGGGATAAGAGACAAGCAAAGTGGTAAAACTATTCTCGATTTTCTAAAGAGCGACGGCTTCGCCAATAGGAACTTTATGCAGCTGATCCATGATGACTCTTTAACCTTCAAAGAGGATATACAAAAGGCACAGGTTTCCGGACAAGGGGACTCATTGCACGAACATATTGCGAATCTTGCTGGTTCGCCAGCCATCAAAAAGGGCATACTCCAGACAGTCAAAGTAGTGGATGAGCTAGTTAAGGTCATGGGACGTCACAAACCGGAAAACATTGTAATCGAGATGGCACGCGAAAATCAAACGACTCAGAAGGGGCAAAAAAACAGTCGAGAGCGGATGAAGAGAATAGAAGAGGGTATTAAAGAACTGGGCAGCCAGATCTTAAAGGAGCATCCTGTGGAAAATACCCAATTGCAGAACGAGAAACTTTACCTCTATTACCTACAAAATGGAAGGGACATGTATGTTGATCAGGAACTGGACATAAACCGTTTATCTGATTACGACGTCGATCACATTGTACCCCAATCCTTTTTGAAGGACGATTCAATCGACAATAAAGTGCTTACACGCTCGGATAAGAACCGAGGGAAAAGTGACAATGTTCCAAGCGAGGAAGTCGTAAAGAAAATGAAGAACTATTGGCGGCAGCTCCTAAATGCGAAACTGATAACGCAAAGAAAGTTCGATAACTTAACTAAAGCTGAGAGGGGTGGCTTGTCTGAACTTGACAAGGCCGGATTTATTAAACGTCAGCTCGTGGAAACCCGCCAAATCACAAAGCATGTTGCACAGATACTAGATTCCCGAATGAATACGAAATACGACGAGAACGATAAGCTGATTCGGGAAGTCAAAGTAATCACTTTAAAGTCAAAATTGGTGTCGGACTTCAGAAAGGATTTTCAATTCTATAAAGTTAGGGAGATAAATAACTACCACCATGCGCACGACGCTTATCTTAATGCCGTCGTAGGGACCGCACTCATTAAGAAATACCCGAAGCTAGAAAGTGAGTTTGTGTATGGTGATTACAAAGTTTATGACGTCCGTAAGATGATCGCGAAAAGCGAACAGGAGATAGGCAAGGCTACAGCCAAATACTTCTTTTATTCTAACATTATGAATTTCTTTAAGACGGAAATCACTCTGGCAAACGGAGAGATACGCAAACGACCTTTAATTGAAACCAATGGGGAGACAGGTGAAATCGTATGGGATAAGGGCCGGGACTTCGCGACGGTGAGAAAAGTTTTGTCCATGCCCCAAGTCAACATAGTAAAGAAAACTGAGGTGCAGACCGGAGGGTTTTCAAAGGAATCGATTCTTCCAAAAAGGAATAGTGATAAGCTCATCGCTCGTAAAAAGGACTGGGACCCGAAAAAGTACGGTGGCTTCGATAGCCCTACAGTTGCCTATTCTGTCCTAGTAGTGGCAAAAGTTGAGAAGGGAAAATCCAAGAAACTGAAGTCAGTCAAAGAATTATTGGGGATAACGATTATGGAGCGCTCGTCTTTTGAAAAGAACCCCATCGACTTCCTTGAGGCGAAAGGTTACAAGGAAGTAAAAAAGGATCTCATAATTAAACTACCAAAGTATAGTCTGTTTGAGTTAGAAAATGGCCGAAAACGGATGTTGGCTAGCGCCGGAGAGCTTCAAAAGGGGAACGAACTCGCACTACCGTCTAAATACGTGAATTTCCTGTATTTAGCGTCCCATTACGAGAAGTTGAAAGGTTCACCTGAAGATAACGAACAGAAGCAACTTTTTGTTGAGCAGCACAAACATTATCTCGACGAAATCATAGAGCAAATTTCGGAATTCAGTAAGAGAGTCATCCTAGCTGATGCCAATCTGGACAAAGTATTAAGCGCATACAACAAGCACAGGGATAAACCCATACGTGAGCAGGCGGAAAATATTATCCATTTGTTTACTCTTACCAACCTCGGCGCTCCAGCCGCATTCAAGTATTTTGACACAACGATAGATCGCAAACGATACACTTCTACCAAGGAGGTGCTAGACGCGACACTGATTCACCAATCCATCACGGGATTATATGAAACTCGGATAGATTTGTCACAGCTTGGGGGTGACGGATCCCCCAAGAAGAAGAGGAAAGTCTCGAGCGACTACAAAGACCATGACGGTGATTATAAAGATCATGACATCGATTACAAGGATGACGATGACAAGGCTGCAGGA
Figure BDA0003286956470001121
(单下划线:HNH结构域;双下划线:RuvC结构域).
在一些实施方式中,野生型Cas9对应于来自化脓链球菌的Cas9(NCBI参考序列:NC_002737.2)(核苷酸序列如下);和Uniprot参考序列:Q99ZW2(氨基酸序列如下)
ATGGATAAGAAATACTCAATAGGCTTAGATATCGGCACAAATAGCGTCGGATGGGCGGTGATCACTGATGAATATAAGGTTCCGTCTAAAAAGTTCAAGGTTCTGGGAAATACAGACCGCCACAGTATCAAAAAAAATCTTATAGGGGCTCTTTTATTTGACAGTGGAGAGACAGCGGAAGCGACTCGTCTCAAACGGACAGCTCGTAGAAGGTATACACGTCGGAAGAATCGTATTTGTTATCTACAGGAGATTTTTTCAAATGAGATGGCGAAAGTAGATGATAGTTTCTTTCATCGACTTGAAGAGTCTTTTTTGGTGGAAGAAGACAAGAAGCATGAACGTCATCCTATTTTTGGAAATATAGTAGATGAAGTTGCTTATCATGAGAAATATCCAACTATCTATCATCTGCGAAAAAAATTGGTAGATTCTACTGATAAAGCGGATTTGCGCTTAATCTATTTGGCCTTAGCGCATATGATTAAGTTTCGTGGTCATTTTTTGATTGAGGGAGATTTAAATCCTGATAATAGTGATGTGGACAAACTATTTATCCAGTTGGTACAAACCTACAATCAATTATTTGAAGAAAACCCTATTAACGCAAGTGGAGTAGATGCTAAAGCGATTCTTTCTGCACGATTGAGTAAATCAAGACGATTAGAAAATCTCATTGCTCAGCTCCCCGGTGAGAAGAAAAATGGCTTATTTGGGAATCTCATTGCTTTGTCATTGGGTTTGACCCCTAATTTTAAATCAAATTTTGATTTGGCAGAAGATGCTAAATTACAGCTTTCAAAAGATACTTACGATGATGATTTAGATAATTTATTGGCGCAAATTGGAGATCAATATGCTGATTTGTTTTTGGCAGCTAAGAATTTATCAGATGCTATTTTACTTTCAGATATCCTAAGAGTAAATACTGAAATAACTAAGGCTCCCCTATCAGCTTCAATGATTAAACGCTACGATGAACATCATCAAGACTTGACTCTTTTAAAAGCTTTAGTTCGACAACAACTTCCAGAAAAGTATAAAGAAATCTTTTTTGATCAATCAAAAAACGGATATGCAGGTTATATTGATGGGGGAGCTAGCCAAGAAGAATTTTATAAATTTATCAAACCAATTTTAGAAAAAATGGATGGTACTGAGGAATTATTGGTGAAACTAAATCGTGAAGATTTGCTGCGCAAGCAACGGACCTTTGACAACGGCTCTATTCCCCATCAAATTCACTTGGGTGAGCTGCATGCTATTTTGAGAAGACAAGAAGACTTTTATCCATTTTTAAAAGACAATCGTGAGAAGATTGAAAAAATCTTGACTTTTCGAATTCCTTATTATGTTGGTCCATTGGCGCGTGGCAATAGTCGTTTTGCATGGATGACTCGGAAGTCTGAAGAAACAATTACCCCATGGAATTTTGAAGAAGTTGTCGATAAAGGTGCTTCAGCTCAATCATTTATTGAACGCATGACAAACTTTGATAAAAATCTTCCAAATGAAAAAGTACTACCAAAACATAGTTTGCTTTATGAGTATTTTACGGTTTATAACGAATTGACAAAGGTCAAATATGTTACTGAAGGAATGCGAAAACCAGCATTTCTTTCAGGTGAACAGAAGAAAGCCATTGTTGATTTACTCTTCAAAACAAATCGAAAAGTAACCGTTAAGCAATTAAAAGAAGATTATTTCAAAAAAATAGAATGTTTTGATAGTGTTGAAATTTCAGGAGTTGAAGATAGATTTAATGCTTCATTAGGTACCTACCATGATTTGCTAAAAATTATTAAAGATAAAGATTTTTTGGATAATGAAGAAAATGAAGATATCTTAGAGGATATTGTTTTAACATTGACCTTATTTGAAGATAGGGAGATGATTGAGGAAAGACTTAAAACATATGCTCACCTCTTTGATGATAAGGTGATGAAACAGCTTAAACGTCGCCGTTATACTGGTTGGGGACGTTTGTCTCGAAAATTGATTAATGGTATTAGGGATAAGCAATCTGGCAAAACAATATTAGATTTTTTGAAATCAGATGGTTTTGCCAATCGCAATTTTATGCAGCTGATCCATGATGATAGTTTGAC
ATTTAAAGAAGACATTCAAAAAGCACAAGTGTCTGGACAAGGCGATAGTTTACATGAACATATTGCAAATTTAGCTGGTAGCCCTGCTATTAAAAAAGGTATTTTACAGACTGTAAAAGTTGTTGATGAATTGGTCAAAGTAATGGGGCGGCATAAGCCAGAAAATATCGTTATTGAAATGGCACGTGAAAATCAGACAACTCAAAAGGGCCAGAAAAATTCGCGAGAGCGTATGAAACGAATCGAAGAAGGTATCAAAGAATTAGGAAGTCAGATTCTTAAAGAGCATCCTGTTGAAAATACTCAATTGCAAAATGAAAAGCTCTATCTCTATTATCTCCAAAATGGAAGAGACATGTATGTGGACCAAGAATTAGATATTAATCGTTTAAGTGATTATGATGTCGATCACATTGTTCCACAAAGTTTCCTTAAAGACGATTCAATAGACAATAAGGTCTTAACGCGTTCTGATAAAAATCGTGGTAAATCGGATAACGTTCCAAGTGAAGAAGTAGTCAAAAAGATGAAAAACTATTGGAGACAACTTCTAAACGCCAAGTTAATCACTCAACGTAAGTTTGATAATTTAACGAAAGCTGAACGTGGAGGTTTGAGTGAACTTGATAAAGCTGGTTTTATCAAACGCCAATTGGTTGAAACTCGCCAAATCACTAAGCATGTGGCACAAATTTTGGATAGTCGCATGAATACTAAATACGATGAAAATGATAAACTTATTCGAGAGGTTAAAGTGATTACCTTAAAATCTAAATTAGTTTCTGACTTCCGAAAAGATTTCCAATTCTATAAAGTACGTGAGATTAACAATTACCATCATGCCCATGATGCGTATCTAAATGCCGTCGTTGGAACTGCTTTGATTAAGAAATATCCAAAACTTGAATCGGAGTTTGTCTATGGTGATTATAAAGTTTATGATGTTCGTAAAATGATTGCTAAGTCTGAGCAAGAAATAGGCAAAGCAACCGCAAAATATTTCTTTTACTCTAATATCATGAACTTCTTCAAAACAGAAATTACACTTGCAAATGGAGAGATTCGCAAACGCCCTCTAATCGAAACTAATGGGGAAACTGGAGAAATTGTCTGGGATAAAGGGCGAGATTTTGCCACAGTGCGCAAAGTATTGTCCATGCCCCAAGTCAATATTGTCAAGAAAACAGAAGTACAGACAGGCGGATTCTCCAAGGAGTCAATTTTACCAAAAAGAAATTCGGACAAGCTTATTGCTCGTAAAAAAGACTGGGATCCAAAAAAATATGGTGGTTTTGATAGTCCAACGGTAGCTTATTCAGTCCTAGTGGTTGCTAAGGTGGAAAAAGGGAAATCGAAGAAGTTAAAATCCGTTAAAGAGTTACTAGGGATCACAATTATGGAAAGAAGTTCCTTTGAAAAAAATCCGATTGACTTTTTAGAAGCTAAAGGATATAAGGAAGTTAAAAAAGACTTAATCATTAAACTACCTAAATATAGTCTTTTTGAGTTAGAAAACGGTCGTAAACGGATGCTGGCTAGTGCCGGAGAATTACAAAAAGGAAATGAGCTGGCTCTGCCAAGCAAATATGTGAATTTTTTATATTTAGCTAGTCATTATGAAAAGTTGAAGGGTAGTCCAGAAGATAACGAACAAAAACAATTGTTTGTGGAGCAGCATAAGCATTATTTAGATGAGATTATTGAGCAAATCAGTGAATTTTCTAAGCGTGTTATTTTAGCAGATGCCAATTTAGATAAAGTTCTTAGTGCATATAACAAACATAGAGACAAACCAATACGTGAACAAGCAGAAAATATTATTCATTTATTTACGTTGACGAATCTTGGAGCTCCCGCTGCTTTTAAATATTTTGATACAACAATTGATCGTAAACGATATACGTCTACAAAAGAAGTTTTAGATGCCACTCTTATCCATCAATCCATCACTGGTCTTTATGAAACACGCATTGATTTGAGTCAGCTAGGAGGTGACTGA
Figure BDA0003286956470001141
Figure BDA0003286956470001151
(单下划线:HNH结构域;双下划线:RuvC结构域)
在一些实施方式中,Cas9是指来自以下的Cas9:溃疡棒状杆菌(NCBI Refs:NC_015683.1、NC_017317.1);白喉棒状杆菌(NCBI Refs:NC_016782.1、NC_016786.1);栖蚜蝇螺原体(NCBI Ref:NC_021284.1);中间普雷沃菌(NCBI Ref:NC_017861.1);中国台湾螺原体(NCBI Ref:NC_021846.1);海豚链球菌(NCBI Ref:NC_021314.1);波罗的海Belliella属菌(NCBI Ref:NC_018010.1);扭曲冷弯曲菌I(NCBI Ref:NC_018721.1);嗜热链球菌(NCBIRef:YP_820832.1),无害李斯特菌(NCBI Ref:NP_472073.1),空肠弯曲菌(NCBI Ref:YP_002344900.1)或脑膜炎双球菌(NCBI Ref:YP_002342100.1)或来自任何其他生物体的Cas9。
应当理解,额外的Cas9蛋白(例如核酸酶失活的Cas9(dCas9)、Cas9切口酶(nCas9)、或核酸酶有活性的Cas9),包含其变体和同源物,是在本公开披露的范围之内。示例性的Cas9蛋白包含但不限于如下所提供的那些。在一些实施方式中,该Cas9蛋白是核酸酶失活的Cas9(dCas9)。在一些实施方式中,该Cas9蛋白是Cas9切口酶(nCas9)。在一些实施方式中,该Cas9蛋白是核酸酶有活性的Cas9。
在一些实施方式中,该Cas9结构域是核酸酶-失活的Cas9结构域(dCas9)。例如,该dCas9结构域可结合到双股螺旋核酸分子上(例如,经由gRNA分子),而不切开该双股螺旋核酸分子的任一股。在一些实施方式中,该核酸酶-失活的dCas9结构域包括本文所列出的氨基酸序列的D10X突变和H840X突变,或本文所提供的任何氨基酸序列中的相应突变,其中X为任何氨基酸变化。在一些实施方式中,该核酸酶-失活的dCas9结构域包括本文所列出的氨基酸序列的D10A突变和H840A突变,或本文所提供的任何氨基酸序列中的相应突变。作为一个实例,核酸酶-失活的Cas9结构域包括克隆载体pPlatTET-gRNA2(登录号BAV54124)中所列出的氨基酸序列
示例性的催化失活的Cas9(dCas9)的氨基酸序列如下:
MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
参加例如,Qi等,“将CRISPR再利用为以供基因表达的序列-特异性控制的RNA-导向的平台”Cell.2013;152(5):1173-83,其全部内容通过引用并入本文)。
基于本公开披露和本领域的知识,额外的适合的核酸酶-失活的dCas9结构域对本领域技术人员而言将是显而易见的,并且在本公开披露的范围内。此类额外的示例性的适合的核酸酶-失活的Cas9结构域包含但不限于,D10A/H840A、D10A/D839A/H840A、以及D10A/D839A/H840A/N863A突变结构域(参见例如,Prashant等,CAS9transcriptionalactivators for target specificity screening and paired nickases forcooperative genome engineering.Nature Biotechnology.2013;31(9):833-838,其全部内容通过引用并入本文)
在一些实施方式中,Cas9核酸酶具有失活的(例如去活性化的)DNA切开结构域,即是说,该Cas9为切口酶,被称为“nCas9”蛋白(出于“切口酶(nickase)”Cas9)。核酸酶-去活性化的Cas9蛋白可互换地被称为“dCas9”蛋白(出于核酸酶-“死(dead)”Cas9)或催化失活的Cas9。生成具有失活的DNA切开结构域的Cas9蛋白(或其片段)的方法是已知的(参见例如Jinek等,Science.337:816-821(2012);Qi等,“Repurposing CRISPR as an RNA-GuidedPlatform for Sequence-Specific Control of Gene Expression”(2013)Cell.28;152(5):1173-83,其每个的全部内容通过引用并入本文)。例如,已知Cas9的DNA切开结构域包含两个亚结构域,HNH核酸酶亚结构域和RuvC1亚结构域。该HNH亚结构域切开与gRNA互补的股,而该RuvC1亚结构域切开非互补的股。这些亚结构域内的突变可以沉默化Cas9的核酸酶活性。例如,突变D10A和H840A完全去活性化化脓链球菌Cas9的核酸酶活性(Jinek等,Science.337:816-821(2012);Qi等,Cell.28;152(5):1173-83(2013))。
在一些实施方式中,该dCas9结构域包括的氨基酸序列,与本文所提供的任一dCas9结构域相比,是至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。在一些实施方式中,该Cas9结构域包括的氨基酸序列,与本文所列出的任一氨基酸序列相比,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个或更多个突变。在一些实施方式中,该Cas9结构域包括的氨基酸序列,与本文所列出的任一氨基酸序列相比,具有至少10、至少15、至少20、至少30、至少40、至少50、至少60、至少70、至少80、至少90、至少100、至少150、至少200、至少250、至少300、至少350、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1100、或至少1200个相同的接连的氨基酸残基。
在一些实施方式中,dCas9对应于或包括Cas9氨基酸序列的一部分或全部,该序列具有一个或多个去活性化Cas9核酸酶活性的突变。例如,在一些实施方式中,dCas9结构域包括D10A和H840A突变,或另一个Cas9中的相应突变。
在一些实施方式中,该dCas9包括dCas9(D10A和H840A)的氨基酸序列:
Figure BDA0003286956470001181
(单下划线:HNH结构域;双下划线:RuvC结构域).
在一些实施方式中,该Cas9结构域包括D10A突变,而在上面所提供的氨基酸序列中位置840的残基,或在任何本文所提供的氨基酸序列的相应位置上的残基,仍然是组氨酸。
在其他实施方式中,提供了具有除了D10A和H840A以外突变的dCas9变体,所述突变,例如,导致核酸酶去活性化的Cas9(dCas9)。此种突变,举例来说,包含在D10和H840处其他的氨基酸替换,或在Cas9的核酸酶结构域内的其他替换(例如,在HNH核酸酶亚结构域和/或RuvC1亚结构域内的替换)。在一些实施方式中,提供了dCas9的变体或同源物,其为至少约70%相同、至少约80%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同、至少约99.5%相同、或至少约99.9%相同。在一些实施方式中,提供了dCas9的变体,其所具有的氨基酸序列的较短或较长的程度为约5个氨基酸、约10个氨基酸、约15个氨基酸、约20个氨基酸、约25个氨基酸、约30个氨基酸、约40个氨基酸、约50个氨基酸、约75个氨基酸、约100个氨基酸或更多。
在一些实施方式中,该Cas9结构域是一个Cas9切口酶。该Cas9切口酶可以是Cas9蛋白,其能够仅切割双股螺旋核酸分子(例如,双股螺旋DNA分子)的一股。在一些实施方式中,该Cas9切口酶切开双股螺旋核酸分子的标靶股,这意味着该Cas9切口酶切开了与gRNA(例如sgRNA)碱基配对(与其互补)的那一股,而所述gRNA是与该Cas9结合的。在一些实施方式中,Cas9切口酶包括D10A突变,并在840位置具有组氨酸。在一些实施方式中,Cas9切口酶切开双股螺旋核酸分子的非-标靶、非-碱基-被编辑的那一股,这意味着该Cas9切口酶切开了未与gRNA(例如sgRNA)碱基配对的那一股,而该gRNA是与Cas9结合的。在一些实施方式中,Cas9切口酶包括H840A突变并在位置10处具有天冬氨酸残基,或相应的突变。在一些实施方式中,该Cas9切口酶包括的氨基酸序列,与本文所提供的任一Cas9切口酶相比,为至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。基于本公开披露和本领域的知识,额外的适合的Cas9切口酶对本领域技术人员而言将是显而易见的,并且在本公开披露的范围内。
示例性的催化的Cas9切口酶(nCas9)的氨基酸序列如下:MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
在一些实施方式中,Cas9是指来自古菌(例如,纳古菌门)的Cas9,而古菌构成了单细胞原核微生物的一个域和界。在一些实施方式中,该可编程的核苷酸结合蛋白是指CasX或CasY蛋白,其已被描述过,例如,在Burstein等,“New CRISPR-Cas systems fromuncultivated microbes.”Cell Res.2017Feb 21.doi:10.1038/cr.2017.21中,其全部内容在此通过引用并入本文。使用基因组-分辨的宏基因组学,识别出了一些CRISPR-Cas系统,包含在生命的古菌域中首次被报道的Cas9。这种相异的Cas9蛋白是在很少被研究的纳古菌属中作为有活性的CRISPR-Cas的一部分而被发现的。在细菌中,发现了两个之前未知的系统,CRISPR-CasX和CRISPR-CasY,其为迄今为止所发现的最致密紧凑的系统之一。在一些实施方式中,在本文所述的碱基编辑器系统中,Cas9被CasX或CasX的变体所取代。在一些实施方式中,在本文所述的碱基编辑器系统中,Cas9被CasY或CasY的变体所取代。应该理解,其他RNA-导向DNA结合蛋白可能被用作核酸可编程的DNA结合蛋白(napDNAbp),并且是在本公开披露的范围内。
在一些实施方式中,本文所提供的任一融合蛋白的核酸可编程的DNA结合蛋白(napDNAbp)可能是CasX或CasY蛋白。在一些实施方式中,该napDNAbp是CasX蛋白。在一些实施方式中,该napDNAbp是CasY蛋白。在一些实施方式中,该napDNAbp包括的氨基酸序列与天然存在的CasX或CasY蛋白的同一性是至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%。在一些实施方式中,该napDNAbp是天然存在的CasX或CasY蛋白。在一些实施方式中,该可编程的核苷酸结合蛋白包括的氨基酸序列与本文所述的任何CasX或CasY蛋白的同一性是至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%。应该理解,来自其他细菌种类的CasX和CasY也可根据本公开披露而被使用。
示例性的CasX((uniprot.org/uniprot/F0NN87;uniprot.org/uniprot/F0NH53)tr|F0NN87|F0NN87_SULIHCRISPR-相联Casx蛋白OS=冰岛硫化叶菌(菌株HVE10/4)GN=SiH_0402PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYEFGRSPGMVERTRRVKLEVEPHYLIIAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVRIYTISDAVGQNPTTINGGFSIDLTKLLEKRYLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTG SKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG.
示例性的CasX(>tr|F0NH53|F0NH53_SULIR CRISPR相联蛋白、Casx OS=冰岛硫化叶菌(菌株REY15A)GN=SiRe_0771PE=4SV=1)氨基酸序列如下:
MEVPLYNIFGDNYIIQVATEAENSTIYNNKVEIDDEELRNVLNLAYKIAKNNEDAAAERRGKAKKKKGEEGETTTSNIILPLSGNDKNPWTETLKCYNFPTTVALSEVFKNFSQVKECEEVSAPSFVKPEFYKFGRSPGMVERTRRVKLEVEPHYLIMAAAGWVLTRLGKAKVSEGDYVGVNVFTPTRGILYSLIQNVNGIVPGIKPETAFGLWIARKVVSSVTNPNVSVVSIYTISDAVGQNPTTINGGFSIDLTKLLEKRDLLSERLEAIARNALSISSNMRERYIVLANYIYEYLTGSKRLEDLLYFANRDLIMNLNSDDGKVRDLKLISAYVNGELIRGEG.
δ-变形菌纲CasX
MEKRINKIRKKLSADNATKPVSRSGPMKTLLVRVMTDDLKKRLEKRRKKPEVMPQVISNNAANNLRMLLDDYTKMKEAILQVYWQEFKDDHVGLMCKFAQPASKKIDQNKLKPEMDEKGNLTTAGFACSQCGQPLFVYKLEQVSEKGKAYTNYFGRCNVAEHEKLILLAQLKPVKDSDEAVTYSLGKFGQRALDFYSIHVTKESTHPVKPLAQIAGNRYASGPVGKALSDACMGTIASFLSKYQDIIIEHQKVVKGNQKRLESLRELAGKENLEYPSVTLPPQPHTKEGVDfAYNEVIARVRMWVNLNLWQKLKLSRDDAKPLLRLKGFPSFPVVERRENEVDWWNTINEVKKLIDAKRDMGRVFWSGVTAEKRNTILEGYNYLPNENDHKKREGSLENPKKPAKRQFGDLLLYLEKKYAGDWGKVFDEAWERIDKKIAGLTSHIEREEARNAEDAQSKAVLTDWLRAKASFVLERLKEMDEKEFYACEIQLQKWYGDLRGNPFAVEAENRVVDISGFSIGSDGHSIQYRNLLAWKYLENGKREFYLLMNYGKKGRIRFTDGTDIKKSGKWQGLLYGGGKAKVIDLTFDPDDEQLIILPLAFGTRQGREFIWNDLLSLETGLIKLANGRVIEKTIYNKKIGRDEPALFVALTFERREVVDPSNIKPVNLIGVARGENIPAVIALTDPEGCPLPEFKDSSGGPTDILRIGEGYKEKQRAIQAAKEVEQRRAGGYSRKFASKSRNLADDMVRNSARDLFYHAVTHDAVLVFANLSRGFGRQGKRTFMTERQYTKMEDWLTAKLAYEGLTSKTYLSKTLAQYTSKTCSNCGFTITYADMDVMLVRLKKTSDGWATTLNNKELKAEYQITYYNRYKRQTVEKELSAELDRLSEESGNNDISKWTKGRRDEALFLLKKRFSHRPVQEQFVCLDCGHEVHAAEQAALNIARSWLFLNSNSTEFKSYKSGKQPFVGAWQAFYKRRLKEVWKPNA
示例性的CasY((ncbi.nlm.nih.gov/protein/APG80656.1)>APG80656.1 CRISPR-相联蛋白CasY(未培养的俭菌菌群细菌])氨基酸序列如下:
MSKRHPRISGVKGYRLHAQRLEYTGKSGAMRTIKYPLYSSPSGGRTVPREIVSAINDDYVGLYGLSNFDDLYNAEKRNEEKVYSVLDFWYDCVQYGAVFSYTAPGLLKNVAEVRGGSYELTKTLKGSHLYDELQIDKVIKFLNKKEISRANGSLDKLKKDIIDCFKAEYRERHKDQCNKLADDIKNAKKDAGASLGERQKKLFRDFFGISEQSENDKPSFTNPLNLTCCLLPFDTVNNNRNRGEVLFNKLKEYAQKLDKNEGSLEMWEYIGIGNSGTAFSNFLGEGFLGRLRENKITELKKAMMDITDAWRGQEQEEELEKRLRILAALTIKLREPKFDNHWGGYRSDINGKLSSWLQNYINQTVKIKEDLKGHKKDLKKAKEMINRFGESDTKEEAVVSSLLESIEKIVPDDSADDEKPDIPAIAIYRRFLSDGRLTLNRFVQREDVQEALIKERLEAEKKKKPKKRKKKSDAEDEKETIDFKELFPHLAKPLKLVPNFYGDSKRELYKKYKNAAIYTDALWKAVEKIYKSAFSSSLKNSFFDTDFDKDFFIKRLQKIFSVYRRFNTDKWKPIVKNSFAPYCDIVSLAENEVLYKPKQSRSRKSAAIDKNRVRLPSTENIAKAGIALARELSVAGFDWKDLLKKEEHEEYIDLIELHKTALALLLAVTETQLDISALDFVENGTVKDFMKTRDGNLVLEGRFLEMFSQSIVFSELRGLAGLMSRKEFITRSAIQTMNGKQAELLYIPHEFQSAKITTPKEMSRAFLDLAPAEFATSLEPESLSEKSLLKLKQMRYYPHYFGYELTRTGQGIDGGVAENALRLEKSPVKKREIKCKQYKTLGRGQNKIVLYVRSSYYQTQFLEWFLHRPKNVQTDVAVSGSFLIDEKKVKTRWNYDALTVALEPVSGSERVFVSQPFTIFPEKSAEEEGQRYLGIDIGEYGIAYTALEITGDSAKILDQNFISDPQLKTLREEVKGLKLDQRRGTFAMPSTKIARIRESLVHSLRNRIHHLALKHKAKIVYELEVSRFEEGKQKIKKVYATLKKADVYSEIDADKNLQTTVWGKLAVASEISASYTSQFCGACKKLWRAEMQVDETITTQELIGTVRVIKGGTLIDAIKDFMRPPIFDENDTPFPKYRDFCDKHHISKKMRGNSCLFICPFCRANADADIQASQTIALLRYVKEEKKVEDYFERFRKLKNIKVLGQMKKI.
该Cas9核酸酶具有两个功能性核酸内切酶结构域:RuvC和HNH。一经与标靶结合,Cas9经历构象变化,其使核酸酶结构域就定位以切开标靶DNA的相对股。Cas9-介导的DNA切开的最终结果是标靶DNA内(PAM序列上游约3-4个核苷酸)的双股断裂(DSB)。然后通过两种一般修复途径之一修复所得的DSB:(1)有效率但容易出错的非同源末端连接(NHEJ)途径;或(2)效率较低但高保真的同源定向修复(HDR)途径。
非同源末端连接(NHEJ)和/或同源定向修复(HDR)的“效率”可以通过任何方便的方法来计算。例如,在一些实施方式中,效率可以用成功的HDR的百分比来表示。例如,surveyor核酸酶测定法可用于生成切开产物,而产物与底物的比率可用于计算该百分比。例如,surveyor核酸酶可用于直接切开含有新整合的限制性内切酶识别序列(作为成功的HDR的成果)的DNA。被切开的底物越多,表示HDR百分比越高(HDR的效率越高)。作为说明性的例子,可以使用以下等式[(切开产物)/(底物加上切开产物)](例如,(b+c)/(a+b+c),其中“a”是DNA底物的条带强度,而“b”和“c”是切开产物)。
在一些实施方式中,效率可以用成功的NHEJ的百分比来表示。例如,T7核酸内切酶I测定法可用于产生切开产物,而产物与底物的比率可用于计算NHEJ的百分比。T7核酸内切酶I切开错配的异源双股螺旋DNA,其发生于野生和突变DNA股的杂交(NHEJ在原始断裂位点生成小的随机插入或缺失)。切开越多,表示NHEJ的百分比越高(NHEJ的效率越高)。作为说明性的例子,可以使用以下等式计算NHEJ的部分(百分比):(1-(1-(b+c)/(a+b+c))1/2)×100,其中“a”是DNA底物的条带强度,而“b”和“c”是切开产物(Ran等、Cell.2013Sep.12;154(6):1380-9;以及Ran等,Nat Protoc.2013Nov.;8(11):2281–2308)。
所述NHEJ修复途径是最活跃的修复机制,而它经常在DSB位点引起小的核苷酸插入或缺失。NHEJ-介导的DSB修复的随机性具有重要的实际意义,因为表达Cas9及gRNA或向导多核苷酸的细胞群体会导致多种多样的突变。在大多数实施方式中,NHEJ在标靶DNA中引起小的插入/缺失,其导致氨基酸的缺失、插入或移码突变,而这些突变导致被靶向的基因的开放阅读框(ORF)内的提前的终止密码子。理想的最终结果是被靶向的基因内的丧失-功能型突变。
NHEJ-介导的DSB修复经常中断基因的开放阅读框,而同源定向修复(HDR)可用于生成特定的核苷酸变化,其范围从单核苷酸的变化到大的插入,如添加荧光团或标签。为了将HDR用于基因编辑,可以将含有所期望序列的DNA修复模板与(单个或多个)gRNA和Cas9或Cas9切口酶一起递送入目标细胞类型中。该修复模板可以含有所期望的编排,以及紧接靶标的上游和下游的额外的同源序列(称为左&右同源臂)。每个同源臂的长度可以取决于将被引入的变化的大小,其中较大的插入需要更长的同源臂。该修复模板可以是单-股寡核苷酸,双-股寡核苷酸或双-股DNA质粒。即使在表达Cas9、gRNA和外源性修复模板的细胞中,HDR的效率通常也是低的(被修饰的等位基因<10%)。由于HDR发生在细胞周期的S和G2阶段,因此可以通过对细胞进行同步化来提高HDR的效率。涉及NHEJ的化学性或遗传性抑制基因也可以增加HDR频率。
在一些实施方式中,Cas9是修饰过的Cas9。给定的gRNA靶向序列可以在整个基因组中具有存在部分同源性的额外的位点。这些位点称为脱靶位点,并在设计gRNA时需要被考虑进去。除了优化gRNA设计外,还可以通过对Cas9进行修饰来提高CRISPR特异性。Cas9通过两个核酸酶结构域RuvC和HNH的合并的活性以生成双股断裂(DSB)。Cas9切口酶,SpCas9的D10A突变体,保留了一个核酸酶结构域并生成DNA切口而非DSB。该切口酶系统也可以与HDR-介导的基因编辑合并以供特定的基因编排。
在一些实施方式中,Cas9是一种变体Cas9蛋白。当与野生型Cas9蛋白的氨基酸序列相比时,变体Cas9多肽具有的氨基酸序列有一个氨基酸的不同(例如,具有缺失、插入、替换、融合)。在一些实例中,该变体Cas9多肽具有减低该Cas9多肽的核酸酶活性的氨基酸变化(例如,缺失、插入或替换)。例如,在一些实例中,该变体Cas9多肽,具有小于50%、小于40%、小于30%、小于20%、小于10%、小于5%、或小于1%的相应的野生型Cas9蛋白的核酸酶活性。在在一些实施方式中,该变体Cas9蛋白没有实质上的核酸酶活性。当一受试Cas9蛋白是不具有实质上的核酸酶活性的变体Cas9蛋白时,其可以被称为“dCas9”。
在一些实施方式中,变体Cas9蛋白具有减低的核酸酶活性。例如,变体Cas9蛋白展现出小于约20%、小于约15%、小于约10%、小于约5%、小于约1%、或小于约0.1%的野生型Cas9蛋白(例如野生型Cas9蛋白)的核酸内切酶活性。
在一些实施方式中,变体Cas9蛋白可以切开向导标靶序列的互补股,但是其切开双股向导标靶序列的非-互补股的能力是降低的。例如,该变体Cas9蛋白可能具有降低RuvC结构域功能的突变(氨基酸替换)。作为非限制性的例子,在一些实施方式中,Cas9变体蛋白具有D10A(在氨基酸位置10的天冬氨酸变为丙氨酸)突变,并因此可以切开双股导向标靶序列的互补股,但是其切开双股向导标靶序列的非-互补股的能力是降低的(因此,当该变体Cas9蛋白切开双股标靶核酸时,会得到单股断裂(SSB)而不是双股断裂(DSB))(参见例如Jinek等,Science.2012Aug.17;337(6096):816-21)。
在一些实施方式中,变体Cas9蛋白可以切开双股向导标靶序列的非-互补股,但是其切开向导标靶序列的互补股的能力是降低的。例如,该变体Cas9蛋白可能具有降低HNH结构域(RuvC/HNH/RuvC结构域基序)功能的突变(氨基酸替换)。作为非限制性的例子,在一些实施方式中,该变体Cas9蛋白具有H840A(在氨基酸位置840处的组氨酸变为丙氨酸)突变,并因此可以切开向导标靶序列的非-互补股,但是其切开向导标靶序列的互补股的能力是降低的(因此,当该变体Cas9蛋白切开双股标靶核酸时,会得到SSB而不是DSB)。此种Cas9蛋白切开向导标靶序列(例如,单股向导标靶序列)的能力是减低的,但是保留了结合向导标靶序列(例如,单股向导标靶序列)的能力。
在一些实施方式中,变体Cas9蛋白切开双股标靶DNA的互补股和非-互补股的能力均减低。作为非限制性的例子,在一些实施方式中,该变体Cas9蛋白带有D10A和H840A两个突变,使得该多肽切开双股标靶DNA的互补股和非-互补股的能力均减低。此种Cas9蛋白切开标靶DNA(例如,单股标靶DNA)的能力是减低的,但是保留了结合标靶DNA(例如,单股标靶DNA)的能力。
作为另一个非限制性的例子,在一些实施方式中,该变体Cas9蛋白带有W476A和W1126A两个突变,使得该多肽切开标靶DNA的能力是降低的。此种Cas9蛋白切开标靶DNA(例如,单股标靶DNA)的能力是减低的,但是保留了结合标靶DNA(例如,单股标靶DNA)的能力。
作为另一个非限制性的例子,在一些实施方式中,该变体Cas9蛋白带有P475A、W476A、N477A、D1125A、W1126A、和D1127A突变,使得该多肽切开标靶DNA的能力是减低的。此种Cas9蛋白切开标靶DNA(例如,单股标靶DNA)的能力是减低的,但是保留了结合标靶DNA(例如,单股标靶DNA)的能力。
作为另一个非限制性的例子,在一些实施方式中,该变体Cas9蛋白带有H840A、W476A、和W1126A突变,使得该多肽切开标靶DNA的能力是减低的。此种Cas9蛋白切开标靶DNA(例如,单股标靶DNA)的能力是减低的,但是保留了结合标靶DNA(例如,单股标靶DNA)的能力。作为另一个非限制性的例子,在一些实施方式中,该变体Cas9蛋白带有H840A、D10A、W476A、和W1126A突变,使得该多肽切开标靶DNA的能力是减低的。此种Cas9蛋白切开标靶DNA(例如,单股标靶DNA)的能力是减低的,但是保留了结合标靶DNA(例如,单股标靶DNA)的能力。在一些实施方式中,该变体Cas9已在Cas9 HNH结构域的位置840处复原了催化性的His残基(A840H)。
作为另一个非限制性的例子,在一些实施方式中,该变体Cas9蛋白带有H840A、P475A、W476A、N477A、D1125A、W1126A、和D1127A突变,使得该多肽切开标靶DNA的能力是减低的。此种Cas9蛋白切开标靶DNA(例如,单股标靶DNA)的能力是减低的,但是保留了结合标靶DNA(例如,单股标靶DNA)的能力。作为另一个非限制性的例子,在一些实施方式中,该变体Cas9蛋白带有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A、和D1127A突变,使得该多肽切开标靶DNA的能力是减低的。此种Cas9蛋白切开标靶DNA(例如,单股标靶DNA)的能力是减低的,但是保留了结合标靶DNA(例如,单股标靶DNA)的能力。在一些实施方式中,当变体Cas9蛋白带有W476A和W1126A两个突变时,或当该变体Cas9蛋白带有P475A、W476A、N477A、D1125A、W1126A、和D1127A突变时,该变体Cas9蛋白不能有效地结合到PAM序列上。因此,在一些此类实施方式中,当在结合的方法中使用此种变体Cas9蛋白时,该方法不需要PAM序列。换句话说,在一些实施方式中,当在结合的方法中使用此种变体Cas9蛋白时,该方法可以包含向导RNA,但该方法可以在不存在PAM序列的情况下执行(而结合的特异性因此是由向导RNA的靶向节段所提供)。可以使其他残基突变以获得上述效果(即,去活性化一个或另外一个核酸酶部分)。作为非限制性的例子,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、和/或A987可以被改变(即,被替换)。同样地,除丙氨酸替换以外的突变也是适合的。
在一些实施方式中,具有减低的催化活性的变体Cas9蛋白(例如,当Cas9蛋白具有D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、和/或A987突变,例如D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A、和/或D986A),只要它保留与向导RNA相互作用的能力,该变体Cas9蛋白仍能以位点-特异性的方式与标靶DNA结合(因为它仍可通过向导RNA被导向至标靶DNA序列)。
在一些实施方式中,该变体Cas蛋白可以是spCas9、spCas9-VRQR、spCas9-VRER、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER、spCas9-LRKIQK、或spCas9-LRVSQL。
在一些实施方式中,使用了修饰过的SpCas9,其包含氨基酸替换D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、和T1337R(SpCas9-MQKFRAER)并且对于所述改变过的PAM5’-NGC-3’有特异性。
化脓链球菌Cas9的替代物可以包含来自Cpf1家族的RNA-导向的核酸内切酶,其在哺乳动物细胞中显示出切开活性。来自普雷沃氏菌(Prevotella)和弗朗西丝菌1(Francisella 1)(CRISPR/Cpf1)的CRISPR是一种类似于CRISPR/Cas9系统的DNA-编辑技术。Cpf1是II类CRISPR/Cas系统的RNA-导向的核酸内切酶。在普雷沃氏菌和弗朗西丝菌细菌中发现了这种获得性免疫机制。Cpf1基因与CRISPR基因座相联,并编码一种核酸内切酶,该核酸内切酶使用向导RNA找到并切开病毒DNA。Cpf1是一种比Cas9小且简单的核酸内切酶,克服了CRISPR/Cas9系统的一些局限性。与Cas9核酸酶不同,Cpf1-介导的DNA切开的结果是带有短3'悬垂的双股断裂。Cpf1的参差的切开模式开辟了定向基因移转(类似于传统的限制性内切酶克隆)的可能性,而定向基因移转可以提高基因编辑的效率。像上述的Cas9变体和异种同源物一样,Cpf1也可以将可被CRISPR靶向的位点(数目)扩展到缺乏SpCas9所偏好的NGG PAM位点的AT-富集区域或AT-富集基因组。该Cpf1基因座含有混合的α/β结构域,RuvC-I,其后为螺旋区域、RuvC-II和锌指样结构域。该Cpf1蛋白具有RuvC样核酸内切酶结构域,其与Cas9的RuvC结构域相似。此外,Cpf1不具有HNH核酸内切酶结构域,并且Cpf1的N末端不具有Cas9的α-螺旋识别叶。Cpf1CRISPR-Cas结构域的结构显示Cpf1有独特的功能,其被归类为2类V型CRISPR系统。该Cpf1基因座编码的Cas1、Cas2和Cas4蛋白与II型系统相比更类似于I型和III型。功能性的Cpf1不需要反式-激活CRISPR RNA(tracrRNA),因此只需要CRISPR(crRNA)。这有利于基因组编辑,不仅因为Cpf1比Cas9小,而且其具有较小的sgRNA分子(约是Cas9核苷酸数的一半)。与Cas9所靶向的G-富集的PAM相反,该Cpf1-crRNA复合体通过识别原间隔序列邻近基序5'-YTN-3'而切开标靶DNA或RNA。在识别PAM之后,Cpf1引入一个粘性-末端-样的DNA双-股断裂,其具有4或5个核苷酸的悬垂。
核酸可编程的DNA结合蛋白
本公开披露的一些方面提供了融合蛋白,该融合蛋白包括充当核酸可编程的DNA结合蛋白的结构域,其可被用于将蛋白,诸如碱基编辑器,导向至特定的核酸(例如DNA或RNA)序列。在特定的实施方式中,融合蛋白包括核酸可编程的DNA结合蛋白结构域和一个或多个脱氨酶结构域。核酸可编程的DNA结合蛋白的非限制性实例包含:Cas9(例如dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、和Cas12i。Cas酶的非限制性实例包含:Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(也称为Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、Type II Cas效应蛋白、Type V Cas效应蛋白、Type VI Cas效应蛋白、CARF、DinG、其同源物,或其修饰过的或工程化的版本。其他核酸可编程的DNA结合蛋白也在此公开披露的范围内,尽管它们在本公开披露中可能未被明确列出。参见例如Makarova等,“Classification and Nomenclature ofCRISPR-Cas Systems:Where from Here?”CRISPR J.2018Oct;1:325-336.doi:10.1089/crispr.2018.0033;Yan等,“Functionally diverse type VCRISPR-Cas systems”Science.2019Jan 4;363(6422):88-91.doi:10.1126/science.aav7271,其每个的全部内容在此通过引用并入。
具有与Cas9不同的PAM特异性的核酸可编程的DNA-结合蛋白的一个实例是来自普雷沃氏菌和弗朗西丝菌1的规律成簇间隔短回文重复序列(Cpf1)。与Cas9类似,Cpf1也是2类CRISPR效应器。已经表明,Cpf1介导稳健的DNA干扰,而其特征不同于Cas9。Cpf1是欠缺tracrRNA的单一RNA-导向的内切核酸酶,它利用T-富集的原间隔序列-临近基序(TTN、TTTN、或YTN)。此外,Cpf1经由参差的DNA双股断裂来切开DNA。在16种Cpf1-家族蛋白中,来自氨基酸球菌属(Acidaminococcus)和毛螺菌科(Lachnospiraceae)的两种酶被证明在人类细胞中具有有效的基因组-编辑活性。Cpf1蛋白是本领域已知的并且之前已经描述过,例如Yamano等,“Crystal structure of Cpf1in complex with guide RNA and targetDNA.”Cell(165)2016,p.949-96;其全部内容在此通过引入并入。
可用于本发明组合物和方法的核酸酶-失活的Cpf1(dCpf1)变体可被用作向导核苷酸序列-可编程的DNA-结合蛋白结构域。该Cpf1蛋白具有与Cas9的RuvC结构域相似的RuvC-样核酸酶结构域,但不具有HNH核酸内切酶结构域,并且Cpf1的N末端不具有Cas9的α-螺旋识别叶。已经表明,在Zetsche等,Cell,163,759-771,2015(其通过引用並入本文),Cpf1的该RuvC-样结构域负责切开两条DNA股,并且该RuvC-样结构域的去活化会去活性化Cpf1核酸酶的活性。例如,与新弗朗西丝菌(Francisella novicida)Cpf1中的D917A、E1006A、或D1255A对应的突变去活性化Cpf1核酸酶活性。在一些实施方式中,本公开披露的dCpf1包括对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A、或D917A/E1006A/D1255A的突变。应当理解,可根据本公开披露使用任何去活性化Cpf1的RuvC结构域的突变,例如替换突变、缺失或插入。
在一些实施方式中,本文所提供的任何融合蛋白的核酸可编程的DNA结合蛋白(napDNAbp)可能是Cpf1蛋白。在一些实施方式中,该Cpf1蛋白是Cpf1切口酶(nCpf1)。在一些实施方式中,该Cpf1蛋白是核酸酶失活的Cpf1(dCpf1)。在一些实施方式中,该Cpf1、该nCpf1、或该dCpf1包括的氨基酸序列与本文所述的Cpf1序列的同一性是至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%。在一些实施方式中,该dCpf1包括的氨基酸序列与本文所述的Cpf1序列的同一性是至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%,并且包括对应于D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A、或D917A/E1006A/D1255A的突变。应当理解,可根据本公开披露使用来自其他细菌种类的Cpf1。
野生型新弗朗西丝菌Cpf1(D917、E1006、和D1255是粗体并有下划线)
MSIYQEFVNKYSLSKTLRFELIPQGKTLENIKARGLILDDEKRAKDYKKAKQIIDKYHQFFIEEILSSVCISEDLLQNYSDVYFKLKKSDDDNLQKDFKSAKDTIKKQISEYIKDSEKFKNLFNQNLIDAKKGQESDLILWLKQSKDNGIELFKANSDITDIDEALEIIKSFKGWTTYFKGFHENRKNVYSSNDIPTSIIYRIVDDNLPKFLENKAKYESLKDKAPEAINYEQIKKDLAEELTFDIDYKTSEVNQRVFSLDEVFEIANFNNYLNQSGITKFNTIIGGKFVNGENTKRKGINEYINLYSQQINDKTLKKYKMSVLFKQILSDTESKSFVIDKLEDDSDVVTTMQSFYEQIAAFKTVEEKSIKETLSLLFDDLKAQKLDLSKIYFKNDKSLTDLSQQVFDDYSVIGTAVLEYITQQIAPKNLDNPSKKEQELIAKKTEKAKYLSLETIKLALEEFNKHRDIDKQCRFEEILANFAAIPMIFDEIAQNK
Figure BDA0003286956470001311
新弗朗西丝菌Cpf1 D917A(A917、E1006、和D1255是粗体并有下划线)
Figure BDA0003286956470001312
Figure BDA0003286956470001321
新弗朗西丝菌Cpf1 E1006A(D917、A1006、和D1255是粗体并有下划线)
Figure BDA0003286956470001322
新弗朗西丝菌Cpf1 D1255A(D917、E1006、和A1255是粗体并有下划线)
Figure BDA0003286956470001323
Figure BDA0003286956470001331
新弗朗西丝菌Cpf1 D917A/E1006A(A917、A1006、和D1255是粗体并有下划线)
Figure BDA0003286956470001332
Figure BDA0003286956470001341
新弗朗西丝菌Cpf1 D917A/D1255A(A917、E1006、和A1255是粗体并有下划线)
Figure BDA0003286956470001342
新弗朗西丝菌Cpf1 E1006A/D1255A(D917、A1006、和A1255是粗体并有下划线)
Figure BDA0003286956470001343
Figure BDA0003286956470001351
新弗朗西丝菌Cpf1 D917A/E1006A/D1255A(A917、A1006、和A1255是粗体并有下划线)
Figure BDA0003286956470001352
在一些实施方式中,融合蛋白中存在的Cas9结构域之一可被对PAM序列没有要求的向导核苷酸序列-可编程的DNA-结合蛋白结构域所取代。
在一些实施方式中,该Cas9结构域是来自金黄色葡萄球菌的Cas9结构域(SaCas9)。在一些实施方式中,该SaCas9结构域是核酸酶活性的SaCas9,核酸酶失活的SaCas9(SaCas9d),或SaCas9切口酶(SaCas9n)。在一些实施方式中,该SaCas9包括N579A突变,或本文所提供的任一氨基酸序列中的相应突变.
在一些实施方式中,该SaCas9结构域,该SaCas9d结构域,或该SaCas9n结构域可以结合具有非-正准PAM的核酸序列。在一些实施方式中,该SaCas9结构域、该SaCas9d结构域或该SaCas9n结构域可以结合具有NNGRRT或NNGRRT PAM序列的核酸序列。在一些实施方式中,该SaCas9结构域包括E781X、N967X和R1014X突变中的一个或多个,或本文所提供的任何氨基酸序列中的相应突变,其中X是任一氨基酸。在一些实施方式中,该SaCas9结构域包括E781K,N967K和R1014H突变中的一个或多个,或者本文所提供的任何氨基酸序列中的一个或多个相应突变。在一些实施方式中,该SaCas9结构域包括E781K,N967K或R1014H突变,或本文所提供的任何氨基酸序列中的相应突变。
示例性的SaCas9序列
Figure BDA0003286956470001361
上方的残基N579,其带有下划线和以粗体显示,可对其突变(例如,变为A579)以产生SaCas9切口酶。
示例性的SaCas9n序列
Figure BDA0003286956470001371
上方的残基A579,其可以由N579突变而来以产生SaCas9切口酶,带有下划线和以粗体显示。
示例性的SaKKH Cas9
Figure BDA0003286956470001372
上方的残基A579,其可以由N579突变而来以产生SaCas9切口酶,带有下划线和以粗体显示。上方的残基K781、K967、和H1014,其可以由E781、N967、和R1014突变而来以产生SaKKH Cas9,带有下划线和以斜体显示。
在一些实施方式中,该napDNAbp是环状变换排列体。在以下序列中,纯文本表示腺苷脱氨酶序列,粗体序列表示衍生自Cas9的序列,斜体序列表示链接子序列,而下划线序列表示双分型核定位序列。
CP5(具有MSP“NGC”PID和“D10A”切口酶):
Figure BDA0003286956470001381
在一些实施方式中,该核酸可编程的DNA结合蛋白(napDNAbp)是微生物CRISPR-Cas系统的单一效应器。微生物CRISPR-Cas系统的单一效应器包含但不限于:Cas9、Cpf1、Cas12b/C2c1、和Cas12c/C2c3。通常,微生物CRISPR-Cas系统分为1类和2类系统。1类系统具有多亚基效应器复合体,而2类系统具有单一蛋白效应器。例如,Cas9和Cpf1是2类效应器。除了Cas9和Cpf1,三个不同的2类CRISPR-Cas系统(Cas12b/C2c1、和Cas12c/C2c3)已被如下文献描述:Shmakov等,“Discovery and Functional Characterization of DiverseClass 2CRISPR Cas Systems”,Mol.Cell,2015Nov.5;60(3):385-397,其全部内容在此通过引用并入。其中两个系统Cas12b/C2c1和Cas12c/C2c3的效应器,含有与Cpf1相关的RuvC-样核酸内切酶结构域。第三个系统含有具有两个预测的HEPN RNase结构域的效应器。成熟CRISPR RNA的生产不依赖于tracrRNA,这不同于通过Cas12b/C2c1生产的CRISPR RNA。Cas12b/C2c1对DNA的切开依赖CRISPR RNA和tracrRNA两者。
酸土脂环酸芽孢杆菌Cas12b/C2c1(AacC2c1)与嵌合的单-分子向导RNA(sgRNA)的复合体的晶体结构已被报道,参见例如Liu等,“C2c1-sgRNA复合体结构揭示了RNA-导向的DNA切开机制”,Mol.Cell,2017Jan.19;65(2):310-322,其全部内容在此通过引用并入。以三元复合体形式与标靶DNA结合的酸土脂环酸芽孢杆菌C2c1的晶体结构也被报道。参见例如Yang等,“PAM-dependent Target DNA Recognition and Cleavage by C2C1 CRISPR-Cas endonuclease”,Cell,2016Dec.15;167(7):1814-1828,其全部内容在此通过引用并入。AacC2c1的催化胜任的两个构象(带有标靶和非-标靶DNA股)已被独立地捕捉到,其就定位在单一RuvC催化口袋内,伴随着Cas12b/C2c1-介导的切开导致标靶DNA的参差的七-核苷酸断裂。Cas12b/C2c1三元复合体与先前鉴别的Cas9和Cpf1对应物之间的结构比较展示了CRISPR-Cas9系统所用机制的多样性。
在一些实施方式中,本文所提供的任何融合蛋白的核酸可编程的DNA结合蛋白(napDNAbp)可能是Cas12b/C2c1,或Cas12c/C2c3蛋白。在一些实施方式中,该napDNAbp是Cas12b/C2c1蛋白。在一些实施方式中,该napDNAbp是Cas12c/C2c3蛋白。在一些实施方式中,该napDNAbp包括的氨基酸序列与天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白是至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。在一些实施方式中,该napDNAbp是天然存在的Cas12b/C2c1或Cas12c/C2c3蛋白。在一些实施方式中,该napDNAbp包括的氨基酸序列与本文所提供的任一napDNAbp序列至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。应该理解,来自其他细菌种类的Cas12b/C2c1或Cas12c/C2c3也可以根据本公开披露而被使用。
Cas12b/C2c1((uniprot.org/uniprot/T0D7A2#2)sp|T0D7A2|
C2C1_ALIAG CRISPR-关联核酸内切酶C2c1 OS=酸土脂环酸芽孢杆菌(菌株ATCC49025/DSM 3922/CIP 106132/NCIMB 13137/GD3B)GN=c2c1 PE=1SV=1)氨基酸序列如下:
MAVKSIKVKLRLDDMPEIRAGLWKLHKEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECDKTAEECKAELLERLRARQVENGHRGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKEKAETRKSADRTADVLRALADFGLKPLMRVYTDSEMSSVEWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGQEYAKLVEQ
KNRFEQKNFVGQEHLVHLVNQLQQDMKEASPGLESKEQTAHYVTGRALRGSDKVFEKWGKLAPDAPFDLYDAEIKNVQRRNTRRFGSHDLFAKLAEPEYQALWREDASFLTRYAVYNSILRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGERRHAIRFHKLLKVENGVAREVDDVTVPISMSEQLDNLLPRDPNEPIALYFRDYGAEQHFTGEFGGAKIQCRRDQLAHMHRRRGARDVYLNVSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSKGRVPFFFPIKGNDNLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPVDAANHMTPDWREAFENELQKLKSLHGICSDKEWMDAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYAKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELINQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCTQEHNPEPFPWWLNKFVVEHTLDACPLRADDLIPTGEGEIFVSPFSAEEGDFHQIHADLNAAQNLQQRLWSDFDISQIRLRCDWGEVDGELVLIPRLTGKRTADSYSNKVFYTNTGVTYYERERGKKRRKVFAQEKLSEEEAELLVEADEAREKSVVLMRDPSGIINRGNWTRQKEFWSMV NQRIEGYLVKQIRSRVPLQDSACENTGDI.
AacCas12b(嗜酸脂环酸芽孢杆菌(Alicyclobacillus acidiphilus))-WP_067623834
MAVKSMKVKLRLDNMPEIRAGLWKLHTEVNAGVRYYTEWLSLLRQENLYRRSPNGDGEQECYKTAEECKAELLERLRARQVENGHCGPAGSDDELLQLARQLYELLVPQAIGAKGDAQQIARKFLSPLADKDAVGGLGIAKAGNKPRWVRMREAGEPGWEEEKAKAEARKSTDRTADVLRALADFGLKPLMRVYTDSDMSSVQWKPLRKGQAVRTWDRDMFQQAIERMMSWESWNQRVGEAYAKLVEQKSRFEQKNFVGQEHLVQLVNQLQQDMKEASHGLESKEQTAHYLTGRALRGSDKVFEKWEKLDPDAPFDLYDTEIKNVQRRNTRRFGSHDLFAKLAEPKYQALWREDASFLTRYAVYNSIVRKLNHAKMFATFTLPDATAHPIWTRFDKLGGNLHQYTFLFNEFGEGRHAIRFQKLLTVEDGVAKEVDDVTVPISMSAQLDDLLPRDPHELVALYFQDYGAEQHLAGEFGGAKIQYRRDQLNHLHARRGARDVYLNLSVRVQSQSEARGERRPPYAAVFRLVGDNHRAFVHFDKLSDYLAEHPDDGKLGSEGLLSGLRVMSVDLGLRTSASISVFRVARKDELKPNSEGRVPFCFPIEGNENLVAVHERSQLLKLPGETESKDLRAIREERQRTLRQLRTQLAYLRLLVRCGSEDVGRRERSWAKLIEQPMDANQMTPDWREAFEDELQKLKSLYGICGDREWTEAVYESVRRVWRHMGKQVRDWRKDVRSGERPKIRGYQKDVVGGNSIEQIEYLERQYKFLKSWSFFGKVSGQVIRAEKGSRFAITLREHIDHAKEDRLKKLADRIIMEALGYVYALDDERGKGKWVAKYPPCQLILLEELSEYQFNNDRPPSENNQLMQWSHRGVFQELLNQAQVHDLLVGTMYAAFSSRFDARTGAPGIRCRRVPARCAREQNPEPFPWWLNKFVAEHKLDGCPLRADDLIPTGEGEFFVSPFSAEEGDFHQIHADLNAAQNLQRRLWSDFDISQIRLRCDWGEVDGEPVLIPRTTGKRTADSYGNKVFYTKTGVTYYERERGKKRRKVFAQEELSEEEAELLVEADEAREKSVVLMRDPSGIINRGDWTRQKEFWSMVNQRIEGYLVKQIRSRVRLQESACENTGDI
BhCas12b(hisashii芽孢杆菌)NCBI参考序列:WP_095142515MAPKKKRKVGIHGVPAAATRSFILKIEPNEEVKKGLWKTHEVLNHGIAYYMNILKLIRQEAIYEHHEQDPKNPKKVSKAEIQAELWDFVLKMQKCNSFTHEVDKDEVFNILRELYEELVPSSVEKKGEANQLSNKFLYPLVDPNSQSGKGTASSGRKPRWYNLKIAGDPSWEEEKKKWEEDKKKDPLAKILGKLAEYGLIPLFIPYTDSNEPIVKEIKWMEKSRNQSVRRLDKDMFIQALERFLSWESWNLKVKEEYEKVEKEYKTLEERIKEDIQALKALEQYEKERQEQLLRDTLNTNEYRLSKRGLRGWREIIQKWLKMDENEPSEKYLEVFKDYQRKHPREAGDYSVYEFLSKKENHFIWRNHPEYPYLYATFCEIDKKKKDAKQQATFTLADPINHPLWVRFEERSGSNLNKYRILTEQLHTEKLKKKLTVQLDRLIYPTESGGWEEKGKVDIVLLPSRQFYNQIFLDIEEKGKHAFTYKDESIKFPLKGTLGGARVQFDRDHLRRYPHKVESGNVGRIYFNMTVNIEPTESPVSKSLKIHRDDFPKVVNFKPKELTEWIKDSKGKKLKSGIESLEIGLRVMSIDLGQRQAAAASIFEVVDQKPDIEGKLFFPIKGTELYAVHRASFNIKLPGETLVKSREVLRKAREDNLKLMNQKLNFLRNVLHFQQFEDITEREKRVTKWISRQENSDVPLVYQDELIQIRELMYKPYKDWVAFLKQLHKRLEVEIGKEVKHWRKSLSDGRKGLYGISLKNIDEIDRTRKFLLRWSLRPTEPGEVRRLEPGQRFAIDQLNHLNALKEDRLKKMANTIIMHALGYCYDVRKKKWQAKNPACQIILFEDLSNYNPYEERSRFENSKLMKWSRREIPRQVALQGEIYGLQVGEVGAQFSSRFHAKTGSPGIRCSVVTKEKLQDNRFFKNLQREGRLTLDKIAVLKEGDLYPDKGGEKFISLSKDRKCVTTHADINAAQNLQKRFWTRTHGFYKVYCKAYQVDGQTVYIPESKDQKQKIIEEFGEGYFILKDGVYEWVNAGKLKIKKGSSKQSSSELVDSDILKDSFDLASELKGEKLMLYRDPSGNVFPSDKWMAAGVFFGKLERILISKLTNQYSISTIEDDSSKQSMKRPAATKKAGQAKKKK
包括称为BvCas12b V4的变体(S893R/K846R/E837G变化,相对于上述野生型)
BhCas12b(V4)表示如下:5’mRNA帽---5’UTR---bhCas12b---终止(STOP)序列---3’UTR---120多聚A尾
5’UTR:
GGGAAATAAGAGAGAAAAGAAGAGTAAGAAGAAATATAAGAGCCACC
3’UTR(TriLink标准的UTR)
GCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTGGGCCTCCCCCCAGCCCCTCCTCCCCTTCCTGCACCCGTACCCCCGTGGTCTTTGAATAAAGTCTGA
bhCas12b(V4)的核酸序列
ATGGCCCCAAAGAAGAAGCGGAAGGTCGGTATCCACGGAGTCCCAGCAGCCGCCACCAGATCCTTCATCCTGAAGATCGAGCCCAACGAGGAAGTGAAGAAAGGCCTCTGGAAAACCCACGAGGTGCTGAACCACGGAATCGCCTACTACATGAATATCCTGAAGCTGATCCGGCAAGAGGCCATCTACGAGCACCACGAGCAGGACCCCAAGAATCCCAAGAAGGTGTCCAAGGCCGAGATCCAGGCCGAGCTGTGGGATTTCGTGCTGAAGATGCAGAAGTGCAACAGCTTCACACACGAGGTGGACAAGGACGAGGTGTTCAACATCCTGAGAGAGCTGTACGAGGAACTGGTGCCCAGCAGCGTGGAAAAGAAGGGCGAAGCCAACCAGCTGAGCAACAAGTTTCTGTACCCTCTGGTGGACCCCAACAGCCAGTCTGGAAAGGGAACAGCCAGCAGCGGCAGAAAGCCCAGATGGTACAACCTGAAGATTGCCGGCGATCCCTCCTGGGAAGAAGAGAAGAAGAAGTGGGAAGAAGATAAGAAAAAGGACCCGCTGGCCAAGATCCTGGGCAAGCTGGCTGAGTACGGACTGATCCCTCTGTTCATCCCCTACACCGACAGCAACGAGCCCATCGTGAAAGAAATCAAGTGGATGGAAAAGTCCCGGAACCAGAGCGTGCGGCGGCTGGATAAGGACATGTTCATTCAGGCCCTGGAACGGTTCCTGAGCTGGGAGAGCTGGAACCTGAAAGTGAAAGAGGAATACGAGAAGGTCGAGAAAGAGTACAAGACCCTGGAAGAGAGGATCAAAGAGGACATCCAGGCTCTGAAGGCTCTGGAACAGTATGAGAAAGAGCGGCAAGAACAGCTGCTGCGGGACACCCTGAACACCAACGAGTACCGGCTGAGCAAGAGAGGCCTTAGAGGCTGGCGGGAAATCATCCAGAAATGGCTGAAAATGGACGAGAACGAGCCCTCCGAGAAGTACCTGGAAGTGTTCAAGGACTACCAGCGGAAGCACCCTAGAGAGGCCGGCGATTACAGCGTGTACGAGTTCCTGTCCAAGAAAGAGAACCACTTCATCTGGCGGAATCACCCTGAGTACCCCTACCTGTACGCCACCTTCTGCGAGATCGACAAGAAAAAGAAGGACGCCAAGCAGCAGGCCACCTTCACACTGGCCGATCCTATCAATCACCCTCTGTGGGTCCGATTCGAGGAAAGAAGCGGCAGCAACCTGAACAAGTACAGAATCCTGACCGAGCAGCTGCACACCGAGAAGCTGAAGAAAAAGCTGACAGTGCAGCTGGACCGGCTGATCTACCCTACAGAATCTGGCGGCTGGGAAGAGAAGGGCAAAGTGGACATTGTGCTGCTGCCCAGCCGGCAGTTCTACAACCAGATCTTCCTGGACATCGAGGAAAAGGGCAAGCACGCCTTCACCTACAAGGATGAGAGCATCAAGTTCCCTCTGAAGGGCACACTCGGCGGAGCCAGAGTGCAGTTCGACAGAGATCACCTGAGAAGATACCCTCACAAGGTGGAAAGCGGCAACGTGGGCAGAATCTACTTCAACATGACCGTGAACATCGAGCCTACAGAGTCCCCAGTGTCCAAGTCTCTGAAGATCCACCGGGACGACTTCCCCAAGGTGGTCAACTTCAAGCCCAAAGAACTGACCGAGTGGATCAAGGACAGCAAGGGCAAGAAACTGAAGTCCGGCATCGAGTCCCTGGAAATCGGCCTGAGAGTGATGAGCATCGACCTGGGACAGAGACAGGCCGCTGCCGCCTCTATTTTCGAGGTGGTGGATCAGAAGCCCGACATCGAAGGCAAGCTGTTTTTCCCAATCAAGGGCACCGAGCTGTATGCCGTGCACAGAGCCAGCTTCAACATCAAGCTGCCCGGCGAGACACTGGTCAAGAGCAGAGAAGTGCTGCGGAAGGCCAGAGAGGACAATCTGAAACTGATGAACCAGAAGCTCAACTTCCTGCGGAACGTGCTGCACTTCCAGCAGTTCGAGGACATCACCGAGAGAGAGAAGCGGGTCACCAAGTGGATCAGCAGACAAGAGAACAGCGACGTGCCCCTGGTGTACCAGGA
TGAGCTGATCCAGATCCGCGAGCTGATGTACAAGCCTTACAAGGACTGGGTCGCCTTCCTGAAGCAGCTCCACAAGAGACTGGAAGTCGAGATCGGCAAAGAAGTGAAGCACTGGCGGAAGTCCCTGAGCGACGGAAGAAAGGGCCTGTACGGCATCTCCCTGAAGAACATCGACGAGATCGATCGGACCCGGAAGTTCCTGCTGAGATGGTCCCTGAGGCCTACCGAACCTGGCGAAGTGCGTAGACTGGAACCCGGCCAGAGATTCGCCATCGACCAGCTGAATCACCTGAACGCCCTGAAAGAAGATCGGCTGAAGAAGATGGCCAACACCATCATCATGCACGCCCTGGGCTACTGCTACGACGTGCGGAAGAAGAAATGGCAGGCTAAGAACCCCGCCTGCCAGATCATCCTGTTCGAGGATCTGAGCAACTACAACCCCTACGAGGAAAGGTCCCGCTTCGAGAACAGCAAGCTCATGAAGTGGTCCAGACGCGAGATCCCCAGACAGGTTGCACTGCAGGGCGAGATCTATGGCCTGCAAGTGGGAGAAGTGGGCGCTCAGTTCAGCAGCAGATTCCACGCCAAGACAGGCAGCCCTGGCATCAGATGTAGCGTCGTGACCAAAGAGAAGCTGCAGGACAATCGGTTCTTCAAGAATCTGCAGAGAGAGGGCAGACTGACCCTGGACAAAATCGCCGTGCTGAAAGAGGGCGATCTGTACCCAGACAAAGGCGGCGAGAAGTTCATCAGCCTGAGCAAGGATCGGAAGTGCGTGACCACACACGCCGACATCAACGCCGCTCAGAACCTGCAGAAGCGGTTCTGGACAAGAACCCACGGCTTCTACAAGGTGTACTGCAAGGCCTACCAGGTGGACGGCCAGACCGTGTACATCCCTGAGAGCAAGGACCAGAAGCAGAAGATCATCGAAGAGTTCGGCGAGGGCTACTTCATTCTGAAGGACGGGGTGTACGAATGGGTCAACGCCGGCAAGCTGAAAATCAAGAAGGGCAGCTCCAAGCAGAGCAGCAGCGAGCTGGTGGATAGCGACATCCTGAAAGACAGCTTCGACCTGGCCTCCGAGCTGAAAGGCGAAAAGCTGATGCTGTACAGGGACCCCAGCGGCAATGTGTTCCCCAGCGACAAATGGATGGCCGCTGGCGTGTTCTTCGGAAAGCTGGAACGCATCCTGATCAGCAAGCTGACCAACCAGTACTCCATCAGCACCATCGAGGACGACAGCAGCAAGCAGTCTATGAAAAGGCCGGCGGCCACGAAAAAGGCCGGCCAGGCAAAAAAGAAAAAG
在一些实施方式中,该Cas12b是BvCas12B,其为BhCas12b的变体并且包括如下相对于BhCas12B的变化:S893R、K846R、和E837G。
BvCas12b(芽孢杆菌sp.V3-13)NCBI参考序列:WP_101661451.1MAIRSIKLKMKTNSGTDSIYLRKALWRTHQLINEGIAYYMNLLTLYRQEAIGDKTKEAYQAELINIIRNQQRNNGSSEEHGSDQEILALLRQLYELIIPSSIGESGDANQLGNKFLYPLVDPNSQSGKGTSNAGRKPRWKRLKEEGNPDWELEKKKDEERKAKDPTVKIFDNLNKYGLLPLFPLFTNIQKDIEWLPLGKRQSVRKWDKDMFIQAIERLLSWESWNRRVADEYKQLKEKTESYYKEHLTGGEEWIEKIRKFEKERNMELEKNAFAPNDGYFITSRQIRGWDRVYEKWSKLPESASPEELWKVVAEQQNKMSEGFGDPKVFSFLANRENRDIWRGHSERIYHIAAYNGLQKKLSRTKEQATFTLPDAIEHPLWIRYESPGGTNLNLFKLEEKQKKNYYVTLSKIIWPSEEKWIEKENIEIPLAPSIQFNRQIKLKQHVKGKQEISFSDYSSRISLDGVLGGSRIQFNRKYIKNHKELLGEGDIGPVFFNLVVDVAPLQETRNGRLQSPIGKALKVISSDFSKVIDYKPKELMDWMNTGSASNSFGVASLL
EGMRVMSIDMGQRTSASVSIFEVVKELPKDQEQKLFYSINDTELFAIHKRSFLLNLPGEVVTKNNKQQRQERRKKRQFVRSQIRMLANVLRLETKKTPDERKKAIHKLMEIVQSYDSWTASQKEVWEKELNLLTNMAAFNDEIWKESLVELHHRIEPYVGQIVSKWRKGLSEGRKNLAGISMWNIDELEDTRRLLISWSKRSRTPGEANRIETDEPFGSSLLQHIQNVKDDRLKQMANLIIMTALGFKYDKEEKDRYKRWKETYPACQIILFENLNRYLFNLDRSRRENSRLMKWAHRSIPRTVSMQGEMFGLQVGDVRSEYSSRFHAKTGAPGIRCHALTEEDLKAGSNTLKRLIEDGFINESELAYLKKGDIIPSQGGELFVTLSKRYKKDSDNNELTVIHADINAAQNLQKRFWQQNSEVYRVPCQLARMGEDKLYIPKSQTETIKKYFGKGSFVKNNTEQEVYKWEKSEKMKIKTDTTFDLQDLDGFEDISKTIELAQEQQKKYLTMFRDPSGYFFNNETWRPQKEYWSIVNNIIKSCLKKKILSNKVEL
向导多核苷酸
在一实施方式中,该向导多核苷酸是向导RNA。RNA/Cas复合体可以帮助将Cas蛋白“导向”到标靶DNA。Cas9/crRNA/tracrRNA以核酸内裂解的方式切开与间隔序列互补的线性或环状dsDNA标靶。不与crRNA互补的标靶股先以核酸内裂解的方式被切割,然后以核酸外裂解的方式被3′-5′修剪。在自然界中,DNA-结合和切开通常需要蛋白和两种RNA。然而,可以工程化单一向导RNAs(“sgRNA”、或简称“gNRA”)以便将crRNA和tracrRNA的各方面都并入单一RNA种类之中。参见例如Jinek M.等,Science 337:816-821(2012),其全部内容在此通过引用并入。Cas9识别CRISPR重复序列中的短基序(PAM或原间隔序列临近基序)以帮助区分自体与非自体。Cas9核酸酶序列和结构是本领域技术人员熟知的(参见例如“Completegenome sequence of an M1 strain of Streptococcus pyogenes.”Ferretti,J.J.等,Proc.Natl.Acad.Sci.U.S.A.98:4658-4663(2001);“CRISPR RNA maturation by trans-encoded small RNA and host factor RNase III.”Deltcheva E.等,Nature 471:602-607(2011);以及“Programmable dual-RNA-guided DNA endonuclease in adaptivebacterial immunity.”Jinek M.等,Science 337:816-821(2012),其每个的全部内容通过引用并入本文)。已在各种物种中描述了Cas9的异种同源物,包含但不限于化脓链球菌和嗜热链球菌。基于本公开披露,额外的适合的Cas9核酸酶和序列对于本领域技术人员将是显而易见的,并且此种Cas9核酸酶和序列包含来自Chylinski、Rhun和Charpentier“ThetracrRNA and Cas9 families of type II CRISPR-Cas immunity systems”(2013)RNABiology 10:5、726-737中所揭示的生物体和基因座的Cas9序列;其全部内容通过引用并入本文。在一些实施方式中,Cas9核酸酶具有失活的(例如,去活性化的)DNA切开结构域,即,该Cas9是切口酶。
在一些实施方式中,该向导多核苷酸是至少一种单一向导RNA(“sgRNA”或“gNRA”)。在一些实施方式中,该向导多核苷酸是至少一种tracrRNA。在一些实施方式中,该向导多核苷酸不需要PAM序列以将该多核苷酸-可编程的DNA-结合结构域(例如Cas9或Cpf1)导向至标靶核苷酸序列。
本文所揭示的碱基编辑器的多核苷酸可编程的核苷酸结合结构域(例如CRISPR-衍生的结构域)可以通过与向导多核苷酸相联而识别标靶多核苷酸。向导多核苷酸(例如gRNA)通常是单股并可以被编程为位点特异性地结合(即,经由互补的碱基配对)多核苷酸的标靶序列,从而导引与该向导核酸相连的碱基编辑器到标靶序列。向导多核苷酸可以是DNA。向导多核苷酸可以是RNA。在一些实施方式中,该向导多核苷酸包括天然核苷酸(例如腺苷)。在一些实施方式中,该向导多核苷酸包括非-天然的(或不天然的)核苷酸(例如肽核酸或核苷酸类似物)。在一些实施方式中,该向导核酸序列的靶向区域可以是至少15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、或30个核苷酸的长度。向导核酸的靶向区域可以是在10-30个核苷酸之间的长度,或15-25个核苷酸之间的长度,或15-20个核苷酸之间的长度。
在一些实施方式中,向导多核苷酸包括两个或更多个的单个多核苷酸,其可以经由例如互补碱基配对(例如,双重向导多核苷酸)而彼此相互作用。例如,向导多核苷酸可以包括CRISPR RNA(crRNA)和反式-激活的CRISPR RNA(tracrRNA)。例如,向导多核苷酸可以包括一个或多个反式-激活的CRISPR RNA(tracrRNA)。
在II型CRISPR系统中,通过CRISPR蛋白(例如Cas9)靶向核酸通常需要第一RNA分子(crRNA)(其包括识别靶序列的序列),与第二RNA分子(trRNA)(其包括重复序列,该重复序列形成稳定化向导RNA-CRISPR蛋白复合体的支架区域)之间的互补碱基配对。此种双重向导RNA系统可用作向导多核苷酸,以导引本文所揭示的碱基编辑器到标靶多核苷酸序列。
在一些实施方式中,本文所提供的碱基编辑器利用单一向导多核苷酸(例如gRNA)。在一些实施方式中,本文所提供的碱基编辑器利用双重向导多核苷酸(例如双重gRNA)。在一些实施方式中,本文所提供的碱基编辑器利用一个或多个向导多核苷酸(例如多重gRNA)。在一些实施方式中,单一向导多核苷酸被用于本文所述的不同碱基编辑器。例如,单一向导多核苷酸可被用于胞苷碱基编辑器和腺苷碱基编辑器。
在其他实施方式中,向导多核苷酸可以在单一分子(即,单-分子向导核酸)中包括该核酸的多核苷酸标靶部分和该核酸的支架部分。例如,单-分子向导多核苷酸可以是单一向导RNA(sgRNA或gRNA)。在本文中,术语向导多核苷酸序列预期任何能够与碱基编辑器相互作用并将其导引至标靶多核苷酸序列的单一、双重或多-分子核酸。
通常,向导多核苷酸(例如crRNA/trRNA复合体或gRNA)包括“多核苷酸-靶向节段”,其包含能够识别并结合标靶多核苷酸序列的序列,以及“蛋白-结合节段”,其稳定化碱基编辑器的多核苷酸可编程的核苷酸结合结构域组分内的向导多核苷酸。在一些实施方式中,该向导多核苷酸的多核苷酸靶向节段识别并结合DNA多核苷酸,从而促进DNA内的碱基的编辑。在其他实施方式中,该向导多核苷酸的多核苷酸靶向节段识别并结合多核苷酸,从而促进RNA内的碱基的编辑。本文中“节段”是指分子的节或区域,例如,向导多核苷酸中的接连的一段核苷酸。节段也可指复合体的区域/节,使得节段可以包括多于一个分子的区域。例如,当向导多核苷酸包括多个核酸分子时,该蛋白-结合节段可以包含(例如沿着互补区域杂交的)多个单独分子的全部或部分。在一些实施方式中,包括两个单独分子的DNA-靶向RNA的蛋白-结合节段可以包括(i)长度为100个碱基对的第一RNA分子的第40-75个碱基对;和(ii)长度为50个碱基对的第二RNA分子的第10-25个碱基对。“节段”的定义,除非在特定上下文中另有特别定义,不限于特定数目的总碱基对,不限于来自给定RNA分子的任何特定数目的碱基对,不限于复合体内的单独分子的特定数目,并且可以包含任何总长度的RNA分子的区域,且可以包含与其他分子互补的区域。
向导RNA或向导多核苷酸可以包括两种或更多种RNAs,例如CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)。向导RNA或向导多核苷酸有时可以包括单-链RNA,或单一向导RNA(sgRNA),其由tracrRNA和crRNA的一部分(例如,功能性部分)融合而成。向导RNA或向导多核苷酸也可是双重RNA,其包括crRNA和tracrRNA。此外,crRNA可以与标靶DNA杂交。
如上所述,向导RNA或向导多核苷酸可以是表达的产物。例如,编码向导RNA的DNA可以是包括用编码向导RNA的序列的载体。通过用分离的向导RNA或质粒DNA(包括编码向导RNA和启动子的序列)转染,可以将向导RNA或向导多核苷酸移转进入细胞中。也可用其他方式将向导RNA或向导多核苷酸移转进入细胞中,诸如使用病毒-介导的基因递送。
可以分离向导RNA或向导多核苷酸。例如,可以将向导RNA以经分离的RNA的形式转染进入细胞中或生物体中。可以使用本领域已知的任何体外转录系统通过体外转录来制备向导RNA。可以将向导RNA以经分离的RNA的形式移转进入细胞中,而不是以包括向导RNA编码序列的质粒的形式。
向导RNA或向导多核苷酸可以包括三个区域:位于5’端的可以与染色体序列中的标靶位点互补的第一区域,可以形成茎环结构的第二内部区域,以及可以是单股的3’端的第三区域。每个向导RNA的第一区域也可以是不同的,使得每个向导RNA将融合蛋白导向到特定的标靶位点。此外,每个向导RNA的第二和第三区域在所有向导RNA中可以是相同的。
向导RNA或向导多核苷酸的第一区域可以在染色体序列中的标靶位点处互补,使得该向导RNA的第一区域可以与该标靶位点碱基配对。在一些实施方式中,向导RNA的第一区域可以包括从或从约10个核苷酸到25个核苷酸(即,从10个核苷酸到25个核苷酸;或从约10个核苷酸到约25个核苷酸;或从10个核苷酸到约25个核苷酸;或从约10个核苷酸到25个核苷酸)或更多个。例如,向导RNA的第一区域与染色体序列中标靶位点之间的碱基配对区域可以是或可以是约10、11、12、13、14、15、16、17、18、19、20、22、23、24、25、或更多个核苷酸的长度。有时,向导RNA的第一区域可以是或可以是约19、20、或21个核苷酸的长度。
向导RNA或向导多核苷酸也可包括形成二级结构的第二区域。例如,由向导RNA所形成的二级结构可以包括茎(或发夹)和环。环和茎的长度可以变化。例如,环的长度范围可以是从或从约3到10个核苷酸,而长度的范围可以是从或从约6到20个碱基对。茎可包括一个或多个1到10个或约10个核苷酸的凸起。第二区域的总长度可以是在约16到60个核苷酸的长度范围内。例如,环可以是或可以是约4个核苷酸的长度,而茎可以是或可以是约12个碱基对。
向导RNA或向导多核苷酸也可以在3’端包括第三区域,其可以基本上是单股的。例如,第三区域有时与目标细胞中的任何染色体序列都不互补,而有时与向导RNA的其余部分不互补。此外,第三区域的长度可以变化。第三区域的长度可以多于或多于约4个核苷酸。例如,第三区域的长度可以是在约5到60个核苷酸的长度范围内。
向导RNA或向导多核苷酸可以靶向基因标靶的任何外显子或内含子。在一些实施方式中,向导可以靶向基因的外显子1或2;在其他实施方式中,向导可以靶向基因的外显子3或4。组合物可包括均靶向同一外显子的多个向导RNA,或者在一些实施方式中,可包括靶向不同外显子的多个向导RNA。基因的外显子和内含子可以被靶向。
向导RNA或向导多核苷酸可以靶向有或约有20个核苷酸的核酸序列。标靶核酸可以少于或少于约20个核苷酸。标靶核酸可以是至少或至少约5、10、15、16、17、18、19、20、21、22、23、24、25、30、或1-100之间的任何数目个核苷酸的长度。标靶核酸可以是至多或至多约5、10、15、16、17、18、19、20、21、22、23、24、25、30、40、50、或1-100之间的任何数目个核苷酸的长度。标靶核酸序列紧邻PAM第一个核苷酸5’端的距离可以是或可以是约20个碱基。向导RNA可以靶向核酸序列。标靶核酸可以是至少或至少约1-10、1-20、1-30、1-40、1-50、1-60、1-70、1-80、1-90、或1-100个核苷酸。
向导多核苷酸,例如向导RNA,可以指可与另一种核酸杂交的核酸,例如,细胞的基因组中的标靶核酸或原间隔序列。向导多核苷酸可以是RNA。向导多核苷酸可以是DNA。该向导多核苷酸可以被编程为或设计为位点-特异性地结合到核酸序列上。向导多核苷酸可以包括多核苷酸链,并可称为单一向导多核苷酸。向导多核苷酸可以包括两条多核苷酸链,并可称为双向导多核苷酸。向导RNA可以作为RNA分子被导入细胞中或胚胎中。例如,可以在体外转录和/或可以化学合成RNA分子。RNA可以从合成的DNA分子(例如
Figure BDA0003286956470001481
基因片段)转录而来。然后可以将向导RNA作为RNA分子导入细胞中或胚胎中。向导RNA也可以以非-RNA核酸分子(例如DNA分子)的形式被导入细胞中或胚胎中。例如,编码向导RNA的DNA可以与启动子控制序列可操作地链接,以供在目标细胞或胚胎中表达该向导RNA。RNA编码序列可以与被RNA聚合酶亚基III(Pol III)所识别的启动子序列可操作地链接。可用于表达向导RNA的质粒载体包含但不限于px330载体和px333载体。在一些实施方式中,质粒载体(例如,px333载体)可包括至少两个编码向导RNA的DNA序列。
用于选择、设计和验证向导多核苷酸(例如向导RNA)和靶向序列的方法在本文中描述并且是本领域技术人员已知的。例如,为了最小化核碱基编辑器系统中脱氨酶结构域(例如AID结构域)的潜在底物混杂的影响,可最小化可能非有意地被靶向以供脱氨反应(例如可能潜在地驻留在标靶核酸基因座内的ssDNA上的脱靶C残基)驻留在目标核酸内的位置)的残基数目。此外,软件工具可用于优化与标靶核酸序列相对应的gRNA,例如,最小化横跨基因组的总脱靶活性。例如,使用化脓性链球菌Cas9时,对于每个可能的靶向结构域的选择,所有脱靶序列(居先于所选的PAM,例如NAG或NGG)都可横跨基因组被鉴别出来,其含有至多特定数目(例如,1、2、3、4、5、6、7、8、9、或10)的错配的碱基-对。可以鉴别出与标靶位点互补的的gRNA第一区域,并且可以根据其总的预测的脱靶分数对所有第一区域(例如crRNA)进行排序;排名靠前的标靶结构域代表那些可能具有最大在靶和最小脱靶活性的结构域。可以使用本领域已知的和/或如本文所列出的方法对候选的靶向gRNA进行功能性评估。
作为非限制性实例,可使用DNA序列搜索算法来鉴别与Cas9一起使用的向导RNA的crRNA中的标靶DNA杂交序列。可使用基于公共工具cas-offinder的定制gRNA设计软件进行gRNA设计,该公共工具cas-offinder如在以下文献中所述,Bae S.,Park J.,&Kim J.-S.,“Cas-OFFinder:A fast and versatile algorithm that searches for potential off-target sites of Cas9 RNA-guided endonucleases.”Bioinformatics 30,1473-1475(2014)。这个软件先计算各向导的全基因组脱靶倾向,然后给各向导打分。通常,从完美匹配到7个错配的范围内的匹配被认为是出于长度从17到24范围内的向导。一旦通过电脑运算确定了脱靶位点,就会为每个向导计算加总分数,并使用网络-界面汇总在表格输出中。除了鉴别与PAM序列相邻的潜在标靶位点外,该软件还可以鉴别与所选标靶位点相差1、2、3或3个以上核苷酸的所有PAM相邻序列。可以获得标靶核酸序列的基因组DNA序列(例如靶基因),而可以使用公开可用的工具,例如RepeatMasker程序,筛选重复元件。RepeatMasker搜索输入的DNA序列以找寻重复元件和低复杂度区域。该输出是存在于给定查询序列中的所述重复(元件)的详细注解。
在鉴别之后,向导RNA的第一区域(例如crRNA)可以被排序为不同层级,其依据是它们与标靶位点的距离、它们的正交性以及是否存在与相关PAM序列相近匹配的5’核苷酸(例如,5’G,基于在含有相关PAM(例如,用于化脓性链球菌的NGG PAM,或用于金黄色葡萄球菌的NNGRRT或NNGRRV PAM)的人类基因组中鉴别到它的相近匹配)。如本文所用,正交性是指人类基因组中含有最少数目与该标靶序列错配的序列的数目。例如,“高水平正交性”或“良好正交性”可指20碱基(20-mer)的靶向结构域,其在人类基因组中除了预期标靶之外没有相同序列,其也没有在该标靶序列中含有一或两个错配的任何序列。可以选择具有良好正交性的靶向结构域以最小化脱靶DNA切开。
在一些实施方式中,报告系统可用于检测碱基-编辑活性并测试候选向导多核苷酸。在一些实施方式中,报告系统可包括基于报告基因的测定,其中碱基编辑活性导致报告基因的表达。例如,报告系统可包含报告基因,该报告基因包括被去活化的起始密码子,例如,模板股上从3'-TAC-5'到3'-CAC-5的突变。一旦标靶C的脱氨反应成功,相对应的mRNA将被转录为5'-AUG-3'而非5'-GUG-3',从而允许该报告基因的翻译。适合的报告基因对本领域技术人员来说是显而易见的。报告基因的非限制性实例包含:编码绿色荧光蛋白(GFP)、红色荧光蛋白(RFP)、荧光素酶、分泌性碱性磷酸酶(SEAP)的基因,或其表达对本领域技术人员来说是可检测和明显的任何其他基因。该报告系统可用于测试许多不同的gRNA,例如,以确定该标靶DNA序列的哪些残基将被相应的脱氨酶靶向。还可以测试靶向非-模板股的sgRNA,以评估特定碱基编辑蛋白质(例如Cas9脱氨酶融合蛋白)的脱靶效应。在一些实施方式中,此类gRNA可以被设计为使得突变的起始密码子不会与该gRNA碱基配对。该向导多核苷酸可以包括标准的核糖核苷酸、修饰过的核糖核苷酸(例如假尿苷)、核糖核苷酸同分异构体和/或核糖核苷酸类似物。在一些实施方式中,该向导多核苷酸可包括至少一种可检测标记。该可检测标记可以是荧光团(例如,FAM、TMR、Cy3、Cy5、Texas Red、Oregon Green、Alexa Fluors、Halo标签、或适合的荧光染料),检测标签(例如,生物素、地高辛等),标签剂,量子点,或金颗粒。
该向导多核苷酸可以被化学合成、酶促合成或以其组合被合成。例如,可以使用标准的基于亚磷酰胺的固-相合成方法来合成该向导RNA。或者,该向导RNA可以通过将编码该向导RNA的DNA与被噬菌体RNA聚合酶识别的启动子序列可操作地链接起来而在体外合成。适合的噬菌体启动子序列的实例包括T7、T3、SP6启动子序列或其变体。在该向导RNA包括两个单独的分子(例如crRNA和tracrRNA)的实施方式中,该crRNA可以是被化学合成的,而该tracrRNA可以是被酶促合成的。
在一些实施方式中,碱基编辑器系统可能包括多个向导多核苷酸,例如多个gRNA。例如,该多个gRNA可能靶向到碱基编辑器系统中所包括的一个或多个标靶基因座上(例如,至少1个gRNA,至少2个gRNA,至少5个gRNA,至少10个gRNA,至少20个gRNA,至少30个g RNA,至少50个gRNA)。该多个gRNA序列可以是串联排列,并且优选地是被正向重复序列(directrepeat)所分开。
编码向导RNA或向导多核苷酸的DNA序列也可以是载体的一部分。此外,载体可以包括额外的表达控制序列(例如,增强子序列、Kozak序列、聚腺苷酸化序列、转录终止序列等),可选的标记序列(例如,GFP或抗生素抗性基因,诸如嘌呤霉素),复制起点之类。编码向导RNA的DNA分子也可以是线性的。编码向导RNA或向导多核苷酸的DNA分子也可以是环状的。
在一些实施方式中,碱基编辑器系统的一个或多个组分可由若干个DNA序列编码。此种若干个DNA序列可一起或分开地被导入表达系统,例如细胞。例如,可将编码多核苷酸可编程的核苷酸结合结构域的两个DNA序列和向导RNA导入细胞中,其中每个DNA序列可以是单独分子的一部分(例如,含有该多核苷酸可编程的核苷酸结合结构域编码序列的一个载体和含有该向导RNA编码序列的第二个载体)抑或二者可以是同一分子的一部分(例如,含有该多核苷酸可编程的核苷酸结合结构域和该向导RNA二者的编码(和调节)序列的一个载体)。
向导多核苷酸可以包括一个或多个修饰以提供具有新的或增强特性的核酸。向导多核苷酸可以包括核酸亲和性标签。向导多核苷酸可以包括合成核苷酸,合成核苷酸类似物,核苷酸衍生物,和/或修饰过的核苷酸。
在一些实施方式中,gRNA或向导多核苷酸可以包括修饰。可以在gRNA或向导多核苷酸的任何区位作出修饰。可以对单一gRNA或向导多核苷酸作出不止一个/一种修饰。gRNA或向导多核苷酸可以在修饰后经受品质控制。在一些实施方式中,品质控制可以包含PAGE、HPLC、MS、或其任何组合。
gRNA或向导多核苷酸的修饰可以是替换、插入、缺失、化学修饰、物理修饰、稳定化、纯化、或其任何组合。
gRNA或向导多核苷酸也可以被如下所修饰:5’腺苷酸、5’鸟苷-三磷酸帽、5’N7-甲基鸟苷-三磷酸帽、5’三磷酸帽、3’磷酸、3’硫代磷酸、5’磷酸e、5’硫代磷酸、顺式-同侧(Cis-Syn)胸苷二聚体、三聚体、C12间隔序列、C3间隔序列、C6间隔序列、dSpacer、PC间隔序列r、rSpacer、间隔序列18、间隔序列9、3’-3’修饰、5’-5’修饰、无碱基/去碱基、吖啶、偶氮苯、生物素、生物素BB、生物素TEG、胆固醇TEG、脱硫生物素TEG、DNP TEG、DNP-X、DOTA、dT-生物素、双重生物素、PC生物素、补骨脂素C2、补骨脂素C6、TINA、3’DABCYL、黑洞淬灭剂1、黑洞淬灭剂2、DABCYL SE、dT-DABCYL、IRDye QC-1、QSY-21、QSY-35、QSY-7、QSY-9、羧基链接子、硫醇基链接子s、2’-脱氧核糖核苷类似物嘌呤、2’-脱氧核糖核苷类似物嘧啶、核糖核苷类似物、2’-O-甲基核糖核苷类似物、糖修饰的类似物、摇摆/通用碱基、荧光染料标记、2’-氟RNA、2’-O-甲基RNA、甲基膦酸酯、磷酸二酯DNA、磷酸二酯RNA、硫代磷酸DNA、硫代磷酸RNA、UNA、假尿苷-5’-三磷酸、5’-甲基胞苷-5’-三磷酸、或其任何组合。
在一些实施方式中,修饰是永久的。在其他实施方式中,修饰是暂时的。在一些实施方式中,对gRNA或向导多核苷酸作出了多个/多种修饰。gRNA或向导多核苷酸的修饰可以改变核苷酸的物理化学性质,诸如它们的构象、极性、疏水性、化学反应性、碱基-配对相互作用、或其任何组合。
该PAM序列可以是本领域已知的任何PAM序列。适合的PAM序列包含但不限于:NGG、NGA、NGC、NGN、NGT、NGCG、NGAG、NGAN、NGNG、NGCN、NGCG、NGTN、NNGRRT、NNNRRT、NNGRR(N)、TTTV、TYCV、TYCV、TATV、NNNNGATT、NNAGAAW、或NAAAAC。Y是嘧啶;N是任何核苷酸碱基;W是A或T。
修饰也可以是硫代磷酸替代物。在一些实施方式中,天然的磷酸二酯键可以容易被细胞的核酸酶快速降解;使用硫代磷酸酯(PS)键替代物对核苷酸间链接的修饰可以对(通过细胞降解的)水解更稳定。修饰可以增加gRNA或向导多核苷酸的稳定性。修饰还可以增强生物活性。在一些实施方式中,其RNA被硫代磷酸增强的gRNA可以抑制RNase A,RNaseT1,小牛血清核酸酶,或其任何组合。这些特征允许PS-RNA gRNA可以用于体内或体外暴露于核酸酶的可能性很高的应用中。例如,可以在gRNA的5’-或3’-末端的最后3到5个核苷酸之间引入硫代磷酸酯(PS)键,这可以抑制核酸外切酶降解。在一些实施方式中,可以在整个gRNA中遍及地添加硫代磷酸酯键以减低核酸内切酶的攻击。
原间隔序列邻近基序
术语“原间隔序列邻近基序(PAM)”或PAM-样基序是指在CRISPR细菌适应性免疫系统中紧随被所述Cas9核酸酶所靶向的DNA序列后的2到6个碱基对的DNA序列。在一些实施方式中,该PAM可以是5’PAM(即,位于原间隔序列5’末端的上游)。在其他实施方式中,该PAM可以是3’PAM(即,位于原间隔序列5’末端的下游)
该PAM序列对于结合标靶是必需的,但是确切的序列取决于Cas蛋白的类型。
本文所提供的碱基编辑器可以包括CRISPR蛋白-衍生的结构域,该结构域能够结合含有正准的或非-正准的原间隔序列邻近基序(PAM)序列的核苷酸序列。PAM位点是临近标靶多核苷酸序列的核苷酸序列。本公开披露的一些方面提供了碱基编辑器,其包括具有不同PAM特异性的CRISPR蛋白质的全部或部分。例如,Cas9蛋白通常,诸如化脓链球菌的Cas9(spCas9),需要正准的NGG PAM序列以结合特定的核酸区域,其中“NGG”中的“N”是腺嘌呤(A)、胸腺嘧啶(T)、鸟嘌呤(G)、或胞嘧啶(C)、且G为鸟嘌呤。PAM可以是CRISPR蛋白-特异的,并且在不同的碱基编辑器(包括不同的CRISPR蛋白-衍生的结构域)之间可以不同。PAM可以在标靶序列的5’或3’。PAM可以在靶序列的上游或下游。PAM的长度可以是1、2、3、4、5、6、7、8、9、10个或更多个核苷酸。通常,PAM的长度在2到6个核苷酸之间。如下的表1中描述了几种PAM变体。
表1.Cas9蛋白和相应的PAM序列
变体 PAM
spCas9 NGG
spCas9-VRQR NGA
spCas9-VRER NGCG
xCas9(sp) NGN
saCas9 NNGRRT
saCas9-KKH NNNRRT
spCas9-MQKSER NGCG
spCas9-MQKSER NGCN
spCas9-LRKIQK NGTN
spCas9-LRVSQK NGTN
spCas9-LRVSQL NGTN
spCas9-MQKFRAER NGC
Cpf1 5’(TTTV)
SpyMac 5’-NAA-3’
在一些实施方式中,该PAM是NGC。在一些实施方式中,该NGC PAM被Cas9变体所识别。在一些实施方式中,该NGC PAM变体包含一个或多个氨基酸替换,该替换是选自:D1135M、S1136Q、G1218K、E1219F、A1322R、D1332A、R1335E、和T1337R(共同地被称为“MQKFRAER”)。
在一些实施方式中,该PAM是NGT。在一些实施方式中,该NGT PAM被Cas9变体所识别。在一些实施方式中,该NGT PAM变体是通过在一个或多个1335、1337、1135、1136、1218、和/或1219残基处的靶向突变而生成的。在一些实施方式中,该NGT PAM变体是通过在一个或多个1219、1335、1337、1218残基处的靶向突变而生成的。在一些实施方式中,该NGT PAM变体是通过在一个或多个1135、1136、1218、1219、和1335残基处的靶向突变而生成的。在一些实施方式中,该NGT PAM变体选自如下表2和表3中所提供的靶向突变的集合。
表2:在残基1219、1335、1337、1218处的NGT PAM变体突变
Figure BDA0003286956470001551
Figure BDA0003286956470001561
表3:在残基1135、1136、1218、1219、和1335处的NGT PAM变体突变
Figure BDA0003286956470001562
Figure BDA0003286956470001571
在一些实施方式中,该NGT PAM变体选自表2和3中的变体5、7、28、31、或36。在一些实施方式中,所述这些变体具有改良的NGT PAM识别能力。
在一些实施方式中,所述这些NGT PAM变体在残基1219、1335、1337、和/或1218处具有突变。在一些实施方式中,该NGT PAM变体选自如下表4中所提供的变体,以得到具有改良的识别能力的突变。
表4:在残基1219、1335、1337、和1218处的NGT PAM变体突变
变体 E1219V R1335Q T1337 G1218
1 F V T
2 F V R
3 F V Q
4 F V L
5 F V T R
6 F V R R
7 F V Q R
8 F V L R
在一些实施方式中,可生成对于NGT PAM具有特异性的碱基编辑器,如下表5中所提供的。
表5.NGT PAM变体
Figure BDA0003286956470001572
在一些实施方式中,该NGTN变体是变体1。在一些实施方式中,该NGTN变体是变体2。在一些实施方式中,该NGTN变体是变体3。在一些实施方式中,该NGTN变体是变体4。在一些实施方式中,该NGTN变体是变体5。在一些实施方式中,该NGTN变体是变体6。
在一些实施方式中,该Cas9结构域是化脓链球菌的Cas9结构域(SpCas9)。在一些实施方式中,该SpCas9结构域是核酸酶活性的SpCas9,核酸酶失活的SpCas9(SpCas9d),或SpCas9切口酶(SpCas9n)。在一些实施方式中,该SpCas9包括D9X突变,或本文所提供的任何氨基酸序列中的相应突变,其中X是除了D以外的任何氨基酸。在一些实施方式中,该SpCas9包括D9A突变,或本文所提供的任何氨基酸序列中的相应突变。在一些实施方式中,该SpCas9结构域、该SpCas9d结构域或该SpCas9n结构域可以结合具有非-正准PAM的核酸序列。在一些实施方式中,该SpCas9结构域、该SpCas9d结构域或SpCas9n结构域可以结合具有NGG、NGA或NGCG PAM序列的核酸序列结构域。在一些实施方式中,该SpCas9结构域包括D1134X、R1334X、和T1336X突变中的一个或多个,或本文所提供的任何氨基酸序列中的相应突变,其中X是任一氨基酸。在一些实施方式中,该SpCas9结构域包括D1134E、R1334Q、和T1336R突变中的一个或多个,或本文所提供的任何氨基酸序列中的相应突变。在一些实施方式中,该SpCas9结构域包括D1134E、R1334Q、和T1336R突变,或本文所提供的任何氨基酸序列中的相应的复数个突变。在一些实施方式中,该SpCas9结构域包括D1134X、R1334X、和T1336X突变中的一个或多个,或本文所提供的任何氨基酸序列中的相应突变,其中X是任一氨基酸。在一些实施方式中,该SpCas9结构域包括D1134V、R1334Q、和T1336R突变中的一个或多个,或本文所提供的任何氨基酸序列中的相应突变。在一些实施方式中,该SpCas9结构域包括D1134V、R1334Q、和T1336R突变,或本文所提供的任何氨基酸序列中的相应的复数个突变。在一些实施方式中,该SpCas9结构域包括D1134X、G1217X、R1334X、和T1336X突变中的一个或多个,或本文所提供的任何氨基酸序列中的相应突变,其中X是任一氨基酸。在一些实施方式中,该SpCas9结构域包括D1134V、G1217R、R1334Q、和T1336R突变中的一个或多个,或本文所提供的任何氨基酸序列中的相应突变。在一些实施方式中,该SpCas9结构域包括D1134V、G1217R、R1334Q、和T1336R突变,或本文所提供的任何氨基酸序列中的相应的复数个突变。
在一些实施方式中,本文所提供的任何融合蛋白的Cas9结构域包括的氨基酸序列,与本文所述的Cas9多肽相比,是至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同。在一些实施方式中,本文所提供的任何融合蛋白的Cas9结构域包括本文所述的任何Cas9多肽的氨基酸序列。在一些实施方式中,本文所提供的任何融合蛋白的Cas9结构域由本文所述的任何Cas9多肽的氨基酸序列组成。
在一些例子中,被本文所揭示的碱基编辑器的CRISPR蛋白-衍生的结构域所识别的PAM可以提供给细胞,且该PAM是在相对于编码前述碱基编辑器的嵌入物(例如,AAV嵌入物)而言分开的一寡核苷酸上。在此种实施方式中,在分开的寡核苷酸上提供PAM可以允许标靶序列的切开,否则其将不能被切开,因为在与标靶序列相同的多核苷酸上不存在临近的PAM。
在一种实施方式中,化脓链球菌Cas9(SpCas9)可用作适于基因组工程化的CRISPR核酸内切酶。然而,可以使用其他蛋白。在一些实施方式中,可以使用不同的核酸内切酶以靶向某些基因组标靶。在一些实施方式中,可以使用具有非-NGG PAM序列的合成的SpCas9-衍生的变体。另外,已经鉴别了来自各种物种的其他Cas9异种同源物,并且这些“非-SpCas9”可以结合多种亦可用于本公开披露的PAM序列。例如,SpCas9的相对较大的尺寸(大约4千碱基(kb)编码序列)可能导致携带所述SpCas9 cDNA的质粒不能在细胞中有效表达。相反地,金黄色葡萄球菌Cas9(SaCas9)的编码序列比SpCas9短约1千碱基,可能允许其在细胞中有效表达。与SpCas9相似,该SaCas9核酸内切酶能够在体外情况下(哺乳动物细胞中)和在体内情况下(小鼠中)对标靶基因进行修饰。在一些实施方式中,Cas蛋白可以靶向不同的PAM序列。在一些实施方式中,例如,标靶基因可以与Cas9 PAM(5’-NGG,例如)临近。在其他实施方式中,其他Cas9异种同源物可以具有不同的PAM要求。例如,其他PAM,诸如嗜热链球菌(对于CRISPR1为5’-NNAGAA,对于CRISPR3为5’-NGGNG)和脑膜炎双球菌(5’-NNNNGATT)的那些PAM,也可以在标靶基因的临近处被找到。
在一些实施方式中,对于化脓链球菌系统,靶基因序列可以居先于(即,为5’于)5’-NGG PAM,而20-nt的向导RNA序列可以与相对股碱基配对以介导临近PAM的Cas9切开。在一些实施方式中,临近的切割可以是在PAM上游3个碱基对或可以是在PAM上游大约3个碱基对。在一些实施方式中,临近的切割可以是在PAM上游10个碱基对或可以是在PAM上游大约10个碱基对。在一些实施方式中,临近的切割可以是在PAM上游0-20个碱基对或可以是在PAM上游大约0-20个碱基对。例如,临近的切割可以是在PAM上游的紧邻、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、或30个碱基对。临近的切割也可以是在PAM下游的1到30个碱基对。能够结合PAM序列的示例性的SpCas9蛋白的序列如下:
示例性的结合-PAM的SpCas9的氨基酸序列如下:
MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性的结合-PAM的SpCas9n的氨基酸序列如下:MDKKYSIGLAIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQL
QNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD
示例性的结合-PAM的SpEQR Cas9的氨基酸序列如下:
Figure BDA0003286956470001611
在上述序列中,残基E1134、Q1334、和R1336,其可以由D1134、R1334、和T1336突变而来以产生SpEQR Cas9,带有下划线和以粗体显示。
示例性的结合-PAM的SpVQR Cas9的氨基酸序列如下:
Figure BDA0003286956470001621
在上述序列中,残基V1134、Q1334、和R1336,其可以由D1134、R1334、和T1336突变而来以产生SpVQR Cas9,带有下划线和以粗体显示。
示例性的结合-PAM的SpVRER Cas9的氨基酸序列如下:
Figure BDA0003286956470001622
Figure BDA0003286956470001631
在上述序列中,残基V1134、R1217、E1334、和R1336,其可以由D1134、G1217、R1334、和T1336突变而来以产生SpVRER Cas9,带有下划线和以粗体显示。
在一些实施方式中,该Cas9结构域是重组Cas9结构域。在一些实施方式中,该重组Cas9结构域是SpyMacCas9结构域。在一些实施方式中,该SpyMacCas9结构域是核酸酶活性的SpyMacCas9,核酸酶失活的SpyMacCas9(SpyMacCas9d),或SpyMacCas9切口酶(SpyMacCas9n)。在一些实施方式中,该SaCas9结构域、该SaCas9d结构域或该SaCas9n结构域可以结合具有非-正准PAM的核酸序列。在一些实施方式中,该SpyMacCas9结构域、该SpCas9d结构域或该SpCas9n结构域可以结合具有NAA PAM序列的核酸序列。
示例性的具有原生的5’-NAAN-3’PAM特异性且为猕猴链球菌中Spy Cas9的同源物的Cas9的序列是本领域已知的,并且被例如Jakimo等描述(www.biorxiv.org/content/biorxiv/early/2018/09/27/429654.full.pdf),且提供如下。
SpyMacCas9
MDKKYSIGLDIGTNSVGWAVITDDYKVPSKKFKVLGNTDRHSIKKNLIGALLFGSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLADSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQIYNQLFEENPINASRVDAKAILSARLSKSRRLENLIAQLPGEKRNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNSEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGAYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDRGMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGHSLHEQIANLAGSPAIKKGILQTVKIVDELVKVMGHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFIKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEIQTVGQNGGLFDDNPKSPLEVTPSKLVPLKKELNPKKYGGYQKPTTAYPVLLITDTKQLIPISVMNKKQFEQNPVKFLRDRGYQQVGKNDFIKLPKYTLVDIGDGIKRLWASSKEIHKGNQLVVSKKSQILLYHAHHLDSDLSNDYLQNHNQQFDVLFNEIISFSKKCKLGKEHIQKIENVYSNKKNSASIEELAESFIKLLGFTQLGATSPFNFLGVKLNQKQYKGKKDYILPCTEGTLIRQSITGLYETRVDLSKIGED.
在一些实施方式中,变体Cas9蛋白带有H840A、P475A、W476A、N477A、D1125A、W1126A、和D1218A突变,使得该多肽切开标靶DNA或RNA的能力是减低的。此种Cas9蛋白切开标靶DNA(例如,单股标靶DNA)的能力是减低的,但是保留了结合标靶DNA(例如,单股标靶DNA)的能力。作为另一个非限制性的例子,在一些实施方式中,该变体Cas9蛋白带有D10A、H840A、P475A、W476A、N477A、D1125A、W1126A、和D1218A突变,使得该多肽切开标靶DNA的能力是减低的。此种Cas9蛋白切开标靶DNA(例如,单股标靶DNA)的能力是减低的,但是保留了结合标靶DNA(例如,单股标靶DNA)的能力。在一些实施方式中,当变体Cas9蛋白带有W476A和W1126A突变时,或者当该变体Cas9蛋白带有P475A、W476A、N477A、D1125A、W1126A、和D1218A突变时,该变体Cas9蛋白不能有效地结合PAM序列。因此,在一些此类情况下,当在结合的方法中使用此种变体Cas9蛋白时,该方法不需要PAM序列。换句话说,在一些实施方式中,当在结合的方法中使用此种变体Cas9蛋白时,该方法可以包含向导RNA,但该方法可以在不存在PAM序列的情况下被执行(而结合的特异性因此是由该向导RNA的靶向节段所提供)。可以使其他残基突变以获得上述效果(即,去活性化一个核酸酶部分或另外那个核酸酶部分)。作为非限制性的例子,残基D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、和/或A987可以被改变(即,被替换)。同样地,除丙氨酸置换以外的突变也是适合的。
在一些实施方式中,碱基编辑器的CRISPR蛋白-衍生结构域可以包括具有正准PAM序列(NGG)的Cas9蛋白的全部或部分。在其他实施方式中,碱基编辑器的Cas9-衍生结构域可以采用非-正准的PAM序列。此种序列已经在本领域中描述,并且对本领域技术人员而言是显而易见的。例如,结合非-正准PAM序列的Cas9结构域已在如下文献中描述:Kleinstiver,B.P.等,“具有改变的PAM特异性的工程化的CRISPR-Cas9核酸酶”Nature523,481-485(2015);以及Kleinstiver,B.P.等,“通过修饰PAM的识别来扩大金黄色葡萄球菌CRISPR-Cas9的靶向范围”Nature Biotechnology 33,1293-1298(2015);其每个的全部内容在此通过引用并入。
PAM排他性降低的Cas9结构域
通常,Cas9蛋白,诸如来自化脓链球菌的Cas9(spCas9),需要正准的NGG PAM序列以结合特定的核酸区域,其中“NGG”中的“N”是腺苷(A),胸苷(T),或胞嘧啶(C),而所述G为鸟苷。这可能会限制在基因组中编辑目的碱基的能力。在一些实施方式中,可能需要将本文所提供的碱基编辑融合蛋白放置在精确的区位,例如包括PAM上游的标靶碱基的区域。参见例如,Komor,A.C.等,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature 533,420-424(2016),其全部内容在此通过引用并入。因此,在一些实施方式中,本文所提供的任何融合蛋白都可含有Cas9结构域,该Cas9结构域能够结合不含有正准的(例如NGG)PAM序列的核苷酸序列。结合非-正准PAM序列的Cas9结构域已经在本领域中描述,并且对本领域技术人员而言是显而易见的。例如,结合非-正准PAM序列的Cas9结构域已在如下文献中描述:Kleinstiver,B.P.等,“Engineered CRISPR-Cas9 nucleases with altered PAMspecificities”Nature 523,481-485(2015);以及Kleinstiver,B.P.等,“Broadening the targeting range ofStaphylococcus aureus CRISPR-Cas9 by modifying PAM recognition”NatureBiotechnology33,1293-1298(2015);其每个的全部内容在此通过引用并入。
高保真的Cas9结构域
本公开披露的一些方面提供了高保真的Cas9结构域。在一些实施方式中,高保真的Cas9结构域是工程化的Cas9结构域,其包括一个或多个突变,与相应的野生型Cas9结构域相比,该突变降低了该Cas9结构域和DNA的糖-磷酸主干的静电相互作用。不希望被任何特定理论束缚,具有降低的与DNA的糖-磷酸主干的静电相互作用的高保真Cas9结构域可能具有较少的脱靶效应。在一些实施方式中,Cas9结构域(例如,野生型Cas9结构域)包括一个或多个突变,该突变降低了该Cas9结构域与DNA的糖-磷酸主干之间的相联。在一些实施方式中,Cas9结构域包括一个或多个突变,该突变使该Cas9结构域与DNA的糖-磷酸主干之间的相联降低至少1%、至少2%、至少3%、至少4%、至少5%、至少10%、至少15%、至少20%、至少25%、至少30%、至少35%、至少40%、至少45%、至少50%、至少55%、至少60%、至少65%、或至少70%。
在一些实施方式中,本文所提供的任何Cas9融合蛋白包括N497X、R661X、Q695X、和/或Q926X突变中的一个或多个,或本文所提供的任何氨基酸序列中的相应突变,其中X是任何氨基酸。在一些实施方式中,本文所提供的任何Cas9融合蛋白包括N497A、R661A、Q695A、和/或Q926A突变中的一个或多个,或本文所提供的任何氨基酸序列中的相应突变。在一些实施方式中,该Cas9结构域包括D10A突变,或本文所提供的任何氨基酸序列中的相应突变。具有高保真度的Cas9结构域是本领域已知的,且对本领域技术人员是显而易见的。例如,具有高保真度的Cas9结构域已在如下文献中被描述:Kleinstiver,B.P.等,“High-fidelity CRISPR-Cas9 nucleases with no detectable genome-wide off-targeteffects.”Nature 529,490-495(2016);以及Slaymaker,I.M.等,“Rationally engineeredCas9 nucleases with improved specificity.”Science 351,84-88(2015);其每个的全部内容通过引用并入本文。
在一些实施方式中,该修饰过的Cas9是高保真Cas9酶。在一些实施方式中,该高保真Cas9酶是SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1、或超精确Cas9变体(HypaCas9)。该修饰过的Cas9eSpCas9(1.1)含有丙氨酸替换,其削弱了HNH/RuvC凹槽与非-标靶DNA股之间的相互作用,防止股分离和在脱靶位点的切割。类似地,SpCas9-HF1通过丙氨酸替换(其破坏Cas9与DNA磷酸主干的相互作用)减少脱靶编辑。HypaCas9在REC3结构域中含有突变(SpCas9N692A/M694A/Q695A/H698A),其可增加Cas9的校对和标靶判别。所有三种高保真酶都比野生型Cas9生成更少的脱靶编辑。
下面提供了示例性的高保真Cas9。
高保真Cas9结构域的(相对于Cas9的)突变以粗体和下划线显示。
Figure BDA0003286956470001671
包括Cas9结构域和胞苷脱氨酶和/或腺苷脱氨酶的融合蛋白
本公开披露的一些方面提供了融合蛋白,其包括napDNAbp(例如Cas9结构域)和一个或多个腺苷脱氨酶,胞苷脱氨酶结构域,和/或DNA糖基化酶结构域。在一些实施方式中,该融合蛋白包括Cas9结构域和腺苷脱氨酶结构域(例如TadA*A)。应当理解,该Cas9结构域可能是本文所提供的任何Cas9结构域或Cas9蛋白(例如dCas9或nCas9)。在一些实施方式中,本文所提供的任何Cas9结构域或Cas9蛋白(例如dCas9或nCas9)可与本文所提供的任何胞苷脱氨酶和/或腺苷脱氨酶s(例如TadA*A)融合。例如但不限于,在一些实施方式中,该融合蛋白包括如下结构:
NH2-[胞苷脱氨酶]-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[胞苷脱氨酶]-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-[胞苷脱氨酶]-COOH;
NH2-[Cas9结构域]-[胞苷脱氨酶]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9结构域]-COOH;或
NH2-[Cas9结构域]-[胞苷脱氨酶]-COOH.
在一些实施方式中,包括胞苷脱氨酶、无碱基(碱基)编辑器、和腺苷脱氨酶以及napDNAbp(例如Cas9结构域)的融合蛋白不包含链接子序列。在一些实施方式中,链接子存在于所述胞苷脱氨酶和/或腺苷脱氨酶结构域以及所述napDNAbp之间。在一些实施方式中,上述通用架构中使用的“-”表示可选的链接子的存在。在一些实施方式中,该胞苷脱氨酶和腺苷脱氨酶和该napDNAbp经由本文所提供的任何链接子融合。例如,在一些实施方式中,该胞苷脱氨酶和/或腺苷脱氨酶和该napDNAbp是经由本文所提供的任何链接子而融合的。
包括核定位序列(NLS)的融合蛋白
在一些实施方式中,本文所提供的融合蛋白进一步包括一个或多个(例如,2、3、4、5个)核靶向序列,例如核定位序列(NLS)。在一个实施方式中,使用了双分型NLS。在一些实施方式中,NLS包括氨基酸序列,其促进包括NLS的蛋白质输入细胞核中(例如,通过核转运)。在一些实施方式中,本文所提供的任何融合蛋白进一步包括核定位序列(NLS)。在一些实施方式中,该NLS融合到该融合蛋白的N-端。在一些实施方式中,该NLS融合到该融合蛋白的C-端。在一些实施方式中,该NLS融合到Cas9结构域的N-端。在一些实施方式中,该NLS融合到nCas9结构域或dCas9结构域的C-端。在一些实施方式中,该NLS融合到脱氨酶的N-端。在一些实施方式中,NLS融合到脱氨酶的C-端。在一些实施方式中,该NLS经由一个或多个链接子融合到融合蛋白。在一些实施方式中,该NLS在无链接子的情况下融合到融合蛋白。在一些实施方式中,NLS包括本文所提供的或所引用的任一NLS序列的氨基酸序列。额外的核定位序列在本领域中是已知的,并且对本领域技术人员而言是显而易见的。例如,NLS序列在Plank等,PCT/EP2000/011690中描述,其内容通过对其示例性核定位序列的公开披露的引用而并入本文。在一些实施方式中,NLS包括的氨基酸序列为:PKKKRKVEGADKRTADGSEFESPKKKRKV、KRTADGSEFESPKKKRKV、KRPAATKKAGQAKKKK、KKTELQTTNAENKTKKL、KRGINDRNFWRGENGRKTR、RKSGKIAAIVVKRPRKPKKKRKV、或MDSLLMNRRKFLYQFKNVRWAKGRRETYLC。
在一些实施方式中,该NLS存在于链接子中,或链接子位于该NLS的两侧翼,例如,本文所述的链接子。在一些实施方式中,该N-端或C-端NLS是双分型NLS。双分型NLS包括两个碱性氨基酸簇,它们由相对较短的间隔序列所分开(故,双分型-2部分,而单分型NLS则不是)。核质蛋白的NLS,KR[PAATKKAGQA]KKKK,是普遍存在的双分型信号的原型:2个碱性氨基酸的簇,其由约10个氨基酸的间隔序列所分开。示例性的双分型NLS的序列如下:
PKKKRKVEGADKRTADGSEFESPKKKRKV
在一些实施方式中,包括腺苷脱氨酶和/或胞苷脱氨酶、napDNAbp
(例如Cas9结构域)和NLS的融合蛋白不包括链接子序列。在一些实施方式中,存在一个或多个所述结构域或蛋白(例如腺苷脱氨酶、胞苷脱氨酶、Cas9结构域或NLS)之间的链接子序列。在一些实施方式中,具有腺苷脱氨酶或胞苷脱氨酶和Cas9结构域的示例性Cas9融合蛋白的一般架构包括如下结构的任一,其中NLS是核定位序列(例如本文所提供的任何NLS),NH2是该融合蛋白的N-端,而COOH是该融合蛋白的C-端:
NH2-NLS-[腺苷脱氨酶]-[Cas9结构域]-COOH;
NH2-NLS[Cas9结构域]-[腺苷脱氨酶]-COOH;
NH2-[腺苷脱氨酶]-[Cas9结构域]-NLS-COOH;
NH2-[Cas9结构域]-[腺苷脱氨酶]-NLS-COOH;
NH2-NLS-[胞苷脱氨酶]-[Cas9结构域]-COOH;
NH2-NLS[Cas9结构域]-[胞苷脱氨酶]-COOH;
NH2-[胞苷脱氨酶]-[Cas9结构域]-NLS-COOH;
NH2-[Cas9结构域]-[胞苷脱氨酶]-NLS-COOH;
应当理解,本公开披露的融合蛋白可以包括一个或多个附加的特性。例如,在一些实施方式中,该融合蛋白可以包括抑制剂,细胞质定位序列,输出序列,诸如核输出序列,或其他定位序列,以及可用于该融合蛋白的增溶、纯化或检测的序列标签。本文所提供的适合的蛋白质标签包含但不限于,生物素羧化酶载体蛋白(BCCP)标签,myc-标签,钙调蛋白-标签,FLAG-标签,血凝素(HA)-标签,多组氨酸标签,也称为组氨酸标签或His-标签,麦芽糖结合蛋白(MBP)-标签,nus-标签,谷胱甘肽-硫-转移酶(GST)-标签,绿色荧光蛋白(GFP)-标签,硫氧还蛋白-标签,S-标签,Softags(例如,Softag 1,Softag 3),链霉亲和素-标签,生物素连接酶标签,FlAsH标签,V5标签和SBP-标签。额外的适合的序列对本领域技术人员而言将是显而易见的。在一些实施方式中,该融合蛋白包括一个或多个His标签。
可以使用编码包括一个或多个核定位序列(NLS)的CRISPR酶的载体。例如,可以使用或使用约1、2、3、4、5、6、7、8、9、10个NLS。CRISPR酶可以在N端处或N端附近包括上述NLS,可以在C端处或C端附近包括约或多于约1、2、3、4、5、6、7、8、9、10个NLS,或这些的任何组合(例如,N端处的一个或多个NLS和在C端处的一个或多个NLS)。当存在多个NLS时,每个都可以独立于其他而被选择,使得单一NLS可以有多个副本和/或其可以与有多个副本的一个或多个NLS组合起来。
所述方法中使用的CRISPR酶可包括约6个NLS。NLS被认为是接近N-端或C-端的标准是:当最接近该NLS的氨基酸是位于从N-端或C-端起算沿着多肽链约50个氨基酸内(例如,1、2、3、4、5、10、15、20、25、30、40、或50个氨基酸内)时。
核碱基编辑结构域
本文所述的碱基编辑器包括融合蛋白,该融合蛋白包含多核苷酸可编程的核苷酸结合结构域和一个或多个核碱基编辑结构域(例如脱氨酶结构域)。该碱基编辑器可以被编程为通过与向导多核苷酸(其能够识别标靶序列)相互作用而编辑靶标多核苷酸序列中的一个或多个碱基。一旦该标靶序列已被识别,该碱基编辑器就会锚定在该待编辑的多核苷酸上,然后该碱基编辑器的脱氨酶结构域组分可以编辑标靶碱基。
在一些实施方式中,该核碱基编辑结构域包含一个或多个脱氨酶结构域。如本文所特别描述的,该脱氨酶结构域包含胞嘧啶脱氨酶和/或腺苷脱氨酶。在一些实施方式中,术语“胞嘧啶脱氨酶”和“胞苷脱氨酶”可以互换使用。在一些实施方式中,术语“腺嘌呤脱氨酶”和“腺苷脱氨酶”可以互换使用。核碱基编辑蛋白的细节在国际PCT申请编号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中被描述,其每个的全部内容通过引用并入本文。亦请参见Komor,A.C.等,“Programmable editing of a targetbase in genomic DNA without double-stranded DNA cleavage”Nature 533,420-424(2016);Gaudelli,N.M.等,“Programmable base editing of A·T to G·C in genomicDNA without DNA cleavage”Nature 551,464-471(2017);和Komor,A.C.等,“Improvedbase excision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higher efficiency and product purity”ScienceAdvances 3:eaao4774(2017),其全部内容在此通过引用并入本文。
A到G的编辑
在一些实施方式中,可以通过将一个或多个蛋白结构域融合在一起(从而生成融合蛋白)以制备本文所提供的核碱基编辑器。在某些实施方式中,本文所提供的融合蛋白包括一个或多个改善该融合蛋白的碱基编辑活性(例如效率,选择性和特异性)的特性。例如,本文所提供的融合蛋白可以包括具有减低的核酸酶活性的Cas9结构域。在一些实施方式中,本文所提供的融合蛋白可以具有无核酸酶活性的Cas9结构域(dCas9),或切割双股螺旋DNA分子一股的Cas9结构域(称为Cas9切口酶(nCas9))。不希望受任何特定理论束缚,催化残基(例如H840)的存在保持了Cas9的切开含有与标靶A相对的T的非-被编辑(例如非-被脱氨基)股的活性。Cas9的催化残基的突变(例如D10变A10)阻止了含有标靶A残基的被编辑股的切开。此类Cas9变体能够基于gRNA-定义的标靶序列而在特定区位生成单-股DNA断裂(nick),导致非-被编辑股的修复,最终导致非-被编辑股上的T到C的变化。在一些实施方式中,A-变-G碱基编辑器进一步包括肌苷碱基切除修复的抑制剂,例如尿嘧啶糖基化酶抑制剂(UGI)结构域或催化失活的肌苷特异性核酸酶。不希望受任何特定理论束缚,该UGI结构域或催化失活的肌苷特异性核酸酶可以抑制或阻止被脱氨基的腺苷残基(例如肌苷)的碱基切除修复,其可以改善所述碱基编辑器的活性或效率。
包括腺苷脱氨酶的碱基编辑器可以作用在任何多核苷酸上,包括DNA、RNA和DNA-RNA杂合体。在某些实施方式中,包括腺苷脱氨酶的碱基编辑器可以使包括RNA的多核苷酸的标靶脱氨基。例如,该碱基编辑器可以包括能够使RNA多核苷酸和/或DNA-RNA杂合多核苷酸的标靶A脱氨基的腺苷脱氨酶结构域。在一个实施方式中,并入碱基编辑器内的腺苷脱氨酶包括作用在RNA上的腺苷脱氨酶(ADAR、例如ADAR1或ADAR2)的全部或部分。在另一个实施方式中,并入碱基编辑器内的腺苷脱氨酶包括作用在tRNA(ADAT)上的腺苷脱氨酶的全部或部分。包括腺苷脱氨酶结构域的碱基编辑器也能够使DNA多核苷酸的A核碱基脱氨基。在一个实施方式中,碱基编辑器的腺苷脱氨酶结构域包括ADAT(其包括一个或多个允许该ADAT使DNA中的标靶A脱氨基的突变)的全部或部分。例如,该碱基编辑器可以包括来自大肠杆菌的ADAT(EcTadA)(其包括D108N、A106V、D147Y、E155V、L84F、H123Y、I157F突变中的一个或多个,或另一腺苷脱氨酶中的相对应突变)的全部或部分。
该腺苷脱氨酶可以衍生自任何适合的生物体(例如大肠杆菌)。在一些实施方式中,该腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包括一个或多个对应于本文所提供的任何突变(例如ecTadA中的突变)的突变。任何同源蛋白中的相对应残基可以通过例如序列比对和同源残基的确定来加以鉴别。可以相应地生成对应于本文所述的任何突变(例如,在ecTadA中鉴别出的任何突变)的任何天然存在的腺苷脱氨酶(例如,与ecTadA具有同源性)中的突变。
腺苷脱氨酶
在一些实施方式中,本文所述的碱基编辑器可以包括脱氨酶结构域,其包含腺苷脱氨酶。碱基编辑器的此类腺苷脱氨酶结构域可以通过使A脱氨基形成肌苷(I)(其展现出G的碱基配对特征)来促进腺嘌呤(A)核碱基到鸟嘌呤(G)核碱基的编辑。腺苷脱氨酶能够将脱氧核糖核酸(DNA)中的脱氧腺苷残基的腺嘌呤脱氨基(即i.e.、r去除胺基基团)。
在一些实施方式中,本文所提供的腺苷脱氨酶能够将腺嘌呤脱氨基。在一些实施方式中,本文所提供的腺苷脱氨酶能够将DNA的脱氧腺苷残基中的腺嘌呤脱氨基。在一些实施方式中,该腺嘌呤脱氨酶是天然存在的腺苷脱氨酶,其包含一个或多个与本文所提供的任何突变(例如ecTadA中的突变)相对应的突变。本领域技术人员将能够,例如通过序列比对和同源残基的确定,鉴别任何同源蛋白质中的相应残基。因此,本领域技术人员将能够在任何天然存在的腺苷脱氨酶(例如具有与ecTadA的同源性)中生成与本文所述(例如在ecTadA中鉴别出的任何突变)的任何突变相对应的突变。在一些实施方式中,该腺苷脱氨酶来自原核生物。在一些实施方式中,该腺苷脱氨酶来自细菌。在一些实施方式中,该腺苷脱氨酶来自大肠杆菌,金黄色葡萄球菌,伤寒沙门菌,腐烂希瓦氏菌,流感嗜血杆菌,新月柄杆菌,或枯草芽孢杆菌。在一些实施方式中,该腺苷脱氨酶来自大肠杆菌。
本发明提供了具有增加的效率(>50-60%)和特异性的腺苷脱氨酶变体。特别地,本文所述的腺苷脱氨酶变体更有可能编辑多核苷酸内的所期望的碱基,并且不太可能去编辑未预期被改变的碱基(即“旁观者”)。
在特定的实施方式中,该TadA是在PCT/US2017/045381(WO2018/027078)(其全部内容通过引用并入本文)中所描述的任何一种TadA。
在一些实施方式中,本发明的核碱基编辑器是包括在如下序列中有改变的腺苷脱氨酶变体:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD(也称为TadA*7.10)。
在一些实施方式中,本发明的融合蛋白包括野生型TadA(TadA(wt))链接到TadA变体(例如TadA*7.10变体)上的异二聚体。相关的序列如下:
野生型TadA(TadA(wt))或“TadA参考序列”
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
TadA*7.10:
Figure BDA0003286956470001741
在一些实施方式中,该腺苷脱氨酶包括的氨基酸序列,与本文所提供的任何腺苷脱氨酶中列出的任一氨基酸序列,是至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的。应当理解,本文所提供的腺苷脱氨酶可包含一个或多个突变(例如,本文所提供的任何突变)。本公开披露所提供的任何脱氨酶结构域,均具有一定百分比的同一性,再加上本文所述的任何突变或其组合。在一些实施方式中,该腺苷脱氨酶包括的氨基酸序列,与参考序列或本文所提供的任何腺苷脱氨酶相比,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个、或更多个突变。在一些实施方式中,该腺苷脱氨酶包括的氨基酸序列,与本领域已知或本文所述的任一氨基酸序列相比,具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160、或至少170个相同的接连的氨基酸残基。
在一些实施方式中,该TadA脱氨酶是全长的大肠杆菌TadA脱氨酶。例如,在某些实施方式中,该腺苷脱氨酶包括氨基酸序列:MRRAFITGVFFLSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD.
然而,应当理解,可用于本申请中的额外的腺苷脱氨酶对本领域技术人员是显而易见的,且是在本公开披露的范围内。例如,该腺苷脱氨酶可以是作用在tRNA(ADAT)上的腺苷脱氨酶的同源物。示例性的ADAT同源物的氨基酸序列包含但不限于如下:
金黄色葡萄球菌TadA:
MGSHMTNDIYFMTLAIEEAKKAAQLGEVPIGAIITKDDEVIARAHNLRETLQQPTAHAEHIAIERAAKVLGSWRLEGCTLYVTLEPCVMCAGTIVMSRIPRVVYGADDPKGGCSGSLMNLLQQSNFNHRAIVDKGVLKEACSTLLTTFFKNLRANKKSTN
枯草芽孢杆菌TadA:
MTQDELYMKEAIKEAKKAEEKGEVPIGAVLVINGEIIARAHNLRETEQRSIAHAEMLVIDEACKALGTWRLEGATLYVTLEPCPMCAGAVVLSRVEKVVFGAFDPKGGCSGTLMNLLQEERFNHQAEVVSGVLEEECGGMLSAFFRELRKKKKAARKNLSE
鼠伤寒沙门菌(S.typhimurium)TadA:
MPPAFITGVTSLSDVELDHEYWMRHALTLAKRAWDEREVPVGAVLVHNHRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVLQNYRLLDTTLYVTLEPCVMCAGAMVHSRIGRVVFGARDAKTGAAGSLIDVLHHPGMNHRVEIIEGVLRDECATLLSDFFRMRRQEIKALKKADRAEGAGPAV
腐败希瓦氏菌(S.putrefaciens)TadA:
MDEYWMQVAMQMAEKAEAAGEVPVGAVLVKDGQQIATGYNLSISQHDPTAHAEILCLRSAGKKLENYRLLDATLYITLEPCAMCAGAMVHSRIARVVYGARDEKTGAAGTVVNLLQHPAFNHQVEVTSGVLAEACSAQLSRFFKRRRDEKKALKLAQRAQQGIE
流感嗜血杆菌F3031(H.influenzae)TadA:MDAAKVRSEFDEKMMRYALELADKAEALGEIPVGAVLVDDARNIIGEGWNLSIVQSDPTΑΗAEIIALRNGAKNIQNYRLLNSTLYVTLEPCTMCAGAILHSRIKRLVFGASDYKTGAIGSRFHFFDDYKMNHTLEITSGVLAEECSQKLSTFFQKRREEKKIEKALLKSLSDK
新月柄杆菌(C.crescentus)TadA:
MRTDESEDQDHRMMRLALDAARAAAEAGETPVGAVILDPSTGEVIATAGNGPIAAHDPTAHAEIAAMRAAAAKLGNYRLTDLTLVVTLEPCAMCAGAISHARIGRVVFGADDPKGGAVVHGPKFFAQPTCHWRPEVTGGVLADESADLLRGFFRARRKAKI
硫还原地杆菌(G.sulfurreducens)TadA:
MSSLKKTPIRDDAYWMGKAIREAAKAAARDEVPIGAVIVRDGAVIGRGHNLREGSNDPSAHAEMIAIRQAARRSANWRLTGATLYVTLEPCLMCMGAIILARLERVVFGCYDPKGGAAGSLYDLSADPRLNHQVRLSPGVCQEECGTMLSDFFRDLRRRKKAKATPALFIDERKVPPEP
大肠杆菌TadA(ecTadA)的一实施方式包含如下:MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
在一些实施方式中,该腺苷脱氨酶来自原核生物。在一些实施方式中,该腺苷脱氨酶来自细菌。在一些实施方式中,该腺苷脱氨酶来自大肠杆菌,金黄色葡萄球菌,伤寒沙门菌,腐烂希瓦氏菌,流感嗜血杆菌,新月柄杆菌,或枯草芽孢杆菌。在一些实施方式中,该腺苷脱氨酶来自大肠杆菌。
在一个实施方式中,本发明的融合蛋白包括与TadA7.10链接的野生型TadA,而该TadA7.10则链接到Cas9切口酶上。在特定的实施方式中,该融合蛋白包括单一TadA7.10结构域(例如,以单体提供)。在其他实施方式中,该ABE7.10编辑器包括能够形成异二聚体的TadA7.10和TadA(wt)。
应当理解,可以将本文所提供的任何突变(例如,基于TadA参考序列的)引入其他腺苷脱氨酶中,诸如大肠杆菌TadA(ecTadA)、金黄色葡萄球菌TadA(saTadA)、或其他腺苷脱氨酶(例如细菌的腺苷脱氨酶)。对于本领域技术人员而言显而易见的将是,可类似地比对额外的脱氨酶以鉴别出可以如本文所提供的那样被突变的同源氨基酸残基。因此,可以在其他具有同源氨基酸残基的腺苷脱氨酶(例如ecTada)中制备于TadA参考序列中鉴别出的任何突变。还应当理解,本文所提供的任何突变均可在TadA参考序列或另一腺苷脱氨酶中单独地或以任何组合制备。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的D108X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括D108G、D108N、D108V、D108A、或D108Y突变,或在另一腺苷脱氨酶中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的A106X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的A106V突变,或在另一腺苷脱氨酶中的相应突变(例如野生型TadA或ecTadA)。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的E155X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X的存在表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的E155D、E155G、或E155V突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的D147X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X的存在表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的D147Y突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的A106X、E155X、或D147X突变,或在另一腺苷脱氨酶中的相应突变,其中X表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括E155D、E155G、或E155V突变,或在另一腺苷脱氨酶中的一相应突变。在一些实施方式中,该腺苷脱氨酶包括D147Y。
例如,腺苷脱氨酶可以含有在TadA参考序列中的一D108N、一A106V、一E155V、和/或一D147Y突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。在一些实施方式中,腺苷脱氨酶包括在TadA参考序列中的以下突变群组(各突变群组由";"分开),或在另一腺苷脱氨酶(例如ecTadA)中的相应突变:D108N和A106V;D108N和E155V;D108N和D147Y;A106V和E155V;A106V和D147Y;E155V和D147Y;D108N、A106V、和E55V;D108N、A106V、和D147Y;D108N、E55V、和D147Y;A106V、E55V、和D 147Y;和D108N、A106V、E55V、和D147Y。然而,应当理解,可以在腺苷脱氨酶(例如ecTadA)中制备本文所提供的相应突变的任何组合。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个H8X、T17X、L18X、W23X、L34X、W45X、R51X、A56X、E59X、E85X、M94X、I95X、V102X、F104X、A106X、R107X、D108X、K110X、M118X、N127X、A138X、F149X、M151X、R153X、Q154X、I156X、和/或K157X突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X的存在表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个H8Y、T17S、L18E、W23L、L34S、W45L、R51H、A56E、或A56S、E59G、E85K、或E85G、M94L、1951、V102A、F104L、A106V、R107C、或R107H、或R107P、D108G、或D108N、或D108V、或D108A、或D108Y、K110I、M118K、N127S、A138V、F149Y、M151V、R153C、Q154L、I156D、和/或K157R突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个H8X、D108X、和/或N127X突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X表示任何氨基酸的存在。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个H8Y、D108N、和/或N127S突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个H8X、R26X、M61X、L68X、M70X、A106X、D108X、A109X、N127X、D147X、R152X、Q154X、E155X、K161X、Q163X、和/或T166X突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸的存在。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个H8Y、R26W、M61I、L68Q、M70V、A106T、D108N、A109T、N127S、D147Y、R152C、Q154H或Q154R、E155G或E155V或E155D、K161Q、Q163H、和/或T166P突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四、五或六个突变,其选自于由以下所组成的群组:H8X、D108X、N127X、D147X、R152X、和Q154X,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸的存在。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四、五、六、七或八个突变,其选自于由以下所组成的群组:H8X、M61X、M70X、D108X、N127X、Q154X、E155X、和Q163X,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸的存在。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四或五个突变,其选自于由以下所组成的群组:H8X、D108X、N127X、E155X、和T166X,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸的存在。
在一些实施方式中,该腺苷脱氨酶包括一、二、三、四、五或六个突变,其选自于由以下所组成的群组:H8X、A106X、D108X、另一腺苷脱氨酶中的一个或多个突变,其中X表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸的存在。在一些实施方式中,腺苷脱氨酶包括一、二、三、四、五、六、七或八个突变,其选自于由以下所组成的群组:H8X、R126X、L68X、D108X、N127X、D147X、和E155X、另一腺苷脱氨酶中的一个或多个相应突变,其中X表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸的存在。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四或五个突变,其选自于由以下所组成的群组:H8X、D108X、A109X、N127X、和E155X,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X表示在野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸的存在。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四、五或六个突变,其选自于由以下所组成的群组:H8Y、D108N、N127S、D147Y、R152C、和Q154H,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四、五、六、七或八个突变,其选自于由以下所组成的群组:H8Y、M61I、M70V、D108N、N127S、Q154R、E155G和Q163H,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四或五个突变,其选自于由以下所组成的群组:H8Y、D108N、N127S、E155V、和T166P,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四、五或六个突变,其选自于由以下所组成的群组:H8Y、A106T、D108N、N127S、E155D、和K161Q,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四、五、六、七或八个突变,其选自于由以下所组成的群组:H8Y、R126W、L68Q、D108N、N127S、D147Y、和E155V,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四或五个突变,其选自于由以下所组成的群组:H8Y、D108N、A109T、N127S、和E155G,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
本文所提供的任何突变和任何额外的突变(例如,基于ecTadA氨基酸序列)可以被引入到任何另外的腺苷脱氨酶中。本文所提供的任何突变均可在TadA参考序列或另一腺苷脱氨酶(例如ecTadA)中单独地或以任何组合制备。
A变G的核碱基编辑蛋白的细节在如下文献中被描述:国际PCT申请编号PCT/2017/045381(WO2018/027078)和Gaudelli、N.M.等、“Programmable base editing of A·T toG·C in genomic DNA without DNA cleavage”Nature551、464-471(2017),其全部内容在此通过引用并入。
在一些实施方式中,该腺苷脱氨酶包括一个或多个另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的D108N、D108G、或D108V突变,或在另一腺苷脱氨酶(例如ecTadA)中的多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的A106V和D108N突变,或在另一腺苷脱氨酶(例如ecTadA)中的多个相应突变。在一些实施方式中,该腺苷脱氨酶包括R107C和D108N突变,或在另一腺苷脱氨酶(例如ecTadA)中的多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的H8Y、D108N、N127S、D147Y、和Q154H突变,或在另一腺苷脱氨酶(例如ecTadA)中的多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的H8Y、R24W、D108N、N127S、D147Y、和E155V突变,或在另一腺苷脱氨酶(例如ecTadA)中的多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的D108N、D147Y、和E155V突变,或在另一腺苷脱氨酶(例如ecTadA)中的多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的H8Y、D108N、和N127S突变,或在另一腺苷脱氨酶(例如ecTadA)中的多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的A106V、D108N、D147Y和E155V突变,或在另一腺苷脱氨酶(例如ecTadA)中的多个相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个S2X、H8X、I49X、L84X、H123X、N127X、I156X和/或K160X突变,或在另一腺苷脱氨酶中的一个或多个相应突变,其中X的存在表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个S2A、H8Y、I49F、L84F、H123Y、N127S、I156F和/或K160S突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方式中,该腺苷脱氨酶包括L84X突变腺苷脱氨酶,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的L84F突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的H123X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的H123Y突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的I157X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的I157F突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四、五、六或七个突变,其选自于由以下所组成的群组:L84X、A106X、D108X、H123X、D147X、E155X、和I156X,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸的存在。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四、五或六个突变,其选自于由以下所组成的群组:S2X、I49X、A106X、D108X、D147X、和E155X,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸的存在。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四或五个突变,其选自于由以下所组成的群组:H8X、A106X、D108X、N127X、和K160X,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸的存在。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四、五、六或七个突变,其选自于由以下所组成的群组:L84F、A106V、D108N、H123Y、D147Y、E155V、和I156F,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四、五或六个突变,其选自于由以下所组成的群组:S2A、I49F、A106V、D108N、D147Y、和E155V。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一、二、三、四或五个突变,其选自于由以下所组成的群组:H8Y、A106T、D108N、N127S、和K160S,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个E25X、R26X、R107X、A142X、和/或A143X突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变、其中X的存在表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个E25M、E25D、E25A、E25R、E25V、E25S、E25Y、R26G、R26N、R26Q、R26C、R26L、R26K、R107P、R07K、R107A、R107N、R107W、R107H、R107S、A142N、A142D、A142G、A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。在一些实施方式中,该腺苷脱氨酶包括一个或多个本文所述的相对应于TadA参考序列的突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的E25X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的E25M、E25D、E25A、E25R、E25V、E25S、或E25Y突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的R26X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的R26G、R26N、R26Q、R26C、R26L、或R26K突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的R107X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的R107P、R07K、R107A、R107N、R107W、R107H、或R107S突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个A142X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的A142N、A142D、A142G突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的A143X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的A143D、A143G、A143E、A143L、A143W、A143M、A143S、A143Q和/或A143R突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个H36X、N37X、P48X、I49X、R51X、M70X、N72X、D77X、E134X、S 146X、Q154X、K157X、和/或K161X突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变,其中X的存在表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的一个或多个H36L、N37T、N37S、P48T、P48L、I49V、R51H、R51L、M70L、N72S、D77G、E134G、S146R、S146C、Q154H、K157N、和/或K161T突变,或在另一腺苷脱氨酶(例如ecTadA)中的一个或多个相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的H36X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的H36L突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的N37X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的N37T、或N37S突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的P48X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的P48T或P48L突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的R51X突变,或在另一腺苷脱氨酶中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的R51H、或R51L突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的S146X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的S146R、或S146C突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的K157X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的K157N突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的P48X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的P48S、P48T、或P48A突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的A142X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的A142N突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的W23X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变、其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸.在一些实施方式中,股腺苷脱氨酶包括在TadA参考序列中的W23R、或W23L突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的R152X突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变,其中X表示在该野生型腺苷脱氨酶中相应氨基酸以外的任何氨基酸。在一些实施方式中,该腺苷脱氨酶包括在TadA参考序列中的R152P、或R52H突变,或在另一腺苷脱氨酶(例如ecTadA)中的相应突变。
在一个实施方式中,该腺苷脱氨酶可能包括突变H36L、R51L、L84F、A106V、D108N、H123Y、S146C、D147Y、E155V、I156F、和K157N。在一些实施方式中,该腺苷脱氨酶包括以下相对于TadA参考序列的突变組合,其中组合的每个突变用"_"分开并且每个突变的组合都在括号之间:
(A106V_D108N),
(R107C_D108N),
(H8Y_D108N_N127S_D147Y_Q154H),
(H8Y_R24W_D108N_N127S_D147Y_E155V),
(D108N_D147Y_E155V),
(H8Y_D108N_N127S),
(H8Y_D108N_N127S_D147Y_Q154H),
(A106V_D108N_D147Y_E155V),
(D108Q_D147Y_E155V),
(D108M_D147Y_E155V),
(D108L_D147Y_E155V),
(D108K_D147Y_E155V),
(D108I_D147Y_E155V),
(D108F_D147Y_E155V),
(A106V_D108N_D147Y),
(A106V_D108M_D147Y_E155V),
(E59A_A106V_D108N_D147Y_E155V),
(E59A cat dead(催化失活)_A106V_D108N_D147Y_E155V),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156Y),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(D103A_D104N),
(G22P_D103A_D104N),
(G22P_D103A_D104N_S138 A),
(D103A_D104N_S138A),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(E25G_R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V
_I156F),
(E25D_R26G_L84F_A106V_R107K_D108N_H123Y_A142N_A143G_D147Y_E155V_
I156F),
(R26Q_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25M_R26G_L84F_A106V_R107P_D108N_H123Y_A142N_A143D_D147Y_E155V
_I156F),
(R26C_L84F_A106V_R107H_D108N_H123Y_A142N_D147Y_E155V_I156F),(L84F_A106V_D108N_H123Y_A142N_A143L_D147Y_E155V_I156F),
(R26G_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(E25A_R26G_L84F_A106V_R107N_D108N_H123Y_A142N_A143E_D147Y_E155V
_I156F),
(R26G_L84F_A106V_R107H_D108N_H123Y_A142N_A143D_D147Y_E155V_I156F),
(A106V_D108N_A142N_D147Y_E155V),
(R26G_A106V_D108N_A142N_D147Y_E155V),
(E25D_R26G_A106V_R107K_D108N_A142N_A143G_D147Y_E155V),
(R26G_A106V_D108N_R107H_A142N_A143D_D147Y_E155V),
(E25D_R26G_A106V_D108N_A142N_D147Y_E155V),
(A106V_R107K_D108N_A142N_D147Y_E155V),
(A106V_D108N_A142N_A143G_D147Y_E155V),
(A106V_D108N_A142N_A143L_D147Y_E155V),
(H36L_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(N37T_P48T_M70L_L84F_A106V_D108N_H123Y_D147Y_I49V_E155V_I156F),
(N37S_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K161T),
(H36L_L84F_A106V_D108N_H123Y_D147Y_Q154H_E155V_I156F),
(N72S_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F),
(H36L_P48L_L84F_A106V_D108N_H123Y_E134G_D147Y_E155V_I156F),
(H36L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),(H36L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(N37S_R51H_D77G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_K157N),
(D24G_Q71R_L84F_H96L_A106V_D108N_H123Y_D147Y_E155V_I156F_K160E),
(H36L_G67V_L84F_A106V_D108N_H123Y_S146T_D147Y_E155V_I156F),
(Q71L_L84F_A106V_D108N_H123Y_L137M_A143E_D147Y_E155V_I156F),
(E25G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A91T_F104I_A106V_D108N_H123Y_D147Y_E155V_I156F),
(N72D_L84F_A106V_D108N_H123Y_G125A_D147Y_E155V_I156F),
(P48S_L84F_S97C_A106V_D108N_H123Y_D147Y_E155V_I156F),
(W23G_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(D24G_P48L_Q71R_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F_Q159L),
(L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(H36L_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(N37S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_D147Y_E155V_I156F),
(R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E_K161T),
(L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N_K160E),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74A_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(R74Q_L84F_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_R98Q_A106V_D108N_H123Y_D147Y_E155V_I156F),
(L84F_A106V_D108N_H123Y_R129Q_D147Y_E155V_I156F),
(P48S_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F),
(P48S_A142N),
(P48T_I49V_L84F_A106V_D108N_H123Y_A142N_D147Y_E155V_I156F_L157N),
(P48T_I49V_A142N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48S_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48T_I49V_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_A142N_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152H_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142A_S146C_D147Y_R152P_E155V_I156F_K157N),
(W23L_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146R_D147Y_E155V_I156F_K161T),
(W23R_H36L_P48A_R51L_L84F_A106V_D108N_H123Y_S146C_D147Y_R152P_E155V_I156F_K157N),
(H36L_P48A_R51L_L84F_A106V_D108N_H123Y_A142N_S146C_D147Y_R152P_E155V_I156F_K157N)。
在一些实施方式中,该腺苷脱氨酶是TadA*7.10。在一些实施方式中,TadA*7.10包括至少一个改变。在特定的实施方式中,TadA*7.10包括以下改变的一个或多个:Y147T、Y147R、Q154S、Y123H、V82S、T166R、和Q154R。所述改变Y123H在本文中也称为H123H(TadA*7.10中的所述改变H123Y回复到Y123H(wt))。在其他实施方式中,该TadA*7.10包括的改变的组合是选自于由以下所组成的群组:Y147T+Q154R;Y147T+Q154S;Y147R+Q154S;V82S+Q154S;V82S+Y147R;V82S+Q154R;V82S+Y123H;I76Y+V82S;V82S+Y123H+Y147T;V82S+Y123H+Y147R;V82S+Y123H+Q154R;Y147R+Q154R+Y123H;Y147R+Q154R+I76Y;Y147R+Q154R+T166R;Y123H+Y147R+Q154R+I76Y;V82S+Y123H+Y147R+Q154R;和I76Y+V82S+Y123H+Y147R+Q154R。在特定的实施方式中,腺苷脱氨酶变体包括从残基149、150、151、152、153、154、155、156、和157开始的C端的缺失。
在其他实施方式中,该碱基编辑器包括能够形成异二聚体的TadA*7.10和TadA(wt)。示例性的序列如下:
TadA(wt):
MSEVEFSHEYWMRHALTLAKRAWDEREVPVGAVLVHNNRVIGEGWNRPIGRHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTLEPCVMCAGAMIHSRIGRVVFGARDAKTGAAGSLMDVLHHPGMNHRVEITEGILADECAALLSDFFRMRRQEIKAQKKAQSSTD
TadA*7.10:
MSEVEFSHEYWMRHALTLAKRARDEREVPVGAVLVLNNRVIGEGWNRAIGLHDPTAHAEIMALRQGGLVMQNYRLIDATLYVTFEPCVMCAGAMIHSRIGRVVFGVRNAKTGAAGSLMDVLHYPGMNHRVEITEGILADECAALLCYFFRMPRQVFNAQKKAQSSTD
在一个实施方式中,本发明的融合蛋白包括与本文所述的腺苷脱氨酶变体链接的野生型TadA,而该腺苷脱氨酶变体则链接到Cas9切口酶上。
C到T的编辑
本发明的融合蛋白包括一个或多个核酸编辑结构域。在一些实施方式中,本文所揭示的碱基编辑器包括融合蛋白,该融合蛋白包括能够使多核苷酸的标靶胞苷(C)碱基脱氨基以生产尿苷(U)(其具有胸腺嘧啶的碱基配对特征)的胞苷脱氨酶。在一些实施方式中,例如当该多核苷酸是双股的(例如DNA)时,然后可以用胸苷碱基(例如通过细胞修复机器装置)替代该尿苷碱基以产生C:G到T:A的转变。在其他实施方式中,通过碱基编辑器将核酸中的C脱氨基变成U不能伴随着该U到T的替换。
多核苷酸中的标靶C的脱氨反应而产生U是可由本文所述的碱基编辑器执行的碱基编辑类型的非限制性的实例。在另一个实例中,包括胞苷脱氨酶结构域的碱基编辑器可以介导胞嘧啶(C)碱基到鸟嘌呤(G)碱基的转换。例如,由碱基编辑器的胞苷脱氨酶结构域对胞苷的脱氨反应而生产的多核苷酸的U,可以通过碱基切除修复机制(例如,通过尿嘧啶DNA糖基化酶(UDG)结构域)从该多核苷酸上被切除,从而生产出无碱基位点。与该无碱基位点相对的核碱基然后可以被另一个碱基(诸如C)替换(例如,通过碱基修复机器装置),例如通过绕道聚合酶(translesion polymerase)。尽管与无碱基位点相对的核碱基通常被C所取代,其他替换(例如A、G或T)也可以发生。
因此,在一些实施方式中,本文所述的碱基编辑器包括能够使多核苷酸中的标靶C脱氨基变为U的脱氨反应结构域或脱氨酶结构域(例如胞苷脱氨酶结构域)。此外,如下所述,该碱基编辑器可以包括额外的结构域,其促进所述脱氨反应所产生的U转换为,在一些实施方式中,T或G。例如,包括胞苷脱氨酶结构域的碱基编辑器可以进一步包括尿嘧啶糖基化酶抑制剂(UGI)结构域以介导U被T的替换,完成C-变-T碱基编辑事件。在另一个实例中,碱基编辑器可以并入绕道聚合酶以改善C-变-G碱基编辑的效率,因为绕道聚合酶可以促进与无碱基位点相对处C的并入(即,导致在该无碱基位点处G的并入,完成该C-变-G碱基编辑事件)。
包括胞苷脱氨酶作为结构域的碱基编辑器可以使任何多核苷酸中的标靶C脱氨基,包含DNA、RNA和DNA-RNA杂合体。通常,胞苷脱氨酶催化就定位于多核苷酸的单股部分的情境中的C核碱基。在一些实施方式中,包括标靶C的整个多核苷酸可以是单股的。例如,并入碱基编辑器中的胞苷脱氨酶可以使单股RNA多核苷酸中的标靶C脱氨基。在其他实施方式中,包括胞苷脱氨酶结构域的碱基编辑器可以作用于双股多核苷酸,但是该标靶C可以就定位于该多核苷酸的在脱氨反应时处于单股状态的部分中。例如,在NAGPB结构域包括Cas9结构域的实施方式中,在Cas9-gRNA-标靶DNA复合体的形成过程中可留下几个未配对的核苷酸,导致了Cas9“R-环复合体”的形成。这些未配对的核苷酸可以形成单股DNA的气泡,其可以充当单股特异性核苷酸脱氨酶(例如胞苷脱氨酶)的底物。
C到T核碱基编辑蛋白的细节在如下文献中被描述:国际PCT申请编号PCT/US2016/058344(WO2017/070632)和Komor,A.C.等,“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature533,420-424(2016),其全部内容在此通过引用并入本文。
胞苷脱氨酶
本文所提供的的融合蛋白包括胞苷脱氨酶。在一些实施方式中,本文所提供的胞苷脱氨酶能够将胞嘧啶或5-甲基胞嘧啶脱氨基为尿嘧啶或胸腺嘧啶。在一些实施方式中,本文所提供的胞苷脱氨酶能够使DNA中的胞嘧啶脱氨基。该胞苷脱氨酶可以衍生自任何适合的生物体。在一些实施方式中,该胞苷脱氨酶是天然存在的胞苷脱氨酶,其包含一个或多个与本文所提供的任何突变相对应的突变。本领域技术人员将能够,例如通过序列比对和同源残基的确定,鉴别任何同源蛋白质中的相应残基。因此,本领域技术人员将能够在任何天然存在的胞苷脱氨酶中生成与本文所述的任何突变相对应的突变。在一些实施方式中,该胞苷脱氨酶来自原核生物。在一些实施方式中,该胞苷脱氨酶来自细菌。在一些实施方式中,该胞苷脱氨酶来自哺乳动物(例如人类)。
在一些实施方式中,该胞苷脱氨酶包括的氨基酸序列,与本文所列出的任一胞苷脱氨酶氨基酸序列,是至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的。应当理解,本文所提供的胞苷脱氨酶可以包含一个或多个突变(例如,本文所提供的任何突变)。本公开披露所提供的任何脱氨酶结构域,均具有一定百分比的同一性,再加上本文所述的任何突变或其组合。在一些实施方式中,该胞苷脱氨酶包括的氨基酸序列,与参考序列或本文所提供的任何胞苷脱氨酶相比,具有1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、21、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50个、或更多个突变。在一些实施方式中,该胞苷脱氨酶包括的氨基酸序列,与本领域已知或本文所述的任一氨基酸序列相比,具有至少5、至少10、至少15、至少20、至少25、至少30、至少35、至少40、至少45、至少50、至少60、至少70、至少80、至少90、至少100、至少110、至少120、至少130、至少140、至少150、至少160、或至少170个相同的接连的氨基酸残基。
在一些实施方式中,碱基编辑器的胞苷脱氨酶可以包括载脂蛋白BmRNA编辑复合体(APOBEC)家族脱氨酶的全部或部分。APOBEC是进化上保守的胞苷脱氨酶的家族。这个家族的成员是C-变-U编辑酶。APOBEC样蛋白的N末端结构域是催化结构域,而C末端结构域是假催化结构域。更具体地,该催化结构域是锌依赖性胞苷脱氨酶结构域,且对于胞苷脱氨反应是重要的。APOBEC家族成员包含APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D("APOBEC3E"现在是指这个)、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4、以及活化-诱导的(胞苷)脱氨酶。
在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC1脱氨酶的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC2脱氨酶的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC3脱氨酶的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC3A脱氨酶的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC3B脱氨酶的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC3C脱氨酶的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC3D脱氨酶的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC3E脱氨的全部或部分酶。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC3F脱氨酶的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC3G脱氨酶的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC3H脱氨酶的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括APOBEC4脱氨的全部或部分酶。在一些实施方式中,并入碱基编辑器内的脱氨酶包括活化-诱导的脱氨酶(AID)的全部或部分。在一些实施方式中,并入碱基编辑器内的脱氨酶包括胞苷脱氨酶1(CDA1)的全部或部分。
在一些实施方式中,该胞苷脱氨酶包含但不限于:APOBEC家族成员,包含但不限于:APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D("APOBEC3E"现在是指这个)、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4、活化-诱导的(胞苷)脱氨酶(AID)、hAPOBEC1、其衍生自智人、rAPOBEC1、其衍生自褐大鼠/挪威鼠、ppAPOBEC1、其衍生自婆罗洲猩猩、AmAPOBEC1(BEM3.31)、衍生自美国短吻鳄、ocAPOBEC1、其衍生自穴兔、SsAPOBEC2(BEM3.39)、其衍生自欧洲猪、hAPOBEC3A、其衍生自智人、maAPOBEC1、其衍生自黄金仓鼠、mdAPOBEC1、其衍生自灰短尾负鼠;胞苷脱氨酶1(CDA1)、hA3A、其为衍生自智人的APOBEC3A、RrA3F(BEM3.14)、其为衍生自川金丝猴的APOBEC3F;PmCDA1、其衍生自海七鳃鳗(海七鳃鳗胞嘧啶脱氨酶1、“PmCDA1”);AID(活化-诱导的胞苷脱氨酶;AICDA)、其衍生自哺乳动物(例如,人类,猪,牛,马,猴等);hAID、其衍生自智人;以及FENRY。
应当理解,碱基编辑器可以包括来自任何适合的生物体(例如人或大鼠)的脱氨酶。在一些实施方式中,该脱氨酶是脊椎动物脱氨酶。在一些实施方式中,该脱氨酶是无脊椎动物脱氨酶。在一些实施方式中,该脱氨酶是来自人类、黑猩猩、大猩猩、猴、牛、狗、大鼠或小鼠的脱氨酶。在一些实施方式中,该脱氨酶是人类脱氨酶。在一些实施方式中,该脱氨酶是人类APOBEC1(hAPOBEC1)。在一些实施方式中,该脱氨酶是人类APOBEC3C(hAPOBEC3C或hA3C)。在一些实施方式中,该脱氨酶是人类APOBEC3A(hAPOBEC3A或hA3A)。在一些实施方式中,该脱氨酶是人类AID(hAID)。在一些实施方式中,该脱氨酶是人类APOBEC3G。在一些实施方式中,该脱氨酶是人类APOBEC3G的片段。在一些实施方式中,该脱氨酶是包括D316RD317R突变的人类APOBEC3G变体。在一些实施方式中,该脱氨酶是人类APOBEC3G的片段并且包括对应于所述D316R D317R突变的突变。
在一些实施方式中,该脱氨酶是大鼠脱氨酶。在一些实施方式中,该脱氨酶是大鼠APOBEC1(rAPOBECl)。在一些实施方式中,该脱氨酶是婆罗洲猩猩APOBEC1(ppAPOBEC1)。在一些实施方式中,该脱氨酶是海七鳃鳗胞苷脱氨酶1(pmCDAl)。在一些实施方式中,该脱氨酶是黄金仓鼠脱氨酶(maAPOBEC1)。在一些实施方式中,该脱氨酶是灰短尾负鼠脱氨酶(mdAPOBEC1)。在一些实施方式中,该脱氨酶是川金丝猴APOBEC3F(RrA3F(BEM3.14))。在一些实施方式中,该脱氨酶是美国短吻鳄APOBEC1(AmAPOBEC1(BEM3.31))。在一些实施方式中,该脱氨酶是欧洲猪APOBEC2(SsAPOBEC2(BEM3.39))。在一些实施方式中,该核酸编辑结构域,与本文所述任何脱氨酶的脱氨酶结构域,是至少80%、至少85%、至少90%、至少92%、至少95%、至少96%、至少97%、至少98%、至少99%、或至少99.5%相同的。
PmCDA1的氨基酸序列和核酸序列如下所示。
>tr|A5H718|A5H718_PETMA胞嘧啶脱氨酶OS=海七鳃鳗OX=7757PE=2SV=1氨基酸序列:
MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSIMIQVKILHTTKSPAV
核酸序列:>EF094822.1海七鳃鳗分离的PmCDA.21胞嘧啶脱氨酶mRNA,完整的cds:
TGACACGACACAGCCGTGTATATGAGGAAGGGTAGCTGGATGGGGGGGGGGGGAATACGTTCAGAGAGGACATTAGCGAGCGTCTTGTTGGTGGCCTTGAGTCTAGACACCTGCAGACATGACCGACGCTGAGTACGTGAGAATCCATGAGAAGTTGGACATCTACACGTTTAAGAAACAGTTTTTCAACAACAAAAAATCCGTGTCGCATAGATGCTACGTTCTCTTTGAATTAAAACGACGGGGTGAACGTAGAGCGTGTTTTTGGGGCTATGCTGTGAATAAACCACAGAGCGGGACAGAACGTGGAATTCACGCCGAAATCTTTAGCATTAGAAAAGTCGAAGAATACCTGCGCGACAACCCCGGACA
ATTCACGATAAATTGGTACTCATCCTGGAGTCCTTGTGCAGATTGCGCTGAAAAGATCTTAGAATGGTATAACCAGGAGCTGCGGGGGAACGGCCACACTTTGAAAATCTGGGCTTGCAAACTCTATTACGAGAAAAATGCGAGGAATCAAATTGGGCTGTGGAACCTCAGAGATAACGGGGTTGGGTTGAATGTAATGGTAAGTGAACACTACCAATGTTGCAGGAAAATATTCATCCAATCGTCGCACAATCAATTGAATGAGAATAGATGGCTTGAGAAGACTTTGAAGCGAGCTGAAAAACGACGGAGCGAGTTGTCCATTATGATTCAGGTAAAAATACTCCACACCACTAAGAGTCCTGCTGTTTAAGAGGCTATGCGGATGGTTTTC
人类活化-诱导的胞苷脱氨酶(AID)的编码序列(CDS)的氨基酸序列和核酸序列如下所示。
>tr|Q6QJ80|Q6QJ80_HUMAN活化-诱导的胞苷脱氨酶OS=智人OX=9606GN=AICDAPE=2SV=1氨基酸序列:
MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKAPV
核酸序列:>NG_011588.1:5001-15681智人活化诱导的胞苷脱氨酶(AICDA),RefSeqGene(LRG_17)在染色体12上:AGAGAACCATCATTAATTGAAGTGAGATTTTTCTGGCCTGAGACTTGCAGGGAGGCAAGAAGACACTCTGGACACCACTATGGACAGGTAAAGAGGCAGTCTTCTCGTGGGTGATTGCACTGGCCTTCCTCTCAGAGCAAATCTGAGTAATGAGACTGGTAGCTATCCCTTTCTCTCATGTAACTGTCTGACTGATAAGATCAGCTTGATCAATATGCATATATATTTTTTGATCTGTCTCCTTTTCTTCTATTCAGATCTTATACGCTGTCAGCCCAATTCTTTCTGTTTCAGACTTCTCTTGATTTCCCTCTTTTTCATGTGGCAAAAGAAGTAGTGCGTACAATGTACTGATTCGTCCTGAGATTTGTACCATGGTTGAAACTAATTTATGGTAATAATATTAACATAGCAAATCTTTAGAGACTCAAATCATGAAAAGGTAATAGCAGTACTGTACTAAAAACGGTAGTGCTAATTTTCGTAATAATTTTGTAAATATTCAACAGTAAAACAACTTGAAGACACACTTTCCTAGGGAGGCGTTACTGAAATAATTTAGCTATAGTAAGAAAATTTGTAATTTTAGAAATGCCAAGCATTCTAAATTAATTGCTTGAAAGTCACTATGATTGTGTCCATTATAAGGAGACAAATTCATTCAAGCAAGTTATTTAATGTTAAAGGCCCAATTGTTAGGCAGTTAATGGCACTTTTACTATTAACTAATCTTTCCATTTGTTCAGACGTAGCTTAACTTACCTCTTAGGTGTGAATTTGGTTAAGGTCCTCATAATGTCTTTATGTGCAGTTTTTGATAGGTTATTGTCATAGAACTTATTCTATTCCTACATTTATGATTACTATGGATGTATGAGAATAACACCTAATCCTTATACTTTACCTCAATTTAACTCCTTTATAAAGAACTTACATTACAGAATAAAGATTTTTTAAAAATATATTTTTTTGTAGAGACAGGGTCTTAGCCCAGCCGAGGCTGGTCTCTAAGTCCTGGCCCAAGCGATCCTCCTGCCTGGGCCTCCTAAAGTGCTGGAATTATAGACATGAGCCATCACATCCAATATACAGAATAAAGATTTTTAATGGAGGATTTAATGTTCTTCAGAAAATTTTCTTGAGGTCAGACAATGTCAAATGTCTCCTCAGTTTACACTGAGATTTTGAAAACAAGTCTGAGCTATAGGTCCTTGTGAAGGGTCCATTGGAAATACTTGTTCAAAGTAAAATGGAAAGCAAAGGTAAAATCAGCAGTTGAAATTCAGAGAAAGACAGAAAAGGAGAAAAGATGAAATTCAACAGGACAGAAGGGAAATATATTATCATTAAGGAGGACAGTATCTGTAGAGCTCATTAGTGATGGCAAAATGACTTGGTCAGGATTATTTTTAACCCGCTTGTTTCTGGTTTGCACGGCTGGGGATGCAGCTAGGGTTCTGCCTCAGGGAGCACAGCTGTCCAGAGCAGCTGTCAGCCTGCAAGCCTGAAACACTCCCTCGGTAAAGTCCTTCCTACTCAGGACAGAAATGACGAGAACAGGGAGCTGGAAACAGGCCCCTAACCAGAGAAGGGAAGTAATGGATCAACAAAGTTAACTAGCAGGTCAGGATCACGCAATTCATTTCACTCTGACTGGTAACATGTGACAGAAACAGTGTAGGCTTATTGTATTTTCATGTAGAGTAGGACCCAAAAATCCACCCAAAGTCCTTTATCTATGCCACATCCTTCTTATCTATACTTCCAGGACACTTTTTCTTCCTTATGATAAGGCTCTCTCTCTCTCCACACACACACACACACACACACACACACACACACACACACACACAAACACACACCCCGCCAACCAAGGTGCATGTAAAAAGATGTAGATTCCTCTGCCTTTCTCATCTACACAGCCCAGGAGGGTAAGTTAATATAAGAGGGATTTATTGGTAAGAGATGATGCTTAATCTGTTTAACACTGGGCCTCAAAGAGAGAATTTCTTTTCTTCTGTACTTATTAAGCACCTATTATGTGTTGAGCTTATATATACAAAGGGTTATTATATGCTAATATAGTAATAGTAATGGTGGTTGGTACTATGGTAATTACCATAAAAATTATTATCCTTTTAAAATAAAGCTAATTATTATTGGATCTTTTTTAGTATTCATTTTATGTTTTTTATGTTTTTGATTTTTTAAAAGACAATCTCACCCTGTTACCCAGGCTGGAGTGCAGTGGTGCAATCATAGCTTTCTGCAGTCTTGAACTCCTGGGCTCAAGCAATCCTCCTGCCTTGGCCTCCCAAAGTGTTGGGATACAGTCATGAGCCACTGCATCTGGCCTAGGATCCATTTAGATTAAAATATGCATTTTAAATTTTAAAATAATATGGCTAATTTTTACCTTATGTAATGTGTATACTGGCAATAAATCTAGTTTGCTGCCTAAAGTTTAAAGTGCTTTCCAGTAAGCTTCATGTACGTGAGGGGAGACATTTAAAGTGAAACAGACAGCCAGGTGTGGTGGCTCACGCCTGTAATCCCAGCACTCTGGGAGGCTGAGGTGGGTGGATCGCTTGAGCCCTGGAGTTCAAGACCAGCCTGAGCAACATGGCAAAACGCTGTTTCTATAACAAAAATTAGCCGGGCATGGTGGCATGTGCCTGTGGTCCCAGCTACTAGGGGGCTGAGGCAGGAGAATCGTTGGAGCCCAGGAGGTCAAGGCTGCACTGAGCAGTGCTTGCGCCACTGCACTCCAGCCTGGGTGACAGGACCAGACCTTGCCTCAAAAAAATAAGAAGAAAAATTAAAAATAAATGGAAACAACTACAAAGAGCTGTTGTCCTAGATGAGCTACTTAGTTAGGCTGATATTTTGGTATTTAACTTTTAAAGTCAGGGTCTGTCACCTGCACTACATTATTAAAATATCAATTCTCAATGTATATCCACACAAAGACTGGTACGTGAATGTTCATAGTACCTTTATTCACAAAACCCCAAAGTAGAGACTATCCAAATATCCATCAACAAGTGAACAAATAAACAAAATGTGCTATATCCATGCAATGGAATACCACCCTGCAGTACAAAGAAGCTACTTGGGGATGAATCCCAAAGTCATGACGCTAAATGAAAGAGTCAGACATGAAGGAGGAGATAATGTATGCCATACGAAATTCTAGAAAATGAAAGTAACTTATAGTTACAGAAAGCAAATCAGGGCAGGCATAGAGGCTCACACCTGTAATCCCAGCACTTTGAGAGGCCACGTGGGAAGATTGCTAGAACTCAGGAGTTCAAGACCAGCCTGGGCAACACAGTGAAACTCCATTCTCCACAAAAATGGGAAAAAAAGAAAGCAAATCAGTGGTTGTCCTGTGGGGAGGGGAAGGACTGCAAAGAGGGAAGAAGCTCTGGTGGGGTGAGGGTGGTGATTCAGGTTCTGTATCCTGACTGTGGTAGCAGTTTGGGGTGTTTACATCCAAAAATATTCGTAGAATTATGCATCTTAAATGGGTGGAGTTTACTGTATGTAAATTATACCTCAATGTAAGAAAAAATAATGTGTAAGAAAACTTTCAATTCTCTTGCCAGCAAACGTTATTCAAATTCCTGAGCCCTTTACTTCGCAAATTCTCTGCACTTCTGCCCCGTACCATTAGGTGACAGCACTAGCTCCACAAATTGGATAAATGCATTTCTGGAAAAGACTAGGGACAAAATCCAGGCATCACTTGTGCTTTCATATCAACCATGCTGTACAGCTTGTGTTGCTGTCTGCAGCTGCAATGGGGACTCTTGATTTCTTTAAGGAAACTTGGGTTACCAGAGTATTTCCACAAATGCTATTCAAATTAGTGCTTATGATATGCAAGACACTGTGCTAGGAGCCAGAAAACAAAGAGGAGGAGAAATCAGTCATTATGTGGGAACAACATAGCAAGATATTTAGATCATTTTGACTAGTTAAAAAAGCAGCAGAGTACAAAATCACACATGCAATCAGTATAATCCAAATCATGTAAATATGTGCCTGTAGAAAGACTAGAGGAATAAACACAAGAATCTTAACAGTCATTGTCATTAGACACTAAGTCTAATTATTATTATTAGACACTATGATATTTGAGATTTAAAAAATCTTTAATATTTTAAAATTTAGAGCTCTTCTATTTTTCCATAGTATTCAAGTTTGACAATGATCAAGTATTACTCTTTCTTTTTTTTTTTTTTTTTTTTTTTTTGAGATGGAGTTTTGGTCTTGTTGCCCATGCTGGAGTGGAATGGCATGACCATAGCTCACTGCAACCTCCACCTCCTGGGTTCAAGCAAAGCTGTCGCCTCAGCCTCCCGGGTAGATGGGATTACAGGCGCCCACCACCACACTCGGCTAATGTTTGTATTTTTAGTAGAGATGGGGTTTCACCATGTTGGCCAGGCTGGTCTCAAACTCCTGACCTCAGAGGATCCACCTGCCTCAGCCTCCCAAAGTGCTGGGATTACAGATGTAGGCCACTGCGCCCGGCCAAGTATTGCTCTTATACATTAAAAAACAGGTGTGAGCCACTGCGCCCAGCCAGGTATTGCTCTTATACATTAAAAAATAGGCCGGTGCAGTGGCTCACGCCTGTAATCCCAGCACTTTGGGAAGCCAAGGCGGGCAGAACACCCGAGGTCAGGAGTCCAAGGCCAGCCTGGCCAAGATGGTGAAACCCCGTCTCTATTAAAAATACAAACATTACCTGGGCATGATGGTGGGCGCCTGTAATCCCAGCTACTCAGGAGGCTGAGGCAGGAGGATCCGCGGAGCCTGGCAGATCTGCCTGAGCCTGGGAGGTTGAGGCTACAGTAAGCCAAGATCATGCCAGTATACTTCAGCCTGGGCGACAAAGTGAGACCGTAACAAAAAAAAAAAAATTTAAAAAAAGAAATTTAGATCAAGATCCAACTGTAAAAAGTGGCCTAAACACCACATTAAAGAGTTTGGAGTTTATTCTGCAGGCAGAAGAGAACCATCAGGGGGTCTTCAGCATGGGAATGGCATGGTGCACCTGGTTTTTGTGAGATCATGGTGGTGACAGTGTGGGGAATGTTATTTTGGAGGGACTGGAGGCAGACAGACCGGTTAAAAGGCCAGCACAACAGATAAGGAGGAAGAAGATGAGGGCTTGGACCGAAGCAGAGAAGAGCAAACAGGGAAGGTACAAATTCAAGAAATATTGGGGGGTTTGAATCAACACATTTAGATGATTAATTAAATATGAGGACTGAGGAATAAGAAATGAGTCAAGGATGGTTCCAGGCTGCTAGGCTGCTTA
CCTGAGGTGGCAAAGTCGGGAGGAGTGGCAGTTTAGGACAGGGGGCAGTTGAGGAATATTGTTTTGATCATTTTGAGTTTGAGGTACAAGTTGGACACTTAGGTAAAGACTGGAGGGGAAATCTGAATATACAATTATGGGACTGAGGAACAAGTTTATTTTATTTTTTGTTTCGTTTTCTTGTTGAAGAACAAATTTAATTGTAATCCCAAGTCATCAGCATCTAGAAGACAGTGGCAGGAGGTGACTGTCTTGTGGGTAAGGGTTTGGGGTCCTTGATGAGTATCTCTCAATTGGCCTTAAATATAAGCAGGAAAAGGAGTTTATGATGGATTCCAGGCTCAGCAGGGCTCAGGAGGGCTCAGGCAGCCAGCAGAGGAAGTCAGAGCATCTTCTTTGGTTTAGCCCAAGTAATGACTTCCTTAAAAAGCTGAAGGAAAATCCAGAGTGACCAGATTATAAACTGTACTCTTGCATTTTCTCTCCCTCCTCTCACCCACAGCCTCTTGATGAACCGGAGGAAGTTTCTTTACCAATTCAAAAATGTCCGCTGGGCTAAGGGTCGGCGTGAGACCTACCTGTGCTACGTAGTGAAGAGGCGTGACAGTGCTACATCCTTTTCACTGGACTTTGGTTATCTTCGCAATAAGGTATCAATTAAAGTCGGCTTTGCAAGCAGTTTAATGGTCAACTGTGAGTGCTTTTAGAGCCACCTGCTGATGGTATTACTTCCATCCTTTTTTGGCATTTGTGTCTCTATCACATTCCTCAAATCCTTTTTTTTATTTCTTTTTCCATGTCCATGCACCCATATTAGACATGGCCCAAAATATGTGATTTAATTCCTCCCCAGTAATGCTGGGCACCCTAATACCACTCCTTCCTTCAGTGCCAAGAACAACTGCTCCCAAACTGTTTACCAGCTTTCCTCAGCATCTGAATTGCCTTTGAGATTAATTAAGCTAAAAGCATTTTTATATGGGAGAATATTATCAGCTTGTCCAAGCAAAAATTTTAAATGTGAAAAACAAATTGTGTCTTAAGCATTTTTGAAAATTAAGGAAGAAGAATTTGGGAAAAAATTAACGGTGGCTCAATTCTGTCTTCCAAATGATTTCTTTTCCCTCCTACTCACATGGGTCGTAGGCCAGTGAATACATTCAACATGGTGATCCCCAGAAAACTCAGAGAAGCCTCGGCTGATGATTAATTAAATTGATCTTTCGGCTACCCGAGAGAATTACATTTCCAAGAGACTTCTTCACCAAAATCCAGATGGGTTTACATAAACTTCTGCCCACGGGTATCTCCTCTCTCCTAACACGCTGTGACGTCTGGGCTTGGTGGAATCTCAGGGAAGCATCCGTGGGGTGGAAGGTCATCGTCTGGCTCGTTGTTTGATGGTTATATTACCATGCAATTTTCTTTGCCTACATTTGTATTGAATACATCCCAATCTCCTTCCTATTCGGTGACATGACACATTCTATTTCAGAAGGCTTTGATTTTATCAAGCACTTTCATTTACTTCTCATGGCAGTGCCTATTACTTCTCTTACAATACCCATCTGTCTGCTTTACCAAAATCTATTTCCCCTTTTCAGATCCTCCCAAATGGTCCTCATAAACTGTCCTGCCTCCACCTAGTGGTCCAGGTATATTTCCACAATGTTACATCAACAGGCACTTCTAGCCATTTTCCTTCTCAAAAGGTGCAAAAAGCAACTTCATAAACACAAATTAAATCTTCGGTGAGGTAGTGTGATGCTGCTTCCTCCCAACTCAGCGCACTTCGTCTTCCTCATTCCACAAAAACCCATAGCCTTCCTTCACTCTGCAGGACTAGTGCTGCCAAGGGTTCAGCTCTACCTACTGGTGTGCTCTTTTGAGCAAGTTGCTTAGCCTCTCTGTAACACAAGGACAATAGCTGCAAGCATCCCCAAAGATCATTGCAGGAGACAATGACTAAGGCTACCAGAGCCGCAATAAAAGTCAGTGAATTTTAGCGTGGTCCTCTCTGTCTCTCCAGAACGGCTGCCACGTGGAATTGCTCTTCCTCCGCTACATCTCGGACTGGGACCTAGACCCTGGCCGCTGCTACCGCGTCA
CCTGGTTCACCTCCTGGAGCCCCTGCTACGACTGTGCCCGACATGTGGCCGACTTTCTGCGAGGGAACCCCAACCTCAGTCTGAGGATCTTCACCGCGCGCCTCTACTTCTGTGAGGACCGCAAGGCTGAGCCCGAGGGGCTGCGGCGGCTGCACCGCGCCGGGGTGCAAATAGCCATCATGACCTTCAAAGGTGCGAAAGGGCCTTCCGCGCAGGCGCAGTGCAGCAGCCCGCATTCGGGATTGCGATGCGGAATGAATGAGTTAGTGGGGAAGCTCGAGGGGAAGAAGTGGGCGGGGATTCTGGTTCACCTCTGGAGCCGAAATTAAAGATTAGAAGCAGAGAAAAGAGTGAATGGCTCAGAGACAAGGCCCCGAGGAAATGAGAAAATGGGGCCAGGGTTGCTTCTTTCCCCTCGATTTGGAACCTGAACTGTCTTCTACCCCCATATCCCCGCCTTTTTTTCCTTTTTTTTTTTTTGAAGATTATTTTTACTGCTGGAATACTTTTGTAGAAAACCACGAAAGAACTTTCAAAGCCTGGGAAGGGCTGCATGAAAATTCAGTTCGTCTCTCCAGACAGCTTCGGCGCATCCTTTTGGTAAGGGGCTTCCTCGCTTTTTAAATTTTCTTTCTTTCTCTACAGTCTTTTTTGGAGTTTCGTATATTTCTTATATTTTCTTATTGTTCAATCACTCTCAGTTTTCATCTGATGAAAACTTTATTTCTCCTCCACATCAGCTTTTTCTTCTGCTGTTTCACCATTCAGAGCCCTCTGCTAAGGTTCCTTTTCCCTCCCTTTTCTTTCTTTTGTTGTTTCACATCTTTAAATTTCTGTCTCTCCCCAGGGTTGCGTTTCCTTCCTGGTCAGAATTCTTTTCTCCTTTTTTTTTTTTTTTTTTTTTTTTTTTAAACAAACAAACAAAAAACCCAAAAAAACTCTTTCCCAATTTACTTTCTTCCAACATGTTACAAAGCCATCCACTCAGTTTAGAAGACTCTCCGGCCCCACCGACCCCCAACCTCGTTTTGAAGCCATTCACTCAATTTGCTTCTCTCTTTCTCTACAGCCCCTGTATGAGGTTGATGACTTACGAGACGCATTTCGTACTTTGGGACTTTGATAGCAACTTCCAGGAATGTCACACACGATGAAATATCTCTGCTGAAGACAGTGGATAAAAAACAGTCCTTCAAGTCTTCTCTGTTTTTATTCTTCAACTCTCACTTTCTTAGAGTTTACAGAAAAAATATTTATATACGACTCTTTAAAAAGATCTATGTCTTGAAAATAGAGAAGGAACACAGGTCTGGCCAGGGACGTGCTGCAATTGGTGCAGTTTTGAATGCAACATTGTCCCCTACTGGGAATAACAGAACTGCAGGACCTGGGAGCATCCTAAAGTGTCAACGTTTTTCTATGACTTTTAGGTAGGATGAGAGCAGAAGGTAGATCCTAAAAAGCATGGTGAGAGGATCAAATGTTTTTATATCAACATCCTTTATTATTTGATTCATTTGAGTTAACAGTGGTGTTAGTGATAGATTTTTCTATTCTTTTCCCTTGACGTTTACTTTCAAGTAACACAAACTCTTCCATCAGGCCATGATCTATAGGACCTCCTAATGAGAGTATCTGGGTGATTGTGACCCCAAACCATCTCTCCAAAGCATTAATATCCAATCATGCGCTGTATGTTTTAATCAGCAGAAGCATGTTTTTATGTTTGTACAAAAGAAGATTGTTATGGGTGGGGATGGAGGTATAGACCATGCATGGTCACCTTCAAGCTACTTTAATAAAGGATCTTAAAATGGGCAGGAGGACTGTGAACAAGACACCCTAATAATGGGTTGATGTCTGAAGTAGCAAATCTTCTGGAAACGCAAACTCTTTTAAGGAAGTCCCTAATTTAGAAACACCCACAAACTTCACATATCATAATTAGCAAACAATTGGAAGGAAGTTGCTTGAATGTTGGGGAGAGGAAAATCTATTGGCTCTCGTGGGTCTCTTCATCTCAGAAATGCCAATCAGGTCAAGGTTTGCTACATTTTGTATGTGTGTGATGCTTCTCCCAAAGGTATATTAACTATATAAGAGAGTTG
TGACAAAACAGAATGATAAAGCTGCGAACCGTGGCACACGCTCATAGTTCTAGCTGCTTGGGAGGTTGAGGAGGGAGGATGGCTTGAACACAGGTGTTCAAGGCCAGCCTGGGCAACATAACAAGATCCTGTCTCTCAAAAAAAAAAAAAAAAAAAAGAAAGAGAGAGGGCCGGGCGTGGTGGCTCACGCCTGTAATCCCAGCACTTTGGGAGGCCGAGCCGGGCGGATCACCTGTGGTCAGGAGTTTGAGACCAGCCTGGCCAACATGGCAAAACCCCGTCTGTACTCAAAATGCAAAAATTAGCCAGGCGTGGTAGCAGGCACCTGTAATCCCAGCTACTTGGGAGGCTGAGGCAGGAGAATCGCTTGAACCCAGGAGGTGGAGGTTGCAGTAAGCTGAGATCGTGCCGTTGCACTCCAGCCTGGGCGACAAGAGCAAGACTCTGTCTCAGAAAAAAAAAAAAAAAAGAGAGAGAGAGAGAAAGAGAACAATATTTGGGAGAGAAGGATGGGGAAGCATTGCAAGGAAATTGTGCTTTATCCAACAAAATGTAAGGAGCCAATAAGGGATCCCTATTTGTCTCTTTTGGTGTCTATTTGTCCCTAACAACTGTCTTTGACAGTGAGAAAAATATTCAGAATAACCATATCCCTGTGCCGTTATTACCTAGCAACCCTTGCAATGAAGATGAGCAGATCCACAGGAAAACTTGAATGCACAACTGTCTTATTTTAATCTTATTGTACATAAGTTTGTAAAAGAGTTAAAAATTGTTACTTCATGTATTCATTTATATTTTATATTATTTTGCGTCTAATGATTTTTTATTAACATGATTTCCTTTTCTGATATATTGAAATGGAGTCTCAAAGCTTCATAAATTTATAACTTTAGAAATGATTCTAATAACAACGTATGTAATTGTAACATTGCAGTAATGGTGCTACGAAGCCATTTCTCTTGATTTTTAGTAAACTTTTATGACAGCAAATTTGCTTCTGGCTCACTTTCAATCAGTTAAATAAATGATAAATAATTTTGGAAGCTGTGAAGATAAAATACCAAATAAAATAATATAAAAGTGATTTATATGAAGTTAAAATAAAAAATCAGTATGATGGAATAAACTTG
下面提供了根据本公开披露的各方面可以与Cas9融合的其他示例性脱氨酶。在实施方式中,该脱氨酶是活化-诱导的脱氨酶(AID)。应当清楚,在一些实施方式中,可以使用各个序列的活性结构域,例如,没有定位信号(核定位序列,其无核输出信号,细胞质定位信号)的结构域。
人类AID:
Figure BDA0003286956470002021
(单下划线:核定位序列;双下划线:核输出信号)
小鼠AID:
Figure BDA0003286956470002022
(单下划线:核定位序列;双下划线:核输出信号)
犬AID:
Figure BDA0003286956470002023
(单下划线:核定位序列;双下划线:核输出信号)
牛AID:
Figure BDA0003286956470002024
(单下划线:核定位序列;双下划线:核输出信号)
大鼠AID:
Figure BDA0003286956470002025
(单下划线:核定位序列;双下划线:核输出信号)
clAID(犬):
MDSLLMKQRKFLYHFKNVRWAKGRHETYLCYVVKRRDSATSFSLDFGHLRNKSGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGYPNLSLRIFAARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENREKTFKAWEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL
btAID(牛):
MDSLLKKQRQFLYQFKNVRWAKGRHETYLCYVVKRRDSPTSFSLDFGHLRNKAGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGYPNLSLRIFTARLYFCDKERKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENHERTFKAWEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL
mAID(小鼠):
MDSLLMNRRKFLYQFKNVRWAKGRRETYLCYVVKRRDSATSFSLDFGYLRNKNGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVADFLRGNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIAIMTFKDYFYCWNTFVENHERTFKAWEGLHENSVRLSRQLRRILLPLYEVDDLRDAFRTLGL
rAPOBEC-1(大鼠):
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLIS
SGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK(SEQ ID NO:1)
maAPOBEC-1(黄金仓鼠):
MSSETGPVVVDPTLRRRIEPHEFDAFFDQGELRKETCLLYEIRWGGRHNIWRHTGQNTSRHVEINFIEKFTSERYFYPSTRCSIVWFLSWSPCGECSKAITEFLSGHPNVTLFIYAARLYHHTDQRNRQGLRDLISRGVTIRIMTEQEYCYCWRNFVNYPPSNEVYWPRYPNLWMRLYALELYCIHLGLPPCLKIKRRHQYPLTFFRLNLQSCHYQRIPPHILWATGFI
ppAPOBEC-1(婆罗洲猩猩):
MTSEKGPSTGDPTLRRRIESWEFDVFYDPRELRKETCLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERRFHSSISCSITWFLSWSPCWECSQAIREFLSQHPGVTLVIYVARLFWHMDQRNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLAFFRLHLQNCHYQTIPPHILLATGLIHPSVTWR
ocAPOBEC1(穴兔):
MASEKGPSNKDYTLRRRIEPWEFEVFFDPQELRKEACLLYEIKWGASSKTWRSSGKNTTNHVEVNFLEKLTSEGRLGPSTCCSITWFLSWSPCWECSMAIREFLSQHPGVTLIIFVARLFQHMDRRNRQGLKDLVTSGVTVRVMSVSEYCYCWENFVNYPPGKAAQWPRYPPRWMLMYALELYCIILGLPPCLKISRRHQKQLTFFSLTPQYCHYKMIPPYILLATGLLQPSVPWR
mdAPOBEC-1(灰短尾负鼠):
MNSKTGPSVGDATLRRRIKPWEFVAFFNPQELRKETCLLYEIKWGNQNIWRHSNQNTSQHAEINFMEKFTAERHFNSSVRCSITWFLSWSPCWECSKAIRKFLDHYPNVTLAIFISRLYWHMDQQHRQGLKELVHSGVTIQIMSYSEYHYCWRNFVDYPQGEEDYWPKYPYLWIMLYVLELHCIILGLPPCLKISGSHSNQLALFSLDLQDCHYQKIPYNVLVATGLVQPFVTWR
ppAPOBEC-2(婆罗洲猩猩):
MAQKEEAAAATEAASQNGEDLENLDDPEKLKELIELPPFEIVTGERLPANFFKFQFRNVEYSSGRNKTFLCYVVEAQGKGGQVQASRGYLEDEHAAAHAEEAFFNTILPAFDPALRYNVTWYVSSSPCAACADRIIKTLSKTKNLRLLILVGRLFMWEELEIQDALKKLKEAGCKLRIMKPQDFEYVWQNFVEQEEGESKAFQPWEDIQENFLYYEEKLADILK
btAPOBEC-2(牛):
MAQKEEAAAAAEPASQNGEEVENLEDPEKLKELIELPPFEIVTGERLPAHYFKFQFRNVEYSSGRNKTFLCYVVEAQSKGGQVQASRGYLEDEHATNHAEEAFFNSIMPTFDPALRYMVTWYVSSSPCAACADRIVKTLNKTKNLRLLILVGRLFMWEEPEIQAALRKLKEAGCRLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK
mAPOBEC-3-(1)(小鼠):
MQPQRLGPRAGMGPFCLGCSHRKCYSPIRNLISQETFKFHFKNLGYAKGRKDTFLCYEVTRKDCDSPVSLHHGVFKNKDNIHAEICFLYWFHDKVLKVLSPREEFKITWYMSWSPCFECAEQIVRFLATHHNLSLDIFSSRLYNVQDPETQQNLCRLVQEGAQVAAMDLYEFKKCWKKFVDNGGRRFRPWKRLLTNFRYQDSKL
QEILRPCYISVPSSSSSTLSNICLTKGLPETRFWVEGRRMDPLSEEEFYSQFYNQRVKHLCYYHRMKPYLCYQLEQFNGQAPLKGCLLSEKGKQHAEILFLDKIRSMELSQVTITCYLTWSPCPNCAWQLAAFKRDRPDLILHIYTSRLYFHWKRPFQKGLCSLWQSGILVDVMDLPQFTDCWTNFVNPKRPFWPWKGLEIISRRTQRRLRRIKESWGLQDLVNDFGNLQLGPPMS
小鼠APOBEC-3-(2):
Figure BDA0003286956470002041
Figure BDA0003286956470002042
(斜体:核酸编辑结构域)
大鼠APOBEC-3:
Figure BDA0003286956470002043
(斜体:核酸编辑结构域)
hAPOBEC-3A(智人):
MEASPASGPRHLMDPHIFTSNFNNGIGRHKTYLCYEVERLDNGTSVKMDQHRGFLHNQAKNLLCGFYGRHAELRFLDLVPSLQLDPAQIYRVTWFISWSPCFSWGCAGEVRAFLQENTHVRLRIFAARIYDYDPLYKEALQMLRDAGAQVSIMTYDEFKHCWDTFVDHQGCPFQPWDGLDEHSQALSGRLRAILQNQGN
hAPOBEC-3F(智人):
MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPRLDAKIFRGQVYSQPEHHAEMCFLSWFCGNQLPAYKCFQITWFVSWTPCPDCVAKLAEFLAEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVKIMDDEEFAYCWENFVYSEGQPFMPWYKFDDNYAFLHRTLKEILRNPMEAMYPHIFYFHFKNLRKAYGRNESWLCFTMEVVKHHSPVSWKRGVFRNQVDPETHCHAERCFLSWFCDDILSPNTNYEVTWYTSWSPCPECAGEVAEFLARHSNVNLTIFTARLYYFWDTDYQEGLRSLSQEGASVEIMGYKDFKYCWENFVYNDDEPFKPWKGLKYNFLFLDSKLQEILE
普通猕猴(Rhesus macaque)APOBEC-3G:
Figure BDA0003286956470002051
Figure BDA0003286956470002064
Figure BDA0003286956470002065
(斜体:核酸编辑结构域;单下划线:细胞质定位信号)
黑猩猩APOBEC-3G:
Figure BDA0003286956470002061
(斜体:核酸编辑结构域;单下划线:细胞质定位信号)
绿猴APOBEC-3G:
Figure BDA0003286956470002062
(斜体:核酸编辑结构域;单下划线:细胞质定位信号)
人类APOBEC-3G:
Figure BDA0003286956470002063
(斜体:核酸编辑结构域;单下划线:细胞质定位信号)
人类APOBEC-3F:
Figure BDA0003286956470002066
(斜体:核酸编辑结构域)
人类APOBEC-3B:
Figure BDA0003286956470002071
(斜体:核酸编辑结构域)
大鼠APOBEC-3B:
MQPQGLGPNAGMGPVCLGCSHRRPYSPIRNPLKKLYQQTFYFHFKNVRYAWGRKNNFLCYEVNGMDCALPVPLRQGVFRKQGHIHAELCFIYWFHDKVLRVLSPMEEFKVTWYMSWSPCSKCAEQVARFLAAHRNLSLAIFSSRLYYYLRNPNYQQKLCRLIQEGVHVAAMDLPEFKKCWNKFVDNDGQPFRPWMRLRINFSFYDCKLQEIFSRMNLLREDVFYLQFNNSHRVKPVQNRYYRRKSYLCYQLERANGQEPLKGYLLYKKGEQHVEILFLEKMRSMELSQVRITCYLTWSPCPNCARQLAAFKKDHPDLILRIYTSRLYFWRKKFQKGLCTLWRSGIHVDVMDLPQFADCWTNFVNPQRPFRPWNELEKNSWRIQRRLRRIKESWGL
牛APOBEC-3B:
DGWEVAFRSGTVLKAGVLGVSMTEGWAGSGHPGQGACVWTPGTRNTMNLLREVLFKQQFGNQPRVPAPYYRRKTYLCYQLKQRNDLTLDRGCFRNKKQRHAERFIDKINSLDLNPSQSYKIICYITWSPCPNCANELVNFITRNNHLKLEIFASRLYFHWIKSFKMGLQDLQNAGISVAVMTHTEFEDCWEQFVDNQSRPFQPWDKLEQYSASIRRRLQRILTAPI
黑猩猩APOBEC-3B:
MNPQIRNPMEWMYQRTFYYNFENEPILYGRSYTWLCYEVKIRRGHSNLLWDTGVFRGQMYSQPEHHAEMCFLSWFCGNQLSAYKCFQITWFVSWTPCPDCVAKLAKFLAEHPNVTLTISAARLYYYWERDYRRALCRLSQAGARVKIMDDEEFAYCWENFVYNEGQPFMPWYKFDDNYAFLHRTLKEIIRHLMDPDTFTFNFNNDPLVLRRHQTYLCYEVERLDNGTWVLMDQHMGFLCNEAKNLLCGFYGRHAELRFLDLVPSLQLDPAQIYRVTWFISWSPCFSWGCAGQVRAFLQENTHVRLRIFAARIYDYDPLYKEALQMLRDAGAQVSIMTYDEFEYCWDTFVYRQGCPFQPWDGLEEHSQALSGRLRAILQVRASSLCMVPHRPPPPPQSPGPCLPLCSEPPLGSLLPTGRPAPSLPFLLTASFSFPPPASLPPLPSLSLSPGHLPVPSFHSLTSCSIQPPCSSRIRETEGWASVSKEGRDLG
人类APOBEC-3C:
Figure BDA0003286956470002072
(斜体:核酸编辑结构域)
大猩猩APOBEC-3C
Figure BDA0003286956470002081
(斜体:核酸编辑结构域)
人类APOBEC-3A:
Figure BDA0003286956470002082
(斜体:核酸编辑结构域)
普通猕猴APOBEC-3A:
Figure BDA0003286956470002083
(斜体:核酸编辑结构域)
牛APOBEC-3A:
Figure BDA0003286956470002084
(斜体:核酸编辑结构域)
人类APOBEC-3H:
Figure BDA0003286956470002085
(斜体:核酸编辑结构域)
普通猕猴APOBEC-3H:
MALLTAKTFSLQFNNKRRVNKPYYPRKALLCYQLTPQNGSTPTRGHLKNKKKDHAEIRFINKIKSMGLDETQCYQVTCYLTWSPCPSCAGELVDFIKAHRHLNLRIFASRLYYHWRPNYQEGLLLLCGSQVPVEVMGLPEFTDCWENFVDHKEPPSFNPSEKLEELDKNSQAIKRRLERIKSRSVDVLENGLRSLQLGPVTPSSSIRNSR
人类APOBEC-3D:
Figure BDA0003286956470002086
Figure BDA0003286956470002091
(斜体:核酸编辑结构域)
人类APOBEC-1:
MTSEKGPSTGDPTLRRRIEPWEFDVFYDPRELRKEACLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERDFHPSMSCSITWFLSWSPCWECSQAIREFLSRHPGVTLVIYVARLFWHMDQQNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLTFFRLHLQNCHYQTIPPHILLATGLIHPSVAWR
小鼠APOBEC-1:
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSVWRHTSQNTSNHVEVNFLEKFTTERYFRPNTRCSITWFLSWSPCGECSRAITEFLSRHPYVTLFIYIARLYHHTDQRNRQGLRDLISSGVTIQIMTEQEYCYCWRNFVNYPPSNEAYWPRYPHLWVKLYVLELYCIILGLPPCLKILRRKQPQLTFFTITLQTCHYQRIPPHLLWATGLK
大鼠APOBEC-1:
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK
人类APOBEC-2:
MAQKEEAAVATEAASQNGEDLENLDDPEKLKELIELPPFEIVTGERLPANFFKFQFRNVEYSSGRNKTFLCYVVEAQGKGGQVQASRGYLEDEHAAAHAEEAFFNTILPAFDPALRYNVTWYVSSSPCAACADRIIKTLSKTKNLRLLILVGRLFMWEEPEIQAALKKLKEAGCKLRIMKPQDFEYVWQNFVEQEEGESKAFQPWEDIQENFLYYEEKLADILK
小鼠APOBEC-2:
MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEVQSKGGQAQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRLFMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK
大鼠APOBEC-2:
MAQKEEAAEAAAPASQNGDDLENLEDPEKLKELIDLPPFEIVTGVRLPVNFFKFQFRNVEYSSGRNKTFLCYVVEAQSKGGQVQATQGYLEDEHAGAHAEEAFFNTILPAFDPALKYNVTWYVSSSPCAACADRILKTLSKTKNLRLLILVSRLFMWEEPEVQAALKKLKEAGCKLRIMKPQDFEYLWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK
牛APOBEC-2:
MAQKEEAAAAAEPASQNGEEVENLEDPEKLKELIELPPFEIVTGERLPAHYFKFQFRNVEYSSGRNKTFLCYVVEAQSKGGQVQASRGYLEDEHATNHAEEAFFNSIMPTFDPALRYMVTWYVSSSPCAACADRIVKTLNKTKNLRLLILVGRLFMWEEPEIQAALRKLKEAGCRLRIMKPQDFEYIWQNFVEQEEGESKAFEPWEDIQENFLYYEEKLADILK
海七鳃鳗CDA1(pmCDAl):
MTDAEYVRIHEKLDIYTFKKQFFNNKKSVSHRCYVLFELKRRGERRACFWGYAVNKPQSGTERGIHAEIFSIRKVEEYLRDNPGQFTINWYSSWSPCADCAEKILEWYNQELRGNGHTLKIWACKLYYEKNARNQIGLWNLRDNGVGLNVMVSEHYQCCRKIFIQSSHNQLNENRWLEKTLKRAEKRRSELSFMIQVKILHTTKSPAV
人类APOBEC3G D316R D317R:
MKPHFRNTVERMYRDTFSYNFYNRPILSRRNTVWLCYEVKTKGPSRPPLDAKIFRGQVYSELKYHPEMRFFHWFSKWRKLHRDQEYEVTWYISWSPCTKCTRDMATFLAEDPKVTLTIFVARLYYFWDPDYQEALRSLCQKRDGPRATMKFNYDEFQHCWSKFVYSQRELFEPWNNLPKYYILLHFMLGEILRHSMDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKKHVSLCIFTARIYRRQGRCQEGLRTLAEAGAKISFTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQNQEN
人类APOBEC3G链A:
MDPPTFTFNFNNEPWWGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYDDQGRCQEGLRTLAEAGAKISFTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQ
人类APOBEC3G链A D120R D121R:
MDPPTFTFNFNNEPWVRGRHETYLCYEVERMHNDTWVLLNQRRGFLCNQAPHKHGFLEGRHAELCFLDVIPFWKLDLDQDYRVTCFTSWSPCFSCAQEMAKFISKNKHVSLCIFTARIYRRQGRCQEGLRTLAEAGAKISFMTYSEFKHCWDTFVDHQGCPFQPWDGLDEHSQDLSGRLRAILQ
hAPOBEC-4(智人):
MEPIYEEYLANHGTIVKPYYWLSFSLDCSNCPYHIRTGEEARVSLTEFCQIFGFPYGTTFPQTKHLTFYELKTSSGSLVQKGHASSCTGNYIHPESMLFEMNGYLDSAIYNNDSIRHIILYSNNSPCNEANHCCISKMYNFLITYPGITLSIYFSQLYHTEMDFPASAWNREALRSLASLWPRVVLSPISGGIWHSVLHSFISGVSGSHVFQPILTGRALADRHNAYEINAITGVKPYFTDVLLQTKRNPNTKAQEALESYPLNNAFPGQFFQMPSGQLQPNLPPDLRAPVVFVLVPLRDLPPMHMGQNPNKPRNIVRHLNMPQMSFQETKDLGRLPTGRSVEIVEITEQFASSKEADEKKKKKGKK
mAPOBEC-4(小鼠):
MDSLLMKQKKFLYHFKNVRWAKGRHETYLCYVVKRRDSATSCSLDFGHLRNKSGCHVELLFLRYISDWDLDPGRCYRVTWFTSWSPCYDCARHVAEFLRWNPNLSLRIFTARLYFCEDRKAEPEGLRRLHRAGVQIGIMTFKDYFYCWNTFVENRERTFKAWEGLHENSVRLTRQLRRILLPLYEVDDLRDAFRMLGF
rAPOBEC-4(大鼠):
MEPLYEEYLTHSGTIVKPYYWLSVSLNCTNCPYHIRTGEEARVPYTEFHQTFGFPWSTYPQTKHLTFYELRSSSGNLIQKGLASNCTGSHTHPESMLFERDGYLDSLIFHDSNIRHIILYSNNSPCDEANHCCISK
MYNFLMNYPEVTLSVFFSQLYHTENQFPTSAWNREALRGLASLWPQVTLSAISGGIWQSILETFVSGISEGLTAVRPFTAGRTLTDRYNAYEINCITEVKPYFTDALHSWQKENQDQKVWAASENQPLHNTTPAQWQPDMSQDCRTPAVFMLVPYRDLPPIHVNPSPQKPRTVVRHLNTLQLSASKVKALRKSPSGRPVKKEEARKGSTRSQEANETNKSKWKKQTLFIKSNICHLLEREQKKIGILSSWSV
mfAPOBEC-4(食蟹猕猴):
MEPTYEEYLANHGTIVKPYYWLSFSLDCSNCPYHIRTGEEARVSLTEFCQIFGFPYGTTYPQTKHLTFYELKTSSGSLVQKGHASSCTGNYIHPESMLFEMNGYLDSAIYNNDSIRHIILYCNNSPCNEANHCCISKVYNFLITYPGITLSIYFSQLYHTEMDFPASAWNREALRSLASLWPRVVLSPISGGIWHSVLHSFVSGVSGSHVFQPILTGRALTDRYNAYEINAITGVKPFFTDVLLHTKRNPNTKAQMALESYPLNNAFPGQSFQMTSGIPPDLRAPVVFVLLPLRDLPPMHMGQDPNKPRNIIRHLNMPQMSFQETKDLERLPTRRSVETVEITERFASSKQAEEKTKKKKGKK
pmCDA-1(海七鳃鳗):
MAGYECVRVSEKLDFDTFEFQFENLHYATERHRTYVIFDVKPQSAGGRSRRLWGYIINNPNVCHAELILMSMIDRHLESNPGVYAMTWYMSWSPCANCSSKLNPWLKNLLEEQGHTLTMHFSRIYDRDREGDHRGLRGLKHVSNSFRMGVVGRAEVKECLAEYVEASRRTLTWLDTTESMAAKMRRKLFCILVRCAGMRESGIPLHLFTLQTPLLSGRVVWWRV
pmCDA-2(海七鳃鳗):
MELREVVDCALASCVRHEPLSRVAFLRCFAAPSQKPRGTVILFYVEGAGRGVTGGHAVNYNKQGTSIHAEVLLLSAVRAALLRRRRCEDGEEATRGCTLHCYSTYSPCRDCVEYIQEFGASTGVRVVIHCCRLYELDVNRRRSEAEGVLRSLSRLGRDFRLMGPRDAIALLLGGRLANTADGESGASGNAWVTETNVVEPLVDMTGFGDEDLHAQVQRNKQIREAYANYASAVSLMLGELHVDPDKFPFLAEFLAQTSVEPSGTPRETRGRPRGASSRGPEIGRQRPADFERALGAYGLFLHPRIVSREADREEIKRDLIVVMRKHNYQGP
pmCDA-5(海七鳃鳗):
MAGDENVRVSEKLDFDTFEFQFENLHYATERHRTYVIFDVKPQSAGGRSRRLWGYIINNPNVCHAELILMSMIDRHLESNPGVYAMTWYMSWSPCANCSSKLNPWLKNLLEEQGHTLMMHFSRIYDRDREGDHRGLRGLKHVSNSFRMGVVGRAEVKECLAEYVEASRRTLTWLDTTESMAAKMRRKLFCILVRCAGMRESGMPLHLFT
yCD(酿酒酵母):
MVTGGMASKWDQKGMDIAYEEAALGYKEGGVPIGGCLINNKDGSVLGRGHNMRFQKGSATLHGEISTLENCGRLEGKVYKDTTLYTTLSPCDMCTGAIIMYGIPRCVVGENVNFKSKGEKYLQTRGHEVVVVDDERCKKIMKQFIDERPQDWFEDIGE
rAPOBEC-1(δ177-186):
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRGLPPCLNILRRKQPQLTFFTIALQSCHYQRLPPHILWATGLK
rAPOBEC-1(δ202-213):
MSSETGPVAVDPTLRRRIEPHEFEVFFDPRELRKETCLLYEINWGGRHSIWRHTSQNTNKHVEVNFIEKFTTERYFCPNTRCSITWFLSWSPCGECSRAITEFLSRYPHVTLFIYIARLYHHADPRNRQGLRDLISSGVTIQIMTEQESGYCWRNFVNYSPSNEAHWPRYPHLWVRLYVLELYCIILGLPPCLNILRRKQPQHYQRLPPHILWATGLK
小鼠APOBEC-3:
Figure BDA0003286956470002121
(斜体:核酸编辑结构域)
本公开披露的一些方面是基于这样的认识,即调节本文所述的任何融合蛋白的脱氨酶结构域催化活性,例如通过在该脱氨酶结构域中制造点突变,会影响该融合蛋白(例如碱基编辑器)的持续力。例如,减低但不消除碱基编辑融合蛋白内脱氨酶结构域催化活性的突变可以降低该脱氨酶结构域催化与标靶残基相邻的残基的脱氨反应的可能性,从而缩小脱氨反应窗口。缩小该脱氨反应窗口的能力可以防止与特定标靶残基相邻的残基的多余的脱氨反应,从而减少或防止脱靶效应。
在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括一个或多个rAPOBEC1的突变,其选自于由以下所组成的群组:R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X和R132X,或一个或多个在另一个APOBEC脱氨酶中的相应突变,其中X是任一氨基酸。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括一个或多个rAPOBEC1的突变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括突变的组合,其选自于由以下rAPOBEC1的突变所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E,或在另一个APOBEC脱氨酶中的相应突变的组合。
在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R15A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R16A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括H21A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R30A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R33A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括K34A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R52A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R60A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括H121A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括H122A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括H122L的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R128A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R169A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R198A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括T36A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括H53A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括V62A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括L88A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W90F的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括Y120F的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括Y120A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括H121R的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括H122R的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R126A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R126E的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R118A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W90A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W90Y的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R132E的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。
在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括K34A和R33A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括K34A和H122A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括K34A和Y120F的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括K34A和R52A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括K34A和H121A的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括W90A和R126E的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括H121R和H122R的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变.在一些实施方式中并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W90Y和R126E的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R126E和R132E的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W90Y和R132E的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W90Y、R126E、和R132E的rAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括Y120F的rAPOBEC1突变和一个或多个相应突变,其选自于由以下rAPOBEC1的突变所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A,或一个或多个在另一个APOBEC脱氨酶中的相应突变。
在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括一个或多个突变,其选自于由以下hAPOBEC3的突变所组成的群组:D316X、D317X、R320X、R320X、R313X、W285X、W285X、R326X,或一个或多个在另一个APOBEC脱氨酶中的相应突变,其中X是任一氨基酸。在一些实施方式中,本文所提供的融合蛋白包括APOBEC脱氨酶,其包括一个或多个突变,其选自于由以下hAPOBEC3G的突变所组成的群组:D316R、D317R、R320A、R320E、R313A、W285A、W285Y、R326E,或一个或多个在另一个APOBEC脱氨酶中的相应突变。
在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括D316R和D317R的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,本文所提供的融合蛋白包括APOBEC脱氨酶,其包括R320A的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R320E的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R313A的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W285A的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W285Y的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R326E的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W285Y和R320E的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括R320E和R326E的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W285Y和R326E的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括APOBEC脱氨酶,其包括W285Y、R320E、和R326E的hAPOBEC3G突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。
在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括一个或多个突变,其选自于由以下所组成的群组:hAPOBEC3A的Y130X和R28X,或一个或多个在另一个APOBEC脱氨酶中的相应突变,其中X是任一氨基酸。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括hAPOBEC3A的Y130A突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括hAPOBEC3A的R28A突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括hAPOBEC3A的Y130A和R28A突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。
在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括一个或多个突变,其选自于由以下ppAPOBEC1的突变所组成的群组:H122X、K34X、R33X、W90X、和R128X,或一个或多个在另一个APOBEC脱氨酶中的相应突变,其中X是任一氨基酸。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括一个或多个突变,其选自于由以下ppAPOBEC1的突变所组成的群组:H122A、K34A、R33A、W90F、W90A、和R128A,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶包括突变的组合,其选自于由以下ppAPOBEC1的突变所组成的群组:R33A+K34A、W90F+K34A、R33A+K34A+W90F、和R33A+K34A+H122A+W90F,或在另一个APOBEC脱氨酶中的相应突变的组合。
在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括H122A的ppAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括K34A的ppAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括R33A的ppAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括W90F的ppAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括W90A的ppAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括R128A的ppAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括R33A和K34A的ppAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括W90F和K34A的ppAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括R33A、K34A、和W90F的ppAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶可以包括R33A、K34A、H122A和W90F的ppAPOBEC1突变,或一个或多个在另一个APOBEC脱氨酶中的相应突变。
在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶是hAPOBEC1,mdAPOECC1,或具有Y120F突变的ppAPOBEC1,或一个或多个在另一个APOBEC脱氨酶中的相应突变。在一些实施方式中,并入碱基编辑器内的APOBEC脱氨酶是hAPOBEC1,mdAPOECC1,或具有Y120F突变的ppAPOBEC1,和一个或多个选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A,或一个或多个在另一个APOBEC脱氨酶中的相应突变。
一些修饰过的胞苷脱氨酶是市售的,包含但不限于:SaBE3、SaKKH-BE3、VQR-BE3、EQR-BE3、VRER-BE3、YE1-BE3、EE-BE3、YE2-BE3、和YEE-BE3、其可从Addgene获得(质粒85169、85170、85171、85172、85173、85174、85175、85176、85177)。在一些实施方式中,并入碱基编辑器内的脱氨酶包括了APOBEC1脱氨酶的全部或部分。
额外的结构域
本文所述的碱基编辑器可以包含有助于促进多核苷酸的核碱基的核碱基编辑、修饰或改变的任何结构域。在一些实施方式中,碱基编辑器包括多核苷酸可编程的核苷酸结合结构域(例如Cas9),核碱基编辑结构域(例如脱氨酶结构域),和一个或多个额外的结构域。在一些实施方式中,该额外的结构域可以促进该碱基编辑器的酶促或催化作用,该碱基编辑器的结合功能,或是可能干扰所期待的碱基编辑结果的细胞机械装置(例如酶)的抑制剂。在一些实施方式中,碱基编辑器可以包括核酸酶、切口酶、重组酶、脱氨酶、甲基转移酶、甲基酶、乙酰酶、乙酰转移酶、转录活化剂或转录阻遏剂结构域。
在一些实施方式中,碱基编辑器可以包括尿嘧啶糖基化酶抑制剂(UGI)结构域。UGI结构域可以例如,通过抑制由C的脱氨反应所形成的U再转换回该C核碱基,而改善包括胞苷脱氨酶结构域的碱基编辑器的效率。在一些实施方式中,对U:G异源双股螺旋DNA的存在的细胞DNA修复回应可以是细胞中核碱基编辑效率降低的原因。在此类实施方式中,尿嘧啶DNA糖基化酶(UDG)可以催化从细胞DNA中去除U,其可以启动碱基切除修复(BER),主要导致该U:G碱基对复归为C:G碱基对。在此类实施方式中,在包括一个或多个结构域(所述结构域结合该单股、阻断该被编辑碱基、抑制UGI、抑制BER、保护被编辑碱基、和/或促进非-待编辑股的修复)的碱基编辑器中,BER可以被抑制。因此,本公开披露预期包括UGI结构域的碱基编辑器融合蛋白。
在一些实施方式中,碱基编辑器包括双股断裂(DSB)结合蛋白的全部或部分作为结构域。例如,DSB结合蛋白可以包含噬菌体Mu的Gam蛋白,其可以结合到DSB的末端并可以保护它们免于降解。参见Komor,A.C.等,“Improved base excision repair inhibitionand bacteriophage Mu Gam protein yields C:G-to-T:A base editors with higherefficiency and product purity”Science Advances3:eaao4774(2017),其全部内容在此通过引用并入。
此外,在一些实施方式中,Gam蛋白可以融合到碱基编辑器的N端。在一些实施方式中,Gam蛋白可以融合到碱基编辑器的C-端。噬菌体Mu的Gam蛋白可以结合到双股断裂(DSB)的末端并可以保护它们免于降解。在一些实施方式中,使用Gam以结合DSB的游离末端可以在碱基编辑的过程中减低插入/缺失的形成。在一些实施方式中,174个残基的Gam蛋白融合到所述碱基编辑器的N端。参见Komor,A.C.等,“Improved base excision repairinhibition and bacteriophage Mu Gam protein yields C:G-to-T:A base editorswith higher efficiency and product purity”ScienceAdvances 3:eaao4774(2017)。在一些实施方式中,一个或多个突变可以改变碱基编辑器结构域相对于野生型结构域的长度。例如,至少一个结构域中的至少一个氨基酸的缺失可以减低该碱基编辑器的长度。在另一种情况下,一个或多个突变不改变结构域相对于野生型结构域的长度。例如,任何结构域中的一个或多个替不改变该碱基编辑器的长度。
在一些实施方式中,碱基编辑器可以包括核酸聚合酶(NAP)的全部或部分作为结构域。例如,碱基编辑器可以包括真核NAP的全部或部分。在一些实施方式中,并入碱基编辑器内的NAP或其部分是DNA聚合酶。在一些实施方式中,并入碱基编辑器内的NAP或其部分具有绕道聚合酶活性。在一些实施方式中,并入碱基编辑器内的NAP或其部分是绕道DNA聚合酶。在一些实施方式中,并入碱基编辑器内的NAP或其部分是Rev7、Rev1复合体、聚合酶ι、聚合酶κ、或聚合酶η。在一些实施方式中,并入碱基编辑器内的NAP或其部分是真核聚合酶的α、β、γ、δ、ε、ζ、η、ι、κ、λ、μ、或ν组分。在一些实施方式中,并入碱基编辑器内的NAP或其部分包括的氨基酸序列与核酸聚合酶(例如绕道DNA聚合酶)是至少75%、80%、85%、90%、95%、96%、97%、98%、99%、或99.5%相同的。
其他核碱基编辑器
本发明提供了模块化的多效应器核碱基编辑器,其中几乎本领域已知的任何核碱基编辑器都可以插入本文所述的融合蛋白或是被胞苷脱氨酶或腺苷脱氨酶所调换。在一个实施方式中,本发明的特色在于包括无碱基核碱基编辑器结构域的多效应器核碱基编辑器。无碱基核碱基编辑器是本领域已知的并描述如下,例如,Kavli等、EMBOJ.15:3442-3447、1996,其通过引用并入本文。
在一个实施方式中,多效应器核碱基编辑器包括以下的结构域A-C、A-D、或A-E:
NH2-[A-B-C]-COOH、
NH2-[A-B-C-D]-COOH、或
NH2-[A-B-C-D-E]-COOH
其中A和C或A、C、和E、各自包括以下的一个或多个:腺苷脱氨酶结构域或其活性片段,胞苷脱氨酶结构域或其活性片段,DNA糖基化酶结构域或其活性片段;并且其中B或B和D、各自包括一个或多个具有核酸序列特异性结合活性的结构域。
在一个实施方式中,多效应器核碱基编辑器包括NH2-[An-Bo-Cn]-COOH、
NH2-[An-Bo-Cn-Do]-COOH、或
NH2-[An-Bo-Cp-Do-Eq]-COOH;
其中A和C或A、C、和E、各自包括以下的一个或多个:腺苷脱氨酶结构域或其活性片段,胞苷脱氨酶结构域或其活性片段,DNA糖基化酶结构域或其活性片段;并且其中n是整数:1、2、3、4、或5、且其中p是整数:0、1、2、3、4、或5;并且B或B和D各自包括具有核酸序列特异性结合活性的结构域;并且其中o是整数:1、2、3、4、或5。
碱基编辑器系统
使用本文所提供的碱基编辑器系统包括以下步骤:(a)使受试者的多核苷酸(例如,双股或单股DNA或RNA)的标靶核苷酸序列与包括腺苷脱氨酶结构域和/或胞苷脱氨酶结构域的碱基编辑器系统(其中该前述结构域融合到多核苷酸结合结构域,从而形成了如本文所述能够在核酸分子内的一个或多个碱基处诱导变化的核碱基编辑器)以及至少一个向导多核苷酸(例如gRNA)接触,其中该标靶核苷酸序列包括被靶向的核碱基对;(b)诱导所述标靶区域的股分离;(c)将所述标靶区域的单股中的所述标靶核碱基对的第一核碱基转换为第二核碱基;和(d)切割所述标靶区域且该切割不超过一股,其中与该第一核碱基互补的第三核碱基被与该第二核碱基互补的第四核碱基取代。应当理解,在一些实施方式中,步骤(b)被省略。在一些实施方式中,所述被靶向的核碱基对是复数个一或多个基因中的核碱基对。在一些实施方式中,本文所提供的碱基编辑器系统能够多重编辑复数个一或多个基因中的核碱基对。在一些实施方式中,该复数个核碱基对是定位于同一基因中。在一些实施方式中,该复数个核碱基对是定位于一个或多个基因中,其中至少一个基因是定位于不同的基因座中。
在一些实施方式中,所述被切割的单股(带切口的股)杂交到所述向导核酸上。在一些实施方式中,所述被切割的单股与包括所述第一核碱基的股是相对的。在一些实施方式中,该碱基编辑器包括Cas9结构域。在一些实施方式中,该第一碱基是腺嘌呤,并且该第二碱基不是G、C、A、或T。在一些实施方式中,该第二碱基是肌苷。
本文所提供的碱基编辑系统提供了一种基因组编辑的新方法,该方法使用含有催化缺陷的化脓链球菌Cas9、胞苷脱氨酶和碱基切除修复抑制剂的融合蛋白以诱导DNA中的可编程的、单一核苷酸(C→T or A→G)的变化,不用生成双股DNA断裂,无需供体DNA模板,并且不会诱发过量的随机性的插入和缺失。
本文提供了使用碱基编辑器系统以供编辑核碱基的系统、组合物和方法。在一些实施方式中,该碱基编辑器系统包括:(1)碱基编辑器(BE),其包括多核苷酸可编程的核苷酸结合结构域和用于编辑核碱基的核碱基编辑结构域(例如脱氨酶结构域);和(2)与所述多核苷酸可编程的核苷酸结合结构域相连的向导多核苷酸(例如向导RNA)。在一些实施方式中,该碱基编辑器系统包括腺苷碱基编辑器(ABE)。在一些实施方式中,该碱基编辑器系统包括胞苷碱基编辑器(CBE)。在一些实施方式中,该多核苷酸可编程的核苷酸结合结构域是多核苷酸可编程的DNA结合结构域。在一些实施方式中,该多核苷酸可编程的核苷酸结合结构域是多核苷酸可编程的RNA结合结构域。在一些实施方式中,该核碱基编辑结构域是脱氨酶结构域。在一些实施方式中,脱氨酶结构域是胞嘧啶脱氨酶或胞苷脱氨酶,和/或腺嘌呤脱氨酶或腺苷脱氨酶。
核碱基编辑蛋白的细节在国际PCT申请编号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632)中被描述,其每个的全部内容通过引用并入本文。亦请参见Komor,A.C.等,“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature533,420-424(2016);Gaudelli,N.M.等,“Programmable base editing of A·T to G·Cin genomic DNA without DNAcleavage”Nature551,464-471(2017);和Komor,A.C.等,“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:A baseeditors with higher efficiency and product purity”ScienceAdvances3:eaao4774(2017),其全部内容在此通过引用并入。
在一些实施方式中,可利用单一向导多核苷酸将脱氨酶靶向至标靶核酸序列。在一些实施方式中,可利用单对向导多核苷酸将不同脱氨酶靶向至标靶核酸序列。
碱基编辑器系统的核碱基组分与多核苷酸可编程的核苷酸结合组分可共价地或非共价地彼此相联。例如,在一些实施方式中,可以通过多核苷酸可编程的核苷酸结合结构域而将所述脱氨酶结构域靶向至标靶核苷酸序列。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域可以融合到或链接到脱氨酶结构域上。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域可以通过与所述脱氨酶结构域的非共价相互作用或与其相联而将脱氨酶结构域靶向到标靶核苷酸序列。例如,在一些实施方式中,该核碱基编辑组分,例如该脱氨酶组分,可以包括能够与身为多核苷酸可编程的核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、相联或形成复合体的另外的异源部分或结构域。在一些实施方式中,该额外的异源部分可能能够与多肽结合、相互作用、相联、或形成复合体。在一些实施方式中,该额外的异源部分可能能够与多核苷酸结合、相互作用、相联、或形成复合体。在一些实施方式中,该额外的异源部分可能能够与向导多核苷酸结合。在一些实施方式中,该额外的异源部分可能能够与多肽链接子结合。在一些实施方式中,该额外的异源部分可能能够与多核苷酸链接子结合。该额外的异源部分可能是蛋白结构域。在一些实施方式中,该额外的异源部分可能是K同源(KH)结构域,MS2外壳蛋白结构域,PP7外壳蛋白结构域,SfMu Com外壳蛋白结构域,不育α基序,端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
碱基编辑器系统可能进一步包括向导多核苷酸组分。应当理解,该碱基编辑器系统的各组分可以经由共价键、非共价相互作用、或其相联和相互作用的任何组合而彼此相联。在一些实施方式中,可以通过向导多核苷酸将脱氨酶结构域靶向至标靶核苷酸序列。例如,在一些实施方式中,该碱基编辑器系统的核碱基编辑组分,例如该脱氨酶组分,可以包括额外的异源部分或结构域(例如多核苷酸结合结构域,诸如RNA或DNA结合蛋白),其能够与向导多核苷酸的部分或节段(例如,多核苷酸基序)相互作用、相联或形成复合体。在一些实施方式中,该额外的异源部分或结构域(例如多核苷酸结合结构域,诸如RNA或DNA结合蛋白)可以融合到或链接到该脱氨酶结构域上。在一些实施方式中,该额外的异源部分可能能够与多肽结合、相互作用、相联、或形成复合体。在一些实施方式中,该额外的异源部分可能能够与多核苷酸结合、相互作用、相联、或形成复合体。在一些实施方式中,该额外的异源部分可能能够与向导多核苷酸结合。在一些实施方式中,该额外的异源部分可能能够与多肽链接子结合。在一些实施方式中,该额外的异源部分可能能够与多核苷酸链接子结合。该额外的异源部分可能是蛋白结构域。在一些实施方式中,该额外的异源部分可能是K同源(KH)结构域,MS2外壳蛋白结构域,PP7外壳蛋白结构域,SfMu Com外壳蛋白结构域,不育α基序,端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施方式中,碱基编辑器系统可以进一步包括碱基切除修复(BER)组分的抑制剂。应该理解,该碱基编辑器系统的各组分可经由共价键、非共价相互作用、或其相联和相互作用的任何组合而彼此相联。该BER的抑制剂组分可能包括碱基切除修复抑制剂。在一些实施方式中,该碱基切除修复的抑制剂可以是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施方式中,该碱基切除修复的抑制剂可以是肌苷碱基切除修复抑制剂。在一些实施方式中,可以通过所述多核苷酸可编程的核苷酸结合结构域将该碱基切除修复的抑制剂靶向到所述标靶核苷酸序列。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域可以融合到或链接到碱基切除修复的抑制剂上。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域可以融合到或链接到脱氨酶结构域和碱基切除修复的抑制剂上。在一些实施方式中,多核苷酸可编程的核苷酸结合结构域可以通过与碱基切除修复的抑制剂的非共价相互作用或相联而将该碱基切除修复的抑制剂靶向到标靶核苷酸序列。例如,在一些实施方式中,该碱基切除修复的抑制剂组分可以包括额外的异源部分或结构域,其能够与身为多核苷酸可编程的核苷酸结合结构域的一部分的额外的异源部分或结构域相互作用、相联或形成复合体。在一些实施方式中,该碱基切除修复的抑制剂可以被所述向导多核苷酸靶向到所述标靶核苷酸序列。例如,在一些实施方式中,该碱基切除修复的抑制剂可以包括额外的异源部分或结构域(例如多核苷酸结合结构域,诸如RNA或DNA结合蛋白),其能够与向导多核苷酸的部分或节段(例如,多核苷酸基序)相互作用、相联或形成复合体。在一些实施方式中,可以将该向导多核苷酸的额外的异源部分或结构域(例如多核苷酸结合结构域,诸如RNA或DNA结合蛋白)融合到或链接到该碱基切除修复的抑制剂上。在一些实施方式中,该额外的异源部分可能能够与多核苷酸结合、相互作用、相联、或形成复合体。在一些实施方式中,该额外的异源部分可能能够结合向导多核苷酸。在一些实施方式中,该额外的异源部分可能能够结合多肽链接子。在一些实施方式中,该额外的异源部分可能能够结合多核苷酸链接子。该额外的异源部分可能是蛋白结构域。在一些实施方式中,该额外的异源部分可能是K同源(KH)结构域,MS2外壳蛋白结构域,PP7外壳蛋白结构域,SfMu Com外壳蛋白结构域,不育α基序,端粒酶Ku结合基序和Ku蛋白,端粒酶Sm7结合基序和Sm7蛋白,或RNA识别基序。
在一些实施方式中,该碱基编辑器抑制被编辑股的碱基切除修复(BER)。在一些实施方式中,该碱基编辑器保护或结合非-被编辑股。在一些实施方式中,该碱基编辑器包括UGI活性。在一些实施方式中,该碱基编辑器包括催化失活的肌苷-特异性核酸酶。在一些实施方式中,该碱基编辑器包括切口酶活性。在一些实施方式中,该预期编辑的碱基对在PAM位点的上游。在一些实施方式中,该预期编辑的碱基对在PAM位点的上游的第1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。在一些实施方式中,该预期编辑的碱基-对在PAM位点的下游。在一些实施方式中,该预期编辑的碱基对在PAM位点的下游第1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。
在一些实施方式中,该方法不需要正准的(例如,NGG)PAM位点。在一些实施方式中,该核碱基编辑器包括链接子或间隔序列。在一些实施方式中,该链接子或间隔序列是1-25个氨基酸的长度。在一些实施方式中,该链接子或间隔序列是5-20个氨基酸的长度。在一些实施方式中,该链接子或间隔序列是10、11、12、13、14、15、16、17、18、19、或20个氨基酸的长度。
在一些实施方式中,本文所提供的碱基编辑融合蛋白需要就定位于精确位置,例如,当标靶碱基位于限定区域(例如“脱氨反应窗口”)内时。在一些实施方式中,标靶可以在4个碱基的区域内。在一些实施方式中,此种限定的标靶区域可以是PAM上游的大约15个碱基。参见Komor、A.C.等、“Programmable editing of a target base in genomic DNAwithout double-stranded DNA cleavage”Nature533、420-424(2016);Gaudelli、N.M.等、“Programmable base editing of A·T to G·C in genomic DNA without DNAcleavage”Nature 551、464-471(2017);和Komor、A.C.等、“Improved base excisionrepair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abaseeditors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容在此通过引用并入。
在一些实施方式中,该标靶区域包括目标窗,其中该目标窗包括所述标靶核碱基对。在一些实施方式中,该目标窗包括1-10个核苷酸。在一些实施方式中,该目标窗是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸的长度。在一些实施方式中,该预期编辑的碱基对是在该目标窗内。在一些实施方式中,该目标窗包括该预期编辑的碱基对。在一些实施方式中,使用本文所提供的任何碱基编辑器来执行了所述方法。在一些实施方式中,目标窗是脱氨反应窗口。脱氨反应窗口可以是限定区域,在该限定区域内碱基编辑器作用于并使标靶核苷酸脱氨基。在一些实施方式中,该脱氨反应窗口是在2、3、4、5、6、7、8、9、或10个碱基的区域内。在一些实施方式中,该脱氨反应窗口是PAM上游的5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、或25个碱基。
本公开披露的碱基编辑器可以包括促进标靶多核苷酸序列的编辑的任何结构域、特征或氨基酸序列。例如,在一些实施方式中,该碱基编辑器包括核定位序列(NLS)。在一些实施方式中,该碱基编辑器的NLS是定位于脱氨酶结构域和多核苷酸可编程的核苷酸结合结构域之间。在一些实施方式中,该碱基编辑器的NLS是定位于多核苷酸可编程的核苷酸结合结构域的C末端。
可以存在于如本文所揭示的碱基编辑器中的其他示例性特征是:定位序列,诸如细胞质定位序列,输出序列,诸如核输出序列,或其他定位序列,以及可用于该融合蛋白的增溶、纯化或检测的序列标签。本文所提供的适合的蛋白质标签包含但不限于,生物素羧化酶载体蛋白(BCCP)标签,myc-标签,钙调蛋白-标签,FLAG-标签,血凝素(HA)-标签,多组氨酸标签,也称为组氨酸标签或His-标签,麦芽糖结合蛋白(MBP)-标签,nus-标签,谷胱甘肽-硫-转移酶(GST)-标签,绿色荧光蛋白(GFP)-标签,硫氧还蛋白-标签,S-标签,Softags(例如,Softag1,Softag 3),链霉亲和素-标签,生物素连接酶标签,FlAsH标签,V5标签和SBP-标签。额外的适合的序列对本领域技术人员而言将是显而易见的。在一些实施方式中,该融合蛋白包括一个或多个His标签。
可被所述融合蛋白包含的蛋白结构域的非限制性实例包含:脱氨酶结构域(例如胞苷脱氨酶、腺苷脱氨酶),尿嘧啶糖基化酶抑制剂(UGI)结构域,抗原表位标签,和报告基因序列。
抗原表位标签的非限制性实例包含:histidine(His)标签、V5标签、FLAG标签、流感病毒血凝素(HA)标签、Myc标签、VSV-G标签、和硫氧还蛋白(Trx)标签。报告基因的实例包含但不限于:谷胱甘肽-硫-转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)、β-半乳糖苷酶、β-葡萄糖醛酸苷酶、荧光素酶、绿色荧光蛋白(GFP)、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)、和自发荧光蛋白,其包含蓝色荧光蛋白(BFP)。额外的蛋白序列可以包含结合DNA分子或结合其他细胞的分子的氨基酸序列,包含但不限于麦芽糖结合蛋白(MBP)、S-标签、LexA DNA结合结构域(DBD)融合、GAL4 DNA结合结构域融合、和单纯疱疹病毒(HSV)BP16蛋白融合。
在一些实施方式中,非限制性的示例性的胞苷碱基编辑器(CBE)包含BE1(APOBEC(例如APOBEC1)-XTEN-dCas9)、BE2(APOBEC(例如APOBEC1)-XTEN-dCas9-UGI)、BE3(APOBEC(例如APOBEC1)-XTEN(16个氨基酸)-dCas9(A840H)-UGI)、BE3-Gam、saBE3、saBE4-Gam、BE4(APOBEC(例如APOBEC1)-XTEN(32个氨基酸)-Cas9n(D10A)-UGI-UGI)、BE4-Gam、saBE4、或saB4E-Gam。BE4延长了所述APOBEC(例如APOBEC1)-Cas9n(D10A)的链接子至32个氨基酸,并延长了所述Cas9n-UGI的链接子至9个氨基酸,并且凭借另一个9氨基酸链接子将UGI的第二个拷贝附加到所述构建体的C-端,从而将以上整合进单一碱基编辑器构建体中。在一些实施方式中,该CBE是saBE3或saBE4。该碱基编辑器saBE3和saBE4用较小的金黄色葡萄球菌Cas9n(D10A)取代了化脓链球菌Cas9n(D10A)。BE3-Gam、saBE3-Gam、BE4-Gam、和saBE4-Gam具有Gam蛋白的174个残基,该残基经由所述16氨基酸XTEN链接子融合到BE3、saBE3、BE4、和saBE4的N-端。在一些实施方式中,该CBE是BE3。在一些实施方式中,个CBE是BE4。在一些实施方式中,个CBE是BE4max。BE4max是修饰过的BE4,其具有核定位信号(NLS)并且是密码子优化过的。在一些实施方式中,BE3或BE4包括APOBEC,其选自于由以下所组成的群组:APOBEC1、rAPOBEC1、hAPOBEC1、ppAPOBEC1、RrA3F、AmAPOBEC1、mdAPOBEC1、mAPOBEC1、maAPOCBEC1、hA3aA、和SsAPOBEC2。
在一些实施方式中,该腺苷碱基编辑器(ABE)可以在DNA中使腺嘌呤脱氨基。在一些实施方式中,ABE是通过用天然的或工程化的大肠杆菌TadA、人类ADAR2、小鼠ADA或人类ADAT2取代了BE3的APOBEC组分而生成的。在一些实施方式中,ABE包括进化版的TadA变体。在一些实施方式中,该ABE是ABE 1.2(TadA*-XTEN-nCas9-NLS)。在一些实施方式中,TadA*包括A106V和D108N突变。
在一些实施方式中,该ABE是第二代ABE。在一些实施方式中,该ABE是ABE2.1,其包括TadA*(TadA*2.1)中的额外突变D147Y和E155V。在一些实施方式中,该ABE是ABE2.2,即,与人类烷基腺嘌呤DNA糖基化酶(具有E125Q突变的AAG)的催化去活性化版本融合的ABE2.1。在一些实施方式中,该ABE是ABE2.3,即,与大肠杆菌Endo V的催化去活性化版本(被D35A突变去活性化)融合的ABE2.1。在一些实施方式中,该ABE是ABE2.6,其具有如ABE2.1中的链接子两倍长的链接子(32个氨基酸、(SGGS)2-XTEN-(SGGS)2)。在一些实施方式中,该ABE是ABE2.7,其是与额外的野生型TadA单体拴在一起的ABE2.1。在一些实施方式中,该ABE是ABE2.8,其是与额外的TadA*2.1单体拴在一起的ABE2.1。在一些实施方式中,该ABE是ABE2.9,其是进化版TadA(TadA*2.1)直接融合到ABE2.1的N-端。在一些实施方式中,该ABE是ABE2.10,其是野生型TadA直接融合到ABE2.1的N-端。在一些实施方式中,该ABE是ABE2.11,其是在TadA*单体的N-端具有去活性化E59A突变的ABE2.9。在一些实施方式中,该ABE是ABE2.12,其是于内在TadA*单体中具有去活性化E59A突变的ABE2.9。
在一些实施方式中,该ABE是第三代ABE。在一些实施方式中,该ABE是ABE3.1,其是具有三个额外的TadA突变(L84F、H123Y、和I157F)的ABE2.3。
在一些实施方式中,该ABE是第四代ABE。在一些实施方式中,该ABE是ABE4.3,其是具有一个额外的TadA突变A142N(TadA*4.3)的ABE3.1。
在一些实施方式中,该ABE是第五代ABE。在一些实施方式中,该ABE是ABE5.1,其是通过将来自存续的克隆的一组一致突变(H36L、R51L、S146C、和K157N)导入ABE3.1中而生成的。在一些实施方式中,该ABE是具有异二聚体构建体的ABE5.3,该构建体含有与内在进化版TadA*融合的野生型大肠杆菌TadA。在一些实施方式中,该ABE是ABE5.2、ABE5.4、ABE5.5、ABE5.6、ABE5.7、ABE5.8、ABE5.9、ABE5.10、ABE5.11、ABE5.12、ABE5.13、或ABE5.14,如下表6所示。在一些实施方式中,该ABE是第六代ABE。在一些实施方式中,该ABE是ABE6.1、ABE6.2、ABE6.3、ABE6.4、ABE6.5、或ABE6.6,如下表6所示。在一些实施方式中,该ABE是第七代ABE。在一些实施方式中,该ABE是ABE7.1、ABE7.2、ABE7.3、ABE7.4、ABE7.5、ABE7.6、ABE7.7、ABE7.8、ABE 7.9、或ABE7.10,如下表6所示。
表6.ABE的基因型
Figure BDA0003286956470002301
Figure BDA0003286956470002311
在一些实施方式中,碱基编辑器是通过将腺苷脱氨酶变体克隆进包含环状变换排列体Cas9(例如CP5或CP6)和双分型核定位序列的支架内而生成的。在一些实施方式中,该碱基编辑器(例如ABE7.9或rABE7.10)是NGC PAM CP5变体(化脓链球菌Cas9或spVRQRCas9)。在一些实施方式中,该碱基编辑器(例如ABE7.9或ABE7.10)是AGA PAM CP5变体(化脓链球菌Cas9或spVRQR Cas9)。在一些实施方式中,该碱基编辑器(例如ABE7.9或ABE7.10)是NGC PAM CP6变体(化脓链球菌Cas9或spVRQR Cas9)。在一些实施方式中,该碱基编辑器(例如ABE7.9或ABE7.10)是AGA PAM CP6变体(S.pyrogenes Cas9或spVRQR Cas9)。
在一些实施方式中,所述ABE具有如表8中所示的基因型。
表8.ABE的基因型
Figure BDA0003286956470002312
Figure BDA0003286956470002321
在一些实施方式中,该碱基编辑器是一种融合蛋白,该融合蛋白包括融合到核碱基编辑结构域(例如脱氨酶结构域的全部或部分)上的多核苷酸可编程的核苷酸结合结构域(例如Cas9-衍生的结构域)。在某些实施方式中,本文所提供的融合蛋白包括一个或多个改善该融合蛋白的碱基编辑活性的特性。例如,本文所提供的任何融合蛋白可能包括具有减低的核酸酶活性的Cas9结构域。在一些实施方式中,本文所提供的任何融合蛋白可以具有无核酸酶活性的Cas9结构域(dCas9),或切割双股螺旋DNA分子一股的Cas9结构域(称为Cas9切口酶(nCas9))。
在一些实施方式中,该碱基编辑器进一步包括结构域,该结构域包括尿嘧啶糖基化酶抑制剂(UGI)的全部或部分。在一些实施方式中,该碱基编辑器包括结构域,该结构域包括尿嘧啶结合蛋白(UBP)(诸如尿嘧啶DNA糖基化酶(UDG))的全部或部分。在一些实施方式中,该碱基编辑器包括结构域,该结构域包括聚合酶的全部或部分。在一些实施方式中,并入碱基编辑器内的核酸聚合酶或其部分是绕道DNA聚合酶。
在一些实施方式中,该碱基编辑器的结构域可以包括多个结构域。例如,包括衍生自Cas9的多核苷酸可编程的核苷酸结合结构域的碱基编辑器可以包括对应于野生型或天然的Cas9的REC叶和NUC叶的REC叶和NUC叶。在另一个实例中,该碱基编辑器可以包括RuvCI结构域、BH结构域、REC1结构域、REC2结构域、RuvCII结构域、L1结构域、HNH结构域、L2结构域、RuvCIII结构域、WED结构域、TOPO结构域或CTD结构域中的一个或多个。在一些实施方式中,该碱基编辑器的一个或多个结构域包括相对于包括该结构域的多肽的野生型版本的突变(例如替换、插入、缺失)。例如,多核苷酸可编程的DNA结合结构域的HNH结构域可以包括H840A替换。在另一个实例中,多核苷酸可编程的DNA结合结构域的RuvCI结构域可以包括D10A替换。
本文所揭示的碱基编辑器的不同结构域(例如临近的结构域)可以使用或不用一个或多个链接子结构域(例如XTEN链接子结构域)而彼此连接。在一些实施方式中,链接子结构域可以是键(例如共价键)、化学基团、或链接两个分子或部分体的分子,例如融合蛋白的2个结构域,诸如,例如,第一结构域(例如Cas9-衍生的结构域)和第二结构域(例如腺苷脱氨酶结构域或胞苷脱氨酶结构域)。在一些实施方式中,链接子是共价键(例如碳-碳键、二硫键、碳-杂原子键、等)。在某些实施方式中,链接子是酰胺键合的碳氮键。在某些实施方式中,链接子是环状的或无环的,替换的或未替换的,分枝的或未分枝的,脂肪族的或杂脂肪族的链接子。在某些实施方式中,链接子是聚合的(例如,聚乙烯,聚乙二醇,聚酰胺,聚酯等)。在某些实施方式中,链接子包括氨基链烷酸的单体,二聚体或聚合物。在一些实施方式中,链接子包括氨基链烷酸(例如,甘氨酸,乙酸,丙氨酸,β-丙氨酸,3-氨基丙酸,4-氨基丁酸,5-戊酸等)。在一些实施方式中,链接子包括氨基己酸(Ahx)的单体,二聚体或聚合物.在某些实施方式中,链接子是基于碳环部分体(例如,环戊烷,环己烷)。在其他实施方式中,链接子包括聚乙二醇部分体(PEG)。在某些实施方式中,链接子包括芳基和杂芳基部分体。在某些实施方式中,所述链接子是基于苯环。链接子可以包含官能化的部分体,以促进亲核基(例如,硫醇基,氨基)从肽到所述链接子的附接。任何亲电子试剂都可用作该链接子的一部分。示例性的亲电子试剂包含但不限于:活化的酯,活化的酰胺,Michael接受体(活化的烯烃),烷基卤化物,芳基卤化物,酰基卤化物,和异硫氰酸酯。在一些实施方式中,链接子将RNA-可编程的核酸酶的gRNA结合结构域(其包含Cas9核酸酶结构域)和核酸编辑蛋白的催化结构域连接起来。在一些实施方式中,链接子将dCas9和第二结构域(例如UGI、胞苷脱氨酶、等)连接起来。
通常,链接子是位于两个基团、分子或其他部分体的之间或两侧,并经由共价键两个中的每个都连结,从而将两个连结起来。在一些实施方式中,链接子是一个氨基酸或复数个氨基酸(例如,肽或蛋白质)。在一些实施方式中,链接子是有机分子、基团、聚合物或化学部分体。在一些实施方式中,链接子是2-100个氨基酸的长度,例如,2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、30-35、35-40、40-45、45-50、50-60、60-70、70-80、80-90、90-100、100-150、或150-200个氨基酸的长度。在一些实施方式中,该链接子是约3至约104(例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、或100)个氨基酸的长度。较长或较短的链接子是预期中的。在一些实施方式中,链接子结构域包括氨基酸序列SGSETPGTSESATPES,其也可以被称为XTEN链接子。可以使用任何用于链接所述融合蛋白结构域的方法(例如,范围从所述(SGGS)n、(GGGS)n、(GGGGS)n和(G)n形式的非常柔性的链接子到(EAAAK)n、(GGS)n、SGSETPGTSESATPES(参见例如Guilinger JP、Thompson DB、Liu DR.与FokI核酸酶融合的催化失活的Cas9改善了基因组修饰的特异性.Nat.Biotechnol.2014;32(6):577-82;其全部内容通过引用并入本文)或(XP)n基序形式的更刚性的链接子),以取得适于所述核碱基编辑器活性的最佳长度。在一些实施方式中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14、或15。在一些实施方式中,该链接子包括(GGS)n基序,其中n是1、3或7。在一些实施方式中,本文所提供的融合蛋白的Cas9结构域经由氨基酸序列SGSETPGTSESATPES的链接子融合。在一些实施方式中,链接子包括复数个脯氨酸残基并且是5-21、5-14、5-9、5-7氨基酸的长度,例如PAPAP、PAPAPA、PAPAPAP、PAPAPAPA、P(AP)4、P(AP)7、P(AP)10(参见例如Tan J、Zhang F、Karcher D、Bock R.Engineering of high-precision base editorsfor site-specific single nucleotide replacement.Nat Commun.2019Jan25;10(1):439;其全部内容通过引用并入本文)。此种脯氨酸-富集的链接子也称为“刚性”链接子。
本发明的融合蛋白包括核酸编辑结构域。在一些实施方式中,该脱氨酶是腺苷脱氨酶。在一些实施方式中,该脱氨酶是胞苷脱氨酶。在一些实施方式中,该脱氨酶是腺苷脱氨酶和胞苷脱氨酶。在一些实施方式中,该脱氨酶是脊椎动物脱氨酶。在一些实施方式中,该脱氨酶是无脊椎动物脱氨酶。在一些实施方式中,该脱氨酶是人类、黑猩猩、大猩猩、猴、母牛、狗、大鼠或小鼠脱氨酶。在一些实施方式中,该脱氨酶是人类脱氨酶。在一些实施方式中,该脱氨酶是大鼠脱氨酶。
链接子
在某些实施方式中,链接子可用于链接本发明的任何肽或肽结构域。链接子可以简单如共价键,或者它可能是长度为许多原子的聚合链接子。在某些实施方式中,链接子是多肽或是基于多个氨基酸。在其他实施方式中,链接子不是肽-样的。在某些实施方式中,链接子是共价键(例如,碳-碳键,二硫键,碳-杂原子键,等)。在某些实施方式中,该链接子是酰胺键合的碳-氮键。在某些实施方式中,该链接子是环状的或无环的,替换的或未替换的,分枝的或未分枝的,脂肪族的或杂脂肪族的链接子。在某些实施方式中,该链接子是聚合的(例如,聚乙烯,聚乙二醇,聚酰胺,聚酯等)。在某些实施方式中,该链接子包括氨基链烷酸的单体,二聚体或聚合物。在某些实施方式中,该链接子包括一氨基链烷酸(例如,甘氨酸,乙酸,丙氨酸,β-丙氨酸,3-氨基丙酸,4-氨基丁酸,5-戊酸等)。在某些实施方式中,该链接子包括氨基己酸(Ahx)的单体,二聚体或聚合物.在某些实施方式中,该链接子是基于碳环部分体(例如,环戊烷,环己烷)。在其他实施方式中,该链接子包括聚乙二醇部分体(PEG)。在其他实施方式中,该链接子包括氨基酸。在某些实施方式中,该链接子包括肽。在某些实施方式中,该链接子包括芳基或杂芳基部分体。在某些实施方式中,该链接子是基于苯环。该链接子可以包含官能化的部分体,以促进亲核基(例如,硫醇基,氨基)从肽到链接子的附接。任何亲电子试剂都可用作该链接子的一部分。示例性的亲电子试剂包含但不限于活化的酯,活化的酰胺,Michael接受体,烷基卤化物,芳基卤化物,酰基卤化物,和异硫氰酸酯。
在一些实施方式中,在一些实施方式中,该链接子是一个氨基酸或复数个氨基酸(例如,肽或蛋白质)。在一些实施方式中,该链接子是键(例如共价键)、有机分子、基团、聚合物或化学部分体。在一些实施方式中,该链接子是约3到约104(例如5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、80、85、90、95、或100)个氨基酸的长度。
在一些实施方式中,该胞苷脱氨酶和/或腺苷脱氨酶与所述napDNAbp经由4、16、32、或104个氨基酸长度的链接子融合。在一些实施方式中,该链接子是约3到约104个氨基酸的长度。在一些实施方式中,本文所提供的任何融合蛋白包括经由链接子而彼此融合的胞苷脱氨酶和/或腺苷脱氨酶和Cas9结构域。可以使用所述脱氨酶结构域(例如胞苷脱氨酶和/或腺苷脱氨酶)和所述Cas9结构域之间的各种链接子的长度和柔度(例如,范围从(GGGS)n、(GGGGS)n、和(G)n形式的非常柔性的链接子到(EAAAK)n、(SGGS)n、SGSETPGTSESATPES(参见例如Guilinger JP、Thompson DB、Liu DR.与FokI核酸酶融合的催化失活的Cas9改善了基因组修饰的特异性Nat.Biotechnol.2014;32(6):577-82;其全部内容通过引用并入本文)和(XP)n形式的更刚性的链接子)以取得适于所述核碱基编辑器或多效应器核碱基编辑器活性的最佳长度。在一些实施方式中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14、或15。在一些实施方式中,该链接子包括(GGS)n基序,其中n是1、3、或7。在一些实施方式中,任何本文所提供的融合蛋白的胞苷脱氨酶和/或腺苷脱氨酶和Cas9结构域是经由包括氨基酸序列SGSETPGTSESATPES的链接子(例如XTEN链接子)融合。
具有向导RNA的Cas9复合体
本公开披露的一些方面提供了复合体,该复合体包括本文所提供的任何融合蛋白,以及结合到融合蛋白的CAS9结构域(例如dCas9、核酸酶活性Cas9、或Cas9切口酶)上的向导RNA(例如靶向突变的向导)。这些复合体也被称为核糖核蛋白(RNP)。可以使用任何用于链接所述融合蛋白结构域的方法(例如,范围从(GGGS)n、(GGGGS)n、和(G)n形式的非常柔性的链接子到(EAAAK)n、(SGGS)n、SGSETPGTSESATPES(参见例如Guilinger JP、ThompsonDB、Liu DR.Fusion of catalytically inactive Cas9 to FokI nuclease improves thespecificity of genome modification.Nat.Biotechnol.2014;32(6):577-82;其全部内容通过引用并入本文)和(XP)n形式的更刚性的链接子,以取得适于所述核碱基编辑器活性的最佳长度。在一些实施方式中,n是1、2、3、4、5、6、7、8、9、10、11、12、13、14、或15。在一些实施方式中,该链接子包括(GGS)n基序,其中n是1、3、或7。在一些实施方式中,本文所提供的融合蛋白的Cas9结构域是经由包括氨基酸序列SGSETPGTSESATPES的链接子所融合。
在一些实施方式中,该向导核酸(例如向导RNA)的长度是从15到100个核苷酸,并且包括与标靶序列互补的至少10个接连的核苷酸的序列。在一些实施方式中,该向导RNA是15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或50个核苷酸的长度。在一些实施方式中,该向导RNA包括与标靶序列互补的15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、或40个接连的核苷酸的序列。在一些实施方式中,该标靶序列是DNA序列。在一些实施方式中,该标靶序列是细菌、酵母、真菌、昆虫、植物、或动物的基因组中的序列。在一些实施方式中,该标靶序列是人类基因组中的序列。在一些实施方式中,该标靶序列的3’端紧邻正准的PAM序列(NGG)。在一些实施方式中,该标靶序列的3’端紧邻非-正准的PAM序列(例如表1中所列序列或5’-NAA-3’)。在一些实施方式中,该向导核酸(例如向导RNA)与目标基因中(例如与疾病或病症相关联的基因)的序列互补。
本公开披露的一些方面提供了使用本文所提供的融合蛋白或复合体的方法。例如,本公开披露的一些方面提供了方法,其包括使DNA分子与本文所提供的任何融合蛋白和至少一种向导RNA接触,其中该向导RNA是约15-100个核苷酸的长度并且包括与标靶序列互补的至少10个接连的核苷酸的序列。在一些实施方式中,该标靶序列的3’端紧邻正准的PAM序列(NGG)。在一些实施方式中,该标靶序列的3’端不紧邻正准的PAM序列(NGG)。在一些实施方式中,该标靶序列的3’端紧邻AGC、GAG、TTT、GTG、或CAA序列。在一些实施方式中,该标靶序列的3’端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN、或5’(TTTV)序列。
在一些实施方式中,本发明的融合蛋白用于诱变感兴趣的靶标。特别地,本文所述的多效应器核碱基编辑器能够在标靶序列内制造多个突变。这些突变可能会影响所述标靶的功能。例如,当使用多效应器核碱基编辑器靶向调控区域时,该调控区域的功能会改变,并且下游蛋白的表达会减低。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,在成熟蛋白的前体和该成熟蛋白本身中,并且物种与物种之间序列的差异可能影响编号。本领域技术人员将能够通过本领域皆知的方法,例如通过序列比对和同源残基的确定,来鉴别任何同源蛋白以及各自编码核酸中的各自残基。
对本领域技术人员而言将是显而易见的是,为了将本文所揭示的任何融合蛋白靶向到标靶位点,例如包括待编辑的突变的位点,通常必要与向导RNA一起共-表达该融合蛋白。如本文他处的详解,向导RNA通常包括允许Cas9结合的tracrRNA框架,以及向导序列,其将序列特异性赋予Cas9:核酸编辑酶/结构域融合蛋白。备选地,该向导RNA和tracrRNA可以作为两个核酸分子而分开提供。在一些实施方式中,该向导RNA包括一种结构,其中该向导序列包括与该标靶序列互补的序列。该向导序列通常为20核苷酸的长度。基于本公开披露,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向到特定基因组标靶位点的适合的向导RNAs的序列对本领域技术人员而言将是显而易见的。此种适合的向导RNA序列通常包括与待编辑的标靶核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供了一些适用于将任何所提供的融合蛋白靶向到特定标靶序列的示例性的向导RNA序列。
使用包括脱氨酶和Cas9结构域的融合蛋白的方法
本公开披露的一些方面提供了使用本文所提供的融合蛋白或复合体的方法。例如,本公开披露的一些方面提供了方法,其包括使编码蛋白的突变体形式的DNA分子与本文所提供的任何融合蛋白以及与至少一个向导RNA接触,其中该向导RNA是约15到100个核苷酸的长度,并且包括与标靶序列互补的至少10个接连核苷酸的序列。在一些实施方式中,该标靶序列的3’末端紧邻正准的PAM序列(NGG)。在一些实施方式中,该标靶序列的3’末端不直接与正准的PAM序列(NGG)相邻。在一些实施方式中,该标靶序列的3’末端紧邻AGC、GAG、TTT、GTG、或CAA序列。在一些实施方式中,该标靶序列的3’末端紧邻NGA、NGCG、NGN、NNGRRT、NNNRRT、NGCG、NGCN、NGTN、NGTN、NGTN、或5’(TTTV)序列。
应当理解,各个序列中特定位置或残基的编号取决于所使用的特定蛋白质和编号方案。编号可能不同,例如,在成熟蛋白的前体和成熟蛋白本身中,并且物种与物种之间序列的差异可能影响编号。本领域技术人员将能够通过本领域皆知的方法,例如通过序列比对和同源残基的确定,来鉴别任何同源蛋白以及各自编码核酸中的各自残基
对本领域技术人员而言将是显而易见的是,为了将如本文所揭示的包括Cas9结构域和脱氨酶(例如腺苷脱氨酶和/或胞苷脱氨酶)的任何融合蛋白靶向到标靶位点,例如包括待编辑的突变的位点,通常必要与向导RNA(例如,sgRNA)一起共-表达该融合蛋白。如本文他处的详解,向导RNA通常包括允许Cas9结合的tracrRNA框架,以及向导序列,该向导序列将序列特异性赋予Cas9:核酸编辑酶/结构域融合蛋白。
备选地,该向导RNA和tracrRNA可以作为两个核酸分子而分开提供。在一些实施方式中,该向导RNA包括一种结构,其中该向导序列包括与所述标靶序列互补的序列。该向导序列通常为20核苷酸的长度。基于本公开披露,用于将Cas9:核酸编辑酶/结构域融合蛋白靶向到特定基因组标靶位点的适合的向导RNAs的序列对本领域技术人员而言将是显而易见的。此种适合的向导RNA序列通常包括与待编辑的标靶核苷酸上游或下游50个核苷酸内的核酸序列互补的向导序列。本文提供了一些适合用于将任何所提供的融合蛋白靶向到特定标靶序列的示例性的向导RNA序列。
碱基编辑器效率
CRISPR-Cas9核酸酶已被广泛使用于介导靶向基因组编辑。在大多数基因组编辑应用中,Cas9与向导多核苷酸(例如单一向导RNA(sgRNA))形成复合体并在由该sgRNA序列所指定的标靶位点处诱导双股DNA断裂(DSB)。细胞对这种DSB的反应主要是通过非同源末端连接(NHEJ)修复途径,其导致随机的插入或缺失(indel),进而导致移码突变而破坏基因。在存在与该DSB侧翼序列高度同源的供体DNA模板的情况下,可以通过名为同源定向修复(HDR)的替代途径实现基因更正。不幸的是,在大多数非-扰动的情况下,HDR是低效率的,其依赖于细胞状态和细胞类型,并且被较大频率的插入/缺失所支配。由于与人类疾病相关联的大多数已知遗传变异是点突变,需要可以更有效和更干净地制造精确点突变的方法。本文所提供的碱基编辑系统提供了一种提供了基因组编辑的新方法,不用生成双股DNA断裂,无需供体DNA模板,并且不会诱发过量的随机性的插入和缺失。
本发明的融合蛋白有利地修饰了编码包括突变的蛋白的特定核苷酸碱基,而不生成显著比例的插入/缺失。“插入/缺失”,如本文所用,是指核酸内的核苷酸碱基的插入或缺失。此种插入或缺失可以导致在基因的编码区域内的移码突变。在一些实施方式中,期望生成有效修饰(例如,使突变)核酸内的特定核苷酸而不在该核酸内生成大量的插入或缺失(即,插入/缺失)的碱基编辑器。
在某些实施方式中,本文所提供的任何碱基编辑器能够生成比插入/缺失更大比例的预期修饰(例如,突变或脱氨反应)。
在一些实施方式中,本文所提供的任何碱基编辑器系统导致所述标靶核苷酸序列中小于50%、小于40%、小于30%、小于20%、小于19%、小于18%、小于17%、小于16%、小于15%、小于14%、小于13%、小于12%、小于11%、小于10%、小于9%、小于8%、小于7%、小于6%、小于5%、小于4%、小于3%、小于2%、小于1%、小于0.9%、小于0.8%、小于0.7%、小于0.6%、小于0.5%、小于0.4%、小于0.3%、小于0.2%、小于0.1%、小于0.09%、小于0.08%、小于0.07%、小于0.06%、小于0.05%、小于0.04%、小于0.03%、小于0.02%、或小于0.01%的插入/缺失的形成。
本公开披露的一些方面是基于以下认识:本文所提供的任何碱基编辑器能够在核酸(例如,受试者的基因组内的核酸)内有效地生成预期突变(诸如点突变)而不生成显著数目的非预期突变(诸如非预期的点突变)。
在一些实施方式中,本文所提供的任何碱基编辑器能够生成至少0.01%的预期突变(即,至少0.01%的碱基编辑效率)。在一些实施方式中,本文所提供的任何碱基编辑器能够生成至少0.01%、1%、2%、3%、4%、5%、10%、15%、20%、25%、30%、40%、45%、50%、60%、70%、80%、90%、95%、或99%的预期突变。
在一些实施方式中,本文所提供的碱基编辑器能够生成的预期修饰与插入/缺失的比率大于1:1。在一些实施方式中,本文所提供的碱基编辑器能够生成的预期突变与插入/缺失的比率是至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少200:1、至少300:1、至少400:1、至少500:1、至少600:1、至少700:1、至少800:1、至少900:1、或至少1000:1、或更高。
预期突变和插入/缺失的数目可以使用任何适合的方法来确定,例如,在如下文献中所述:国际PCT申请编号PCT/2017/045381(WO2018/027078)和PCT/US2016/058344(WO2017/070632);Komor、A.C.等、“Programmable editing of a target base ingenomic DNA without double-stranded DNA cleavage”Nature 533、420-424(2016);Gaudelli、N.M.等、“Programmable base editing of A·Tto G·C in genomic DNAwithout DNA cleavage”Nature551、464-471(2017);以及Komor、A.C.等、“Improved baseexcision repair inhibition and bacteriophage Mu Gam protein yields C:G-to-T:Abase editors with higher efficiency and product purity”Science Advances 3:eaao4774(2017),其全部内容在此通过引用并入。
在一些实施方式中,为了计算插入/缺失的频率,扫描了测序短读序以获得与两个10-bp序列的严格匹配,该两个10-bp序列位于可发生插入/缺失窗口的两侧。如果未定位到严格匹配,该短读序将被从分析中排除。如果这个插入/缺失窗口的长度与所述参考序列严格匹配,该短读序将被归类为不含有插入/缺失。如果该插入/缺失窗口是两个或更多个碱基长于或短于所述参考序列,则该测序短读序被分别归类为插入或者缺失。在一些实施方式中,本文所提供的碱基编辑器可以限制核酸区域中插入/缺失的形成。在一些实施方式中,该区域位于被碱基编辑器所靶向的核苷酸处,或位于被碱基编辑器所靶向的核苷酸的2、3、4、5、6、7、8、9、或10个核苷酸内的区域。
在标靶核苷酸区域所形成的插入/缺失的数目可以取决于核酸(例如,细胞的基因组内的核酸)暴露于碱基编辑器的时长数。在一些实施方式中,在将所述标靶核苷酸序列(例如,细胞的基因组内的核酸)暴露于碱基编辑器之后至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天、或至少14天,再确定插入/缺失的数目或比例。
在一些实施方式中,本文所提供的碱基编辑器能够限制在核酸区域内的插入/缺失的形成。在一些实施方式中,该区域位于被碱基编辑器所靶向的核苷酸处,或位于被碱基编辑器所靶向的核苷酸的2、3、4、5、6、7、8、9、或10个核苷酸内的区域。在一些实施方式中,本文所提供的任何碱基编辑器能够将在核酸区域的插入/缺失的形成限制为小于1%、小于1.5%、小于2%、小于2.5%、小于3%、小于3.5%、小于4%、小于4.5%、小于5%、小于6%、小于7%、小于8%、小于9%、小于10%、小于12%、小于15%、或小于20%。在核酸区域所形成的插入/缺失的数目可能取决于核酸(例如,细胞的基因组内的核酸)暴露于碱基编辑器的时长数。在一些实施方式中,在将核酸(例如,细胞的基因组内的核酸)暴露于碱基编辑器之后至少1小时、至少2小时、至少6小时、至少12小时、至少24小时、至少36小时、至少48小时、至少3天、至少4天、至少5天、至少7天、至少10天、或至少14天,再确定插入/缺失的数目或比例。
本公开披露的一些方面基于以下认识:本文所提供的任何碱基编辑器能够有效地在核酸(例如受试者基因组内的核酸)中生成预期突变而不生成显著数目的非预期突变。在一些实施方式中,预期突变是由与gRNA结合的特定碱基编辑器生成的突变,专门设计用于改变或更正HBG突变。
在一些实施方式中,本文所提供的任何碱基编辑器能够生成的预期突变与非预期突变的比率(例如预期突变:非预期突变)大于1:1。在一些实施方式中,本文所提供的任何碱基编辑器能够生成的预期突变与非预期突变的比率是至少1.5:1、至少2:1、至少2.5:1、至少3:1、至少3.5:1、至少4:1、至少4.5:1、至少5:1、至少5.5:1、至少6:1、至少6.5:1、至少7:1、至少7.5:1、至少8:1、至少10:1、至少12:1、至少15:1、至少20:1、至少25:1、至少30:1、至少40:1、至少50:1、至少100:1、至少150:1、至少200:1、至少250:1、至少500:1、或至少1000:1、或更高。应当理解,本文所描述的碱基编辑器的特征可以应用于任何融合蛋白,或应用于使用本文所提供的融合蛋白的方法。
多重编辑
在一些实施方式中,本文所提供的碱基编辑器系统能够对一个或多个基因中的复数个核碱基对进行多重编辑。在一些实施方式中,该复数个核碱基对定位于同一基因中。在一些实施方式中,该复数个核碱基对定位于一个或多个基因中,其中至少一个基因定位于不同的基因座。在一些实施方式中,该多重编辑可以包括一个或多个向导多核苷酸。在一些实施方式中,该多重编辑可以包括一个或多个碱基编辑器系统。在一些实施方式中,该多重编辑可以包括一个或多个碱基编辑器系统,其具有单一向导多核苷酸。在一些实施方式中,该多重编辑可以包括一个或多个碱基编辑器系统,其具有复数个向导多核苷酸。在一些实施方式中,该多重编辑可以包括一个或多个向导多核苷酸,其具有单一碱基编辑器系统。在一些实施方式中,该多重编辑可以包括至少一个向导多核苷酸,其不需要PAM序列以靶向结合到标靶多核苷酸序列。在一些实施方式中,该多重编辑可以包括至少一个向导多核苷酸,其需要PAM序列以靶向结合到标靶多核苷酸序列。在一些实施方式中,该多重编辑可以包括至少一个不需要PAM序列以靶向结合到标靶多核苷酸序列的向导多核苷酸和至少一个需要PAM序列以靶向结合到标靶多核苷酸序列的向导多核苷酸的混合物。应当理解,使用如本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文所提供的任何碱基编辑器的方法的任何组合。也应当理解,使用如本文所述的任何碱基编辑器的多重编辑可以包括对复数个核碱基对的循序编辑。
在一些实施方式中,该复数个核碱基对是在一个或多个基因中。在一些实施方式中,该复数个核碱基对是在同一个基因中。在一些实施方式中,所述一个或多个基因中的至少一个基因是定位于不同的基因座。
在一些实施方式中,所述编辑是指,在至少一个蛋白质编码区域中的对所述复数个核碱基对的编辑。在一些实施方式中,所述编辑是指,在至少一个蛋白质非-编码区域中的对所述复数个核碱基对的编辑。在一些实施方式中,所述编辑是指,在至少一个蛋白质编码区域中和在至少一个蛋白质非-编码区域中的对所述复数个核碱基对的编辑。
在一些实施方式中,该编辑是连同一个或多个向导多核苷酸的。在一些实施方式中,该碱基编辑器系统可以包括一个或多个碱基编辑器系统。在一些实施方式中,该碱基编辑器系统可以包括一个或多个碱基编辑器系统,其与单一向导多核苷酸相连。在一些实施方式中,该碱基编辑器系统可以包括一个或多个碱基编辑器系统,其与复数个向导多核苷酸相连。在一些实施方式中,该编辑是连同一个或多个向导多核苷酸的,所述向导多核苷酸具有单一碱基编辑器系统。在一些实施方式中,该编辑是连同至少一个向导多核苷酸的,所述向导多核苷酸不需要PAM序列以靶向结合到标靶多核苷酸序列。在一些实施方式中,该编辑是连同至少一个向导多核苷酸的,所述向导多核苷酸需要PAM序列以靶向结合到标靶多核苷酸序列。在一些实施方式中,该编辑是连同至少一个不需要PAM序列以靶向结合到标靶多核苷酸序列的向导多核苷酸和至少一个需要PAM序列以靶向结合到标靶多核苷酸序列的向导多核苷酸的混合物。应当理解,使用如本文所述的任何碱基编辑器的多重编辑的特征可以应用于使用本文所提供的任何碱基编辑器的方法的任何组合。也应当理解,所述编辑可以包括对复数个核碱基对的循序编辑。
用于编辑核酸的方法
本公开披露的一些方面提供了用于编辑核酸的方法。在一些实施方式中,该方法是用于编辑编码蛋白的核酸分子(例如,双股DNA序列的碱基对)的核碱基的方法。在一些实施方式中,该方法包括以下步骤:a)使核酸的标靶区域(例如,双股DNA序列)与包括碱基编辑器(例如,与胞苷脱氨酶和/或腺苷脱氨酶融合的Cas9结构域)和向导核酸(例如,gRNA)的复合体接触,b)诱导所述标靶区域的股分离,c)将该标靶区域的单股中的所述标靶核碱基对的第一核碱基转换为第二核碱基,以及d)使用所述nCas9切割所述标靶区域且该切割不超过一股,其中与所述第一核碱基互补的第三核碱基被与所述第二核碱基互补的第四核碱基取代。在一些实施方式中,该方法造成所述核酸中少于20%的插入/缺失的形成。应当理解,在一些实施方式中,步骤b被省略。在一些实施方式中,该方法造成少于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%、或少于0.1%的插入/缺失的形成。在一些实施方式中,该方法进一步包括用与所述第四核碱基互补的第五核碱基取代所述第二核碱基,从而生成预期的被编辑的碱基对(例如,G·C至A·T)。在一些实施方式中,至少5%的预期的碱基对是被编辑的。在一些实施方式中,至少10%、15%、20%、25%、30%、35%、40%、45%、或50%的预期的碱基对是被编辑的。
在一些实施方式中,所述标靶核苷酸中预期产物与非预期产物的比率是至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、或200:1、或更大。在一些实施方式中,预期突变与所形成的插入/缺失的比率是大于1:1、10:1、50:1、100:1、500:1、或1000:1、或更大。在一些实施方式中,该被切割的单股(带切口的股)杂交到所述向导核酸上。在一些实施方式中,该被切割的单股与包括所述第一核碱基的股是相对的。在一些实施方式中,该碱基编辑器包括dCas9结构域。在一些实施方式中,该碱基编辑器保护或结合非-被编辑股。在一些实施方式中,该预期的被编辑的碱基对在PAM位点的上游。在一些实施方式中,该预期的被编辑的碱基对在PAM位点的上游的第1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。在一些实施方式中,该预期的被编辑的碱基对在PAM位点的下游。在一些实施方式中,该预期的被编辑的碱基对在所述PAM位点的下游的第1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。在一些实施方式中,该方法不需要正准的(例如,NGG)PAM位点。在一些实施方式中,该核碱基编辑器包括链接子。在一些实施方式中,该链接子是1-25个氨基酸的长度。在一些实施方式中,该链接子是5-20个氨基酸的长度。在一些实施方式中,链接子是10、11、12、13、14、15、16、17、18、19、或20个氨基酸的长度。在一个实施方式中,该链接子是32个氨基酸的长度。在另一个实施方式中,“长链接子”是至少约60个氨基酸的长度。在其他实施方式中,该链接子是约3-100个氨基酸之间的长度。在一些实施方式中,该标靶区域包括目标窗,其中该目标窗包括所述标靶核碱基对。在一些实施方式中,该目标窗包括1-10个核苷酸。在一些实施方式中,该目标窗是1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2、或1个核苷酸的长度。在一些实施方式中该目标窗是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸的长度。在一些实施方式中,该预期的被编辑的碱基对是在目标窗内。在一些实施方式中,该目标窗包括该预期的被编辑的碱基对。在一些实施方式中,使用本文所提供的任何碱基编辑器来执行该方法。在一些实施方式中,目标窗是甲基化窗口。
在一些实施方式中,本公开披露提供了用于编辑核苷酸(例如编码蛋白的基因中的SNP)的方法。在一些实施方式中,本公开披露提供了用于编辑双股DNA序列的核碱基对的方法。在一些实施方式中,该方法包括a)使该双股DNA序列的标靶区域与包括碱基编辑器和向导核酸(例如gRNA)的复合体接触,其中该标靶区域包括标靶核碱基对,b)诱导所述标靶区域的股分离,c)将该标靶区域的单股中的所述标靶核碱基对的第一核碱基转换为第二核碱基,d)切割所述标靶区域且该切割不超过一股,其中与所述第一核碱基互补的第三核碱基被与所述第二核碱基互补的第四核碱基取代,并且该第二核碱基被与该第四核碱基互补的第五核碱基取代,从而生成预期的被编辑的碱基对,其中生成该预期的被编辑的碱基对的效率是至少5%。应当理解,在一些实施方式中,步骤b被省略。在一些实施方式中,至少5%的预期碱基对是被编辑的。在一些实施方式中,至少10%、15%、20%、25%、30%、35%、40%、45%、或50%预期的碱基对是被编辑的。在一些实施方式中,该方法造成少于19%、18%、16%、14%、12%、10%、8%、6%、4%、2%、1%、0.5%、0.2%、或少于0.1%的插入/缺失的形成。在一些实施方式中,在所述标靶核苷酸处的预期产物与非预期产物的比率是至少2:1、5:1、10:1、20:1、30:1、40:1、50:1、60:1、70:1、80:1、90:1、100:1、或200:1、或更大。在一些实施方式中,预期突变与所形成的插入/缺失的比率是大于1:1、10:1、50:1、100:1、500:1、或1000:1、或更大。在一些实施方式中,该被切割的单股(带切口的股)杂交到所述向导核酸上。在一些实施方式中,该被切割的单股与包括所述第一核碱基的股是相对的。在一些实施方式中,该预期的被编辑的碱基对在PAM位点的上游。在一些实施方式中,该预期的被编辑的碱基对在PAM位点的上游的第1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。在一些实施方式中,该预期的被编辑的碱基对在PAM位点的下游。在一些实施方式中,该预期的被编辑的碱基对在PAM位点的下游的第1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸。在一些实施方式中,该方法不需要正准的(例如、NGG)PAM位点。在一些实施方式中,该链接子是1-25个氨基酸的长度。在一些实施方式中,该链接子是5-20个氨基酸的长度。在一些实施方式中,该链接子是10、11、12、13、14、15、16、17、18、19、或20个氨基酸的长度。在一些实施方式中,该标靶区域包括目标窗,其中该目标窗包括该标靶核碱基对。在一些实施方式中,该目标窗包括1-10个核苷酸。在一些实施方式中,该目标窗是1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2、或1个核苷酸的长度。在一些实施方式中,该目标窗是1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、或20个核苷酸的长度。在一些实施方式中,该预期的被编辑的碱基对出现在目标窗内。在一些实施方式中,该目标窗包括该预期的被编辑的碱基对。在一些实施方式中,该核碱基编辑器是本文所提供的任一碱基编辑器。
宿主细胞中融合蛋白的表达
使用本领域技术人员已知的常规方法,本发明的融合蛋白可以在几乎任何目标宿主细胞中表达,包含但不限于细菌,酵母,真菌,昆虫,植物和动物细胞。例如,可以用cDNA序列为基础设计适于CDS上游和下游的适合的引物来克隆编码本发明的融合蛋白的DNA。所克隆的DNA可直接、或在需要时用限制性酶消化后、或在附加适合的链接子和/或核定位信号后,与编码碱基编辑系统的一个或多个其他组分的DNA相连接。该碱基编辑系统在宿主细胞中被翻译成以形成复合体。
通过将编码具有核碱基修饰活性(例如,腺苷脱氨酶,胞苷脱氨酶,DNA糖基化酶)的一个或多个结构域的一个或多个多核苷酸可操作地链接至编码napDNAbp的多核苷酸,以制备编码本发明的融合蛋白的多核苷酸而生成融合蛋白。在一些实施方式中,编码napDNAbp的多核苷酸,和编码具有核碱基修饰活性的结构域的DNA可各自与编码结合结构域的DNA或所述结合结构域结合伙伴的DNA融合,抑或,两种DNA均可与编码分离内含肽的DNA融合,由此所述核酸序列-识别转换模块和所述核酸碱基转换酶在宿主细胞中被翻译以形成复合体。在这些情况下,当需要时,可以将链接子和/或核定位信号链接到所述两种DNA之一或二者的适合位置。
编码本文所述的蛋白结构域的DNA可以通过化学合成该DNA而获得,或者通过利用PCR法和Gibson组装法连接合成的部分重叠的寡DNA短链来构建编码其全长的DNA。通过化学合成或通过PCR方法或Gibson组装法的组合来构建全长DNA的优势为,可以根据DNA被导入的宿主设计用于全长CDS的待用密码子。在表达异源DNA时,通过将其蛋白的DNA序列转换为所述宿主生物体中高频使用的密码子,该蛋白质的表达水平预计会增加。既然要使用宿主中密码子使用频率的数据,例如,可以使用在Kazusa DNA研究院的主页上公开的遗传密码使用频率数据库(http://www.kazusa.or.jp/codon/index.html),也可以参显示每个宿主中密码子使用频率的文件。通过参比已获得的数据和要引入的DNA序列,可将用于该DNA序列的在该宿主中显示低使用频率的密码子转换为编码相同氨基酸并显示高使用频率的密码子。
可以,例如,通过将所述DNA链接到适合的表达载体中启动子的下游,而生产含有编码核酸序列-识别模块和/或核酸碱基转换酶DNA的表达载体。
作为表达载体,使用了:大肠杆菌-衍生的质粒(例如pBR322、pBR325、pUC12、pUC13);枯草芽孢杆菌-衍生的质粒(例如pUB110、pTP5、pC194);酵母-衍生的质粒(例如pSH19、pSH15);昆虫细胞表达质粒(例如pFast-Bac);动物细胞表达质粒(例如pA1-11、pXT1、pRc/CMV、pRc/RSV、pcDNAI/Neo);噬菌体,诸如λ噬菌体等;昆虫病毒载体,诸如杆状病毒等(例如BmNPV、AcNPV);动物病毒载体,诸如逆转录病毒,牛痘病毒,腺病毒等等。
作为启动子,可以使用适合用于基因表达的宿主的任何启动子。在使用DSB的常规方法中,由于宿主细胞的存活率有时会因毒性而显著降低,因此期望通过使用诱导型启动子在诱导开始时增加细胞数目。然而,由于通过表达本发明的核酸-修饰酶复合体也可以提供足够的细胞增殖,因此也可以不受限地使用组成型启动子。
例如,当该宿主是动物细胞时,使用了:SRα启动子,SV40启动子,LTR启动子,CMV(巨细胞病毒)启动子,RSV(Rous肉瘤病毒)启动子,MoMuLV(Moloney小鼠白血病病毒)LTR,HSV-TK(单纯疱疹病毒胸苷激酶)启动子等。这些之中,优选CMV启动子、SRα启动子等。在一个实施方式中,该启动子是CMV启动子或SRα启动子。当该宿主细胞是大肠杆菌时,可使用以下任何启动子:trp启动子,lac启动子,recA启动子,λpL启动子,lpp启动子,T7启动子等。当该宿主是芽孢杆菌属时,可使用以下任何启动子:SPO1启动子,SPO2启动子,penP启动子等。当该宿主是酵母时,可以使用任何以下启动子:Gal1/10启动子,PHO5启动子,PGK启动子,GAP启动子,ADH启动子等。当该宿主是昆虫细胞时,可以使用任何以下启动子:多角体蛋白启动子,P10启动子等。当该宿主是植物细胞时,可以使用任何以下启动子:CaMV35S启动子,CaMV19S启动子,NOS启动子等。
在一些实施方式中,按照需要,该表达载体可能含有增强子,剪接信号,终止子,polyA附加信号,选择标记物(诸如抗药性基因,营养缺陷型互补基因等),复制起点等。
可以凭借在本身已知的体外转录系统中通过使用编码DNA,该DNA编码上述核酸序列-识别模块和/或核酸碱基转换酶,的载体作为模板转录为mRNA,来制备编码如本文所述的蛋白结构域的RNA。
可以通过将编码融合蛋白的表达载体引入宿主细胞中并培养该宿主细胞来表达本发明的融合蛋白。可用于本发明的宿主细胞包含细菌细胞,酵母,昆虫细胞,哺乳动物细胞等。
埃希氏菌属包含大肠杆菌K12.cndot.DH1[Proc.Natl.Acad.Sci.,美国,60,160(1968)],大肠杆菌JM103[Nucleic Acids Research,9,309(1981)],大肠杆菌JA221[Journal of Molecular Biology,120,517(1978)],大肠杆菌HB101[Journal ofMolecular Biology,41,459(1969)],大肠杆菌C600[Genetics,39,440(1954)]等。
芽孢杆菌属包含枯草芽孢杆菌M1114[Gene,24,255(1983)],枯草芽孢杆菌207-21[Journal of Biochemistry,95,87(1984)]等。
可用于表达本发明的融合蛋白的酵母包含酿酒酵母AH22,
-AH22R,NA87-11A,DKD-5D,20B-12,粟酒裂殖酵母NCYC1913,NCYC2036,巴斯德毕赤酵母(Pichia pastoris)KM71等。
使用例如病毒载体,诸如AcNPV,在昆虫细胞中表达融合蛋白。所使用的昆虫宿主细胞包含以下任何细胞系:甘蓝菜行军虫幼虫-衍生的确立细胞系(草地贪夜蛾细胞;Sf细胞),衍生自粉纹夜蛾(Trichoplusia ni)中-肠的MG1细胞,衍生自粉纹夜蛾的卵(巢)的“High Five(击掌相庆)”细胞,甘蓝夜蛾(Mamestra brassicae)-衍生的细胞,盐泽灯蛾(Estigmena acrea)-衍生的细胞等。当病毒是BmNPV时,使用了家蚕-衍生的细胞系(家蚕N细胞;BmN细胞)等。Sf细胞包含,例如,Sf9细胞(ATCC CRL1711,Sf21细胞[以上所有,InVivo,13,213-217(1977)]等。
关于昆虫,使用了例如家蚕、果蝇、蟋蟀等的幼虫来表达融合蛋白(Nature,315,592(1985))。
哺乳动物细胞系可用于表达融合蛋白。所使用的此种细胞系包含猴COS-7细胞,猴Vero细胞,中华仓鼠卵巢(CHO)细胞,dhfr基因-缺陷型CHO细胞,小鼠L细胞,小鼠AtT-20细胞,小鼠骨髓瘤细胞,大鼠GH3细胞,人类FL细胞等,分化多能的干细胞(诸如人类和其他哺乳动物的iPS细胞,ES细胞等),以及从各种组织制备的原代培养细胞。此外,亦可以使用斑马鱼胚胎,爪蟾卵母细胞等。
可以使用本领域技术人员熟知的方法在培养物中维持植物细胞。植物细胞培养涉及悬浮培养的细胞,愈伤组织,原生质体,叶节段,根节段等,其是从各种植物(例如谷物,诸如水稻,小麦,玉米等,商品作物,诸如番茄,黄瓜,茄子,康乃馨,洋桔梗,烟草,拟南芥)中制备的。
所有上述宿主细胞可能是单倍体(单套体),或多倍体(例如,二倍体,三倍体,四倍体等)。在传统的突变引入方法中,原则上仅将突变引入一个同源染色体以产生异种基因类型。因此,除非发生了显性突变,否则所期待的表型不会表达出来,而不幸的是纯合子需要人力和时间。相比之下,根据本发明,由于可以将突变引入基因组中所述同源染色体上的任何等位基因,即使在隐性突变的情况下也可以在仅一代中表达所期待的表型,这是极其有用的,因为其解决了传统方法的难题。
使用任何转染方法(例如,溶菌酶方法,感受态方法,PEG方法,CaCl2共沉淀方法,电穿孔方法,显微注射方法,粒子枪方法,脂转染方法,农杆菌方法等)将编码本发明的融合蛋白的表达载体引入宿主细胞中。基于待转染的宿主细胞而选择转染方法。
可以根据例如Proc.Natl.Acad.Sci.USA,69,2110(1972)和Gene,17,107(1982)等中所述方法转化大肠杆菌。可以根据例如Molecular&General Genetics,168,111(1979)等中所述方法将载体引入转导芽孢杆菌属中。可以根据例如Methods in Enzymology,194,182-187(1991),Proc.Natl.Acad.Sci.USA,75,1929(1978)等中所述方法将载体引入酵母细胞中。可以根据例如Bio/Technology,6,47-55(1988)等中所述方法将载体引入昆虫细胞中。可以根据例如Cell Engineering additional volume 8,New Cell EngineeringExperiment Protocol,263-267(1995)(东京秀潤社出版),和Virology,52,456(1973)中所述方法将载体引入哺乳动物细胞中。
根据已知方法培养包括本发明的表达载体的细胞,所述方法根据宿主而变化。例如,当培养大肠杆菌或芽孢杆菌属细胞时,优选液体培养基作为用于培养的培养基。该培养基优选地含有碳源,氮源,无机物质和转化株生长所必需的其他组分。碳源的例子包含葡萄糖,糊精,可溶性淀粉,蔗糖等;氮源的例子包含无机或有机物质,诸如铵盐,硝酸盐,玉米浆,蛋白胨,酪蛋白,肉提取物,豆饼,马铃薯提取物等;而无机物质的例子包含氯化钙,磷酸二氢钠,氯化镁等。该培养基亦可含有酵母提取物,维生素,生长促进因子等。该培养基的pH优选地是在约5至约8之间。
作为用于培养大肠杆菌的培养基,例如,优选的是含有葡萄糖,酪蛋白氨基酸的M9培养基[Journal of Experiments in Molecular Genetics,431-433,Cold SpringHarbor Laboratory,New York1972]。必要时,例如,剂诸如3β-吲哚丙烯酸可被加入该培养基中以确保启动子的有效功能。大肠杆菌通常在约15-约43℃下培养。必要时,可执行曝气和搅拌。
芽孢杆菌属通常在约30到约40℃下培养。必要时,可执行曝气和搅拌。
适于培养酵母的培养基的例子包含Burkholder最低限度培养基[Proc.Natl.Acad.Sci.USA,77,4505(1980)],含有0.5%酪蛋白氨基酸的SD培养基[Proc.Natl.Acad.Sci.USA,81,5330(1984)]等。该培养基的pH优选地是约5-约8。该培养通常是在约20℃到约35℃下执行。必要时,可执行曝气和搅拌作为用于培养昆虫细胞或昆虫的培养基,使用了含有添加剂,诸如去活化的10%牛血清等的Grace's昆虫培养基[Nature,195,788(1962)]。该培养基的pH优选地是约6.2至约6.4。细胞在约27℃下培养。必要时,可执行曝气和搅拌作为用于培养哺乳动物细胞的培养基,使用了例如,含有约5%至约20%胎牛血清的最低必需培养基(MEM)[Science,122,501(1952)],Dulbecco's改良Eagle培养基(DMEM)[Virology,8,396(1959)],RPMI 1640培养基[TheJournal of the AmericanMedical Association,199,519(1967)],199培养基[Proceeding of the Society forthe Biological Medicine,73,1(1950)]等。该培养基的pH优选地是约6至约8。培养在约30℃至约40℃下进行。必要时,可执行曝气和搅拌。
作为用于培养植物细胞的培养基,例如,使用了MS培养基,LS培养基,B5培养基等。该培养基的pH优选地是约5至约8。培养通常在约20℃至约30℃下进行。必要时,可执行曝气和搅拌。
当以高等真核细胞(诸如动物细胞、昆虫细胞、植物细胞等)作为宿主细胞时,将编码本发明的碱基编辑系统的DNA在诱导型启动子(例如,金属硫蛋白启动子(由重金属离子诱导),热休克蛋白启动子(由热休克诱导),Tet-ON/Tet-OFF系统启动子(通过添加或去除四环素或其衍生物),类固醇-应答性启动子(由类固醇激素或其衍生物诱导)等)的调控下引入宿主细胞中,在适当的阶段将诱导物质添加到培养基中(或从培养基中去除)以诱导表达所述核酸-修饰酶复合体,培养一定时间以完成碱基编辑并且,将突变引入标靶基因,可以实现所述碱基编辑系统的瞬时表达。
原核细胞,诸如大肠杆菌等,可以利用诱导型启动子。诱导型启动子的例子包含但不限于lac启动子(由IPTG诱导),cspA启动子(由冷休克诱导),araBAD启动子(由阿拉伯糖诱导)等。
或者,当以高等真核细胞(诸如动物细胞、昆虫细胞、植物细胞等)作为宿主细胞时,也可以利用上述的诱导型启动子作为载体去除机制。即,给载体安装了在宿主细胞中有功能的复制起点,以及编码复制所需蛋白质的核酸(例如,SV40 ori和大T抗原,oriP和EBNA-1等,其用于动物细胞),而编码所述蛋白的所述核酸的表达是被上述诱导型启动子所调控。因此,虽然所述载体在诱导物质存在时是自主复制的,但当该诱导物质被去除时,就没有了自主复制,并且所述载体会随着细胞分裂而自然地掉队消失(在Tet-OFF系统载体中,通过添加四环素和多西环素使自主复制变得不可能)。
递送系统
基于-核酸的核碱基编辑器和gRNA的递送
可以通过本领域已知的方法或如本文所述,将根据本公开披露的编码核碱基编辑器(例如多效应器核碱基编辑器)的核酸在体外或在体内施用于受试者或递送进入细胞。在一个实施方式中,核碱基编辑器或多效应器核碱基编辑器的递送是可以通过例如载体(例如病毒或非-病毒载体),基于非-载体的方法(例如使用裸DNA,DNA复合体,脂质纳米颗粒),或其组合。
编码核碱基编辑器或多效应器核碱基编辑器的核酸能以裸DNA或RNA的形式直接被递送进入细胞(例如造血细胞或它们的组细胞,造血干细胞,和/或诱导的多能干细胞),例如通过转染或电穿孔的手段,或偶联到可促进所述靶细胞摄取的分子(例如,乙酰半乳糖胺)上。也可以使用核酸载体,诸如以上所述载体。
核酸载体可包括一个或多个编码本文所述融合蛋白的结构域的序列。载体亦可包括编码信号肽(例如,用于核定位,核仁定位或线粒体定位)的序列,该序列与编码蛋白质的一序列相关联(例如,插入进或融合到)。作为一个例子,核酸载体可以包含Cas9编码序列,其包含一个或多个核定位序列(例如,来自SV40的核定位序列),以及脱氨酶(例如腺苷脱氨酶和/或胞苷脱氨酶)。
所述核酸载体亦可包含任何适合数目的调节/控制元件,例如启动子,增强子,内含子,多腺苷酸化信号,Kozak共有序列或内部核糖体进入位点(IRES)。这些元件在本领域中是众所周知的。对于造血细胞,适合的启动子可以包含IFNbeta或CD45。
根据本公开披露的核酸载体包含重组病毒载体。示例性的病毒载体在本文中列出。也可以使用本领域已知的其他病毒载体。另外,病毒微粒可用于递送以核酸和/或肽形式存在的碱基编辑系统组分。例如,“空”病毒微粒可以被组装以容纳任何适合的货物。病毒载体和病毒微粒也可以被工程化以并入靶向配体以改变标靶的组织特异性。
除病毒载体外,非-病毒载体可用于递送根据本公开披露的编码基因组编辑系统的核酸。非-病毒核酸载体的一重要类别是纳米微粒,其可以是有机的或无机的。纳米微粒是本领域众所周知的。任何适合的纳米微粒设计均可以用于递送基因组编辑系统组分或编码此类组分的核酸。例如,有机的(例如脂质和/或聚合物)纳米微粒可适用于作为本公开披露的某些实施方式中的递送载具。用于纳米微粒制剂和/或基因移转的示例性的脂质显示在下面的表10中。
表10
Figure BDA0003286956470002551
表11列出了用于基因移转和/或纳米微粒制剂的示例性的聚合物。
表11
Figure BDA0003286956470002561
表12总结了以供编码本文所述融合蛋白的多核苷酸的递送方法。
表12
Figure BDA0003286956470002562
Figure BDA0003286956470002571
在另一方面,基因组编辑系统各组分或编码该各组分的核酸(例如,核酸结合蛋白(诸如Cas9或其变体),以及靶向基因组目标核酸序列的gRNA)的递送,可能是通过将核糖核蛋白(RNP)递送至细胞来实现。该RNP包括与所述靶向gRNA形成复合体的所述核酸结合蛋白(例如Cas9)。可使用已知方法将RNP递送至细胞,诸如电穿孔、核转染或阳离子脂质-介导的方法,例如,如Zuris,J.A.等,2015,Nat.Biotechnology,33(1):73-80所报告的。在CRISPR碱基编辑系统中使用RNP是有利的,特别是对于难以转染的细胞,诸如原代细胞。此外,RNP还可以缓和细胞中伴随蛋白质表达可能出现的困境,尤其是当真核启动子,例如CRISPR质粒中可能使用的CMV或EF1A,没有很好地表达时。有利的是,RNP的使用不需要将外源DNA递送到细胞中。此外,由于包括核酸结合蛋白和gRNA复合体的RNP会随时间降解,因此RNP的使用有限制脱靶效应的潜力。以类似于基于质粒的技法的方式,RNP可用于递送结合蛋白(例如Cas9变体)和导引同源定向修复(HDR)。
用于驱动编码碱基编辑器的核酸分子的表达的启动子可以包含AAV ITR。这有利于消除对额外启动子元件的需要,该元件会占据所述载体中的空间。所释放的额外空间可用于驱动额外的元件的表达,诸如向导核酸或可筛选标记。ITR活性是相对弱的,所以它可用于减低因所选核酸酶的过度表达而导致的潜在毒性。
任何适合的启动子都可以用于驱动所述碱基编辑器的表达和,适当时,所述向导核酸的表达。对于普遍表达,可以使用的启动子包含CMV、CAG、CBh、PGK、SV40、铁蛋白的重链或轻链等。对于脑或其他CNS细胞表达,适合的启动子可以包含:用于所有神经元的SynapsinI,用于兴奋性神经元的CaMKIIα,用于GABA能神经元的GAD67或GAD65或VGAT,等。对于肝脏细胞表达,适合的启动子包含白蛋白启动子。对于肺细胞表达,适合的启动子可以包含SP-B。对于内皮细胞,适合的启动子可以包含ICAM。对于造血细胞,适合的启动子可以包含IFNβ或CD45。对于成骨细胞,适合的启动子可以包含OG-2。
在一些实施方式中,本公开披露的碱基编辑器具有足够小的尺寸以允许分开的多个启动子驱动所述碱基编辑器和相容的向导核酸在同一核酸分子内的表达。例如,载体或病毒载体可包括与编码所述碱基编辑器的核酸可操作地链接的第一启动子和与所述向导核酸可操作地链接的第二启动子。
用于驱动向导核酸表达的启动子可以包含Pol III启动子,诸如U6或H1。使用PolII启动子和内含子框来表达gRNA腺相关病毒(AAV)。
病毒载体
因此,本文所述的碱基编辑器可以凭借病毒载体递送。在一些实施方式中,本文所述的碱基编辑器可以在核酸上被编码,该核酸是被包含在病毒载体中。在一些实施方式中,所述碱基编辑器系统的一个或多个组分可以在一个或多个病毒载体上被编码。例如,碱基编辑器和向导核酸可以在单一病毒载体上被编码。在其他实施方式中,该碱基编辑器和向导核酸是在不同的病毒载体上被编码。在任一情形中,该碱基编辑器和向导核酸可以各自可操作地链接到启动子和终止子上。病毒载体上被编码的各个组分的组合可以通过所选病毒载体的基因容量大小限制来确定。
使用基于RNA或DNA病毒的系统来递送碱基编辑器,利用了培养物中或宿主体内的用于将病毒靶向到特定细胞的和用于将病毒净载运送到细胞核或宿主细胞基因组的高度进化的过程。病毒载体可以直接施用于培养中的细胞,患者(体内),抑或它们可以用于在体外处理细胞,并且可以任选地将修饰过的细胞施用于患者(离体)。传统的基于病毒的系统可以包含用于基因移转的逆转录病毒、慢病毒、腺病毒、腺相关病毒和单纯疱疹病毒载体。凭借所述逆转录病毒、慢病毒和腺相关病毒基因移转方法,整合到宿主基因组中是有可能的,通常导致插入的转基因的长期表达。此外,在许多不同的细胞类型和标靶组织中都观察到了高转导效率。
病毒载体可以包含慢病毒(例如基于HIV和FIV的载体)、腺病毒(例如AD100)、逆转录病毒(例如马洛尼鼠白血病病毒MML-V)、疱疹病毒载体(例如HSV-2)和腺相关病毒(AAV)或其他质粒或病毒载体类型,特别是使用如下制剂和剂量的质粒或病毒载体类型,例如来自美国专利编号8,454,972(适于腺病毒的制剂、剂量)、美国专利编号8,404,658(适于AAV的制剂、剂量)的制剂和剂量)和美国专利编号5,846,946(适于DNA质粒的制剂、剂量)以及来自临床试验和关于涉及慢病毒、AAV和腺病毒的临床试验的出版物。例如,对于AAV,给药途径、制剂和剂量可以如同美国专利编号8,454,972中的那些和如同涉及AAV的临床试验中的那些。对于腺病毒,给药途径、制剂和剂量可以如同美国专利编号8,404,658中的那些和涉及腺病毒的临床试验中的那些。对于质粒递送,给药途径、制剂和剂量可以如同美国专利编号5,846,946中的那些和如同涉及质粒的临床研究中的那些。剂量可以基于或外推到平均70公斤的个体(例如男性成年人),并且可以针对不同重量和物种的患者、受试者、哺乳动物进行调整。给药频率在医学或兽医从业者(例如医师、兽医)的领域内,取决于通常的因子,包含患者或受试者的年龄、性别、一般健康状况、其他状况以及正在解决的特定病况或症状。该病毒载体可以被注射到目标组织中。对于细胞-类型特异性的碱基编辑,碱基编辑器和可选的向导核酸的表达可由细胞-类型特异性启动子驱动。
逆转录病毒的向性可以通过掺入外来包膜蛋白来改变,其扩大了标靶细胞的潜在标靶群体。慢病毒载体是能够转导或感染非-分裂细胞并且通常产生高病毒滴度的逆转录病毒载体。因此,逆转录病毒基因移转系统的选择将取决于所述标靶组织。逆转录病毒载体由顺式-作用的长末端重复序列组成,其包装容量最高为6-10kb的外源序列。最小的顺式-作用LTR足以用于所述载体的复制和包装,然后用于将治疗性基因整合到标靶细胞中以提供恒定的转基因表达。广泛使用的逆转录病毒载体包含基于鼠白血病病毒(MuLV)、长臂猿白血病病毒(GaLV)、猿猴免疫缺陷病毒(SIV)、人类免疫缺陷病毒(HIV)及其组合的那些载体(参见例如Buchscher等,J.Virol.66:2731-2739(1992);Johann等,J.Virol.66:1635-1640(1992);Sommnerfelt等,Virol.176:58-59(1990);Wilson等,J.Virol.63:2374-2378(1989);Miller等,J.Virol.65:2220-2224(1991);PCT/US94/05700)。
逆转录病毒载体,尤其是慢病毒载体,可能需要小于给定长度的多核苷酸序列以有效整合到标靶细胞中。例如,长度大于9kb的逆转录病毒载体与较小的载体相比可导致低的病毒滴度。在一些实施方式中,本公开披露的碱基编辑器具有足够的大小以使得其能够经由逆转录病毒载体有效地包装和递送到标靶细胞中。在一些实施方式中,碱基编辑器的大小使得其即使在与向导核酸和/或可靶向核酸酶系统的其他组分一起表达时也容许有效包装和递送。
在优选瞬时表达的应用中,可以使用基于腺病毒的系统。基于腺病毒的载体能够在许多细胞类型中具有非常高的转导效率并且不需要细胞分裂。使用此种载体,人们已经获得了高滴度和高表达水平。这个载体可以在相对简单的系统中大量生产。腺相关病毒(“AAV”)载体也可用于用标靶核酸转导细胞,例如在核酸和肽的体外生产中,以及用于体内和离体的基因治疗程序(参见例如,West等,Virology160:38-47(1987);美国专利号4,797,368;WO 93/24641;Kotin,Human Gene Therapy 5:793-801(1994);Muzyczka,J.Clin.Invest.94:1351(1994).重组AAV载体的构建描述于一些出版物中,包含:美国专利号5,173,414;Tratschin等,Mol.Cell.Biol.5:3251-3260(1985);Tratschin等,Mol.Cell.Biol.4:2072-2081(1984);Hermonat&Muzyczka,PNAS 81:6466-6470(1984);和Samulski等,J.Virol.63:03822-3828(1989)。
AAV是一种小的单股DNA依赖病毒,其属于细小病毒家族。该4.7kb野生型(wt)AAV基因组是由分别编码四个复制蛋白和三个衣壳蛋白的两个基因组成,并且该基因组的两侧翼都是145-bp的反向末端重复序列(ITR)。所述病毒体由三种衣壳蛋白Vp1、Vp2、和Vp3组成,它们是来自同一开放阅读框但出自差异化剪接(Vp1)以及选择性翻译起始位点(分别为Vp2和Vp3)而以1:1:10的比率生产出来。Vp3是病毒体中最丰富的亚单元,并参与定义了该病毒向性的细胞表面的受体识别。在Vp1独特的N末端内已鉴别出一在病毒感染力中起作用的磷脂酶结构域。
与野生型AAV相似,重组AAV(rAAV)利用顺式-作用的145bp ITR侧翼包围载体的转基因盒,而提供了最长为4.5kb可用于包装外源DNA。感染之后,rAAV可以表达本发明的融合蛋白,并且不需整合到宿主基因组中仍可持久存在,其通过附加体的形式存在于环状的头尾相连的连环体中。尽管在体外和体内使用此系统而成功的rAAV的例子很多,但是当基因编码序列的长度等于或大于wt AAV基因组时,有限的包装能力限制了AAV-介导的基因递送的使用。
可以根据应用选择病毒载体。例如,对于体内基因递送,AAV可能优于其他病毒载体。在一些实施方式中,AAV符合低毒性的要求,这可能是因为纯化方法不需要细胞颗粒的超速-离心,其可以激活免疫反应。在一些实施方式中,AAV符合低概率造成插入诱变的要求,因为它不整合到宿主基因组中。腺病毒通常被用作疫苗,因为它们诱导强烈的免疫原应答。该病毒载体的包装容量可以限制可以被包装到该载体中的碱基编辑器的大小。
AAV的包装容量为约4.5Kb或包含两个145碱基反向末端重复序列(ITR)在内为4.75Kb。这意味着所揭示的碱基编辑器以及启动子和转录终止子可以适配到单一病毒载体中。大于4.5或4.75Kb的构建体会导致病毒产量的显著降低。例如,SpCas9是相当大的,其基因本身超过4.1Kb,这使得其不易被装入AAV。因此,本公开披露的实施方式包含利用所揭示的碱基编辑器,其长度比传统的碱基编辑器短。在一些实例中,该碱基编辑器小于4kb。所揭示的碱基编辑器可小于4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.2kb、3.1kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb、或1.5kb。在一些实施方式中,所揭示的碱基编辑器的长度是4.5kb或较小。
AAV可以是AAV1、AAV2、AAV5或其任何组合。可以根据被靶向的细胞选择AAV的类型;例如,对于靶向脑或神经元细胞,可以选择AAV血清型1、2、5或是杂合衣壳AAV1、AAV2、AAV5或其任何组合;对于靶向心脏组织,可以选择AAV4。AAV8可用于对肝脏的递送。关于这些细胞的确定AAV血清型的表列目录可以在Grimm,D.等,J.Virol.82:5887-5911(2008)中找到。
慢病毒是复杂的逆转录病毒,其在有丝分裂和有丝分裂后细胞中都具有感染和表达它们基因的能力。最广为人知的慢病毒是人类免疫缺陷病毒(HIV),其使用其他病毒的包膜糖蛋白来靶向广泛的细胞类型。
可以如下制备慢病毒。克隆pCasES10(其含有慢病毒移转质粒主干)后,将低传代(p=5)的HEK293FT接种到T-75烧瓶中,在转染前一天在含10%胎牛血清不含抗生素的DMEM中达到50%汇合。20小时后,将培养基更换为OptiMEM(无血清)培养基,4小时后进行转染。细胞用10μg慢病毒移转质粒(pCasES10)和以下包装质粒转染:5μgpMD2.G(VSV-g假型)和7.5μg psPAX2(gag/pol/rev/tat)。转染可在4mL OptiMEM中使用阳离子脂质递送剂(50μlLipofectamine2000和100ul Plus试剂)进行。6小时后,将该培养基更换为不含抗生素的含10%胎牛血清的DMEM。这些方法在细胞培养过程中使用血清,但无血清的方法是优选的。
可以如下纯化慢病毒。48小时后收获病毒上清液。上清液首先清除残渣并经0.45μm低蛋白结合(PVDF)过滤器过滤。然后将它们在超速离心机中以24,000rpm的速度旋转2小时。病毒沉淀物在50μlDMEM中重悬于4℃下过夜。然后将它们等分分装并立即在-80℃下冷冻。
在另一个实施方式中,还检视了基于马传染性贫血病毒(EIAV)的最小非-灵长类慢病毒载体。在另一个实施方式中,RetinoStat.RTM.,一种基于马传染性贫血病毒的慢病毒基因治疗载体,其表达预期经由视网膜下注射而被递送的血管抑制素蛋白内皮抑素和血管抑素。在另一个实施方式中,检视了使用自我-去活性化的慢病毒载体。
该系统的任何RNA,例如向导RNA或编码碱基编辑器的mRNA,都可以以RNA的形式被递送。可以使用体外转录生成编码碱基编辑器的mRNA。例如,可以使用含有以下元件的PCR框合成核酸酶mRNA:T7启动子、可选的kozak序列(GCCACC)、核酸酶序列和3’UTR,诸如来自β珠蛋白-polyA尾巴的3’UTR。该框可用于经由T7聚合酶的转录。也可以使用体外转录从含有T7启动子的框中转录向导多核苷酸(例如gRNA),紧随该T7启动子的是序列“GG”和向导多核苷酸序列。
为了增强表达并减低可能的毒性,可以修饰编码碱基编辑器序列和/或向导核酸以包含一种或多种修饰过的核苷,例如使用假-U或5-甲基-C。
AAV载体的小的包装能力使得超过该大小的一些基因的递送和/或大的生理调节元件的使用具有挑战性。这些挑战可以通过例如将待递送的一个(或多个)蛋白质分成两个或更多个片段来解决,其中N末端片段与断裂内含肽-N融合,而C末端片段与断裂内含肽-C融合。然后将这些片段包装到两个或多个AAV载体中。在一个实施方式中,内含肽用于连接被嫁接到AAV衣壳蛋白上的多效应器碱基编辑器蛋白的片段或部分。如本文所用,“内含肽”是指将其侧翼的N末端和C末端的外显肽(例如,待连接的片段)连接起来的自-剪接的蛋白质内含子(例如,肽)。某些内含肽用于连接异源性蛋白片段是描述于例如Wood等,J.Biol.Chem.289(21);14512-9(2014)中。例如,当被融合到分开的蛋白质片段时,内含肽IntN和内含肽IntC相互识别、剪接自身并同时将侧翼的与它们融合的蛋白质片段的N末端和C末端的外显肽连接起来,从而重构了来自两个蛋白质片段的全长蛋白质。其他适合的内含肽对于本领域技术人员将是显而易见的。
本发明的融合蛋白的片段的长度可以变化。在一些实施方式中,蛋白质片段的长度范围为从2个氨基酸至约1000个氨基酸。在一些实施方式中,蛋白质片段的长度范围为从约5个氨基酸至约500个氨基酸。在一些实施方式中,蛋白质片段的长度范围为从约20个氨基酸至约200个氨基酸。在一些实施方式中,蛋白质片段的长度范围为从约10个氨基酸至约100个氨基酸。其他长度的适合的蛋白质片段对本领域技术人员将是显而易见的。
在一个实施方式中,通过将大的转基因表达框断裂成两个分开的两半(5′和3′末端,或头和尾)来生成双重AAV载体,其中该框的每一半被包装进单个AAV载体中(其<5kb)。然后,通过两个双重AAV载体共-感染同一细胞,然后进行以下操作即可实现全长转基因表达框的重新-组装:(1)5'和3'基因组(双重AAV重叠载体)之间的同源重组(HR);(2)ITR-介导的5'和3'基因组的尾对头的连环体化(双重AAV反式-剪接载体);或(3)这两种机制的组合(双重AAV杂合载体)。在体内使用双重AAV载体导致全长蛋白质的表达。双重AAV载体平台的使用代表了大于4.7kb大小的转基因的有效且可行的基因移转策略。
内含肽
在一些实施方式中,核酸酶的一部分或片段(例如Cas9)与内含肽融合。该核酸酶可以被融合到该内含肽的N-端或C-端。在一些实施方式中,融合蛋白的一部分或片段融合到内含肽并且融合到AAV衣壳蛋白。所述内含肽、核酸酶和衣壳蛋白能以任何排列被融合在一起(例如,核酸酶-内含肽-衣壳,内含肽-核酸酶-衣壳,衣壳-内含肽-核酸酶等)。在一些实施方式中,将内含肽的N-端融合到融合蛋白的C-端,并将内含肽的C-端融合至AAV衣壳蛋白的N-端。
内含肽(内含蛋白)是在多种生物体中发现的自动-加工结构域,其执行称为蛋白质剪接的过程。蛋白质剪接是一个多-步骤的生化反应,其包括切开和肽键的形成。尽管蛋白质剪接的内源性底物是在含有内含肽的生物体中发现的蛋白质,但内含肽也可被用于化学性操控几乎任何多肽主干。
在蛋白质剪接中,所述内含肽通过切开两个肽键将自身从前体多肽中切除出来,从而经由新肽键的形成来连接侧翼的外显肽(外部蛋白)序列。这种重排发生在翻译之后(或可能与翻译同步)。内含肽-介导的蛋白质剪接自发地发生,其只需要内含肽结构域的折叠。
大约5%的内含肽是断裂内含肽,其被转录并翻译为两个单独的多肽,即N-内含肽和C-内含肽,其各自融合到一个外显肽上。一经翻译,所述内含肽片段自发地和非-共价地组装成正准的内含肽结构以进行反式的蛋白质剪接。蛋白质剪接的机制需要一系列酰基-转移反应,其导致在内含肽-外显肽接合处的两个肽键的切开,以及在N-外显肽和C-外显肽之间新肽键的形成。该过程的启动是通过活化连接N-外显肽和该内含肽N-端的肽键。几乎所有内含肽在其N-端均具有半胱氨酸或丝氨酸,其可攻击N-外显肽C末端残基的羰基碳。保守的苏氨酸和组氨酸(称为TXXH基序)以及常见的天冬氨酸促进了这种N到O/S的酰基-移位,其导致线性(硫)酯中间体的形成。接下来,该中间体通过对第一个C-外显肽残基(+1)(该残基是半胱氨酸、丝氨酸或苏氨酸)的亲核攻击被反式-(硫)酯化。所得到的分枝(硫)酯中间体可通过独特的转型作用而被变形:内含肽的高度保守的C末端天冬酰胺的环化反应。(发现于高度保守的HNF基序中的)组氨酸和内含肽次末端的组氨酸可促进该过程,并且也可能涉及所述天冬氨酸。此琥珀酰亚胺的形成反应从反应复合体中切除所述内含肽,并留下通过非-肽键合附接的所述外显肽。此结构以独立于内含肽的方式迅速地重排成一稳定的肽键。
在一些实施方式中,碱基编辑器(例如ABE、CBE)的N末端片段融合到断裂内含肽-N上,并且C末端片段融合到断裂内含肽-C上。然后将这些片段包装到两个或多个AAV载体中。某些内含肽用于连接异源性蛋白片段是描述于例如Wood等,J.Biol.Chem.289(21);14512-9(2014)。例如,当被融合到分开的蛋白质片段时,内含肽IntN和内含肽IntC相互识别、剪接自身并同时将侧翼的与它们融合的蛋白质片段的N-末端和C-末端的外显肽连接起来,从而重构了来自两个蛋白质片段的全长蛋白质。其他适合的内含肽对于本领域技术人员将是显而易见的。
在一些实施方式中,ABE在SpCas9的选定区域内的Ala、Ser、Thr、或Cys残基处被断裂为N末端片段和C末端片段。这些区域对应于通过Cas9晶体结构分析所鉴别出的环区域。每个片段的N-端融合到内含肽-N,而每个片段的C-端融合到内含肽-C,且该融合是在S303、T310、T313、S355、A456、S460、A463、T466、S469、T472、T474、C574、S577、A589、和S590氨基酸位置处,其在以下序列中以粗体大写字母示出。
Figure BDA0003286956470002661
使用核碱基编辑器以靶向突变
如本文所述,评估了靶向一个或多个突变的核碱基编辑器或多效应器核碱基编辑器的适宜性。在一个实施方式中,用碱基编辑系统与少量的编码报告基因(例如GFP)的载体一起转导单个目标细胞。这些细胞可以是被本领域已知的任何细胞系,包含永生化的人类细胞系,诸如293T,K562或U20S。或者,可以使用原代(例如人类)细胞。此种细胞可能与最终的细胞标靶有关。
可以使用病毒载体执行递送。在一个实施方式中,可使用脂质转染(例如Lipofectamine试剂或Fugene试剂)或通过电穿孔执行转染。转染后,可以通过荧光显微镜或流式细胞术确定GFP的表达,以确认一致且高水平的转染。这些初步的转染可以包括不同的核碱基编辑器,以确定哪些编辑器的组合给出最大的活性。
如本文所述评估了所述核碱基编辑器的活性,即,通过对细胞的基因组测序以检测标靶序列中的改变。为了Sanger测序,将纯化的PCR扩增子克隆到质粒主干中、进行转化、使用miniprep(方法或试剂盒)小量制备并使用单个引物测序。测序也可以使用下一代测序技法来进行。当使用下一代测序时,扩增子可能为300-500bp,而其预期的切割位点为不对称安插的。PCR之后,可以将下一代测序的接头和索引序列条码(例如Illumina多重接头和索引)添加至扩增子的末端,例如用于高通量测序(例如在Illumina MiSeq系统上)
可以选择在初始测试中诱导了最高水平的标靶特异性改变的融合蛋白,以供进一步评估。
在特定实施方式中,所述核碱基编辑器或多效应器碱基编辑器用于靶向目标多核苷酸。在一个实施方式中,将本发明的核碱基编辑器或多效应器碱基编辑器与与向导RNA一起递送到细胞(例如,造血细胞或其祖细胞、造血干细胞和/或诱导的多能干细胞)中,该向导RNA用于靶向细胞基因组内的目标突变,从而改变所述突变。在一些实施方式中,碱基编辑器被向导RNA靶向以对目标基因的序列引入一个或多个编辑。
在一个实施方式中,核碱基编辑器或多效应器核碱基编辑器用于靶向调节序列,包含但不限于剪接位点、增强子和转录调节元件。然后使用本领域已知的任何方法测定所述改变对受该调节元件控制的基因的表达的影响。
在其他实施方式中,本发明的核碱基编辑器或多效应器核碱基编辑器用于靶向编码互补决定区(CDR)的多核苷酸,从而在表达出的CDR中产生改变。然后,例如通过测量CDR与其抗原的特异性结合,来测定这些改变对CDR功能的影响。
在其他实施方式中,本发明的多效应器核碱基编辑器用于靶向生物体的基因组内的目标多核苷酸。在一个实施方式中,将本发明的多效应器核碱基编辑器与向导RNA文库一起递送到细胞中,该向导RNA文库用于铺到细胞基因组内的各种序列上,从而系统地改变整个基因组中的序列。
该系统可以包括一个或多个不同的载体。在一个方面,该碱基编辑器是密码子优化过的以供在期望的细胞类型中表达,优选真核细胞,优选哺乳动物细胞或人类细胞。
一般而言,密码子优化是指为了在目标宿主细胞中增强的表达而修饰核酸序列的过程,其通过用在该宿主细胞的各基因中更频繁或最频繁使用的密码子取代了所述原生序列的至少一个密码子(例如,约或多于约1、2、3、4、5、10、15、20、25、50、或更多个密码子)并且同时维持了原生的氨基酸序列。各种物种对特定氨基酸的某些密码子展现出特定的偏移。密码子偏倚(生物体之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关,而信使RNA的翻译效率又被认为取决于被翻译密码子的特性和特定转移RNA(tRNA)分子的可得性等。细胞中所选定的tRNA的优势通常反映了肽合成中最常用的密码子。因此,可以基于密码子优化来定制基因以在给定生物体中以供最佳的基因表达。密码子使用表很容易获得,例如,在www.kazusa.orjp/codon/(于2002年7月9日访问)上可得的“密码子使用数据库”,并且这些表格可以通过多种方式加以调整。参见Nakamura、Y.等、“Codon usagetabulated from the international DNA sequence databases:status for the year2000”Nucl.Acids Res.28:292(2000)。用于密码子优化特定序列以供在特定宿主细胞中表达的计算机算法也是可得的,诸如Gene Forge平台(Aptagen公司;Jacobus,宾夕法尼亚州)。在一些实施方式中,编码工程化核酸酶的序列中的一个或多个密码子(例如1、2、3、4、5、10、15、20、25、50、或更多个,或所有密码子)对应于特定氨基酸的最常用的密码子。
包装细胞通常用于形成能够感染宿主细胞的病毒颗粒。此种细胞包含:包装腺病毒的293细胞,和包装逆转录病毒的psi.2细胞或PA317细胞。用于基因治疗的病毒载体通常是通过生产将核酸载体包装成病毒颗粒的细胞系来生成的。所述载体通常含有包装和后续整合到宿主中所需的最小限度的病毒序列,其他的病毒序列被以供待表达的一个或多个多核苷酸的表达框所取代。缺失的病毒功能通常由所述包装细胞系反式地提供。例如,用于基因治疗的AAV载体通常仅持有来自AAV基因组的ITR序列,该序列是包装和整合到宿主基因组中所需的。病毒DNA可以在细胞系中被包装,所述细胞系包含辅助者质粒,其编码其他AAV基因,即rep和cap,但欠缺ITR序列。该细胞系也可以用腺病毒作为辅助者而被感染。该辅助者病毒可以促进AAV载体的复制和来自辅助者质粒中的AAV基因的表达。在一些情况下,由于欠缺ITR序列,所述辅助者质粒没有被大量包装。腺病毒的污染可以被减低,例如,通过热处理(腺病毒对其比AAV更敏感)。
多效应器核碱基编辑器的应用
所述多效应器核碱基编辑器可用于靶向目标多核苷酸以产生可修饰蛋白质表达的改变。在一个实施方式中,多效应器核碱基编辑器用于修饰非-编码或调节序列,包含但不限于剪接位点、增强子和转录调节元件。然后使用本领域已知的任何方法测定所述改变对受该调节元件控制的基因的表达的影响。在一个特定的实施方式中,多效应器核碱基编辑器能够实质上地改变调节序列,从而废除其调节基因表达的能力。有利地,不同于其他RNA-可编程的核酸酶,这可以在基因组标靶序列中不生成双股断裂的情况下完成。
所述多效应器核碱基编辑器可用于靶向目标多核苷酸以产生可修饰蛋白质活性的改变。就突变诱发的情况而言,例如,与容易出错的PCR和其他基于聚合酶的方法相比,多效应器核碱基编辑器具有一些优势。因为本发明的多效应器核碱基编辑器在标靶区域中的多个碱基处产生改变,所以相对于由容易出错的PCR引入的突变(不太可能在蛋白质水平表达),此类突变更有可能在蛋白质水平表达,考虑到密码子中的单个核苷酸变化可能仍编码相同的氨基酸(例如,密码子简并性)。不同于容易出错的PCR,其诱导整个多核苷酸的随机改变,本发明的多效应器核碱基编辑器可用于靶向目标蛋白的小区域内或限定区域内的特定氨基酸。
在其他实施方式中,本发明的多效应器核碱基编辑器用于靶向生物体基因组内的目标多核苷酸。在一个实施方式中,该生物体是微生物组中的细菌(例如,拟杆菌门,疣微菌门,厚壁菌门;γ-变形菌纲,α-变形菌纲,拟杆菌纲,梭菌纲,丹毒丝菌纲,芽孢杆菌纲;肠杆菌目,拟杆菌目,疣微菌目,梭菌目,丹毒丝菌目,乳杆菌目;肠杆菌科,拟杆菌科,丹毒丝菌科,普雷沃氏菌科,红蝽菌科,和产碱菌科;埃希氏菌属,拟杆菌属,理研菌科的Alistipes(另枝菌)属,疣微菌科的Akkermansia(阿克曼)属,梭菌属,乳杆菌属)。在另一个实施方式中,该生物体是农业上重要的动物(例如奶牛,绵羊,山羊,马,鸡,火鸡)或植物(例如大豆,小麦,玉米,水稻,烟草,苹果,葡萄,桃子,李子,樱桃)。在一个实施方式中,将本发明的多效应器核碱基编辑器与向导RNA文库一起递送到细胞中,该向导RNA文库用于铺到细胞的基因组内的各种序列上,从而系统地改变整个基因组中的序列。
可以在各种蛋白质的任何一个中制造突变,以促进结构功能分析或改变该蛋白质的内源活性。可以在,例如酶(例如,激酶,磷酸酶,羧化酶,磷酸二酯酶)中或在酶底物中,在受体或其配体中,以及在抗体及其抗原中制造突变。在一个实施方式中,多效应器核碱基编辑器靶向编码该酶的活性位点的核酸分子,编码该受体的配体结合位点的核酸分子,或编码抗体的互补决定区(CDR)的核酸分子。对于酶而言,在活性位点诱导突变可能会增加、降低或废除该酶的活性。突变对酶的影响在酶活性测定中被表征,该测定包含本领域已知和/或对本领域技术人员显而易见的一些测定中的任何测定。对于受体而言,在配体结合位点制造的突变可能会增加、减少或废除受体对其配体的亲和力。此类突变的影响在受体/配体结合测定法中被测定,该测定法包含本领域已知和/或对本领域技术人员显而易见的一些测定法中的任何测定。对于CDR而言,在CDR内制造的突变可增加、减少或废除与抗原的结合。此外,在CDR内制造的突变可改变抗体对抗原的特异性。然后例如通过测量该CDR与其抗原的特异性结合或在任何其他类型的免疫测定中测定这些改变对CDR功能的影响。
药物组合物
本公开披露的其他方面涉及药物组合物,其包括本文所述的任何碱基编辑器、融合蛋白或融合蛋白-向导多核苷酸复合体。在一些实施方式中,该药物组合物进一步包括药学上可接受的载体。在一些实施方式中,该药物组合物包括另外的试剂(例如,用于特异性递送的、增加半衰期的或其他治疗性的化合物)。
适合的药学上可接受的载体通常包括惰性物质,其有助于将药物组合物施用于受试者,有助于将药物组合物加工成可递送的制品,或有助于在给药前储存药物组合物。药学上可接受的载体可以包含能够稳定、优化或以其他方式改变制剂的形式、稠度、粘度、pH、药代动力学、溶解度的剂。
可以充当药学上-可接受的载体的材料的一些非限制性例子包括:(1)糖,诸如乳糖,葡萄糖和蔗糖;(2)淀粉,诸如玉米淀粉和马铃薯淀粉;(3)纤维素及其衍生物,诸如羧甲基纤维素钠,甲基纤维素,乙基纤维素,微晶纤维素和乙酸纤维素;(4)黄芪粉;(5)麦芽;(6)明胶;(7)润滑剂,诸如硬脂酸镁,月桂基硫酸钠和滑石;(8)赋形剂,诸如可可脂和栓剂蜡;(9)油,诸如花生油,棉籽油,红花油,芝麻油,橄榄油,玉米油,大豆油等;(10)二醇,诸如丙二醇;(11)多元醇,诸如甘油,山梨糖醇,甘露糖醇和聚乙二醇(PEG);(12)酯,诸如油酸乙酯和月桂酸乙酯;(13)琼脂;(14)缓冲剂,诸如氢氧化镁和氢氧化铝;(15)海藻酸;(16)无热原水;(17)等渗生理盐水;(18)林格式溶液;(19)乙醇;(20)pH缓冲溶液;(21)聚酯,聚碳酸酯和/或聚酐;(22)填充剂,诸如多肽和氨基酸;(23)血清醇,诸如乙醇;以及(23)药物制剂中使用的其他无毒相容性物质。制剂中也可以存在:缓冲剂、润湿剂、乳化剂、稀释剂、包封剂、皮肤渗透促进剂、着色剂、脱模剂、包衣剂、甜味剂、调味剂、加香剂、防腐剂和抗氧化剂也可以存在于制剂中。例如,载体可包含但不限于盐水、缓冲盐水、右旋葡萄糖、精氨酸、蔗糖、水、甘油、乙醇、山梨糖醇、葡聚糖、羧甲基纤维素钠及其组合。
药物组合物可以包括一种或多种pH缓冲化合物,以将制剂的pH维持在反映生理pH的预定水平,诸如在约5.0至约8.0的范围内。用于水性液体制剂的pH缓冲化合物可以是氨基酸或氨基酸混合物,诸如组氨酸,或诸如组氨酸和甘氨酸的氨基酸混合物。或者,该pH缓冲化合物优选地是将制剂的pH维持在预定水平,诸如在约5.0至约8.0的范围内,并且不螯合钙离子的剂。此种pH缓冲化合物的说明性实例包含,但不限于,咪唑和乙酸根离子。该pH缓冲化合物能以适合将制剂的pH维持在预定水平的任何数量存在。
药物组合物亦可含有一种或多种渗透调节剂,即,将该制剂的渗透特性(例如,张性,渗透度和/或渗透压)调节至接收者个体的血流和血细胞可接受的水平的化合物。该渗透调节剂可以是不螯合钙离子的剂。该渗透调节剂可以是本领域技术人员已知或可获得的可调节制剂的渗透特性的任何化合物。本领域技术人员可以凭经验确定给定的渗透调节剂用于本发明制剂的适用性。适合类型的渗透调节剂的说明性实例包含但不限于:盐,诸如氯化钠和乙酸钠;糖,诸如蔗糖,右旋葡萄糖和甘露醇;氨基酸,诸如甘氨酸;以及这些剂和/或剂类型中的一种或多种的混合物。该一种或多种渗透调节剂能以足以调节制剂的渗透特性的任何浓度存在。
在一些实施方式中,将药物组合物配制成用于递送至受试者,例如用于基因编辑。在一些实施方式中,本文所预期的药物组合物的施用可以使用传统技法进行,包含但不限于输液、移注或非消化道给药。在一些实施方式中,非消化道给药包含:血管内、静脉内、肌肉内、动脉内、鞘内、肿瘤内、皮内、腹膜内、经气管、皮下、透皮、关节内、囊下、蛛网膜下和胸骨内的输液或注射。在一些实施方式中,施用本文所述药物组合物的适合途径包含但不限于:局部,皮下,穿皮,皮内,病灶内,关节内,腹膜内,膀胱内,经粘膜,牙龈,齿内,耳蜗内,鼓室内,器官内,硬脊膜外,鞘内,肌肉内,静脉内,血管内,骨内,眼周,肿瘤内,脑内和脑室内给药。
在一些实施方式中,本文所述的药物组合物是局部施用于疾病位置(例如,肿瘤位置)。在一些实施方式中,本文所述的药物组合物是通过注射,通过导管的方法,通过栓剂的方法,或通过植入物的方法而施用于受试者,该植入物为多孔,无孔,或凝胶状的材料,其包含膜,诸如硅橡胶膜,或纤维。
在其他实施方式中,本文所述的药物组合物以控释系统递送。在一个实施方式中,可以使用泵(参见例如,Langer,1990,Science 249:1527-1533;Sefton,1989,CRCCrit.Ref.Biomed.Eng.14:201;Buchwald等,1980,Surgery 88:507;Saudek等,1989,N.Engl.J.Med.321:574)。在另一个实施方式中,可以使用聚合物材料(参见例如MedicalApplications of Controlled Release(Langer和Wise编,CRC出版社,Boca Raton,Fla,1974);Controlled Drug Bioavailability,Drug Product Design and Performance(Smolen和Ball编,Wiley,New York,1984);Ranger和Peppas,1983,Macromol.Sci.Rev.Macromol.Chem.23:61。亦参见Levy等,1985,Science 228:190;During等,1989,Ann.Neurol.25:351;Howard等,1989,J.Neurosurg.71:105)。讨论了其他的控释系统,例如,前述在Langer的论文中。
在一些实施方式中,根据常规程序将该药物组合物配制为适于静脉内或皮下给药给受试者(例如人)的组合物。在一些实施方式中,用于注射给药的药物组合物是在溶液中,该溶液是无菌等渗的并用作增溶剂和局部麻醉剂(诸如利多卡因以减轻注射位置的疼痛)。通常,将各成分要么分开提供,要么以单位剂型混合在一起提供,例如,作为干燥的冻干粉或无水浓缩物,其在标示有活性剂数量的气密密封容器诸如安瓿瓶或小药囊中。如果通过输液方式给药,可以将其分装到含有无菌药物级水或生理盐水的输液瓶中。如果通过注射施用该药物组合物,可以提供一安瓿瓶的无菌注射用水或生理盐水,以便可以在施用之前将各成分混合。
用于全身给药的药物组合物可以是液体,例如无菌生理盐水、乳酸林格氏液或Hank's溶液。另外,该药物组合物可以是固体形式,并且在使用前立即重新溶解或重新悬浮。亦检视了冻干形式。该药物组合物可以被容纳在脂质颗粒或囊泡内,诸如脂质体或微晶,其也适合于非消化道给药。该微粒可以为任何适合的结构,诸如单层或多层,只要其中容纳组合物即可。可以将化合物截留到“稳定化的质粒-脂质微粒”(SPLP)中,该微粒含有致融类脂质二油酰基磷脂酰乙醇胺(DOPE),低水平(5-10摩尔百分比)的阳离子脂质,并由聚乙二醇(PEG)涂层使其稳定化(Zhang Y.P.等,Gene Ther.1999,6:1438-47)。带正电荷的脂质,诸如N-[l-(2,3-二油酰基氧基)丙基]-N,N,N-三甲基-甲基硫酸铵,或“DOTAP”,对于此类微粒和囊泡是特别优选的。此种脂质微粒的制备是众所周知的。参见例如,美国专利号4,880,635;4,906,477;4,911,928;4,917,951;4,920,016;和4,921,757;其每个都通过引用并入本文。
例如,本文所述的药物组合物可以作为单位剂量予以施用或包装。当用于指代本公开披露的药物组合物时,术语“单位剂量”是指适合作为受试者的统一单元剂量的物理上离散的单位,而每个单位含有经计算可产生期望的治疗效果的预定数量的活性物质与相关联的所需的稀释剂;即载体或媒介物。
此外,可以将该药物组合物作为药物试剂盒提供,其包括(a)含有冻干形式的本发明的化合物的容器,和(b)含有药学上可接受的稀释剂(例如无菌的,用于重构或稀释冻干的本发明的化合物的)的第二容器。可选的伴随此种一个或多个容器的可以是由规范药品或生物产品的制造、使用或销售的政府机构所规定的形式的行政命令,该行政命令反映了该机构对此用于人体给药的试剂盒制造、使用或出售的批准。
在另一方面,包含一种制品,其含有可用于治疗上述疾病的材料。在一些实施方式中,该制品包括容器和标签。适合的容器包含例如瓶子,小药瓶,注射器和试管。该容器可以由各种材料形成,诸如玻璃或塑料。在一些实施方式中,该容器容纳有效治疗本文所述疾病的组合物,并且可以具有无菌的存取口。例如,该容器可以是静脉注射溶液袋或具有可被皮下注射针刺穿的塞子的小药瓶。该组合物中的活性剂是本发明的化合物。在一些实施方式中,容器上的或与容器相关联的标签表明了该组合物用于治疗所选的疾病。该制品可以进一步包括第二容器,其包括药学上可接受的缓冲液,诸如磷酸盐缓冲生理盐水,林格氏溶液,或右旋葡萄糖溶液。从商业和使用者的角度来看,它还可以进一步包含其他材料,包含其他缓冲液,稀释剂,过滤器,针头,注射器和带有使用说明的包装插页。
在一些实施方式中,本文所述的任何融合蛋白、gRNA和/或复合体是作为药物组合物的一部分被提供。在一些实施方式中,该药物组合物包括本文所提供的任何融合蛋白。在一些实施方式中,该药物组合物包括本文提供的任何复合体。在一些实施方式中,该药物组合物包括核糖核蛋白复合体,其包括与gRNA和阳离子脂质形成复合体的RNA-导向的核酸酶(例如,Cas9)。在一些实施方式中,药物组合物包括gRNA,核酸可编程的DNA结合蛋白,阳离子脂质,和药学上可接受的赋形剂。药物组合物可以任选地包括一种或多种另外的治疗活性物质。
在一些实施方式中,将本文所提供的组合物施用给受试者,例如人类受试者,以在受试者体内实现靶向的基因组修饰。在一些实施方式中,细胞是获自于受试者,并与本文所提供的任何药物组合物接触。在一些实施方式中,可选地在细胞中已经实现或检测到所期望的基因组修饰之后,将从受试者体内取出并与药物组合物离体接触过的细胞重新-引入到受试者体内。递送包括核酸酶的药物组合物的方法是已知的,并且被描述,例如在美国专利号6,453,242;6,503,717;6,534,261;6,599,692;6,607,882;6,689,558;6,824,978;6,933,113;6,979,539;7,013,219;和7,163,824中,其公开披露的全部内容通过引用并入本文。尽管本文所提供的药物组合物的描述主要针对适合于施用给人的药物组合物,但是本领域技术人员应理解,此类组合物通常适合于给各种动物或生物体施用,例如,供兽医使用。
为了使该组合物适合于向各种动物给药,对适合于向人给药的药物组合物的修饰是众所周知的,并且一般技术的兽医药理学家可以仅通过普通的实验(如果有的话)来设计和/或执行此种修饰。预期被施用该药物组合物的受试者包含但不限于,人类和/或其他灵长类;哺乳动物,家养动物,宠物,和与商业有关的哺乳动物,诸如牛,猪,马,绵羊,猫,狗,小鼠和/或大鼠;和/或鸟类,包含商业相关的鸟类,诸如鸡,鸭,鹅和/或火鸡。
本文所述的药物组合物的制剂可以通过药理学领域中已知的或以后开发的任何方法来制备。通常,此种制备方法包含以下步骤:使一种或多种活性成分与赋形剂和/或一种或多种其他辅助成分相结合,然后,如果必要和/或期望,将产品成型和/或包装成为所需的单-剂量或多-剂量单位。药物制剂可另外包括药学上可接受的赋形剂,其如本文所用包含适用于所需特定剂型的任何的和所有的:溶剂,分散介质,稀释剂,或其他液体媒介物,分散或悬浮助剂,表面活性剂,等渗剂,增稠剂或乳化剂,防腐剂,固体粘合剂,润滑剂等。《Remington:药学的科学与实践》,第21版,A.R.Gennaro(Lippincott,Williams&Wilkins出版社,巴尔的摩,马里兰州,2006;其全部内容通过引用並入本文)揭示了用于配制药物组合物的各种赋形剂及其制备的已知技法。关于用于生产包括核酸酶的药物组合物的其他适合的方法、试剂、赋形剂和溶剂,亦请参见PCT申请PCT/US2010/055131(公开号WO2011/053982A8,2010年11月2日提交),其全部内容通过引用并入本文。
除非任何传统的赋形剂介质与某种物质或其衍生物不相容,诸如通过产生任何不良的生物学影响或以有害的方式与该药物组合物的任何其他组分相互作用,否则预期其使用范围是在本公开披露的范围之内。
如上所述的组合物可以用有效量给药。该有效量将取决于给药方式、所治疗的特定病症,和所期望的结果。它还可能取决于病症的阶段、受试者的年龄和身体状况、并行治疗的性质(如果有的话),以及医师所熟知的类似因素。对于治疗性的应用,它是足以达到医学上所期望结果的那个数量。
在一些实施方式中,依据本公开披露的组合物可用于治疗各种疾病,病症和/或病况中的任何一种。
试剂盒,载体,细胞
本公开披露的各个方面提供了包括碱基编辑器系统的试剂盒。在一个实施方式中,该试剂盒包括核酸构建体,该核酸构建体包括编码核碱基编辑器融合蛋白的核苷酸序列。该融合蛋白包括一个或多个脱氨酶结构域(例如胞苷脱氨酶和/或腺嘌呤脱氨酶)和核酸可编程的DNA结合蛋白(napDNAbp)。在一些实施方式中,该试剂盒包括至少一种能够靶向目标核酸分子的向导RNA。在一些实施方式中,该试剂盒包括核酸构建体,该核酸构建体包括编码至少一种向导RNA的核苷酸序列。在一些实施方式中,该试剂盒包括核酸构建体,其包括编码以下的核苷酸序列:(a)如本文所提供的与腺苷脱氨酶和/或胞苷脱氨酶融合的Cas9结构域;以及(b)驱动(a)的序列表达的异源启动子。
在一些实施方式中,所述试剂盒提供了使用该试剂盒编辑一个或多个突变的说明书。说明书通常包含关于使用该试剂盒编辑核酸分子的信息。在其他实施方式中,该说明书包含以下至少一项:注意事项;警告;临床研究;和/或参考文献。该说明书可以直接印在容器上(如果有),或者作为贴在容器上的标签,或者作为单独的纸张、小册子、卡片或文件夹提供在容器中或随容器提供。在进一步的实施方式中,试剂盒可以包括标签或单独插页(包装插页)形式的以供适合的操作参数的说明书。在又一个实施方式中,该试剂盒可以包括一个或多个容器,其具有合适的阳性和阴性对照或对照样品,以用作检测、校准或均一化的标准。该试剂盒可以进一步包括包括药学上可接受的缓冲液的第二容器,诸如(无菌的)磷酸盐-缓冲盐水、林格氏溶液或右旋葡萄糖溶液。它可以进一步包括从商业和用户的角度来看所期待的其他材料,包含其他缓冲液、稀释剂、过滤器、针头、注射器和带有使用说明书的包装插页。
本公开披露的一些方面提供了包括本文所提供的任何核碱基编辑器或多效应器核碱基编辑器或融合蛋白的细胞。在一些实施方式中,所述细胞包括本文所提供的任何核苷酸或载体。
除非另有说明,本发明的实践使用分子生物学(包含重组技法)、微生物学、细胞生物学、生物化学和免疫学的常规技法,其完全在本领域技术人员的知识范围内。这些技法在文献中有充分的解释,诸如“Molecular Cloning:A Laboratory Manual”,第二版(Sambrook,1989);“Oligonucleotide Synthesis”(Gait,1984);“Animal Cell Culture”(Freshney,1987);“Methods in Enzymology”“Handbook of Experimental Immunology”(Weir,1996);“Gene Transfer Vectors for Mammalian Cells”(Miller和Calos,1987);“Current Protocols in Molecular Biology”(Ausubel,1987);“PCR:The PolymeraseChain Reaction”,(Mullis,1994);“Current Protocols in Immunology”(Coligan,1991)。这些技法适用于本发明的多核苷酸和多肽的生产,因此,可以在制备和实践本发明时考虑这些技法。用于特定实施方式的特别有用的技法将在后面部分中讨论。
提出以下实施例以向本领域普通技术人员提供如何制备和使用本发明的测定、筛选和治疗方法的完整公开披露和描述,并非意图限制发明人所视其发明的范围。
实施例
实施例1:具有减低的DNA和RNA脱靶编辑的替代胞苷碱基编辑器
碱基编辑器是有前景的工具,其可以在不产生有害双股断裂的情况下逆转人类基因组中的致病点突变。然而,据报道,胞苷或腺嘌呤碱基编辑器(CBE或ABE)会引入数以万计的个全转录组范围的RNA假性突变。据报道,CBE而非ABE导致小鼠胚胎和植物中大量的全基因组的DNA假性突变。为了通过利用替代胞苷脱氨酶和结构-导向的突变诱发来减低由CBE引起的脱靶编辑,鉴别出了几种新的CBE,其包含从153种胞苷脱氨酶中筛选出的非人灵长类动物的CBE,该CBE与以前的CBE相比显示出改良的编辑设定。这些新的CBE及其突变体显示出最小的DNA和RNA假性脱氨反应。这些新的CBE(BE4-ppAPOBEC1 H122A、BE4-RrA3F、BE4-AmAPOBEC1、和BE4-SsAPOBEC2)是先前发表的CBE的替代品,并为有害的假性脱氨反应所引起的潜在副作用提供了解决方案。
所述正准的胞苷碱基编辑器(CBE)、碱基编辑器3(BE3)、BE4、和BE4max含有N末端胞苷脱氨酶大鼠APOBEC1(rAPOBEC1)。其他CBE也使用hAPOBEC3A、hAID、CDA1、和FENRY来执行胞苷的脱氨反应。
由于整体较高的编辑效率和相对较好的特异性,rAPOBEC1是CBE中使用最广泛的脱氨酶。然而,最近的报告显示,与未经处理的细胞相比,在经BE3处理过的小鼠胚胎细胞中鉴别出了多20倍的SNV。在经BE3处理过的水稻基因组(包含基因区域)中也检测到了C到T的假性突变。此外,两份报告揭示,在经BE3或BE4处理过样品的转录组中找到了数以万计的脱靶编辑。这些研究共同引发了对CBE在潜在治疗性应用中的安全性的担忧。所述在DNA或RNA水平的脱靶编辑不依赖于向导,并且与脱氨酶(而非Cas9)的内在特征相关。碱基编辑使用Cas9来搜索预期的标靶位点,然而,所述脱氨酶本身也独立地结合到ssDNA和ssRNA上。所述脱氨酶和Cas9之间的32个氨基酸的柔性链接子不太可能足以将所述脱氨酶完美地就定位为朝向其底物。由于脱氨酶被招募到所述Cas9标靶位点并且其局部浓度大大增加,因此与脱靶编辑相比,较低的结合亲和力可能足以进行在靶编辑。强大的ssDNA/ssRNA结合能力可能是在CBE身上所观察到的非导向的脱靶编辑的原因。有必要工程化现有的胞苷脱氨酶或找寻具有更有利的ssDNA结合和催化设定的新的脱氨酶。
据报道,像APOBEC3A这样的胞苷脱氨酶使用ssDNA而非dsDNA作为底物。当单股DNA在DNA复制或DNA转录的过程中变得短暂可接近时,有可能会发生基因组中的假性脱氨反应。除了劳动密集型的全基因组测序外,没有完善的用于假性脱氨反应的测定方法。因此,建立了高通量测定来评估不依赖于向导的ssDNA脱氨反应。化脓性链球菌Cas9/gRNA复合体用于在人类基因组中创建R-环,并将约20nt的Cas9标靶位点暴露为单股DNA。未被拴住的rAPOBEC1或Tad-TadA7.10被共-转染,并通过NGS测量标靶位点处的脱氨反应(图1A至1C)。令人惊讶的是,对于rAPOBEC1和TadA7.10单体或异二聚体,观察到了类似的顺/反比率,这与已发表的全基因组测序数据不一致。脱氨酶在ssDNA底物上反应的能力可能会随着该脱氨酶在碱基编辑器情境中与Cas9渐渐融合而被改变。结果,金黄色葡萄球菌Cas9/gRNA复合体用于在基因组标靶位点处创建R-环,并评估了来自完整碱基编辑器的反式活性(图2A)。在基于在三个标靶位点(位点1、位点4和位点6)上用本文所测试的C碱基编辑器进行的顺式/反式测定所生成的数据中,观察到了顺式/反式活性的差异(图2E和图2F)。在34个基因组位点所观察到的ABE7.10和BE4max的顺式/反式比率的差异(图3A和3B),表明这个顺式/反式测定可用作测量全基因组DNA假性脱氨反应的有效代用指标。
rAPOBEC1被工程化以减低ssDNA结合活性。基于现有hA3C晶体结构的rAPOBEC1同源模型被用于预测对ssDNA结合重要的15个突变和影响催化活性的8个突变(图4A和4B)。在顺式/反式测定中测试了所有23个突变,并鉴别出了7个高保真(HiFi)突变(R33A、W90F、K34A、R52A、H122A、H121A、Y120F),其在不损害顺式编辑的情况下减低了反式活性(图5A)。当装配了这些HiFi突变时,在一些标靶位点也观察到了具有较少旁观者编辑的狭窄编辑窗口(图5B)。两个残基(R128、W90)的突变已显示其与更狭窄的编辑窗口相关联。有趣的是,BE4max中的H122A突变也逆转了针对GC基序的偏倚(图5C)。对BE4的持续进化的研究导致了对GC基序的活性有所提高的编辑器,而H122L是所引入的5个突变之一。该H122残基可能是负责底物偏好变化的关键残基。一些研究显示,在rAPOBEC1区域装配某些突变(R33A、K34A、W90F)减低了CBE的RNA假性脱氨反应活性。由于ssDNA/ssRNA结合区域很可能在较大程度上重叠,所有这些结果显示,减低ssDNA/ssRNA结合的突变可用于减低假性DNA/RNA脱氨反应。
然而,所有具有HiFi突变的rAPOBEFC1都显示出顺式活性的整体下降。之前被报道称为假性RNA脱氨反应的解方的rAPOBEC1双突变体(K34A R33A、和W90A R126E),对于大多数被测试标靶位点显示出减少的在靶编辑,其阻止了它们在治疗性应用中的用处(图6A至6E)。rAPOBEC1 K34A H122A的表现优于rAPOBEC1 K34A R33A,但对于某些标靶位点所观察到的活性降低可达70%。带有Y130A和R28A突变的hA3A仍显示出高的反式活性,表明潜在的DNA脱靶编辑活动。
由于可用脱氨酶的突变诱发不能得到有效和安全的编辑器,因此调查了可能用于碱基编辑的替代脱氨酶。在对来自APOBEC1、APOBEC2、APOBEC3、APOBEC4、AID、CDA等表征过的胞苷脱氨酶家族的一些成员进行初步筛选后,鉴别出了APOBEC-样蛋白超家族。被测试的所有脱氨酶的氨基酸序列在表13中提供。三个APOBEC1(hAPOBEC1、ppAPOBEC1、mdAPOBEC1)显示出的高顺/反比例,并且都含有Y120F突变和在其他相应位置处的HiFi突变(图7A和7B)。另一方面,具有高的反式活性的脱氨酶(mAPOBEC1、maAPOBEC1、hA3A)都在这个位置处具有酪氨酸。具有ppAPOBEC1的BE4在被测试的30个标靶位点上全盘地表现出与rAPOBEC1相似的在靶活性(图8A至8C)。表14显示了所有被测试的标靶位点的DNA序列。ppAPOBEC1与rAPOBEC1共享68%的序列同一性,但与rAPOBEC1不同的是,ppAPOBEC1中的HiFi突变具有良好的耐受性。具有ppAPOBEC1突变体的CBE显示出期望的编辑设定(图8A至8C)。在十个标靶位点处的选定CBE的插入/缺失率显示于图16中。
表13.脱氨酶的氨基酸序列
Figure BDA0003286956470002801
Figure BDA0003286956470002811
Figure BDA0003286956470002821
Figure BDA0003286956470002831
Figure BDA0003286956470002841
Figure BDA0003286956470002851
Figure BDA0003286956470002861
Figure BDA0003286956470002871
Figure BDA0003286956470002881
Figure BDA0003286956470002891
Figure BDA0003286956470002901
Figure BDA0003286956470002911
Figure BDA0003286956470002921
Figure BDA0003286956470002931
Figure BDA0003286956470002941
Figure BDA0003286956470002951
Figure BDA0003286956470002961
Figure BDA0003286956470002971
Figure BDA0003286956470002981
表14.标靶位点的DNA序列.
Figure BDA0003286956470002982
Figure BDA0003286956470002991
从具有Pfam结构域的蛋白质(包含胞苷脱氨酶和ssDNA结合结构域)中生成了相似性网络(图9)。共选择了43种脱氨酶来代表含有来自第一轮筛选的大部分活性脱氨酶的簇。在这个选定的集合中,33种脱氨酶在至少1个标靶位点显示出可测量的活性,表明它们可用于建置功能性碱基编辑器。APOBEC1簇富含具有高反式活性的稳健的脱氨酶,而从APOBEC3*簇中挑选出的脱氨酶通常具有较少的顺式活性但具有高的顺式/反式比率(图2B)。在这些脱氨酶中,RrA3F(BEM3.14)、AmAPOBEC1(BEM3.31)和SsAPOBEC2(BEM3.39)显示出与rAPOBEC1相当的稳健的在靶编辑活性,以及大大提升的顺式/反式比率(图2C)。值得注意的是,BEM 3.14和BEM 3.39在GC标靶(TSP2)上显示出可接受的活性,而没有观察到任何来自rBE4的编辑。这些新的CBE是用于安全的基因组编辑的有前景的新工具。还通过选择定位于80个其他簇的中心的序列而执行了更广泛的筛选。但是这些脱氨酶中没有一个在碱基编辑器复合体中显示出任何活性。这项对胞苷脱氨酶超家族的系统性研究为选择用于不同用途的替代脱氨酶提供了指引。
对所选CBE的脱靶DNA和RNA编辑活性做了表征。从对碱基编辑器的剂量依赖性的研究中,鉴别出了顺式活性和反式活性在IC50数值上的显著差异(图10A和10B)。为了检查编辑器的不同的蛋白表达水平是否有助于顺式/反式编辑设定的变化,对用编辑器质粒转染的细胞执行了碱基编辑器mRNA和蛋白质的定量分析(图12A和12B;表15)。对于鉴别出的新CBE,其蛋白质表达水平并不显著低于rBE4。此外,HiFi突变K34A和H122A未引起碱基编辑器转录和翻译的显著变化。因此,所述顺式/反式编辑设定的变化源于脱氨酶的内在特征。
表15
Figure BDA0003286956470003001
执行了外显子组测序以评估假性RNA脱氨反应。有趣的是,ppAPOBEC1、RrA3F(BEM3.14)、AmAPOBEC1(BEM3.31)和SsAPOBEC2(BEM3.39)都显示C到T突变的SNV减低了超过20倍(图11)。特别是对于BEM3.14和BEM3.39,任何假性RNA脱氨反应都接近于背景水平且没有额外的突变诱发。转录组中选定区域的深度测序与外显子组测序数据是一致的(图13)。在预测的Cas9脱靶位点检查了DNA脱靶编辑。ppAPOBEC1、BEM3.14、和BEM 3.39的导向的脱靶活性与rAPOBEC1类似(图14)。由于导向的脱靶编辑的酶促机制与在靶编辑高度相似,因此预计脱氨酶的更替不太可能减低这些类型的脱靶编辑。另一方面,较低活性的CBE或具有HiFi突变的CBE则与较少的导向的脱靶编辑相关联。
为了评估假性DNA脱靶编辑,除了顺式/反式测定外,使用了对游离ssDNA的体外酶促测定,以解决对在Cas9所诱导的R-环中的底物可得性限制的担忧。细胞裂解物与单股寡核苷酸在37℃下温育30分钟。30分钟温育后,与新的CBE相比,使用rAPOBEC1所形成的编辑产物减少了约5倍(表16)。这表明rBE4对ssDNA具有异常高的活性,并支持在治疗性应用中寻找rAPOBEC1替代品的必要性。
表16
Figure BDA0003286956470003011
实施例2:非导向的DNA和RNA脱靶事件最小化的以及在靶活性高的下一代胞嘧啶碱基编辑器
不同于CRISPR-相关联的核酸酶基因方法,碱基编辑器(BE)不会造成双股DNA断裂,因此可以最小化不需要的编辑副产品(包含插入,缺失,易位,和其他大规模的染色体重排)的形成。胞嘧啶碱基编辑器(CBE)由与受损形式的Cas9(D10A)融合的胞嘧啶脱氨酶组成,所述Cas9(D10A)是与尿嘧啶糖基化酶抑制剂(UGI)的一个(BE3)或两个(BE4)单体拴在一起。通过形成尿嘧啶中间体,这个CBE结构能够将人类基因组DNA中的C·G碱基对转换为T·A碱基对。
尽管CBE在各种情境(例如水稻、小麦、人类细胞和细菌)中都能给出稳健的在靶DNA碱基编辑效率,但据报道,治疗具有高剂量碱基编辑器3(BE3)的细胞会导致DNA和细胞RNA中虽低但检测得到的假性胞嘧啶脱氨反应,其以非导向的方式发生,与所使用的sgRNA序列无关。具体地,在用BE3处理水稻时,出现了大量的全基因组的假性C到T的SNV,其高于背景值,并在基因区域富集。此外,在一项研究中评估了在小鼠胚胎中显微注射BE3而导致的假性DNA编辑事件,检测到的突变率为一千万个碱基中有一个突变。与未经处理的细胞相比,这导致了大约300个额外的单核苷酸变体(SNV)(Zuo,E.等,Science,364:289-292(2019))。虽然这个突变率是在小鼠和人类体细胞中自然发生的范围内,但此实施例描述了下一代CBE的开发,所述CBE在其在靶基因座处有效发挥功能,并具有相对于基础型碱基编辑器(含有rAPOBEC1的BE3/)的最小化的脱靶假性脱氨反应。鉴于其在治疗上的重要性,此类新CBE是特别有优势的。
由于DNA和RNA二者的脱靶脱氨反应事件都是由非导向的、独立于Cas9的脱氨反应事件所引起,因此这种不需要的编辑副产物可能是由胞嘧啶脱氨酶自身内在的ssDNA结合亲和力引起的。上述的正准的CBE碱基编辑器BE3含有N末端胞苷脱氨酶rAPOBEC1,该酶在哺乳动物、禽类和细菌细胞中表达时使DNA和RNA二者脱氨基。含有rAPOBEC-1的CBE(例如BE3、BE4、BE4-max)由于其整体高的在靶DNA编辑效率而被广泛使用;然而,现有的和/或工程化的脱氨酶可能提供类似的高的在靶DNA编辑效率,同时保留最小化的非导向的、脱氨酶依赖的脱靶设定。
实施例3:高通量测定以评估非导向的ssDNA脱氨反应
为了筛选广泛的下一代CBE候选者以获得优选的在靶和脱靶编辑设定,建立了一种高通量测定来评估非导向的ssDNA脱氨反应。虽然不预期受理论束缚,但rAPOBEC1可能是最有能力得以接触瞬时可得的ssDNA(其在DNA复制或转录过程中生成),特别是因为据报道基因组中的假性脱氨反应最常发生在基因组的高度转录区域(图17A)。因此,经由正交的SaCas9/sgRNA复合体所生成的二级R-环呈递此底物,进行了实验以模拟基因组ssDNA的可得性。对使用完全无伤的CBE在此ssDNA底物上进行的非导向的编辑的数量进行了量化(图17B)。在本文中,“顺式”活性是指在靶的DNA碱基编辑,而“反式”活性是指在所述二级SaCas9-诱导的R环中的碱基编辑,其中该碱基编辑器不受其自身sgRNA的引导,从而模拟了在小鼠和水稻中观察到的基因组中瞬时的、非导向的脱靶编辑事件。
使用经所述碱基编辑器BE4和ABE7.10处理过的细胞(“BE4和ABE7.10处理过的细胞”)评定了这种在靶和脱靶编辑评估测定的有效性和敏感性。据报道,用经BE3(具有rAPOBEC-1的CBE)而非ABE7.10处理过的细胞显示了基因组DNA中非导向的假性脱氨反应的增加。与这些发现一致的是,本文所述的测定还显示经BE4(具有rAPOBEC1)处理过的细胞比经ABE7.10处理过的细胞导致了高出很多水平的反式编辑(图17C和图17D)。用ABE7.10变体处理细胞导致在以反式测试的34个基因座中的16个基因座的A-变-G编辑是大于0.5%,而最高可达19%,上述结果证明了所述测定的灵敏度(图17D)。虽然不希望受理论束缚,但如本文所述的这种测定法的灵敏度可能归因于:(1)经由稳定的R-环对所述ssDNA底物的呈递,所述稳定的R-环是由附接了两个UGI启动子的催化受损的Sa-Cas9切口酶(Sa-Cas9(D10A)-UGI-UGI)所生成的;和(2)通过Illumina扩增子序列(每个样品有至少5000个短读序)对脱氨反应事件的测量。
这种细胞测定首先用于测试脱氨酶的突变诱发是否能够用于减低反式活性,其已被指出是减低RNA脱靶编辑和旁观者编辑的一种手段。利用rAPOBEC1的同源模型(图4A和图4B),基于hA3C晶体结构鉴别出预计对ssDNA结合重要的15个残基和预计会影响催化活性的8个残基(共23个残基)。通过对23个残基的突变诱发,鉴别出7个减低了反式活性的高保真(HiFi)突变(即R33A、W90F、K34A、R52A、H122A、H121A、Y120F)。然而,具有单或双HiFi突变的BE4(其含有rAPOBEC1)导致细胞中要么有一些反式活性的保留,要么顺式活性显著降低(图20和图21)。
实施例4:筛选以鉴别下一代CBE
执行了筛选以调查可用于胞嘧啶碱基编辑的替代胞苷脱氨酶。
首先使用了对CBE的初步筛选以搜寻和鉴别下一代CBE,所述用于初步筛选的CBE是来自被明确表征的家族,其包含APOBEC1、APOBEC2、APOBEC3、APOBEC4、AID、CDA等。三种APOBEC1(即、hAPOBEC1、PpAPOBEC1、MdAPOBEC1)在选定位点处显示了高的顺式/反式比率(图22A)。值得注意的是,被检视的几种APOBEBC1与rAPOBEC1的一级序列对比揭示了位置120处的共同的苯丙氨酸替换(图22B),其为通过执行结构-导向的突发诱变(rAPOBEC1中的Y120)而鉴别出的突变。相反地,含有产出高反式活性的脱氨酶的BE4构建体(即,rAPOBEC1、mAPOBEC1、maAPOBEC1、hA3A)都在这个位置含有酪氨酸(图22B)。这一观察结果支持了HiFi突变的所述预测功能,并可能解释了这两组胞苷脱氨酶的不同行为。含有PpAPOBEC1脱氨酶的BE4变体(68%序列辨认为rAPOBEC1)显示出与BE4相当的在靶DNA活性和降低了2.3倍的反式活性(图23)。具有包含H122A突变或R33A突变的PpAPOBEC1的BE4也显示出理想的编辑设定(图23),其各自,与具有rAPOBEC1的BE4的活性相比,具有0.75倍和0.74倍的平均顺式活性,以及减低了33倍和13倍的平均反式活性。因此,具有PpAPOBEC1的BE4被鉴别为第一轮筛选的优选CBE候选者。
之后,对具有广泛序列多样性的43种APOBEC-样胞苷脱氨酶执行了彻底的筛选(图2C)。使用hAPOBEC1作为查询序列进行了蛋白质BLAST,以生成具有前1000个序列的序列相似性网络(SSN),从而能够选择具有广泛序列多样性的胞嘧啶脱氨酶。得自这次筛选活动,三个构建体(即具有RrA3F、AmAPOBEC1、或SsAPOBEC2的BE4)显示出的稳健的在靶DNA编辑活性,其各自,与BE4(具有rAPOBEC1)的活性相比,具有1.05倍、0.71倍、和0.91倍的平均顺式活性,以及减低了2.3倍、13.5倍、和6.1倍的平均反式活性(图18以及图24、图25和图26)。值得注意的是,具有RrA3F或SsAPOBEC2的BE4构建体在BE4(具有rAPOBEC1)未能良好编辑的GC标靶位点处显示出相对较高的编辑频率(图24)。此外,观察到使用这些编辑器进行顺式和反式编辑的编辑窗口的变动(图25)。最后,再次扩大筛选范围以询问来自其他蛋白质家族的80种推定胞苷脱氨酶的新集合;然而,这些脱氨酶中没有一个在所测试的位点处在BE4情境中显示大于0.5%的编辑效率。
BE4编辑器通过合理的突变诱发被进一步优化(具有RrA3F、AmAPOBEC1、或SsAPOBEC2)(图20和图21)。将来自rAPOBEC1研究(图27A至27D)合理设计的HiFi突变装配到这四个BE4编辑器中。两个突变体(RrA3F F130L和SsAPOBEC2 R54Q)表现出进一步改善的编辑设定(图18以及图25和26),其各自,与含有rAPOBEC1的BE4的活性相比,具有1.03倍和0.90倍的平均顺式活性,以及降低了3.8倍和19.2倍的平均反式活性。基于这些研究和结果,这些工程化的替代脱氨酶BE4构建体提供了高的顺式编辑活性加上减低的反式编辑活性。
实施例5:BE4编辑器脱靶编辑的评估
手头已有的所述下一代CBE的一个子集[即,具有PpAPOBEC1(wt、H122A或R33A)、RrA3F(wt)、AmAPOBEC1(wt)、SsAPOBEC2(wt)的BE4]被评估以进一步表征它们的脱靶RNA活性。据报道,基于-质粒的含有rAPOBEC1的BE3的过表达诱导了“广泛的全转录组范围的RNA胞嘧啶脱氨反应”(Grunewald,J.等,Nature,569:433-437(2019))。鉴于这一发现,本文所描述的下一代CBE在类似的测定中被评估(同上)。有利的是,与具有rAPOBEC1的BE4相比,所测试的所有六种下一代BE4均显示了减低20倍的C-变-U编辑(图19A)。值得注意的是,用含有RrA3F或SsAPOBEC2的BE4处理细胞,会导致C-变-U编辑的频率与单独用nCas9(D10A)处理过的细胞相当。此外,所述转录组中选定区域的深度-测序分析揭示了与全转录组测序数据一致的C-变-U编辑结果(图19B)。综合考虑,这些结果表明,与含有rAPOBEC1的BE3或BE4相比,所述下一代CBE在所述细胞转录组中提供了减低的假性脱氨反应。
还评估了与3个SpCas9 sgRNA相关联的已知Cas9脱靶基因座处的向导-依赖的DNA脱靶编辑。发现具有PpAPOBEC1的BE4的向导-依赖的脱靶活性与具有rAPOBEC1的BE4的活性相似(图19C和图28A至28D)。值得注意的是,一些下一代CBE对至少一种所测试的sgRNA显示出减低的向导-依赖的脱靶编辑,并且上文所述的HiFi突变也减低了向导-依赖的脱靶编辑效率(图19C和图28A至28D)。举例来说,在三个最密集编辑的脱靶位点(即、Hek2、位点1;Hek3、位点3;Hek4、位点1)处,用含有AmAPOBEC1的BE4处理过的细胞,与具有rAPOBEC1的BE4相比,各自产生了至少减低18.8、26.7和3.3倍的向导-依赖的脱靶编辑(图19C)。值得注意的是,在这三个位点,具有PpAPOBEC1 H122A的BE4的向导-依赖的脱靶编辑,比具有PpAPOBEC1的BE4,减低了3倍还多,而在靶编辑则未观察到降低(图19)。这些数据和结果表明,与含有rAPOBEC1的BE4相比,所述下一代CBE可以给出更有利的或等效的导向的脱靶编辑设定。此外,为了验证由所述的下一代CBE产生的碱基编辑结果不是由于编辑器表达的差异,对用所述的下一代CBE和BE4转染的细胞生产的蛋白质数量进行了量化。发现下一代CBE的蛋白水平与观察到的对BE4所观察到的数量是相当的。
为了检视编辑器的不同蛋白表达水平是否有助于顺式/反式编辑设定的变化,对用编辑器质粒转染的细胞执行了碱基编辑器mRNA和蛋白的量化分析(图30)。结果表明,像K34A和H122A这样的HiFi突变不会导致碱基编辑器转录和翻译发生显著变化。对于如所述的被表征的四个新CBE中的每一个,其蛋白表达水平并不显著低于BE4-rAPOBEC1(图30)。不希望受理论束缚,顺式/反式编辑设定的所述变化是源于脱氨酶的内在特征。
为了对非导向的DNA脱靶编辑执行二次评估,开发了一种利用游离的合成ssDNA和CBE蛋白的体外测定,作为对上述顺式/反式测定所得结果的进一步验证。从细胞中收获了含有碱基编辑器蛋白的总细胞裂解物并标准化,并与两种合成的寡核苷酸(寡/oligo)混合,所述寡核苷酸在无胞嘧啶接头之间含有11或13个胞嘧啶而涵盖了所有NC基序。在此测定中,六种下一代CBE编辑器的C-变-U编辑效率平均显示为1.0-3.4%,而具有rAPOBEC1的BE4的C-变-U平均值为9.4%(数据横跨两个底物内所含有的所有24个C)(图19D和图29)。
通过执行时间-进程测定,进一步支持了具有rAPOBEC1的BE4的本文相对于所述下一代CBE的增加的ssDNA编辑活性,在所述测定中具有rAPOBEC1的BE4的绝对水平和表观的脱氨反应速率均大于所述的下一代CBE(图19E)。在时间-进程所述测定中,与上面所述的下一代CBE相比,具有rAPOBEC1的BE4在5分钟时观察到的含有C-变-U的ssDNA多出12至37倍,而在6小时的时刻所形成的产物多出2.2至9.6倍(图19E)。
在所述研究中和图19D及图19E中所使用的寡核苷酸的DNA序列在下面呈现的表17中列出。用于导向的脱靶的引物和用于被靶向的RNA-seq的引物分别是如同由Tsai,S.Q.等,(Nat Biotechnol,33:187-197(2015))和Rees,H.A.等,(Sci Adv,5,eaax5717(2019))中所报道的。用于体外测定的寡核苷酸(下划线表示接头序列;*表示硫代磷酸酯键):
寡核苷酸1(图19D):
Figure BDA0003286956470003071
寡核苷酸2(图19D):
Figure BDA0003286956470003072
寡核苷酸3(图19E):
Figure BDA0003286956470003073
表17:HTS引物:
Figure BDA0003286956470003074
Figure BDA0003286956470003081
Figure BDA0003286956470003091
表18中提供了下述实施例(实施例2-5)中所用的sgRNA的多核苷酸序列。导向的脱靶的标靶位点和用于被靶向的RNA-seq的标靶位点是如实施例5中所述。
化脓链球菌SgRNA支架:
GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC
金黄色葡萄球菌SgRNA支架:
GUUUUAGUACUCUGUAAUGAAAAUUACAGAAUCUACUAAAACAAGGCAAAAUGCCGUGUUUAUCUCGUCAACUUGUUGGCGAGA
表18
Figure BDA0003286956470003092
Figure BDA0003286956470003101
上文实施例2-5中所述研究中所示的用于核心CBE的哺乳动物表达质粒的DNA序列如下所示。出于BE4-rAPOBEC1的脱氨酶序列用下划线标出。对于其他构建体,只显示了脱氨酶序列,因为骨干序列是相同的。
BE4-rAPOBEC1
Figure BDA0003286956470003102
Figure BDA0003286956470003111
Figure BDA0003286956470003121
BE4-PpAPOBEC1
ATGACCTCTGAGAAGGGCCCTAGCACAGGCGACCCCACCCTGCGGCGGAGAATCGAGAGCTGGGAGTTCGACGTGTTCTACGACCCTAGAGAACTGAGAAAGGAAACCTGCCTGCTGTACGAGATCAAGTGGGGCATGAGCAGAAAGATCTGGCGGAGCTCTGGCAAGAACACCACCAACCACGTGGAAGTGAATTTCATCAAGAAGTTCACCAGCGAGAGAAGGTTCCACAGCAGCATCAGCTGCAGCATCACCTGGTTCCTGAGCTGGTCCCCTTGCTGGGAATGCAGCCAGGCCATCAGAGAGTTCCTGAGCCAACACCCCGGAGTGACACTGGTGATCTACGTGGCCAGACTGTTCTGGCACATGGACCAGAGAAACAGACAGGGCCTGAGAGATCTGGTCAACAGCGGCGTGACTATCCAGATCATGCGGGCCAGCGAGTACTACCACTGTTGGCGGAACTTCGTGAACTACCCCCCCGGCGATGAGGCCCACTGGCCTCAGTACCCTCCTCTGTGGATGATGCTGTACGCCCTGGAACTGCACTGCATCATCCTGTCTCTGCCTCCATGTCTGAAGATCTCTAGAAGATGGCAGAACCACCTGGCCTTCTTCAGACTGCACCTGCAGAATTGCCACTACCAGACCATCCCCCCCCACATCCTGCTGGCTACAGGCCTGATCCACCCTTCTGTGACCTGGAGA
BE4-RrA3F
ATGAAGCCCCAGATCAGGGACCACCGCCCCAATCCTATGGAGGCCATGTACCCTCACATCTTCTATTTTCACTTCGAGAACCTGGAGAAGGCCTACGGCCGGAATGAGACCTGGCTGTGCTTTACAGTGGAGATCATCAAGCAGTATCTGCCAGTGCCCTGGAAGAAGGGCGTGTTCCGGAACCAGGTGGATCCAGAGACCCACTGCCACGCCGAGAAGTGTTTTCTGTCCTGGTTCTGTAACAATACACTGTCTCCCAAGAAGAATTACCAGGTGACCTGGTATACAAGCTGGTCCCCTTGCCCAGAGTGTGCAGGAGAGGTGGCAGAGTTTCTGGCAGAGCACAGCAACGTGAAGCTGACCATCTACACAGCCCGGCTGTACTATTTCTGGGACACCGATTATCAGGAGGGCCTGAGATCTCTGAGCGAGGAGGGCGCCTCCGTGGAGATCATGGACTACGAGGATTTTCAGTATTGCTGGGAGAACTTCGTGTACGACGATGGCGAGCCTTTTAAGAGGTGGAAGGGCCTGAAGTATAATTTCCAGTCTCTGACACGGAGACTGCGCGAGATCCTGCAG
BE4-AmAPOBEC1
ATGGCCGACAGCTCCGAGAAGATGAGGGGCCAGTACATCAGCCGCGACACCTTTGAGAAGAATTATAAGCCCATCGATGGCACAAAGGAGGCCCACCTGCTGTGCGAGATCAAGTGGGGCAAGTACGGCAAGCCTTGGCTGCACTGGTGTCAGAATCAGCGGATGAACATCCACGCCGAGGACTATTTCATGAACAATATCTTTAAGGCCAAGAAGCACCCTGTGCACTGCTACGTGACCTGGTATCTGTCTTGGAGCCCATGCGCCGATTGTGCCTCCAAGATCGTGAAGTTCCTGGAGGAGCGGCCCTACCTGAAGCTGACCATCTATGTGGCCCAGCTGTACTATCACACAGAGGAGGAGAATAGGAAGGGCCTGCGGCTGCTGCGGAGCAAGAAAGTGATCATCCGCGTGATGGACATCTCCGATTACAACTATTGCTGGAAGGTGTTCGTGTCTAACCAGAATGGCAACGAGGACTACTGGCCACTGCAGTTTGATCCCTGGGTGAAGGAGAATTATTCTCGGCTGCTGGATATCTTCTGGGAGTCCAAGTGTAGATCTCCCAACCCTTGGBE4-SsAPOBEC2
ATGGACCCACAGAGGCTGCGCCAGTGGCCCGGCCCTGGCCCAGCAAGCAGGGGCGGCTACGGCCAGCGGCCAAGAATCAGGAACCCCGAGGAGTGGTTTCACGAGCTGTCTCCCCGGACCTTCAGCTTTCACTTCCGCAACCTGAGGTTCGCATCCGGCCGCAATCGGTCTTATATCTGCTGTCAGGTGGAGGGCAAGAACTGCTTCTTTCAGGGCATCTTTCAGAATCAGGTGCCACCTGACCCACCATGCCACGCAGAGCTGTGCTTCCTGTCTTGGTTCCAGAGCTGGGGCCTGTCCCCCGATGAGCACTACTATGTGACATGGTTTATCTCTTGGAGCCCTTGCTGTGAGTGTGCCGCCAAGGTGGCCCAGTTCCTGGAGGAGAACCGCAACGTGAGCCTGTCTCTGAGCGCCGCAAGGCTGTACTATTTCTGGAAGTCCGAGTCTAGAGAGGGACTGCGGAGACTGAGCGACCTGGGAGCACAAGTGGGAATCATGTCCTTTCAGGATTTCCAGCACTGCTGGAACAATTTTGTGCACAACCTGGGCATGCCCTTCCAGCCTTGGAAGAAGCTGCACAAGAATTACCAGAGGCTGGTGACCGAGCTGAAGCAGATCCTGCGCGAGGAGCCTGCCACATATGGCTCTCCACAGGCCCAGGGCAAGGTGAGAATCGGAAGCACCGCAGCAGGACTGAGGCACAGCCACTCCCACACACGCTCCGAGGCACACCTGAGGCCTAACCACAGCTCCAGACAGCACAGGATCCTGAATCCTCCACGGGAGGCCAGAGCCAGGACCTGCGTGCTGGTGGATGCCTCTTGGATCTGTTACAGA
实施例2至5中所述的实验描述了对暴露的ssDNA具有减低活性的替代性下一代脱氨酶,所述对暴露的ssDNA具有减低活性的特性对于碱基编辑器治疗性应用的有益性和有效性是尤其重要的。
提供了具有最小化非-导向的RNA和DNA脱靶编辑的新的下一代CBE,其通过对多种序列多样的胞苷脱氨酶的筛选而被鉴别出。开发了两种高通量测定,并用于评估非导向的ssDNA编辑效率。从被筛选的共153种脱氨酶中,鉴别出四种酶,就是PpAPOBEC1、RrA3F、AmAPOBEC1、和SsAPOBEC2、其特征为具有减低的脱靶编辑和高的在靶编辑。与在所述四种构建体上的结构-导向的突变诱发一起,八(8)个下一代CBE——BE4-PpAPOBEC1、BE4-PpAPOBEC1 H122A、BE4-PpAPOBEC1 R33A、BE4-RrA3F、BE4-RrA3F F130L、BE4-AmAPOBEC1和BE4-SsAPOBEC2和BE4-SsAPOBEC2 R54Q被鉴别出,其具有减低到最少的脱靶编辑效率,并且具有与rAPOBEC1的BE4相当的在靶编辑效率。与这些编辑器的表达相关联的转录组范围的RNA脱氨反应与nCas9(D10A)-2xUGIwas是相当的,而平均的在靶编辑,与带有之前SECURE突变(R33A、K34A)的具有rAPOBEC1的BE4相比,高约3.9到5.7倍(Grunewald、J.等、Nature、569:433-437(2019))。
如实施例2至5中所共同描述的,为了减轻假性脱靶事件,开发了一种灵敏的、高通量细胞测定法并用其选择下一代CBE,所述CBE相对于基于rAPOBEC1的CBE显示出减低的假性脱氨反应,同时保持了等效的或更好的在靶编辑频率。筛选了153个具有多样序列的含有胞苷脱氨酶的CBE,并鉴别出了4个具有最有希望的开/关标靶比率的新CBE。这些假性-脱氨反应-最小化的CBE(具有RrA3F、AmAPOBEC1、SsAPOBEC2、或PpAPOBEC1的BE4)通过所述脱氨酶结构域的结构-导向的突变诱发而进一步优化,以获得卓越的在靶和脱靶DNA编辑设定。与具有rAPOBEC1的BE4相比,这些下一代CBE显示出可媲美的整体DNA在靶编辑频率,同时在经处理细胞的转录组中引出的C-变-U编辑减低了10到49倍,并且引出的非导向的脱靶DNA脱氨反应总体减低了多达33倍。总之,这些下一代CBE代表了新的碱基编辑产品和剂,其适用于需要最小化的假性脱氨反应和高的在靶活性的应用。
在体外酶促测定中,本文所述的下一代CBE还显示出对游离ssDNA寡核苷酸的编辑效率减低了约2到9倍。此种下一代CBE可用于新的感兴趣标靶。在实施方式中,含有PpAPOBEC1 H122A的BE4或含有RrA3F的BE4作为活性优于具有rAPOBEC1的BE4的BE而被提供,因为含有PpAPOBEC1 H122A的BE4或含有RrA3F的BE4可有效最小化与rAPOBEC1相关联假性DNA和RNA脱氨反应事件。如本文所述的下一代CBE优于正准的BE4,并作为非常有用和有优势的基因组编辑产品而提供。
实施例6:上述实施例的材料和方法
一般方法:
所述的实施例(实施例2至5一起)中所使用的构建体是通过USER组装(USERassembly)、Gibson组装(Gibson assembly)获得的,或是从Genscript购买的。用于PCR的基因片段是以哺乳动物密码子-优化过的基因片段购自IDT。偕同从IDT获得的引物,使用Phusion U DNA聚合酶绿色MultiPlex PCR预混液(ThermoFisher,赛默飞世尔)或Q5热启动超保真2x预混液(New England Biolabs,纽英伦生技)执行了PCR。用于哺乳动物转染的无-内毒素质粒是使用ZymoPURE II质粒Midiprep(Zymo Research Corporation,Zymo研究营利法人)从50mL Mach1(赛默飞世尔)培养物中制备的。CBE的序列,sgRNA的原间隔序列的序列,和所述实施例中所使用的寡核苷酸在上文中给出。
HEK293T细胞培养:
HEK293T细胞(CLBTx013,美国典型培养物保藏中心(ATCC))在具有10%(体积比)胎牛血清(A31606-02,赛默飞世尔科学)的添加Glutamax的Dulbecco’s改良Eagles培养基(10566-016,赛默飞世尔科学)中培养。该细胞培养箱设定为37℃,5%CO2。从供应商收到后,细胞经检测为支原体阴性。
用于NGS扩增子测序的转染条件和gDNA提取:
HEK293T细胞以12,000个细胞/孔的密度被接种到96-孔、聚-D-赖氨酸-处理过的的BioCoat组织培养(TC)板(康宁)上。HEK293T细胞的转染在将细胞接种到TC板孔中18-24小时后进行。向每孔细胞中加入:90ng碱基编辑器或对照质粒,30ng sgRNA质粒和1μLLipofectamine 2000(赛默飞世尔科学)。对于反式编辑实验,还用60ng nSaCas9(D10A)-2xUGI质粒处理了细胞。温育约64小时后,抽吸培养基并向每个孔中加入50μLQuickExtractTMDNA提取溶液(Lucigen)。gDNA提取按照制造商的说明书执行。
用于全转录组RNA提取和蛋白质定量分析研究的转染条件:
Hek293T细胞以35,000个细胞/孔的密度被接种到48孔、聚-D-赖氨酸-处理过的的BioCoat TC板上。在每孔细胞中加入:300ng碱基编辑器或对照质粒,100ng sgRNA质粒和1.5μL lipofectamine200。对于反式测定,将200ng nSaCas9(D10A)-2xUGI质粒加入到孔中的混合物中。使用的转染方案如上所述。对于RNA提取,将300μLRTL plus缓冲液(RNasyPlus 96试剂盒,Qiagen)添加到每个孔中。RIPA缓冲液(每孔100μL,赛默飞世尔科学)用于裂解细胞以供蛋白质定量分析。对于体外酶促测
对于在靶和脱靶DNA编辑的下一代测序(NGS)和数据分析
如Gaudelli,N.M.等(Nature,551:464-471(2017))所报道的,基因组DNA样品被扩增并准备好用于高通量测序。简而言之,将2μLgDNA加入含有Phusion U绿色Multiplex PCR预混液和各0.5μM的正向引物和反向引物的25μL PCR反应中。扩增之后,使用独特的Illumina条码引物对将PCR产物进行条码标记。总体积为25μL的条码标记反应含有各0.5μM的每种Illumina正向和反向引物,1μL含有所述被扩增的目标基因组位点的PCR混合物,和Q5热启动超保真2x预混液。所有的PCR条件均使用标准的和已报道的方法来执行。用于位点-特异性哺乳动物细胞基因组DNA扩增的引物列于表17。
通过执行四个一般步骤分析了NGS数据:(1)Illumina解复用,(2)短读序的修整和过滤,(3)将所有的短读序与预期的扩增子序列进行比对,以及(4)生成比对的统计数据和编辑率的定量分析。每个步骤在实施例5(图30)中描述。
RNA脱靶编辑的分析
根据制造商的实验方案,使用RNasy Plus 96试剂盒(Qiagen)进行了总RNA的提取。根据制造商的说明,在清洗步骤之前添加了额外的柱-上DNase I(无-RNase DNase套装,Qiagen)的消化步骤。
根据制造商的说明,从分离的mRNA使用SuperScript IV一步RT-PCR系统(赛默飞世尔科学)生成了cDNA样品。使用与DNA编辑相同的实验方案执行了用于被靶向的RNA测序的下一代基因组测序(NGS)。对于全转录组测序,使用NEBNext Poly(A)mRNA磁性分离组件(纽英伦生技)从100ng总RNA中分离了mRNA。根据制造商的说明,使用以供Illumina的
Figure BDA0003286956470003161
UltraTMII定向RNA文库Prep试剂盒执行了外显子组测序文库的制备。执行了可选的第二个SPRI珠遴选以去除残留的接头污染。使用片段分析仪(安捷伦)分析了所制作的文库,并对其执行了测序(诺禾致源-在NovaSeq S4流动槽上)。
体外酶促测定
细胞在M-per缓冲液中被裂解,而在Ella仪器(ProteinSimple公司)上使用自动化的Ella测定进行了Cas9浓度的确定。将一小等分的5μL细胞裂解物或Cas9标准溶液与45μL样品混合,并将该混合物加入48-地高辛卡匣中。使用抗-Cas9抗体(7A9-A3A,NovusBiologicals)对碱基编辑器复合体中Cas9的浓度进行定量。
蛋白质浓度被调节至0.2nM(最终浓度)并与浓度为0.1μM或0.5μM的1μL寡核苷酸(寡核苷酸序列在表17中)在反应缓冲液(20mM Tris pH 7.5、150mM NaCl、1mM DTT、10%甘油)中混合如所示的时间长度。通过在95℃下加热灭活3分钟来淬灭该测定,并且使用C到T转换率的百分比(NGS)和寡核苷酸的输入数量来量化产物的形成。
数据的可得性:
本文所述的核心下一代CBE(的序列)存放在Addgene上。高通量测序数据存放在NCBI序列读取(短读序)存档中(PRJNA595157)。
代码的可访问性:
所有用于数据分析的软件工具都是公开可得的。下面提供了有关所用的版本和参数,以及外壳命令(shell commands)的详细信息。
靶向的NGS分析:
1.为了通过MiSeq从碱基识别文件(base call files)(BCF)生成FASTQ文件,执行了解复用,其通过运行Illumina bcl2fastq(v2.20.0.422)并使用以下参数:
Figure BDA0003286956470003171
Figure BDA0003286956470003181
使用trimmomatic(v0.39)(Bolger,A.M.等,Bioinformatics,30:2114-2120(2014))处理了步骤(1)中创建的FASTQ文件,其参数设置为:剪掉Illumina TruSeq接头,排除短于20个碱基的短读序,以及,如果在4-bp滑窗中的平均碱基质量(Phred分数)低于15,则修整短读序剩余的3’端。此外,质量分数为3或更低的任何在短读序某段的碱基被去除。最后,因为第1轮PCR的引物包含在短读序1引物序列之后的四个随机碱基,所以修剪了每个短读序的前四个碱基。用于执行trimmomatic的命令如下所示:
trimmomatic SE-phred33$input_fastq$output_fastq\
ILLUMINACLIP:illumine_adapters.fa:2:30:10\(剪掉短读序中的测序接头)
LEADING:3TRAILING:3\(从短读序的开头/末尾切除质量值低于3的碱基)
SLIDINGWINDOW:4:15\(从短读序的5’开始4bp滑窗的质量(15)过滤)
MINLEN:20\(如果经过剪切后短读序的长度低于20则丢弃此短读序)
HEADCROP:4(从短读序的开头切掉4个碱基)
3.使用bowtie2(v2.35)、(Langmead,B.和Salzberg,S.L.,Nat Methods,9:357-359(2012))在双端比对(end-to-end)模式下,使用由“--非常敏感”旗标所指定的比对参数,将短读序比对到扩增子序列。参考序列被确定为每个引物对基于人类基因组(GRCh38)的所预期的扩增子序列(包含引物)。由bowtie2所创建的SAM文件被转换为BAM文件,使用samtools软件包(v1.9),(Li,H.等,Bioinformatics,25:2078-2079(2009))对其排序和索引。仅考虑具有至少5,000个经比对对齐的短读序的样品用于分析。
4.使用bam-readcounts工具(https://github.com/genome/bam-readcount)处理了步骤(3)中所创建的BAM文件以生成纯文本文件,其汇总了在所述比对中每个位置的非-参考碱基、缺失和插入的数目。用于计数非-参考碱基的最低碱基质量(Phred分数)设置为29,以从有关编辑率的统计数据中排除掉低置信度的碱基识别。只有具有与所述碱基编辑器标靶位点(定义为其原间隔序列+PAM序列)重叠的插入和/或缺失的短读序被计数为插入率和删除率。在所述标靶位点中每个位置的编辑率的计算方式为:在所述比对中,给定类型(例如G)碱基的非-参考碱基占给定位置处通过碱基质量阈值的碱基总数的份额。
转录组测序分析方法:
FASTQ文件从诺禾致源下载并使用STAR(v2.7.2a)将其与人类基因组(GencodeGRCh38v31)比对对齐。然后使用Picard(v2.20.5)对基因组比对进行了重复序列标记(duplicate-marked)并排序。如果短读序的CIGAR字符串中含有N,是因为该短读序跨越了剪接接点;使用GATK(v4.1.3.0)将这样的短读序断开,然后使用Picard执行了碱基质量分数的重新校准。使用GATK Haplotype Caller(单倍体识别者)生成了变异识别(Variantcalls),其具有在RNA中用于变异识别的标准设置:minimum-mapping-quality(最小-映射-质量)30,minimum-base-quality(最小-碱基-质量)20,dont-use-soft-clipped-bases(不要-用-软-切-碱基),standard-call(标准-识别)-conf 20。
为了鉴别出如本文所述的经碱基-编辑器处理过的样品所特有的体细胞突变,使用nCas9处理过的样品执行了背景过滤。仅考虑了正准染色体上的替换。如果一个突变的基因组位置在所述碱基编辑器处理过的样品中具有≥30x的覆盖率并且在所述nCas9样品中具有≥20x的覆盖率且其中99%的短读序含有所述参考碱基,则该突变被确定为经碱基-编辑器-处理过的样品所特有的。
实施例7:C碱基编辑器的全基因组假性脱氨反应的评估
通过单细胞扩展的全基因组测序(WGS),检查了所述C-变-T碱基编辑器的假性脱氨反应的活性(图31,以优势比表示相对突变率)。用如下质粒转染了细胞:编码所述碱基编辑器的哺乳动物表达载体,与其一起转染的表达向导RNA的质粒,所述向导RNA靶向β-2-微球蛋白(B2M)基因并破坏其表达。温育5天后,通过流式细胞术将被编辑的细胞(B2M阴性)分类排序成单细胞。扩展自所述单细胞的细胞菌落用于全基因组测序。
从全基因组测序(WGS)数据中,从用BE4-rAPOBEC1处理过的样品中检测到假性C变T突变。在B2M中两个位置(位置4和6)处的变异计数和编辑率,以及得自MannU检验的实际p-值显示在下表18A和表18B中。在用BE4-AmAPOBEC1和BE4-SsAPOBEC2处理过的样品中未检测到C变T突变的显著富集(图31)。数据还支持了:与经BE4-rAPOBEC1处理过的那些样品相比,用BE4-PpAPOBEC1 H122A和BE4-RrA3F F130L处理过的样品中假性脱氨反应的减低(图31)。所测试的所有Cas9样品都展现出如预期的插入/缺失。
表18A.CBE脱氨反应的变异计数和编辑率:
Figure BDA0003286956470003201
Figure BDA0003286956470003211
表18B:得自MannU检验的实际p-值:
处理 p值
BE4-rAPOBEC1 0.01844421 ***
BE4-PpAPOBEC1 0.02591496 ***
BE4-PpAPOBEC1 H122A 0.38279724
BE4-RrA3F F130L 0.01844421 ***
BE4-AmAPOBEC1 0.27549249
BE4-SsAPOBEC2 0.18837956
Cas9 0.27549249
NC 0.40973849
附加序列
在以下序列中,小写字母表示卡那霉素抗性启动子区域,粗体序列表示靶向去活化部分(Q4*和W15*),斜体序列表示卡那霉素抗性基因的靶向失活位点(D208N),而有下划线的序列表示PAM序列。
去活性化的卡那霉素抗性基因:
Figure BDA0003286956470003221
其他实施方式
从前面的描述中将显而易见的是,可对如本文所描述的实施方式进行变化和修改以将其适用于各种用途和条件。此种实施方式也在以下权利要求的范围内。
本文对变量的任何定义中的元件列表的列举,包含了将该变量定义为所列元件的任何单个元件或其组合(或其子组合)。本文对实施方式的列举,包含了该实施方式作为任何单一实施方式或与任何其他实施方式或其部分的组合。
本说明书中提及的所有出版物、专利和专利申请通过引用并入本文,其范围如同明确地和个别地指出每个独立的出版物、专利和专利申请通过引用并入。
除非另有说明,本说明书中提及的所有出版物、专利和专利申请的全部内容通过引用并入本文。

Claims (206)

1.一种胞苷碱基编辑器,其包括(i)多核苷酸可编程的DNA结合结构域和(ii)胞苷脱氨酶,其中该胞苷碱基编辑器,与标准的胞苷碱基编辑器相比,具有增大的顺式活性对反式活性的比率(顺式:反式)。
2.如权利要求1所述的胞苷碱基编辑器,其中该标准的胞苷碱基编辑器包括(i)多核苷酸可编程的DNA结合结构域和(ii)APOBEC胞苷脱氨酶。
3.如权利要求1或2所述的胞苷碱基编辑器,其中该标准的胞苷碱基编辑器的APOBEC胞苷脱氨酶是大鼠APOBEC-1胞苷脱氨酶(rAPOBEC-1)。
4.如权利要求2或3所述的胞苷碱基编辑器,其中该标准的胞苷碱基编辑器的多核苷酸可编程的DNA结合结构域是Cas9切口酶。
5.如权利要求1至4中任一项所述的胞苷碱基编辑器,其中该标准的胞苷碱基编辑器包括尿嘧啶糖基化酶抑制剂(UGI)结构域。
6.如权利要求1至5中任一项所述的胞苷碱基编辑器,其中该标准的胞苷碱基编辑器是BE3或BE4。
7.如权利要求1至6中任一项所述的胞苷碱基编辑器,其中该增大的顺式活性对反式活性的比率是增大了至少2、2.5、5、10、15、20、25、30、35、40、45、50、60倍或更多。
8.如权利要求1至7中任一项所述的胞苷碱基编辑器,其中该胞苷碱基编辑器,与标准的胞苷碱基编辑器相比,具有至少50%、60%、70%、80%、90%、95%、100%、105%、110%、115%、120%、或更高的顺式活性。
9.如权利要求1至8中任一项所述的胞苷碱基编辑器,其中该胞苷碱基编辑器,与标准的胞苷碱基编辑器相比,具有至少低2、5、10、15、20、25、30、35、40、45、50、60或更多倍的反式活性。
10.如权利要求1至9中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶是选自于由以下所组成的群组:APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3E、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4、活化-诱导的(胞苷)脱氨酶(AID)、hAPOBEC1、rAPOBEC1、ppAPOBEC1、AmAPOBEC1(BEM3.31)、ocAPOBEC1、SsAPOBEC2(BEM3.39)、hAPOBEC3A、maAPOBEC1、mdAPOBEC1、
胞苷脱氨酶1(CDA1)、hA3A、RrA3F(BEM3.14)、PmCDA1、AID(活化-诱导的胞苷脱氨酶;AICDA)、hAID、和FENRY。
11.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是APOBEC1。
12.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是
(a)APOBEC-1,其来自黄金仓鼠(MaAPOBEC-1)、婆罗洲猩猩(PpAPOBEC-1)、穴兔(OcAPOBEC-1)、灰短尾负鼠(MdAPOBEC-1)、或美国短吻鳄(AmAPOBEC-1);
(b)APOBEC-2,其来自婆罗洲猩猩(PpAPOBEC-2)、家牛(BtAPOBEC-2)、或欧洲猪(SsAPOBEC-2);
(c)APOBEC-4,其来自食蟹猕猴(MfAPOBEC-4);
(d)AID,其来自犬(ClAID)或家牛(BtAID);
(e)酵母胞嘧啶脱氨酶(yCD),其来自酿酒酵母;
(f)APOBEC-3F,其来自川金丝猴(RrA3F);或
(g)具有与(a)至(f)中任一蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
13.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是APOBEC-1,其来自黄金仓鼠(MaAPOBEC-1)、婆罗洲猩猩(PpAPOBEC-1)、穴兔(OcAPOBEC-1)、灰短尾负鼠(MdAPOBEC-1)、或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
14.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是rAPOBEC1。
15.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是hAPOBEC3A。
16.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是ppAPOBEC1。
17.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是APOBEC-2,其衍生自婆罗洲猩猩(PpAPOBEC-2)、家牛(BtAPOBEC-2)、或欧洲猪(SsAPOBEC-2)、或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
18.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是APOBEC-4,其衍生自食蟹猕猴(MfAPOBEC-4)、或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
19.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是AID,其来自犬(ClAID)、家牛(BtAID)、或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
20.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是酵母胞嘧啶脱氨酶(yCD),其来自酿酒酵母,或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
21.如权利要求10所述的胞苷碱基编辑器,其中该胞苷脱氨酶是APOBEC-3F,其来自川金丝猴(RrA3F),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
22.如权利要求1至9中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶是表13中所提供的任一胞苷脱氨酶,或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
23.如权利要求1至9中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶是来自川金丝猴的APOBEC-3F(RrA3F)、来自美国短吻鳄的APOBEC-1(AmAPOBEC-1)、来自欧洲猪的APOBEC-2(SsAPOBEC-2)、来自婆罗洲猩猩的APOBEC-1(PpAPOBEC-1),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
24.如权利要求1至23中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括一个或多个改变,其位于位置R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X or R132X(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
25.如权利要求24所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变。
26.如权利要求24或25所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
27.如权利要求20或21所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括位于位置Y120F的改变和一个或多个改变,其选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
28.如权利要求1至27中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括位于位置Y130X或R28X的改变(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变、其中X是任一氨基酸。
29.如权利要求28所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括位于位置Y130A或R28A的改变(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
30.如权利要求28或29所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括位于位置Y130A和R28A的改变(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
31.如权利要求1至23中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括一个或多个改变,其位于位置H122X、K34X、R33X、W90X、或R128X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
32.如权利要求31所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:H122A、K34A、R33A、W90F、W90A、和R128A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
33.如权利要求31或32所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:R33A+K34A、W90F+K34A、R33A+K34A+W90F、和R33A+K34A+H122A+W90F(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
34.如权利要求1至8中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MTSEKGPSTGDPTLRRRIESWEFDVFYDPRELRKETCLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERRFHSSISCSITWFLSWSPCWECSQAIREFLSQHPGVTLVIYVARLFWHMDQRNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLAFFRLHLQNCHYQTIPPHILLATGLIHPSVTWR。
35.如权利要求1至8中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:MKPQIRDHRPNPMEAMYPHIFYFHFENLEKAYGRNETWLCFTVEIIKQYLPVPWKKGVFRNQVDPETHCHAEKCFLSWFCNNTLSPKKNYQVTWYTSWSPCPECAGEVAEFLAEHSNVKLTIYTARLYYFWDTDYQEGLRSLSEEGASVEIMDYEDFQYCWENFVYDDGEPFKRWKGLKYNFQSLTRRLREILQ。
36.如权利要求1至8中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:MADSSEKMRGQYISRDTFEKNYKPIDGTKEAHLLCEIKWGKYGKPWLHWCQNQRMNIHAEDYFMNNIFKAKKHPVHCYVTWYLSWSPCADCASKIVKFLEERPYLKLTIYVAQLYYHTEEENRKGLRLLRSKKVIIRVMDISDYNYCWKVFVSNQNGNEDYWPLQFDPWVKENYSRLLDIFWESKCRSPNPW。
37.如权利要求1至8中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:MDPQRLRQWPGPGPASRGGYGQRPRIRNPEEWFHELSPRTFSFHFRNLRFASGRNRSYICCQVEGKNCFFQGIFQNQVPPDPPCHAELCFLSWFQSWGLSPDEHYYVTWFISWSPCCECAAKVAQFLEENRNVSLSLSAARLYYFWKSESREGLRRLSDLGAQVGIMSFQDFQHCWNNFVHNLGMPFQPWKKLHKNYQRLVTELKQILREEPATYGSPQAQGKVRIGSTAAGLRHSHSHTRSEAHLRPNHSSRQHRILNPPREARARTCVLVDASWICYR。
38.如权利要求34所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括H122A改变。
39.如权利要求1至38中任一项所述的胞苷碱基编辑器,进一步包括至少一个腺苷脱氨酶或其催化活性片段。
40.如权利要求39所述的胞苷碱基编辑器,其中该腺苷脱氨酶是TadA脱氨酶。
41.如权利要求40所述的胞苷碱基编辑器,其中该TadA脱氨酶是修饰过的腺苷脱氨酶,其在自然界中不存在。
42.如权利要求39至41中任一项所述的胞苷碱基编辑器,其中该胞苷碱基编辑器包括两个腺苷脱氨酶,其为相同或不同。
43.如权利要求42所述的胞苷碱基编辑器,其中该两个腺苷脱氨酶能够形成异二聚体或同二聚体。
44.如权利要求42或43所述的胞苷碱基编辑器,其中该腺苷脱氨酶结构域为野生型TadA和TadA7.10。
45.如权利要求39至44中任一项所述的胞苷碱基编辑器,其中该腺苷脱氨酶包括从一残基开始的C端缺失,该残基选自于由以下所组成的群组:149、150、151、152、153、154、155、156、和157。
46.如权利要求39至45中任一项所述的胞苷碱基编辑器,其中相对于全长腺苷脱氨酶,该腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个N末端氨基酸残基。
47.如权利要求39至46中任一项所述的胞苷碱基编辑器,其中相对于全长腺苷脱氨酶,该腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个C末端氨基酸残基。
48.如权利要求1至47中任一项所述的胞苷碱基编辑器,其中至少一个核碱基编辑器结构域进一步包括无碱基核碱基编辑器。
49.如权利要求1至48中任一项所述的胞苷碱基编辑器,进一步包括一个或多个核定位信号(NLS)。
50.如权利要求1至49中任一项所述的胞苷碱基编辑器,其中该胞苷碱基编辑器包括N末端NLS和/或C末端NLS。
51.如权利要求49或50所述的胞苷碱基编辑器,其中该NLS是双分型NLS。
52.如权利要求1至51中任一项所述的胞苷碱基编辑器,其中该多核苷酸可编程的DNA结合结构域是Cas9。
53.如权利要求1至52中任一项所述的胞苷碱基编辑器,其中该多核苷酸可编程的DNA结合结构域是金黄色葡萄球菌Cas9(SaCas9),化脓链球菌Cas9(SpCas9),或其变体。
54.如权利要求1至53中任一项所述的胞苷碱基编辑器,其中该多核苷酸可编程的DNA结合结构域包括核酸酶失活的Cas9(dCas9),Cas9切口酶(nCas9),或核酸酶活性的Cas9。
55.如权利要求1至54中任一项所述的胞苷碱基编辑器,其中该多核苷酸可编程的DNA结合结构域包括一个能够切开核酸序列的反向互补股的催化结构域。
56.如权利要求1至54中任一项所述的胞苷碱基编辑器,其中该多核苷酸可编程的DNA结合结构域不包括一个能够切开核酸序列的催化结构域。
57.如权利要求54所述的胞苷碱基编辑器,其中该Cas9是dCas9。
58.如权利要求54所述的胞苷碱基编辑器,其中该Cas9是Cas9切口酶(nCas9)。
59.如权利要求58所述的胞苷碱基编辑器,其中该nCas9包括氨基酸替换D10A或其相应的氨基酸替换。
60.如权利要求1至59中任一项所述的胞苷碱基编辑器,进一步包括一个或多个尿嘧啶DNA糖基化酶抑制剂(UGI)。
61.如权利要求60所述的胞苷碱基编辑器,其中该一个或多个UGI是衍生自枯草芽孢杆菌噬菌体PBS1并抑制人UDG活性。
62.如权利要求60或61所述的胞苷碱基编辑器,其中该胞苷碱基编辑器包括两个尿嘧啶DNA糖基化酶抑制剂(UGI)。
63.如权利要求1至62中任一项所述的胞苷碱基编辑器,进一步包括一个或多个链接子。
64.包括如权利要求1至63中任一项所述的胞苷碱基编辑器的细胞。
65.如权利要求64所述的细胞,其中该细胞是细菌细胞、植物细胞、昆虫细胞、或哺乳动物细胞。
66.一种分子复合体,其包括如权利要求1-63中任一项所述的胞苷碱基编辑器和一种或多种向导RNA序列、tracrRNA序列、或标靶DNA序列。
67.一种编辑核酸序列的核碱基的方法,该方法包括使核酸序列与如权利要求1-63中任一项所述的胞苷碱基编辑器接触并将该DNA序列的第一核碱基转换为第二核碱基。
68.如权利要求67所述的方法,进一步包括使核酸序列与向导多核苷酸接触以达成上述转换。
69.如权利要求67或68所述的方法,其中第一核碱基是胞嘧啶并且第二核碱基是胸苷。
70.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是
(i)APOBEC-1,其来自黄金仓鼠(MaAPOBEC-1)、婆罗洲猩猩(PpAPOBEC-1)、穴兔(OcAPOBEC-1)、灰短尾负鼠(MdAPOBEC-1)、或美国短吻鳄(AmAPOBEC-1);
(ii)APOBEC-2,其来自婆罗洲猩猩(PpAPOBEC-2)、家牛(BtAPOBEC-2)、或欧洲猪(SsAPOBEC-2);
(iii)APOBEC-4,其来自食蟹猕猴(MfAPOBEC-4);
(iv)AID,其来自犬(ClAID)或家牛(BtAID);
(v)酵母胞嘧啶脱氨酶(yCD),其来自酿酒酵母;
(vi)APOBEC-3F,其来自川金丝猴(RrA3F);或
(vii)具有与(i)至(viii)中任一蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
71.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是APOBEC-1,其来自黄金仓鼠(MaAPOBEC-1)、婆罗洲猩猩(PpAPOBEC-1)、穴兔(OcAPOBEC-1)、灰短尾负鼠(MdAPOBEC-1),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
72.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是APOBEC-2,其来自婆罗洲猩猩(PpAPOBEC-2)、家牛(BtAPOBEC-2)、或欧洲猪(SsAPOBEC-2),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
73.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是APOBEC-4,其来自食蟹猕猴(MfAPOBEC-4),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
74.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是AID,其来自犬(ClAID)、家牛(BtAID),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
75.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是酵母胞嘧啶脱氨酶(yCD),其来自酿酒酵母,或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
76.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是APOBEC-3F,其来自川金丝猴(RrA3F),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
77.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是是表13中所提供的任一胞苷脱氨酶,或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
78.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶是来自川金丝猴的APOBEC-3F(RrA3F)、来自美国短吻鳄的APOBEC-1(AmAPOBEC-1)、来自欧洲猪的APOBEC-2(SsAPOBEC-2)、来自婆罗洲猩猩的APOBEC-1(PpAPOBEC-1)、或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
79.如权利要求70至78中任一项所述的融合蛋白,其中该胞苷脱氨酶包括一个或多个改变,其位于位置R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X或R132X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
80.如权利要求79所述的融合蛋白,其中该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
81.如权利要求79所述的融合蛋白,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
82.如权利要求80或81所述的融合蛋白,其中该胞苷脱氨酶包括一改变的组合,该组合的改变选自于由Y120F和一个或多个改变所组成的群组,而所述一个或多个改变则选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
83.如权利要求70至82中任一项所述的融合蛋白,其中该胞苷脱氨酶包括一个或多个改变,其位于位置Y130X或R28X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
84.如权利要求83所述的融合蛋白,其中该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:Y130A和R28A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
85.如权利要求83或84所述的融合蛋白,其中该胞苷脱氨酶包括改变Y130A和R28A(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
86.如权利要求70至78中任一项所述的融合蛋白,其中该胞苷脱氨酶包括一个或多个改变,其位于位置H122X、K34X、R33X、W90X、或R128X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
87.如权利要求86所述的融合蛋白,其中该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:H122A、K34A、R33A、W90F、W90A、和R128A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
88.如权利要求86或87所述的融合蛋白,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:R33A+K34A、W90F+K34A、R33A+K34A+W90F、和R33A+K34A+H122A+W90F(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
89.如权利要求88所述的融合蛋白,其中该胞苷脱氨酶包括H122A改变(如SEQ ID NO:1中所编号的),抑或所述改变的相应改变。
90.如权利要求70至78中任一项所述的融合蛋白,其中该胞苷脱氨酶是rAPOBEC1并且包括一个或多个改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、
Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变。
91.如权利要求90所述的融合蛋白,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变。
92.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶选自于由以下所组成的群组:APOBEC2家族成员,APOBEC3家族成员,APOBEC4家族成员,胞苷脱氨酶1家族成员(CDA1),A3A家族成员,RrA3F家族成员,PmCDA1家族成员,和FENRY家族成员。
93.如权利要求92所述的融合蛋白,其中该APOBEC3家族成员是选自于由以下所组成的群组:APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3E、APOBEC3F、APOBEC3G、和APOBEC3H。
94.如权利要求93所述的融合蛋白,其中该APOBEC2家族成员是SsAPOBEC2。
95.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括APOBEC1的核碱基编辑器结构域,其中该APOBEC1选自于由以下所组成的群组:ppAPOBEC1、AmAPOBEC1(BEM3.31)、ocAPOBEC1、SsAPOBEC2(BEM3.39)、hAPOBEC3A、maAPOBEC1、和mdAPOBEC1。
96.如权利要求92至95中任一项所述的融合蛋白,其中该胞苷脱氨酶包括一个或多个改变,其位于位置R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X或R132X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
97.如权利要求96所述的融合蛋白,其中该一个或多个改变是选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
98.如权利要求92至97中任一项所述的融合蛋白,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
99.如权利要求92至98中任一项所述的融合蛋白,其中该胞苷脱氨酶包括一改变的组合,该组合的改变选自于由Y120F和一个或多个改变所组成的群组,而所述一个或多个改变则选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A、(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
100.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶包括一个或多个改变,其位于位置R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X或R132X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
101.如权利要求100所述的融合蛋白,其中该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
102.如权利要求100或101所述的融合蛋白,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
103.如权利要求100或101所述的融合蛋白,其中该胞苷脱氨酶包括位于位置Y120F的改变和一个或多个改变,其选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
104.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶包括一个或多个改变,其位于位置Y130X和R28X(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
105.如权利要求104所述的融合蛋白,其中该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:Y130A和R28A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
106.如权利要求104或105所述的融合蛋白,其中该胞苷脱氨酶包括改变Y130A和R28A。
107.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括胞苷脱氨酶的核碱基编辑器结构域,其中该胞苷脱氨酶包括一个或多个改变,其位于位置H122X、K34X、R33X、W90X、或R128X(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
108.如权利要求107所述的融合蛋白,其中该胞苷脱氨酶包括一个或多个改变,其选自于由以下所组成的群组:H122A、K34A、R33A、W90F、W90A、和R128A(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变。
109.如权利要求107或108所述的融合蛋白,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:R33A+K34A、W90F+K34A、R33A+K34A+W90F、和R33A+K34A+H122A+W90F(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
110.如权利要求100至109中任一项所述的融合蛋白,其中该胞苷脱氨酶是选自于由以下所组成的群组:APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3E、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4、活化-诱导的(胞苷)脱氨酶(AID)、hAPOBEC1、rAPOBEC1、ppAPOBEC1、AmAPOBEC1(BEM3.31)、ocAPOBEC1、SsAPOBEC2(BEM3.39)、hAPOBEC3A、maAPOBEC1、mdAPOBEC1、胞苷脱氨酶1(CDA1)、hA3A、RrA3F(BEM3.14)、PmCDA1、AID(活化-诱导的胞苷脱氨酶;AICDA)、hAID、和FENRY。
111.如权利要求100至110中任一项所述的融合蛋白,其中该胞苷脱氨酶是APOBEC1。
112.如权利要求100至111中任一项所述的融合蛋白,其中该胞苷脱氨酶是rAPOBEC1。
113.如权利要求100至110中任一项所述的融合蛋白,其中该胞苷脱氨酶是hAPOBEC3A。
114.如权利要求100至110中任一项所述的融合蛋白,其中该胞苷脱氨酶是ppAPOBEC1。
115.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MTSEKGPSTGDPTLRRRIESWEFDVFYDPRELRKETCLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERRFHSSISCSITWFLSWSPCWECSQAIREFLSQHPGVTLVIYVARLFWHMDQRNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLAFFRLHLQNCHYQTIPPHILLATGLIHPSVTWR。
116.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:MKPQIRDHRPNPMEAMYPHIFYFHFENLEKAYGRNETWLCFTVEIIKQYLPVPWKKGVFRNQVDPETHCHAEKCFLSWFCNNTLSPKKNYQVTWYTSWSPCPECAGEVAEFLAEHSNVKLTIYTARLYYFWDTDYQEGLRSLSEEGASVEIMDYEDFQYCWENFVYDDGEPFKRWKGLKYNFQSLTRRLREILQ。
117.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:MADSSEKMRGQYISRDTFEKNYKPIDGTKEAHLLCEIKWGKYGKPWLHWCQNQRMNIHAEDYFMNNIFKAKKHPVHCYVTWYLSWSPCADCASKIVKFLEERPYLKLTIYVAQLYYHTEEENRKGLRLLRSKKVIIRVMDISDYNYCWKVFVSNQNGNEDYWPLQFDPWVKENYSRLLDIFWESKCRSPNPW。
118.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:MDPQRLRQWPGPGPASRGGYGQRPRIRNPEEWFHELSPRTFSFHFRNLRFASGRNRSYICCQVEGKNCFFQGIFQNQVPPDPPCHAELCFLSWFQSWGLSPDEHYYVTWFISWSPCCECAAKVAQFLEENRNVSLSLSAARLYYFWKSESREGLRRLSDLGAQVGIMSFQDFQHCWNNFVHNLGMPFQPWKKLHKNYQRLVTELKQILREEPATYGSPQAQGKVRIGSTAAGLRHSHSHTRSEAHLRPNHSSRQHRILNPPREARARTCVLVDASWICYR。
119.如权利要求115所述的融合蛋白,其中该胞苷脱氨酶包括H122A改变。
120.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶是APOBEC1脱氨酶并且包括H122A改变。
121.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和胞苷脱氨酶,其中该胞苷脱氨酶是rAPOBEC1并且包括一个或多个改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E。
122.如权利要求121所述的融合蛋白,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E。
123.一种融合蛋白,该融合蛋白包括多核苷酸可编程的DNA结合结构域和至少一个包括APOBEC1的核碱基编辑器结构域,其中该APOBEC1选自于由以下所组成的群组:ppAPOBEC1、AmAPOBEC1(BEM3.31)、ocAPOBEC1、SsAPOBEC2(BEM3.39)、hAPOBEC3A、maAPOBEC1、和mdAPOBEC1。
124.如权利要求123所述的融合蛋白,其中该APOBEC1包括一个或多个改变,其位于位置R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X或R132X(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变,其中X是任一氨基酸。
125.如权利要求124所述的融合蛋白,其中该一个或多个改变是选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
126.如权利要求125所述的融合蛋白,其中该APOBEC1包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和
W90Y+R126E+R132E(如SEQ ID NO:1中所编号的)抑或一个或多个所述改变的相应改变。
127.如权利要求123至126中任一项所述的融合蛋白,其中该APOBEC1包括位于位置Y120F的改变和一个或多个改变,其选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
128.如权利要求70至127中任一项所述的融合蛋白,进一步包括至少一个腺苷脱氨酶或其催化活性片段。
129.如权利要求128所述的融合蛋白,其中该腺苷脱氨酶是TadA脱氨酶。
130.如权利要求129所述的融合蛋白,其中该TadA脱氨酶是修饰过的腺苷脱氨酶,其在自然界中不存在。
131.如权利要求128至130中任一项所述的融合蛋白,其中该融合蛋白包括两个腺苷脱氨酶,其为相同或不同。
132.如权利要求131所述的融合蛋白,其中该两个腺苷脱氨酶能够形成异二聚体或同二聚体。
133.如权利要求131或132所述的融合蛋白,其中该两个腺苷脱氨酶结构域为野生型TadA和TadA7.10。
134.如权利要求128至133中任一项所述的融合蛋白,其中该腺苷脱氨酶包括从一残基开始的C端缺失,该残基选自于由以下所组成的群组:149、150、151、152、153、154、155、156、和157。
135.如权利要求128至134中任一项所述的融合蛋白,其中相对于全长腺苷脱氨酶,该腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个N末端氨基酸残基。
136.如权利要求128至135中任一项所述的融合蛋白,其中相对于全长腺苷脱氨酶,该腺苷脱氨酶缺少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、6、17、18、19、或20个C末端氨基酸残基。
137.如权利要求70至136中任一项所述的融合蛋白,其中至少一个核碱基编辑器结构域进一步包括无碱基核碱基编辑器。
138.如权利要求70至137中任一项所述的融合蛋白,进一步包括一个或多个核定位信号(NLS)。
139.如权利要求70至138中任一项所述的融合蛋白,其中该融合蛋白包括N末端NLS和/或C末端NLS。
140.如权利要求138或139所述的融合蛋白,其中该NLS是双分型NLS。
141.如权利要求70至140中任一项所述的融合蛋白,其中该多核苷酸可编程的DNA结合结构域是Cas9。
142.如权利要求70至140中任一项所述的融合蛋白,其中该多核苷酸可编程的DNA结合结构域是金黄色葡萄球菌Cas9(SaCas9),化脓链球菌Cas9(SpCas9),或其变体。
143.如权利要求70至142中任一项所述的融合蛋白,其中该多核苷酸可编程的DNA结合结构域包括核酸酶失活的Cas9(dCas9),Cas9切口酶(nCas9),或核酸酶活性的Cas9。
144.如权利要求70至142中任一项所述的融合蛋白,其中该多核苷酸可编程的DNA结合结构域包括一个能够切开核酸序列的反向互补股的催化结构域。
145.如权利要求70至142中任一项所述的融合蛋白,其中该多核苷酸可编程的DNA结合结构域不包括一个能够切开核酸序列的催化结构域。
146.如权利要求143所述的融合蛋白,其中该Cas9是dCas9。
147.如权利要求143所述的融合蛋白,其中该Cas9是Cas9切口酶(nCas9)。
148.如权利要求147所述的融合蛋白,其中该nCas9包括氨基酸替换D10A或其相应的氨基酸替换。
149.如权利要求70至148中任一项所述的融合蛋白,进一步包括一个或多个尿嘧啶DNA糖基化酶抑制剂(UGI)。
150.如权利要求149所述的融合蛋白,其中该一个或多个UGI是衍生自枯草芽孢杆菌噬菌体PBS1并抑制人UDG活性。
151.如权利要求149或150所述的融合蛋白,其中该融合蛋白包括两个尿嘧啶DNA糖基化酶抑制剂(UGI)。
152.如权利要求70至151中任一项所述的融合蛋白,进一步包括一个或多个链接子。
153.如权利要求70至152中任一项所述的融合蛋白,其中该融合蛋白使标靶核苷酸序列中的核碱基脱氨基,并且其中该脱氨反应与标准的胞苷碱基编辑器相比,具有增大的顺式活性对反式活性的比率(顺式:反式)。
154.如权利要求153所述的融合蛋白,其中该标准的胞苷碱基编辑器包括(i)多核苷酸可编程的DNA结合结构域和(ii)APOBEC胞苷脱氨酶。
155.如权利要求154所述的融合蛋白,其中该标准的胞苷碱基编辑器的APOBEC胞苷脱氨酶是大鼠APOBEC-1胞苷脱氨酶(rAPOBEC-1)。
156.如权利要求155所述的融合蛋白,其中该标准的胞苷碱基编辑器的多核苷酸可编程的DNA结合结构域是Cas9切口酶。
157.如权利要求156所述的融合蛋白,其中该标准的胞苷碱基编辑器包括尿嘧啶糖基化酶抑制剂(UGI)结构域。
158.如权利要求153至157中任一项所述的融合蛋白,其中该标准的胞苷碱基编辑器是BE3或BE4。
159.如权利要求153至158中任一项所述的融合蛋白,其中该增大的顺式活性对反式活性的比率是增大了至少2、2.5、5、10、15、20、25、30、35、40、45、50、60倍或更多。
160.如权利要求153至159中任一项所述的融合蛋白,其中该胞苷碱基编辑器与标准的胞苷碱基编辑器相比,具有至少50%、60%、70%、80%、90%、95%、100%、105%、110%、115%、120%、或更高的顺式活性。
161.如权利要求153至160中任一项所述的融合蛋白,其中该胞苷碱基编辑器,与标准的胞苷碱基编辑器相比,具有至少低2、5、10、15、20、25、30、35、40、45、50、60、或更多倍的反式活性。
162.一种多核苷酸分子,其编码如权利要求70-161中任一项所述的融合蛋白。
163.如权利要求162所述的多核苷酸分子,其中该多核苷酸是密码子优化过的。
164.一种表达载体,其包括如权利要求162或163所述的多核苷酸分子。
165.如权利要求164所述的表达载体,其中该表达载体是哺乳动物表达载体。
166.如权利要求165所述的表达载体,其中该载体是病毒载体,其选自于由以下所组成的群组:腺相关病毒(AAV)载体、逆转录病毒载体、腺病毒载体、慢病毒载体、仙台病毒载体和疱疹病毒载体的病毒载体。
167.如权利要求164至166中任一项所述的表达载体,其中该载体包括启动子。
168.一种细胞,其包括如权利要求162或163所述的多核苷酸或如权利要求164-167中任一项所述的载体。
169.如权利要求168所述的细胞,其中该细胞是细菌细胞、植物细胞、昆虫细胞、人类细胞、或哺乳动物细胞。
170.一种分子复合体,其包括如权利要求70-161中任一项所述的融合蛋白以及一种或多种向导RNA序列、tracrRNA序列、或标靶DNA序列。
171.一种试剂盒,其包括:如权利要求70-161中任一项所述的融合蛋白、如权利要求162或163所述的多核苷酸、如权利要求164-167中任一项所述的载体、或如权利要求170所述的分子复合体。
172.一种编辑核酸序列的核碱基的方法,该方法包括使核酸序列与碱基编辑器(其包括如权利要求70-161中任一项所述的融合蛋白)接触,并将该DNA序列的第一核碱基转换为第二核碱基。
173.如权利要求172所述的方法,其中该第一核碱基是胞嘧啶并且该第二个核碱基是胸苷。
174.一种编辑核酸序列的核碱基的方法,该方法包括使核酸序列与碱基编辑器(其包括如权利要求70-161中任一项所述的融合蛋白)接触,并将该DNA序列的第一核碱基转换为第二核碱基。
175.如权利要求174所述的方法,其中该第一核碱基是胞嘧啶并且该第二个核碱基是胸苷抑或该第一核碱基是腺嘌呤并且该第二核碱基是鸟嘌呤。
176.如权利要求175所述的方法,进一步包括将第三核碱基转换为第四核碱基。
177.如权利要求176所述的方法,其中该第三核碱基是鸟嘌呤并且第四核碱基是腺嘌呤抑或该第三核碱基是胸腺嘧啶并且该第四核碱基是胞嘧啶。
178.一种用于最优碱基编辑的方法,该方法包括使靶核苷酸序列中的靶核碱基与胞苷碱基编辑器接触,该胞苷碱基编辑器包括(i)多核苷酸可编程的DNA结合结构域和(ii)胞苷脱氨酶,其中该胞苷碱基编辑器,与包括rAPOBEC1的正准的胞苷碱基编辑器相比,以较低的假性脱氨反应在靶核苷酸序列中使靶核碱基脱氨基。
179.如权利要求178所述的方法,其中该胞苷碱基编辑器,与正准的胞苷碱基编辑器相比,以更高效率使靶核碱基脱氨基。
180.如权利要求178或179所述的方法,其中该正准的胞苷碱基编辑器进一步包括尿嘧啶糖基化酶抑制剂(UGI)结构域。
181.如权利要求180所述的方法,其中该正准的胞苷碱基编辑器是BE3或BE4。
182.如权利要求178至181中任一项所述的方法,其中如藉由顺式/反式脱氨反应测定所测量的,该胞苷碱基编辑器,与正准的胞苷碱基编辑器相比,生成的假性脱氨反应至少降低20%、30%、50%、70%、或90%。
183.如权利要求182所述的方法,其中该胞苷碱基编辑器,与正准的胞苷碱基编辑器相比,具有至少50%、60%、70%、80%、90%、95%、100%、105%、110%、115%、120%、或更多的顺式活性。
184.如权利要求182所述的方法,其中该胞苷碱基编辑器,与正准的胞苷碱基编辑器相比,具有至少低2、5、10、15、20、25、30、35、40、45、50、60、或更多倍的反式活性。
185.如权利要求178至184中任一项所述的方法,其中该胞苷脱氨酶是
(a)APOBEC-1,其来自黄金仓鼠(MaAPOBEC-1)、婆罗洲猩猩(PpAPOBEC-1)、穴兔(OcAPOBEC-1)、灰短尾负鼠(MdAPOBEC-1)、或美国短吻鳄(AmAPOBEC-1);
(b)APOBEC-2,其来自婆罗洲猩猩(PpAPOBEC-2)、家牛(BtAPOBEC-2)、或欧洲猪(SsAPOBEC-2);
(c)APOBEC-4,其来自食蟹猕猴(MfAPOBEC-4);
(d)AID,其来自犬(ClAID)或家牛(BtAID);
(e)酵母胞嘧啶脱氨酶(yCD),其来自酿酒酵母;
(f)APOBEC-3F,其来自川金丝猴(RrA3F);或
(g)具有与(a)至(f)中任一蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
186.如权利要求178至184中任一项所述的方法,其中该胞苷脱氨酶是AID,其来自犬(ClAID),家牛(BtAID),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
187.如权利要求178至184中任一项所述的方法,其中该胞苷脱氨酶是APOBEC-3F,其来自川金丝猴(RrA3F),或具有与前述蛋白至少80%、85%、90%、95%、96%、97%、98%、或99%相同氨基酸序列的胞苷脱氨酶。
188.如权利要求178至184中任一项所述的方法,其中该胞苷脱氨酶包括改变,其选自于由以下所组成的群组:R15X、R16X、H21X、R30X、R33X、K34X、R52X、K60X、R118X、H121X、H122X、R126X、R128X、R169X、R198X、T36X、H53X、V62X、L88X、W90X、Y120X、和R132X(如SEQ IDNO:1中所编号的)抑或所述改变的相应改变,其中X是任一氨基酸。
189.如权利要求188所述的方法,其中该胞苷脱氨酶包括改变,其选自于由以下所组成的群组:R15A、R16A、H21A、R30A、R33A、K34A、R52A、K60A、R118A、H121A、H122A、H122L、R126A、R128A、R169A、R198A、T36A、H53A、V62A、L88A、W90F、W90A、Y120F、Y120A、H121R、H122R、R126E、W90Y、和R132E(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
190.如权利要求188或189所述的方法,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:K34A+R33A、K34A+H122A、K34A+Y120F、K34A+R52A、K34A+H122A、K34A+H121A、W90A+R126E、W90Y+R126E、H121R+H122R、R126+R132E、W90Y+R132E、和W90Y+R126E+R132E(如SEQ ID NO:1中所编号的)或所述改变的组合的相应改变的组合。
191.如权利要求178至184中任一项所述的方法,其中该胞苷脱氨酶包括位于位置Y120F的改变和一个或多个改变,其选自于由以下所组成的群组:R33A、W90F、K34A、R52A、H122A、和H121A(如SEQ ID NO:1中所编号的),抑或一个或多个所述改变的相应改变。
192.如权利要求178至184中任一项所述的方法,其中该胞苷脱氨酶包括位于位置Y130X或R28X的改变(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变,其中X是任一氨基酸。
193.如权利要求192所述的方法,其中该胞苷脱氨酶包括Y130A改变或R28A改变(如SEQID NO:1中所编号的)抑或所述改变的相应改变。
194.如权利要求192或193所述的方法,其中该胞苷脱氨酶包括改变Y130A和R28A(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变。
195.如权利要求178至184中任一项所述的方法,其中该胞苷脱氨酶包括位于位置H122X、K34X、R33X、W90X、和R128X的改变(如SEQ ID NO:1中所编号的)抑或所述改变的相应改变,其中X是任一氨基酸。
196.如权利要求195所述的方法,其中该胞苷脱氨酶包括改变,其选自于由以下所组成的群组:H122A、K34A、R33A、W90F、W90A、和R128A(如SEQ ID NO:1中所编号的),抑或所述改变的相应改变。
197.如权利要求195或196所述的方法,其中该胞苷脱氨酶包括一改变的组合,其改变选自于由以下所组成的群组:R33A+K34A、W90F+K34A、R33A+K34A+W90F、和R33A+K34A+H122A+W90F(如SEQ ID NO:1中所编号的)或所述改变的组合的相应改变的组合。
198.如权利要求178至184中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MTSEKGPSTGDPTLRRRIESWEFDVFYDPRELRKETCLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERRFHSSISCSITWFLSWSPCWECSQAIREFLSQHPGVTLVIYVARLFWHMDQRNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLAFFRLHLQNCHYQTIPPHILLATGLIHPSVTWR。
199.如权利要求178至184中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MKPQIRDHRPNPMEAMYPHIFYFHFENLEKAYGRNETWLCFTVEIIKQYLPVPWKKGVFRNQVDPETHCHAEKCFLSWFCNNTLSPKKNYQVTWYTSWSPCPECAGEVAEFLAEHSNVKLTIYTARLYYFWDTDYQEGLRSLSEEGASVEIMDYEDFQYCWENFVYDDGEPFKRWKGLKYNFQSLTRRLREILQ。
200.如权利要求178至184中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MADSSEKMRGQYISRDTFEKNYKPIDGTKEAHLLCEIKWGKYGKPWLHWCQNQRMNIHAEDYFMNNIFKAKKHPVHCYVTWYLSWSPCADCASKIVKFLEERPYLKLTIYVAQLYYHTEEENRKGLRLLRSKKVIIRVMDISDYNYCWKVFVSNQNGNEDYWPLQFDPWVKENYSRLLDIFWESKCRSPNPW。
201.如权利要求178至184中任一项所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括氨基酸序列,其与如下氨基酸序列具有至少80%同一性:
MDPQRLRQWPGPGPASRGGYGQRPRIRNPEEWFHELSPRTFSFHFRNLRFASGRNRSYICCQVEGKNCFFQGIFQNQVPPDPPCHAELCFLSWFQSWGLSPDEHYYVTWFISWSPCCECAAKVAQFLEENRNVSLSLSAARLYYFWKSESREGLRRLSDLGAQVGIMSFQDFQHCWNNFVHNLGMPFQPWKKLHKNYQRLVTELKQILREEPATYGSPQAQGKVRIGSTAAGLRHSHSHTRSEAHLRPNHSSRQHRILNPPREARARTCVLVDASWICYR。
202.如权利要求198所述的胞苷碱基编辑器,其中该胞苷脱氨酶包括H122A改变。
203.如权利要求178至202中任一项所述的方法,其中所述接触是在细胞中执行。
204.如权利要求203所述的方法,其中该细胞是人类细胞或哺乳动物细胞。
205.如权利要求204所述的方法,其中所述接触是在体内或离体。
206.包括氨基酸序列的胞苷脱氨酶,该氨基酸序列与选自于以下的氨基酸序列具有至少80%同一性:
MTSEKGPSTGDPTLRRRIESWEFDVFYDPRELRKETCLLYEIKWGMSRKIWRSSGKNTTNHVEVNFIKKFTSERRFHSSISCSITWFLSWSPCWECSQAIREFLSQHPGVTLVIYVARLFWHMDQRNRQGLRDLVNSGVTIQIMRASEYYHCWRNFVNYPPGDEAHWPQYPPLWMMLYALELHCIILSLPPCLKISRRWQNHLAFFRLHLQNCHYQTIPPHILLATGLIHPSVTWR;
MKPQIRDHRPNPMEAMYPHIFYFHFENLEKAYGRNETWLCFTVEIIKQYLPVPWKKGVFRNQVDPETHCHAEKCFLSWFCNNTLSPKKNYQVTWYTSWSPCPECAGEVAEFLAEHSNVKLTIYTARLYYFWDTDYQEGLRSLSEEGASVEIMDYEDFQYCWENFVYDDGEPFKRWKGLKYNFQSLTRRLREILQ;
MADSSEKMRGQYISRDTFEKNYKPIDGTKEAHLLCEIKWGKYGKPWLHWCQNQRMNIHAEDYFMNNIFKAKKHPVHCYVTWYLSWSPCADCASKIVKFLEERPYLKLTIYVAQLYYHTEEENRKGLRLLRSKKVIIRVMDISDYNYCWKVFVSNQNGNEDYWPLQFDPWVKENYSRLLDIFWESKCRSPNPW;和
MDPQRLRQWPGPGPASRGGYGQRPRIRNPEEWFHELSPRTFSFHFRNLRFASGRNRSYICCQVEGKNCFFQGIFQNQVPPDPPCHAELCFLSWFQSWGLSPDEHYYVTWFISWSPCCECAAKVAQFLEENRNVSLSLSAARLYYFWKSESREGLRRLSDLGAQVGIMSFQDFQHCWNNFVHNLGMPFQPWKKLHKNYQRLVTELKQILREEPATYGSPQAQGKVRIGSTAAGLRHSHSHTRSEAHLRPNHSSRQHRILNPPREARARTCVLVDASWICYR。
CN202080026310.4A 2019-01-31 2020-01-31 脱氨反应脱靶减低的核碱基编辑器和使用其修饰核碱基靶序列的方法 Pending CN114072509A (zh)

Applications Claiming Priority (7)

Application Number Priority Date Filing Date Title
US201962799702P 2019-01-31 2019-01-31
US62/799,702 2019-01-31
US201962835456P 2019-04-17 2019-04-17
US62/835,456 2019-04-17
US201962941569P 2019-11-27 2019-11-27
US62/941,569 2019-11-27
PCT/US2020/016288 WO2020160517A1 (en) 2019-01-31 2020-01-31 Nucleobase editors having reduced off-target deamination and methods of using same to modify a nucleobase target sequence

Publications (1)

Publication Number Publication Date
CN114072509A true CN114072509A (zh) 2022-02-18

Family

ID=71842357

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080026310.4A Pending CN114072509A (zh) 2019-01-31 2020-01-31 脱氨反应脱靶减低的核碱基编辑器和使用其修饰核碱基靶序列的方法

Country Status (8)

Country Link
US (1) US20220136012A1 (zh)
EP (1) EP3918077A4 (zh)
JP (1) JP2022521460A (zh)
KR (1) KR20210124280A (zh)
CN (1) CN114072509A (zh)
AU (1) AU2020216484A1 (zh)
CA (1) CA3127494A1 (zh)
WO (1) WO2020160517A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023216415A1 (zh) * 2022-05-10 2023-11-16 中山大学 基于双分子脱氨酶互补的碱基编辑系统及其应用

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
WO2019139645A2 (en) 2017-08-30 2019-07-18 President And Fellows Of Harvard College High efficiency base editors comprising gam
KR20210143230A (ko) 2019-03-19 2021-11-26 더 브로드 인스티튜트, 인코퍼레이티드 뉴클레오티드 서열을 편집하기 위한 방법 및 조성물
CN116096873A (zh) 2020-05-08 2023-05-09 布罗德研究所股份有限公司 同时编辑靶标双链核苷酸序列的两条链的方法和组合物
EP4313118A1 (en) * 2021-03-26 2024-02-07 Beam Therapeutics Inc. Adenosine deaminase variants and uses thereof
WO2022261509A1 (en) * 2021-06-11 2022-12-15 The Broad Institute, Inc. Improved cytosine to guanine base editors
WO2023034959A2 (en) * 2021-09-03 2023-03-09 The University Of Chicago Polypeptides and methods for modifying nucleic acids
WO2023086953A1 (en) * 2021-11-11 2023-05-19 Beam Therapeutics Inc. Compositions and methods for the treatment of hereditary angioedema (hae)
WO2023248110A1 (en) * 2022-06-20 2023-12-28 Crispr Therapeutics Ag Base editing proteins and uses thereof

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105934516A (zh) * 2013-12-12 2016-09-07 哈佛大学的校长及成员们 用于基因编辑的cas变体
US20170121693A1 (en) * 2015-10-23 2017-05-04 President And Fellows Of Harvard College Nucleobase editors and uses thereof
WO2018027078A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
WO2018176009A1 (en) * 2017-03-23 2018-09-27 President And Fellows Of Harvard College Nucleobase editors comprising nucleic acid programmable dna binding proteins
WO2018213726A1 (en) * 2017-05-18 2018-11-22 The Broad Institute, Inc. Systems, methods, and compositions for targeted nucleic acid editing
WO2018218188A2 (en) * 2017-05-25 2018-11-29 The General Hospital Corporation Base editors with improved precision and specificity

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105934516A (zh) * 2013-12-12 2016-09-07 哈佛大学的校长及成员们 用于基因编辑的cas变体
US20170121693A1 (en) * 2015-10-23 2017-05-04 President And Fellows Of Harvard College Nucleobase editors and uses thereof
WO2018027078A1 (en) * 2016-08-03 2018-02-08 President And Fellows Of Harard College Adenosine nucleobase editors and uses thereof
WO2018176009A1 (en) * 2017-03-23 2018-09-27 President And Fellows Of Harvard College Nucleobase editors comprising nucleic acid programmable dna binding proteins
WO2018213726A1 (en) * 2017-05-18 2018-11-22 The Broad Institute, Inc. Systems, methods, and compositions for targeted nucleic acid editing
WO2018218188A2 (en) * 2017-05-25 2018-11-29 The General Hospital Corporation Base editors with improved precision and specificity

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SAWYER, S.L.等: "RecName: Full=C->U-editing enzyme APOBEC-1; AltName: Full=Apolipoprotein B mRNA-editing enzyme 1; AltName: Full=mRNA(cytosine(6666)) deaminase 1", NCBI PROTEIN, 5 December 2018 (2018-12-05), pages 694 *
YI YU等: "Cytosine base editors with minimized unguided DNA and RNA off-target events and high on-target activity", NATURE COMMUNICATIONS, vol. 11, 28 April 2020 (2020-04-28), pages 1 - 10 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023216415A1 (zh) * 2022-05-10 2023-11-16 中山大学 基于双分子脱氨酶互补的碱基编辑系统及其应用

Also Published As

Publication number Publication date
EP3918077A1 (en) 2021-12-08
EP3918077A4 (en) 2023-03-29
CA3127494A1 (en) 2020-08-06
US20220136012A1 (en) 2022-05-05
WO2020160517A1 (en) 2020-08-06
KR20210124280A (ko) 2021-10-14
AU2020216484A1 (en) 2021-07-29
JP2022521460A (ja) 2022-04-08

Similar Documents

Publication Publication Date Title
US20220401530A1 (en) Methods of substituting pathogenic amino acids using programmable base editor systems
CN114072509A (zh) 脱氨反应脱靶减低的核碱基编辑器和使用其修饰核碱基靶序列的方法
EP3790963A1 (en) Methods of editing single nucleotide polymorphism using programmable base editor systems
CN114072496A (zh) 腺苷脱氨酶碱基编辑器及使用其修饰靶标序列中的核碱基的方法
AU2020223060B2 (en) Compositions and methods for treating hemoglobinopathies
JP2022546608A (ja) 新規核酸塩基エディター及びその使用方法
CN114040970A (zh) 使用腺苷脱氨酶碱基编辑器编辑疾病相关基因的方法,包括遗传性疾病的治疗
JP2022500017A (ja) 核酸塩基編集システムを送達するための組成物および方法
CN114190093A (zh) 使用腺苷酸脱氨酶碱基编辑器破坏疾病相关基因的剪接受体位点,包括用于治疗遗传性疾病
EP3972654A1 (en) Methods of editing a single nucleotide polymorphism using programmable base editor systems
EP3923994A1 (en) Compositions and methods for treating alpha-1 antitrypsin deficiency
EP4022050A2 (en) Compositions and methods for editing a mutation to permit transcription or expression
CN114929287A (zh) 用于治疗乙型肝炎的组合物和方法
CN114026237A (zh) 用于治疗1a型糖原贮积病的组成物和方法
AU2022224054A1 (en) Recombinant rabies viruses for gene therapy
AU2022343725A1 (en) Viral guide rna delivery
EP4313118A1 (en) Adenosine deaminase variants and uses thereof
WO2023086953A1 (en) Compositions and methods for the treatment of hereditary angioedema (hae)

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination