CN117321202A

CN117321202A - 具有宽松pam要求的双链dna的编辑

Info

Publication number: CN117321202A
Application number: CN202280022831.1A
Authority: CN
Inventors: 张楹; 史亚晶
Original assignee: Wuhan University WHU
Current assignee: Wuhan University WHU
Priority date: 2021-02-19
Filing date: 2022-02-21
Publication date: 2023-12-29
Also published as: WO2022174829A8; WO2022174829A1

Abstract

本公开提供了新的Cas蛋白，这些新的Cas蛋白能够进行具有宽松PAM要求的基因编辑，或者当靶向负超螺旋双链DNA时甚至不需要PAM。进一步发现，负超螺旋双链DNA通常降低或者甚至消除所有Cas蛋白的PAM要求。因此，本公开提供了用于进行具有宽松PAM要求或没有PAM要求的基因编辑的组合物和方法，该基因编辑包括碱基编辑和引导编辑。

Description

具有宽松PAM要求的双链DNA的编辑

技术领域

本公开涉及基因工程领域，并且更具体地涉及基因修饰领域。

背景技术

CRISPR/Cas(成簇的规律间隔的短回文重复序列和CRISPR相关蛋白)系统存在于90％的古细菌和约40％的细菌中，充当适应性免疫机制以保护宿主免受核酸侵入。CRISPR/Cas系统含有由相同重复序列组成的CRISPR阵列，这些相同重复序列与获自外源侵入物的作为“间隔区”的独特序列交织，并且它们的相邻cas基因作为它们的主要组分。当被外来DNA侵入时，CRISPR阵列被转录并加工成CRISPR RNA(crRNA)。Cas蛋白在crRNA和反式激活RNA(tracrRNA)的引导下，起到切割与crRNA互补的靶DNA的作用。

为了区分自身与非自身，CRISPR系统已经展现出对位于侵入物序列中的原型间隔区相邻基序(PAM)的偏好性。PAM序列在cas直系同源物间是不同的。PAM识别和结合在启动局部DNA解旋和随后的切割中是至关重要的。目前用于DNA解旋的模型包括Cas9搜索并且与PAM位点结合，随后形成从PAM位点延伸的定向R-环。Cas9的PAM相互作用(PI)结构域与PAM碱基和脱氧核糖-磷酸主链形成若干个氢键，并且这种相互作用被认为是充当启动靶链解旋的锚定点。PAM的突变可消除R-环的形成，从而抑制Cas9活性。

在已表征的CRISPR/Cas系统中，II型Cas9蛋白，特别是酿脓链球菌(Streptococcus pyogenes)Cas9(SpCas9)是最稳健的，并且广泛用于基因组编辑。由可编程的单向导RNA(sgRNA)系统引导的SpCas9在与NGG PAM(N＝A、T、C或G)相邻的序列处有效地切割靶DNA，并导致平端双链断裂。基于SpCas9，新技术诸如碱基编辑器和引导编辑器分别实现了将一个或几个DNA碱基变成另一个或几个DNA碱基的位点特异性转化。这些新工具已经引起了对开发新疗法的极大兴趣，因为大多数遗传性疾病是由点突变和小的缺失/插入引起的，并且纠正这些突变是治愈这些遗传性疾病的唯一方式。由于靶向纠正位点的非柔性，碱基编辑器和引导编辑器受限于限制性编辑窗口。因此，PAM要求已经成为鉴定高效gRNA的主要障碍。为了增加SpCas9的靶向范围，一些研究已经采用了蛋白质工程策略，以将PAM放宽至NG或RY(R＝A或G，Y＝C或T)，其总共仅覆盖约56％的序列。其他Cas直系同源物，诸如Cas12a和SaCas9，也用于更广范围的PAM序列。尽管这些变体在扩展Cas9蛋白的潜在靶向间隔区方面具有一定作用，但携带大多数非经典PAM的靶标仍然是有效基因组编辑的限制因素。

发明内容

本公开报道了新的Cas蛋白的发现，这些新的Cas蛋白能够进行具有宽松原型间隔区相邻基序(PAM)要求的基因编辑，或者当靶向负超螺旋双链DNA时甚至不需要PAM。进一步发现，负超螺旋双链DNA通常降低或者甚至消除所有Cas蛋白的PAM要求。因此，本公开提供了用于进行具有宽松PAM要求或没有PAM要求的基因编辑的组合物和方法，该基因编辑包括碱基编辑和引导编辑。

在一个实施方案中，本公开提供了一种用于编辑靶核酸的方法，该方法包括使该靶核酸与CRISPR-Cas系统接触，该CRISPR-Cas系统包含：来源于脂环酸芽孢杆菌属(Alicyclobacillus sp.)的Cas9蛋白或其功能变体，其中该功能变体与来源于脂环酸芽孢杆菌属的Cas9蛋白具有至少70％序列同一性；和向导RNA，该向导RNA包含与该靶核酸中的靶序列杂交的指导序列，其中该靶序列(a)与包含CNNN和RNNA的原型间隔区相邻基序(PAM)相邻，其中R是A或G，并且每个N独立地是A、T、C或G，或者(b)具有欠旋(underwound)拓扑结构。

在一些实施方案中，Cas9蛋白来源于腾冲脂环酸芽孢杆菌(Alicyclobacillustengchongensis)、橙皮脂环酸芽孢杆菌(Alicyclobacillus hesperidum)或糖脂环酸芽孢杆菌(Alicyclobacillus Sacchari)。在一些实施方案中，来源于脂环酸芽孢杆菌属的Cas9蛋白包含SEQ ID NO:84或SEQ ID NO:85的氨基酸序列。

在一些实施方案中，靶序列是负超螺旋DNA、凸起的(bulged)双链DNA或Z-DNA。在一些实施方案中，凸起的DNA在距靶序列的互补序列的3'的1至10个位置内具有一个或多个连续的未配对碱基。在一些实施方案中，具有欠旋拓扑结构的靶序列不包括PAM。

在一个实施方案中，还提供了突变Cas9蛋白，其包含(a)在选自E530、S531、L536、L602、D603、V604、T605、R1065、E1066、D1068、D1089、S1091、G1092、T1094、L1095和T1096的残基处具有至少一个突变的SEQ ID NO:84，或(b)与SEQ ID NO:84具有至少70％序列同一性同时保留(a)的突变的序列。

在一些实施方案中，该突变选自E530A、S531R、L536T、L602I、D603N、V604L、T605G、R1065A、E1066K、D1068K、D1068R、D1089A、D1089E、S1091A、G1092A、T1094A、L1095A和T1096A。

在一些实施方案中，该突变在D1089或T1096处。在一些实施方案中，该突变是D1089A或T1096A或它们的组合。

在另一个实施方案中，还提供了融合蛋白，其包含突变Cas9蛋白和核碱基脱氨酶或逆转录酶。

在一个实施方案中，还提供了一种用于编辑靶核酸的方法，该方法包括使该靶核酸与CRISPR-Cas系统接触，该CRISPR-Cas系统包含：Cas蛋白，该Cas蛋白具有靶向线性双链DNA所需的对应原型间隔区相邻基序(PAM)；和向导RNA，该向导RNA包含与该靶核酸中的靶序列杂交的指导序列，该靶序列与靶PAM序列相邻，其中该靶序列具有欠旋拓扑结构并且该靶PAM序列不是Cas蛋白的对应PAM。

在一些实施方案中，Cas蛋白是SpCas9并且对应PAM是NGG，其中N是A、T、C或G。在一些实施方案中，靶PAM序列是NAG或NGA。

在一些实施方案中，Cas蛋白是FnCas9并且对应PAM是NGG，其中N是A、T、C或G。在一些实施方案中，靶PAM序列是NGA。

在一些实施方案中，Cas蛋白是SaCas9并且对应PAM是NNGRRT，其中每个N独立地是A、G、C或T，并且每个R独立地是A或G。在一些实施方案中，靶PAM序列是NNGRRV，其中V是A、C或G。

在一些实施方案中，Cas蛋白是NmeCas9并且对应PAM是NNNNGATT，其中每个N独立地是A、G、C或T。在一些实施方案中，靶PAM序列是NNNNGCTT、NNNNGTTT、NNNNGACT、NNNNGATA、NNNNGTCT或NNNNGACA。

在一些实施方案中，Cas蛋白是AsCas12a并且对应PAM是TTTV，其中V是A、C或G。在一些实施方案中，靶PAM序列是CTTV、TCTV或TTCV。

在一些实施方案中，Cas蛋白是AtCas9并且对应PAM是CNNN和RNNA，其中每个N独立地是A、T、C或G，并且R是A或G。在一些实施方案中，靶PAM序列是除CNNN和RNNA之外的任何序列。

另一个实施方案提供了一种用于编辑靶核酸的方法，该方法包括使该靶核酸与CRISPR-Cas系统接触，该CRISPR-Cas系统包含：Cas蛋白和向导RNA，该向导RNA包含与该靶核酸中的靶序列杂交的指导序列，其中该Cas蛋白或该向导RNA与能够改变该靶核酸的拓扑结构的酶共价或非共价偶联。

在一些实施方案中，Cas蛋白与该酶融合。在一些实施方案中，Cas蛋白和该酶各自与可彼此结合的对应蛋白配偶体融合。在一些实施方案中，这两个对应配偶体是配体和对应受体。

还提供了一种融合蛋白，该融合蛋白包含Cas蛋白和能够改变双链DNA的拓扑结构的酶。

在一些实施方案中，该酶能够减少靶核酸的正超螺旋或增加靶核酸的负超螺旋。在一些实施方案中，该酶选自非特异性大肠杆菌热不稳定(HU)蛋白、UvrD解旋酶、Rep解旋酶、PcrA解旋酶、Dda解旋酶、RecQ解旋酶、eIF4A解旋酶、WRN解旋酶、NS3解旋酶、TRCF(Mfd)解旋酶、Ltag解旋酶、E1解旋酶、Rep解旋酶、DnaB解旋酶、gp41解旋酶、T7gp4解旋酶、Rho解旋酶、DNA解旋酶B(HELB)、RecD解旋酶、RecBCD解旋酶、Pif1解旋酶和Rrm3解旋酶。

在这些方法中的任何方法的一个实施方案中，向导RNA是crRNA、单向导RNA或引导编辑向导RNA(pegRNA)。在一些实施方案中，Cas蛋白与核碱基脱氨酶或逆转录酶融合。在一些实施方案中，核碱基脱氨酶是失活的核碱基脱氨酶。

附图说明

图1示出了AtCas9催化的dsDNA切割的体外表征。A.腾冲脂环酸芽孢杆菌物种中的CRISPR-Cas9基因座的示意图，其具有Cas9、Cas1和Cas2、tracrRNA和CRISPR阵列。黑色菱形表示间隔区。B.在8％ SDS-PAGE上分析纯化的Cas9直系同源物、它们的相应突变体和反向旋转酶，并用考马斯亮蓝染色。AtCas9的预测分子量为约130kD。C.进行体外切割测定以确定用于AtCas9的最佳条件。评估温度范围、动力学、镁浓度和pH。将以1:1摩尔比与21a-crRNA和tracrRNA预先复合的50nM AtCas9蛋白和带有21a原型间隔区的3nM线性dsDNA底物一起孵育30分钟。将所切割的产物在1％ TAE凝胶中检测。M，DNA标记物；NC，阴性对照(仅加入DNA模板)。

图2示出了体内PAM鉴定。A.大肠杆菌中的PAM鉴定的示意图。将具有21a原型间隔区和8-nt随机化PAM序列的PAM文库质粒转化到携带以下质粒的大肠杆菌中：该质粒携带AtCas9基因座、SpCas9(其相当于图中的SpyCas9)基因座或媒介物(其相当于图中的载体)对照。提取质粒并遵循文库制备用于进行深度测序。B.体外切割测定表明，增加Mg²⁺浓度导致在37℃下孵育1小时时增强AtCas9活性。C.验证Mg²⁺在大肠杆菌中调节AtCas9活性的作用。将转化的大肠杆菌(描述于图2A中)在补充有指定Mg²⁺浓度的LB培养基中以37℃培养16小时。代表性图片表明，增加的Mg²⁺导致澄清的培养物裂解物(箭头)，表明高水平的Mg²⁺促进大肠杆菌中PAM文库质粒的切割。At和Sp分别代表表达AtCas9和SpCas9基因座的大肠杆菌。D.通过AtCas9蛋白(上)和SpCas9(下)蛋白耗尽大肠杆菌中的功能PAM质粒文库。将每个位置处的单个碱基的频率相对于媒介物对照进行归一化。AtCas9未表现出PAM偏好性，而SpCas9对照表现出最佳的NGG PAM。

图3表明，AtCas9表现出对负超螺旋DNA的PAM非依赖性切割。A.通过AtCas9(左)和SpCas9(右)耗尽大肠杆菌中的功能PAM文库质粒。将每个位置处的单个碱基的频率相对于其中未表达Cas9的对照进行归一化。B.用靶向的或错配的原型间隔区PAM文库质粒(圆形和方形)转染具有表达AtCas9的质粒的大肠杆菌细胞，并且每小时测量细胞密度(OD600)。对于阴性对照，将匹配的原型间隔区PAM文库质粒转染到对照大肠杆菌中(正三角形)。对于阳性对照，将表达AtCas9基因座及其与CNNA PAM匹配的原型间隔区的质粒共转染到对照大肠杆菌中(倒三角形)。At，AtCas9；mm ps，错配原型间隔区。值和误差棒反映平均值±s.d。n＝3次独立实验。C.携带21a原型间隔区和8-nt随机化PAM序列的PAM文库质粒的示意图。测试了三种DNA拓扑异构体(线性、开环和负超螺旋)的体外切割。D.将所切割的产物在0.8％琼脂糖凝胶上分离。100nM Cas9 RNP和3nM dsDNA底物在1×缓冲液16中以37℃或55℃孵育30分钟。应当注意的是，三种拓扑异构体在凝胶上的迁移不同，其中超螺旋异构体最快，然后是线性异构体和最慢的开环异构体。E.对切割效率的定量表明，当与同源crRNA和tracrRNA复合时，AtCas9 RNP在55℃下对负超螺旋PAM文库底物具有高达100％的切割效率，并且对线性或开环对应物具有约60％的切割效率。F.使用两个间隔区21a、21b以及它们的相应PAM文库底物的AtCas9和AhCas9的PAM序列的序列标识图。线性、开环和负超螺旋代表三种拓扑结构不同的文库底物。Neg.sc，负超螺旋。OC，开环。

图4表明，AtCas9和AhCas9表现出对负超螺旋DNA的PAM非依赖性切割。A.AtCas9RNP对21b-原型间隔区PAM文库质粒的体外切割。B.基于16S rRNA基因序列的邻接系统进化树，其示出了菌株腾冲脂环酸芽孢杆菌与其亲缘关系最近的橙皮脂环酸芽孢杆菌在脂环酸芽孢杆菌属中的位置。C.AhCas9对两种不同PAM文库质粒：21a-原型间隔区和21b-原型间隔区的体外切割。当与匹配的间隔区一起孵育时，AtCas9(A，图3D)和AhCas9(C)两者都显示出与线性对应物相比增加的对负超螺旋底物的切割活性。Neg.sc.，负超螺旋；OC，开环。

图5表明，与线性dsDNA相比，负超螺旋dsDNA表现出更广泛的PAM偏好性和增强的切割性。A.将50nM AtCas9 RNP复合物与3nM超螺旋或Nco I线性化质粒DNA一起孵育，该NcoI线性化质粒DNA带有与PAM(对于AtCas9为CATA)或突变PAM(对于AtCas9为TATA)互补的原型间隔区21a。对照包括减去一个或错配crRNA的组分，表明靶向切割需要匹配的crRNA和tracrRNA的存在。B.单链DNA(ssDNA)的体外切割。在存在或不存在tracrRNA的情况下，将10nM FAM标记的ssDNA与100nM AtCas9及其同源crRNA一起孵育。将所切割的产物在12％天然PAGE上分离。C.使用两种不同的crRNA 21a和27m，在它们的相应线性或超螺旋底物上进行切割效率的动力学分析，这些底物具有PAM(圆形和正三角形)或突变PAM(方形和倒三角形)。进行三次独立实验，并将数据拟合至一相指数衰减，以计算伪一阶速率常数。D.对具有PAM(CATA)或突变PAM(TAGT)的超螺旋底物的切割产物进行凝胶纯化，并用NcoI进行限制性消化。通过0.8％琼脂糖凝胶分析所消化的产物。E.Sanger测序证实了在强PAM底物和突变PAM底物两者中的PAM上游的三个碱基对处的位点特异性切割。星号表示测序伪影。三角形表示切割位点。F.(左)将3nM的16PAM组合的负超螺旋和线性化dsDNA与50nM AtCas9 RNP一起孵育。每个点代表不同的gRNA，并且数据以平均值表示。(右)通过图E左图中的AtCas9评价PAM和非PAM底物的切割效率。绘制了通过将超螺旋底物的切割效率除以线性底物的切割效率而获得的倍数变化。G.对大肠杆菌中具有16PAM组合的负超螺旋质粒的有效切割。(左)大肠杆菌中天然转化测定的示意图。通过重组将带有21a间隔区的微小AtCas9 CRISPR基因座插入大肠杆菌lacA基因座中。用具有十六种PAM组合的质粒转化表达AtCas9的大肠杆菌，这些质粒带有21a间隔区的互补序列或错配的序列(EGFP)。(右)对来自六个独立实验的总细胞(浅灰色柱)和卡那霉素抗性(黑色柱)转化体进行菌落形成单位(CFU)/ml的定量。进行学生-t检验。***p＜0.0001。

图6表明，AtCas9和AhCas9介导的PAM非依赖性切割需要crRNA和tracrRNA两者。A.AhCas9对具有野生型或突变型PAM的线性或负超螺旋DNA的体外切割测定。突变位点带有下划线(即，TAGT中的第一个T和最后一个T以及ATCA中的第一个A和最后一个A)。B.Atcas9或AhCas9显示出对超螺旋DNA的可编程的PAM非依赖性切割。使用五个不同间隔区以及它们具有突变PAM的对应原型间隔区底物。AtCas9和AhCas9两者都对超螺旋DNA表现出高达100％的切割，而对线性底物表现出减少的切割或没有切割。S，负超螺旋；L，线性。

图7示出了AtCas9和AhCas9切割DNA的动力学分析。A至D，对具有WT PAM或MUT PAM的线性化质粒DNA、超螺旋质粒DNA的速率常数的比较。21a间隔区、27m间隔区(图5b的原始数据)以及它们的具有WT PAM或突变PAM的对应原型间隔区用于AtCas9介导的切割(A至B)，而21a间隔区用于AhCas9介导的切割(C)。突变PAM带有下划线(图7A中“TATA”中的第一个“T”和“ATAT”中的第一个“A”；图7B中“TGAC”中的“T”和“ACTG”中的“A”；图7C中“TAGT”中的两个“T”和“ATCA”中的两个“A”)。PAMm表示PAM mut。D.将数据拟合至一相指数衰减，以计算伪一阶速率常数。进行三次独立实验。

图8表明，测序结果显示AtCas9产生平端切割产物。将PCR产生的带有原型间隔区EMX1-3或21a的线性底物与AtCas9 RNP一起孵育(左)。对切割的产物进行纯化并测序(右)。Sanger测序迹线表明，AtCas9在PAM上游的三个碱基对处产生平端。三角形表示dsDNA的断裂点。3'末端A或T突出端(星号)是测序反应的伪影。TS：靶链，NTS：非靶链。

图9示出了正超螺旋质粒的制备和切割。A.通过将负超螺旋DNA与反向旋转酶以1:1、1:10、1:50的各种摩尔比孵育，产生正超螺旋质粒。在不含氯喹(左)或含20μM氯喹(右)的琼脂糖凝胶中分析不同拓扑异构体。反向旋转酶是IV型拓扑异构酶，其将正超螺旋引入DNA中。应当注意的是，在氯喹(一种已知通过使DNA过旋来调节DNA拓扑结构的DNA嵌入剂)的存在下，负超螺旋表现出各种拓扑异构体。随着R.G./DNA的摩尔比增加，在50:1的比例下观察到均匀且紧密的正超螺旋异构体。Posi.sc，正超螺旋；Neg.sc.，负超螺旋；R.G.，反向旋转酶；σ，超螺旋密度。B.对三种拓扑结构不同的底物的体外切割测定：具有上述不同超螺旋密度(σ)的负超螺旋、线性和正超螺旋质粒。使用21a原型间隔区。

图10表明，由其拓扑结构引导的DNA解旋促进dsDNA切割。A.对三种拓扑结构不同的底物的体外切割测定：具有不同超螺旋密度(σ)的负超螺旋、线性或正超螺旋质粒。进行切割效率的定量(参见图9B)。N＝3。Posi.sc，正超螺旋；Neg.sc.，负超螺旋；R.G.，反向旋转酶；σ，超螺旋密度。B.在C和D中使用的DNA底物的示意图。通过在不同位置处使NTS链突变来产生长度为2nt至3nt的凸起的DNA。TS，靶链；NTS，非靶链；C.对凸起的DNA底物的体外切割。对照：对照凸起；w/o，无。*表示带切口的产物。D.对使用凸起的MUT PAM底物的切割效率的动力学分析(参见图11)。一式三份地进行所切割的产物的定量。0、1-2、3-4、5-6、19-20、21-22、23-25凸起的K_切割±SD值分别为0.023±1.4min^-1、0.799±1.64min^-1、0.557±2.746min^-1、0.608±1.377min^-1、0.095±1.35min^-1、0.09±0.482min^-1、0.065±0.568min^-1。E.(左)三种拓扑异构底物的示意图：CC，两个互补单链(ss)DNA环的杂交，是Z-B嵌合环状DNA；CL，互补ssDNA环和ssDNA的杂交，是B型开环异构体；LL，两个互补ssDNA的杂交，是B型线性异构体；Z-B，Z-B嵌合体；Z，Z型DNA；B，B型DNA。Z6和Z7代表靶向Z型DNA的两个间隔区。(右)对携带WT或MUT PAM的Z型DNA的体外切割。

图11示出了对使用凸起的突变PAM底物的切割效率的动力学分析。A.在指定时间时，将在非靶向链和突变型PAM(TATA)处携带2个碱基凸起的10nM 120bp寡核苷酸与100nMAtCas9 RNP一起孵育，并将所切割的产物在12％天然PAGE上分离(图10D的原始数据，也参见图10B的凸起说明)。随着时间增加，含有PAM近端凸起的底物被较快切割，而具有PAM远端凸起的底物具有较慢的动力学。B.在存在或不存在tracrRNA的情况下，通过AtCas9及其同源crRNA来切割凸起的突变PAM dsDNA(120bp)或靶ssDNA(120nt)(参见图10B的凸起说明)。

图12通过核酸酶S1验证B-Z DNA嵌合体。(左)8％天然PAGE示出了三种89nt-拓扑异构体之间的迁移差异。LL是通过使两个互补的寡核苷酸杂交来制备的，并且是B型线性异构体。CL是通过使环状的和互补的线性寡核苷酸杂交来制备的，并且是B型开环异构体。CC代表两个互补的环状ssDNA的杂交，并且是Z-B嵌合体环状异构体。(右)核酸酶S1识别并消化CC B-Z嵌合体中的B-Z连接。将所消化的产物在12％天然PAGE上分离。S1：S1核酸酶。

图13表明，dAtCas9对欠旋DNA显示出更高的结合亲和力。A.AtCas9结构域结构的示意图，其示出了RuvC和HNH核酸酶结构域突变位点。BH，富含精氨酸的桥螺旋；REC，识别叶；L1，接头1；L2，接头2；WED，楔形结构域；TOPO，拓扑异构酶-同源结构域；CTD，C末端结构域；HNH，HNH结构域；D，天冬氨酸；H，组氨酸；N，天冬酰胺；A，丙氨酸。B.(左)通过在不含Mg²⁺的缓冲液16中孵育AtCas9 RNP与25nM Cy5标记的寡核苷酸(50bp)来进行电泳迁移率变动分析(EMSA)。SpCas9显示出足够的结合，但对于AtCas9没有观察到结合。(右)在Mg²⁺的存在下，将催化失活的AtCas9(dAtCas9，D8AH617AN640A)用于EMSA测定。C.通过EMSA测定来测量RNA编程的dAtCas9复合物对4nM 5'cy5标记的寡核苷酸(50bp)的结合亲和力。凸起的底物细节示于图10B中。PAM(0凸起)的KD±SD，22.37±10.9nM；突变PAM(0凸起)的KD±SD，248.2±4.5nM；突变PAM(1-2凸起)的KD±SD，29.46±12.2nM。使用MUT PAM TATA和WT PAM CTAA。D.与线性dsDNA相比，AtCas9 RNP对负超螺旋dsDNA的结合亲和力更高。将1nM cy5标记的负超螺旋质粒或含有PAM(CTAA)或突变型PAM(TGAC)基序的NcoI线性化质粒与dAtCas9 RNP复合物以指定剂量一起孵育。ProK，蛋白酶K。

图14表明，DNA拓扑结构内存在的扭矩普遍用于调节Cas活性。A.不同Cas系统对线性或超螺旋PAM文库底物的体外切割。与线性拓扑异构体相比，与其同源双RNA复合的每个Cas直系同源物显示出对负超螺旋的切割活性增加约10至100倍。将50nM RNP和3nM底物在最佳温度下孵育30分钟。S，负超螺旋；L，线性；OC，开环；W/O，无。B.使用21a间隔区的SpCas9的PAM序列的序列标识图。线性和负超螺旋代表两种拓扑结构不同的文库底物。Neg.sc.，负超螺旋。C.SpCas9 RNP对线性和超螺旋WT PAM(CGG)或MUT PAM(CAG、CAT)底物的体外切割在37℃下持续30分钟。S，负超螺旋。L，线性。D.通过SpCas9切割描述于图10B中的凸起的底物。

图15示出了哺乳动物细胞中AtCas9的基因组编辑活性。A.Cas9使用HNH和RuvC结构域来切割两条DNA链。将靶链(TS)和非靶链(NTS)分别用cy3和cy5标记。将所切割的产物在变性PAGE上分析。B.(上)原型间隔区21a、tracrRNA、crRNA-21a复合物的示意图。阴影区域示出了DNA切割所需的crRNA和tracrRNA的最小区域。三角形，切割位点；黑线，PAM。(下)单向导RNA(sgRNA)与双RNA系统的比较表明，工程化的sgRNA使用不同的间隔区但具有相似的切割效率。C.优化核定位信号(NLS)使得AtCas9能够进行核输入。蓝色，Hoechst染色细胞核；绿色，GFP报告基因；箭头，细胞质定位；三角，核定位。D.在两种HEK293T报告细胞系中具有不同间隔区长度的AtCas9切割活性。左，报告细胞稳定表达p53-(+1移码)-EGFP；右，报告细胞稳定表达EGFP。转染后5天对p53基因座的GFP阳性细胞(左)或EGFP基因座的GFP阴性细胞(右)进行FACS分析。值和误差棒反映平均值±S.D。n＞＝2个独立的生物学重复。E.AtCas9 sgRNA结构工程化的示意图。灰色阴影表示工程化的结构。浅灰色表示间隔区序列。Gcl 200、202或203代表表达重复序列-抗-重复序列或茎环1或茎环2结构不同的sgRNA支架的载体。F.AtCas9对具有三种sgRNA变体的EGFP基因座的切割活性。值和误差棒反映平均值±S.D。n＝5个独立的生物学重复。G.带有CNNA PAM与AtCas9的HEK293T细胞中内源性位点的插入缺失活性。通过TIDE分析评估编辑效率。靶向VEGFA位点和FANCF位点的sgRNA分别覆盖有不同水平的阴影。黑色阴影表示测定检测限为4％。H.AtCas9胞嘧啶碱基编辑器(CBE)的哺乳动物表达构建体的示意图，该CBE含有三种主要组分：胞苷脱氨酶(APOBEC-1)、Cas切口酶(AtCas9 D8A)和尿嘧啶糖基化酶抑制剂(UGI)。I.AtCas9在具有十六种PAM组合的四个不同基因座(VEGFA、RUNX1、C-MYC和EGFP)处的C到T碱基编辑效率。每个点代表一个sgRNA的编辑效率。数据被表示为平均值，并且灰色阴影是小提琴图。n＞＝2个独立的生物学重复。

图16示出了AtCas9 PAM相互作用(PI)结构域变体的工程化和表征。A.使用AtCas9PI结构域变体切割不同的PAM底物。示出了突变的氨基酸残基以及它们所使用的位置。野生型和突变型PAM分别以绿色和红色表示。B.来自Ⅱ-C型Cas9直系同源物的PAM相互作用结构域的序列比对。使用Clustal Omega(www.ebi.ac.uk/Tools/msa/clustalo/)比对NmeCas9、AtCas9和AhCas9的序列。使用默认设置在ESPript(espript.ibcp.fr/ESPript/cgi-bin/ESPript.cgi)中产生比对。含有CTD结构域的C末端序列如上所示。严格保守的残基以黑色背景上的白色字母显示。残基＞70％相似性以灰色背景上的黑色字母显示。识别NTS核苷酸G(-5)'和A(-6)'的NmeCas9 PAM相互作用残基His1024和Thr1027用箭头表示。AtCas9突变残基用黑线框出。

图17示出了对能够靶向更广泛PAM变体的AtCas9 PI结构域的工程化。A.AtCas9结构域结构的示意图，其示出了PAM相互作用(PI)突变的位置。BH，富含精氨酸的桥螺旋；REC，识别叶；L1，L1接头；L2，L2接头；WED，楔形结构域；TOPO，拓扑异构酶-同源结构域；CTD，C末端结构域；HNH，HNH结构域；RuvC，RuvC结构域；D，天冬氨酸；I，异亮氨酸；S，丝氨酸；G，甘氨酸；A，丙氨酸。B.通过WT AtCas9和两个PI突变体m4和m5切割不同PAM的负超螺旋和线性化DNA。每个PAM变体具有至少两个不同的间隔区序列，以用于切割测定。使用Image Lab软件分析切割产物的百分比并取每个PAM变体的平均值用于作图。m4，D1089A；m5，D1089AS1091A G1092A。C.通过线性化PAM文库底物切割测定来确定AtCas9 PI结构域突变体m4(D1089A)PAM的序列标识。D.用携带WT PAM(CTAA，左)或MUT PAM(TATA，右)的5'cy5标记的寡核苷酸和dAtCas9或dAtCas9-D1089A RNP复合物进行EMSA测定，滴定范围为1.2nM至2.4μM。dAtCas9和dAtCas9-D1089A对WT PAM dsDNA的KD±SD，26.16±12.05nM和44.43±15.39nM；dAtCas9和dAtCas9-D1089A对MUT PAM dsDNA的KD±SD，109±7.1nM和27.15±13.6nM。E.与wt PAM(AGG)dsDNA相比，SpCas9 RNP几乎不与mut PAM(GTC)dsDNA结合。SpCas9对WT PAM dsDNA的KD±SD，300±10.57nM；SpCas9对MUT PAM dsDNA的KD±SD，约2.495e+18nM。

图18示出了对能够在哺乳动物细胞中提高活性和靶向更广泛PAM变体的AtCas9蛋白的工程化。A.具有增加的活性的AtCas9变体的名单。通过用NmeCas9的序列替换AtCas9的单个或多个氨基酸而形成的AtCas9蛋白的不同突变体形式。B.使用gRNA-8和gRNA-25评估AtCas9变体对EGFP基因座的切割活性。对所编辑的基因组DNA进行提取、扩增和Sanger测序。通过TIDE分析测序结果，并计算突变体与野生型AtCas9相比的倍数变化编辑效率。C.D1089A AtCas9变体在具有十六种PAM组合的四个不同基因座(VEGFA、RUNX1、C-MYC和EGFP)处的C到T碱基编辑效率。每个点代表一个sgRNA的编辑效率。靶向不同PAM的sgRNA用不同颜色的点进行分组。数据被表示为平均值，并且灰色阴影是小提琴图。n＞＝2个独立的生物学重复。D.带有十六种PAM组合的负超螺旋质粒在HEK293T细胞中的体内C到T碱基编辑。将编码AtCas9-CBE的不同突变体的质粒和具有间隔区36的sgRNA与编码PAM变体的质粒共转染，并进行扩增子测序，以计算编辑效率。值和误差棒反映平均值±S.D。n＝2个独立的生物学重复。

图19示出了PAM-Cas9识别以及DNA扭矩协同确定Cas9活性的机制。当Cas9搜索其在基因组上的靶位点时，DNA拓扑结构的差异可能会影响PAM识别和DNA解旋过程。与其他Cas直系同源物相似，AtCas9通过与靶DNA中的C5形成氢键来识别其PAM。除了这种序列依赖性识别之外，AtCas9的β折叠-环-β折叠基序(以环表示)紧密地对接到dsDNA的大沟中，充当第二锚定点以启动随后的DNA解旋。欠旋DNA诸如负超螺旋和Z-DNA在结构上不同于B型DNA，并且可能具有与该基序的更强的相互作用，从而提供更长的结合时间以便使PAM突变。此外，欠旋DNA需要较少的能量来使双链体解旋，使得更容易形成R环。与非PAM结合更长时间和使DNA双链体更容易解旋的组合一起导致非PAM dsDNA在欠旋拓扑结构中的有效切割。

图20示出了多种底物的体外切割。A至C表明，AtCas9能够产生对ssDNA、ssRNA和dsDNA的位点特异性切割。A.将带有21A原型间隔区的Fam标记的单链DNA底物与AtCas9、tracrRNA及其同源21A-crRNA或错配21B-crRNA一起孵育。将所切割的产物在12％ PAGE凝胶上分离。B.将带有21A原型间隔区的Cy3标记的单链RNA与AtCas9 RNP或具有其同源21A间隔区的AhCas9 RNP一起孵育。C.AtCas9对ssDNA、dsDNA和ssRNA底物的活性的比较。在该实验中使用21A间隔区，并在缓冲液16中在指定时间点进行切割。

具体实施方式

术语和定义

术语“核酸”指任何长度的核苷酸(核糖核苷酸或脱氧核糖核苷酸)的聚合形式。因此，该术语包括但不限于单链或双链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂合体，或者包含嘌呤和嘧啶碱基或其他天然的、化学的或经生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。“寡核苷酸”通常指单链或双链DNA的约5至约100个核苷酸的多核苷酸。然而，出于本公开的目的，寡核苷酸的长度没有上限。寡核苷酸也称为“寡聚物”或“寡聚体”，并且可从基因中分离，或通过本领域已知的方法化学合成。

术语“多肽”、“肽”和“蛋白质”在本文中可互换使用，是指任何长度的氨基酸的聚合物。该聚合物可以是直链或支链的，它可包含修饰的氨基酸，并且它可被非氨基酸中断。该术语还涵盖已被修饰的氨基酸聚合物；例如二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任何其他操作，诸如与标记组分缀合。如本文所用，术语“氨基酸”包括天然和/或非天然或合成的氨基酸，包括甘氨酸以及D或L光学异构体两者，以及氨基酸类似物和肽模拟物。

“可杂交的”或“互补的”意指核酸(例如RNA)包含核苷酸的序列，该核苷酸的序列使其能够在适当的体外和/或体内温度和溶液离子强度条件下以序列特异性、反向平行的方式(即，核酸与互补核酸特异性结合)与另一核酸非共价结合(即，形成沃森-克里克碱基对和/或G/U碱基对)、“杂交”。如本领域已知的，标准的沃森-克里克碱基配对包括：腺嘌呤(A)与胸腺嘧啶(T)配对，腺嘌呤(A)与尿嘧啶(U)配对，鸟嘌呤(G)与胞嘧啶(C)配对[DNA，RNA]。杂交和洗涤条件是众所周知的，并且阐述于以下文献中：Sambrook,J.、Fritsch,E.F.和Maniatis,T.，“Molecular Cloning:ALaboratory Manual”第二版，冷泉港实验室出版社，冷泉港(1989年)，特别是其中的第11章和表11.1；以及Sambrook,J.和Russell,W.，“Molecular Cloning:ALaboratory Manual”第三版，冷泉港实验室出版社，冷泉港(2001年)。温度和离子强度的条件决定了杂交的“严格性”。杂交要求两个核酸含有互补序列，尽管碱基之间可能存在错配。适于两个核酸之间杂交的条件取决于本领域众所周知的变量，即核酸的长度和互补程度。两个核苷酸序列之间的互补程度越高，则具有这些序列的核酸杂合体的熔解温度(Tm)值就越大。对于具有短互补性片段(例如，超过35个或更少、30个或更少、25个或更少、22个或更少、20个或更少、或者18个或更少核苷酸的互补性)的核酸之间的杂交，错配的位置变得至关重要(参见Sambrook等人，出处同上，11.7-11.8)。典型地，可杂交核酸的长度为至少约10个核苷酸。可杂交的核酸的例示性最小长度为：至少约15个核苷酸；至少约20个核苷酸；至少约22个核苷酸；至少约25个核苷酸；以及至少约30个核苷酸)。此外，技术人员将认识到，温度和洗涤溶液盐浓度可根据诸如互补区域的长度和互补程度等因素而根据需要进行调节。

本文所用的“结合”(例如，关于多肽的RNA结合结构域)是指大分子之间(例如，蛋白质和核酸之间)的非共价相互作用。当处于非共价相互作用状态时，这些大分子被称为“缔合”或“相互作用”或“结合”(例如，当分子X被称为与分子Y相互作用时，是指分子X以非共价方式与分子Y结合)。结合相互作用的特征通常在于小于10^-6M、小于10^-7M、小于10^-8M、小于10^-9M、小于10^-10M、小于10^-11M、小于10^-12M、小于10^-13M、小于10^-14M或小于10^-15M的解离常数(Kd)。“亲和力”是指结合强度，增加的结合亲和力与较低的Kd相关。

多核苷酸或多肽与另一多核苷酸或多肽具有一定百分比的“序列同一性”，意味着当比对时，在对两个序列进行比较时，碱基或氨基酸的百分比是相同的，并且处于相同的相对位置。序列同一性可以多种不同的方式来确定。为了确定序列同一性，可使用各种方法和计算机程序(例如BLAST、T-COFFEE、MUSCLE、MAFFT等)比对序列，参见例如Altschul等人，(1990年)，J.Mol.Bioi.第215卷：第403-10页。

术语“非天然存在的”或“工程化的”可互换使用，并且表示涉及人的操作。当提及核酸分子或多肽时，这些术语是指核酸分子或多肽至少基本上不含至少一种与它们在自然界中天然缔合以及存在于自然界中的其他组分。

本文所用的“靶核酸”是包含“靶序列”的多核苷酸。术语“靶序列”是指存在于靶核酸中的核酸序列，crRNA的指导序列将与该核酸序列结合，前提是存在充分的结合条件。合适的DNA/RNA结合条件包括通常存在于细胞中的生理条件。其他合适的DNA/RNA结合条件(例如，无细胞系统中的条件)是本领域已知的。与crRNA中的指导序列互补并杂交的靶序列被称为“靶序列(TS)”，并且包含TS的链被称为靶链。与“靶序列(TS)”互补(因此不与指导序列互补)的序列被称为“非靶序列(NTS)”，并且包含NTS的链被称为非靶链。当靶核酸是单链DNA(ssDNA)或单链RNA(ssRNA)时，该靶核酸是指TS，即crRNA中的指导序列与ssDNA或ssRNA互补并且可与之杂交。

“切割”是指DNA或RNA分子的共价主链的破裂。切割可通过多种方法引发，包括但不限于磷酸二酯键的酶促或化学水解。单链切割和双链切割两者都是可能的，并且双链切割可以由于两个不同的单链切割事件而发生。DNA切割可导致平端或交错末端的产生。在某些实施方案中，包含向导RNA和Cas9蛋白的复合物被用于靶向双链DNA切割。在某些实施方案中，包含向导RNA和Cas9蛋白的复合物被用于双链靶核酸的单链的靶向切割。在一些实施方案中，切割导致平端的产生。

“Cas9蛋白”是指结合RNA并靶向特定DNA序列的多肽。如本文所述的Cas9蛋白通过与之结合的RNA(crRNA和tracrRNA)而靶向特定核酸序列。crRNA包含与靶核酸内的靶序列互补的序列，从而将所结合的Cas9蛋白靶向靶核酸内的特定位置(靶序列)。在本公开中，靶核酸可以是DNA或RNA，并且可以是单链的或双链的。

术语“突变体”或“变体”是指与对应亲本序列相比含有一个或多个核酸残基添加、缺失或取代的核酸序列，或者与对应亲本序列相比含有一个或多个氨基酸残基添加、缺失或取代的多肽序列。当提及突变体或变体时，突变体或变体的突变位点的编号基于其对应亲本序列。

crRNA包含指导序列(也称为“间隔区”)和核苷酸片段(“双链体形成区段”)两者，该核苷酸片段有助于蛋白质结合区段的dsRNA双链体。tracrRNA也包含核苷酸片段(双链体形成区段)，该核苷酸片段有助于蛋白质结合区段的dsRNA双链体。换句话说，crRNA的双链体形成区段与tracrRNA的双链体形成区段互补并杂交，以形成蛋白质结合结构域的dsRNA双链体。crRNA的指导序列充当靶向区段(与靶序列杂交的区段)。因此，crRNA和tracr-RNA(作为对应对)杂交形成向导RNA。给定tracrRNA或crRNA分子的确切序列)可以是其中存在有RNA分子的物种的特征(或者可来源于此类序列，即，截短的、延长的，等等)。

在一些实施方案中，crRNA和tracrRNA是两种单独的RNA分子。在其他实施方案中，crRNA和tracrRNA存在于本文称为“单向导RNA”或“sgRNA”的单个RNA分子中。sgRNA可包含与tracrRNA的5'末端融合的crRNA、与crRNA的3'末端融合的tracrRNA。crRNA和tracrRNA之间可能存在接头。该接头可以是柔性的，包含G和A。该接头的一个示例是GAAA。

crRNA和tracrRNA可与Cas9蛋白形成复合物(即，通过非共价相互作用结合)。crRNA通过包含与靶核酸的靶序列互补的核苷酸序列而提供复合物的靶特异性。该复合物的Cas9蛋白提供位点特异性活性。换句话说，Cas9蛋白通过其与由crRNA和tracrRNA杂交形成的蛋白结合区段缔合而被引导至靶序列。当Cas9蛋白具有核酸酶活性时，在复合物位于靶核酸内的情况下，即在靶核酸中由crRNA的指导序列与靶核酸的靶序列之间的碱基配对互补性决定的特定位点(即，位置)处，发生对靶核酸的位点特异性切割。

术语“体外”表示在细胞、组织、动物或人体之外或外部，诸如无细胞系统。术语“体内”表示在细胞中的情况，诸如在离体细胞中，或者在组织、动物或人体内的细胞中。

除非另有说明，否则本公开的核酸序列的方向为从5'至3'。

在一些实施方案中，本公开的方法可以是非诊断性和/或非治疗性的。

应当理解，本公开不限于所描述的特定实施方案。还应当理解，本文所用的术语仅用于描述特定实施方案的目的，并非旨在进行限制，原因是本公开的范围仅由所附权利要求书限定。

在提供值的范围的情况下，应当理解，除非上下文另有明确规定，否则到下限的单位的十分之一的每个中间值以及在该范围的上限与下限之间的中间范围都包含在本公开内。在所述范围包括这些限值中的一个或两个值的情况下，排除所包括的限值中的任一个或两个值的范围也包括在本公开中。

除非另有定义，否则本文所用的所有技术和科学术语具有与本公开所属领域的普通技术人员通常所理解的相同的含义。尽管与本文所述的方法和材料类似或等同的任何方法和材料也可用于本公开的实践或测试，但优选的方法和材料是目前描述的。本文提及的所有出版物均公开和描述了与所引用的出版物相关的方法和/或材料。

必须注意的是，如本文所用并且在所附权利要求书中，除非上下文另有明确规定，否则单数形式“一个”、“一种”和“所述”包括复数指代。因此，例如，提及“一个碱基”包括多个碱基，提及“所述多肽”包括提及一种或多种多肽以及本领域技术人员已知的其等同物，等等。还应当注意的是，可以起草权利要求书以排除任何任选要素。因此，该陈述旨在作为与权利要求书要素的叙述相关的诸如“仅有地”、“仅”等排他性术语的使用或“否定”限制的使用的前提依据。

术语“包括”及其变体，诸如包含和含有，并非旨在排除进一步的添加物、组成部分、整体或步骤。这些术语还涵盖“由……组成”或“由……构成”的含义。

术语“约”是指等于特定值加或减百分之二十(+/-20％)的范围。

术语“和/或”是指由该术语连接的任意一个、任意几个或所有要素。

应当理解，为了清楚起见，在单独实施方案的上下文中描述的本公开的某些特征也可在单个实施方案中以组合方式提供。相反地，为了简洁起见，在单个实施方案的上下文中描述的本公开的各种特征也可单独提供或以任何合适的子组合形式提供。本公开具体涵盖了与本公开有关的实施方案的所有组合，并且在本文中就如同每种组合都是单独且明确地公开的那样公开。另外，各种实施方案及其要素的所有子组合也由本公开具体涵盖并且在本文中公开，就如同每个和每种此类子组合在本文中单独地且明确地公开一样。

具有宽松PAM要求的双链DNA的编辑

实验例表明，PAM和DNA拓扑结构协同决定了DNA切割的效率，并且当dsDNA拓扑结构为负超螺旋时，Cas9能够显著地切割PAM突变的dsDNA。具体地，我们从腾冲脂环酸芽孢杆菌中鉴定出II-C型Cas9，其对拓扑结构不同的dsDNA表现出不同的PAM偏好性。对于线性dsDNA，AtCas9具有对CNNN和RNNA的宽松PAM(R＝A或G)，覆盖所有序列的68％。对于生理学上的负超螺旋dsDNA，AtCas9显示出对MNNN、TNNM和GNNA(M＝C或A)的更广泛的PAM偏好性，覆盖所有序列的94％。

预期的是，欠旋dsDNA诸如负超螺旋或Z型DNA具有更小的扭矩并倾向于促进R环形成，从而促进DNA解旋过程，并允许更广泛的PAM切割。因此，这一发现可外推到其他Cas直系同源物，诸如SpCas9、NmeCas9和Cas14a1。

此外，AtCas9在大肠杆菌中显示出近乎无PAM的编辑，这是首次发现天然存在的Cas9表现出近乎无PAM的编辑能力。在哺乳动物细胞中，AtCas9对编辑负超螺旋质粒表现出广泛PAM偏好性，并且AtCas9碱基编辑器表现出高的编辑效率，在若干个内源性基因座中高达55％。这些结果揭示了一种具有宽松PAM的新型嗜热菌Cas9，并揭示了DNA扭矩作为一种新的调节因子，从而突出了DNA拓扑结构在调节Cas9活性中的作用。

本公开涉及通过CRISPR-Cas9系统的序列特异性和DNA拓扑结构特异性靶向方法。Cas9介导的双链DNA(dsDNA)切割是II型CRISPR/Cas系统的特征。在所有研究的Cas9直系同源物中，DNA识别依赖于位于靶dsDNA附近的原型间隔区相邻基序(PAM)。PAM复杂性决定了由Cas9系统编辑的可用位点，从而将基因组编辑能力限制在某些基因座。此处，我们从腾冲脂环酸芽孢杆菌和橙皮脂环酸芽孢杆菌中鉴定出两种II-C型Cas9，这两种II-C型Cas9对拓扑结构不同的dsDNA表现出不同的PAM要求。对于生理学上的负超螺旋dsDNA，AtCas9和AhCas9两者都表现出PAM非依赖性切割活性。相反，在松弛的B型DNA上观察到经典PAM依赖性活性。我们对各种DNA拓扑异构体的分析表明，当PAM发生突变时，具有欠旋DNA结构的异构体对于增强Cas9活性至关重要。这种DNA拓扑结构引导的PAM非依赖性切割是可编程的，并可应用于其他Cas直系同源物。重要的是，AtCas9可以在大肠杆菌中介导PAM非依赖性编辑，并且在哺乳动物细胞中具有活性。这些结果揭示了Cas9的新特征：使得能够进行DNA序列和拓扑结构特异性靶编辑，突出了利用PAM非依赖性活性来编辑不同拓扑异构体的潜力。

在一些实施方案中，本公开提供了一种靶向靶核酸的方法，该方法包括使该靶核酸与工程化的和非天然存在的CRISPR-Cas系统接触，该CRISPR-Cas系统包含：

(i)来源于脂环酸芽孢杆菌属的Cas9蛋白或其功能变体，或编码所述Cas9蛋白或其功能变体的核酸序列；

(ii)crRNA，或编码所述crRNA的核酸序列，该crRNA包含与靶DNA中的靶序列杂交的指导序列；和

(iii)与crRNA杂交的tracrRNA；

其中crRNA和tracrRNA与Cas9蛋白形成复合物，该复合物导致Cas9蛋白与靶序列的结合或对靶序列的切割。

本公开还提供了用于上述方法的工程化的和非天然存在的CRISPR-Cas系统。

本公开中使用的CRISPR-Cas9系统既具有序列特异性又具有DNA拓扑结构特异性。“序列特异性”是指通过指导序列与靶序列的杂交可将Cas9蛋白靶向靶序列，从而导致Cas9蛋白与靶序列的结合或对靶序列的切割。“DNA拓扑结构特异性”指Cas9蛋白可对具有欠旋拓扑结构的靶核酸具有特异性，从而区别于过旋或松弛的DNA拓扑异构体。当靶核酸为欠旋时，Cas9蛋白与靶序列的结合或对靶序列的切割是PAM非依赖性的，即，即使靶核酸中不存在PAM或突变PAM，Cas9蛋白仍然能够与靶序列结合或切割靶序列。当靶核酸中存在PAM时，对欠旋底物的切割效率高于对于非欠旋底物的切割效率。脂环酸芽孢杆菌Cas9蛋白和变体以及基于Cas9的编辑

本发明人已经发现了来自脂环酸芽孢杆菌属的新Cas9蛋白，该新Cas9蛋白与其他已知的Cas蛋白相比具有更宽松的PAM要求。在一个实施方案中，本公开提供了使用这些新鉴定的Cas蛋白及其生物等同物的基因编辑方法。

在一个实施方案中，本公开提供了用于编辑靶核酸的方法。在一些实施方案中，该方法需要使靶核酸与CRISPR-Cas系统接触，该CRISPR-Cas系统包含：来源于脂环酸芽孢杆菌属的Cas9蛋白或其功能变体；和向导RNA，该向导RNA包含与该靶核酸中的靶序列杂交的指导序列。

在一些实施方案中，靶序列与原型间隔区相邻基序(PAM)相邻。此类Cas9蛋白的PAM序列可以是CNNN和RNNA，其中R是A或G，并且每个N独立地是A、T、C或G。

在一些实施方案中，靶核酸具有欠旋拓扑结构，并且在这种情况下，PAM序列要求可以更为宽松(例如，还包括DNNB，其中D是A、T或C，并且B是T、C或G)或甚至不是必需的。如后文所讨论的，靶核酸中的欠旋拓扑结构可以是天然的，或者是通过本技术引入的。

例如，天然的欠旋拓扑结构可存在于凸起的双链DNA或Z-DNA中。在一些实施方案中，凸起的DNA在距靶序列的互补序列的3'的1至10个位置内具有一个或多个连续的未配对碱基。

本公开中使用的Cas9蛋白可来源于脂环酸芽孢杆菌属。来源于脂环酸芽孢杆菌属的Cas9蛋白可具有在脂环酸芽孢杆菌属的天然细胞中天然存在的序列，即，来源于脂环酸芽孢杆菌属的野生型Cas9蛋白。在一些实施方案中，Cas9蛋白来源于脂环酸芽孢杆菌属，即，可来源于腾冲脂环酸芽孢杆菌、橙皮脂环酸芽孢杆菌或糖脂环酸芽孢杆菌。在一些实施方案中，Cas9蛋白来源于脂环酸芽孢杆菌属，即，可来源于腾冲脂环酸芽孢杆菌，该菌株可具有如SEQ ID NO:84所示的序列。在一些实施方案中，Cas9蛋白来源于脂环酸芽孢杆菌属，即，可来源于橙皮脂环酸芽孢杆菌，该菌株可具有如SEQ ID NO:85所示的序列。

本公开中使用的Cas9蛋白可以是来源于脂环酸芽孢杆菌属的Cas9蛋白的功能变体。该功能变体可与来源于脂环酸芽孢杆菌属的Cas9蛋白具有不小于70％的序列同一性，并且具有来源于脂环酸芽孢杆菌属的Cas9蛋白的至少一种活性。在一些实施方案中，与来源于脂环酸芽孢杆菌属的Cas9蛋白相比，该功能变体还可包含一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个氨基酸的插入、取代和/或缺失，并且具有来源于脂环酸芽孢杆菌属的Cas9蛋白的至少一种活性。Cas9蛋白的活性包括RuvC活性、HNH活性和PAM相互作用(PI)活性，并且该功能变体可具有RuvC活性、HNH活性和PAM相互作用(PI)活性中的至少一种活性，诸如RuvC活性、HNH活性和PAM相互作用(PI)活性中的两种或三种活性。在一些实施方案中，功能变体可与crRNA和tracrRNA形成复合物，并且通过crRNA上的指导序列与靶序列的杂交而靶向靶序列，并且能够不依赖于PAM而靶向欠旋靶核酸。在一些实施方案中，功能变体与其亲本Cas9蛋白相比，可能不具有PAM相互作用活性或具有降低的PAM相互作用活性，但具有RuvC活性和/或HNH活性。在一些实施方案中，功能变体与其亲本Cas9蛋白相比，可能不具有RuvC活性和/或HNH活性或具有降低的RuvC活性和/或HNH活性，但具有PAM相互作用活性。在一些实施方案中，亲本Cas9蛋白来源于脂环酸芽孢杆菌属。

功能变体可与来源于脂环酸芽孢杆菌属的Cas9蛋白具有不小于75％、不小于80％、不小于85％、不小于90％、不小于91％、不小于92％、不小于93％、不小于94％、不小于95％、不小于96％、不小于97％、不小于98％、不小于99％、不小于99.5％、不小于99.9％或不小于100％的序列同一性。在一些实施方案中，功能变体可与来源于腾冲脂环酸芽孢杆菌或橙皮脂环酸芽孢杆菌的Cas9蛋白具有不小于70％、不小于75％、不小于80％、不小于85％、不小于90％、不小于91％、不小于92％、不小于93％、不小于94％、不小于95％、不小于96％、不小于97％、不小于98％、不小于99％、不小于99.5％、不小于99.9％或不小于100％的序列同一性。功能变体可与Cas9蛋白具有不小于70％、不小于75％、不小于80％、不小于85％、不小于90％、不小于91％、不小于92％、不小于93％、不小于94％、不小于95％、不小于96％、不小于97％、不小于98％、不小于99％或不小于100％的序列同一性，该Cas9蛋白具有如SEQ ID NO:84或SEQ ID NO:85所示的序列。在一些实施方案中，功能变体可来源于脂环酸芽孢杆菌属。在一些实施方案中，功能变体可来源于腾冲脂环酸芽孢杆菌或橙皮脂环酸芽孢杆菌。

在一些实施方案中，功能变体与其亲本Cas9蛋白相比，可在RuvC结构域和/或HNH结构域中包含一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个氨基酸插入、取代和/或缺失，使得该功能变体与靶核酸结合但不切割该靶核酸。在一些实施方案中，功能变体与来源于脂环酸芽孢杆菌属(诸如SEQ ID NO:84或SEQ ID NO:85)的Cas9蛋白相比，可包含D8、H617A、N640A的突变。在一些实施方案中，功能变体与其亲本Cas9蛋白相比，可在PAM相互作用(PI)结构域中包含一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个氨基酸插入、取代和/或缺失，使得Cas9蛋白变体不与PAM相互作用。在一些实施方案中，Cas9蛋白变体与来源于脂环酸芽孢杆菌属(诸如SEQ ID NO:84或SEQ ID NO:85)的Cas9蛋白相比，可包含D1089A、S1091A和G1092A的突变。在一些实施方案中，Cas9蛋白变体与来源于脂环酸芽孢杆菌属(诸如SEQ ID NO:84或SEQ ID NO:85)的Cas9蛋白相比，可包含R1065A、T1094A、T1096A,D1089A,S1091A和G1092A的突变。由于CRISPR-Cas9系统能够不依赖于PAM而靶向欠旋靶核酸，因此不与PAM相互作用的Cas9蛋白变体可用于靶向欠旋靶核酸。

在一些实施方案中，一些功能变体以PAM非依赖性方式用于靶向靶核酸，而不考虑靶核酸的拓扑结构。本发明人发现，即使当靶核酸不是欠旋靶核酸(诸如线性dsDNA、开环dsDNA、正超螺旋dsDNA或B-DNA)时，一些包含PAM相互作用(PI)结构域中的突变的功能变体也可在非靶序列(NTS)的3'末端处切割具有随机序列的靶核酸。换句话说，具有PI结构域中的突变的一些功能变体可靶向靶核酸而不与PAM相互作用。因此，这些变体可靶向靶核酸而不需要特定PAM序列，即，靶核酸中靶序列的两个末端(5'末端和/或3'末端)处可能存在随机序列，并且不需要特定PAM序列(诸如其亲本蛋白质的PAM序列)。还可以说，这些变体具有NNNNNNNN的PAM序列，其中每个N可以独立地是A、T、C或G中的任一者。对于此类功能变体，靶核酸可以是任何形式，包括欠旋dsDNA、非欠旋dsDNA或者松弛dsDNA、ssDNA或ssRNA。此类功能变体与其亲本Cas9蛋白相比，可包含PAM相互作用(PI)结构域中的突变，使得功能变体可以PAM非依赖性方式与靶序列结合或切割该靶序列。

这些突变与其亲本Cas9蛋白相比，可包含一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个氨基酸插入、取代和/或缺失。在一些实施方案中，这些突变可发生在选自以下项的一个或多个位置处：来源于脂环酸芽孢杆菌属(诸如SEQ ID NO:84或SEQ ID NO:85)的Cas9蛋白的E530、S531、L536、L602、D603、V604、T605、R1065、E1066、D1068、D1089、S1091、G1092、T1094、L1095和T1096。在一些实施方案中，这些突变可发生在选自以下项的一个或多个位置处：来源于脂环酸芽孢杆菌属(诸如SEQ ID NO:84或SEQ IDNO:85)的E530、S531、L536、L602、D603、V604、T605、R1065、E1066、D1068、D1089、S1091、G1092、T1094、L1095和T1096蛋白。在一些实施方案中，这些突变可选自E530A、S531R、L536T、L602I、D603N、V604L、T605G、R1065A、E1066K、D1068K、D1068R、D1089A、D1089E、S1091A、G1092A、T1094A、L1095A和T1096A以及它们的任意组合。在一些实施方案中，这些突变可以是D1089A、S1091A和G1092A的突变，E530A、S531R、L536T、L602I、D603N、V604L、T605G、R1065A、E1066K、D1068K、D1068R、D1089A、D1089E、S1091A、G1092A、T1094A、L1095A和T1096A的突变。

这些突变与其亲本Cas9蛋白相比，可包含一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个氨基酸插入、取代和/或缺失。在一些实施方案中，这些突变可发生在选自以下项的一个或多个位置处：来源于脂环酸芽孢杆菌属(诸如SEQ ID NO:84或SEQ ID NO:85)的Cas9蛋白的D1089、S1091、G1092、T1094、L1095、T1096和R1065。在一些实施方案中，这些突变可发生在选自以下项的一个或多个位置处：来源于脂环酸芽孢杆菌属(诸如SEQ ID NO:84或SEQ ID NO:85)的Cas9蛋白的D1089、S1091、G1092、T1094、T1096和R1065。在一些实施方案中，这些突变可选自D1089A、D1089E、S1091A、G1092A、T1094A、T1096A、R1065A以及它们的任意组合。在一些实施方案中，这些突变可以是D1089A、S1091A和G1092A的突变，R1065A、T1094A、T1096A、D1089A、S1091A和G1092A的突变，或T1096A的突变。示例性突变示于下表A中。

表A.脂环酸芽孢杆菌属的Cas9中的示例性突变

因此，本公开还提供了一种功能变体，该功能变体与其亲本Cas9蛋白相比，包含PAM相互作用(PI)结构域中的突变，使得该功能变体可以PAM非依赖性方式与靶序列结合或切割该靶序列，如上所述。还提供了编码所述功能变体的分离的核酸、含有所述核酸的表达载体、包含所述核酸或表达载体的宿主细胞、包含所述功能变体以及对应crRNA和tracrRNA的系统、使用所述系统来靶向靶核酸的方法，以及所述功能变体的用途。

Cas9蛋白或其功能变体可包含一个或多个核定位信号(NLS)结构域。该一个或多个核定位信号(NLS)结构域可包含至少两个或更多个NLS结构域。该一个或多个NLS结构域可位于Cas9蛋白或其功能变体的末端处或附近或邻近处，并且如果是两个或多个NLS，则这两个NLS中的每个NLS可位于Cas9蛋白或其功能变体的末端处或附近或邻近处，或者分别位于Cas9蛋白或其功能变体的两个末端处。在一些实施方案中，至少一个核定位信号(NLS)与编码Cas9蛋白或其功能变体的核酸序列附接。在一些实施方案中，附接至少一个或多个C末端或N末端NLS(因此编码Cpf1效应蛋白的核酸分子可包括编码NLS，使得所表达的产物具有附接或连接的NLS)。在优选的实施方案中，附接C末端NLS以实现真核细胞(优选人细胞)中的最佳表达和核靶向。

在一些实施方案中，可对编码Cas9蛋白或其功能变体的核酸序列进行密码子优化，以在特定细胞诸如真核细胞中表达。真核细胞可以是特定生物体的细胞或来源于特定生物体的细胞，诸如哺乳动物，包括但不限于人、小鼠、大鼠、兔、狗或非人灵长类动物。通常，密码子优化是指修饰核酸序列以增强在感兴趣的宿主细胞中的表达的过程：该过程通过用在该宿主细胞的基因中更频繁或最频繁使用的密码子来替换天然序列的至少一个密码子(例如，约或多于约1、2、3、4、5、10、15、20、25、50或更多个密码子)，同时保持天然氨基酸序列。密码子使用表是容易获得的，例如在“密码子使用数据库”中，并且这些表可以多种方式进行修改。参见Nakamura,Y.等人，“Codon usage tabulated from theinternational DNAsequence databases:status for the year 2000”，Nucl.Acids Res.第28卷：第292页(2000年)。用于对特定序列进行密码子优化以在特定宿主细胞中表达的计算机算法也是可用的，诸如Gene Forge(Appagen；Jacobus，Pa)也是可用的。

在Cas9蛋白或其功能变体靶向靶核酸的上下文中，术语“靶”或“靶向”指cas9蛋白或其功能变体与靶序列的结合或cas9蛋白对靶序列的切割。当使用与靶核酸结合但不切割靶核酸的Cas9蛋白变体时，在Cas9蛋白靶向靶核酸的上下文中，术语“靶”或“靶向”是指cas9蛋白与靶序列的结合而没有对靶序列的切割。

向导RNA是本领域已知的。向导RNA可以是与tracrRNA一起使用的crRNA、单向导RNA(sgRNA)或引导编辑向导RNA(pegRNA)。crRNA和tracrRNA是本领域技术人员已知的。crRNA在5'末端处包含指导序列，在3'末端处包含双链体形成序列。tracrRNA在5'末端处包含双链体形成序列。crRNA的双链体形成序列与tracrRNA的双链体形成区段互补并杂交，以形成向导RNA，并且该向导RNA与Cas9蛋白或其功能变体形成复合物。crRNA上的指导序列与靶核酸上的靶序列杂交，从而导致Cas9蛋白或其功能变体与靶序列结合或切割该靶序列。

指导序列的长度可在20-30nt的范围内，优选在20-22nt、20-25nt、25-30nt的范围内，诸如20nt、21nt、22nt、23nt、24nt、25nt、26nt、27nt、28nt、29nt或30nt。

tracrRNA或crRNA分子的确切序列可以是其中存在有RNA分子的物种的特征(或者可来源于此类序列，即截短的、延长的，等等)。在一些实施方案中，crRNA包含在其3'末端侧接有双链体形成序列的指导序列，并且该双链体形成序列包含选自SEQ ID NO:73和SEQ IDNO:74的序列。在一些实施方案中，tracrRNA包含选自SEQ ID NO:1和SEQ ID NO:70至72的序列。

crRNA和tracrRNA可以是两种单独的RNA分子。在其他实施方案中，tracrRNA可与crRNA的3'末端融合，形成被称为单向导RNA(sgRNA)的单个RNA分子。crRNA和tracrRNA之间可能存在接头。接头可包含G和A，这使得接头是柔性的。接头的一个示例是GAAA。

Cas9蛋白或其功能变体可以纯化的蛋白的形式或以编码Cas9蛋白或其功能变体的核酸序列的形式提供。编码Cas9蛋白或其功能变体的核酸可包含在载体中，诸如质粒或病毒载体。编码Cas9蛋白或其功能变体的核酸可通过例如转染、电穿孔、脂质体、显微注射等引入细胞中，以便表达Cas9蛋白或其功能变体。编码cas9蛋白或其功能变体的核酸序列还可整合到细胞的基因组中，使得该细胞表达cas9蛋白。表达Cas9蛋白或其功能变体的细胞可仅用于提供重组表达的Cas9蛋白或其功能变体，并且这些细胞还可含有靶核酸，使得当将crRNA和tracrRNA引入细胞中时，使靶核酸与CRISPR-Cas系统接触。

crRNA和tracrRNA可以分离的RNA分子的形式或以编码crRNA和/或tracrRNA的核酸序列的形式提供。分离的RNA分子可通过本领域已知的任何体外转录系统制备。含有编码crRNA或tracrRNA的核酸序列和启动子的载体，诸如质粒或病毒载体，也可用于表达crRNA或tracrRNA。启动子可与编码crRNA或tracrRNA的核酸序列可操作地连接。编码crRNA或tracrRNA的核酸可通过例如转染、电穿孔、脂质体、显微注射等引入含有靶核酸的细胞中。

crRNA和tracrRNA可分别在两个载体中表达，或者在单个载体中表达。crRNA和tracrRNA可与sgRNA融合。crRNA和tracrRNA可各自具有独立的启动子，并且在单个载体中表达，或者sgRNA可在载体中表达。

对于体外靶核酸，CRISPR-Cas系统可由纯化的Cas9蛋白或其功能变体以及由分离的crRNA与tracrRNA形成双链体提供，并且使纯化的Cas9蛋白或其功能变体和由分离的crRNA与tracrRNA形成的双链体与靶核酸接触。

对于体内靶核酸，诸如细胞内的靶核酸，CRISPR-Cas系统可由表达Cas9蛋白或其功能变体的载体以及表达crRNA和tracrRNA的载体(诸如表达sgRNA的载体)提供，并且将表达Cas9蛋白或其功能变体的载体以及表达crRNA和tracrRNA的载体引入细胞中。Cas9蛋白或其功能变体以及crRNA和tracrRNA可在相同载体中表达，并将该载体引入细胞中。对于体内靶核酸，诸如细胞内的靶核酸，CRISPR-Cas系统还可由整合到该细胞的基因组中的编码Cas9蛋白或其功能变体的核酸以及表达crRNA和tracrRNA的载体(诸如表达sgRNA的载体)提供，并且将表达crRNA和tracrRNA的载体引入细胞中。

欠旋双链DNA的编辑

本技术也适用于其他Cas蛋白。当靶双链DNA具有欠旋拓扑结构时，对应Cas蛋白的PAM要求被放宽。欠旋拓扑结构可以是细胞中天然存在的，或者利用本技术产生的。

许多蛋白质(酶)是本领域已知的，这些蛋白质可将负拓扑结构引入靶DNA中。非限制性示例提供于下表B中。

表B.能够引入欠旋拓扑结构的示例性蛋白质

此类酶可用于将欠旋拓扑结构引入靶双链DNA中。例如，如果靶DNA是无细胞的，则可简单地将酶加入DNA样品中，并通常减少靶DNA的卷曲。

为了更具体地在靶位点处引入欠旋拓扑结构，可将酶与Cas蛋白或向导RNA偶联。在一个示例中，酶仅与Cas蛋白融合。

在另一个示例中，酶可与Cas蛋白间接偶联，诸如通过一对正交蛋白，诸如配体/受体或酶/底物。例如，Cas蛋白可与配体融合或以其他方式共价连接，并且酶与对应受体融合或以其他方式共价连接。

因此，一个实施方案提供了融合蛋白或复合物，该融合蛋白或复合物包含Cas蛋白和能够改变双链DNA的拓扑结构的酶。

还提供了用于编辑靶核酸的方法，该方法包括使该靶核酸与CRISPR-Cas系统接触，该CRISPR-Cas系统包含：Cas蛋白和向导RNA，该向导RNA包含与该靶核酸中的靶序列杂交的指导序列，其中该Cas蛋白或该向导RNA与能够改变该靶核酸的拓扑结构的酶共价或非共价偶联。

同样，提供了用于编辑靶核酸的方法，该方法包括使该靶核酸与CRISPR-Cas系统接触，该CRISPR-Cas系统包含：Cas蛋白，该Cas蛋白具有靶向线性双链DNA所需的对应原型间隔区相邻基序(PAM)；和向导RNA，该向导RNA包含与该靶核酸中的靶序列杂交的指导序列，该靶序列与靶PAM序列相邻，其中该靶序列具有欠旋拓扑结构并且该靶PAM序列不是Cas蛋白的对应PAM。欠旋拓扑结构可以是天然存在的或由酶引入的。

术语“Cas蛋白”或“成簇的规律间隔短回文重复序列(CRISPR)相关(Cas)蛋白”是指与酿脓链球菌以及其他细菌中的CRISPR(成簇的规律间隔短回文重复序列)适应性免疫系统相关的RNA指导的DNA核酸内切酶。Cas蛋白包括Cas9蛋白、Cas12a(Cpf1)蛋白、Cas12b(以前称为C2c1)蛋白、Cas13蛋白和各种工程化的对应物。示例性Cas蛋白包括SpCas9、FnCas9、St1Cas9、St3Cas9、NmCas9、SaCas9、AsCpf1、LbCpf1、FnCpf1、VQR SpCas9、EQRSpCas9、VRER SpCas9、SpCas9-NG、xSpCas9、RHA FnCas9、KKH SaCas9、NmeCas9、StCas9、CjCas9、AsCpf1、FnCpf1、SsCpf1、PcCpf1、BpCpf1、CmtCpf1、LiCpf1、PmCpf1、Pb3310Cpf1、Pb4417Cpf1、BsCpf1、EeCpf1、BhCas12b、AkCas12b、EbCas12b、LsCas12b、RfCas13d、LwaCas13a、PspCas13b、PguCas13b和RanCas13b。

无论是天然存在的还是通过本技术(例如，用融合蛋白)引入的，可使用不符合Cas蛋白的常规PAM(或“经典”PAM”)的PAM序列在靶DNA上进行编辑。Cas蛋白的经典PAM是编辑线性或正螺旋DNA时所需的PAM。对于一些常用的Cas蛋白，它们的经典PAM序列列于表C中。

表C.经典PAM和在欠旋条件下扩增的PAM

注意：

R＝A或G

D＝A、T或G(不是C)

B＝T、C或G(不是A)

V＝A、C或G(不是T)

N＝A、T、C或G(任意)

因此，在一些实施方案中，Cas蛋白是SpCas9并且对应PAM是NGG，其中N是A、T、C或G。在一些实施方案中，靶PAM序列是NAG或NGA。

在一些实施方案中，Cas蛋白是AtCas9并且对应PAM是CNNN和RNNA，其中每个N独立地是A、T、C或G，并且R是AG。在一些实施方案中，靶PAM序列是除CNNN和RNNA之外的任何序列。

靶核酸和方法

靶核酸在本公开中也称为底物。靶核酸可以是DNA或RNA，并且可以是单链的或双链的。在一些实施方案中，靶核酸可以是dsDNA或ssDNA或ssRNA。

在底物是ssDNA或ssRNA的情况下，crRNA上的指导序列与靶核酸上的靶序列杂交，从而导致Cas9蛋白与靶序列结合或切割该靶序列。

在底物是dsDNA的情况下，本公开的CRISPR-Cas系统在底物上的结合或切割模式根据底物的拓扑结构而变化。对于欠旋dsDNA，诸如负超螺旋dsDNA、凸起的dsDNA或Z-DNA，本公开的Cas9蛋白能够不依赖于PAM而与底物结合或切割该底物，即，本公开的Cas9蛋白可与在靶序列附近没有PAM或突变PAM的底物结合或切割该底物。对于非欠旋dsDNA或松弛dsDNA，诸如线性dsDNA、开环dsDNA、B-DNA或正超螺旋dsDNA，Cas9蛋白与靶序列的结合或Cas9蛋白对靶序列的切割是PAM依赖性的，即，Cas9蛋白仅与在靶序列附近的特定位置处具有PAM的底物结合或切割该底物。

然而，即使靶核酸中存在PAM，对欠旋底物的切割效率也高于对于非欠旋底物的切割效率。在本公开中，切割效率或切割活性可通过在琼脂糖凝胶上测量切割产物强度除以切割的产物和未切割的产物来定量。

PAM是与靶序列相邻的2至8个碱基的序列，该PAM可与Cas9蛋白相互作用。PAM位于非靶序列(NTS)的3'末端。在本公开中，PAM是8个碱基的序列。对于来源于腾冲脂环酸芽孢杆菌的Cas9蛋白，诸如具有SEQ ID NO:84所示序列的Cas9蛋白，PAM序列是NNNNCNNN和NNNNRNNA，其中R是A或G，并且N是A、C、T和G中的任一者，对于来源于橙皮脂环酸芽孢杆菌的Cas9蛋白，例诸如具有SEQ ID NO:85所示序列的Cas9蛋白，PAM序列是NNNNGNNA，其中N是A、C、T和G中的任一者。

在本公开中，“PAM非依赖性”意指Cas9蛋白或其功能变体靶向靶核酸而不与PAM相互作用，即，靶向靶核酸而不需要特定PAM序列。在这些情况下，靶核酸中靶序列的两个末端(5'末端和/或3'末端)处可能存在随机序列，并且不需要特定PAM序列(诸如野生型Cas9蛋白的PAM序列或功能变体的亲本蛋白的PAM序列)。还可以说，PAM序列是NNNNNNNN，其中每个N可以独立地是A、T、C或G中的任一者。因此，在PAM非依赖性靶向中，靶序列的互补序列可在其3'末端侧接有或不侧接有特定PAM序列(诸如在Cas9蛋白是野生型的情况下为野生型Cas9蛋白的PAM序列，或者在Cas9蛋白是亲本蛋白的功能变体的情况下为亲本蛋白的PAM序列)。

在本公开中，在PAM依赖性切割的情况下，Cas9蛋白或其功能变体介导PAM上游3bp的切割。在PAM非依赖性切割的情况下，Cas9蛋白或其功能变体介导靶序列的5'末端上游3bp的切割。在底物是dsDNA的情况下，该切割介导双链断裂，并且在底物是ssDNA或ssRNA的情况下，该切割导致单链的切割。

本文所用的术语“欠旋”是指具有低于松弛的B型DNA拓扑异构体的扭矩的DNA结构。天然存在的欠旋DNA拓扑异构体包括负超螺旋、Z-DNA、凸起的DNA等。通常，欠旋DNA通常位于转录活性基因座的后方。

术语“超螺旋”被定义为多核苷酸的这种物理状态：其中该多核苷酸的一条链相对于该多核苷酸的其他链是欠旋或过旋的。

术语“负超螺旋”是DNA的左旋卷曲，因此以逆时针方向发生卷曲。它也被称为DNA的“欠旋”。原核细胞基因组通常以负超螺旋的形式存在。质粒通常是负超螺旋。真核细胞通常在转录的动态过程中具有负超螺旋。例如，转录基因的下游将产生正超螺旋，而上游将产生负超螺旋。

如本文所用，“凸起的DNA”或“凸起的寡核苷酸”指具有未配对碱基的双链DNA。双链中具有未配对碱基的区域(或由于未配对碱基而具有非互补性的区域)被称为凸起。凸起在两侧可侧接有双链DNA序列。在一些实施方案中，凸起的DNA可以是具有一个或多个连续未配对碱基(诸如一个、两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个连续未配对碱基)的双链DNA。未配对碱基可能是由于双链体上的碱基对错配而形成的。在一些实施方案中，凸起位于靶核酸中靶序列的区域中。在一些实施方案中，靶序列(TS)与指导序列杂交，并且非靶序列(NTS)具有两个或多个与TS中对应核苷酸错配的未配对碱基。在一些实施方案中，未配对碱基位于距离NTS的3'末端的1至2、1至3、1至4、1至5、1至6、1至7、1至8、1至9、1至10、1至11、1至12、1至13、1至14、1至15、1至16、1至17、1至18、1至19、1至20、1至21、1至22、1至23、1至24或1至25个位置处。在真核细胞中，当在DNA复制或DNA修复过程中形成错配时，凸起的DNA会暂时存在。

如本文所用，术语“Z-DNA”也称为Z型DNA，并且是指DNA双螺旋或RNA茎环结构的左旋构象。这种DNA螺旋以Z字形方式向左卷曲(与右旋相反，如更常见的B-DNA形式)。在真核细胞中，Z-DNA已被证明广泛分布于基因组中。一个示例是c-MYC基因的启动子区域，序列的一部分经历Z型拓扑结构。

如本文所用，术语“B-DNA”也称为B型DNA，并且是非超螺旋DNA在生理条件下通常采用的结构。它由经典的沃森-克里克结构组成，其中每个碱基对有约0.34纳米的间距，每圈有约10.5个碱基对。真核细胞基因组通常是松弛的B型DNA。

术语“正超螺旋”是DNA的右旋卷曲，因此以顺时针方向发生卷曲。在原核系统和真核系统两者中，正超螺旋通常存在于DNA复制物或转录复合物的下游。

术语“开环”DNA是双链环状DNA分子，其在双链中的一条链上有切口，以允许释放存在于该分子中的任何超螺旋圈。在凝胶电泳期间，由于分子的构象或形状的相关差异，开环比具有相同大小的形式共价闭环状分子或超螺旋分子迁移得更慢。

术语“线性”dsDNA是形状为线性并含有末端的双链DNA。

在一些实施方案中，在宿主细胞中表达本公开的系统的所有组分(诸如Cas9蛋白或其功能变体，以及crRNA和tracrRNA)是有用的。“宿主细胞”可源自任何生物体。宿主细胞的示例包括但不限于：原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物体的细胞、原生动物细胞、来自植物的细胞。

靶核酸可以是体外或体内的。在一些实施方案中，靶核酸在细胞内，诸如原核细胞或真核细胞。原核细胞可以是大肠杆菌。真核细胞可以是哺乳动物细胞或人细胞。当靶核酸在体内时，本公开的方法包括将本公开的系统引入包含靶核酸的细胞中。

将多核苷酸(例如，表达载体)引入细胞的方法是本领域已知的，并且通常基于细胞的种类进行选择。此类方法包括，例如，病毒或噬菌体感染、转染、接合、电穿孔、磷酸钙沉淀、聚乙烯亚胺介导的转染、DEAE-葡聚糖介导的转染、原生质体融合、脂质转染、脂质体介导的转染、粒子枪技术、直接显微注射和纳米粒子介导的递送。本公开的CRISPR-Cas系统与靶核酸之间的接触可在二价阳离子、优选Mg²⁺、Ca²⁺或Mn²⁺存在下进行。Mg²⁺的浓度可在约1mM至约50mM的范围内，优选在约2mM至约20mM的范围内，优选在约5mM至约10mM的范围内，更优选约10mM。

本公开的CRISPR-Cas系统与靶核酸之间的接触可在约37℃至约65℃的范围内、优选地在约40℃至约60℃的范围内、优选地在约45℃至约55℃的范围内、优选地在约50℃至约55℃的范围内的温度下，更优选地在约10mM下进行。

本公开的CRISPR-Cas系统与靶核酸之间的接触可在约4至约9的范围内、优选约5至约8的范围内、优选约6至约8的范围内、优选约7至约8的范围内、更优选约8的pH下进行。

在一些实施方案中，本公开的CRISPR-Cas系统与靶核酸之间的接触在约55℃的温度和约8的pH下进行。

本技术，包括新发现的Cas蛋白及其功能变体、融合蛋白和复合物，以及欠旋DNA的编辑，不仅可应用于常规CRISPR-Cas编辑系统中，而且可应用于碱基编辑和引导编辑中。

碱基编辑器(BE)将CRISPR/Cas系统与APOBEC(载脂蛋白B mRNA编辑酶，催化多肽样)AID(激活诱导胞苷脱氨酶)家族整合在一起。通过与Cas9切口酶(nCas9)或催化失活的Cpf1(dCpf1也称为dCas12a)融合，APOBEC/AID家族成员的核碱基脱氨酶活性可被有目的地导向基因组中的靶碱基并催化碱基取代。

如本文所用的术语“核碱基脱氨酶”是指催化核碱基诸如胞苷、脱氧胞苷、腺苷和脱氧腺苷水解脱氨基的一组酶。核碱基脱氨酶的非限制性示例包括胞苷脱氨酶和腺苷脱氨酶。

“胞苷脱氨酶”是指催化胞苷和脱氧胞苷分别不可逆水解脱氨基为尿苷和脱氧尿苷的酶。胞苷脱氨酶维持细胞嘧啶库。胞苷脱氨酶的家族是APOBEC(“载脂蛋白BmRNA编辑酶，催化多肽样”)。该家族的成员是C到U编辑酶。一些APOBEC家族成员具有两个结构域，APOBEC样蛋白的一个结构域是催化结构域，而另一个结构域是假催化结构域。更具体地，催化结构域是锌依赖性胞苷脱氨酶结构域，并且对于胞苷脱氨基很重要。APOBEC-1对RNA的编辑需要同源二聚化，并且该复合物与RNA结合蛋白相互作用形成编辑体。

APOBEC蛋白质的非限制性示例包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4和激活诱导(胞苷)脱氨酶(AID)。

还已知APOBEC蛋白质的各种突变体为碱基编辑器带来了不同的编辑特征。例如，对于人APOBEC3A，就编辑效率或编辑窗口而言，某些突变体(例如，W98Y、Y130F、Y132D、W104A、D131Y和P134Y)甚至优于野生型人APOBEC3A。因此，术语APOBEC及其每个家族成员也涵盖与对应野生型APOBEC蛋白质或催化结构域具有一定水平(例如，70％、75％、80％、85％、90％、95％、98％、99％)的序列同一性并保留胞苷脱氨基活性的变体和突变体。变体和突变体可通过氨基酸添加、缺失和/或取代得到。在一些实施方案中，此类取代是保守取代。

“腺苷脱氨酶”，也称为腺苷氨基水解酶或ADA，是一种参与嘌呤代谢的酶(EC3.5.4.4)。它是从食物中分解腺苷和在组织中更新核酸所需要的。

腺苷脱氨酶的非限制性示例包括tRNA特异性腺苷脱氨酶(TadA)、腺苷脱氨酶tRNA特异性1(ADAT1)、腺苷脱氨酶tRNA特异性2(ADAT2)、腺苷脱氨酶tRNA特异性3(ADAT3)、腺苷脱氨酶RNA特异性B1(ADARB1)、腺苷脱氨酶RNA特异性B2(ADARB2)、腺苷单磷酸脱氨酶1(AMPD1)、腺苷单磷酸脱氨酶2(AMPD2)、腺苷单磷酸脱氨酶3(AMPD3)、腺苷脱氨酶(ADA)、腺苷脱氨酶2(ADA2)、腺苷脱氨酶样(ADAL)、含腺苷脱氨酶结构域1(ADAD1)、含腺苷脱氨酶结构域2(ADAD2)、腺苷脱氨酶RNA特异性(ADAR)和腺苷脱氨酶RNA特异性B1(ADARB1)。

引导编辑是一种基因组编辑技术，通过该技术可修饰活生物体的基因组。引导编辑直接将新的遗传信息写入靶向DNA位点。该技术使用融合蛋白，该融合蛋白由与工程化逆转录酶融合的催化受损核酸内切酶(例如，Cas9)和引导编辑向导RNA(pegRNA)组成，能够鉴定靶位点并提供新的遗传信息来替换靶DNA核苷酸。引导编辑介导靶向的插入、缺失和碱基到碱基的转化，而不需要双链断裂(DSB)或供体DNA模板。

pegRNA能够识别待编辑的靶核苷酸序列，并编码替换靶向序列的新遗传信息。pegRNA由延伸的单向导RNA(sgRNA)组成，该sgRNA含有引物结合位点(PBS)和逆转录酶(RT)模板序列。在基因组编辑期间，引物结合位点允许带切口的DNA链的3'末端与pegRNA杂交，而RT模板则充当用于合成所编辑的遗传信息的模板。

在一些实施方案中，融合蛋白包括与逆转录酶融合的切口酶。示例性切口酶是Cas9 H840A。Cas9酶含有两个可切割DNA序列的核酸酶结构域，即切割非靶链的RuvC结构域和切割靶链的HNH结构域。在Cas9中引入H840A取代，即840处的组氨酸残基被丙氨酸替换，使HNH结构域失活。由于仅具有RuvC功能结构域，该催化受损的Cas9引入单链切口，因此是切口酶。

逆转录酶的非限制性示例包括人免疫缺陷病毒(HIV)逆转录酶、莫洛尼鼠白血病病毒(M-MLV)逆转录酶和禽成髓细胞瘤病毒(AMV)逆转录酶。

在一些实施方案中，引导编辑系统还包括指导融合蛋白的Cas9 H840A切口酶部分对未编辑的DNA链进行切口的单向导RNA(sgRNA)。

实施例

实施例1.对热稳定Cas9直系同源物的不同PAM要求。

嗜热嗜酸细菌即腾冲脂环酸芽孢杆菌，最初是从温泉沉积物中分离出来的，可在30℃-65℃的宽温度范围内生长。分析全基因组序列，我们发现腾冲脂环酸芽孢杆菌携带完整的CRISPR基因座，该基因座包括三个Cas基因cas9、cas1、cas2和相邻的CRISPR阵列(图1A)。我们纯化了AtCas9(GenBank登录号WP_058095017)并使用来自CRISPR基因座的原始间隔区之一进行了初始生化分析(图1B至图1C)。使用通过PCR得到的dsDNA作为底物，我们发现AtCas9是Mg²⁺依赖性核酸内切酶，该酶以宽范围的pH和温度(分别为pH 5-8和37℃-65℃)切割靶DNA(在pH 6-8和55℃-60℃下活性最佳)(图1C)。

为了鉴定用于AtCas9的PAM，我们构建了含有与原型间隔区21a相邻的8个碱基对随机化的核苷酸的PAM质粒文库，并在具有AtCas9基因座的大肠杆菌中进行转化测定(图2A)。令我们惊讶的是，AtCas9没有表现出PAM偏好性，而阳性对照SpCas9表现出典型的NGGPAM(图3A)。为了排除在大肠杆菌中Atcas9的活性在37℃下受损的可能性，我们首先测试了不同的离子金属，发现增加镁浓度增强了在37℃下的切割活性(图2B)。与体外切割结果类似，在大肠杆菌培养物中补充镁显著改善了PAM文库质粒的切割(图2C)，表明AtCas9在原核系统中是有功能的。补充有镁的大肠杆菌培养物的深度测序进一步证实AtCas9对于质粒文库没有PAM偏好性，而SpCas9偏好NGG PAM(图2D)。

为了排除AtCas9在嗜温大肠杆菌中没有活性的可能性，我们密切监测细胞生长，因为切割的质粒不能复制，并且细胞逐渐丧失抗生素表达并在选择培养基中死亡。与不表达AtCas9(图3B，正三角形)或具有错配质粒(图3B，正方形)的对照细胞相比，用匹配PAM文库质粒转化的细胞表现出较慢的细胞生长(图3B，圆形)。此外，AtCas9基因座和已知PAM底物的共转化在细胞生长中表现出严重的延迟(图3B，倒三角)，强烈表明AtCas9是有活性的，并具有切割大肠杆菌中质粒的功能。由于体内阴性筛选无法识别PAM偏好性，因此我们转向通过对切割的质粒进行直接测序来进行体外阳性筛选。我们首先用限制性酶BsaI或Nt.BspQI处理PAM文库质粒以产生线性或开环DNA异构体，用于与负超螺旋质粒异构体进行比较(图3C)。在匹配的crRNA和tracrRNA存在下，将三种拓扑异构体与AtCas9一起孵育，并在0.8％琼脂糖凝胶上分析消化产物(图3D)。有趣的是，在AtCas9的最适温度下，高达97％的超螺旋PAM文库异构体被切割，而仅有60％的线性或开环异构体被消化(图3D和图3E)。当使用不同的间隔区及其PAM文库底物时，观察到类似的趋势(图4A)。负超螺旋PAM文库的几乎完全切割解释了为什么在大肠杆菌中使用超螺旋质粒作为切割底物的PAM筛选无法识别任何PAM偏好性。应当注意的是，线性或开环PAM文库底物显示出约60％的切割，表明AtCas9对这些拓扑异构体具有非常缓和的PAM偏好性，因为65536(4^8)个PAM组合中的60％可被识别和切割。为了绘制准确的PAM偏好性，我们对消化的片段进行了测序。使用两种不同的间隔区及其相应的原型间隔区底物，我们发现当底物是线性或开环dsDNA时，AtCas9在位置5具有C或A或G的偏好性(图3F左)。相比之下，当AtCas9与负超螺旋dsDNA一起孵育时，该偏好性完全消除(图3F左)。

我们接下来测试了DNA拓扑结构引导的近乎无PAM切割是否被其他Cas9直系同源物所共享。基于16S rRNA序列的系统发育分析表明，橙皮脂环酸芽孢杆菌与腾冲脂环酸芽孢杆菌具有95％的相似性(图4B)。然后我们纯化AhCas9蛋白，并对不同的DNA拓扑异构体进行体外PAM鉴定。与AtCas9类似，AhCas9表现出对线性和开环dsDNA的NNNNGNNA的PAM偏好性，但对负超螺旋DNA没有偏好性(图3F右和图4C)。总之，这些结果表明DNA拓扑结构在调节AtCas9和AhCas9的PAM偏好性中起重要作用。

实施例2.PAM非依赖性切割是可编程的和位点特异性的。

与其他Cas9直系同源物相比，当底物是线性或开环dsDNA时，AtCas9具有最宽松的PAM，在位置5具有C或A或G的偏好性(图3F)。对于AtCas9将PAM从CNNA突变为TNNA或对于AhCas9将PAM从GNNA突变为TNNT完全消除了针对线性dsDNA的切割活性，证实了PAM识别和结合以启动R环形成和随后切割的要求(图5A和图6A)。相比之下，当PAM突变时，观察到负超螺旋dsDNA的高达91％的切割(图5A和图6A)。与其他Cas9直系同源物类似，切割需要tracrRNA和匹配的crRNA的存在(图5A和图6A)。为了排除PAM突变体dsDNA的切割是单链DNA(ssDNA)活性的结果的可能性，我们将AtCas9 RNP与互补ssDNA一起温育。与II-C型Cas9直系同源物一致，AtCas9能够在不需要tracrRNA的情况下切割ssDNA(图5B)，从而排除了负超螺旋诱导的PAM突变体dsDNA的切割是Cas9对ssDNA的活性的结果的可能性，ssDNA切割不需要PAM结合。

使用两种不同间隔区的动力学分析显示当PAM突变时AtCas9和AhCas9具有对负超螺旋DNA的强切割活性(图5C和图7A至图7D)，表明DNA超螺旋是这些Cas9蛋白所偏好的，并且能够独立于PAM启动DNA切割。接下来，为了确定切割是否是位点特异性的，在体外用AtCas9 RNP或AhCas9 RNP切割含有WT PAM或突变PAM的质粒，并用限制性酶NcoI消化所切割的产物(图5D)。消化产物的凝胶分析和sanger测序表明，无论是WT还是突变PAM，AtCas9和AhCas9在PAM上游3bp处产生平端双链断裂(图5D和图5E)。当使用线性DNA作为底物时观察到类似的结果(图8)。相比之下，单独的Cas9表现出非特异性切割(图5D)，这可能是由其切口酶活性引起的。总之，这些数据表明AtCas9和AhCas9可被编程以切割具有突变PAM序列的负超螺旋DNA。接下来我们研究了PAM非依赖性切割是否是可编程的。我们测试了额外的间隔区及其对应的DNA底物，其中PAM发生了突变。线性PAM突变体显示出很少的切割，而它们的超螺旋拓扑异构体表现出由AtCas9和AhCas9进行的高达100％的切割(图6B)，表明对超螺旋DNA的PAM非依赖性切割对于这两种酶是可编程的。

我们的深度测序表明AtCas9具有基于两种sgRNA的广泛PAM偏好性。为了确定PAM偏好性是否由其他sgRNA共享，我们测试了高达82种gRNA，其中十六种PAM组合在位置5和位置8上不同。将与等摩尔AtCas9复合的50nM体外转录的gRNA与其对应的底物(3nM)在55℃孵育30分钟，这些底物呈现为线性或负超螺旋。通过定量琼脂糖凝胶上的切割级分来测量切割效率。考虑到覆盖16种PAM组合的所有82种gRNA，当dsDNA底物为负超螺旋时，AtCas9具有60.1％的中值效率，相比之下，线性异构体具有16.2％的中值效率(图5F)。当与线性dsDNA(B型)一起存在时，AtCas9显示出经典的PAM CNNN、RNNA(R＝A或G)，所测试的34种gRNA的平均效率为91.7％(图2E)。非PAM组合诸如RNNB(B＝非A，R＝A/G)和TNNN在线性dsDNA中表现出20％的中值效率，表明这些序列作为B型DNA存在时不太可能被AtCas9识别。当与负超螺旋dsDNA一起孵育时，PAM偏好性扩展到除TNNG之外的几乎所有非PAM组合(图5F)，具有80％的中值效率。直接比较每种gRNA的两种拓扑异构体，我们发现在非PAM底物中，负超螺旋大大提高了切割效率，平均为线性异构体的50倍，而在含有PAM的底物中，负超螺旋为线性异构体的较小的1.3倍(图5F右)。考虑到覆盖十六种PAM组合的所有82种gRNA并计算负超螺旋与线性DNA的切割效率比，经典PAM和非经典PAM切割活性之间的倍数变化的平均值从1.3增加到49.3(图5F右)。总之，我们的数据强烈表明AtCas9具有广泛的PAM偏好性，具有不同的切割活性，并且负超螺旋底物能够进一步增强AtCas9在PAM和非PAM情况下的活性。

生化分析表明，DNA拓扑结构有助于促进AtCas9的近乎无PAM切割。为了确定这在体内情况下是否成立，我们分别在大肠杆菌和HEK293T中测试了16种PAM组合的编辑。将包括Cas9、tracrRNA和重复间隔区阵列的最小AtCas9基因座引入大肠杆菌中的lacA基因座(图5G左)。然后我们使用16种PAM组合或错配对照转化了编码匹配原型间隔区的质粒。与非靶向对照(EGFP)相比，所有16种PAM组合显示菌落形成减少至少100倍，表明AtCas9能够以无PAM方式切割超螺旋质粒(图5G)。

实施例3.由其拓扑结构引导的DNA解旋促进dsDNA切割。

在调节Cas9活性的许多因素中，DNA解旋和随后的R环形成是主要的决定因素。蛋白质结构分析表明，PAM序列和cas9蛋白之间的氢键相互作用对于解开DNA螺旋和允许R环形成至关重要。PAM测序中的突变完全消除了R环的形成。DNA双链体的解旋也可通过DNA中的负或正扭转应变来调节。当右旋双螺旋DNA以左旋方式扭转时会出现负超螺旋，这种左旋方式优先使DNA螺旋欠旋。另一方面，正超螺旋涉及以右旋取向扭转，导致螺旋的过旋并产生正扭转应变。为了确定扭转应变如何调节Cas9活性，我们首先通过用反向旋转酶处理负超螺旋DNA来产生不同水平的正超螺旋DNA，并在琼脂糖凝胶中验证制备(图9A)。与松弛的线性DNA类似，PAM中的突变完全消除了AtCas9对正超螺旋底物的活性(图10A和图9B)。这些结果表明，存在于负超螺旋异构体中的负扭转应变强烈促进AtCas9的PAM非依赖性的活性，而正超螺旋DNA中的正应变抑制AtCas9活性。

我们推断，在欠旋DNA中存在的负扭转应变在促进DNA解旋中起重要作用。为了检验这一假设，我们产生了一系列与PAM间隔开的非靶向链(NTS)中具有两个碱基错配的凸起的寡核苷酸(图10B)，其代表了模拟欠旋DNA的结构。与我们的预期一致，线性dsDNA靶中的两个碱基错配足以显著增强AtCas9的PAM非依赖性切割(图10C)。为了排除2个碱基的凸起可能对50nt寡核苷酸中的总体DNA拓扑结构有影响的可能性，我们合成了更长的120nt寡核苷酸并进行动力学分析。如所预期的，当PAM突变时，AtCas9对凸起的线性dsDNA的切割速度为对无凸起的对照的切割速度的至少30倍(图10D和图11A)。与ssDNA切割不同，凸起的线性dsDNA的这种切割也需要tracrRNA的存在(图11B)。

DNA拓扑结构在调节基因转录中起重要作用。在自然界，DNA具有三种拓扑形式，包括B型、Z型和A型。B型是最丰富且稳定的右旋双螺旋，而Z型是较不稳定的左旋双螺旋。Z-DNA通常由交替的嘌呤和嘧啶组成，并倾向于在真核细胞中转录活性位点后形成。Z-DNA更加伸展，每圈含有12个碱基对，并且与B型相比被认为是欠旋拓扑异构体。我们认为Z-DNA可增强PAM非依赖性活性。我们工程化了89nt的B-Z杂合微环DNA(图12)，并使用与Z-DNA区域匹配的crRNA进行体外切割。Z-DNA被AtCas9完全切割，而当PAM突变时B-DNA对切割有抗性(图10E)。总之，这些数据表明，欠旋DNA结构中的负扭转应变在促进AtCas9的PAM非依赖性活性中起关键作用。

实施例4.dAtCas9对欠旋DNA具有较高的结合亲和力。

为了研究DNA结构介导的AtCas9活性的潜在机制，我们测试了DNA拓扑结构将AtCas9 RNP复合物募集到其靶向dsDNA的假设。我们使用凝胶迁移率变动分析来测量预复合的RNP对不同拓扑异构体的结合亲和力。与SpCas9或NmeCas9不同，AtCas9与FAM标记的寡核苷酸的结合依赖于镁的存在(图13A至图13B)。然后我们在RuvC和HNH结构域中引入突变(D8A H617AN640A)，并产生催化失活的AtCas9(dAtCas9)，其不显示切割，但保持与靶DNA结合(图13A至图13B)。因此，dAtCas9用于测量其对各种拓扑异构体的结合亲和力。PAM突变的寡核苷酸底物显著降低了AtCas9 RNP复合物的结合亲和力，而引入两个碱基的凸起大大增强了结合亲和力，达到与WT PAM底物相当的水平(图13C)。当PAM在线性异构体中突变时，在线性异构体中未观察到结合，但采用负超螺旋DNA仅观察到结合亲和力的略微降低(图13D)。此外，使用WT PAM作为底物，AtCas9 RNP对负超螺旋DNA表现出为线性异构体的约3倍的结合亲和力(图13D)。这些数据表明AtCas9 RNP复合物具有对共享欠旋双螺旋结构的DNA拓扑异构体的强结合能力。总之，这些数据反映了DNA拓扑结构对与靶PAM-MUT dsDNA结合的AtCas9活性的优越效果，因此使得向导RNA链能够侵入，R环得以形成。

实施例5.DNA拓扑结构内存在的扭矩普遍用于调节Cas活性。

为了研究DNA拓扑结构是否也是其他Cas直系同源物所必需的，我们用其他CRISPR/Cas系统进行了体外PAM文库切割测定。SpCas9(II-A型)、NmeCas9(II-C型)和Cas14a1(V型)都表现出与松弛异构体相比，对负超螺旋PAM文库的切割活性的约10-100倍增加(图14A)。对线性和负超螺旋拓扑异构体的SpCas9 PAM要求的深度测序表明，对于GG在位置2和位置3的PAM偏好性，负超螺旋比线性dsDNA限制性小(图14B)。使SpCas9的PAM突变(CAT)完全消除了其对线性DNA的活性，但仅显示出对超螺旋DNA的切割活性降低40％(图14C)。此外，我们在PAM MUT线性DNA中产生了2个碱基对的凸起的DNA，并测试了SpCas9活性。与AtCas9相似，甚至当PAM突变(GTC)时，SpCas9也切割约50％凸起的DNA，而无凸起的对照则显示0％的切割(图14D)。总之，这些数据证明了PAM突变时DNA拓扑结构在调节SpCas9活性中的重要性。

实施例6.哺乳动物细胞中AtCas9的基因组编辑活性。

与其他Cas9直系同源物相似，AtCas9的两个核酸酶结构域HNH和RuvC分别负责在PAM上游3bp处切割靶链和非靶链(图15A和图5E)。为了确定嗜热AtCas9在哺乳动物细胞中是否有活性，我们首先确定了最小tracrRNA和crRNA要求，并将双RNA系统工程化为单向导RNA系统(图15B)。为了确定嗜热AtCas9在哺乳动物细胞中是否有活性，我们对AtCas9进行了密码子优化，并比较了不同的核定位信号(NLS)以确保哺乳动物细胞中的核递送(图15C)。选择双NLS(cmyc-核质蛋白)并测试由U6启动子驱动的sgRNA在两种不同的293T报告基因细胞系中的体内切割。一种报告基因具有单拷贝EGFP，另一种报告基因具有截短的p53序列后跟1bp移码EGFP。设计靶向EGFP或p53的sgRNAs并转染到对应的细胞系中。通过FACS分析EGFP破坏或激活，作为编辑效率的读数。首先，我们通过转染靶向p53或EGFP基因座的各种长度的间隔区来优化间隔区长度(图15D)。当间隔区长度是21nt或22nt时，AtCas9的编辑效率是最佳的，在两种报告基因细胞系中导致约25％的EGFP破坏或激活(图15D)。其次，我们通过根据NmeCas9 sgRNA结构用凸起结构延伸茎环1或截短重复序列-抗-重复序列和茎环2区域来工程化sgRNA支架(图15E)。通过设计靶向EGFP基因座的两种sgRNA，我们发现用额外的凸起结构(203构建体)延伸茎环1导致EGFP破坏与野生型(200构建体)相比增加为1.8倍。截短重复序列-抗-重复序列和茎环2区域(202构建体)不进一步增强编辑(图15E和图15F)。迄今为止，我们已经优化了AtCas9及其gRNA，以便能够在慢病毒产生的EGFP基因座处实现60％的效率。为了测试在其他内源性基因座中的编辑效率，我们筛选了7-10种靶向FANCF或VEGFA基因座的sgRNA并进行TIDE分析。在17种测试的gRNA中，仅3种显示出＜7％的有限编辑(图15G)，并且剩余的14种gRNA具有非常低的或没有超过TIDE测定的检测限的效率。总之，这些结果表明AtCas9能够编辑哺乳动物基因组，但在内源性基因座处具有低效率。AtCas9的低效率可能是由于其在37℃下的活性受损，或者染色体结构的存在影响了其对靶位点的可及性。

AtCas9的令人惊讶的特征之一是其对CNNN和RNNA(R＝A、G)的宽松PAM，以及在其最佳条件下对欠旋DNA的近乎无PAM切割。考虑到对于碱基编辑器的PAM选择的高约束，我们探索了AtCas9在碱基编辑中的应用。我们首先构建了AtCas9的胞嘧啶碱基编辑器(CBE)表达载体(命名为pAT7.2，图15H)，并在293T细胞中筛选了来自四种不同基因座(VEGFA、RUNX1、C-MYC和EGFP)的近280种gRNA，覆盖了16种PAM组合(在位置5和位置8上不同)(图15I)。当与CNNAPAM一起存在时，33种gRNA中的31种显示有效的C到T编辑，高达55％的效率(平均值为23％)；当PAM是CNNG或ANNA时，平均效率为约10％；当PAM是CNNY(Y＝C或T)、ANNG和GNNA时，平均编辑效率下降到约2％(图5G)；当PAM是TNNN、RNNT(R＝A或G)时，没有观察到编辑。总之，AtCas9碱基编辑器能够在具有CNNN和RNNA(R＝A、G)的广泛PAM偏好性的多个基因座之间介导有效的C到T编辑。

实施例7.对能够靶向更广泛PAM变体的AtCas9 PI结构域的工程化。

SpCas9和NmeCas9的结构分析表明，Cas9的PAM相互作用(PI)结构域与PAM碱基之间的相互作用对于启动R环形成很重要。为了确定该模型是否可应用于AtCas9，我们确定AtCas9的PI结构域的突变是否影响其切割活性。AtCas9和AhCas9共享98％的蛋白质序列同一性，主要差异在于PI结构域。因此，我们集中于PI结构域内的7种氨基酸，通过体外切割测定验证了这些AtCas9蛋白突变体对不同PAM底物的功能(图16A)，并针对NmeCas9的结构上验证的PAM相互作用氨基酸对其进行进一步过滤(图16B)。产生了两种AtCas9蛋白突变体PI-m4(D1089A，命名为PI-m4)和PI-m5(D1089AS1091AG1092A，命名为PI-m5)，并在55℃下测试(图17A和图17B)。除了对负超螺旋底物保持比线性dsDNA更高的切割活性之外，PI-V4和PI-V5两者都增强了DNNN(D代表A、G或T)PAM底物的切割效率，并降低了CNNN PAM底物的切割效率(图17B)。此外，体外PAM鉴定测定还证明PI-m4(D1089A)突变体不具有PAM偏好性(图17C)。通过凝胶迁移率变动分析，我们发现D1089AAtCas9对wt PAM dsDNA显示出与野生型AtCas9相同的结合能力，但是D1089AAtCas9对突变型PAM dsDNA显示出为野生型AtCas9的约4倍高的结合亲和力(图17D)。相比之下，SpCas9 RNP几乎不结合PAM突变体底物(图17E)。这些发现表明PI结构域突变体4(D1089A)可增强AtCas9与PAM突变体dsDNA的结合亲和力，并因此提高其切割效率。

实施例8.对在哺乳动物细胞中提高活性和靶向更广泛PAM变体的AtCas9蛋白的工程化。

体外切割实验证实AtCas9在55℃具有最佳活性，而切割活性在37℃降低(图1C)。为了提高AtCas9在37℃下的切割活性，我们分析了NmeCas9-sgRNA复合物和NmeCas9-sgRNA-dsDNA复合物的结构，总结了一系列具有构象重排的区域，并用NmeCas9的序列替换了对应于AtCas9的氨基酸。设计靶向EGFP的sgRNA并转染到单拷贝EGFP细胞系中，并在通过TIDE编辑具有不同突变体的细胞后分析基因型的变化。通过初步筛选，我们选择了几种可提高哺乳动物细胞中切割活性的突变蛋白(图18A和图18B)。其中，当WED结构域中的一小部分氨基酸序列被替换(V13)时，其AtCas9的切割活性增加达2-3倍(图18B)，表明该序列在37℃下对AtCas9的活性更重要。

接下来，我们研究了D1089AAtCas9在碱基编辑中的应用，并在293T细胞中筛选了来自四种不同基因座(VEGFA、RUNX1、C-MYC和EGFP)的近280种gRNA，覆盖了16种PAM组合(在位置5和位置8上不同)(图18C)。与野生型AtCas9(图15I)相比，D1089A突变体对CNNN PAM的编辑效率较低，但提高了GNNN和TNNAPAM的识别，但是对ANNN和TNNB PAM(B＝G、C和T)几乎没有影响。当共转染AtCas9表达质粒的不同变体和负超螺旋底物在PAM组合中变化时，我们发现AtCas9-CBE能够以不同的效率在13种PAM组合中产生编辑(图18D)。V13突变体的C到T碱基编辑效率与野生型AtCas9基本上相同(图18D)，表明V13突变体可影响核酸酶结构域的变构，这增强了切割活性，但不影响其对靶dsDNA的识别和结合。对于D1089A突变体，GNNN和TNNM PAM的碱基编辑效率已经增加，但对于其他PAM，特别是CNNN PAM，编辑效率降低(图18D)。我们推测，D1089与PAM序列的结合可能同时具有氢键相互作用和排斥作用，从而促进了不同序列PAM的鉴定。在稍后的阶段需要进一步探索AtCas9的结构。

碱基编辑器是纠正基因突变的最有力的工具之一，但是PAM限制已成为选择有效gRNA的限速步骤。在该实施例中，我们鉴定了热稳定的核酸内切酶AtCas9，最初在最适温度为55℃的嗜热菌中发现。据我们所知，该酶在其最适温度下具有CNNN和RNNA(R＝A、G)的最宽松PAM，覆盖68％的序列。当与负超螺旋底物一起存在时，与线性dsDNA相比，整体切割显示3倍增加，并且PAM偏好性扩展到MNNN、TNNM和GNNA(M＝C、A、V＝非T)，覆盖94％的序列。此外，当底物是负超螺旋拓扑结构时，AtCas9能够切割大肠杆菌中的所有PAM组合。非常令人惊讶的是AtCas9在哺乳动物细胞中是有活性的。AtCas碱基编辑器在哺乳动物细胞中显示出高的编辑效率，并且覆盖了广泛的PAM序列(CNNN和RNNA，R＝A、G)。

我们的发现表明，PAM不是区分自身或非自身的是/否门。相反，PAM是连续序列组合，与Cas9的结合强度各不相同。随着AtCas9与PAM的结合强度增加，诸如在强PAM的情况下，DNA解旋的程度进行至与间隔区完全互补配对，从而触发有效切割。随着结合强度降低，例如在中等或弱PAM的情况下，DNA解旋的程度降低，并且观察到很少或没有切割。另一个因素，即起到抑制DNA解旋作用的DNA扭矩，也在调节AtCas9活性中起关键作用。天然存在的欠旋DNA诸如负超螺旋或Z型dsDNA具有较小的扭矩，并且当与B型dsDNA相比时更容易解旋。当扭矩大于PAM结合强度时，DNA解旋诸如在具有弱PAM的线性dsDNA的情况下可被抑制。当扭矩较小时，诸如欠旋DNA，弱PAM dsDNA可触发DNA解旋并导致切割。然而，当PAM结合的强度足够强时，可克服扭矩对DNA解旋的影响。

当编辑哺乳动物基因组时，Cas9活性因基因座而异。研究表明，染色体结构、组蛋白和表观遗传标记可影响Cas9的可及性。我们的研究增加了另一个调节Cas9活性的重要因素—DNA拓扑结构。例如，如果gRNA设计在倾向于形成正超螺旋的区域，则活性可能会受损。如果针对欠旋区域设计gRNA，则可能会实现更高的编辑。AtCas9已经显示出对DNA拓扑结构的高度敏感性，特别是当与弱PAM(TNNA)一起存在时。对AtCas9进行编程以响应DNA中各种水平的扭转应变的能力可进一步为学习DNA结构的动力学提供新机会。

实施例9.材料和方法

RNA体外转录

使用携带T7启动子序列的合成DNA寡核苷酸体外转录RNA。在用T7 RNA聚合酶在37℃转录1小时后，使用柱或凝胶纯化试剂盒(NEB或ZYMO)根据制造商的方案纯化tracrRNA、crRNA或sgRNA。用于该研究的引物和寡核苷酸列于表1中。

蛋白质纯化

合成带有6xHis标签的AtCas9基因，并将其克隆到pACYCDuet-1载体(GenScript)中。将重组质粒转化到大肠杆菌BL21(DE3)中，并且通过加入0.5mM IPTG诱导蛋白质表达。在18℃孵育16小时后，将细胞沉淀重悬于裂解缓冲液(20mM Tris-HCl、500mM NaCl、10％甘油，pH 7.4)中，并通过超声(Scientz)裂解。离心后收集上清液，然后用0.22微米过滤器过滤。进行亲和纯化，然后进行尺寸排阻色谱步骤来纯化蛋白质。简言之，将澄清的裂解物上样到NGC Quest 10色谱系统(Biorad)中的HisTrap HP(GE Healthcare)上。将柱在裂解缓冲液中预平衡。使用梯度程序在缓冲液B1(20mM Tris-HCl，500mM NaCl，500mM咪唑，10％甘油，pH 7.4)中洗脱蛋白质。收集不同的洗脱级分，然后通过SDS-PAGE验证以鉴定靶蛋白。然后将亲和纯化的蛋白质上样到Superdex 200Increase 10/300GL柱(GE Healthcare)上的缓冲液B2(20mM Tris-HCl，200mM NaCl，20％甘油，pH 7.4)中。洗脱的蛋白质通过离心过滤器(Millipore)浓缩并在-80℃下储存于缓冲液B2中。使用定点突变PCR产生AtCas9 D8A、H617A/N640A、D8A/H617A/N640A和PI-m5、PI-m8突变体，并通过DNA测序确认。合成AhCas9基因并将其克隆到相同的表达载体(GenScript)中。按照与野生型AtCas9蛋白相同的程序纯化蛋白质。

T7 RNA聚合酶、SpCas9、NmeCas9和Cas14a1根据先前的研究进行纯化。简言之，合成了T7 RNA聚合酶基因和SpCas9/NmeCas9/Cas14a1基因(GenScript)并分别克隆到pET30c或pET28a载体中。加入1mM IPTG后，将T7 RNA聚合酶在37℃诱导4小时，而加入0.5mM IPTG后，将SpCas9/NmeCas9/Cas14a1在25℃诱导10小时。合成反向旋转酶基因并克隆至pET28a载体(GenScript)中，并将蛋白质在0.1mM IPTG下于20℃诱导14小时。蛋白质纯化步骤与AtCas9相同。

体外切割测定

除非另有说明，否则将纯化的AtCas9蛋白(50nM)和crRNA:tracrRNA双链体(50nM，1:1)在1×缓冲液16(10mM KCl，20mM HEPES，10mM MgCl₂，0.5mM DTT，0.1mM EDTA，pH 7.9)中混合，并在室温下孵育10分钟。将DNA底物以2nM(质粒DNA或长于2kb的线性dsDNA)或10nM(荧光标记的寡核苷酸)的最终浓度加入到反应系统中，并在55℃温育30分钟。通过加入1μl蛋白酶K(Thermo Fisher)在55℃保持10分钟来终止反应。所切割的产物通过0.8％ TAE琼脂糖凝胶分离，并且对于质粒DNA通过溴化乙锭染色可视化，以及对于荧光标记的寡核苷酸通过12％天然PAGE或变性PAGE可视化。使用Image Lab软件(Bio-rad)进行定量，并使用Prism 6(GraphPad)绘制切割效率。

每个Cas直系同源物(SpCas9、NmeCas9或Cas14a1)与其同源双RNA复合，以在其最佳切割条件下切割超螺旋和线性底物。SpCas9和NmeCas9分别在37℃下在缓冲液16(10mMKCl，20mM HEPES，10mM MgCl₂，0.5mM DTT，0.1mM EDTA，pH 7.9)和缓冲液6(50mM KCl，20mMHEPES，10mM MgCl₂，1mM DTT，pH 7.5)中切割dsDNA。而Cas14a1在缓冲液(25mM NaCl，20mMHEPES，5mM MgCl₂，1mM DTT，pH 7.5)和46℃下反应。

体内PAM筛选

合成含有原型间隔区21a和8个核苷酸随机化的PAM序列的PAM质粒文库，并克隆到pUC19载体(GenScript)中。将合并的质粒文库(100ng)转化到具有AtCas9基因座(pACYC184-AtCas9)、SpCas9基因座(pCas9-21)或不具有基因座的对照质粒(pACYC184)的电感受态大肠杆菌中。转化后，细胞在补充有0mM、0.1mM、1mM、5mM或10mM MgCl₂的LB培养基(10g/L胰蛋白胨、5g/L酵母提取物、10g/L NaCl，pH 8)中于37℃生长16小时。使用选择抗生素氨苄青霉素(50μg/ml)和氯霉素(25μg/ml)。使用质粒小提试剂盒(Omega)提取并纯化质粒DNA。用含有Illumina NovaSeq衔接子的引物扩增靶PAM区域。NovaSeq读段按平均Phred质量(Q分数)＞25来过滤。提取8个核苷酸随机化的PAM并用Python脚本进行分析。相对于对照样品进行归一化以计算测序或PCR偏差。这些图通过R绘制。

体外PAM筛选

先前描述的PAM质粒文库用BsaⅠ或Nt.BspQⅠ(NEB)处理，分别产生线性或开环拓扑结构。然后将柱纯化的线性、开环或负超螺旋PAM文库DNA在含有50nM浓度的AtCas9-crRNA-tracrRNA复合物的缓冲液16(10mM KCl，20mM HEPES，10mM MgCl₂，0.5mM DTT，0.1mM EDTA，pH 7.9)中消化，并在55℃孵育2小时。将所切割的产物在1％ TAE琼脂糖凝胶上分离，并凝胶提取所切割的条带。用NovaSeq的衔接子扩增靶PAM区域。NovaSeq读段需要按至少25的平均Phred质量(Q分数)来过滤。提取8个核苷酸随机化的PAM并用Python脚本进行分析。原始读段根据用限制性酶EcoRⅠ消化的对照进行归一化。seqlogo图通过R绘制。

正超螺旋质粒和Z-DNA的制备

正超螺旋：将5nM负超螺旋质粒pCE2-PAM1或pCE2-PAM3与各种浓度的反向旋转酶(5nM、50nM、250nM)在20μl最终体积的1×RG缓冲液(35mM Tris-HCl、0.1mM Na₂EDTA、30mMMgCl₂、2mM DTT、1mM ATP)中孵育。在80℃孵育10分钟后，将样品纯化并在1％ TAE琼脂糖凝胶上用0μM或20μM氯喹(Sigma)分析。凝胶用溴化乙锭染色。

Z-DNA：Z-DNA的制备根据先前的研究进行修改。分别制备两个单链DNA环，然后杂交形成Z型和B型DNA杂合体⁷。简言之，合成具有5’-磷酸基团和3’-羟基基团的89nt单链DNA，并使用CirLigase(Lucigen)环化以形成DNA环。环化反应在60℃进行2小时，然后用核酸外切酶Ⅰ(NEB)在37℃移除线性DNA2小时。回收环化产物，并将单链DNA环(cF-89，l-F89的环状形式)及其互补环(cR-89，l-R89的环状形式)在1×退火缓冲液(10mM HEPES，10mMMgCl₂，pH 7.5)中退火，以产生B型和Z型杂合双链DNA环(CC)。在8％天然PAGE上分析样品，并使用Zymo DNA Clean&Concentrator试剂盒(Zymo)柱纯化杂合双链DNA环。Z-DNA的验证通过用S1核酸酶(Thermo Fisher)处理进行，该酶识别Z-B连接并在识别位点处产生双链断裂⁷。用S1核酸酶(2U)在20μl1×反应缓冲液中处理0.2μM Z-B嵌合杂合体。在室温下孵育1小时后，加入2μl EDTA(0.5M，pH 8.0)终止反应，并在70℃热灭活10分钟。线性产物通过12％天然PAGE分离。

电泳迁移率变动分析(EMSA)

dAtCas9和sgRNA以1:2的摩尔比在1×缓冲液16中混合。在室温下孵育10分钟后，将RNP混合物稀释至1.2μM至0.6nM范围内的各种浓度，并加入4nM的cy5标记的寡核苷酸。结合反应在55℃进行30分钟。将样品在4％天然TBE-PAGE上进行寡核苷酸分离。对于质粒底物结合测定，我们首先通过用RSRII酶和PciI酶消化从pCE2-PAM1或pCE2-PAM3载体产生1551bp的极微质粒。根据制造商的方案(Mirus Bio)，用Cy5试剂盒对极微质粒进行序列验证和标记。结合反应物在0.8％琼脂糖凝胶上在1×硼酸钠(SB)缓冲液(8.6mM硼酸钠，45mM硼酸，pH 8.3)中以20mA在4℃分离11小时。凝胶通过Biorad Chemidoc MP成像仪(Bio-rad)成像。

大肠杆菌中的PAM非依赖性切割

使用引物对yz101-LHA-lacA-F和yz102-LacA-LHA-R从pACYC184-AtCas9扩增含有21a原型间隔区序列和氯霉素表达片段的AtCas9 CRISPR基因座，并且将该片段整合到大肠杆菌MG1655基因组中的LacA基因座中。用含有卡那霉素抗性标记物的各种PAM突变体质粒转化新产生的大肠杆菌菌株MG1655-AtCas9。将转化的细胞涂布在氯霉素(25μg/mL)和氯霉素(25μg/mL)/卡那霉素(50μg/mL)LB平板上，以分别计算总CFU和抗性CFU。转化频率被确定为来自六个独立实验的抗生素抗性cfu/ml和总cfu/ml。细胞培养、转染和GFP检测

在含有5％ CO₂的37℃培养箱中，将人HEK 293T细胞及其衍生报告基因细胞系维持在含10％ FBS和1％青霉素/链霉素的DMEM中。通过慢病毒将EF1α-EGFP载体稳定地掺入基因组中，产生HEK293T-EGFP细胞系。通过慢病毒稳定地掺入EF1α-p53-(+1移码)-EGFP载体，产生HEK293T-p53-(+1移码)-EGFP细胞系。通过FACS分选(BD FACSAria III)选择单拷贝整合集落，并将细胞维持在补充潮霉素的选择培养基上。

对于体内基因组编辑实验，将2ug AtCas9和1ug sgRNA表达质粒pAT301和gcl203混合在20ul电穿孔缓冲液中，并按照制造商的方案(Lonza)使用Lonza 4D-Nucleofector转染到4×10⁵个细胞中，然后将电穿孔的细胞接种到24孔板中。转染后5天使用Novocyte(Agilent)对p53基因座的GFP阳性细胞或EGFP基因座的GFP阴性细胞进行FACS分析。使用Hipure组织DNA小提试剂盒(Magen)提取内源性基因座VEGFA和FANCF的基因组DNA，PCR扩增靶区域，然后送去进行扩增子测序(Illumina)。

对于碱基编辑器实验，在转染前一天将1×10⁵个细胞接种到24孔板中。通过磷酸钙沉淀法将600ng AtCas9-CBE或AtCas9变体表达质粒和400ng sgRNA表达质粒(gcl203)共转染到HEK293T细胞中。当编辑负超螺旋底物时，将具有间隔区36的600ng pAT7.2和400nggcl203与1ng编码PAM变体的质粒共转染到HEK293T细胞中。转染后四天，用50mM NaOH在95℃提取基因组DNA或质粒10分钟，并用1M Tris-HCl(pH 8.0)中和。将编辑基因座扩增并准备用于扩增子测序(Illumina)。

AtCas9核定位的成像通过在室温下用2％甲醛固定转染的细胞10分钟来进行。细胞用Hoechst(Life Technologies)复染并在荧光显微镜(Nikon)下成像。

表1.本研究中使用的RNA和DNA。

§间隔区和互补靶链序列以红色和斜体显示。非靶链上的错配碱基用绿色和小写字母标记。AtCas9/AhCas9的非靶链上的PAM以黄色突出显示，并以粗体显示(这是PAM的最后四个核苷酸)。带下划线部分是SpCas9的PAM。

※由该序列及其互补链组成的双链体用TA/Blunt-Zero克隆试剂盒(Vazyme)克隆到pCE2质粒中

△由该序列及其互补链组成的双链体用Zero Blunt^TMTOPO^TMPCR克隆试剂盒(Invitrogen)克隆到pCR质粒中

上述实施例中涉及的额外序列：

tracrRNA–At/Ah 6-96:ACCACAUCAAGGCUUGCGAGGUUGCUAUGAUAAGGCAACAGGCCGCAAAGCACUGACCCGCAUUCCAAUGAAUGCGGGUCAUCUACUUUUU(SEQ ID NO:70)

tracrRNA–At/Ah 15-96:AGGCUUGCGAGGUUGCUAUGAUAAGGCAACAGGCCGCAAAGCACUGACCCGCAUUCCAAUGAAUGCGGGUCAUCUACUUUUU(SEQ ID NO:71)

tracrRNA–At/Ah 27-96:UUGCUAUGAUAAGGCAACAGGCCGCAAAGCACUGACCCGCAUUCCAAUGAAUGCGGGUCAUCUACUUUUU(SEQ ID NO:72)

crRNA–At/Ah双链体形成序列(21a crRNA–At/Ah 31-66)：GUCAUAGUUCCCUCACAAGCCUCGAUGUGGUAUGAU(SEQ ID NO:73)

截短的crRNA–At/Ah双链体形成序列(21a crRNA–At/Ah 31-52)：GUCAUAGUUCCCUCACAAGCCU(SEQ ID NO:74)

实施例10.PI结构域蛋白变体

鉴于AtCas9对线性DNA具有非常宽松的PAM(CNNN和RNNA，R＝A、G，N＝A、T、C、G)，则我们确定是否可能工程化AtCas9 PAM相互作用结构域以产生可绕过PAM限制而不管DNA拓扑结构的无PAM的变体。

方法：我们关注PAM相互作用结构域，产生13种不同的蛋白质变体并使用线性和负超螺旋DNA底物测试它们对WT PAM:CAGA和MUT PAM:TAGA的功能。

结果：从最初的筛选中，我们发现两种蛋白质变体D1089A和T1096A均显示出对MUTPAM的切割，而与DNA拓扑结构无关。

表2.列出的用于实验的蛋白质变体

* * *

本公开范围不受所述具体实施方案的限制，所述具体实施方案旨在作为本公开的各个方面的单一说明，并且功能上等同的任何组合物或方法都在本公开的范围内。对于本领域技术人员显而易见的是，在不背离本公开实质或范围的情况下，可对本公开的方法和组合物进行各种修改和变化。因此，本公开旨在涵盖本公开的各种修改和变型，前提条件是它们落入所附权利要求或其等效内容的范围内。

本说明书中提及的所有出版物和专利申请以引用方式并入本文，其程度如同每个单独的出版物或专利申请被具体地且单独地指示以引用方式并入。

Claims

1.一种用于编辑靶核酸的方法，所述方法包括使所述靶核酸与CRISPR-Cas系统接触，所述CRISPR-Cas系统包含：

来源于脂环酸芽孢杆菌属(Alicyclobacillus sp.)的Cas9蛋白或其功能变体，其中所述功能变体与来源于脂环酸芽孢杆菌属的所述Cas9蛋白具有至少70％序列同一性；和

向导RNA，所述向导RNA包含与所述靶核酸中的靶序列杂交的指导序列，

其中所述靶序列(a)与包含CNNN和RNNA的原型间隔区相邻基序(PAM)相邻，其中R是A或G，并且每个N独立地是A、T、C或G，或者(b)具有欠旋拓扑结构。

2.根据权利要求1所述的方法，其中所述Cas9蛋白来源于腾冲脂环酸芽孢杆菌(Alicyclobacillus tengchongensis)、橙皮脂环酸芽孢杆菌(Alicyclobacillushesperidum)或糖脂环酸芽孢杆菌(Alicyclobacillus Sacchari)。

3.根据权利要求2所述的方法，其中来源于脂环酸芽孢杆菌属的所述Cas9蛋白包含SEQID NO:84或SEQ ID NO:85的氨基酸序列。

4.根据权利要求1所述的方法，其中所述靶序列是负超螺旋DNA、凸起的双链DNA或Z-DNA。

5.根据权利要求4所述的方法，其中所述凸起的DNA在距所述靶序列的互补序列的3'的1至10个位置内具有一个或多个连续的未配对碱基。

6.根据权利要求1至5中任一项所述的方法，其中具有欠旋拓扑结构的所述靶序列不包括所述PAM。

7.一种突变Cas9蛋白，所述突变Cas9蛋白包含(a)在选自E530、S531、L536、L602、D603、V604、T605、R1065、E1066、D1068、D1089、S1091、G1092、T1094、L1095和T1096的残基处具有至少一个突变的SEQ ID NO:84，或(b)与SEQ ID NO:84具有至少70％序列同一性同时保留(a)的所述突变的序列。

8.根据权利要求7所述的突变Cas9蛋白，其中所述突变选自E530A、S531R、L536T、L602I、D603N、V604L、T605G、R1065A、E1066K、D1068K、D1068R、D1089A、D1089E、S1091A、G1092A、T1094A、L1095A和T1096A。

9.根据权利要求7所述的突变Cas9蛋白，其中所述突变在D1089或T1096处。

10.根据权利要求9所述的突变Cas9蛋白，其中所述突变是D1089A或T1096A或它们的组合。

11.一种融合蛋白，所述融合蛋白包含根据权利要求7所述的突变Cas9蛋白和核碱基脱氨酶或逆转录酶。

12.一种用于编辑靶核酸的方法，所述方法包括使所述靶核酸与CRISPR-Cas系统接触，所述CRISPR-Cas系统包含：

Cas蛋白，所述Cas蛋白具有靶向线性双链DNA所需的对应原型间隔区相邻基序(PAM)；和

向导RNA，所述向导RNA包含与所述靶核酸中的靶序列杂交的指导序列，所述靶序列与靶PAM序列相邻，

其中所述靶序列具有欠旋拓扑结构并且所述靶PAM序列不是所述Cas蛋白的所述对应PAM。

13.根据权利要求12所述的方法，其中所述Cas蛋白是SpCas9并且所述对应PAM是NGG，其中N是A、T、C或G。

14.根据权利要求13所述的方法，其中所述靶PAM序列是NAG或NGA。

15.根据权利要求12所述的方法，其中所述Cas蛋白是FnCas9并且所述对应PAM是NGG，其中N是A、T、C或G。

16.根据权利要求15所述的方法，其中所述靶PAM序列是NGA。

17.根据权利要求12所述的方法，其中所述Cas蛋白是SaCas9并且所述对应PAM是NNGRRT，其中每个N独立地是A、G、C或T，并且每个R独立地是A或G。

18.根据权利要求17所述的方法，其中所述靶PAM序列是NNGRRV，其中V是A、C或G。

19.根据权利要求12所述的方法，其中所述Cas蛋白是NmeCas9并且所述对应PAM是NNNNGATT，其中每个N独立地是A、G、C或T。

20.根据权利要求19所述的方法，其中所述靶PAM序列是NNNNGCTT、NNNNGTTT、NNNNGACT、NNNNGATA、NNNNGTCT或NNNNGACA。

21.根据权利要求12所述的方法，其中所述Cas蛋白是AsCas12a并且所述对应PAM是TTTV，其中V是A、C或G。

22.根据权利要求21所述的方法，其中所述靶PAM序列是CTTV、TCTV或TTCV。

23.根据权利要求12所述的方法，其中所述Cas蛋白是AtCas9并且所述对应PAM是CNNN或RNNA，其中每个N独立地是A、T、C或G，并且R是A或G。

24.根据权利要求23所述的方法，其中所述靶PAM序列是除CNNN和RNNA之外的任何序列。

25.一种用于编辑靶核酸的方法，所述方法包括使所述靶核酸与CRISPR-Cas系统接触，所述CRISPR-Cas系统包含：

Cas蛋白，和

其中所述Cas蛋白或所述向导RNA与能够改变所述靶核酸的拓扑结构的酶共价或非共价偶联。

26.根据权利要求25所述的方法，其中所述Cas蛋白与所述酶融合。

27.根据权利要求25所述的方法，其中所述Cas蛋白和所述酶各自与能够彼此结合的对应蛋白配偶体融合。

28.根据权利要求27所述的方法，两个对应配偶体是配体和对应受体。

29.根据权利要求25至27中任一项所述的方法，其中所述酶能够减少所述靶核酸的正超螺旋或增加所述靶核酸的负超螺旋。

30.根据权利要求29所述的方法，其中所述酶选自非特异性大肠杆菌热不稳定(HU)蛋白、UvrD解旋酶、Rep解旋酶、PcrA解旋酶、Dda解旋酶、RecQ解旋酶、eIF4A解旋酶、WRN解旋酶、NS3解旋酶、TRCF(Mfd)解旋酶、Ltag解旋酶、E1解旋酶、Rep解旋酶、DnaB解旋酶、gp41解旋酶、T7gp4解旋酶、Rho解旋酶、DNA解旋酶B(HELB)、RecD解旋酶、RecBCD解旋酶、Pif1解旋酶和Rrm3解旋酶。

31.一种融合蛋白，所述融合蛋白包含Cas蛋白和能够改变双链DNA的拓扑结构的酶。

32.根据权利要求31所述的融合蛋白，其中所述酶选自非特异性大肠杆菌热不稳定(HU)蛋白、UvrD解旋酶、Rep解旋酶、PcrA解旋酶、Dda解旋酶、RecQ解旋酶、eIF4A解旋酶、WRN解旋酶、NS3解旋酶、TRCF(Mfd)解旋酶、Ltag解旋酶、E1解旋酶、Rep解旋酶、DnaB解旋酶、gp41解旋酶、T7gp4解旋酶、Rho解旋酶、DNA解旋酶B(HELB)、RecD解旋酶、RecBCD解旋酶、Pif1解旋酶和Rrm3解旋酶。

33.根据权利要求1至6和12至30中任一项所述的方法，其中所述向导RNA是crRNA、单向导RNA或引导编辑向导RNA(pegRNA)。

34.根据权利要求1至6和12至30中任一项所述的方法，其中所述Cas蛋白与核碱基脱氨酶或逆转录酶融合。

35.根据权利要求34所述的方法，其中所述核碱基脱氨酶是失活的核碱基脱氨酶。