CN115427566A

CN115427566A - 用于改善的位点特异性修饰的组合物和方法

Info

Publication number: CN115427566A
Application number: CN202180026385.7A
Authority: CN
Inventors: M·马雷斯卡
Original assignee: AstraZeneca AB
Current assignee: AstraZeneca AB
Priority date: 2020-04-08
Filing date: 2021-04-07
Publication date: 2022-12-02
Also published as: JP2023522848A; US20230340538A1; WO2021204877A2; WO2021204877A3; EP4133069A2

Abstract

本披露提供了用于改善的基因编辑效率的蛋白质、组合物、方法和试剂盒。在一些实施例中，本披露提供了包含Cas核酸酶和逆转录酶、DNA聚合酶、DNA连接酶或其组合的融合蛋白。

Description

用于改善的位点特异性修饰的组合物和方法

技术领域

背景技术

可编程核酸酶(例如CRISPR/Cas9)可以产生位点特异性双链断裂(DSB)，该双链断裂可以通过在靶位点诱导插入和缺失的混合(indel)来破坏基因。然而，模板依赖性同源定向修复(HDR)的DSB修复可能具有较低的频率，而高效的模板非依赖性非同源末端连接(NHEJ)可能容易出错并且可能不利于所期望的插入。

Anzalone等人(Nature[自然]576：149-157(2019))描述了先导编辑(primeediting)的发展，它利用可编程切口酶与逆转录酶融合，可编程切口酶产生单链断裂，逆转录酶可以在切割位点插入短序列。然而，先导编辑只能插入多达22个碱基对的短序列，并且依赖于RNA去除和单链DNA与靶位点杂交的复杂机制，并且还需要通过细胞平衡去除重叠的“flap”序列。

发明内容

在一些实施例中，本披露提供了一种融合蛋白，其包含：(i)Cas核酸酶和(ii)逆转录酶、DNA聚合酶、DNA连接酶或其组合，其中该Cas核酸酶能够产生双链多核苷酸切割。

在一些实施例中，Cas核酸酶是Cas9或Cas12。在一些实施例中，Cas9是IIB型Cas9。在一些实施例中，Cas9包含与SEQ ID NO：1具有至少90％同一性的多肽序列。

在一些实施例中，融合蛋白包含Cas核酸酶和逆转录酶。在一些实施例中，逆转录酶是MMLV逆转录酶或R2逆转录酶。在一些实施例中，逆转录酶包含与SEQ ID NO：2-3中的任一个具有至少90％同一性的多肽序列。

在一些实施例中，融合蛋白包含Cas核酸酶和DNA聚合酶。在一些实施例中，DNA聚合酶是phi29 DNA聚合酶、T4 DNA聚合酶、DNA聚合酶μ、DNA聚合酶δ或DNA聚合酶ε、Rev3、DNA聚合酶I、DNA聚合酶I的Klenow片段。在一些实施例中，DNA聚合酶包含与SEQ ID NO：4-6中的任一个具有至少90％同一性的多肽序列。

在一些实施例中，融合蛋白包含Cas核酸酶和DNA连接酶。在一些实施例中，DNA连接酶是T4 DNA连接酶。在一些实施例中，DNA连接酶包含与SEQ ID NO：7具有至少90％同一性的多肽序列。

在一些实施例中，融合蛋白进一步包含DNA结合结构域或RNA结合结构域。在一些实施例中，DNA结合结构域是锌指DNA结合结构域、转录因子或腺相关病毒Rep蛋白。在一些实施例中，RNA结合结构域是MS2外壳蛋白(MCP2)。在一些实施例中，RNA结合结构域包含KH结构域。在一些实施例中，RNA结合结构域是核内不均一核糖核蛋白K(hnRNPK)。在一些实施例中，DNA结合结构域能够结合单链DNA(ssDNA)。在一些实施例中，DNA结合结构域是远上游元件结合蛋白(FUBP)。在一些实施例中，DNA结合结构域或RNA结合结构域包含与SEQ IDNO：8-11中的任一个具有至少90％同一性的多肽序列。

在一些实施例中，融合蛋白进一步包含(i)和(ii)之间的多肽接头。

在一些实施例中，融合蛋白包含与SEQ ID NO：18-26中的任一个具有至少90％同一性的多肽序列。

在一些实施例中，本发明提供一种组合物，其包含：(a)本文提供的融合蛋白；和(b)多核苷酸，该多核苷酸与该融合蛋白形成复合物并包含(i)指导序列；和(ii)逆转录酶、DNA聚合酶或DNA连接酶的模板序列。

在一些实施例中，多核苷酸包含RNA。在一些实施例中，指导序列包含RNA并且模板序列包含DNA。在一些实施例中，模板序列包含无碱基位点、三甘醇(TEG)接头或两者。在一些实施例中，指导序列的长度为约15至约20个核苷酸。在一些实施例中，多核苷酸进一步包含tracrRNA。在一些实施例中，组合物包含第二多核苷酸，该第二多核苷酸包含tracrRNA。

在一些实施例中，模板序列包含引物结合序列和目的序列。在一些实施例中，引物结合序列和目的序列包含DNA。在一些实施例中，目的序列包含DNA。在一些实施例中，模板序列的长度为约25至约10000个核苷酸。在一些实施例中，引物结合序列的长度为约4至约30个核苷酸。在一些实施例中，目的序列的长度为约5个核苷酸至约9800个核苷酸。

在一些实施例中，多核苷酸包含在指导序列和模板序列之间的间隔子。在一些实施例中，间隔子的长度为约10至约200个核苷酸。在一些实施例中，间隔子包含逆转录酶或DNA聚合酶的终止序列。在一些实施例中，间隔子包含多于一个终止序列。在一些实施例中，终止序列包含二级结构。在一些实施例中，二级结构是发夹环。

在一些实施例中，本发明提供一种组合物，其包含：(a)本文提供的融合蛋白；(b)与该融合蛋白形成复合物并包含指导序列的指导多核苷酸；和(c)包含逆转录酶、DNA聚合酶或DNA连接酶的模板序列的模板多核苷酸。

在一些实施例中，指导多核苷酸是RNA。在一些实施例中，模板多核苷酸包含RNA。在一些实施例中，模板序列包含DNA。在一些实施例中，模板序列包含无碱基位点、三甘醇(TEG)接头或两者。在一些实施例中，指导序列的长度为约15至约20个核苷酸。在一些实施例中，向导多核苷酸进一步包含tracrRNA。在一些实施例中，组合物进一步包含第三多核苷酸，该第三多核苷酸包含tracrRNA。

在一些实施例中，模板序列的长度为约25至约10000个核苷酸。在一些实施例中，模板序列包含目的序列。在一些实施例中，目的序列的长度为约5个核苷酸至约9800个核苷酸。在一些实施例中，目的序列包含DNA。

在一些实施例中，模板多核苷酸进一步包含引物结合序列。在一些实施例中，引物结合序列的长度为约10至约20个核苷酸。在一些实施例中，引物结合序列和目的序列包含DNA。

在一些实施例中，模板多核苷酸进一步包含逆转录酶或DNA聚合酶的终止序列。在一些实施例中，模板多核苷酸包含多于一个终止序列。在一些实施例中，终止序列包含二级结构。在一些实施例中，二级结构是发夹环。

在一些实施例中，模板多核苷酸包含腺相关病毒(AAV)载体，该载体包含目的序列。

在一些实施例中，本披露提供了编码本文提供的融合蛋白的多核苷酸。在一些实施例中，本披露提供了包含编码本文提供的融合蛋白的多核苷酸的载体。

在一些实施例中，本披露提供了包含本文提供的融合蛋白的细胞。在一些实施例中，本披露提供了包含编码本文提供的融合蛋白的多核苷酸或本文提供的载体的细胞。

在一些实施例中，本披露提供了包含本文提供的组合物的细胞。

在一些实施例中，本披露提供了在靶多核苷酸中的靶序列处提供位点特异性修饰的方法，该方法包括使该靶多核苷酸与本文提供的组合物接触。

在一些实施例中，靶多核苷酸是DNA。在一些实施例中，指导序列能够与靶序列杂交。在一些实施例中，在足以使Cas核酸酶在靶序列处产生双链多核苷酸切割的条件下进行接触。

在一些实施例中，模板序列包含目的序列。在一些实施例中，模板序列包含能够与靶序列杂交的引物结合序列。

在一些实施例中，在足以使逆转录酶转录目的序列的互补链的条件下进行接触。在一些实施例中，该方法进一步包括切割模板序列以产生包含目的序列的双链序列。在一些实施例中，切割由RNA酶H进行。

在一些实施例中，在足以使DNA聚合酶产生包含目的序列的双链序列的条件下进行接触。在一些实施例中，在足以使DNA连接酶将目的序列连接到切割的靶序列的条件下进行接触。

在一些实施例中，包含目的序列的双链序列通过非同源末端连接(NHEJ)插入到切割的靶序列中。在一些实施例中，包含目的序列的双链序列通过DNA连接酶插入到切割的靶序列中。

在一些实施例中，该方法进一步包括在靶多核苷酸中的第二靶序列处产生第二双链多核苷酸切割。在一些实施例中，目的序列替换靶序列和第二靶序列之间的靶多核苷酸序列。

在一些实施例中，本披露提供了包含本文提供的融合蛋白的试剂盒。

在一些实施例中，试剂盒进一步包含与融合蛋白形成复合物的多核苷酸和/或用于表达该多核苷酸的载体。在一些实施例中，试剂盒进一步包含模板多核苷酸(该模板多核苷酸包含逆转录酶、DNA聚合酶或DNA连接酶的模板序列)和/或用于表达该模板多核苷酸的载体。在一些实施例中，试剂盒进一步包含含有tracrRNA的多核苷酸。在一些实施例中，试剂盒进一步包含RNA酶H。

在一些实施例中，Cas9-RT融合物与pegRNA和DNAPK抑制剂一起使用以提高基因编辑效率

附图说明

图1A-1D示出了本文实施例中描述的示例性方法。图1A和1B显示与“NHEJ促进结构域”(例如逆转录酶、DNA聚合酶或DNA连接酶)融合的Cas9，融合蛋白称为PRimed INsertion(PRINS)。如图1A中，“SPRINgRNA”(单引发插入指导RNA)包含目的序列(“ins”)和引物结合位点(PBS)。在图1B中，融合蛋白进一步包含DNA-或RNA-结合结构域(例如，MCP2、ZF、TALE、FBP、Pumilio、HUH或SNAP)，并且具有PBS的目的序列作为单独的多核苷酸提供。图1C显示了图1A中所示的PRINS复合物的作用机制。Cas9核酸酶在靶多核苷酸处产生双链切割。Cas9复合物中包含PBS和目的序列的模板序列用于生成包含目的序列拷贝的双链插入序列。然后可以通过NHEJ将产生的双链插入序列连接到切割的靶多核苷酸。图1D显示了用于组合插入和缺失的另一个实施例。Cas9核酸酶在靶多核苷酸处产生双链断裂。Cas9复合物中包含PBS和目的序列的模板序列用于生成包含目的序列拷贝的双链插入序列。然后可以通过NHEJ将生成的双链插入序列连接到由第二CRISPR/Cas复合物在下游生成的另一个断裂处。两个CRISPR/Cas复合物之间的序列被目的序列替换。

图2A-2E示出了本文实施例中描述的示例性方法。图2A显示了Cas9-RT融合蛋白(PRINS)和含有插入序列的指导RNA(gRNA)在靶序列中产生双链断裂。PRINS结合gRNA进行延伸。图2B显示了延伸的结果，其中延伸的序列由虚线表示。图2C显示了例如通过RNA酶H在延伸的序列中产生双链断裂。图2D显示了NHEJ将延伸的序列整合到切割的靶序列中。图2E显示了插入的序列。

图3A和3B涉及实例1并且显示了在AAVS1位点处Cas9编辑(图3A)与PRINS编辑(图3B)的比较。相对编辑频率由RIMA确定，如实例1中所述。插入用椭圆表示。图3B显示PRINS促进序列AAGATG的模板插入，并且PRINS相比于Cas9促进插入。所有插入均衍生自原始序列AAGATG。

图4示出了本文实施例中描述的示例性方法。Cas核酸酶由gRNA引导至靶序列并产生双链DNA断裂。模板序列包含与作为引物的切割的DNA杂交的引物结合序列、和目的序列。逆转录酶，例如与Cas9核酸酶融合的逆转录酶，从引物合成第一cDNA。与第一cDNA互补的DNA链由聚合酶，例如DNA聚合酶产生。第一cDNA和与第一cDNA互补的DNA链杂交产生双链序列，该双链序列可以通过DNA修复途径，例如NHEJ插入到切割的DNA中。

图5A-5D涉及实例2，并显示了利用先导编辑指导RNA(pegRNA)的先导编辑(如Anzalone等人，Nature[自然]576：149-157(2019)所述)与利用单引发插入指导RNA(springRNA)的PRINS编辑在AAVS1位点插入AAGATG序列的比较。如本文所述，通过片段分析确定相对编辑频率。图5A(PRINS)与图5B(先导编辑)的比较显示PRINS比先导编辑更有效。图5C和5D展示了PRINS的NHEJ依赖性。图5C和5D显示了在NHEJ中所涉及的DNA依赖性蛋白激酶抑制剂存在下PRINS(图5C)和先导编辑(图5D)插入频率的比较。

图6涉及实例3并且显示了使用pegRNA和springRNA连同PRINS在AAVS1位点插入AAGATG序列的效果。如本文所述，通过片段分析确定相对编辑频率。如图6所示，pegRNA和springRNA可以通过PRINS促进DNA插入，这既可以通过类似于先导编辑的途径，也可以通过类似于PRINS(引发编辑插入)的途径。

图7涉及实例4并且显示了在不存在DNA依赖性激酶(DNA-PK)抑制剂AZD7648的情况下使用PRINS编辑或先导编辑的效果。如本文所述，通过NGS Amplicon-Seq确定特异性整合。柱形图代表n＝2的平均值与标准偏差。标记为“#1”或“#2”的柱表示不同的springRNA(用于PRINS编辑)或不同的pegRNA(用于先导编辑)。

图8-12涉及实例5。图8显示了使用Cas9+RT(“PE0”)融合物、Cas9+DNA聚合酶D(“PE0 PolD”)融合物、Cas9+Phi29DNA聚合酶(“PE0 Phi”)融合物或Cas9对照时的编辑效率的总结，其中如本文所述使用包含springRNA的DNA模板序列(“DNA尾”)或包含springRNA的RNA模板序列(“RNA尾”)。

图9显示了使用Cas9+RT(“PE0”)融合蛋白与三种不同的指导RNA(一种包含RNA尾(“123RNA MS”)以及两个包含DNA尾(“123DNA”和“123DNA PS”)，如本文描述)的编辑模式。图9中的顶部、中间和底部分图分别表示使用123RNA MS尾、123DNA尾或123DNA PS尾的PE0的编辑模式。

图10显示了使用Cas9+DNA聚合酶D(“PE0 PolD”)融合蛋白与三种不同的指导RNA(一种包含RNA尾(“123RNA MS”)以及两个包含DNA尾(“123DNA”和“123DNA PS”)，如本文描述)的编辑模式。图10中的顶部、中间和底部分图分别表示使用123RNA MS尾、123DNA尾或123DNA PS尾的PE0 PolD的编辑模式。

图11显示了使用Cas9+Phi29 DNA聚合酶(“PE0 Phi”)融合蛋白与三种不同的指导RNA(一种包含RNA尾(“123RNA MS”)以及两个包含DNA尾(“123DNA”和“123DNA PS”)，如本文描述)的编辑模式。图11中的顶部、中间和底部分图分别表示使用123RNA MS尾、123DNA尾或123DNA PS尾的PE0 Phi的编辑模式。

图12显示了使用Cas9与三种不同的指导RNA(一种包含RNA尾(“123RNA MS”)以及两个包含DNA尾(“123DNA”和“123DNA PS”)，如本文描述)的编辑模式。图12中的顶部、中间和底部分图分别表示使用123RNA MS尾、123DNA尾或123DNA PS尾的Cas9的编辑模式。

图13、14A和14B涉及实例6。图13显示了用于PRINS编辑(标记为“PRINS#1”和“PRINS#2”)和先导编辑(标记为“PE#1”和“PE#2”)的示例性指导RNA设计。如图13所示，先导编辑指导RNA包括另外的3′同源区域。

图14A和14B显示了使用PRINS编辑或prime编辑并且在存在或不存在DNA-PK抑制剂AZA7648的情况下使用图13所示的不同指导RNA的效果。如本文所述，通过NGS Amplicon-Seq确定特异性整合。柱形图代表n＝2的平均值与标准偏差。

图15-16涉及实例7。图15说明了本文所述的白喉毒素选择系统的示例性示意图。如图15所示，选择DT受体HbEGF的内含子作为PRINS编辑或Cas9编辑靶标。只有双等位基因大缺失才能为细胞提供DT抗性。

图16显示了用Cas9-RT融合物(PRINS编辑，“PE0”)、Cas9、或Cas9切口酶-RT融合物(先导编辑，“PE2”)和三种不同的指导RNA转染的细胞的显微镜图像。阳性对照显示用靶向HbEGF的Cas9转染的细胞。

图17-18涉及实例8。图17显示了包含MCP结构域的两种Cas9+RT融合蛋白的示例性示意图，MCP结构域位于Cas9和RT之间(“PRINS_MS2_v1”)或RT下游(“PRINS_MS2_V2”)，如本文所述。测试了三种不同的多核苷酸系统：(1)与MS2适体融合的逆转录酶的指导RNA和模板多核苷酸，作为单独的多核苷酸；(2)对照、非靶向指导RNA；和(3)与逆转录酶模板融合的指导RNA。

图18显示了使用Cas9+RT+MCP融合蛋白与图17中描述的三种不同多核苷酸系统，PRINS编辑对于插入所期望序列AAGATG的编辑效率。

图19涉及实例9并且显示了Cas12的并靶向EXM1的示例性指导RNA。

图20涉及实例10并且显示了通过Cas9-DNA聚合酶融合蛋白的PRINS编辑的结果。在用Cas9、Cas9-RT(“PE0”)或与各种DNA聚合酶融合的Cas9转染的细胞中分析了springRNA插入序列的插入频率：没有3′已5′核酸外切酶活性的Klenow片段(“Cas9-Klenow exo-”)，具有3′已5′核酸外切酶活性的Klenow片段(“Cas9-Klenow exo+”)，或REV3聚合酶(“Cas9-REV3”)。每个圆圈代表每个独立转染的确切插入物的频率。虚线表示仅通过Cas9的插入的平均值(即背景值)，并且每个测试条件与背景的差异通过多重比较ANOVA(Brown-Forsythe和Welch调整)计算。10到15次测量的平均值和标准偏差表示为须状图。***：p＜0.0005；****：p＜0.0001。

图21A-21C涉及实例11并且显示了通过Cas9-DNA聚合酶融合蛋白与嵌合springRNAs的PRINS编辑的结果。Cas9-DNA聚合酶与具有DNA和RNA插入序列和PBS的嵌合springRNA(“DiHP”)或具有DNA插入序列的springRNA(“DiRP”)的共转染增加总体插入效率，如图27A所示，并增加插入所期望序列的频率，如图27B所示。在图27A和27B中，每个符号(圆圈、正方形或六边形)代表观察到的编辑/样品。圆圈代表springRNA，正方形代表DiHP，六边形代表DiRP。平均值和标准偏差由须状图表示。图27C显示了Cas9、PE0和Cas9-DNA聚合酶融合蛋白与springRNA、DiHP和DiRP的代表性编辑模式。在图27C中，插入由具有指定序列的阴影矩形表示，缺失由连接线表示。

图22涉及实例12并且显示了通过Cas9-RT使用带有修饰(无碱基位点或TEG接头)的springRNA进行的PRINS编辑的结果。Cas9-RT与经修饰的springRNA的共转染增加了具有期望长度的插入的频率，因此导致更精确的修饰。

图23A-23B涉及实例13。图23A显示了在用PE0(顶部分图)和单独表达的Cas9和RT(底部分图)进行PRINS编辑后，用荧光标记的PCR引物扩增并通过毛细管电泳分离后的AAVS1基因座的电描记图。星号描绘了对应于野生型序列的DNA产物，具有6bp插入的大分子对应于PRINS编辑的序列。图23B显示了单独表达Cas9、PE0、Cas9和RT以及单独表达Cas9-LigD和RT时PRINS编辑的结果。与Cas9和RT的共表达相比，Cas9-LigD和RT的共表达改善了所期望序列的插入。圆圈代表＞4个生物学重复的单个编辑测量。平均值和标准偏差由横线图和须状图表示。通过ANOVA计算统计差异(****：p＜0.0001)。

图24A-24B涉及实例14并且显示了在springRNA PBS中有或没有错配时PRINS编辑效率的结果。图24A显示了使用没有任何核碱基错配的springRNA进行PRINS编辑对于6-bp插入序列具有37.13％的相对插入频率。图24B显示了使用在PBS的3′末端具有2-bp核碱基错配的springRNA进行PRINS编辑对于4-nt插入序列(原始6-bp序列减去2-bp错配)具有59.59％的相对插入频率。

图25涉及实例15并显示了在部分缺乏以下DNA修复基因之一的细胞中进行PRINS编辑的结果：PRKDC(也称为DNAPK)、LIG4、TP53BP1、PARP1、POLQ、LIG3和ATM。在存在DMSO对照(“d”)或DNAPK抑制剂(“i”)的情况下，一式三份进行实验。左分图显示了用Cas9-RT融合物(“PE0”)和springRNA的实验。右分图显示了用PE0和pegRNA的实验。

图26A-26B涉及实例16。图26A-26B中的SEQ ID NO：29显示含有MHCas9的tracrRNA支架、6-bp插入序列和PBS的springRNA。图26A显示了通过MHCas9-RT的最有效PRINS编辑事件。图26B显示了通过MHCas9-RT的十个最频繁的PRINS编辑事件，表明RT不仅介导模板插入，还延伸了MHCas9产生的突出端序列(CCC)，如三个最频繁的编辑事件所示。

图27A-27B涉及实例17并且显示了通过Cas9-RT与pegRNA的靶向确定/插入和缺失结果。图27A显示了用DMSO或DNAPK抑制剂(DNAPKi)时在AAVS1基因座处A到G取代的频率。图27B显示了用DMSO或DNAPKi时在AAVS1基因座处1个核苷酸缺失的频率。

具体实施方式

本披露涉及改进的CRISPR系统及其组分，以及使用它们的方法。通常，CRISPR系统，例如CRISPR/Cas系统，包括在靶多核苷酸例如靶DNA序列的位点处促进CRISPR复合物形成的元件，例如指导多核苷酸和Cas蛋白。在天然存在的CRISPR系统(例如，细菌免疫CRISPR/Cas9系统)中，外来多达DNA被整合到CRISPR阵列中，然后产生CRISPR-RNA(crRNA)。crRNA包括与外来DNA位点互补的原型间隔子区域，并与也由CRISPR系统编码的反式激活CRISPR-RNA(tracrRNA)杂交。tracrRNA形成二级结构，例如茎环，并能够与Cas9蛋白结合。crRNA/tracrRNA杂合体与Cas9结合，crRNA/tracrRNA/Cas9复合物识别并切割带有原型间隔子序列的外来DNA，从而赋予对入侵病毒或质粒的免疫力。

自最初发现以来，广泛的研究集中在CRISPR系统在基因工程中的潜在应用，包括基因编辑(参见例如Jinek等人，Science[科学]337(6096)：816-821(2012)；Cong等人，Science[科学]339(6121)：819-823(2013)；和Mali等人，Science[科学]339(6121)：823-826(2013))。CRISPR/Cas系统(其利用本文所述的天然存在的CRISPR系统的组分)已用于在广泛范围的生物体和细胞系中进行位点特异性基因组修饰，例如基因编辑。除基因编辑外，CRISPR系统还有许多其他应用，包括调节基因表达、遗传回路构建、功能基因组学等(综述于Sander和Joung，Nat Biotechnol[自然生物技术]32：347-355(2014))。

除非本文另有定义，否则本发明中使用的科学技术术语应具有本领域普通技术人员通常理解的含义。另外，除非上下文另有要求，单数术语应包括复数形式，并且复数术语应包括单数形式。如本文所用，“一个/一种(a或an)”可以意指一个/种或多个/种。如本文所用，当与单词“包含”结合使用时，单词“一个/种”可以意指一个/种或多于一个/种。如本文所用，“另一个/种”可以意指至少第二个/种或更多个/种。

当单链形式的核酸分子可在适合的温度和溶液离子强度条件下退火至另一核酸分子上时，核酸分子与该另一核酸分子(如cDNA、基因组DNA或RNA)“可杂交”或“杂交”。杂交和洗涤条件是已知的，并在以下中举例说明：Sambtook等人，Molecular Cloning：ALaboratory Manual[分子克隆：实验室手册]，第二版，冷泉港实验室出版社(Cold SpringHarbor Laboratory Press)，冷泉港(1989)，特别是第11章和表11.1。温度和离子强度条件决定了杂交的“严格性”。可以选择杂交条件的严格性，从而在其他潜在交叉反应或干扰多核苷酸的存在下，提供两种互补核酸多核苷酸的所希望的杂交产物的选择性形成或维持。严格条件是序列依赖性的；通常，与更短的互补序列相比，更长的互补序列在更高温度下特异性杂交。通常，严格杂交条件比特定多核苷酸在确定的离子强度、化学变性剂浓度、pH和杂交配偶体浓度下的热熔点(T_m)(即，50％的序列与基本上互补的序列杂交的温度)低约5℃至约10℃。通常，与具有更低百分比的G和C碱基的核苷酸序列相比，具有更高百分比的G和C碱基的核苷酸序列在更严格条件下杂交。通常，可以通过增加温度、增加pH、降低离子强度、和/或增加化学核酸变性剂(如甲酰胺、二甲基甲酰胺、二甲亚砜、乙二醇、丙二醇和碳酸乙烯酯)的浓度来增加严格性。严格杂交条件通常包括小于约1M、500mM、200mM、100mM或50mM的盐浓度或离子强度；杂交温度高于约20℃、30℃、40℃、60℃或80℃；并且化学变性剂浓度高于约10％、20％、30％、40％或50％。因为许多因素可影响杂交的严格性，所以与任何单独的参数的绝对值相比，参数的组合可能更显著。

示例性低严格性杂交条件(例如对应于55℃的Tm)包括5X盐水-柠檬酸纳缓冲液(SSC)、0.1％SDS、0.25％牛奶、且不含甲酰胺；或30％甲酰胺、5X SSC、和0.5％SDS。示例性中等严格性杂交条件(对应于约55℃至约65℃的更高T_m)包括40％甲酰胺和5X或6X SCC。示例性高严格性杂交条件(对应于高于65℃的最高Tm)包括50％甲酰胺和5X或6X SCC。

其他示例性杂交条件包括pH为约6.5至8.5且离子强度为约20mM和200mM，在约15℃至40℃之间的温度下的缓冲溶液(例如，磷酸盐、Tris或HEPES缓冲溶液，具有约20mM至200mM的缓冲组分)。例如，缓冲液可以包括浓度为约10mM至约1M、约20mM至约500mM、约30mM至约100mM、约40mM至约80mM的盐，或约50mM的盐。示例性盐包括NaCl、KCl、(NH₄)₂SO₄、Na₂SO₄、和CH₃COONH₄。

术语“互补的”用于描述能够彼此杂交的核苷酸碱基之间的关系。例如，对于DNA，腺苷与胸腺嘧啶互补，而胞嘧啶与鸟嘌呤互补。因此，本披露还包括与本文披露或使用的完整序列互补的分离核酸片段以及那些基本上相似的核酸序列。

术语“同源重组”是指将外来多核苷酸(例如，DNA)插入另一个核酸(例如，DNA)分子中，例如，将载体插入染色体中。在一些情况下，该载体靶向特定的染色体位点以进行同源重组。对于特定的同源重组，该载体通常含有与染色体序列具有同源性的足够长的区域，以允许载体与染色体的互补结合和将载体掺入染色体。更长的同源性区域和更大程度的序列相似性可提高同源重组的效率。在一些实施例中，本文所述的融合蛋白或组合物通过在核酸序列中产生断裂例如双链断裂来促进同源重组。

如文中所用，术语“可操作地连接”意指目的多核苷酸，例如编码核酸酶的多核苷酸，以允许多核苷酸表达的方式与调节元件连接。在一些实施例中，该调节元件是启动子。在一些实施例中，表达目的多肽的多核苷酸可操作地连接至表达载体上的启动子。

“载体”是用于将核酸克隆和/或转移到宿主细胞中的任何手段。载体可以是复制子，另一个DNA区段可以附接到该复制子上以引起所附接区段的复制。“复制子”是任意一种遗传因子(例如，质粒、噬菌体、粘粒、染色体、病毒)，它充当DNA体内复制的自动单元，即在其自我控制下能复制。在一些实施例中，载体是附加型载体，该载体在许多个细胞世代后，通过例如不对称分配，从细胞群中去除/丢失。术语“载体”包括用于在体外、离体或体内将该核酸引入细胞中的病毒性和非病毒工具。本领域已知的大量载体可用于操作核酸、将应答元件和启动子掺入基因等。载体可以包括一个或多个调节区，和/或可用于选择、测量和监测核酸转移结果(转移到哪些组织、表达持续时间等)的选择性标记。

可能的载体包括例如质粒或经修饰的病毒，包括例如噬菌体如λ衍生物，或质粒如PBR322或pUC质粒衍生物，或Bluescript载体。例如，将对应于响应元件和启动子的DNA片段插入合适的载体中能伴随着将合适的DNA片段连接至具有互补结合端的选定载体。可替代地，DNA分子的末端可以被酶催化修饰或者任意位点通过将多核苷酸(接头)连接至该DNA末端中而产生。此类载体可进行工程化处理，以包含提供对细胞进行选择的选择性标记基因，这些细胞将标记掺入到细胞基因组中。此类标记允许鉴定和/或选择宿主细胞，这些宿主细胞掺入和表达该标记所编码的蛋白质。

病毒载体，特别是逆转录病毒载体，已经用于细胞以及活体动物的许多种基因递送应用中。可以使用的病毒载体包括但不限于逆转录病毒、腺病毒腺相关病毒、痘病毒、杆状病毒、牛痘病毒、单纯疱疹病毒、爱泼斯坦-巴尔病毒、腺病毒、双生病毒和花椰菜花叶病毒载体。在一些实施例中，使用病毒载体来提供本文所述的多核苷酸。在一些实施例中，病毒载体用于提供编码本文所述多肽的多核苷酸。

可以通过已知的方法将载体引入希望的宿主细胞中，这些方法包括但不限于转染、转导、细胞融合和脂质转染。载体可包括各种调节元件，包括启动子。在一些实施例中，载体设计可以基于由Mali等人，Nat Methods[自然方法]10：957-63(2013)设计的构建体。

可以使用本领域已知的方法扩增本文提供的多核苷酸和/或载体。一旦建立了合适的宿主系统和生长条件，就可以大量扩增和制备重组表达载体。如本文所述，可以使用的表达载体包括但不限于以下载体或其衍生物：人类或动物病毒，诸如牛痘病毒或腺病毒；昆虫病毒，诸如杆状病毒；酵母载体；噬菌体载体(例如，λ)，以及质粒和粘粒DNA载体。

术语“质粒”是指额外的染色体元件，该元件通常携带不参与细胞的中央代谢的基因，并且通常呈环状双链DNA分子的形式。此类元件可以是来源于任何来源的单链或双链DNA或RNA的线性、环状或超螺旋自主复制序列、基因组整合序列、噬菌体或核苷酸序列，其中许多多核苷酸已连接或重组到独特结构中，该独特结构能够将针对选定基因产物的启动子片段和DNA序列连同适当的3′未翻译序列引入到细胞中。在一些实施例中，使用质粒来提供本文所述的多核苷酸。在一些实施例中，使用质粒提供编码本文所述多肽的多核苷酸。

如本文所用，术语“转染”是指将外源核酸分子(包括载体)引入细胞中。“转染的”细胞包括细胞内的外源核酸分子，而“转化的”细胞是其中细胞内的外源核酸分子诱导细胞表型变化的细胞。转染的核酸分子可以整合到宿主细胞的基因组DNA中和/或可以由细胞在染色体外暂时或长期维持。表达外源核酸分子或片段的宿主细胞或生物体在本文中被称为“重组”、“转化”或“转基因”生物体。在一些实施例中，本披露提供了包括本文所述的任何表达载体(例如，包括编码核酸酶、融合蛋白或其变体的多核苷酸的表达载体)的宿主细胞。

术语“宿主细胞”是指已经引入重组表达载体的细胞，或者“宿主细胞”也可以指这样的细胞的后代。由于修饰可能在后代中发生，例如，由于突变或环境影响，后代可能与亲代细胞不同，但仍包括在术语“宿主细胞”的范围内。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用，是指任何长度的氨基酸的聚合形式，这些聚合形式可以包括编码和非编码的氨基酸、经化学或生物化学修饰或衍生的氨基酸和具有经修饰的肽骨架的多肽。

蛋白质或多肽的起点称为“N末端”(也称为氨基末端、NH₂末端、N末端或胺末端)，是指蛋白质或多肽的第一个氨基酸残基的游离胺(-NH₂)基团。蛋白质或多肽的末端称为“C末端(C-terminus)”(也称为羧基末端(carboxy-terminus)、羧基末端(carboxyl-terminus)、C末端(C-terminal end)或COOH末端)，是指蛋白质或多肽的最后一个氨基酸残基的游离羧基(-COOH)。

如本文所用，“氨基酸”是指包括羧基(-COOH)和氨基(-NH₂)两者的化合物。“氨基酸”是指天然和非天然(即合成)氨基酸。天然氨基酸及其三个字母和一个字母的缩写包括：丙氨酸(Ala；A)；精氨酸(Arg，R)；天冬酰胺(Asn；N)；天冬氨酸(Asp；D)；半胱氨酸(Cys；C)；谷氨酰胺(Gln；Q)；谷氨酸(Glu；E)；甘氨酸(Gly；G)；组氨酸(His；H)；异亮氨酸(Ile；)；亮氨酸(Leu；L)；赖氨酸(Lys；K)；甲硫氨酸(Met；M)；苯丙氨酸(Phe；F)；脯氨酸(临；P)；丝氨酸(Ser；S)；苏氨酸(Thr；T)；色氨酸(Trp；W)；酪氨酸(Tyr；Y)；和缬氨酸(Val；V)。非天然或合成氨基酸包括与上面提供的天然氨基酸不同的侧链，并且可以包括例如荧光团、翻译后修饰、金属离子螯合剂、光笼和光交联部分、独特的反应性官能团和NMR、IR和X射线晶体学探针。示例性非天然或合成氨基酸提供于例如Mitra等人，Mater Methods[材料方法]3：204(2013)和Wals等人，Front Chem[化学前沿]2：15(2014)。非天然氨基酸还可以包括通常不掺入蛋白质或多肽中的天然存在的化合物，例如瓜氨酸(Cit)、硒代半胱氨酸(Sec)和吡咯赖氨酸(Pyl)。

“氨基酸取代”是指包括一个或多个野生型或天然存在的氨基酸被相对于该野生型或天然存在的氨基酸不同的氨基酸在该氨基酸残基处取代的多肽或蛋白质。被取代的氨基酸可以是合成或天然存在的氨基酸。在一些实施例中，被取代的氨基酸是选自下组的天然存在的氨基酸，该组由以下组成：A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V。在一些实施例中，被取代的氨基酸是非天然的或合成的氨基酸。可以使用缩写系统来描述取代突变体。例如，第五个(5^th)氨基酸残基被取代的取代突变可以缩写为“X5Y”，其中“X”是要被替换的野生型或天然存在的氨基酸，“5”是蛋白质或多肽的氨基酸序列内的氨基酸残基位置，并且“Y”是取代的或非野生型或非天然存在的氨基酸。

“分离的”多肽、蛋白质、肽或核酸是已经从其天然环境中去除的分子。还应理解，“分离的”多肽、蛋白质、肽或核酸可以与赋形剂(诸如稀释剂)或佐剂一起配制，并且仍被认为是分离的。如本文所用，“分离的”不一定暗示多肽、蛋白质、肽或核酸的任何特定水平纯度。

当用于指核酸分子、肽、多肽或蛋白质时，术语“重组”意指未知在自然界中存在的遗传物质的新组合或由其产生。重组分子可以通过重组技术领域中现有的任何技术来产生，包括但不限于聚合酶链式反应(PCR)、基因剪接(例如，使用限制性核酸内切酶)以及核酸分子、肽或蛋白质的固相合成。

当用于指多肽或蛋白质时，术语“结构域”意指蛋白质中独特的功能和/或结构单元。结构域有时负责特定的功能或相互作用，有助于蛋白质的整体作用。在多种生物学背景下可以存在结构域。在具有不同功能的蛋白质中可以找到相似的结构域。替代性地，具有低序列同一性(即，小于约50％、小于约40％、小于约30％、小于约20％、小于约10％、小于约5％或小于约1％的序列同一性)的结构域可能具有相同的功能。

当用于多肽或蛋白质时，术语“基序”通常是指一组典型地长度短于20个氨基酸的保守的氨基酸残基，其对于蛋白质功能可能是重要的。特定的序列基序可以介导多种蛋白质中的共同功能，例如蛋白质结合或靶向特定亚细胞位置。基序的实例包括但不限于核定位信号、微体靶向基序、阻止或促进分泌的基序和促进蛋白质识别和结合的基序。基序数据库和/或基序搜索工具在本领域是已知的，并且包括例如PROSITE(expasy.ch/sprot/prosite.html)、Pfam(pfam.wustl.edu)、PRINTS(biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/PRINTS.html)和Minimotif Miner。

如本文所用，“工程化的”蛋白质是指在蛋白质中包括一个或多个修饰以获得所希望特性的蛋白质。示例性修饰包括但不限于插入、缺失、取代和/或与另一结构域或蛋白质融合。“融合蛋白”(也称为“嵌合蛋白”)是包含至少两个结构域的蛋白质，该至少两个结构域通常由两个单独的基因编码，该两个单独的基因已经连接使得它们作为单个单元转录和翻译，从而产生具有这些结构域中每个的功能特性的单个多肽。本披露的工程化的蛋白质包括核酸酶和融合蛋白，例如，Cas核酸酶和逆转录酶、DNA聚合酶或DNA连接酶的融合蛋白。

在一些实施例中，工程化的蛋白是由野生型蛋白产生的。如本文所用，“野生型”蛋白质或核酸是天然存在的未修饰的蛋白质或核酸。例如，野生型Cas9蛋白可以分离自生物酿脓链球菌(Streptococcus pyogenes)。野生型可以与“突变体”形成对比，“突变体”在蛋白质或核酸的氨基酸和/或核苷酸序列中包括一个或多个修饰。在一些实施例中，工程化的蛋白质可具有与野生型蛋白质基本相同的活性，例如野生型蛋白质活性的大于约80％、大于约85％、大于约90％、大于约95％或大于约99％。在一些实施例中，本文所述的融合蛋白的Cas核酸酶具有与野生型Cas核酸酶基本相同的活性。

如本文所用，术语“序列相似性”或“相似性百分比％”是指核酸序列或氨基酸序列之间的同一性或一致程度。在多核苷酸的背景下，“序列相似性”可以指如下核酸序列，其中一个或多个核苷酸碱基的改变导致一个或多个氨基酸的取代，但不影响该多核苷酸编码的蛋白质的功能性质。“序列相似性”还可以指多核苷酸的修饰，如基本上不影响所得转录物的功能性质的一个或多个核苷酸碱基的缺失或插入。因此，应当理解，本披露不仅仅涵盖特定的示例性序列。进行核苷酸碱基取代的方法以及确定所编码多肽的生物活性保留的方法是已知的。

此外，技术人员认识到，本披露涵盖的相似多核苷酸也由其在严格条件下与本文举例说明的序列杂交的能力来定义。本披露的相似多核苷酸与本文披露的多核苷酸具有约70％、至少约70％、约75％、至少约75％、约80％、至少约80％、约85％、至少约85％、约90％、至少约90％、约95％、至少约95％、约99％、至少约99％或约100％同一性。

在多肽的上下文中，“序列相似性”是指两个或更多个多肽，其中大于约40％的氨基酸是相同的，或者大于约60％的氨基酸是功能上相同的。“功能相同”或“功能相似”的氨基酸具有化学上相似的侧链。例如，可以根据功能相似性按照以下方式对氨基酸进行分组：

带正电的侧链：Arg、His、Lys；

带负电的侧链：Asn、Glu；

极性、不带电的侧链：Ser、Thr、Asn、Gln；

疏水性侧链：Ala、Val、Ile、Leu、Met、Phe、Tyr、Trp；

其他：Cys、Gly、Pro。

在一些实施例中，本披露的相似多肽具有约40％、至少约40％、约45％、至少约45％、约50％、至少约50％、约55％、至少约55％、约60％、至少约60％、约65％、至少约65％、约70％、至少约70％、约75％、至少约75％、约80％、至少约80％、约85％、至少约85％、约90％、至少约90％、约95％、至少约95％、约97％、至少约97％、约98％、至少约98％、约99％、至少约99％或约100％相同的氨基酸。

在一些实施例中，本披露的相似多肽具有约60％、至少约60％、约65％、至少约65％、约70％、至少约70％、约75％、至少约75％、约80％、至少约80％、约85％、至少约85％、约90％、至少约90％、约95％、至少约95％、约97％、至少约97％、约98％、至少约98％、约99％、至少约99％或约100％功能相同的氨基酸。

可以使用本领域已知的方法通过序列比对来确定序列相似性，这些方法例如像BLAST、MUSCLE、Clustal(包括ClustalW和ClustalX)以及T-Coffee(包括例如像M-Coffee、R-Coffee和Expresso等变体)。

当多核苷酸或多肽序列在指定的比较窗口上比对时，可以确定多核苷酸或多肽的同一性百分比。在一些实施例中，仅将两个或更多个序列的特定部分进行比对以确定序列同一性。在一些实施例中，仅将两个或更多个序列的特定结构域进行比对以确定序列相似性。比较窗口可以是至少10至超过1000个残基、至少20至约1000个残基、或至少50至500个残基的区段，在其中可以比对和比较这些序列。用于确定序列同一性的比对方法是熟知的，并且可以使用公开可用的数据库(如BLAST)来进行。例如，在一些实施例中，使用Karlin和Altschul，Proc Nat Acad Sci USA[美国国家科学院院刊]87：2264-2268(1990)的算法，按Karlin和Altschul，Proc Nat AcadSci USA[美国国家科学院院刊]90：5873-5877(1993)所改良的，确定两个氨基酸序列的“同一性百分比”。此类算法被并入BLAST程序中，例如，Altschul等人，J Mol Biol[分子生物学杂志]，215：403-410(1990)中描述的BLAST+或NBLAST和XBLAST程序。可采用例如像XBLAST程序等的程序(分数＝50、字长＝3)，执行BLAST蛋白质搜索，以获得与本披露的蛋白质分子同源的氨基酸序列。在两个序列之间存在空位的情况下，可以利用如Altschul等人，Nucleic Acids Res[核酸研究]25(17)：3389-3402(1997)中描述的空位BLAST。当利用BLAST程序和空位BLAST程序时，可以使用相应程序(例如，XBLAST和NBLAST)的缺省参数。

在一些实施例中，多肽或多核苷酸与本文提供的参考多肽或多核苷酸(或参考多肽或多核苷酸的片段)具有70％、至少70％、75％、至少75％、80％、至少80％、85％、至少85％、90％、至少90％、95％、至少95％、97％、至少97％、98％、至少98％、99％或至少99％或100％的序列同一性。在一些实施例中，多肽或多核苷酸与本文提供的参考多肽或多核苷酸(或参考多肽或核酸分子的片段)具有约70％、至少约70％、约75％、至少约75％、约80％、至少约80％、约85％、至少约85％、约90％、至少约90％、约95％、至少约95％、约97％、至少约97％、约98％、至少约98％、约99％、至少约99％或约100％的序列同一性。

如本文所用，“复合物”是指一组两个或更多个相关联的多核苷酸和/或多肽。在复合物形成的上下文中，术语“关联”或“相关联”是指分子通过静电、疏水/亲水和/或氢键相互作用彼此结合，而不是共价连接。包含彼此共价连接的不同部分的分子是已知的。在一些实施例中，当复合物的所有组分一起存在时形成复合物，即自组装复合物。在一些实施例中，通过复合物的不同组分之间的化学相互作用(诸如像氢键结合)形成复合物。在一些实施例中，多核苷酸例如RNA多核苷酸通过蛋白质或多肽对多核苷酸的二级结构识别与蛋白质或多肽例如RNA指导的蛋白质形成复合物。

融合蛋白

与野生型Cas核酸酶相比，本披露的融合蛋白提供了改善的基因编辑效率。

在一些实施例中，本披露提供了一种融合蛋白，其包含：(i)Cas核酸酶和(ii)逆转录酶，或DNA聚合酶，或DNA连接酶，其中该Cas核酸酶能够产生双链多核苷酸切割。

如本文所述，融合蛋白通常包括至少两个具有不同功能的结构域。在一些实施例中，融合蛋白包含Cas核酸酶。通常，Cas核酸酶是CRISPR/Cas系统的一部分。如本文所述，CRISPR/Cas系统可用于位点特异性基因组修饰。CRISPR/Cas系统可以包括Cas核酸酶和指导多核苷酸(例如，指导RNA)。在一些实施例中，指导多核苷酸包含结合和/或激活Cas核酸酶的多肽结合区段和与靶序列杂交的指导序列(例如crRNA)。如本文所用，“区段”是指分子的一部分、节段或区域，例如指导多核苷酸分子的核苷酸的连续段。除非另有明确定义，否则“区段”的定义不限于特定数目的总碱基对。在一些实施例中，指导多核苷酸包含tracrRNA。在一些实施例中，指导多核苷酸不包含tracrRNA，并且在CRISPR/Cas系统中将tracrRNA作为单独的多核苷酸提供。在一些实施例中，tracrRNA激活Cas核酸酶。在一些实施例中，Cas核酸酶的激活启动或增加其核酸酶活性。在一些实施例中，Cas核酸酶的激活包括核酸酶与靶多核苷酸中的靶序列的结合。

根据系统中的核酸酶蛋白，CRISPR/Cas系统可分为I型至VI型。例如，Cas9可以在II型系统中找到，而Cas12可以在V型系统中找到。每种类型都可以进一步划分为子类型。例如，II型可以包括II-A、II-B和II-C亚型，V型可以包括V-A和V-B亚型。CRISPR/Cas系统和Cas核酸酶的分类在例如以下中进一步讨论：Makarova等人，Methods Mol Biol[分于生物学方法]1311：47-75(2015)；Makarova等人，The CRISPR Journal[CRISPR杂志]2018年10月；325-336；和Koonin等人，Phil Trans R Soc B[皇家学会伦敦皇家学会哲学会刊B系列]374：20180087(2018)。除非另有说明，本文所述的Cas核酸酶可涵盖任何类型或变体。

在一些实施例中，Cas核酸酶能够产生双链多核苷酸切割，例如双链DNA切割。通常，Cas核酸酶可以包括一个或多个核酸酶结构域，例如RuvC和HNH，并且可以切割双链DNA。在一些实施例中，Cas核酸酶包含RuvC结构域和HNH结构域，其各自切割双链DNA的一条链。在一些实施例中，Cas核酸酶产生平末端。在一些实施例中，Cas核酸酶的RuvC和HNH在相同位置切割每条DNA链，从而产生平末端。在一些实施例中，Cas核酸酶产生粘性末端。在一些实施例中，Cas核酸酶的RuvC和HNH在不同位置切割每条DNA链(即，在“偏移”处切割)，从而产生粘性末端。如本文所用，术语“粘性末端(cohesive end)”、“交错末端”或“黏性末端(sticky end)”是指具有长度不等的链的核酸片段。与“平末端”相反，粘性末端是由双链核酸(例如DNA)上的交错切割产生的。黏性或粘性末端具有突出的单链的链(这些链具有不成对的核苷酸)或突出端，例如，3′或5′突出端。

在一些实施例中，Cas核酸酶是Cas9。Cas9发现于本文所述的II型CRISPR/Cas系统中。示例性Cas9蛋白包括但不限于来自酿脓链球菌(Streptococcus pyogenes)、嗜热链球菌(Streptococcus thermophilus)、变形链球菌(Streptococcus mutans)、无害利斯特菌(Listeria innocua)、脑膜炎奈瑟菌(Neisseria meningitidis)、金黄色葡萄球菌(Staphylococcus aureus)、肺炎克雷伯菌(Klebisella pneumoniae)和许多其他细菌的Cas9蛋白。其他示例性Cas9核酸酶描述于例如US 8,771,945、US 9,023,649、US 10,000,772和US 10,407,697。在一些实施例中，Cas9是指SEQ ID NO：1的多肽。

在一些实施例中，Cas9是IIB型Cas9。一般而言，IIB型Cas9蛋白能够产生粘性末端，如本文所述。示例性IIB型Cas9蛋白包括但不限于来自嗜肺军团菌(Legionellapneumophila)、新凶手弗朗西丝氏菌(Francisella novicida)、毛螺旋杆菌(Parasutterella excrementihominis)、华德萨特菌(Sutterella wadsworthensis)、产琥珀酸沃廉菌(Wolinella succinogenes)和许多其他细菌的Cas9蛋白。在一些实施例中，IIB型Cas9来自已测序的肠道宏基因组MH0245_GL0161830.1(MHCas9)。其他IIB型Cas9蛋白描述于例如WO 2019/099943。

在一些实施例中，Cas9包含SEQ ID NO：1。在一些实施例中，Cas9包含与SEQ IDNO：1具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％具有至少98％、至少99％或约100％的序列同一性的多肽序列。在一些实施例中，本公开提供编码多肽的多核苷酸，该多肽与SEQ ID NO：1具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性。在一些实施例中，Cas9由多核苷酸编码，该多核苷酸已针对在宿主细胞中的表达进行了密码子优化。

在一些实施例中，Cas核酸酶是Cas12。Cas12核酸酶有时被称为“Cpf1”或“C2c1”核酸酶并且存在于如本文所述的V型CRISPR/Cas系统中。Cas12核酸酶通常比Cas9核酸酶小，并且能够产生粘性末端。示例性Cas12蛋白包括但不限于来自新凶手弗朗西丝氏菌、氨基酸球菌属物种、毛螺菌科物种、普雷沃菌属物种和许多其他细菌的Cas12蛋白。其他Cas12核酸酶描述于例如US 9,580,701、US 2016/0208243、Zetsche等人，Cell[细胞]163(3)：759-771(2015)和Chen等人，Science[科学]360：436-439(2018)。

在一些实施例中，Cas12包含SEQ ID NO：29。在一些实施例中，Cas12与SEQ ID NO：29具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性。在一些实施例中，本披露提供编码多肽的多核苷酸，该多肽与SEQ ID NO：29具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性。在一些实施例中，Cas12由多核苷酸编码，该多核苷酸已针对在宿主细胞中的表达进行了密码子优化。

在一些实施例中，Cas核酸酶是Cas14。Cas14核酸酶最初在古细菌中发现，是一种小型酶，通常靶向单链DNA(ssDNA)并且不需要PAM序列。Cas14可以在古生菌的DPANN总门中找到，并且在例如Harrington等人，Science[科学]362：839-842(2018)和US 2020/0087640中进一步描述。

在一些实施例中，Cas14包含SEQ ID NO：30。在一些实施例中，Cas14与SEQ ID NO：30具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性。在一些实施例中，本披露提供编码多肽的多核苷酸，该多肽与SEQ ID NO：30具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性。在一些实施例中，Cas14由多核苷酸编码，该多核苷酸已针对在宿主细胞中的表达进行了密码子优化。

在一些实施例中，融合蛋白包含Cas核酸酶和逆转录酶、DNA聚合酶、DNA连接酶或其组合。

在一些实施例中，融合蛋白包含逆转录酶。逆转录酶(有时缩写为RT)是用于从RNA模板生成DNA(例如互补DNA或cDNA)的酶，这一过程称为逆转录。典型的逆转录反应由RNA模板和与RNA模板末端结合的引物启动。在一些实施例中，逆转录酶与引物(例如，PBS)结合并在提供第一cDNA的过程中合成一条cDNA链(例如，基于RNA模板)。图4中提供了使用Cas核酸酶、逆转录酶、聚合酶和NHEJ插入目的序列的示例性、非限制性概述。在一些实施例中，RNA酶，例如RNA酶H，去除RNA模板。在一些实施例中，逆转录酶包含RNA酶活性，例如RNA酶H。在一些实施例中，然后通过DNA聚合酶合成与第一cDNA互补的DNA链以产生双链序列。在一些实施例中，逆转录酶包含DNA聚合酶活性。在一些实施例中，DNA修复机制，例如NHEJ，可用于将包含目的序列的双链序列插入到双链多核苷酸中。

示例性逆转录酶包括但不限于AMV逆转录酶、MMLV(M-MuLV)逆转录酶、R2逆转录酶和HIV逆转录酶。在一些实施例中，逆转录酶是MMLV逆转录酶或R2逆转录酶。在一些实施例中，逆转录酶能够具有DNA聚合酶活性。

在一些实施例中，融合蛋白的Cas核酸酶在靶多核苷酸(例如靶DNA序列)中的靶序列处产生双链多核苷酸切割。在一些实施例中，切割的DNA的一条链用作融合蛋白的逆转录酶的引物。在一些实施例中，提供了包含逆转录酶的模板序列的模板多核苷酸，并且逆转录酶产生第一cDNA。在一些实施例中，模板序列是RNA，并且RNA酶去除模板序列。在一些实施例中，逆转录酶包含RNA酶活性。在一些实施例中，模板序列被单独的RNA酶去除。在一些实施例中，RNA酶是RNA酶H。在一些实施例中，与第一cDNA互补的DNA链由DNA聚合酶产生，例如单独的DNA聚合酶或具有DNA聚合酶活性的逆转录酶。在一些实施例中，第一cDNA和与第一cDNA互补的DNA链杂交形成双链序列。在一些实施例中，双链序列能够插入到切割的靶序列中。在一些实施例中，双链序列通过DNA修复途径插入到切割的靶序列中。在一些实施例中，DNA修复途径是非同源末端连接(NHEJ)、微同源介导末端连接(MMEJ)、同源定向修复(HDR)或其组合。在一些实施例中，双链序列通过连接(例如使用DNA连接酶)插入到切割的靶序列中。

在一些实施例中，逆转录酶包含SEQ ID NO：2-3中的任一个。在一些实施例中，逆转录酶与SEQ ID NO：2-3中的任一个具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少具有98％、至少99％或约100％序列同一性。在一些实施例中，本披露提供了编码多核苷酸的多核苷酸，该多核苷酸与SEQ ID NO：2-3中的任一个具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少具有至少97％、至少98％、至少99％或约100％序列同一性。在一些实施例中，逆转录酶由多核苷酸编码，该多核苷酸已针对在宿主细胞中的表达进行了密码子优化。

在一些实施例中，融合蛋白包含DNA聚合酶。DNA聚合酶是通过将核苷酸添加到现有的单DNA链来合成DNA的酶。在一些实施例中，DNA聚合酶从由逆转录酶产生的第一合成链产生双链序列。在一些实施例中，DNA聚合酶从单链DNA模板(ssDNA)产生双链DNA。

在一些实施例中，融合蛋白的Cas核酸酶在靶多核苷酸(例如靶DNA序列)中的靶序列处产生双链多核苷酸切割。在一些实施例中，提供了模板多核苷酸，例如ssDNA模板，并且融合蛋白的DNA聚合酶从ssDNA模板产生双链序列。在一些实施例中，双链序列能够插入到切割的靶序列中。在一些实施例中，双链序列通过DNA修复途径插入到切割的靶序列中。在一些实施例中，DNA修复途径是非同源末端连接(NHEJ)、微同源介导末端连接(MMEJ)或同源定向修复(HDR)。在一些实施例中，双链序列通过连接(例如使用DNA连接酶)插入到切割的靶序列中。

示例性的DNA聚合酶包括但不限于DNA聚合酶(Pol)I、II、III、IV和V；DNA聚合酶(Pol)α、β、λ、γ、σ、μ、δ、ε、η、ι、κ、ζ、θ、Rev1和Rev3；等温DNA聚合酶，包括例如Bst、T4和Φ29(phi29)DNA聚合酶；和热稳定DNA聚合酶，包括例如Taq、Pfu、KOD、Tth和Pwo DNA聚合酶。在一些实施例中，DNA聚合酶是DNA修复途径的一部分。在一些实施例中，DNA修复途径DNA聚合酶是Polβ、Polγ、Polσ或Polμ。在一些实施例中，DNA聚合酶是Rev3。本文进一步描述了DNA修复途径。在一些实施例中，DNA聚合酶具有高持续合成能力，即DNA聚合酶可以在单个结合事件中处理大量核苷酸。在一些实施例中，高持续合成能力DNA聚合酶每个结合事件能够合成大于100bp、大于200bp、大于300bp、大于400bp、大于500bp、大于600bp、大于700bp、大于800bp、大于1kb、大于5kb、大于10kb、大于50kb或大于100kb。在一些实施例中，高持续合成能力DNA聚合酶有利于合成具有二级结构如高GC含量的长模板和序列。在一些实施例中，高持续合成能力DNA聚合酶是Polα、Polδ、Polε或Φ29 DNA聚合酶。在一些实施例中，DNA聚合酶是phi29 DNA聚合酶、T4 DNA聚合酶、DNA聚合酶μ(mu)、DNA聚合酶δ(delta)或DNA聚合酶ε(epsilon)。在一些实施例中，融合蛋白的DNA聚合酶包含DNA聚合酶的催化活性片段或截短。如本文所用，酶的“催化活性”片段、截短或结构域是指该片段或截短具有与酶(例如DNA聚合酶)的全长或野生型形式基本相同的活性。在一些实施例中，本文酶的催化活性片段、截短或结构域具有全长或野生型酶(例如，DNA聚合酶)活性的约50％、约60％、约70％、约80％、约90％、约100％、约110％、约120％、约130％、约140％、约150％、约160％、约170％、约180％、约190％、约200％或大于200％。在一些实施例中，与全长或野生型酶(例如，DNA聚合酶)相比，本文的酶的催化活性截短、片段或结构域具有一种或多种改善的性质，例如改善的稳定性和/或持续合成能力。在一些实施例中，DNA聚合酶是大肠杆菌DNA聚合酶I的Klenow片段。在一些实施例中，DNA聚合酶是如Lee等人，PNAS[美国国家科学院院刊](2014)，doi：10.1073/pnas.1324001111中所述的Rev3的截短。

在一些实施例中，DNA聚合酶包含SEQ ID NO：4-6中的任一个。在一些实施例中，DNA聚合酶与SEQ ID NO：4-6中的任一个具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性。在一些实施例中，本披露提供了编码多肽的多核苷酸，该多肽与SEQ ID NO：4-6中的任一个具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少具有至少97％、至少98％、至少99％或约100％序列同一性。在一些实施例中，DNA聚合酶由多核苷酸编码，该多核苷酸已针对在宿主细胞中的表达进行了密码子优化。

在一些实施例中，融合蛋白包含DNA连接酶。DNA连接酶是一种通过催化形成磷酸二酯键来促进DNA链连接在一起的酶。DNA连接酶可以修复DNA中的单链或双链断裂。在一些实施例中，DNA连接酶连接单链DNA。在一些实施例中，DNA连接酶连接双链DNA的平末端。在一些实施例中，DNA连接酶连接双链DNA的粘性末端。在一些实施例中，DNA连接酶促进双链插入序列重组到双链多核苷酸中。在一些实施例中，当靶多核苷酸中(例如，在第一靶位点和第二靶位点处)发生两个双链多核苷酸切割时，DNA连接酶可以促进双链多核苷酸的重组，从而消除第一靶位点和第二靶位点之间的序列。

在一些实施例中，融合蛋白的Cas核酸酶在靶多核苷酸(例如靶DNA序列)中的靶序列处产生双链多核苷酸切割。在一些实施例中，提供了模板多核苷酸，例如DNA模板，并且融合蛋白的DNA连接酶将模板多核苷酸连接至切割的靶序列。在一些实施例中，DNA模板是包含平末端的双链多核苷酸。在一些实施例中，DNA模板是包含粘性末端的双链多核苷酸。在一些实施例中，DNA模板是单链多核苷酸。

示例性的DNA连接酶包括但不限于大肠杆菌DNA连接酶、Taq DNA连接酶、T4 DNA连接酶、T7 DNA连接酶、DNA连接酶I、III和IV、以及Ampligase DNA连接酶。在一些实施例中，DNA连接酶是T4连接酶。

在一些实施例中，DNA连接酶包含SEQ ID NO：7。在一些实施例中，DNA连接酶与SEQID NO：7具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性。在一些实施例中，本公开提供了编码多肽的多核苷酸，该多肽与SEQ ID NO：7具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性。在一些实施例中，DNA连接酶由多核苷酸编码，该多核苷酸已针对在宿主细胞中的表达进行了密码子优化。

在一些实施例中，融合蛋白进一步包含DNA结合结构域或RNA结合结构域。在一些实施例中，融合蛋白的DNA结合结构域或RNA结合结构域使融合蛋白和模板多核苷酸彼此接近。在一些实施例中，DNA结合结构域或RNA结合结构域促进模板多核苷酸与融合蛋白的结合。在一些实施例中，DNA结合结构域或RNA结合结构域通过使模板多核苷酸和融合蛋白彼此接近来提高逆转录酶、DNA聚合酶或DNA连接酶反应的效率。在一些实施例中，DNA结合结构域或RNA结合结构域提高了将由逆转录酶或DNA聚合酶反应产生的双链序列掺入到切割的靶序列中的效率。

在一些实施例中，融合蛋白进一步包含DNA结合结构域。因此，在一些实施例中，融合蛋白包含Cas核酸酶、逆转录酶和DNA结合结构域。在一些实施例中，融合蛋白包含Cas核酸酶、DNA聚合酶和DNA结合结构域。在一些实施例中，融合蛋白包含Cas核酸酶、DNA连接酶和DNA结合结构域。DNA结合结构域可以作为病毒、细菌和真核(例如哺乳动物)转录因子的一部分。在一些实施例中，DNA结合结构域结合单链DNA。在一些实施例中，DNA结合结构域结合双链DNA。在一些实施例中，DNA结合蛋白结合单链和双链DNA。结合双链DNA的示例性DNA结合结构域包括但不限于螺旋-转角-螺旋(HTH)、锌指(ZF)、转录激活样效应子(TALE)、小核RNA激活蛋白(SNAP)、亮氨酸拉链、有翼螺旋、螺旋-环-螺旋、HMG-盒、Wor3和OB-折叠。与单链DNA结合的示例性DNA结合结构域包括但不限于T4基因32蛋白(T4g32)、HUH酶如病毒Rep蛋白、和远上游元件结合蛋白1(FUBP)。提供了进一步的DNA结合结构域，例如，在Alberts B等人Molecular Biology of the Cell.[细胞分子生物学]第4版纽约：花环科学公司(Garland Science)；2002.DNA-Binding Motifs in Gene Regulatory Proteins[基因调控蛋白中的DNA结合基序]；Yesudhas等人，Genes[基因](巴塞尔(Basel))8(8)：192(2017)；和Vidangos等人，Biopolymers[生物聚合物]99(12)：1082-1096(2013)。在一些实施例中，DNA结合结构域是锌指DNA结合结构域、转录因子或腺相关病毒Rep蛋白。在一些实施例中，DNA结合结构域是远上游元件结合蛋白(FUBP)。

在一些实施例中，融合蛋白进一步包含RNA结合结构域。因此，在一些实施例中，融合蛋白包含Cas核酸酶、逆转录酶和RNA结合结构域。在一些实施例中，融合蛋白包含Cas核酸酶、DNA聚合酶和RNA结合结构域。在一些实施例中，融合蛋白包含Cas核酸酶、DNA连接酶和RNA结合结构域。RNA结合结构域可以被发现作为RNA加工蛋白的一部分，例如参与RNA生物发生、成熟、运输、细胞定位和稳定性。在一些实施例中，RNA结合结构域包含RNA识别基序。在一些实施例中，RNA结合结构域包含双链RNA结合基序。在一些实施例中，RNA结合结构域包含锌指。在一些实施例中，RNA结合结构域包含KH结构域，例如核内不均一核糖核蛋白K(hnRNPK)。示例性的RNA结合结构域包括但不限于NOVA1、ADAR、CPSF、TAP/NXF1：p15、ZBP1、ElaV、Sxl、tra-2、FOG-1、MOG-1、MOG-4、MOG-5、RNP-4、GLD-1、GLD-3、DAZ-1、PGL1、OMA-l、OMA2、MEC-8、UNC-75、EXC-7、Pumilio、Nanos、FMRP、CPEB、Staufen 1、FXR1和MCP2。提供了进一步的RNA结合结构域，例如，在Lunde等人，Nat Rev Mol Cell Biol[自然评论：分子细胞生物学]8(6)：479-490(2007)和GlisoVic等人，FEBS Lett[FEBS快报]582(14)：1977-1986(2008)。在一些实施例中，RNA结合结构域是MS2外壳蛋白(MCP2)。在一些实施例中，RNA结合结构域包含KH结构域。在一些实施例中，RNA结合结构域是hnRNPK。

在一些实施例中，DNA结合结构域或RNA结合结构域包含SEQ ID NO：8-11中的任一个。在一些实施例中，DNA结合结构域或RNA结合结构域包含与SEQ ID NO：8-11中的任一个具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性的多肽序列。在一些实施例中，本披露提供了编码多肽的多核苷酸，该多肽与SEQ ID NO：8-11中的任一个具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少具有至少97％、至少98％、至少99％或约100％序列同一性。

在一些实施例中，本文提供的融合蛋白与SEQ ID NO：18-26中的任一个具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性。

在一些实施例中，融合蛋白进一步包含核定位信号(NLS)。如本文所用，“核定位信号”或“核定位序列”(NLS)是指对蛋白质“加标签”以通过核转运输入到细胞核中的多肽，即具有NLS的蛋白质被转运到细胞核中。典型地，NLS包括暴露在蛋白质表面的带正电荷的Lys或Arg残基。示例性核定位序列包括但不限于来自以下的NLS：SV40大T抗原、核质蛋白、EGL-13、c-Myc和TUS蛋白。在一些实施例中，NLS包括序列PKKKRKV(SEQ ID NO：14)。在一些实施例中，该NLS包括序列AVKRPAATKKAGQAKKKKLD(SEQ ID NO：29)。在一些实施例中，该NLS包括序列PAAKRVKLD(SEQ ID NO：30)。在一些实施例中，该NLS包括序列MSRRRKANPTKLSENAKKLAKEVEN(SEQ ID NO：31)。在一些实施例中，该NLS包括序列KLKIKRPVK(SEQ ID NO：32)。其他核定位序列包括但不限于hnRNP A1的酸性M9结构域、酵母转录抑制子Matα2中的序列KIPIK(SEQ ID NO：33)和PY-NLS。

在一些实施例中，融合蛋白进一步包含连接Cas核酸酶结构域和逆转录酶、DNA聚合酶或DNA连接酶的接头。在一些实施例中，接头具有足够的长度和/或柔性，使得可以定位Cas核酸酶而不受逆转录酶、DNA聚合酶或DNA连接酶的空间位阻。在一些实施例中，接头具有足够的长度和/或柔性，使得逆转录酶、DNA聚合酶或DNA连接酶可以在没有来自Cas核酸酶的空间位阻的情况下进行它们各自的反应。在一些实施例中，接头的长度包含约3至约100个氨基酸。在一些实施例中，接头的长度包含约5至约80个氨基酸。在一些实施例中，接头的长度包含约10至约60个氨基酸。在一些实施例中，接头的长度包含约20至约50个氨基酸。在一些实施例中，接头的长度包含约25至约40个氨基酸。本文描述了示例性接头序列，例如，SEQ ID NO：15-16。

多核苷酸

在一些实施例中，本发明提供一种组合物，其包含：(a)本文提供的融合蛋白；和(b)多核苷酸，该多核苷酸与该融合蛋白形成复合物并包含(i)指导序列；和(ii)逆转录酶或DNA聚合酶的模板序列。

在一些实施例中，组合物的多核苷酸是RNA。在一些实施例中，多核苷酸包含指导多核苷酸的组分。如本文所述，CRISPR/Cas系统包括指导多核苷酸，例如指导RNA。在一些实施例中，指导多核苷酸是RNA。RNA指导多核苷酸在本文中可称为“指导RNA”、“gRNA”或“靶向DNA的RNA”。

在一些实施例中，指导多核苷酸包含指导序列。在一些实施例中，指导多核苷酸包含指导序列和多肽结合区段。在一些实施例中，指导序列能够与靶多核苷酸中的靶序列杂交。在一些实施例中，指导多核苷酸的多肽结合区段结合Cas核酸酶。在一些实施例中，多肽结合区段结合本文提供的融合蛋白的Cas核酸酶。在一些实施例中，多肽结合区段结合和/或激活Cas核酸酶。

在一些实施例中，组合物的多核苷酸包含能够与靶多核苷酸中的靶序列杂交的指导序列。在一些实施例中，组合物的多核苷酸包含能够与融合蛋白的Cas核酸酶结合的多肽结合区段，从而与融合蛋白形成复合物。在一些实施例中，多核苷酸进一步包含tracrRNA。在一些实施例中，组合物进一步包含第二多核苷酸，该第二多核苷酸包含tracrRNA。在一些实施例中，tracrRNA激活Cas核酸酶。在一些实施例中，Cas核酸酶的激活启动或增加其核酸酶活性。在一些实施例中，Cas核酸酶的激活包括核酸酶与靶序列的结合。在一些实施例中，Cas核酸酶在靶多核苷酸中的靶序列处产生双链多核苷酸。

在一些实施例中，指导序列的长度为约10至约40个核苷酸。在一些实施例中，指导序列的长度为约12至约30个核苷酸。在一些实施例中，指导序列的长度为约15至约20个核苷酸。在一些实施例中，指导序列的长度是约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约21、约22、约23、约24、约25、约26、约27、约28、约29、约30、约31、约32、约33、约34、约35、约36、约37、约38、约39或约40个核苷酸。在一些实施例中，指导序列的长度足以与靶序列杂交。

在一些实施例中，组合物的多核苷酸包含模板序列。在一些实施例中，模板序列包含引物结合序列和目的序列。在一些实施例中，模板序列包含与靶序列同源的区域。在一些实施例中，同源区域是引物结合序列。在一些实施例中，模板序列包含在引物结合序列之后的与靶序列错配的核苷酸。在一些实施例中，模板序列包含在引物结合序列之后的与靶序列错配的1、2、3、4、5、6、7、8、9或10个核苷酸。如本文所用，“错配核苷酸”是指不形成碱基配对的核苷酸。在一些实施例中，与不包含错配核苷酸的模板序列相比，包含错配核苷酸的模板序列具有更高的插入频率。在一些实施例中，模板序列包含一个或多个与靶序列同源的另外区域。在一些实施例中，模板序列包含两个同源区域。在一些实施例中，模板序列包含至少两个同源区域。在一些实施例中，模板序列以5′至3′的顺序包含第一同源区、目的序列和第二同源区。在一些实施例中，一个或多个另外的同源区域有助于将目的序列插入到靶序列中。在一些实施例中，模板序列是单链的。在一些实施例中，模板序列是双链的。在一些实施例中，模板序列包含DNA。在一些实施例中，目的序列包含DNA。在一些实施例中，目的序列和引物结合序列包含DNA。在一些实施例中，模板序列包含RNA。在一些实施例中，模板序列包含异种核酸(XNA)。如本文所用，XNA是指在其聚合链中包含非天然主链的核酸。例如，代替DNA或RNA主链中的核糖，XNA可以包括己糖、苏糖、乙二醇、环己烯基、脱氧核糖等。XNA在例如Schmidt，M.(2010)，Bioessays[生物学论文集]32(4)：322-331中进一步描述。在一些实施例中，模板序列包含适体。在一些实施例中，模板序列包含防止目的序列被逆转录酶和/或DNA聚合酶延伸的修饰。在一些实施例中，修饰包含无碱基位点(也称为无嘌呤/无嘧啶位点或AP位点)、三甘醇(TEG)接头或两者。在一些实施例中，修饰防止目的序列的过度延伸，从而增加插入目的序列的精确度。

在融合蛋白包含Cas核酸酶和逆转录酶的实施例中，多核苷酸包含逆转录酶的模板序列。在一些实施例中，融合蛋白的Cas核酸酶在靶多核苷酸(例如靶DNA序列)中的靶序列处产生双链多核苷酸切割，并且切割的DNA的一条链与模板序列上的引物结合序列杂交并作为逆转录酶的引物以逆转录模板序列。在一些实施例中，目的序列被逆转录酶逆转录以产生第一cDNA。在一些实施例中，与第一cDNA互补的DNA链由DNA聚合酶产生，从而产生包含目的序列的双链序列。在一些实施例中，将包含目的序列的双链序列插入切割的靶序列中，例如，通过如本文所述的连接或DNA修复途径。在一些实施例中，包含目的序列的双链序列进一步包含核酸内切酶、转座酶或重组酶的识别位点，并且核酸内切酶、转座酶或重组酶将双链序列整合到靶多核苷酸中。在一些实施例中，本文所述的模板序列上的同源区域有助于将包含目的序列的双链序列插入切割的靶序列中。

在融合蛋白包含Cas核酸酶和DNA聚合酶的实施例中，多核苷酸包含DNA聚合酶的模板。在一些实施例中，融合蛋白的Cas核酸酶在靶多核苷酸(例如靶DNA序列)中的靶序列处产生双链多核苷酸切割，并且切割的DNA的一条链与模板序列上的引物结合序列杂交并用作DNA聚合酶的引物。在一些实施例中，DNA聚合酶合成与目的序列互补的DNA链，从而产生包含目的序列的双链序列。在一些实施例中，将包含目的序列的双链序列插入切割的靶序列中，例如，通过如本文所述的连接或DNA修复途径。在一些实施例中，包含目的序列的双链序列进一步包含核酸内切酶、转座酶或重组酶的识别位点，并且核酸内切酶、转座酶或重组酶将双链序列整合到靶多核苷酸中。在一些实施例中，本文所述的模板序列上的同源区域有助于将包含目的序列的双链序列插入切割的靶序列中。

在一些实施例中，模板序列的长度为约10至约25000个核苷酸。在一些实施例中，模板序列的长度为约15至约20000个核苷酸。在一些实施例中，模板序列的长度为约20至约15000个核苷酸。在一些实施例中，模板序列的长度为约25至约10000个核苷酸。在一些实施例中，模板序列的长度是约10、约15、约20、约25、约50、约100、约150、约200、约250、约300、约350、约400、约450、约500、约550、约600、约650、约700、约750、约800、约850、约900、约950、约1000、约2500、约5000、约7500、约10000、约15000、约20000或约25000个核苷酸。在一些实施例中，模板序列的长度大于约10个核苷酸、大于约15个核苷酸、大于约20个核苷酸、大于约25个核苷酸、大于约30个核苷酸、大于约35个核苷酸、大于约40个核苷酸、大于约45个核苷酸，或大于约50个核苷酸。

在一些实施例中，引物结合序列的长度为约3至约50个核苷酸。在一些实施例中，引物结合序列的长度为约4至约30个核苷酸。在一些实施例中，引物结合序列的长度为约5至约40个核苷酸。在一些实施例中，引物结合序列的长度为约7至约30个核苷酸。在一些实施例中，引物结合序列的长度为约10至约20个核苷酸。在一些实施例中，引物结合序列的长度是约3、约4、约5、约6、约7、约8、约9、约10、约12、约15、约17、约20、约22、约25、约27、约30、约32、约35、约38或约40个核苷酸。在一些实施例中，引物结合序列的长度足以与切割的靶DNA序列的区域杂交。

在一些实施例中，目的序列的长度为约1至约20000个核苷酸。在一些实施例中，目的序列的长度为约2至约17000个核苷酸。在一些实施例中，目的序列的长度为约3至约15000个核苷酸。在一些实施例中，目的序列的长度为约4至约12000个核苷酸。在一些实施例中，目的序列的长度为约5至约10000个核苷酸。在一些实施例中，目的序列的长度为约10至约9000个核苷酸。在一些实施例中，目的序列的长度为约50至约8000个核苷酸。在一些实施例中，目的序列的长度为约100至约7000个核苷酸。在一些实施例中，目的序列的长度为约200至约6000个核苷酸。在一些实施例中，目的序列的长度为约500至约5000个核苷酸。在一些实施例中，目的序列的长度是约5、约6、约7、约8、约9、约10、约15、约20、约25、约30、约35、约40、约45、约50、约75、约100、约150、约200、约250、约300、约350、约400、约450、约500、约550、约600、约650、约700、约750、约800、约850、约900、约950、约1000、约1250、约1500、约1750、约2000、约2500、约3000、约3500、约4000、约4500、约5000、约5500、约6000、约6500、约7000、约7500、约8000、约8500、约9000、约10000、约12500、约15000、约17500、或约25000个核苷酸。在一些实施例中，目的序列的长度是大于约5个核苷酸、大于约10个核苷酸、大于约15个核苷酸、大于约20个核苷酸、大于约25个核苷酸、大于约30个核苷酸、大于约35个核苷酸、大于约40个核苷酸、大于约45个核苷酸或大于约50个核苷酸。

在一些实施例中，组合物的多核苷酸进一步包含在指导序列和模板序列之间的间隔子。在一些实施例中，间隔子包含逆转录酶或DNA聚合酶的终止序列，使得逆转录酶或DNA聚合酶在转录或合成目的序列的互补链后终止。在一些实施例中，间隔子包含多于一个终止序列。在一些实施例中，间隔子包含1、2、3、4、5或多于5个终止序列。在一些实施例中，多个终止序列提供了终止逆转录酶或DNA聚合酶的冗余。在一些实施例中，终止序列抑制逆转录酶和/或DNA聚合酶的活性。在一些实施例中，终止序列促进逆转录酶和/或DNA聚合酶从模板序列解离。

在一些实施例中，终止序列包含二级结构。在一些实施例中，二级结构是逆转录酶和/或DNA聚合酶活性的抑制剂。在一些实施例中，二级结构促进逆转录酶和/或DNA聚合酶从模板序列解离。在一些实施例中，二级结构是发夹环(也称为茎环)。在一些实施例中，二级结构是假结。

在一些实施例中，间隔子的长度为约5至约500个核苷酸。在一些实施例中，间隔子的长度为约10至约400个核苷酸。在一些实施例中，间隔子的长度为约10至约300个核苷酸。在一些实施例中，间隔子的长度为约10至约200个核苷酸。在一些实施例中，间隔子的长度为约20至约150个核苷酸。在一些实施例中，间隔子的长度为约30至约100个核苷酸。在一些实施例中，间隔子的长度为约50至约100个核苷酸。在一些实施例中，间隔子的长度是约5、约10、约15、约20、约25、约30、约35、约40、约45、约50、约75、约100、约110、约120、约130、约140、约150、约160、约170、约180、约190或约200个核苷酸。

在一些实施例中，本发明提供一种组合物，其包含：(a)本文提供的融合蛋白；(b)与该融合蛋白形成复合物并包含指导序列的指导多核苷酸；和(c)包含逆转录酶或DNA聚合酶的模板序列的模板多核苷酸。

本文描述了指导多核苷酸。在一些实施例中，组合物的指导多核苷酸包含能够与靶序列杂交的指导序列。在一些实施例中，组合物的指导多核苷酸包含能够与融合蛋白的Cas核酸酶结合的多肽结合区段，从而与融合蛋白形成复合物。在一些实施例中，向导多核苷酸进一步包含tracrRNA。在一些实施例中，组合物进一步包含第三多核苷酸，该第三多核苷酸包含tracrRNA。在一些实施例中，tracrRNA激活Cas核酸酶。在一些实施例中，Cas核酸酶的激活启动或增加其核酸酶活性。在一些实施例中，Cas核酸酶的激活包括核酸酶与靶序列的结合。

本文描述了模板多核苷酸的组分，例如逆转录酶或DNA聚合酶的模板序列、引物结合序列、终止序列、目的序列和/或另外的同源区域。在一些实施例中，模板序列的长度为约10至约25000个核苷酸。在一些实施例中，模板序列的长度为约15至约20000个核苷酸。在一些实施例中，模板序列的长度为约20至约15000个核苷酸。在一些实施例中，模板序列的长度为约25至约10000个核苷酸。在一些实施例中，模板序列的长度是约10、约15、约20、约25、约50、约100、约150、约200、约250、约300、约350、约400、约450、约500、约550、约600、约650、约700、约750、约800、约850、约900、约950、约1000、约2500、约5000、约7500、约10000、约15000、约20000或约25000个核苷酸。在一些实施例中，模板序列的长度大于约10个核苷酸、大于约15个核苷酸、大于约20个核苷酸、大于约25个核苷酸、大于约30个核苷酸、大于约35个核苷酸、大于约40个核苷酸、大于约45个核苷酸，或大于约50个核苷酸。

在一些实施例中，模板序列包含目的序列。在一些实施例中，目的序列的长度为约1至约20000个核苷酸。在一些实施例中，目的序列的长度为约2至约17000个核苷酸。在一些实施例中，目的序列的长度为约3至约15000个核苷酸。在一些实施例中，目的序列的长度为约4至约12000个核苷酸。在一些实施例中，目的序列的长度为约5至约10000个核苷酸。在一些实施例中，目的序列的长度为约10至约9000个核苷酸。在一些实施例中，目的序列的长度为约50至约8000个核苷酸。在一些实施例中，目的序列的长度为约100至约7000个核苷酸。在一些实施例中，目的序列的长度为约200至约6000个核苷酸。在一些实施例中，目的序列的长度为约500至约5000个核苷酸。在一些实施例中，目的序列的长度是约5、约6、约7、约8、约9、约10、约15、约20、约25、约30、约35、约40、约45、约50、约75、约100、约150、约200、约250、约300、约350、约400、约450、约500、约550、约600、约650、约700、约750、约800、约850、约900、约950、约1000、约1250、约1500、约1750、约2000、约2500、约3000、约3500、约4000、约4500、约5000、约5500、约6000、约6500、约7000、约7500、约8000、约8500、约9000、约10000、约12500、约15000、约17500、或约25000个核苷酸。在一些实施例中，目的序列的长度是大于约5个核苷酸、大于约10个核苷酸、大于约15个核苷酸、大于约20个核苷酸、大于约25个核苷酸、大于约30个核苷酸、大于约35个核苷酸、大于约40个核苷酸、大于约45个核苷酸或大于约50个核苷酸。

在一些实施例中，模板多核苷酸进一步包含如本文所述的引物结合序列。在一些实施例中，引物结合序列的长度为约3至约50个核苷酸。在一些实施例中，引物结合序列的长度为约4至约30个核苷酸。在一些实施例中，引物结合序列的长度为约5至约40个核苷酸。在一些实施例中，引物结合序列的长度为约7至约30个核苷酸。在一些实施例中，引物结合序列的长度为约10至约20个核苷酸。在一些实施例中，引物结合序列的长度是约3、约4、约5、约6、约7、约8、约9、约10、约12、约15、约17、约20、约22、约25、约27、约30、约32、约35、约38或约40个核苷酸。在一些实施例中，指导序列的长度足以与已被融合蛋白的Cas核酸酶切割的靶序列杂交。

在一些实施例中，模板多核苷酸进一步包含如本文所述的逆转录酶或DNA聚合酶的终止序列。在一些实施例中，模板多核苷酸包含多于一个终止序列。在一些实施例中，间隔子包含1、2、3、4、5或多于5个终止序列。在一些实施例中，终止序列包含二级结构。在一些实施例中，二级结构是逆转录酶和/或DNA聚合酶活性的抑制剂。在一些实施例中，二级结构促进逆转录酶和/或DNA聚合酶从模板序列解离。在一些实施例中，二级结构是发夹环(也称为茎环)。在一些实施例中，二级结构是假结。

在融合蛋白进一步包含DNA结合或RNA结合结构域的实施例中，模板多核苷酸进一步包含能够结合DNA结合结构域或RNA结合结构域的序列。对于FUBP，用于结合DNA结合结构域(例如锌指DNA结合结构域、转录因子、腺相关病毒Rep蛋白)的DNA序列的非限制性实例描述于例如Bulyk等人，Proc Natl Acad Sci USA[美国国家科学院院刊]98(13)：7158-7163(2001)；Fornes等人，Nucleic Acids Res[核酸研究]2019；doi：10.1093/nar/gkz1001；Gearing等人，PLOS One[公共科学图书馆·综合]14(9)：e0215495(2019)；Wonderling等人，JVirol[病毒学杂志]71(3)：2528-2534(1997)；Benjamin等人，Proc Natl Acad SciUSA[美国国家科学院院刊]105(47)：18296-18301(2008)，和Hudson等人，Nat Rev MolCell Biol[自然评论：分子细胞生物学]15(11)：749-760(2014)。用于与RNA结合结构域(例如MCP2)结合的RNA序列的非限制性实例描述于例如Castello等人，Mol.Cell[分子细胞]63：696-710(2016)；Rube等人，Nat Comm[自然通讯]7：11025(2016)；Peabody等人，EMBO J[欧洲分子生物学学会杂志]12(2)：595-600(1993)和Hudson等人，Nat Rev Mol.Cell Biol[自然评论：分子细胞生物学]15(11)：749-760(2014)。

在一些实施例中，模板多核苷酸包含腺相关病毒(AAV)载体，该载体包含目的序列。AAV是无包膜病毒，其可以被工程化以将目的序列递送到靶细胞中。参见例如，Naso等人，BioDrugs[生物药物]31(4)：317-334(2017)。在一些实施例中，AAV载体是单链DNA。在一些实施例中，AAV载体包含反向末端重复(ITR)、启动子、目的序列和终止子。在一些实施例中，AAV载体包含ITR和目的序列。在一些实施例中，AAV载体不包含病毒基因。在一些实施例中，模板多核苷酸包含AAV载体，并且融合蛋白包含Cas核酸酶和DNA聚合酶。在一些实施例中，AAV载体的长度是约200、约300、约400、约500、约600、约700、约800、约900、约1000、约2000、约3000、约4000或约5000个核苷酸。在一些实施例中，AAV载体中的目的序列长度是约10、约20、约30、约40、约50、约60、约70、约80、约90、约100、约200、约300、约400、约500、约600、约700、约800、约900、约1000、约1200、约1500、约1700、约2000、约2200、约2500、约2700、约3000、约3200、约3500、约3700、约4000、约4200、约4500或约4700个核苷酸。

在一些实施例中，本披露提供了编码本文提供的融合蛋白的多核苷酸。在一些实施例中，多核苷酸编码多肽，该多肽与SEQ ID NO：18-26中的任一个具有至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或约100％序列同一性。

在一些实施例中，本文的多核苷酸，例如编码融合蛋白的多核苷酸、包含指导序列和模板序列的多核苷酸、指导多核苷酸和/或模板多核苷酸，经密码子优化以在真核细胞中表达。在一些实施例中，本文的多核苷酸经密码子优化以在细菌细胞中表达。在一些实施例中，本文的多核苷酸经密码子优化以在哺乳动物细胞中表达。在一些实施例中，本文的多核苷酸经密码子优化以在人细胞中表达。如本文所用，“密码子优化”是指调整密码子以匹配表达宿主的tRNA丰度以增加重组或异源蛋白质表达的产率和效率。密码子优化方法是本领域已知的并且可以使用软件程序来执行，例如来自集成DNA技术公司(Integrated DNATechnologies)的密码子优化工具、来自Entelechon改善的密码子使用表分析工具、来自GENEMAKER公司的Blue Heron软件、来自Aptagen公司的Gene Forge软件，以及其他软件，例如DNA Builder、OPTIMIZER和OptimumGene算法。

在一些实施例中，本披露提供了包含编码本文提供的融合蛋白的多核苷酸的载体。在一些实施例中，本披露提供了一种载体，其包含：编码融合蛋白的多核苷酸、包含指导序列和模板序列的多核苷酸、指导多核苷酸、模板多核苷酸或其组合。在一些实施例中，编码融合蛋白的多核苷酸和包含指导序列和模板序列的多核苷酸在单个载体上。在一些实施例中，编码融合蛋白的多核苷酸和包含指导序列和模板序列的多核苷酸在一个或多个载体上。在一些实施例中，编码融合蛋白的多核苷酸、指导多核苷酸和模板寡核苷酸在单个载体上。在一些实施例中，编码融合蛋白的多核苷酸、指导多核苷酸和模板寡核苷酸在一个或多个载体上。

本文提供了各种类型的载体，例如病毒和非病毒载体。在一些实施例中，该载体是表达载体。在一些实施例中，该载体是细菌表达载体。在一些实施例中，该载体是哺乳动物表达载体。在一些实施例中，该载体是人类表达载体。在一些实施例中，该载体是植物表达载体。

在一些实施例中，该载体是病毒载体。在一些实施例中，病毒载体是逆转录病毒、腺相关病毒、痘病毒、杆状病毒、牛痘病毒、单纯疱疹病毒、爱泼斯坦-巴尔病毒(Epstein-Barr virus)、腺病毒、双生病毒或花椰菜病毒载体。在一些实施例中，病毒载体是腺病毒、慢病毒或腺相关病毒载体。用腺病毒、腺相关病毒(AAV)和慢病毒载体进行的病毒转导(可以局部、靶向或全身施用)已被用作体内基因疗法的递送方法。本文描述了将载体例如病毒载体引入细胞(例如转染)的方法。

在一些实施例中，载体进一步包含与编码融合蛋白的多核苷酸、包含指导序列和模板序列的多核苷酸、指导多核苷酸和/或模板多核苷酸可操作地连接的调节元件。在一些实施例中，该调节元件是细菌启动子。在一些实施例中，该调节元件是病毒启动子。在一些实施例中，该调节元件是哺乳动物启动子。在一些实施例中，该调节元件是终止子。本文进一步描述了调节元件。

在一些实施例中，融合蛋白、包含指导序列和模板序列的多核苷酸、指导多核苷酸和/或模板多核苷酸通过递送颗粒被引入细胞中。递送颗粒可用于递送外源生物材料，例如本文所述的多核苷酸和蛋白质。在一些实施例中，递送颗粒是固体、半固体、乳液或胶体。在一些实施例中，递送颗粒是基于脂质的颗粒、脂质体、胶束、囊泡或外泌体。在一些实施例中，递送颗粒是纳米颗粒。递送颗粒进一步描述于例如US 2011/0293703、US 2012/0251560、US 2013/0302401、US 5,543,158、US 5,855,913、US 5,895,309、US 6,007,845和US 8,709,843中。

在一些实施例中，融合蛋白、包含指导序列和模板序列的多核苷酸、指导多核苷酸和/或模板多核苷酸通过囊泡被引入细胞中。在一些实施例中，囊泡包含外泌体或脂质体。例如，在Alvarez-Erviti等人，Nat Biotechnol[自然生物技术]29：341(2011)、E1-Andaloussi等人，Nat Protocols[自然实验方案]7：2112-2116(2012)、Wahlgren等人，Nucleic Acid Res[核酸研究]40(17)：e130(2012)、Morrissey等人，Nat Biotechnol[自然生物技术]23(8)：1002-1007(2005)、Zimmerman等人，Nat Letters[自然通讯]441：111-114(2006)和Li等人，Gene Therapy[基因疗法]19：775-780(2012)中描述了用于将外源生物材料递送到靶细胞中的工程化囊泡。

细胞

在一些实施例中，本披露提供了包含本文提供的融合蛋白的细胞。在一些实施例中，本披露提供了包含编码本文提供的融合蛋白的多核苷酸的细胞。在一些实施例中，本发明提供了一种细胞，其包含编码融合蛋白的多核苷酸、包含指导序列和模板序列的多核苷酸、指导多核苷酸、模板多核苷酸或其组合。在一些实施例中，本披露提供了一种包含本文提供的载体的细胞，该载体例如包含编码融合蛋白的多核苷酸、包含指导序列和模板序列的多核苷酸、指导多核苷酸、模板多核苷酸或其组合。

在一些实施例中，细胞是细菌细胞。在一些实施例中，细菌细胞是实验室菌株。这样的细菌细胞的实例包括但不限于大肠杆菌、金黄色葡萄球菌、霍乱弧菌、肺炎链球菌、枯草芽孢杆菌、新月形柄杆菌、生殖支原体、费氏曲霉、集胞藻属、荧光假单胞菌、棕色固氮菌、天蓝色链霉菌。在一些实施例中，细菌细胞是用于制备食物和/或饮料的细菌。此类细胞的非限制性示例性属包括但不限于醋杆菌属、节杆菌属、芽孢杆菌属、双歧杆菌属、短状杆菌属、短杆菌属、肉杆菌属、棒杆菌属、肠球菌属、葡糖醋杆菌属、哈夫尼菌属、盐单胞菌属、考克氏菌属、乳杆菌属(包括耐酸乳杆菌、酸鱼乳杆菌、嗜酸乳酸杆菌、消化乳杆菌、短乳杆菌、布赫纳乳杆菌、干酪乳酸菌、弯曲乳杆菌、发酵乳杆菌、希氏乳杆菌、詹氏乳杆菌、金氏乳杆菌、乳酸乳杆菌、副干酪乳杆菌、植物乳杆菌和阪乳杆菌)、明串珠菌属、微杆菌属、小球菌属、丙酸杆菌属、魏斯氏菌属和发酵单胞菌属。

在一些实施例中，细胞是真核细胞。在一些实施例中，真核细胞是哺乳动物细胞。在一些实施例中，真核细胞是动物细胞。在一些实施例中，真核细胞是哺乳动物细胞。在一些实施例中，真核细胞是动物或人细胞、细胞系或细胞株。动物或哺乳动物细胞、细胞系或细胞株的实例包括但不限于小鼠骨髓瘤(NSO)、中国仓鼠卵巢(CHO)、HT1080、H9、HepG2、MCF7、MDBK Jurkat、NIH3T3、PC12、BHK(小仓鼠肾)、EBX、EB14、EB24、EB26、EB66、或Ebvl3、VERO、SP2/0、YB2/0、Y0、C127、L细胞、COS(例如COS1和COS7)、QC1-3、HEK293、VERO、PER.C6、HeLA、EBl、EB2、EB3、溶瘤细胞或杂交瘤细胞。在一些实施例中，真核细胞是CHO细胞。在一些实施例中，细胞是CHO-K1细胞、CHO-K1 SV细胞、DG44 CHO细胞、DUXB11 CHO细胞、CHOS、CHOGS敲除细胞、CHO FUT8 GS敲除细胞，CHOZN或CHO衍生细胞。CHOGS敲除细胞(例如GSKO细胞)可以是例如CHO-K1 SV GS敲除细胞。

在一些实施例中，真核细胞是人干细胞。干细胞可以是例如多能干细胞，包括胚胎干细胞(ESC)、成年干细胞、诱导的多能干细胞(iPSC)、组织特异性干细胞(例如，造血干细胞)和间充质干细胞(MSC)。在一些实施例中，细胞是本文描述的任何细胞的分化形式。在一些实施例中，真核细胞是源自培养物中任何原代细胞的细胞。

在一些实施例中，真核细胞是肝细胞，例如人肝细胞、动物肝细胞或非实质细胞。例如，该真核细胞可以是可培养代谢合格的人肝细胞、可培养感应诱导合格的人肝细胞、可培养人肝细胞、悬浮合格的人肝细胞(包括10-供体和20-供体合并的肝细胞)、人肝库普弗细胞、人肝星状细胞、狗肝细胞(包括单个和合并的比格犬肝细胞)、小鼠肝细胞(包括CD-1和C57BI/6肝细胞)、大鼠肝细胞(包括Sprague-Dawley、Wistar Han和Wistar肝细胞)、猴肝细胞(包括食蟹猴或恒河猴肝细胞)、猫肝细胞(包括家养短毛猫肝细胞)和兔肝细胞(包括新西兰白兔肝细胞)。

在一些实施例中，真核细胞是植物细胞。例如，该植物细胞可以是诸如木薯、玉米、高粱、小麦或水稻的农作物的细胞。该植物细胞可以是藻类、树木或蔬菜的细胞。该植物细胞可以是单子叶植物或双子叶植物的细胞，或者可以是农作物或谷物植物、生产植物、水果或蔬菜的细胞。例如，该植物细胞可以是树木的细胞，该树木为例如柑橘属果树，诸如橘子树、葡萄柚树或柠檬树；桃树或油桃树；苹果树或梨树；坚果树，诸如杏仁树或胡桃树或开心果树；茄属植物，例如马铃薯、番茄、茄子、胡椒、红辣椒；芸苔属(Brassica)植物，莴苣属(Lactuca)植物；菠菜属(Spinacia)植物；辣椒属(Capsicum)植物；棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、莴苣、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。

位点特异性修饰的方法

在一些实施例中，本披露提供了在靶多核苷酸中的靶序列处提供位点特异性修饰的方法，该方法包括使该靶多核苷酸与本文提供的组合物接触。在一些实施例中，组合物包含(a)本文所述的融合蛋白和(b)本文所述的包含指导序列和模板序列的多核苷酸。在一些实施例中，组合物包含(a)本文所述的融合蛋白、(b)本文所述的指导多核苷酸和(c)本文所述的模板寡核苷酸。在一些实施例中，靶多核苷酸是双链的。在一些实施例中，靶多核苷酸是DNA。

示例性方法在图1和图2中说明。图1A和1B显示与“NHEJ促进结构域”(例如逆转录酶、DNA聚合酶或DNA连接酶)融合的Cas9。如图1A中，“SPRINgRNA”(单引发插入指导RNA)包含目的序列(“ins”)和引物结合位点(PBS)。在图1B中，融合蛋白进一步包含DNA-或RNA-结合结构域(例如，MCP2、ZF、TALE、FBP、Pumilio、HUH或SNAP)，并且具有PBS的目的序列作为单独的多核苷酸提供。图1C显示了图1A中所示的PRINS复合物的作用机制。Cas9核酸酶在靶多核苷酸处产生双链切割。包含PBS和目的序列的Cas9复合物中的模板序列用于复制目的序列。然后可以通过NHEJ将产生的双链序列连接到切割的靶多核苷酸。

在一些实施例中，融合蛋白包含Cas核酸酶和逆转录酶。在一些实施例中，模板序列包含RNA。在一些实施例中，多核苷酸的指导序列或组合物中的指导多核苷酸能够与靶序列杂交。在一些实施例中，融合蛋白通过指导序列和靶序列的杂交被引导至靶序列。在一些实施例中，该方法的接触步骤在足以使Cas核酸酶在靶序列处产生双链多核苷酸切割的条件下进行。在一些实施例中，切割的靶序列的一条链是逆转录酶的引物。在一些实施例中，组合物中的多核苷酸或模板多核苷酸的模板序列包含能够与引物结合的引物结合位点。在一些实施例中，模板序列包含目的序列。在一些实施例中，该方法的接触步骤在足以使逆转录酶识别与靶序列杂交的引物结合序列并逆转录目的序列的互补链以产生第一cDNA的条件下进行。在一些实施例中，DNA聚合酶合成与第一cDNA互补的DNA链。在一些实施例中，通过RNA酶从第一cDNA中去除模板序列，使得DNA聚合酶可以合成与第一cDNA互补的DNA链，从而产生包含目的序列的双链序列。在逆转录酶能够具有RNA酶活性的一些实施例中，模板序列被逆转录酶去除。在一些实施例中，该方法进一步包括提供RNA酶以去除模板序列。在一些实施例中，RNA酶是RNA酶H。RNA酶H能够特异性水解与DNA杂交的RNA。

在一些实施例中，在通过RNA酶(例如RNA酶H)从第一cDNA去除(例如消化或切割)模板序列后，DNA聚合酶产生与第一cDNA互补的DNA链，从而产生包含目的序列的双链序列。在逆转录酶能够具有DNA聚合酶活性的一些实施例中，与第一cDNA互补的DNA链由逆转录酶产生。在该方法在细胞中进行的一些实施例中，与第一cDNA互补的DNA链由细胞中的天然DNA聚合酶产生。在该方法在体外进行的一些实施例中，该方法进一步包括提供DNA聚合酶以产生与第一cDNA互补的DNA链。在一些实施例中，第一cDNA和与第一cDNA互补的DNA链杂交形成包含目的序列的双链序列。在一些实施例中，包含目的序列的双链序列能够插入到切割的靶序列中。在一些实施例中，包含目的序列的双链序列通过DNA修复途径例如非同源末端连接(NHEJ)插入到切割的靶序列中。在一些实施例中，包含目的序列的双链序列通过DNA连接酶插入到切割的靶序列中。在一些实施例中，包含目的序列的双链序列进一步包含核酸内切酶、转座酶或重组酶的识别位点，并且核酸内切酶、转座酶或重组酶将双链序列整合到靶多核苷酸中。在一些实施例中，本文所述的模板序列上的同源区域有助于将包含目的序列的双链序列插入切割的靶序列中。

在一些实施例中，融合蛋白包含Cas核酸酶和DNA聚合酶。在一些实施例中，模板序列包含DNA。在一些实施例中，模板序列包含单链DNA(ssDNA)。在一些实施例中，多核苷酸的指导序列或组合物中的指导多核苷酸能够与靶序列杂交。在一些实施例中，融合蛋白通过指导序列和靶序列的杂交被引导至靶序列。在一些实施例中，该方法的接触步骤在足以使Cas核酸酶在靶序列处产生双链多核苷酸切割的条件下进行。在一些实施例中，切割的靶序列的一条链是DNA聚合酶的引物。在一些实施例中，组合物中的多核苷酸或模板多核苷酸的模板序列包含能够与引物结合的引物结合位点。在一些实施例中，模板序列包含目的序列。在一些实施例中，该方法的接触步骤在足以使DNA聚合酶识别与靶序列杂交的引物结合序列并产生包含目的序列的双链序列的条件下进行。在一些实施例中，包含目的序列的双链序列能够插入到切割的靶序列中。在一些实施例中，包含目的序列的双链序列通过DNA修复途径例如非同源末端连接(NHEJ)插入到切割的靶序列中。在一些实施例中，包含目的序列的双链序列通过DNA连接酶插入到切割的靶序列中。在一些实施例中，包含目的序列的双链序列进一步包含核酸内切酶、转座酶或重组酶的识别位点，并且核酸内切酶、转座酶或重组酶将双链序列整合到靶多核苷酸中。在一些实施例中，本文所述的模板序列上的同源区域有助于将包含目的序列的双链序列插入切割的靶序列中。

在一些实施例中，该方法进一步包括在靶多核苷酸中的第二靶序列处产生第二双链多核苷酸切割。在一些实施例中，第二靶序列在靶序列的上游。在一些实施例中，第二靶序列在靶序列的下游。在一些实施例中，第二双链多核苷酸切割由第二Cas核酸酶产生。在一些实施例中，包含例如由逆转录酶和/或DNA聚合酶产生的目的序列的双链序列的一个末端与切割的靶序列连接，并且双链序列的另一末端与切割的第二靶序列连接，从而替换靶序列和第二靶序列之间的靶多核苷酸序列。这样的实施例在图1D中举例说明。Cas9核酸酶在靶多核苷酸处产生双链断裂。包含PBS和目的序列的Cas9复合物中的模板序列用于复制目的序列。然后可以通过NHEJ将生成的双链序列连接到由第二CRISPR/Cas复合物在下游生成的另一个断裂处。两个CRISPR/Cas复合物之间的靶多核苷酸上的序列被目的序列替换。

在一些实施例中，包含目的序列的双链序列通过DNA修复途径插入到切割的靶序列中。在该方法在细胞中进行的实施例中，双链序列通过对于细胞而言天然的DNA修复途径组分插入到靶序列中。DNA修复途径包括非同源末端连接(NHEJ)途径、微同源介导的末端连接(MMEJ)途径和同源定向修复(HDR)途径。NHEJ不需要同源模板。一般来说，与HDR相比时，NHEJ具有更高的修复效率但保真度较低，尽管当双链断裂具有相容的粘性末端或突出端时错误会减少。MMEJ，其在双链断裂的两侧具有微同源性(例如，约2至约10个碱基对)。HDR需要同源模板来引导修复，与NHEJ和MMEJ相比，HDR修复通常保真度高但效率低。在一些实施例中，该方法在足以用于非同源末端连接(NHEJ)的条件下进行。

在一些实施例中，包含例如由逆转录酶和/或DNA聚合酶产生的目的序列的双链序列通过连接插入到切割的靶序列中。在一些实施例中，通过连接酶例如DNA连接酶进行连接。在一些实施例中，该方法进一步包括提供连接酶。本文进一步描述了连接酶。在一些实施例中，连接酶是T4 DNA连接酶。

在一些实施例中，包含例如由逆转录酶和/或DNA聚合酶产生的目的序列的双链序列进一步包含核酸内切酶、转座酶或重组酶的识别位点。在一些实施例中，核酸内切酶、转座酶或重组酶将双链序列整合到靶多核苷酸中。通过核酸内切酶、转座酶和重组酶进行序列整合的机制是本领域技术人员已知的并且进一步描述于例如Carlson等人，MolMicrobiol[分子微生物学]27(4)：671-676(1998)、Nesmelova等人，Adv Drug Deliv Rev[药物递送综述进展]62：1187-1195(2010)和Hallet等人，FEMS Microbiol Rev[微生物学评论]21(2)：157-178(1997)。

在一些实施例中，融合蛋白包含Cas核酸酶和DNA连接酶，并且组合物包含双链模板多核苷酸，其中双链模板多核苷酸包含目的序列。在一些实施例中，多核苷酸的指导序列或组合物中的指导多核苷酸能够与靶序列杂交。在一些实施例中，融合蛋白通过指导序列和靶序列的杂交被引导至靶序列。在一些实施例中，该方法的接触步骤在足以使Cas核酸酶在靶序列处产生双链多核苷酸切割的条件下进行。在一些实施例中，双链模板多核苷酸能够通过连接插入到切割的靶序列中。在一些实施例中，模板序列和切割的靶序列包含互补的粘性末端，并且DNA连接酶能够连接粘性末端。在一些实施例中，模板序列和切割靶序列包含平末端，并且DNA连接酶能够连接平末端。在一些实施例中，该方法的接触步骤在足以使DNA连接酶将包含目的序列的模板序列连接至切割的靶序列的条件下进行，从而将模板序列掺入切割的靶序列中。本文进一步描述了连接酶。在一些实施例中，连接酶是T4 DNA连接酶。在一些实施例中，融合蛋白包含Cas核酸酶和DNA连接酶，模板序列包含目的序列和引物结合序列，并且该方法进一步包括使靶多核苷酸与逆转录酶接触。在一些实施例中，逆转录酶逆转录目的序列的互补链，从而形成包含本文所述目的序列的双链序列。在一些实施例中，融合蛋白的DNA连接酶将双链序列连接到切割的靶序列中。

在组合物包含含有指导序列和模板序列的多核苷酸的一些实施例中，模板序列靠近切割位点和融合蛋白。在组合物包含模板多核苷酸的一些实施例中，融合蛋白进一步包含DNA结合结构域或RNA结合结构域以结合模板多核苷酸，从而使模板序列靠近切割位点和融合蛋白。在一些实施例中，模板序列与融合蛋白的接近促进了逆转录酶、DNA聚合酶或DNA连接酶的活性。在一些实施例中，模板序列与切割位点的接近促进了由逆转录酶或DNA聚合酶反应产生的双链序列掺入切割的靶序列中。

在一些实施例中，本方法通过在切割的靶序列附近提供双链序列来提高将双链序列掺入切割的靶序列中的效率。在一些实施例中，本方法通过减少切割的靶序列的重新连接来提高将双链序列掺入切割的靶序列中的效率。在一些实施例中，与利用没有融合的逆转录酶、DNA聚合酶或DNA连接酶的Cas核酸酶来产生双链切割的方法相比，本方法具有改善的效率。在一些实施例中，本方法与利用不与逆转录酶、DNA聚合酶或DNA连接酶融合的Cas核酸酶产生双链切割的方法相比具有至少2倍、至少5倍、至少10倍、至少20倍、至少30倍、至少40倍、至少50倍、至少60倍、至少70倍、至少80倍、至少90倍、至少100倍、至少150倍、或至少200倍或更高的效率。在一些实施例中，与不使目的序列接近切割的靶序列的方法相比，本方法具有改善的效率。在一些实施例中，本方法与不使目的序列靠近切割的目的序列方法相比具有至少2倍、至少5倍、至少10倍、至少20倍、至少30倍、至少40倍、至少50倍、至少60倍、至少70倍、至少80倍、至少90倍、至少100倍、至少150倍或至少200倍或更高的效率。

在一些实施例中，本方法能够将目的长序列插入到靶序列中。例如，本方法能够将长度为约10,000个核苷酸的序列插入到靶序列中，只要逆转录酶或DNA聚合酶具有产生这种长度的序列的持续合成能力。本文提供了具有高持续合成能力的逆转录酶和DNA聚合酶的实例。在一些实施例中，目的序列的长度是大于约5个核苷酸、大于约10个核苷酸、大于约15个核苷酸、大于约20个核苷酸、大于约25个核苷酸、大于约30个核苷酸、大于约35个核苷酸、大于约40个核苷酸、大于约45个核苷酸或大于约50个核苷酸。在一些实施例中，目的序列的长度为约1至约20000个核苷酸。在一些实施例中，目的序列的长度为约2至约17000个核苷酸。在一些实施例中，目的序列的长度为约3至约15000个核苷酸。在一些实施例中，目的序列的长度为约4至约12000个核苷酸。在一些实施例中，目的序列的长度为约5至约10000个核苷酸。在一些实施例中，目的序列的长度为约10至约9000个核苷酸。在一些实施例中，目的序列的长度为约50至约8000个核苷酸。在一些实施例中，目的序列的长度为约100至约7000个核苷酸。在一些实施例中，目的序列的长度为约200至约6000个核苷酸。在一些实施例中，目的序列的长度为约500至约5000个核苷酸。

在一些实施例中，该方法在体外进行。在一些实施例中，该方法在细胞中进行。本文提供了细胞的实例。

试剂盒

在一些实施例中，本披露提供了包含本文提供的融合蛋白的试剂盒。在一些实施例中，试剂盒中的融合蛋白作为编码融合蛋白的多核苷酸提供。在一些实施例中，编码融合蛋白的多核苷酸提供在载体上，例如本文所述的载体。

在一些实施例中，试剂盒进一步包含与融合蛋白形成复合物的多核苷酸。在一些实施例中，多核苷酸包含tracrRNA。在一些实施例中，与融合蛋白形成复合物的多核苷酸提供在载体上，例如本文所述的载体。

在一些实施例中，试剂盒进一步包含模板多核苷酸，该模板多核苷酸包含逆转录酶或DNA聚合酶的模板序列。在一些实施例中，模板多核苷酸提供在载体上，例如本文所述的载体。

在一些实施例中，试剂盒进一步包含含有tracrRNA的多核苷酸。在一些实施例中，tracrRNA结合和/或激活融合蛋白的Cas核酸酶。在一些实施例中，包含tracrRNA的多核苷酸提供在载体上，例如本文所述的载体。

在一些实施例中，试剂盒进一步包含DNA聚合酶。在一些实施例中，试剂盒进一步包含phi29 DNA聚合酶、DNA聚合酶μ、DNA聚合酶δ或DNA聚合酶ε。在一些实施例中，试剂盒进一步包含DNA连接酶。在一些实施例中，试剂盒进一步包含T4 DNA连接酶。在一些实施例中，试剂盒进一步包含RNA酶。在一些实施例中，试剂盒进一步包含RNA酶H。

在一些实施例中，试剂盒进一步包含用于融合蛋白、DNA聚合酶、DNA连接酶和/或RNA酶的反应缓冲液和/或储存缓冲液。在一些实施例中，试剂盒进一步包含用于进行DNA切割反应、逆转录酶反应、DNA聚合酶反应、DNA连接酶反应和/或RNA酶反应的试剂。在一些实施例中，试剂包含ATP、dNTP、MgCl₂、寡聚(dT)和/或RNA酶抑制剂。在一些实施例中，试剂盒包含一种或多种对照，例如融合蛋白的对照靶多核苷酸。例如，对照靶多核苷酸可以设计为被融合蛋白的Cas核酸酶以一定的效率特异性切割，从而校准Cas核酸酶的活性。

在一些实施例中，试剂盒包含一个或多个容器。在一些实施例中，试剂盒进一步包含耗材，例如设计成在方法的一个或多个步骤期间容纳样品和/或试剂的管、小瓶或板；用于转移液体样品和试剂的移液器或移液器吸头；用于方法中使用的管、小瓶、板和/或其他耗材的盖和密封件；用于放置耗材的架子；用于识别样品的标签；和/或使用试剂盒如在本文所述的方法中在靶多核苷酸中的靶序列处提供位点特异性修饰的说明书。

本文引用的所有参考文献，包括专利、专利申请、论文、教科书等以及其中引用的参考文献(如同它们还未曾引用过的程度)通过引用以其全文并入本文。

实例

实例1.

在本实例中，将Cas9和与逆转录酶融合的Cas9(“PRINS”)以及相应的指导RNA引入细胞中。

将HEK293细胞在转染前一天以2×10⁵个细胞/孔在12孔板在1mL完全生长培养基(DMEM+10％胎牛血清)中铺板。通过在52μL总体积中组合0.55μg表达野生型Cas9或PRINS的质粒和0.55μg靶向AAVS1基因座的gRNA来制备CRISPR复合物组分。PRINS的指导RNA序列在SEQ ID NO：27-28中描述，并靶向AAVS1位点以插入AAGATG序列。向该混合物中加入3.3μl

HD试剂。通过吸移(大约15次)或通过短暂涡旋小心混合溶液，然后在室温孵育5至10分钟。向每个含有细胞的孔中加入50μL复合物，并振荡孔。

转染后三天，提取基因组DNA，并进行Amplicon-Seq以扩增经编辑的序列。如Taheri-Ghahfarokhi等人，Nucleic Acids Res[核酸研究]46(16)：8417-8434(2018)中所述，对Amplicon-Seq数据执行Rational InDel Meta-Analysis(RIMA)以分析Cas9诱导的改变。

结果示于图3A和3B中。如图3A所示，大部分用Cas9转染的细胞具有可变长度的缺失。在图3B中，与Cas9相比，用PRINS转染的细胞具有更多数目的插入事件(由椭圆表示)，并且具有更高的编辑效率。

实例2.

在本实例中，与RT融合的Cas9切口酶(“PE”)和与RT融合的Cas9(PRINS)，以及对应的用于PE的先导编辑指导RNA(pegRNA)和用于PRINS的单引发编辑插入指导RNA(springRNA)(两者均靶向实例1中所述的AAVS1位点)被引入细胞中。在Anzalone等人，Nature[自然]576：149-157(2019)中描述了PE和pegRNA。简而言之，pegRNA包括与靶序列互补的指导序列和包含插入序列(AAGATG)的模板序列，该插入序列两侧是与靶序列同源的两个区域，其中一个区域用作引物结合序列。springRNA包括与靶序列互补的指导序列、包含插入序列(AAGATG)的模板序列、和引物结合序列。

图5A和5B分别显示了PRINS/springRNA和PE/pegRNA的插入频率。相对编辑频率由片段分析确定(参见Yang等人，Nucleic Acids Research[核酸研究]43(9)：e59(2015))。PRINS(插入率为42.4％)比PE(插入率为14.3％)的效率更高。

为了证明PRINS对NHEJ的依赖性，用已知参与NHEJ的特定DNA依赖性蛋白激酶(DNAPK)的2.5μM抑制剂重复了相同的实验。图5C和5D中的结果分别显示了PRINS/springRNA和PE/pegRNA的插入频率。PE情况下没有观察到DNAPK抑制(图5D)，而PRINS在DNAPK抑制剂存在下具有降低的插入频率(图5C)。

实例3.

在本实例中，与RT融合的Cas9切口酶(“PE”)与RT融合的Cas9(PRINS)均使用靶向AAVS1位点的pegRNA进行测试，如实例2中所述。

如实例2所述，通过片段分析来分析插入频率。图6中的结果显示pegRNA可以促进通过PRINS的插入。PRINS可能以与PE类似的方式潜在地利用pegRNA，如Anzalone等人，Nature[自然]576：149-157(2019)中所述。

实例4.PRINS编辑与先导编辑作用机制的确定

在本实例中，评估了Cas9与RT融合以进行PRINS编辑的作用机制，并跟Cas9切口酶与RT融合以进行先导编辑的机制进行了比较。为了确定PRINS编辑和先导编辑是否利用非同源末端连接(NHEJ)进行DNA修复，引入了DNA依赖性蛋白激酶(DNA-PK)(该酶是NHEJ途径中的已知酶)的抑制剂。

将HEK-T细胞在如上文实例2所述用PRINS编辑和先导编辑的组分转染前4小时用DNA-PK抑制剂AZD7648处理。使用NGS Amplicon-Seq评估特异性6-bp整合(AAGATG)到AAVS1基因座中的百分比。

结果示于图7中。柱形图代表n＝2的平均值与标准偏差。标记为“#1”或“#2”的柱表示不同的springRNA(用于PRINS编辑)或不同的pegRNA(用于先导编辑)。数据显示PRINS介导的整合因DNA-PK抑制而大大降低，而先导编辑相对不受影响。

实例5.DNA和RNA模板序列和DNA聚合酶融合物的评估

在本实例中，使用DNA模板序列(“DNA尾”)或RNA模板序列(“RNA尾”)制备springRNA。测试了Cas9+RT(“PE0”)、Cas9+DNA聚合酶D(“PE0 PolD”)、Cas9+Phi29 DNA聚合酶(“PE0 Phi”)的融合物和Cas9对照。安捷伦公司(Agilent)合成了三种指导RNA，一种含有RNA尾(“123RNA MS”)以及两种含有DNA尾(“123DNA”和“123DNA PS”)。序列如表1中所示。

表1.指导RNA序列

第1天使用FUGENE将融合蛋白转染到细胞中，第2天使用RNAiMAX转染指导RNA。

结果示于图8-12中。图8显示了不同蛋白质情况下的编辑效率的总结。与Cas9相比，所有融合蛋白在DNA尾序列情况下都实现了更高的编辑效率。图9-12的顶部、中间和底部分图分别显示了123RNA MS尾、123DNA尾或123DNA PS尾情况下所示蛋白质(PE0、PE0PolD、PE0 Phi或Cas9)的编辑模式。出人意料的是，含有DNA尾的指导RNA使用PE0实现了类似的编辑模式，如图9所示。图10和11显示DNA聚合酶PolD和Phi29能够复制DNA尾，但不能复制RNA尾。

实例6.指导序列的评估

在本实例中，设计了不同的指导序列并评估了它们对通过PRINS编辑或先导编辑进行DNA编辑的影响。如本文实施例中所述，PRINS编辑利用单个PRINS指导RNA(springRNA)来靶向和修饰特定基因组基因座。除了在Cas9靶向系统的传统sgRNA中发现的间隔子和支架序列外，springRNA还包含3′延伸，其包括引物结合位点(PBS)，该引物结合位点与靶DNA链杂交并充当逆转录的引物。PBS之后是包含所期望修饰的DNA合成模板。相比之下，先导编辑指导RNA(pegRNA)包括在DNA合成模板之后的另外的同源区域，如图13所示。

为了研究不同引物设计对PRINS编辑和先导编辑的影响，在不存在或存在如上文实例4中所述的DNA-PK抑制剂AZD7648的情况下用如上文实例2所述的PRINS编辑和先导编辑组分共转染HEK-T细胞。

结果示于图14A和14B中。数据表示使用PRINS编辑(图14A)和先导编辑(图14B)将特定6bp整合(AAGATG)到AAVS1基因座中的百分比。柱形图代表n＝2的平均值与标准偏差。标记为“#1”或“#2”的柱表示不同的springRNA和pegRNA设计，如图13所示。结果表明springRNA和pegRNA设计两者情况下的PRINS编辑功能。PRINS编辑与pegRNA和DNA-PK抑制剂的组合产生了最高的特异性编辑，性能是使用相同pegRNA时先导编辑的两倍。先导编辑在使用pegRNA时产生了可检测的修饰，但在使用springRNA时没有产生任何可检测的修饰。

实例7.PRINS编辑毒性的评估

在本实例中，通过确定双链断裂产生后诱导的大缺失的数量来评估PRINS编辑与Cas9编辑相比的毒性。

白喉毒素(DT)选择系统(例如，如2020年4月12日提交的美国临时申请号62/833,404和PCT/EP 2020/060250中所述)用于评估大缺失的量。图15说明了实验设计的示意图。简而言之，选择DT受体HbEGF的内含子作为PRINS编辑或Cas9编辑靶标。只有双等位基因大缺失将为细胞提供DT抗性，因此，DT处理后的细胞存活表明大缺失的量。

用Cas9-RT融合物(PRINS编辑，“PE0”)、Cas9、或Cas9切口酶-RT融合物(先导编辑，“PE2”)和三种不同的指导RNA转染细胞。图16中的结果显示用相同量的DNA转染相同数量的细胞后，PE0板相对于Cas9板显示更少的细胞，表明PRINS编辑情况下的大缺失数量更少。通过PRINS编辑的大缺失数量与用PE2的先导编辑情况时相当。

实例8.外源模板多核苷酸的评估

在本实例中，评估了添加未与指导RNA融合的外源模板多核苷酸用于PRINS编辑或先导编辑。

实验设计的示意图示于图17中。与MS2适体结合的MCP结构域与PRINS编辑中使用的Cas9-RT蛋白融合，位于Cas9和RT之间(“PRINS_MS2_v1”)或RT下游(“PRINS_MS2_v2”)。逆转录模板与MS2适体融合，而不是与指导RNA融合。PRINS_MS2、MS2-RT模板和靶gRNA共转染到HEK-T细胞中并测试靶向插入。对照gRNA和与gRNA融合的RT模板分别用作阴性和阳性对照。

图18中的结果显示通过PRINS编辑从MS2-RT模板成功复制和插入DNA序列，即使编辑效率低于使用与gRNA融合的RT模板的PRINS编辑。

实例9.用于PRINS编辑的Cas12融合物的评估

在本实例中，评估了Cas12-RT融合蛋白的PRINS编辑和先导编辑能力。

RT与LbCas12(也称为LbCpfl)融合。指导RNA被设计用于在EMX1和DNMT1位点处的PRINS编辑(springRNA)和先导编辑(pegRNA)。靶向EMX1的示例性指导RNA显示在图19中并包括以下序列，其中单下划线表示插入序列，双下划线表示同源序列：

确定使用上述指导RNA时EMX1位点处的插入，如表2中所示。

表2.在EMX1位点处的插入

确定突变类型，如表3中所示。

表3.突变类型

表2和表3中的结果表明，使用PRINS编辑通过Cas12-RT融合蛋白，DNA序列被成功复制和特异性插入。总体编辑效率为约0.25％。

实例10.使用Cas9-DNA聚合酶融合物进行的PRINS编辑

针对PRINS编辑评估与DNA聚合酶融合的Cas9。已报道DNA聚合酶在体外和在体内表现出逆转录酶活性(参见，例如，Ricchetti等人，EMBO J.[欧洲分子生物学学会杂志]12(2)：387-396(1993))。将表达Cas9、Cas9-RT融合物(“PE0”)或与如下所示的DNA聚合酶融合的Cas9的质粒连同表达靶向AAVS1基因座的单引发编辑插入指导RNA(springRNA)的质粒一起转染到HEK293T细胞中。Cas9-DNA聚合酶融合物包含以下DNA聚合酶构建体：

Cas9-Klenow exo+：大肠杆菌DNA聚合酶I的经密码子优化的Klenow片段；

Cas9-Klenow exo-：大肠杆菌DNA聚合酶I的经密码子优化的Klenow片段，具有D355A和E357A突变，其消除了DNA聚合酶的3′已5′核酸外切酶活性；

Cas9-REV3：人REV3聚合酶的催化活性截短，与全长REV3相比，其被鉴定为具有增加的稳定性和更高的表达水平(表示为TR5；参见Lee等人，PNAS[美国国家科学院院刊](2014)，doi：10.1073/pnas.1324001111))。

转染后72小时收获细胞。提取基因组DNA，通过PCR扩增AAVS1基因座，并使用Illumina测序平台进行测序。

图20中的结果显示三种Cas9-DNA聚合酶融合蛋白能够进行PRINS编辑。

实例11.使用Cas9-DNA聚合酶融合物和嵌合springRNA进行的PRINS编辑

在PRINS编辑中使用Cas9、PE0和Cas9-DNA聚合酶融合蛋白对嵌合springRNA进行了评估。使用

HD用表达Cas9、PE0或实例10中描述的三种Cas9-DNA聚合酶融合蛋白的质粒转染HEK293T细胞。24小时后，使用LIPOFECTAMINE^TM RNAiMAX和2pmol的以下合成的springRNA之一进一步转染细胞：

springRNA-所有都是RNA核苷酸；序列包含指导RNA序列；用于结合Cas9的tracrRNA支架；以及springRNA 3′处的6-核苷酸插入序列(“AATATG”)和引物结合位点(PBS)；

嵌合springRNA DiHP-与上述springRNA相同的序列，所有都是RNA核苷酸，除了插入序列和PBS的10个核苷酸是脱氧核糖核苷酸；

嵌合springRNA DiRP-与上述springRNA相同的序列，所有都是RNA核苷酸，除了插入序列是脱氧核糖核苷酸。

转染后48小时收获细胞。提取基因组DNA，通过PCR扩增AAVS1基因座，并使用Illumina测序平台进行测序。

图21A-C的结果显示当使用嵌合的、含DNA的springRNA时，Cas9-DNA聚合酶融合蛋白能够以与PE0相当的效率进行PRINS编辑。

实例12.使用Cas9-DNA聚合酶融合物和经修饰的springRNA进行的PRINS编辑

在PRINS编辑中评估了各种具有化学修饰的springRNA。使用

HD用表达Cas9或PE0的质粒转染HEK293T细胞。24小时后，使用LIPOFECTAMINE^TM RNAiMAX和2pmol的以下springRNA之一进一步转染细胞：

具有无碱基位点的springRNA-与上述springRNA相同的序列，所有都是RNA核苷酸，除了插入序列中的第三个核苷酸被dSpacer核苷酸1′2′-双脱氧核糖(无碱基位点)替换；

具有TEG接头的springRNA-与上述springRNA相同的序列，所有都是RNA核苷酸，除了插入序列中的第三个核苷酸共价附接至三甘醇(TEG)。

图22的结果显示化学修饰的springRNA能够防止插入物的过度延伸并增加诱变的精确度。

实例13.使用Cas9-DNA连接酶融合物进行的PRINS编辑

用在单独的表达质粒上的Cas9和RT和含有springRNA的质粒转染细胞，并评估PRINS编辑。如图23A所示，PRINS编辑仍然伴随Cas9和RT蛋白的共表达发生(星号表示野生型序列)。

然后针对PRINS编辑评估与DNA连接酶融合的Cas9。Cas9与结核分枝杆菌LigD(其是参与DNA断裂的非同源末端连接的DNA连接酶)融合(“Cas9-LigD”)。将表达Cas9-LigD融合蛋白的质粒与表达RT的质粒和springRNA质粒共转染，并评估PRINS编辑。

图23B中的结果显示与Cas9和RT的共表达相比，Cas9-LigD融合蛋白和RT的共转染改善了所期望序列的插入。

实例14.插入物和springRNA中PBS的错配

在springRNA的引物结合位点(PBS)中引入了错配，以减少springRNA的5′和3′之间的同源性，这导致与PBS退火的靶DNA链的3’末端之间的两个错配。通常，当存在与模板的3′错配时，DNA的引发效率较低。出人意料的是，如图24A-24B所示，插入4bp插入序列(最初是6bp序列减去2bp错配)比插入完全互补的6bp插入物更有效。连带2bp错配的4bp插入具有59.59％的相对插入效率(图24B)，而没有错配的6bp插入具有37.13％的相对插入效率(图24A)。

实例15.DNA修复途径对PRINS和先导编辑的影响

在以下DNA修复基因部分缺乏的细胞系中评估了PE0与springRNA的PRINS编辑效率以及PE0与pegRNA的先导编辑效率：PRKDC(也称为DNAPK)、LIG4、TP53BP1、PARP1、POLQ、LIG3和ATM。细胞也在不存在DNAPK抑制剂的情况下培养。

结果示于图25中并表明PRINS编辑依赖于NHEJ途径酶，如PRKDC和TP53BP1，因为这些基因的缺失或PRKDC蛋白的抑制导致PRINS效率降低。图25还显示用PE0和pegRNA进行的先导编辑与NHEJ酶具有负相关性，因为PRKDC、LIG4或TP53BP1的抑制或缺失导致更高的插入效率。

实例16.用于PRINS编辑的II-B型Cas9融合物的评估

一种融合蛋白，其包含II-B型Cas9蛋白(来自已测序的肠道宏基因组MH0245_GL0161830.1(MHCas9)的Cas9，它产生粘性末端(“突出端”))和MMLV逆转录酶。SpringRNA被设计用于与MHCas9结合并包含靶向AAVS1基因座的六核苷酸插入序列，如实例10所述。转染HEK293T细胞，提取基因组DNA，并且使用Amplicon-Seq检测靶向插入。

图26A的结果显示MHCas9-RT融合蛋白在靶基因座处成功地进行了PRINS介导的插入。最有效的插入物具有的插入频率为0.072％。图26B显示了MHCas9-RT的十个最频繁的编辑事件。RT不仅介导插入序列的插入，还延伸了MHCas9生成的突出端序列(CCC)，如三个最频繁的编辑事件所示。

实例17.使用MHCas9-RT融合物进行的靶向插入和缺失

评估了前面实例中描述的Cas9-RT融合蛋白(“PE0”)使用pegRNA进行靶向插入和缺失的能力。与利用Cas9切口酶-RT融合物和pegRNA的先导编辑相比，PE0连同pegRNA引入了双链DNA断裂并且因此通过不参与吓到编辑的双链DNA断裂修复途径进行修复。PegRNA和先导编辑在实例2和Anzalone等人，Nature[自然]576：149-157(2019)中进行了描述。

将HEK293T细胞用表达MHCas9-RT和靶向AAVS1位点的pegRNA的质粒转染，如前面实例中所述。测试了两种不同的pegRNA构建体：1)提供1个核苷酸缺失的构建体；和2)在PAM-3位点产生A到G取代的构建体。转染后，基因组DNA被提取并通过NGS进行处理，如前面实例中所述。

图27A(A到G取代)和27B(1个核苷酸缺失)中的结果证明PE0连同pegRNA能够诱导取代/插入和缺失。图27A和27B的柱形图中的深灰色部分代表期望的突变，浅灰色部分代表不期望的突变。该实验还在DNAPK抑制剂(DNAPKi)的存在下进行，相对于不期望的突变增加了所期望的突变的百分比。

序列

本文提供了各种多核苷酸和多肽的序列。

Cas9核酸酶的氨基酸序列(SEQ ID NO：1)

Cas12核酸酶(LbCas12a)的氨基酸序列(SEQ ID NO：29)

Cas14核酸酶(Cas14a1)的氨基酸序列(SEQ ID NO：30)

MMLV逆转录酶的氨基酸序列(SEQ ID NO：2)

R2逆转录酶的氨基酸序列(SEQ ID NO：3)

Phi29 DNA聚合酶的氨基酸序列(SEQ ID NO：4)

DNA聚合酶δ的氨基酸序列(SEQ ID NO：5)

T4 DNA聚合酶的氨基酸序列(SEQ ID NO：6)

T4 DNA连接酶的氨基酸序列(SEQ ID NO：7)

MEPC2的氨基酸序列(SEQ ID NO：8)

Rep蛋白的氨基酸序列(SEQ ID NO：9)

T4基因32蛋白的氨基酸序列(SEQ ID NO：10)

FUBP的氨基酸序列(SEQ ID NO：11)

核定位序列(SEQ ID NO：12-14)

MKRTADGSEFESPKKKRKV(SEQ ID NO：12)

SGGSKRTADGSEFEPKKKRKV(SEQ ID NO：13)

PKKKRKV(SEQ ID NO：14)

接头序列(SEQ ID NO：15-16)

SGGSSGGSSGSETPGTSESATPESSGGSSGGS(SEQ ID NO：15)

SGGSSGGSSGSETPGTSESATPESSG(SEQ ID NO：16)

REP_Y156F(1-197)-Cas9 P2A EGFP的氨基酸序列(SEQ ID NO：17)

Cas9-MMLV RT的氨基酸序列(SEQ ID NO：18)

MCP2-RT的氨基酸序列(SEQ ID NO：19)

Cas9-Phi29的氨基酸序列(SEQ ID NO：20)

Cas9-PolD的氨基酸序列(SEQ ID NO：21)

Cas9-R2 RT的氨基酸序列(SEQ ID NO：22)

Cas9-T4 DNA连接酶的氨基酸序列(SEQ ID NO：23)

Cas9-MCP2 MMLV RT的氨基酸序列(SEQ ID NO：24)

Cas9-T4 DNA Pol的氨基酸序列(SEQ ID NO：25)

T4gp32-FUBP的氨基酸序列(SEQ ID NO：26)

AAVS 123 AAGATG gRNA的多核苷酸序列(SEQ ID NO：27)

AAVS 123 AAGATG 20延伸gRNA的多核苷酸序列(SEQ ID NO：28)

Claims

1.一种融合蛋白，其包含：(i)Cas核酸酶和(ii)逆转录酶、DNA聚合酶、DNA连接酶或其组合，其中该Cas核酸酶能够产生双链多核苷酸切割。

2.如权利要求1所述的融合蛋白，其中该Cas核酸酶是Cas9、Cas12或Cas14。

3.如权利要求2所述的融合蛋白，其中该Cas核酸酶包含与SEQ ID NO：1、29或30中的任一个具有至少90％同一性的多肽序列。

4.如权利要求2所述的融合蛋白，其中该Cas9是IIB型Cas9。

5.如权利要求1所述的融合蛋白，其中该融合蛋白包含Cas核酸酶和逆转录酶。

6.如权利要求5所述的融合蛋白，其中该逆转录酶是MMLV逆转录酶或R2逆转录酶。

7.如权利要求5或6所述的融合蛋白，其中该逆转录酶包含与SEQ ID NO：2-3中的任一个具有至少90％同一性的多肽序列。

8.如权利要求1所述的融合蛋白，其中该融合蛋白包含Cas核酸酶和DNA聚合酶。

9.如权利要求7所述的融合蛋白，其中该DNA聚合酶是phi29 DNA聚合酶、T4 DNA聚合酶、DNA聚合酶μ、DNA聚合酶δ或DNA聚合酶ε。

10.如权利要求7或8所述的融合蛋白，其中该DNA聚合酶包含与SEQ ID NO：4-6中的任一个具有至少90％同一性的多肽序列。

11.如权利要求1所述的融合蛋白，其中该融合蛋白包含Cas核酸酶和DNA连接酶。

12.如权利要求11所述的融合蛋白，其中该DNA连接酶是T4 DNA连接酶。

13.如权利要求11或12所述的融合蛋白，其中该DNA连接酶包含与SEQ ID NO：7具有至少90％同一性的多肽序列。

14.如权利要求1至13中任一项所述的融合蛋白，其进一步包含DNA结合结构域或RNA结合结构域。

15.如权利要求14所述的融合蛋白，其中该DNA结合结构域是锌指DNA结合结构域、转录因子或腺相关病毒Rep蛋白。

16.如权利要求14所述的融合蛋白，其中该RNA结合结构域是MS2外壳蛋白(MCP2)。

17.如权利要求14所述的融合蛋白，其中该RNA结合结构域包含KH结构域。

18.如权利要求17所述的融合蛋白，其中该RNA结合结构域是核内不均一核糖核蛋白K(hnRNPK)。

19.如权利要求14所述的融合蛋白，其中该DNA结合结构域能够结合单链DNA(ssDNA)。

20.如权利要求19所述的融合蛋白，其中DNA结合结构域是远上游元件结合蛋白(FUBP)。

21.如权利要求14至20中任一项所述的融合蛋白，其中该DNA结合结构域或该RNA结合结构域包含与SEQ ID NO：8-11中的任一个具有至少90％同一性的多肽序列。

22.如权利要求1至21中任一项所述的融合蛋白，其进一步包含(i)和(ii)之间的多肽接头。

23.如权利要求1所述的融合蛋白，其包含与SEQ ID NO：18-26中的任一个具有至少90％同一性的多肽序列。

24.一种组合物，其包含：

a)如权利要求1至23中任一项所述的融合蛋白；以及

b)多核苷酸，该多核苷酸与该融合蛋白形成复合物并包含(i)指导序列；和(ii)该逆转录酶、该DNA聚合酶或该DNA连接酶的模板序列。

25.如权利要求24所述的组合物，其中该多核苷酸包含RNA。

26.如权利要求24所述的组合物，其中该指导序列包含RNA并且该模板序列包含DNA。

27.如权利要求24所述的组合物，其中该模板序列包含无碱基位点、三甘醇(TEG)接头或两者。

28.如权利要求24至27中任一项所述的组合物，其中该指导序列的长度为约15至约20个核苷酸。

29.如权利要求24至28中任一项所述的组合物，其中该多核苷酸进一步包含tracrRNA。

30.如权利要求24至28中任一项所述的组合物，其中该组合物包含第二多核苷酸，该第二多核苷酸包含tracrRNA。

31.如权利要求24至30中任一项所述的组合物，其中该模板序列包含引物结合序列和目的序列。

32.如权利要求31所述的组合物，其中该引物结合序列和该目的序列包含DNA。

33.如权利要求31所述的组合物，其中该目的序列包含DNA。

34.如权利要求24至33中任一项所述的组合物，其中该模板序列的长度为约25至约10000个核苷酸。

35.如权利要求24至34中任一项所述的组合物，其中该引物结合序列的长度为约4至约30个核苷酸。

36.如权利要求24至35中任一项所述的组合物，其中该目的序列的长度为约5个核苷酸至约9000个核苷酸。

37.如权利要求24至36中任一项所述的组合物，其中该多核苷酸包含在该指导序列和该模板序列之间的间隔子。

38.如权利要求37所述的组合物，其中该间隔子的长度为约10至约200个核苷酸。

39.如权利要求37或38所述的组合物，其中该间隔子包含该逆转录酶或DNA聚合酶的终止序列。

40.如权利要求39所述的组合物，其中该间隔子包含多于一个终止序列。

41.如权利要求39或40所述的组合物，其中该终止序列包含二级结构。

42.如权利要求41所述的组合物，其中该二级结构是发夹环。

43.一种组合物，其包含：

a)如权利要求1至23中任一项所述的融合蛋白；

b)与该融合蛋白形成复合物并包含指导序列的指导多核苷酸；以及

c)包含该逆转录酶、该DNA聚合酶或该DNA连接酶的模板序列的模板多核苷酸。

44.如权利要求43所述的组合物，其中该指导多核苷酸是RNA。

45.如权利要求43所述的组合物，其中该模板多核苷酸包含RNA。

46.如权利要求43所述的组合物，其中该模板序列包含DNA。

47.如权利要求43所述的组合物，其中该模板序列包含无碱基位点、三甘醇(TEG)接头或两者。

48.如权利要求43至47中任一项所述的组合物，其中该指导序列的长度为约15至约20个核苷酸。

49.如权利要求43至48中任一项所述的组合物，其中该指导多核苷酸进一步包含tracrRNA。

50.如权利要求43至48中任一项所述的组合物，其中该组合物进一步包含第三多核苷酸，该第三多核苷酸包含tracrRNA。

51.如权利要求43至50中任一项所述的组合物，其中该模板序列的长度为约25至约10000个核苷酸。

52.如权利要求43至51中任一项所述的组合物，其中该模板序列包含目的序列。

53.如权利要求52所述的组合物，其中该目的序列的长度为约5个核苷酸至约9800个核苷酸。

54.如权利要求52或53所述的组合物，其中该目的序列包含DNA。

55.如权利要求43至54中任一项所述的组合物，其中该模板多核苷酸进一步包含引物结合序列。

56.如权利要求55所述的组合物，其中该引物结合序列的长度为约4至约30个核苷酸。

57.如权利要求55或56所述的组合物，其中该引物结合序列和该目的序列包含DNA。

58.如权利要求43至57中任一项所述的组合物，其中该模板多核苷酸进一步包含该逆转录酶或DNA聚合酶的终止序列。

59.如权利要求58所述的组合物，其中该模板多核苷酸包含多于一个终止序列。

60.如权利要求58或59所述的组合物，其中该终止序列包含二级结构。

61.如权利要求60所述的组合物，其中该二级结构是发夹环。

62.如权利要求43至61中任一项所述的组合物，其中该模板多核苷酸包含腺相关病毒(AAV)载体，该载体包含目的序列。

63.一种多核苷酸，其编码如权利要求1至23中任一项所述的融合蛋白。

64.一种载体，其包含编码如权利要求1至23所述的融合蛋白的多核苷酸。

65.一种细胞，其包含如权利要求1至23中任一项所述的融合蛋白。

66.一种细胞，其包含编码如权利要求1至23所述的融合蛋白的多核苷酸、或如权利要求64所述的载体。

67.一种细胞，其包含如权利要求24至62中任一项所述的组合物。

68.一种在靶多核苷酸中的靶序列处提供位点特异性修饰的方法，该方法包括使该靶多核苷酸与如权利要求24至62中任一项所述的组合物接触。

69.如权利要求68所述的方法，其中该靶多核苷酸是DNA。

70.如权利要求68或69所述的方法，其中该指导序列能够与该靶序列杂交。

71.如权利要求68至70中任一项所述的方法，其中在足以使该Cas核酸酶在该靶序列处产生双链多核苷酸切割的条件下进行该接触。

72.如权利要求68至71中任一项所述的方法，其中该模板序列包含目的序列。

73.如权利要求68至72中任一项所述的方法，其中该模板序列包含能够与该靶序列杂交的引物结合序列。

74.如权利要求68至73中任一项所述的方法，其中在足以使该逆转录酶转录该目的序列的互补链的条件下进行该接触。

75.如权利要求74所述的方法，其进一步包括切割该模板序列以产生包含该目的序列的双链序列。

76.如权利要求75所述的方法，其中该切割由RNA酶H进行。

77.如权利要求68至72中任一项所述的方法，其中在足以使该DNA聚合酶产生包含该目的序列的双链序列的条件下进行该接触。

78.如权利要求68至72中任一项所述的方法，其中在足以使该DNA连接酶将该目的序列连接到该切割的靶序列的条件下进行该接触。

79.如权利要求71至78中任一项所述的方法，其中包含该目的序列的双链序列通过非同源末端连接(NHEJ)插入到该切割的靶序列中。

80.如权利要求71至78中任一项所述的方法，其中包含该目的序列的双链序列通过DNA连接酶插入到该切割的靶序列中。

81.如权利要求68至77中任一项所述的方法，其进一步包括在该靶多核苷酸中的第二靶序列处产生第二双链多核苷酸切割。

82.如权利要求81所述的方法，其中该目的序列替换该靶多核苷酸的在该靶序列和该第二靶序列之间的序列。

83.一种试剂盒，其包含如权利要求1至23中任一项所述的融合蛋白。

84.如权利要求83所述的试剂盒，其进一步包含与该融合蛋白形成复合物的多核苷酸和/或用于表达该多核苷酸的载体。

85.如权利要求83所述的试剂盒，其进一步包含模板多核苷酸和/或用于表达该模板多核苷酸的载体，该模板多核苷酸包含该逆转录酶、该DNA聚合酶或该DNA连接酶的模板序列。

86.如权利要求83或84所述的试剂盒，其进一步包含含有tracrRNA的多核苷酸。

87.如权利要求83至86中任一项所述的试剂盒，其进一步包含RNA酶H。