CN116209756A

CN116209756A - 调控基因组的方法和组合物

Info

Publication number: CN116209756A
Application number: CN202180035526.1A
Authority: CN
Inventors: A.H.博特默; C.G.S.科塔-拉穆西诺; W.E.萨洛蒙; J.R.鲁本斯; R.J.西托里克; Z.J.王; K.金; R.M.科特拉; A.雷; R.C.阿尔特舒勒; S.库马尔; N.罗奎特; B.E.斯坦伯格
Original assignee: Flagship Pioneering Innovations VI Inc
Current assignee: Flagship Pioneering Innovations VI Inc
Priority date: 2020-03-04
Filing date: 2021-03-04
Publication date: 2023-06-02
Also published as: WO2021178720A3; US20230272430A1; EP4114937A2; CA3174486A1; IL296024A; AU2021230546A1; JP2023517187A; US20240035049A1; MX2022010991A; WO2021178720A2; KR20230057487A; EP4114937A4; US20240417757A1; US12157898B2; BR112022017715A2

Abstract

披露了用于调控靶基因组的方法和组合物。

Description

调控基因组的方法和组合物

相关申请

本申请要求2020年3月4日提交的美国序列号62/985,285，2020年6月5日提交的美国序列号63/035,627，和2020年8月19日提交的美国序列号63/067,828的优先权，将其中每个的全部内容通过引用并入本文。

背景

在没有专门的蛋白质来促进插入事件的情况下，目的核酸整合到基因组中的频率较低且位点特异性极低。一些现有的方法，如CRISPR/Cas9，更适合依赖宿主修复途径的小型编辑，并且在整合较长序列时效率较低。其他现有的方法、例如Cre/loxP需要第一步先将loxP位点插入基因组中，然后第二步将目的序列插入loxP位点中。本领域需要改善的组合物(例如，蛋白质和核酸)和方法用于在基因组中插入、改变、或缺失目的序列。

发明内容

本披露涉及用于体内或体外改变宿主细胞、组织或受试者中一个或多个位置处的基因组的新颖组合物、系统和方法。特别地，本发明的特征在于用于在宿主基因组中插入、改变或缺失目的序列的组合物、系统和方法。

所述组合物或方法的特征可包括以下列举的实施例中的一个或多个。

列举的实施例

1.一种用于修饰DNA的系统，该系统包含：

(a)多肽或编码该多肽的核酸，其中该多肽包含(i)逆转录酶(RT)结构域，(ii)DNA结合结构域(DBD)；和(iii)核酸内切酶结构域，例如切口酶结构域；以及

(b)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5'到3')(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列(例如CRISPR间隔子)，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3’靶同源结构域。

2.一种用于修饰DNA的系统，该系统包含：

(b)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5'到3')(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3'靶同源结构域；

其中：

(i)该多肽包含与该靶位点中包含的序列特异性结合的异源靶向结构域(例如，在该DBD或该核酸内切酶结构域中)；和/或

(ii)该模板RNA包含与靶位点中包含的序列具有至少85％、90％、95％、96％、97％、98％、99％、或100％同源性的异源同源序列。

3.一种用于修饰DNA的系统，该系统包含：

(b)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5'到3')(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3'靶同源结构域，

其中该RT结构域包含表1或3的序列或表2的逆转录酶结构域的序列或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列。

4.一种用于修饰DNA的系统，该系统包含：

其中该RT结构域包含表1或3的序列，或表2的逆转录酶结构域的序列，

其中该RT结构域进一步包含相对于天然序列的多个取代，例如至少1、2、3、4、5、10、20、30、40、50、60、70、80、90、或100个取代。

5.一种用于修饰DNA的系统，该系统包含：

其中该系统能够在该靶位点中产生至少45、50、55、60、65、70、75、80、85、90、95或100个核苷酸插入。

6.一种用于修饰DNA的系统，该系统包含：

其中该系统能够在该靶位点中产生至少1、2、3、4、5、10、20、30、40或44个核苷酸插入。

7.一种用于修饰DNA的系统，该系统包含：

其中该异源对象序列长度是至少74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、120、140、160、180、200、500、或1,000nt。

8.一种用于修饰DNA的系统，该系统包含：

其中该异源对象序列的长度是至少1、2、3、4、5、10、20、30、40、50、60、70或73个核苷酸。

9.如前述实施例中任一项所述的系统，其中一项或多项：该RT结构域与该DBD异源；该DBD与该核酸内切酶结构域异源；或该RT结构域与该核酸内切酶结构域异源。

10.一种用于修饰DNA的系统，该系统包含：

其中该系统能够在靶位点中产生至少81、85、90、95、100、110、120、130、140、150、160、170、180、190、或200个核苷酸缺失。

11.一种用于修饰DNA的系统，该系统包含：

其中该系统能够在靶位点中产生至少1、2、3、4、5、10、20、30、40、50、60、70或80个核苷酸缺失。

12.一种用于修饰DNA的系统，该系统包含：

其中该系统能够在该靶位点中产生至少1、2、3、4、5、6、7、8、9或10个核苷酸的核苷酸取代，例如转换和/或颠换。

13.一种用于修饰DNA的系统，该系统包含：

(b)模板(或编码该模板RNA的DNA)，其包含(例如，从5'到3')(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3'靶同源结构域，

其中(a)(ii)和/或(a)(iii)包含TAL结构域；锌指结构域；或选自表4的CRISPR/Cas结构域或其功能变体(例如，突变体)。

14.一种用于修饰DNA的系统，该系统包含：

(b)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5'到3')(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列(例如CRISPR间隔子)，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3’靶同源结构域，

其中该核酸内切酶结构域，例如切口酶结构域，切割该靶位点DNA的第一链和第二链，并且其中这些切割彼此分开至少2、3、4、5、6、7、8、9、10、15、20或30个核苷酸。

15.一种用于修饰DNA的系统，该系统包含：

(b)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5'到3')(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)特异性结合该RT结构域的序列，(iii)异源对象序列，和(iv)3’靶同源结构域。

16.如前述实施例中任一项所述的系统，其中该模板RNA进一步包含结合(a)(ii)和/或(a)(iii)的序列。

17.一种用于修饰DNA的系统，该系统包含：

(a)第一多肽或编码该第一多肽的核酸，其中该第一多肽包含(i)逆转录酶(RT)结构域和(ii)任选地，DNA结合结构域，

(b)第二多肽或编码该第二多肽的核酸，其中该第二多肽包含(i)DNA结合结构域(DBD)；(ii)核酸内切酶结构域，例如切口酶结构域；以及

(c)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5'到3')(i)任选地，结合该第二多肽(例如，结合(b)(i)和/或(b)(ii))的序列，(ii)任选地，结合该第一多肽(例如，特异性结合该RT结构域)的序列，(iii)异源对象序列，和(iv)3’靶同源结构域。

18.一种用于修饰DNA的系统，该系统包含：

(a)多肽或编码该多肽的核酸，其中该多肽包含(i)逆转录酶(RT)结构域，和(ii)DNA结合结构域(DBD)；和(iii)核酸内切酶结构域，例如切口酶结构域；

(b)第一模板RNA(或编码该RNA的DNA)，其包含(例如，从5'到3')(i)结合该多肽(例如，结合(a)(ii)和/或(a)(iii))的序列和(ii)结合靶位点(例如，靶基因组中位点的第二链)的序列，(例如，其中该第一RNA包含gRNA)；

(c)第二模板RNA(或编码该RNA的DNA)，其包含(例如，从5'到3')(i)任选地，结合该多肽(例如，特异性结合该RT结构域)的序列，(ii)异源对象序列，和(iii)3’靶同源结构域。

19.如前述实施例中任一项所述的系统，其中该第二模板RNA包含(i)。

20.如前述实施例中任一项所述的系统，其中该第一模板RNA包含第一缀合结构域并且该第二模板RNA包含第二缀合结构域。

21.如前述实施例中任一项所述的系统，其中该第一和第二缀合结构域能够例如在严格条件下彼此杂交，例如其中用于杂交的严格条件包括在4x氯化钠/柠檬酸钠(SSC)中在约65℃杂交，然后在1xSSC中在约65℃洗涤。

22.如前述实施例中任一项所述的系统，其中该第一和第二缀合结构域可以共价连接，例如通过夹板连接，例如通过Moore,M.J.,&Query,C.C.Methods in Enzymology[酶学方法],317,109-123,2000中所述的方法。

23.如前述实施例中任一项所述的系统，其中该第一缀合结构域和该第二缀合结构域的相关联使该第一模板RNA和该第二模板RNA共定位。

24.如前述实施例中任一项所述的系统，其中该逆转录酶(RT)结构域来自逆转录转座子，或与其具有至少85％、90％、95％、96％、97％、98％或99％同一性的序列。

25.一种用于修饰DNA的系统，该系统包含：

(a)多肽或编码该多肽的核酸，其中该多肽包含(i)来自逆转录转座子的逆转录酶(RT)结构域，或与其具有至少85％、90％、95％、96％、97％、98％或99％同一性的序列，(ii)DNA结合结构域(DBD)；和(iii)核酸内切酶结构域，例如切口酶结构域；以及

26.如前述实施例中任一项所述的系统，其中该模板RNA包含(i)。

27.如前述实施例中任一项所述的系统，其中该模板RNA包含(ii)。

28.如前述实施例中任一项所述的系统，其中该模板RNA包含(i)和(ii)。

29.如前述实施例中任一项所述的系统，其中该逆转录酶结构域包含根据表30、表31、表41、表44或表50中任一个的逆转录酶结构域的氨基酸序列，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列，或其功能片段。

30.一种模板RNA(或编码模板RNA的DNA)，其包含特异性结合靶DNA分子(例如基因组DNA)中包含的序列的靶向结构域(例如异源靶向结构域)，特异性结合多肽的RT结构域的序列和异源对象序列。

31.一种模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5'到3')(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)任选地，结合多肽的核酸内切酶和/或DNA结合结构域的序列，(iii)异源对象序列，和(iv)3’靶同源结构域。

32.如前述实施例中任一项所述的模板RNA，其中该模板RNA包含(i)。

33.如前述实施例中任一项所述的模板RNA，其中该模板RNA包含(ii)。

34.一种模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5'到3')(i)结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)结合多肽的核酸内切酶和/或DNA结合结构域的序列，(iii)异源对象序列，和(iv)3’靶同源结构域，

其中(i)包含与表9-12中任一个的基因的序列具有互补性或与具有所述互补性的所述序列具有不超过1、2、3、4或5个差异的核酸序列。

35.一种模板RNA(或编码模板RNA的DNA)，其包含(例如，从5'到3')(i)结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)特异性结合多肽的RT结构域的序列，(iii)异源对象序列，和(iv)3’靶同源结构域。

36.如前述实施例中任一项所述的模板RNA，其进一步包含(v)结合多肽(例如，包含该RT结构域的相同多肽)的核酸内切酶和/或DNA结合结构域的序列。

37.如前述实施例中任一项所述的模板RNA，其中该RT结构域包含选自表1或3的序列或表2的逆转录酶结构域的序列或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列。

38.如前述实施例中任一项所述的模板RNA，其中该RT结构域包含选自表1或3的序列或表2的逆转录酶结构域的序列，其中该RT结构域进一步包含相对于天然序列的多个取代，例如至少1、2、3、4、5、10、20、30、40、50、60、70、80、90、或100个取代。

39.如前述实施例中任一项所述的模板RNA，其中(ii)的序列特异性结合该RT结构域。

40.如前述实施例中任一项所述的模板RNA，其中特异性结合该RT结构域的序列是表1的序列(例如UTR序列)或来自表2的结构域的序列，或与其具有至少70％、75％、80％、85％、90％、95％或99％同一性的序列。

41.一种模板RNA(或编码该模板RNA的DNA)，其从5'至3'包含：(ii)结合多肽的核酸内切酶和/或DNA结合结构域的序列，(i)结合靶位点(例如靶基因组中位点的第二链)的序列，(iii)异源对象序列，和(iv)3’靶同源结构域。

42.一种模板RNA(或编码该模板RNA的DNA)，其从5'至3'包含：(iii)异源对象序列，(iv)3’靶同源结构域，(i)结合靶位点(例如，靶基因组中位点的第二链)的序列，和(ii)结合多肽的核酸内切酶和/或DNA结合结构域的序列。

43.如前述实施例中任一项所述的系统或模板RNA，其中该模板RNA、第一模板RNA或第二模板RNA包含特异性结合该RT结构域的序列。

44.如前述实施例中任一项所述的系统或模板RNA，其中特异性结合该RT结构域的序列位于(i)和(ii)之间。

45.如前述实施例中任一项所述的系统或模板RNA，其中特异性结合该RT结构域的序列位于(ii)和(iii)之间。

46.如前述实施例中任一项所述的系统或模板RNA，其中特异性结合该RT结构域的序列位于(iii)和(iv)之间。

47.如前述实施例中任一项所述的系统或模板RNA，其中特异性结合该RT结构域的序列位于(iv)和(i)之间。

48.如前述实施例中任一项所述的系统或模板RNA，其中特异性结合该RT结构域的序列位于(i)和(iii)之间。

49.一种用于修饰DNA的系统，其包含：

(a)第一模板RNA(或编码该第一模板RNA的DNA)，其包含(i)结合多肽的核酸内切酶结构域，例如切口酶结构域和/或DNA结合结构域(DBD)的序列，和(ii)结合靶位点(例如，靶基因组中位点的第二链)的序列，(例如，其中该第一RNA包含gRNA)；

(b)第二模板RNA(或编码该第二模板RNA的DNA)，其包含(i)特异性结合多肽(例如(a)的多肽)的逆转录酶(RT)结构域的序列，(ii)异源对象序列，和(iii)3'靶同源结构域。

50.如前述实施例中任一项所述的系统，其中编码该第一模板RNA的核酸和编码该第二模板RNA的核酸是两个分开的核酸。

51.如前述实施例中任一项所述的系统，其中编码该第一模板RNA的核酸和编码该第二模板RNA的核酸是相同核酸分子的一部分，例如，存在于相同载体上。

52.如前述实施例中任一项所述的系统，其中该系统能够在该靶位点中产生至少45、50、55、60、65、70、75、80、85、90、95或100个核苷酸插入。

53.如前述实施例中任一项所述的系统，其中该异源对象序列长度是至少74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、120、140、160、180、200、500、或1,000nt。

54.如前述实施例中任一项所述的系统，其中该系统能够在靶位点中产生至少81、85、90、95、100、110、120、130、140、150、160、170、180、190、或200个核苷酸缺失。

55.如前述实施例中任一项所述的系统，其中该模板RNA和编码(a)的多肽的RNA中之一或两者包含化学修饰的mRNA，例如包含化学修饰的碱基的mRNA，例如包含5-甲氧基尿苷的mRNA。

56.如前述实施例中任一项所述的系统，其中该模板RNA和编码(a)的多肽的RNA中之一或两者包含化学修饰的RNA，例如包含化学修饰的碱基的RNA，例如包含2'-o-甲基硫代磷酸酯的RNA。

57.如前述实施例中任一项所述的系统，其中该模板RNA和编码(a)的多肽的RNA中之一或两者在RNA的5'或3'末端的3、4或5个碱基中之一或两个处包含化学修饰的RNA，例如，包含化学修饰的碱基(例如2'-o-甲基硫代磷酸酯)的RNA。

58.一种多肽或编码该多肽的核酸，其中该多肽包含(i)逆转录酶(RT)结构域，(ii)DNA结合结构域(DBD)；和(iii)核酸内切酶结构域；其中该DBD和/或该核酸内切酶结构域包含异源靶向结构域，其特异性结合靶DNA分子(例如基因组DNA)中包含的序列。

59.一种多肽或编码该多肽的核酸，其中该多肽包含(i)逆转录酶(RT)结构域，(ii)DNA结合结构域(DBD)；和(iii)核酸内切酶结构域，例如切口酶结构域，其中该RT结构域具有表1或3的序列或表2的逆转录酶结构域的序列，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列。

60.一种多肽或编码该多肽的核酸，其中该多肽包含(i)逆转录酶(RT)结构域，(ii)DNA结合结构域(DBD)；和(iii)核酸内切酶结构域，例如切口酶结构域，其中该RT结构域具有表1或3的序列或表2的逆转录酶结构域的序列，其中该RT结构域进一步包含相对于天然序列的多个取代，例如至少1、2、3、4、5、10、20、30、40、50、60、70、80、90、或100个取代。

61.如前述实施例中任一项所述的多肽，其中该多肽由mRNA编码，例如化学修饰的mRNA，例如包含化学修饰的碱基的mRNA，例如包含5-甲氧基尿苷的mRNA。

62.如前述实施例中任一项所述的多肽，其中该多肽由mRNA编码，例如化学修饰的mRNA，例如包含化学修饰的碱基的mRNA，例如包含N1-甲基-假尿苷的mRNA。

`

63.一种用于修饰DNA的系统，其包含：

(a)第一多肽或编码该多肽的核酸，其中该多肽包含逆转录酶(RT)结构域，其中该RT结构域具有表1或3的序列或表2的逆转录酶结构域的序列，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列；和任选地，DNA结合结构域(DBD)(例如，第一DBD)；以及

(b)第二多肽或编码该多肽的核酸，其中该多肽包含(i)DBD(例如，第二DBD)；和(ii)核酸内切酶结构域，例如切口酶结构域。

64.一种用于修饰DNA的系统，其包含：

(a)第一多肽或编码该多肽的核酸，其中该多肽包含逆转录酶(RT)结构域，其中该RT结构域具有表1或3的序列或表2的逆转录酶结构域的序列，其中该RT结构域进一步包含相对于天然序列的多个取代，例如至少1、2、3、4、5、10、20、30、40、50、60、70、80、90或100个取代；和任选地，DNA结合结构域(DBD)(例如，第一DBD)；以及

65.如前述实施例中任一项所述的系统，其中编码该第一多肽的核酸和编码该第二多肽的核酸是两个分开的核酸。

66.如前述实施例中任一项所述的系统，其中编码该第一多肽的核酸和编码该第二多肽的核酸是相同核酸分子的一部分，例如，存在于相同载体上。

67.一种反应混合物，该反应混合物包含：

细胞以及如任一前述实施例所述的任何系统、多肽、模板RNA或编码其的DNA。

68.一种反应混合物，该反应混合物包含：

包含靶位点的DNA以及如任一前述实施例所述的任何系统、多肽、模板RNA或编码其的DNA。

69.一种试剂盒，该试剂盒包含：

如任一前述实施例所述的系统、多肽、模板RNA或编码其的DNA；

使用该系统、多肽、模板RNA或编码其的DNA的说明；以及

包含靶位点的细胞或DNA中之一或两者。

70.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该DBD包含TAL结构域。

71.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该DBD包含锌指结构域。

72.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该DBD包含CRISPR/Cas结构域。

73.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酸内切酶结构域是切口酶结构域。

74.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酸内切酶结构域包含CRISPR/Cas结构域。

75.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该CRISPR/Cas结构域包含来自表4的结构域或多肽，或其功能变体(例如，突变体)。

76.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该CRISPR/Cas结构域包含来自表4的属/物种的结构域或多肽。

77.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酸内切酶结构域包含IIs型核酸酶(例如，FokI)、霍利迪连接解离酶或包含消除其切割一条链的能力的改变(例如，将双链DNA核酸酶转化为切口酶)的双链DNA核酸酶。

78.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域包含选自表1或3的逆转录酶或其功能片段或变体或表2的逆转录酶结构域的序列。

79.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域相对于天然存在的RT结构域或选自表1或3的RT结构域或功能片段或表2的逆转录酶结构域的序列或WO 2018089860 A1(通过引用并入本文)的序列表SEQ ID NO:1-67包含一个或多个突变(例如，插入、缺失或取代)。

80.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该一个或多个突变选自鼠白血病病毒逆转录酶的RT结构域中的D200N、L603W、T330P、D524G、E562Q、D583N、P51L、S67R、E67K、T197A、H204R、E302K、的F309N、W313F、L435G、N454K、H594Q、L671P、E69K或D653N或另一个RT结构域的相应位置处的相应突变。

81.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该一个或多个突变选自WO 2018089860 A1(通过引用并入本文)的R2Bm逆转录转座酶的RT结构域中的突变(例如C952S、和/或C956S、和/或C952S、C956S(双突变体)、和/或C969S、和/或H970Y、和/或R979Q、和/或R976Q、和/或R1071S、和/或R328A、和/或R329A、和/或Q336A、和/或R328A、R329A、Q336A(三突变体)、和/或G426A、和/或D428A、和/或G426A、D428A(双突变体)突变，和/或其任何组合；相对于WO 2018089860 A1 SEQ ID NO:52的位置)或者在另一个RT结构域的相应位置处的相应突变。

82.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该DBD和/或该核酸内切酶结构域(例如，CRISPR/Cas结构域)包含来自表4的结构域或多肽，或其功能变体(例如突变体)。

83.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该DBD和/或该核酸内切酶结构域(例如，CRISPR/Cas结构域)包含来自表4的结构域或多肽。

84.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域和该DBD和/或该核酸内切酶结构域(例如，CRISPR/Cas结构域)通过肽接头(例如表42的接头)融合。

85.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该接头的长度是约6-18、8-16、10-14或12个氨基酸。

86.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该述接头包含甘氨酸和丝氨酸，例如，其中该接头仅包含甘氨酸和丝氨酸残基，例如，其中该接头包含GSSGSS序列。

87.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该接头包含根据表42的序列，例如，如表42中披露的连接10或相对其具有不超过1、2或3个取代的序列。

88.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该CRISPR/Cas结构域包含Cas9，例如野生型Cas9或切口酶Cas9。

89.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域位于该多肽中该DBD的C末端。

90.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域位于该多肽中该切口酶结构域的C末端。

91.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域位于该多肽中该DBD的N末端。

92.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域位于该多肽中该切口酶结构域的N末端。

93.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该多肽包含接头，例如，位于该RT结构域和该DBD或该RT结构域和该切口酶结构域之间。

94.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该接头长度是2-50个，例如2-30个氨基酸。

95.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该接头是柔性接头，例如，包含Gly和/或Ser残基。

96.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该3'靶同源结构域与邻近待由该系统修饰的位点的序列互补，或相对于与邻近待由该系统修饰的位点的序列互补的序列包含不超过1、2、3、4或5个错配。

97.如前述实施例中任一项的系统、试剂盒、模板RNA或反应混合物，其中该3'靶同源结构域的长度超过4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190或200个核苷酸(例如，长度是4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸)。

98.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该3'靶同源结构域的长度不超过4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190或200个核苷酸。

99.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列与待由该系统修饰的位点互补，除了在待修饰的一个或多个位置处。

100.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列与待由该系统修饰的位点互补，除了在编码待插入该位点的序列的位置处。

101.前述实施例中任一项的系统、试剂盒、模板RNA或反应混合物，其中异源对象序列与系统将要修饰的位点互补，除了该异源对象序列不包含编码待在该位点缺失的序列的核苷酸。

102.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列的长度超过3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸(例如，长度3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸)。

103.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列的长度不超过3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。

104.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列用至少1、2、3、4、5、6、7、8、9或10个核苷酸取代非靶位点核苷酸。

105.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列在该靶位点中插入至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个核苷酸，或至少0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10千碱基。

106.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列缺失至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、81、85、90、95、100、110、120、130、140、150、160、170、180、190或200个核苷酸。

107.如前述实施例中任一项上的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列与结合该多肽(例如，结合核酸内切酶结构域和/或DBD结构域)的序列分开至少1、2、3、4、5、6、7、8、9、10、15、20、25或30个核苷酸。

108.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合该多肽(例如，结合核酸内切酶结构域和/或DBD结构域)的序列的长度是至少45、50、55、60、65、70、75、80、85、90、95、100、110、120或130个核苷酸(并且任选地长度不超过150、140、130、120、110、100、90、85或80个核苷酸)。

109.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合该多肽的序列结合该核酸内切酶结构域和/或DBD结构域。

110.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合该多肽的序列包含根据表3或表41的预测的5'UTR和预测的3'UTR中之一或两者的序列，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列，或其功能片段。

111.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合该多肽(例如，结合核酸内切酶结构域和/或DBD结构域)的序列包含gRNA。

112.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合靶位点(例如，靶基因组中位点的第二链)的序列的长度是至少15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120或130个核苷酸(并且长度任选地不超过150、140、130、120、110、100、90、80、70、60、50、40、30、29、28、27、26、25、24、23、22、21或20个核苷酸)，例如长度是17、18、19、20、21、22、23或24个核苷酸。

113.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合靶位点的序列与该靶位点的第二链互补，或相对于与该靶位点的第二链互补的序列包含不超过1、2、3、4、或5个错配。

114.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合靶位点(例如，靶基因组中位点的第二链)的序列与结合该多肽(例如，结合核酸内切酶结构域和/或DBD结构域)的序列分开至少1、2、3、4、5、6、7、8、9、10、15、20、25或30个核苷酸。

115.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其进一步包含引导该核酸内切酶结构域(例如，切口酶)结构域对该第二链(例如，在靶基因组中的第二链)进行切口的第二链靶向gRNA。

116.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该模板RNA进一步包含该第二链靶向gRNA。

117.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第二链靶向gRNA布置在与该模板RNA分开的核酸上。

118.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该gRNA引导该核酸内切酶结构域(例如，切口酶)结构域在位于该靶位点修饰的5’或3’的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145或150个核苷酸的位点处对该第二链(例如在该靶基因组中)进行切口。

119.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该gRNA特异性结合经编辑的链。

120.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该多肽包含异源靶向结构域，其特异性结合靶DNA分子(例如基因组DNA)中包含的序列。

121.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该异源靶向结构域结合与未修饰的多肽不同的核酸序列。

122.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该多肽不包含功能性内源靶向结构域(例如，其中该多肽不包含内源靶向结构域)。

123.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该异源靶向结构域包含锌指(例如，特异性结合该靶DNA分子中包含的序列的锌指)。

124.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该异源靶向结构域包含Cas结构域(例如，Cas9结构域，或其突变体或变体，例如，特异性结合该靶DNA分子中包含的序列的Cas9结构域)。

125.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该Cas结构域与指导RNA(gRNA)相关联。

126.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该异源靶向结构域包含核酸内切酶结构域(例如，异源核酸内切酶结构域)。

127.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该核酸内切酶结构域包含Cas结构域(例如，Cas9或其突变体或变体)。

128.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该Cas结构域与指导RNA(gRNA)相关联。

129.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该核酸内切酶结构域包含Fok1结构域。

130.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该模板核酸分子包含至少一个(例如，一个或两个)异源同源序列，其与包含在靶DNA分子(例如，基因组DNA)中的序列具有至少85％、90％、95％、96％、97％、98％、99％、或100％同源性。

131.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该至少一个异源同源序列之一位于该模板核酸分子5’末端的约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、或100个核苷酸处或内。

132.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该至少一个异源同源序列之一位于该模板核酸分子3’末端的约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、或100个核苷酸处或内。

133.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该异源同源序列在该靶DNA分子中的切口位点(例如，由切口酶产生，例如，如本文所述的核酸内切酶结构域)的1、2、3、4、5、6、7、8、9或10个核苷酸内结合。

134.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该异源同源序列和与该模板RNA的未修饰形式的内源同源序列互补的核酸序列具有小于50％、40％、30％、20％、10％、5％、4％、3％、2％、或1％的序列同一性。

135.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该异源同源序列与该靶DNA分子的序列具有至少85％、90％、95％、96％、97％、98％、99％、或100％同源性，该靶DNA分子的序列与被内源同源序列结合的序列不同(例如，被异源同源序列替代)。

136.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该异源同源序列包含与位于该靶DNA分子的切口位点(例如，被切口酶(例如本文所述的核酸酶内切结构域)切口的位点)的5’的序列具有至少85％、90％、95％、96％、97％、98％、99％、或100％同源性的序列(例如在其3’末端)。

137.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该异源同源序列包含适合于引发靶标引发的逆转录(TPRT)起始的序列(例如，在其5’末端)。

138.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该异源同源序列与位于该靶DNA分子中的靶插入位点(例如，对于异源对象序列(例如，如本文所述))(例如，相对于其3’)的约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、或100个核苷酸内的序列具有至少85％、90％、95％、96％、97％、98％、99％、或100％同源性。

139.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该模板核酸分子包含例如如本文所述的指导RNA(gRNA)。

140.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该模板核酸分子包含gRNA间隔子序列(例如，在其5’末端的1、2、3、4、5、10、15、20、25、30、40、50、60、70、80、90、或100个核苷酸处或内)。

141.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该系统的RNA(例如，模板RNA、编码(a)的多肽的RNA、或从整合到靶DNA中的异源对象序列表达的RNA)包含microRNA结合位点，例如在3’UTR中。

142.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该微小RNA结合位点被非靶细胞类型中存在的miRNA识别，但在靶细胞类型中不存在(或相对于非靶细胞以降低的水平存在)。

143.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该miRNA是miR-142，和/或其中该非靶细胞是枯否(Kupffer)细胞或血细胞，例如免疫细胞。

144.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该miRNA是miR-182或miR-183，和/或其中该非靶细胞是背根神经节神经元。

145.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该系统包含被第一miRNA(例如，miR-142)识别的第一miRNA结合位点，并且该系统进一步包含被第二miRNA(例如，miR-182或miR-183)识别的第二miRNA结合位点，其中该第一miRNA结合位点和该第二miRNA结合位点位于该系统的相同RNA或不同RNA上。

146.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中该模板RNA包含至少2、3或4个miRNA结合位点，例如，其中这些miRNA结合位点被相同或不同的miRNA识别。

147.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中编码(a)的多肽的RNA包含至少2、3或4个miRNA结合位点，例如，其中这些miRNA结合位点被相同或不同的miRNA识别。

148.如前述实施例中任一项所述的系统、方法、试剂盒、模板RNA或反应混合物，其中从整合到靶DNA中的异源对象序列表达的RNA包含至少2、3或4个miRNA结合位点，例如，其中这些miRNA结合位点被相同或不同的miRNA识别。

149.一种系统，其包含：

编码如前述实施例中任一项所述的多肽或系统的mRNA，和

如任一前述实施例所述的模板RNA。

150.如前述实施例中任一项所述的系统，其中编码如任一前述实施例所述的多肽或系统的mRNA和如任一前述实施例所述的模板RNA布置在不同的核酸分子上。

151.一种包含RNA分子的系统，该系统包含：

如任一前述实施例所述的模板RNA(或编码该模板RNA的RNA)，和

编码如任一前述实施例所述的系统或多肽的序列。

152.如前述实施例中任一项所述的系统，其中该RNA分子包含内部核糖体进入位点，该内部核糖体进入位点例如可操作地连接至编码该系统或多肽的序列。

153.如前述实施例中任一项所述的系统，其中该RNA分子包含切割位点，该切割位点例如位于模板RNA(或编码该模板RNA的RNA)和编码该系统或多肽的序列之间。

154.如前述实施例中任一项所述的系统或多肽，其中该多肽包含分裂型内含肽，例如该RT结构域、DBD、核酸内切酶(例如切口酶)结构域或其组合中的两个或更多个(例如全部)被翻译为分离的蛋白质，通过蛋白质剪接将这些分离的蛋白质组合成单个多肽。

155.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该系统包含一个或多个环状RNA分子(circRNA)。

156.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该circRNA编码Gene Writer多肽。

157.如前述实施例中任一项所述的系统，其中该circRNA包含模板RNA。

158.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中将circRNA递送至宿主细胞。

159.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该circRNA能够例如在宿主细胞中，例如在该宿主细胞的细胞核中被线性化。

160.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该circRNA包含切割位点。

161.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该circRNA进一步包含第二切割位点。

162.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该切割位点可被核酶，例如包含在该circRNA中的核酶切割(例如，通过自切割)。

163.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该circRNA包含核酶序列。

164.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶序列能够例如在宿主细胞中，例如在该宿主细胞的细胞核中自切割。

165.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶是诱导型核酶。

166.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶是蛋白反应性核酶，例如对核蛋白，例如基因组相互作用蛋白，例如表观遗传修饰物，例如EZH2有反应的核酶。

167.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶是核酸反应性核酶。

168.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶的催化活性(例如，自催化活性)在靶核酸分子(例如，RNA分子，例如，mRNA、miRNA、ncRNA、lncRNA、tRNA、snRNA、或mtRNA)存在下被激活。

169.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶对靶蛋白(例如MS2外壳蛋白)有反应。

170.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该靶蛋白定位于细胞质或定位于细胞核(例如，表观遗传修饰物或转录因子)。

171.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶包含B2或ALU逆转录转座子的核酶序列，或与其具有至少85％、90％、95％、96％、97％、98％、或99％同一性的核酸序列。

172.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶包含烟草环斑病毒锤头状核酶的序列，或与其具有至少85％、90％、95％、96％、97％、98％、或99％同一性的核酸序列。

173.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶包含丁型肝炎病毒(HDV)核酶的序列，或与其具有至少85％、90％、95％、96％、97％、98％、或99％的核酸序列。

174.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶被在靶细胞或靶组织中表达的部分激活。

175.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶被在靶亚细胞区室(例如，细胞核、核仁、细胞质或线粒体)中表达的部分激活。

176.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该核酶包含在环状RNA或线性RNA中。

177.一种系统，其包含编码Gene Writing系统的多肽的第一环状RNA；以及

包含基因Gene Writing系统的模板RNA的第二环状RNA。

178.如前述实施例中任一项所述的系统，其中编码(a)的多肽的核酸包含经密码子优化以在人细胞中表达的编码序列。

179.如前述实施例中任一项所述的系统，其中该模板RNA包含经密码子优化以在人细胞中表达的编码序列。

180.一种脂质纳米颗粒(LNP)，其包含如任一前述实施例所述的系统，模板RNA，多肽(或编码其的RNA)，或编码该系统、模板RNA或多肽的DNA。

181.一种系统，其包含第一脂质纳米颗粒，该第一脂质纳米颗粒包含GeneWriting系统(例如，如本文所述)的多肽(或编码其的DNA或RNA)；以及

第二脂质纳米颗粒，该第二脂质纳米颗粒包含Gene Writing系统(例如，如本文所述)的核酸分子。

182.如任一前述实施例所述的系统、试剂盒、多肽或反应混合物，其中该系统、核酸分子、多肽和/或编码其的DNA被配制为脂质纳米颗粒(LNP)。

183.如前述实施例中任一项所述的LNP，其包含阳离子脂质。

184.如前述实施例中任一项所述的LNP，其中该阳离子脂质具有以下结构：

185.如前述实施例中任一项所述的LNP，其进一步包含一种或多种中性脂质，例如DSPC、DPPC、DMPC、DOPC、POPC、DOPE、SM，类固醇，例如胆固醇，和/或一种或多种聚合物缀合的脂质，例如聚乙二醇化脂质，例如PEG-DAG、PEG-PE、PEG-S-DAG、PEG-cer或PEG二烷氧基丙基氨基甲酸酯。

186.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该系统、多肽和/或编码其的DNA被配制为脂质纳米颗粒(LNP)。

187.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒(或包含多个脂质纳米颗粒的配制品)缺乏反应性杂质(例如醛)，或包含低于预选水平的反应性杂质(例如醛)。

188.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒(或包含多个该脂质纳米颗粒的配制品)缺乏醛，或包含低于预选水平的醛。

189.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒包含在包含多个这些脂质纳米颗粒的配制品中。

190.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒配制品是使用一种或多种脂质试剂产生的，这些脂质试剂包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％、或0.1％总反应性杂质(例如，醛)含量。

191.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒配制品是使用一种或多种脂质试剂产生的，些脂质试剂包含小于3％总反应性杂质(例如，醛)含量。

192.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒配制品是使用一种或多种脂质试剂产生的，些脂质试剂包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％、或0.1％的任何单一反应性杂质(例如，醛)种类。

193.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒配制品使用一种或多种脂质试剂产生，该一种或多种脂质试剂包含小于0.3％的任何单一反应性杂质(例如醛)种类。

194.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒配制品使用一种或多种脂质试剂产生，该一种或多种脂质试剂包含小于0.1％的任何单一反应性杂质(例如醛)种类。

195.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒配制品包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％、或0.1％总反应性杂质(例如，醛)含量。

196.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒配制品包含小于3％的总反应性杂质(例如醛)含量。

197.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒配制品包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％、或0.1％的任何单一反应性杂质(例如，醛)种类。

198.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒配制品包含小于0.3％的任何单一反应性杂质(例如醛)种类。

199.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中该脂质纳米颗粒配制品包含小于0.1％的任何单一反应性杂质(例如醛)种类。

200.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中用于如本文所述的脂质纳米颗粒或其配制品的一种或多种或任选地所有脂质试剂包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％、或0.1％的总反应性杂质(例如醛)含量。

201.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中用于如本文所述的脂质纳米颗粒或其配制品的一种或多种或任选地所有脂质试剂包含小于3％的总反应性杂质(例如醛)含量。

202.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中用于如本文所述的脂质纳米颗粒或其配制品的一种或多种或任选地所有脂质试剂包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％、或0.1％的任何单一反应性杂质(例如醛)种类。

203.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中用于如本文所述的脂质纳米颗粒或其配制品的一种或多种或任选地所有脂质试剂包含小于0.3％的任何单一反应性杂质(例如醛)种类。

204.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中用于如本文所述的脂质纳米颗粒或其配制品的一种或多种或任选地所有脂质试剂包含小于0.1％的任何单一反应性杂质(例如醛)种类。

205.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中总醛含量和/或任何单一反应性杂质(例如醛)种类的量通过液相色谱法(LC)，例如与串联质谱法(MS/MS)联用，例如根据实例26中所述的方法来测定。

206.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中总醛含量和/或反应性杂质(例如醛)种类的量通过检测与例如脂质试剂中反应性杂质(例如醛)的存在相关的核酸分子(例如，如本文所述)的一个或多个化学修饰来测定。

207.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中总醛含量和/或醛种类的量通过检测与例如这些脂质试剂中反应性杂质(例如醛)的存在相关的核苷酸或核苷(例如，核糖核苷酸或核糖核苷，例如包含在核酸分子中或从核酸分子分离，例如，如本文所述)的一个或多个化学修饰来测定，例如，如实例41中所述。

208.如前述实施例中任一项所述的系统、试剂盒、多肽或反应混合物，其中核酸分子、核苷酸或核苷的化学修饰通过测定一个或多个修饰的核苷酸或核苷的存在来检测，例如使用LC-MS/MS分析，例如，如实例41中所述。

209.一种脂质纳米颗粒(LNP)，其包含如任一前述实施例所述的系统、多肽(或编码其的RNA)、核酸分子、或编码该系统或多肽的DNA。

210.一种系统，其包含第一脂质纳米颗粒，该第一脂质纳米颗粒包含GeneWriting系统(例如，如本文所述)的多肽(或编码其的DNA或RNA)；以及

211.如任一前述实施例所述的系统、试剂盒、多肽或反应混合物，其中该系统、核酸分子、多肽和/或编码其的DNA被配制为脂质纳米颗粒(LNP)。

212.一种系统，其包含：

第一脂质纳米颗粒，其包含如任一前述实施例所述的系统或多肽的多肽(或编码其的DNA或RNA)；以及

第二脂质纳米颗粒，其包含如任一前述实施例所述的系统或模板RNA的模板RNA(或编码其的DNA)。

213.一种病毒、病毒样颗粒、融合体或病毒体，其包含如任一前述实施例所述的系统，模板RNA，多肽(或编码其的RNA)，或编码该系统、模板RNA或多肽的DNA。

214.一种系统，其包含：

第一病毒、病毒样颗粒、融合体或病毒体，其包含如任一前述实施例所述的系统或多肽的多肽(或编码其的DNA或RNA)；以及

第二病毒、病毒样颗粒或病毒体，其包含如任一前述实施例所述的系统或模板RNA的模板RNA(或编码其的DNA)。

215.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中存在的该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％的长度大于100、125、150、175或200个核苷酸，或长度至少0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10千碱基(并且任选地长度小于15、10、5或20千碱基，或长度小于500、400、300或200个核苷酸)。

216.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中存在的该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％含有聚A尾(例如，长度是至少5、10、20、30、40、50、60、70、80、90或100个核苷酸的聚A尾)。

217.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中存在的该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％包含：

5’帽，例如：7-甲基鸟苷帽(例如，O-Me-m7G帽)；超甲基化帽类似物；NAD+衍生的帽类似物(例如，如Kiledjian,Trends in Cell Biology[细胞生物学趋势]28,454-464(2018)中所述)；或经修饰的，例如生物素化的帽类似物(例如，Bednarek等人,Phil TransR Soc B[伦敦皇家学会哲学汇刊b辑-生物科学]373,20180167(2018))中所述)，和/或

选自以下中的一项或多项的3'特征：聚A尾；16个核苷酸长的茎环结构，其两侧为未配对的5个核苷酸(例如，Mannironi等人,Nucleic Acid Research[核酸研究]17,9113-9126(1989)中所述)；三螺旋结构(例如，Brown等人，PNAS[美国国家科学院院报]109,19202-19207(2012)所述)；tRNA、Y RNA或穹窿RNA结构(例如，如Labno等人，Biochemica etBiophysica Acta[生物化学和生物物理学报]1863,3125-3147(2016)所述)；掺入一个或多个脱氧核糖核苷酸三磷酸(dNTP)、2'O-甲基化NTP或硫代磷酸酯-NTP；单核苷酸化学修饰(例如，将3'末端核糖氧化为反应性醛，然后缀合醛反应性修饰的核苷酸)；或化学连接到另一个核酸分子。

218.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该模板RNA包含一个或多个经修饰的核苷酸，例如选自二氢尿苷、肌苷、7-甲基鸟苷、5-甲基胞苷(5mC)、5'磷酸核糖胸核苷、2'-O-甲基核糖胸核苷、2'-O-乙基核糖胸核苷、2'-氟核糖胸核苷、C-5丙炔基-脱氧胞苷(pdC)、C-5丙炔基-脱氧尿苷(pdU)、C-5丙炔基-胞苷(pC)、C-5丙炔基-尿苷(pU)、5-甲基胞苷、5-甲基尿苷、5-甲基脱氧胞苷、5-甲基脱氧尿苷甲氧基、2,6-二氨基嘌呤、5'-二甲氧基三苯甲基-N4-乙基-2'-脱氧胞苷、C-5丙炔基-f-胞苷(pfC)、C-5丙炔基-f-尿苷(pfU)、5-甲基f-胞苷、5-甲基f-尿苷、C-5丙炔基-m-胞苷(pmC)、C-5丙炔基-f-尿苷(pmU)、5-甲基m-胞苷、5-甲基m-尿苷、LNA(锁核酸)、MGB(小沟结合剂)假尿苷(Ψ)、1-N-甲基假尿苷(1-Me-Ψ)、或5-甲氧基尿苷(5-MO-U)。

219.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中存在的该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％包含一个或多个经修饰的核苷酸。

220.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中在稳定性测试后该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％保持完整(例如，长度大于100、125、150、175或200个核苷酸，或长度至少0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10千碱基)。

221.如前述实施例中任一项所述的系统、试剂盒或反应混合物，其中至少1％的靶位点在测定系统的效力后被修饰。

222.如前述实施例中任一项所述的系统、试剂盒、模板RNA、多肽或反应混合物，其中该系统、多肽、模板RNA和/或编码其的DNA被配制为脂质纳米颗粒(LNP)。

223.如前述实施例中任一项所述的系统、试剂盒、模板RNA、多肽或反应混合物，其中编码该系统、多肽和/或模板RNA的DNA被包装到病毒、病毒样颗粒、病毒体、脂质体、囊泡、外泌体或LNP中。

224如前述实施例中任一项所述的系统、试剂盒、模板RNA、多肽或反应混合物，其中编码该系统、模板RNA或多肽的DNA被包装到腺相关病毒(AAV)中。

225.如前述实施例中任一项所述的系统、试剂盒、模板RNA、多肽或反应混合物，其中该系统、模板RNA、多肽、脂质纳米颗粒(LNP)、病毒、病毒样颗粒或病毒体不含或基本上不含热原、病毒、真菌、细菌病原体和/或宿主细胞蛋白质污染。

226.一种病毒、病毒样颗粒或病毒体，其包含：

如前述实施例中任一项所述的系统、模板RNA或多肽，或编码它们中任一个的DNA，和

腺相关病毒(AAV)衣壳蛋白。

227.如前述实施例中任一项所述的系统、试剂盒、模板RNA、多肽、病毒、病毒样颗粒或病毒体，其中该系统、模板RNA和/或多肽在靶组织中具有活性并且在非靶组织中活性较低(例如，无活性)。

228.如前述实施例中任一项所述的系统、试剂盒、模板RNA、多肽、病毒、病毒样颗粒或病毒体，其进一步包含对该靶组织特异的一个或多个第一组织特异性表达控制序列，其中对该靶组织特异性的该一个或多个第一组织特异性表达控制序列与该模板RNA、该多肽或编码其的核酸或两者可操作地相关联。

229.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该核酸内切酶结构域，例如切口酶结构域，对该靶位点DNA的第一链进行切口并且在与该第一链相距一定距离的位点处对该第二链进行切口。

230.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中这些切口以向外的取向产生。

231.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中这些切口以向外的取向产生。

232.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，

其中结合靶位点的序列指定对该第一链的切口的位置，

其中该系统进一步包含另外的核酸，该核酸包含结合距该靶位点一定距离的位点的序列，并且其中结合距该靶位点一定距离的位点的序列指定对该第二链的切口的位置。

233.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该另外的核酸进一步包含结合该多肽(例如，结合该核酸内切酶结构域和/或DBD)的序列，例如，其中该另外的核酸包含gRNA。

234.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合距该靶位点一定距离的位点(例如，结合靶基因组中位点的第一链)的序列的长度是至少15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120或130个核苷酸(并且任选地长度不超过150、140、130、120、110、100、90、80、70、60、50、40、30、29、28、27、26、25、24、23、22、21或20个核苷酸)，例如长度是17、18、19、20、21、22、23或24个核苷酸。

235.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合距该靶位点一定距离的位点的序列与该靶位点的该第一链互补，或相对于该靶位点的该第一链包含不超过1、2个、3、4或5个错配。

236.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该DBD和/或核酸内切酶结构域包含CRISPR/Cas结构域。

237.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该CRISPR/Cas结构域和该模板RNA结合该靶位点，并且其中该靶位点的该第一链包含第一PAM位点。

238.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该CRISPR/Cas结构域和该另外的核酸结合到距该靶位点一定距离的位点，并且其中距该靶位点一定距离的位点的第二链包含第二PAM位点。

239.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第一PAM位点和第二PAM位点位于该第一链的该切口的位置和该第二链的该切口的位置之间。

240.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第一链的该切口的位置和该第二链的该切口的位置位于该第一PAM位点和该第二PAM位点之间。

241.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其进一步包含另外的多肽，该另外的多肽包含另外的DNA结合结构域(DBD)和另外的核酸内切酶结构域，例如另外的切口酶结构域。

242.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该另外的核酸内切酶结构域，例如该另外的切口酶结构域，包含本文所述的核酸内切酶或切口酶结构域，例如CRISPR/Cas结构域、IIs型核酸酶(例如，FokI)、霍利迪连接解离酶、大范围核酸酶或包含消除其对一条链进行切口的能力的改变(例如，将该双链DNA核酸酶转化为切口酶)的双链DNA核酸酶。

243.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该另外的DBD结合距该靶位点一定距离的位点。

244.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中(a)或(b)的核酸内切酶结构域对该第一链进行切口并且该另外的核酸内切酶结构域(例如另外的切口酶结构域)对该第二链进行切口。

245.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中这些切口以向外的取向产生。

246.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中这些切口以向内的取向产生。

247.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该DBD和任选的该模板RNA(例如，结合该多肽的序列)指定该第一链的该切口的位置，并且该另外的DBD指定该第二链的该切口的位置。

248.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该多肽(例如，DBD)包含TAL效应子分子。

249.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该多肽(例如，DBD)包含锌指分子。

250.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该多肽(例如，DBD)包含CRISPR/Cas结构域。

251.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该另外的多肽(例如该另外的DBD)包含TAL效应子分子。

252.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该另外的多肽(例如该另外的DBD)包含锌指分子。

253.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该另外的多肽(例如，该另外的DBD)包含CRISPR/Cas结构域。

254.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该多肽和该另外的多肽结合至该靶DNA上位于该第一链的该切口的位置和该第二链的该切口的位置之间的位点。

255.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第一链的该切口的位置和该第二链的该切口的位置在该多肽和该另外的多肽与该靶DNA结合的位点之间。

256.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中在该靶DNA上，该第二链的该切口的位置相对于该第一链的该切口的位置位于该多肽和另外的多肽的结合位点的相对侧。

257.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中在该靶DNA上，该第二链的该切口的位置相对于该第一链的该切口的位置位于该多肽和另外的多肽的结合位点的同一侧。

258.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该多肽的CRISPR/Cas结构域和该模板RNA结合该靶位点，并且其中该靶位点的该第一链包含第一位点。

259.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该PAM位点和距该靶位点一定距离的位点位于该第一链的该切口的位置和该第二链的该切口的位置之间。

260.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第一链的该切口的位置和该第二链的该切口的位置位于该PAM位点和距该靶位点一定距离的位点之间。

261.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其进一步包含另外的核酸(例如，gRNA)，该核酸包含结合距该靶位点一定距离的位点的序列，并且其中结合距该靶位点一定距离的位点的序列指定对该第二链的切口的位置。

262.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该另外核酸进一步包含结合该另外的多肽(例如，CRISPR/Cas结构域)的序列，例如，其中该另外核酸包含gRNA。

263.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合距该靶位点一定距离的位点(例如，结合靶基因组中位点的第一链)的序列的长度是至少15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120或130个核苷酸(并且任选地长度不超过150、140、130、120、110、100、90、80、70、60、50、40、30、29、28、27、26、25、24、23、22、21或20个核苷酸)，例如长度是17、18、19、20、21、22、23或24个核苷酸。

264.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中结合距该靶位点一定距离的位点的序列与该靶位点的该第一链互补，或相对于该靶位点的该第一链包含不超过1、2个、3、4或5个错配。

265.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中距该靶位点一定距离的位点包含PAM位点。

266.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该PAM位点和该靶位点位于该第一链的该切口的位置和该第二链的该切口的位置之间。

267.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第二链的该切口(例如，相对于该第一链的该切口)的位置使得通过RT结构域进行的DNA聚合朝着该第二链的该切口的位置行进。

268.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第二链的该切口(例如，相对于该第一链的该切口)的位置使得通过RT结构域进行的DNA聚合远离该第二链的该切口的位置行进。

269.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第一切口和该第二切口分开至少20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190或200个核苷酸。

270.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第一切口和该第二切口分开不超过25、30、35、40、45、50、55、60、65、70，75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200或250个核苷酸。

271.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第一切口和该第二切口分开20-200、30-200、40-200、50-200、60-200、70-200、80-200、90-200、100-200、110-200、120-200、130-200、140-200、150-200、160-200、170-200、180-200、190-200、20-190、30-190、40-190、50-190、60-190、70-190、80-190、90-190、100-190、110-190、120-190、130-190、140-190、150-190、160-190、170-190、180-190、20-180、30-180、40-180、50-180、60-180、70-180、80-180、90-180、100-180、110-180、120-180、130-180、140-180、150-180、160-180、170-180、20-170、30-170、40-170、50-170、60-170、70-170、80-170、90-170、100-170、110-170、120-170、130-170、140-170、150-170、160-170、20-160、30-160、40-160、50-160、60-160、70-160、80-160、90-160、100-160、110-160、120-160、130-160、140-160、150-160、20-150、30-150、40-150、50-150、60-150、70-150、80-150、90-150、100-150、110-150、120-150、130-150、140-150、20-140、30-140、40-140、50-140、60-140、70-140、80-140、90-140、100-140、110-140、120-140、130-140、20-130、30-130、40-130、50-130、60-130、70-130、80-130、90-130、100-130、110-130、120-130、20-120、30-120、40-120、50-120、60-120、70-120、80-120、90-120、100-120、110-120、20-110、30-110、40-110、50-110、60-110、70-110、80-110、90-110、100-110、20-100、30-100、40-100、50-100、60-100、70-100、80-100、90-100、20-90、30-90、40-90、50-90、60-90、70-90、80-90、20-80、30-80、40-80、50-80、60-80、70-80、20-70、30-70、40-70、50-70、60-70、20-60、30-60、40-60、50-60、20-50、30-50、40-50、20-40、30-40或20-30个核苷酸。

272.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中PAM位点、靶位点或距该靶位点一定距离的位点中的一个或多个不位于该第一链切口的位置和该第二链切口的位置之间)产生更少的双链断裂(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)。

273.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中该多肽和该另外的多肽与该靶DNA上不在该第一链的该切口的位置和该第二链的该切口的位置之间的位点结合)产生更少的双链断裂(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)。

274.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中，在该靶DNA上，该第二链的该切口的位置和该第一链的该切口的位置位于该多肽和另外的多肽的结合位点之间)产生更少的双链断裂(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)。

275.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中该第二链的该切口(例如，相对于该第一链的该切口)的位置使得该RT结构域启动远离该第二链的该切口的位置的逆转录)产生更少的双链断裂(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)。

276.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中PAM位点、靶位点或距该靶位点一定距离的位点中的一个或多个不位于该第一链切口的位置和该第二链切口的位置之间)产生更少的不是由该异源对象序列编码的缺失(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

277.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中该多肽和该另外的多肽与该靶DNA上不在该第一链的该切口的位置和该第二链的该切口的位置之间的位点结合)产生更少的缺失(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

278.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中，在该靶DNA上，该第二链的该切口的位置和该第一链的该切口的位置位于该多肽和另外的多肽的结合位点之间)产生更少的不是由该异源对象序列编码的缺失(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

279.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中该第二链的该切口(例如，相对于该第一链的该切口)的位置使得该RT结构域启动远离该第二链的该切口的位置的逆转录)产生更少的不是由该异源对象序列编码的缺失(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

280.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中PAM位点、靶位点或距该靶位点一定距离的位点中的一个或多个不位于该第一链切口的位置和该第二链切口的位置之间)产生更少的不是由该异源对象序列编码的插入(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

281.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中该多肽和该另外的多肽与该靶DNA上不在该第一链的该切口的位置和该第二链的该切口的位置之间的位点结合)产生更少的不是由该异源对象序列编码的插入(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

282.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中，在该靶DNA上，该第二链的该切口的位置和该第一链的该切口的位置位于该多肽和另外的多肽的结合位点之间)产生更少的不是由该异源对象序列编码的插入(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

283.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中该第二链的该切口(例如，相对于该第一链的该切口)的位置使得该RT结构域启动远离该第二链的该切口的位置的逆转录)产生更少的不是由该异源对象序列编码的插入(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

284.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中PAM位点、靶位点或距该靶位点一定距离的位点中的一个或多个不位于该第一链切口的位置和该第二链切口的位置之间)产生更期望的Gene Writing修饰(例如，多至少500％、400％、300％、200％、100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

285.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中该多肽和该另外的多肽与该靶DNA上不在该第一链的该切口的位置和该第二链的该切口的位置之间的位点结合)产生更期望的基因写入修饰(例如，至少多500％、400％、300％、200％、100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

286.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中，在该靶DNA上，该第二链的该切口的位置和该第一链的该切口的位置位于该多肽和另外的多肽的结合位点之间)产生更期望的Gene Writin修饰(例如，至少多500％、400％、300％、200％、100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

287.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中该第二链的该切口(例如，相对于该第一链的该切口)的位置使得该RT结构域启动远离该第二链的该切口的位置的逆转录)产生更期望的Gene Writing修饰(例如，至少多500％、400％、300％、200％、100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

288.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第一切口和该第二切口分开至少100、110、120、130、140、150、160、170、180、190、200、220、240、260、280、300、350、400、450或500个核苷酸，例如至少100个核苷酸，(并且任选地不超过500、400、300、200、190、180、170，160、150、140、130或120个核苷酸)。

289.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该第一切口和该第二切口分开100-200、110-200、120-200、130-200、140-200、150-200、160-200、170-200、180-200、190-200、100-190、110-190、120-190、130-190、140-190、150-190、160-190、170-190、180-190、100-180、110-180、120-180、130-180、140-180、150-180、160-180、170-180、100-170、110-170、120-170、130-170、140-170、150-170、160-170、100-160、110-160、120-160、130-160、140-160、150-160、100-150、110-150、120-150、130-150、140-150、100-140、110-140、120-140、130-140、100-130、110-130、120-130、100-120、110-120或100-110个核苷酸。

290.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中该第二链的切口的位置与该第一链的切口的位置相距小于100个核苷酸(并且任选地至少相距20、30、40、50、60、70、80或90个核苷酸))产生更少的不是由该异源对象序列编码的插入(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

291.如前述实施例中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中当修饰DNA时，该系统比在其他方面相似的系统(其中该第二链的切口的位置与该第一链的切口的位置相距小于100个核苷酸(并且任选地至少相距20、30、40、50、60、70、80或90个核苷酸))产生更少的不是由该异源对象序列编码的缺失(例如，至少少100％、90％、80％、70％、60％、50％、40％、30％、20％、10％、9％、8％、7％、6％、5％、4％、3％、2％或1％)，例如通过PacBio长读段测序来测量，例如如实例29中所述。

292.任何以上编号的系统，其不包含DNA或按质量或摩尔量计不包含超过10％、5％、4％、3％、2％或1％的DNA。

293.一种制备用于修饰DNA(例如，如本文所述)的系统的方法，该方法包括：

(a)提供包含异源同源序列的模板核酸(例如，模板RNA或DNA)，该异源同源序列与靶DNA分子中包含的序列具有至少85％、90％、95％、96％、97％、98％、99％、或100％同源性，和/或

(b)提供该系统的多肽(例如，包含DNA结合结构域(DBD)和/或核酸内切酶结构域)，其包含与该靶DNA分子中包含的序列特异性结合的异源靶向结构域。

294.如前述实施例中任一项所述的方法，其中：

(a)包括将异源同源序列引入该模板核酸(例如，模板RNA或DNA)，该异源同源序列与靶DNA分子中包含的序列具有至少85％、90％、95％、96％、97％、98％、99％、或100％同源性，和/或

(b)包括向该系统的该多肽(例如，包含DNA结合结构域(DBD)和/或核酸内切酶结构域)中引入与该靶DNA分子中包含的序列特异性结合的异源靶向结构域。

295.如前述实施例中任一项所述的方法，其中(a)的引入包括将该同源序列插入该模板核酸中。

296.如前述实施例中任一项所述的方法，其中(a)的引入包括用该同源序列替换该模板核酸的区段。

297.如前述实施例中任一项所述的方法，其中(a)的引入包括突变该模板核酸的一个或多个核苷酸(例如，至少2、3、4、5、10、15、20、25、30、35、40、50、60、70、80、90或100个核苷酸)，从而产生该模板核酸的具有该同源序列的序列的区段。

298.如前述实施例中任一项所述的方法，其中(b)的引入包括将该靶向结构域的氨基酸序列插入该多肽的氨基酸序列中。

299.如前述实施例中任一项所述的方法，其中(b)的引入包括将编码该靶向结构域的核酸序列插入该多肽的包含在核酸分子中的编码序列中。

300.如前述实施例中任一项所述的方法，其中(b)的引入包括用该靶向结构域替换该多肽的至少一部分。

301.如前述实施例中任一项所述的方法，其中(a)的引入包括突变该多肽的一个或多个氨基酸(例如，至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、60、70、80、90、100、150、200、250、300、400、500，或更多个氨基酸)。

302.一种用于修饰细胞中基因组DNA中的靶位点的方法，该方法包括使该细胞与以下接触：

(b)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5'到3')(i)任选地，结合该靶位点(例如靶基因组中位点的第二链)的序列，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3'靶同源结构域，

其中：

(i)该多肽包含异源靶向结构域(例如，在该DBD或该核酸内切酶结构域中)，其特异性结合包含在该基因组DNA的靶位点中或附近的序列；和/或

(ii)该模板RNA包含异源同源序列，该异源同源序列与包含在该基因组DNA的靶位点中或邻近该靶位点的序列具有至少85％、90％、95％、96％、97％、98％、99％、或100％同源性；

从而修饰细胞中基因组DNA中的靶位点。

303.一种模板RNA的制备方法，该方法包括：

(a)提供如任一前述实施例所述的模板RNA，和

(b)测定以下中的一项或多项：

(i)模板RNA的长度，例如，模板RNA的长度是否大于参考长度或在参考长度范围内，例如是否存在的模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％的长度大于100、125、150、175或200个核苷酸；

(ii)该模板RNA上聚A尾的存在、不存在和/或长度，例如，是否存在的模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％含有聚A尾(例如，长度为至少5、10、20或30个核苷酸的聚A尾)；

(iii)模板RNA上5’帽的存在、不存在和/或类型，例如，是否存在的模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％含有5’帽，例如，该帽是否是7-甲基鸟苷帽，例如O-Me-m7G帽；

(iv)该模板RNA中一个或多个经修饰的核苷酸(例如，选自二氢尿苷、肌苷、7-甲基鸟苷、5-甲基胞苷(5mC)、5'磷酸核糖胸核苷、2'-O-甲基核糖胸核苷、2'-O-乙基核糖胸核苷、2'-氟核糖胸核苷、C-5丙炔基-脱氧胞苷(pdC)、C-5丙炔基-脱氧尿苷(pdU)、C-5丙炔基-胞苷(pC)、C-5丙炔基-尿苷(pU)、5-甲基胞苷、5-甲基尿苷、5-甲基脱氧胞苷、5-甲基脱氧尿苷甲氧基、2,6-二氨基嘌呤、5'-二甲氧基三苯甲基-N4-乙基-2'-脱氧胞苷、C-5丙炔基-f-胞苷(pfC)、C-5丙炔基-f-尿苷(pfU)、5-甲基f-胞苷、5-甲基f-尿苷、C-5丙炔基-m-胞苷(pmC)、C-5丙炔基-f-尿苷(pmU)、5-甲基m-胞苷、5-甲基m-尿苷、LNA(锁核酸)、MGB(小沟结合剂)假尿苷(Ψ)、1-N-甲基假尿苷(1-Me-Ψ)、或5-甲氧基尿苷(5-MO-U))的存在、不存在和/或类型，例如是否存在的该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％含有一个或多个经修饰的核苷酸；

(v)模板RNA的稳定性(例如，随着时间的推移和/或在预先选择的条件下)，例如是否至少80％、85％、90％、95％、96％、97％、98％或99％的模板RNA在稳定性测试后保持完整(例如，长度大于100、125、150、175或200个核苷酸)；

(vi)该模板RNA在用于修饰DNA的系统中的效力，例如，在测定包含该模板RNA的系统的效力之后，是否至少1％的靶位点被修饰；或

(vii)热原、病毒、真菌、细菌病原体或宿主细胞蛋白中的一种或多种的存在、不存在、和/或水平，例如，该模板RNA是否不含或基本上不含热原、病毒、真菌、细菌病原体或宿主细胞蛋白污染。

304.一种制造用于修饰DNA的系统的方法，该方法包括：

(a)提供用于修饰如任一前述实施例所述的DNA的系统，以及

(b)测定以下中的一项或多项：

(iv)该模板RNA中一个或多个经修饰核苷酸(例如，选自假尿苷、二氢尿苷、肌苷、7-甲基鸟苷、1-N-甲基假尿苷(1-Me-Ψ)、5-甲氧基尿苷(5-MO-U)、5-甲基胞苷(5mC)或锁核苷酸)的存在、不存在和/或类型，例如，是否存在的模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％含有一个或多个经修饰核苷酸；

(vi)该模板RNA在用于修饰DNA的系统中的效力，例如，在测定包含该模板RNA的系统的效力之后，是否至少1％的靶位点被修饰；

(vii)多肽、第一多肽或第二多肽的长度，例如，该多肽、第一多肽或第二多肽的长度是否超出参考长度或在参考长度范围内，例如是否存在的至少80％、85％、90％、95％、96％、97％、98％、或99％的多肽、第一多肽或第二多肽的长度大于600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1600、1700、1800、1900、或2000个氨基酸(并且任选地，长度不超过2500、2000、1500、1400、1300、1200、1100、1000、900、800、700、或600个氨基酸)；

(viii)多肽、第一多肽或第二多肽上翻译后修饰的存在、不存在和/或类型，例如是否至少80％、85％、90％、95％、96％、97％、98％、或99％的多肽、第一多肽或第二多肽含有磷酸化、甲基化、乙酰化、肉豆蔻酰化、棕榈酰化、异戊二烯化、glipyatyon或脂酰化；

(ix)多肽、第一多肽或第二多肽中一种或多种人工、合成或非典型氨基酸(例如，选自鸟氨酸、β-丙氨酸、GABA、δ-氨基乙酰丙酸、PABA、D-氨基酸(例如，D-丙氨酸或D-谷氨酸)、氨基异丁酸、脱氢丙氨酸、胱硫醚、羊毛硫氨酸、甲烯胱氨酸、二氨基庚二酸、高丙氨酸、正缬氨酸、正亮氨酸、高正亮氨酸(Homonorleucine)、高丝氨酸、O-甲基-高丝氨酸和O-乙基-高丝氨酸、乙硫氨酸、硒代半胱氨酸、硒代高半胱氨酸、硒代甲硫氨酸、硒代乙硫氨酸、碲代半胱氨酸或碲代甲硫氨酸)的存在、不存在和/或类型，例如是否存在的至少80％、85％、90％、95％、96％、97％、98％、或99％的多肽、第一多肽或第二多肽含有一个或多个人工、合成或非典型氨基酸；

(x)多肽、第一多肽或第二多肽的稳定性(例如，随着时间的推移和/或在预选条件下)，例如是否至少80％、85％、90％、95％、96％、97％、98％、或99％的多肽、第一多肽或第二多肽在稳定性测试后保持完整(例如，长度大于600、650、700、750、800、850、900、950、1000、1050、1100、1150、1200、1250、1300、1350、1400、1450、1500、1600、1700、1800、1900、或2000个氨基酸(并且任选地，长度不超过2500、2000、1500、1400、1300、1200、1100、1000、900、800、700、或600个氨基酸))；

(xi)该多肽、第一多肽或第二多肽在用于修饰DNA的系统中的效力，例如在测定了包含该多肽、第一多肽或第二多肽的系统的效力之后是否至少1％的靶位点被修饰；或

(xii)热原、病毒、真菌、细菌病原体或宿主细胞蛋白中的一种或多种的存在、不存在、和/或水平，例如，系统是否不含或基本上不含热原、病毒、真菌、细菌病原体或宿主细胞蛋白污染。

305.一种用于修饰细胞中基因组DNA中的靶位点的方法，该方法包括：

使该细胞与以下接触：

从而修饰细胞中基因组DNA中的靶位点。

306.一种用于修饰细胞中基因组DNA中的靶位点的方法，该方法包括：

使该细胞与如任一前述实施例所述的系统、多肽、模板RNA或编码其的DNA接触，

从而修饰细胞中基因组DNA中的靶位点。

307.如前述实施例中任一项所述的方法，其中通过电穿孔例如核转染将系统、多肽、模板RNA或DNA递送至该靶位点。

308.如前述实施例中任一项所述的方法，其不包括使该细胞与例如DNA接触，或其包括使该细胞与不包含按质量或按摩尔量计超过10％、5％、4％、3％、2％或1％DNA的组合物接触。

309.如前述实施例中任一项所述的方法，其不包括使该细胞与例如蛋白质接触，或其包括使该细胞与不包含按质量或按摩尔量计超过10％、5％、4％、3％、2％或1％蛋白质的组合物接触。

310.如前述实施例中任一项所述的方法，其包括使靶细胞或靶细胞群与至少两种模板RNA和/或至少两种GeneWriter多肽接触，使得至少两个靶位点(第一靶位点和第二靶位点)在靶细胞中被修改。

311.如前述实施例中任一项所述的方法，其中该第一靶位点和该第二靶位点各自以细胞群中位点拷贝的至少5％、10％或15％的频率被独立地编辑。

312.如前述实施例中任一项所述的方法，其中该第一靶位点和该第二靶位点各自以与在其他方面相似的仅靶向这些靶位点之一的系统接触的在其他方面相似的细胞群中获得的编辑水平的至少50％、60％、70％或80％的频率被独立地编辑。

313.如前述实施例中任一项所述的方法，其中与在其他方面相似的仅靶向这些靶位点之一的系统接触的在其他方面相似的细胞群中获得的不想要的插入缺失相比，所得细胞群包含不超过5％、10％或20％的不想要的插入缺失。

314.如前述实施例中任一项所述的方法，其中所述细胞是原代细胞。

315.如前述实施例中任一项所述的方法，其中该细胞是T细胞。

316.一种用于修饰细胞中基因组DNA中的靶位点的方法，该方法包括：

使该细胞接触，例如，通过核转染或脂质颗粒递送，与以下接触：

从而修饰细胞中基因组DNA中的靶位点，

其中该细胞是整倍体，不是永生化的，是组织的一部分，是生物体的一部分，是原代细胞，是非分裂的，是单倍体(例如，生殖系细胞)，是非癌性多倍体细胞，或来自患有遗传疾病的受试者。

317.如前述实施例中任一项所述的方法，其中该模板RNA包含(i)。

318.如前述实施例中任一项所述的方法，其中该模板RNA包含(ii)。

319.如前述实施例中任一项所述的方法，其中该模板RNA包含(i)和(ii)。

320.一种治疗患有与遗传缺陷相关的疾病或病症的受试者的方法，该方法包括：

向该受试者施用：

从而治疗患有与遗传缺陷相关的疾病或病症的受试者。

321.如前述实施例中任一项所述的方法，其中该模板RNA包含(i)。

322.如前述实施例中任一项所述的方法，其中该模板RNA包含(ii)。

323.如前述实施例中任一项所述的方法，其中该模板RNA包含(i)和(ii)。

324.一种治疗患有与遗传缺陷相关的疾病或病症的受试者的方法，该方法包括：

向该受试者施用如任一前述实施例所述的系统、多肽、模板RNA或编码其的DNA，

从而治疗患有与遗传缺陷相关的疾病或病症的受试者。

325.如前述实施例中任一项所述的方法，其中与遗传缺陷相关的疾病或病症是表9-12中任一个中所列的适应症，和/或其中该遗传缺陷是表9-12中任一个中所列的基因的缺陷。

326.如前述实施例中任一项所述的方法，其中该受试者是人患者。

定义

结构域：如本文所用，术语“结构域”是指有助于生物分子的特定功能的生物分子的结构。结构域可以包含生物分子的连续区域(例如，连续序列)或不同的非连续区域(例如，非连续序列)。蛋白质结构域的实例包括但不限于核酸内切酶结构域、DNA结合结构域、逆转录结构域；核酸的结构域的实例是调节结构域，例如转录因子结合结构域。

外源的：如本文所用，术语外源的，当相对于生物分子(例如核酸序列或多肽)使用时，意指通过人工将生物分子引入宿主基因组、细胞或生物中。例如，使用重组DNA技术或其他方法添加到现有基因组、细胞、组织或受试者中的核酸对于现有核酸序列、细胞、组织或受试者而言是外源的。

第一/第二链：如本文所用，用于描述靶DNA的单个DNA链的第一链和第二链基于逆转录酶结构域启动聚合的链来区分两条DNA链，例如，基于靶引发的合成启动的地方。第一链是指靶DNA的链，逆转录酶结构域在该链上启动聚合，例如，在靶引发的合成启动的地方。第二链是指靶DNA的另一条链。第一和第二链名称在其他方面没有描述靶位点DNA链；例如，在一些实施例中，第一链和第二链被本文所述的多肽切口，但“第一”和“第二”链的名称与此类切口发生的顺序无关。

基因组安全港位点(GSH位点)：基因组安全港位点是宿主基因组中的位点，该位点能够容纳新遗传材料的整合，例如，使得插入的遗传元件不会引起宿主基因组的显著改变对宿主细胞或生物构成风险。GSH位点通常满足以下标准中的1、2、3、4、5、6、7、8或9项：(i)距癌症相关基因>300kb；(ii)距miRNA/其他功能性小RNA>300kb；(iii)距5'基因末端>50kb；(iv)距复制起点>50kb；(v)距任何极保守元件>50kb；(vi)转录活性低(即无mRNA+/-25kb)；(vii)不在拷贝数可变区中；(viii)在开放染色质中；和/或(ix)是唯一的，在人基因组中有1个拷贝。满足一些或所有这些标准的人基因组中GSH位点的实例包括：(i)腺相关病毒位点1(AAVS1)，它是AAV病毒在19号染色体上整合的天然存在的位点；(ii)趋化因子(C-C基序)受体5(CCR5)基因，一种被称为HIV-1共同受体的趋化因子受体基因；(iii)小鼠Rosa26基因座的人直系同源物；(iv)rDNA基因座。另外的GSH位点是已知的，并且描述于例如Pellenz等人,2018年8月20日电子公开(https://doi.org/10.1101/396390)中。

异源的：当用于参考第二元件来描述第一元件时，术语异源的意指第一元件和第二元件在自然界中不以如所描述的布置存在。例如，异源多肽、核酸分子、构建体或序列是指(a)对于表达其的细胞而言不是天然的多肽、核酸分子或多肽或核酸分子序列的一部分，(b)相对于其天然状态已发生改变或突变的多肽或核酸分子或多肽或核酸分子的一部分，或(c)具有与在类似条件下的天然表达水平相比改变的表达的多肽或核酸分子。例如，异源调节序列(例如启动子、增强子)可以用于调节基因或核酸分子的表达，其方式不同于基因或核酸分子通常在自然界中表达的方式。在另一个实例中，多肽或核酸序列的异源结构域(例如，多肽的DNA结合结构域或编码多肽的DNA结合结构域的核酸)可以相对于其他结构域布置，或者可以是不同的序列或相对于多肽的其他结构域或部分或其编码核酸来自不同来源。在某些实施例中，异源核酸分子可以存在于天然宿主细胞基因组中，但是可以具有改变的表达水平或具有不同的序列或两者。在其他实施例中，异源核酸分子对于宿主细胞或宿主基因组可能不是内源的，而是通过转化(例如，转染、电穿孔)引入宿主细胞的，其中所添加的分子可以整合到宿主基因组中，或可以作为染色体外遗传材料短暂存在(例如，mRNA)或半稳定存在超过一代(例如，游离病毒载体、质粒或其他自我复制载体)。

反向末端重复：如本文所用，术语“反向末端重复”或“ITR”是指AAV病毒顺式元件，因其对称性而如此命名。这些元件促进AAV基因组的有效倍增。假设ITR功能的最小元件是Rep结合位点(RBS；5'-GCGCGCTCGCTCGCTC-3'(SEQ ID NO:1538)，对于AAV2)和末端解离位点(TRS；5'-AGTTGG-3'，对于AAV2)加上允许发夹形成的可变回文序列。根据本发明，ITR至少包含这三个元件(RBS、TRS和允许形成发夹的序列)。此外，在本发明中，术语“ITR”是指已知天然AAV血清型的ITR(例如血清型1、2、3、4、5、6、7、8、9、10或11AAV的ITR)、由源自不同血清型的ITR元件融合形成的嵌合ITR，及其功能变体。ITR的功能变体是指与已知ITR具有至少80％、85％、90％、优选至少95％序列同一性的序列，允许包含所述ITR的序列在Rep蛋白存在下倍增。

突变或突变的：当应用于核酸序列时，术语“突变的”意指与参考(例如天然)核酸序列相比，核酸序列中的核苷酸可以被插入、缺失或改变。可以在基因座处进行单个改变(点突变)，或者可以在单个基因座处插入、缺失或改变多个核苷酸。另外，可以在核酸序列内的任何数目的基因座处进行一个或多个改变。核酸序列可以通过本领域已知的任何方法进行突变。

核酸分子：核酸分子是指RNA和DNA分子两者，包括但不限于cDNA、基因组DNA和mRNA，并且还包括合成的核酸分子，例如化学合成或重组产生的核酸分子，例如如本文所述的RNA模板。核酸分子可以是双链或单链、环状或线性的。如果是单链，则核酸分子可以是有义链或反义链。除非另有说明，并且作为本文中以通用格式“SEQ.ID NO:”所述的所有序列的实例，“包含SEQ.ID NO:1的核酸”是指具有(i)SEQ.ID NO:1的序列或(ii)与SEQ.ID NO:1互补的序列的核酸、至少一部分。两者之间的选择取决于使用SEQ.ID NO:1的上下文。例如，如果将核酸用作探针，则两者之间的选择取决于探针与期望的靶互补的要求。如本领域技术人员将容易理解的，本披露的核酸序列可以被化学或生物化学修饰或可以含有非天然或衍生的核苷酸碱基。此类修饰包括例如标签，甲基化，用类似物取代一个或多个天然存在的核苷酸，核苷酸间修饰，例如不带电荷的连接(例如，甲基膦酸酯、磷酸三酯、氨基磷酸酯、氨基甲酸酯等)、带电荷的连接(例如，硫代磷酸酯、二硫代磷酸酯等)，侧链部分(例如，多肽)，嵌入剂(例如，吖啶、补骨脂素等)，螯合剂，烷基化剂和经修饰的连接(例如，α异头核酸等等)。还包括合成的分子，它们模拟多核苷酸经由氢键和其他化学相互作用与指定序列结合的能力。此类分子是本领域已知的，并且包括例如其中肽键替代分子主链中的磷酸键的那些。其他修饰可以包括，例如，其中核糖环含有桥接部分或其他结构(例如在“锁定”核酸中发现的修饰)的类似物。在各种实施例中，核酸与另外的遗传元件(例如一个或多个组织特异性表达控制序列(例如，组织特异性启动子和组织特异性微小RNA识别序列))以及另外的元件(例如反向重复序列(例如，反向末端重复序列，例如来自或源自病毒的元件，例如，AAVITR)和串联重复序列、反向重复序列/正向重复序列(例如，转座子反向重复序列，例如，也包含正向重复序列的转座子反向重复序列，例如，也包含正向重复序列的反向重复序列)、同源区(与靶DNA具有不同同源程度的区段)、UTR(5'、3'或5'和3'UTR))以及前述的各种组合可操作地关联。本发明提供的系统的核酸元件可以多种拓扑结构提供，包括单链、双链、环状、线性、具有开放末端的线性、具有封闭末端的线性，以及这些的特定形式，例如如doggybone DNA(dbDNA)，封闭末端DNA(ceDNA)。

基因表达单元：基因表达单元是核酸序列，其包含与至少一个效应子序列可操作地连接的至少一个调节核酸序列。当第一核酸序列被放置成与第二核酸序列有功能关系时，该第一核酸序列与该第二核酸序列可操作地连接。例如，如果启动子或增强子影响编码序列的转录或表达，则该启动子或增强子与该编码序列可操作地连接。可操作地连接的DNA序列可以是连续的或非连续的。在需要连接两个蛋白质编码区的情况下，可操作地连接的序列可以在同一阅读框中。

宿主：如本文所用，术语宿主基因组或宿主细胞是指已将蛋白质和/或遗传材料引入其中的细胞和/或其基因组。应当理解，此类术语不仅旨在指特定的受试者细胞和/或基因组，而且还指这种细胞的子代和/或这种细胞的子代的基因组。因为由于突变或环境影响，某些修饰可能在后代中发生，所以这种子代实际上可能与亲本细胞不同，但仍包括在本文所用的术语“宿主细胞”的范围内。宿主基因组或宿主细胞可以是在培养物中生长的分离的细胞或细胞系，或者是从这种细胞或细胞系分离的基因组材料，或者可以是构成活组织或生物的宿主细胞或宿主基因组。在一些情况下，宿主细胞可以是动物细胞或植物细胞，例如，如本文所述。在某些情况下，宿主细胞可以是牛细胞、马细胞、猪细胞、山羊细胞、绵羊细胞、鸡细胞或火鸡细胞。在某些情况下，宿主细胞可以是玉米细胞、大豆细胞、小麦细胞或水稻细胞。

可操作的关联:如本文所用，“可操作的关联”描述了两个核酸序列(例如1)启动子和2)异源对象序列)之间的功能关系，并且在这样的实例中意味着启动子和异源对象序列(例如目的基因)的取向使得在合适的条件下，启动子驱动异源对象序列的表达。例如，模板核酸可以是单链的，例如(+)或(-)取向，但启动子和异源对象序列之间的可操作的关联意味着模板核酸是否会在特定状态下转录，当它处于合适的状态时(例如，处于(+)取向，在存在所需的催化因子和NTP等的情况下)，它确实可以准确地转录。可操作的关联类似地适用于其他核酸对，包括其他组织特异性表达控制序列(例如增强子、阻遏物和微小RNA识别序列)、IR/DR、ITR、UTR或同源区和异源对象序列或编码转座酶的序列。

假结：如本文所用，“假结序列”序列是指具有带有合适的自身互补性以形成假结结构的序列的核酸(例如RNA)，例如具有：第一区段、第一区段和第三区段之间的第二区段，其中第三区段与第一区段互补，以及第四区段，其中第四区段与第二区段互补。假结可以任选地具有另外的二级结构，例如，布置在第二区段中的茎环，布置在第二区段和第三区段之间的茎环，在第一区段之前的序列或在第四区段之后的序列。假结可以在第一区段和第二区段之间，第二区段和第三区段之间或第三区段和第四区段之间具有另外的序列。在一些实施例中，所述区段的排列从5'到3'：第一、第二、第三和第四。在一些实施例中，第一和第三区段包含五个完全互补的碱基对。在一些实施例中，第二和第四区段包含10个碱基对，任选地具有一个或多个(例如，两个)凸起。在一些实施例中，第二区段包含一个或多个未配对的核苷酸，例如形成环。在一些实施例中，第三区段包含一个或多个未配对的核苷酸，例如形成环。

茎环序列：如本文所用，“茎环序列”是指具有足够的自身互补性以形成茎-环的核酸序列(例如，RNA序列)，例如，具有的茎包含至少两个(例如，3、4、5、6、7、8、9或10个)碱基对，以及具有的环具有至少三个(例如，四个)碱基对。茎可能包含不匹配或凸起。

一个或多个组织特异性表达控制序列：如本文所用，“组织特异性表达控制序列”是指在靶组织中以组织特异性方式例如相对于一个或多个脱靶组织优先在一个或多个中靶组织中增加或降低包含异源对象序列的转录本水平的核酸元件。在一些实施例中，组织特异性表达控制序列优先在靶组织中以组织特异性方式例如相对于一个或多个脱靶组织优先在一个或多个中靶组织中驱动或抑制包含异源对象序列的转录本的转录、活性或半衰期。示例性组织特异性表达控制序列包括组织特异性启动子、阻遏物、增强子或其组合，以及组织特异性微小RNA识别序列。组织特异性是指在中靶(期望或耐受模板核酸的表达或活性的一个或多个组织)和脱靶(不期望或不耐受模板核酸的表达或活性的一个或多个组织)。例如，相对于脱靶组织，组织特异性启动子(例如模板核酸中的或控制转座酶表达的启动子)优先驱动在靶组织中的表达。相反，相对于中靶组织，结合组织特异性微小RNA识别序列(在编码转座酶的核酸上或在模板核酸上，或两者)的微小RNA优先在脱靶组织中表达，从而减少脱靶组织中模板核酸(或转座酶)的表达。因此，关于组织中相关联序列的转录、活性或半衰期，对同一组织(例如靶组织)特异的启动子和微小RNA识别序列具有不同的功能(分别促进和抑制，具有一致的表达水平，即脱靶组织中的高水平微小RNA和中靶组织中的低水平，而启动子驱动中靶组织中的高表达和脱靶组织中的低表达)。

本专利或申请文件包含至少一个彩色附图。应请求并且支付必要的费用后，具有彩色附图的本专利或专利申请公开的副本将由专利局提供。

附图说明

图1是Gene Writing^TM基因组编辑系统的示意图。

图2是Gene Writer^TM基因组编辑多肽的结构示意图。

图3是示例性Gene Writer^TM模板RNA的结构示意图。

图4A和4B是显示使用源自多种来源的结构域时Gene Writer的配置实例的一系列图。如本文所述的Gene Writer可能包括或可能不包括所描述的所有结构域。例如，在一些情况下，GeneWrite可能缺少RNA结合结构域，或者可能具有实现多个结构域功能的单个结构域，例如用于DNA结合和核酸内切酶活性的Cas9结构域。可包括在GeneWriter多肽中的示例性结构域包括DNA结合结构域(例如，包含例如本文表的DNA结合结构域；锌指；TAL结构域；Cas9；dCas9；切口酶Cas9；转录因子或大范围核酸酶)、RNA结合结构域(例如，包含B-盒蛋白、MS2外壳蛋白、dCas或本文表的序列的元件的RNA结合结构域)、逆转录酶结构域(例如，包含本文表的序列的元件的逆转录酶结构域；其他逆转录转座酶(例如，如本文表中所列)；含有逆转录酶结构域(例如，如本文表中所列))和/或核酸内切酶结构域(例如，包含本文表的元件的核酸内切酶结构域)的肽；Cas9；切口酶Cas9；限制酶(例如，II型限制酶，例如FokI)；大范围核酸酶；霍利迪连接解离酶；RLE逆转录酶；APE逆转录转座酶；或GIY-YIG逆转录转座酶)的肽。包含此类结构域的示例性组合的示例性GeneWriter多肽显示在底部分图中。

图5是显示示例性GeneWriter RNA模板的模块的图。示例性模板的各个模块可以组合、重新排列和/或省略，例如，以产生Gene Writer模板。A＝5'同源臂；B＝核酶；C＝5'UTR；D＝异源对象序列；E＝3’UTR；F＝3'同源臂。

图6是列出示例性Gene Writer RNA模板的模块的图。单个模块可以组合、重新排列和/或省略，例如，以产生Gene Writer模板。A＝5'同源臂；B＝核酶；C＝5'UTR；D＝异源对象序列；E＝3’UTR；F＝3'同源臂。

图7A和7B是显示示例性第二链切口过程的图。(A)Cas9切口酶与Gene Writer蛋白融合。Gene Writer蛋白通过其EN结构域在DNA链中引入切口(显示为*)，融合的Cas9切口酶在顶部或底部DNA链上引入切口(显示为X)。(B)Gene Writer通过其DNA结合结构域靶向DNA，并在其EN结构域中引入DNA切口(*)。然后使用Cas9切口酶在顶部或底部链、EN的上游或下游产生第二切口(X)。

图8.R2Tg的DNA结合结构域的C末端的接头区域可以被截短和修饰。构建天然接头中从A或B处的myb结构域到位置1或2的缺失以及用3GS(SEQ ID NO:1024)或XTEN合成接头替换(A)。通过ddPCR在HEK293T细胞中测量整合效率(B)。

图9.设计用于测试R2Tg Gene Writer靶位点突变的着陆垫。

图10a.ddPCR测定测量每个细胞的来自所有慢病毒整合着陆垫的整合百分比。

图10b.存在于着陆垫位点的插入缺失的扩增子测序和NGS分析。

图11.AAVS1ZFP替换逆转录转座酶Gene Writer的DNA结合结构域。该图披露了作为SEQ ID NO:1024的“3GS接头”。

图12.Cas9或Cas9切口酶替代具有或不具有活性EN结构域的逆转录转座酶GeneWriter的DNA结合结构域(*＝突变体)

图13.AAVS1 ZFP与具有或不具有功能性DNA结合结构域的逆转录转座酶GeneWriter融合。

图14.切口酶Cas9-GeneWriter融合物的示意图。(A)切口酶Cas9与GeneWriter蛋白融合的示意图。(B)3'延伸的gRNA的示意图。

图15.切口酶Cas9-GeneWriter融合物的示意图。(A)切口酶Cas9与GeneWriter蛋白融合的示意图。(B)侧翼是UTR并且与切割位点具有同源性的供体转基因的示意图。

图16.构建体的示意图。(A)Gene Writer蛋白的示意图。(B)侧翼是UTR并且与切割位点具有同源性的供体转基因的示意图。(C)使用的Cas9构建体的示意图。

图17.编码Gene Writer的mRNA的示意图(A)。天然非翻译区(UTR)被针对蛋白质表达优化的5'和3'UTR替换(显示为5'UTRexp和3'UTRexp)。通过HiBit测定通过探测HiBit标签表达来检测GeneWriter蛋白表达(B)。该图披露了作为SEQ ID NO:1024的“3GS”。

图18.由Gene Writer蛋白与其天然UTR和针对蛋白质表达优化的UTR诱导的基因组整合。带有逆转录转座子天然UTR的RNA模板的存在刺激具有非天然UTR的Gene Writing活性。

图19.使用编码多肽的mRNA和编码用于逆转录转座的RNA模板的质粒DNA递送GeneWriter系统。

图20.示例5'UTR工程化策略图。HA＝同源臂；K＝科扎克序列；pA＝聚A信号；AMa＝A.maritima；Rx＝其他种类的逆转录转座子。

图21.RNA模板中内含子(或多个内含子)的可能位置。内含子用曲线表示。5'HA：5'同源臂；3’HA：3'同源臂；5’UTR：逆转录转座子特异性5'UTR；3’UTR：逆转录转座子特异性3'UTR；GOI：目的基因。橙色块对应于设计为从基因组位置表达的序列，该基因组位置包含其自身的细胞特异性启动子、聚(A)信号和用于蛋白质表达的UTR(5'和3'UTR_exp)。该序列可呈与逆转录转座子UTR和同源臂相关的有义(如上所示)或反义取向。内含子可以位于GOI内或UTR_exp内。

图22.如3’ddPCR测定所报告的HEK293T细胞中的基因组整合。将0.5μg/孔的GeneWriter mRNA与RNA模板(有或没有酶促添加的帽1和聚(A)尾)共转染。Gene Writer mRNA与RNA转基因的比例为1:1。

图23.通过3’ddPCR检测基因组整合，该基因组整由用未修饰(G0)或经修饰核的苷酸(假尿苷(Ψ)、1-N-甲基假尿苷(1-Me-Ψ)、5-甲氧基尿苷(5-MO-U)或5-甲基胞苷(5mC))产生的Gene Writer mRNA的表达诱导。每孔使用1ug Gene Writer mRNA。使用未修饰的RNA模板。将Gene Writer RNA与RNA模板以1:8的摩尔比共转染。

图24.驱动和转基因质粒的构建图。在这组实验中，同源臂(HA)和填充序列是可变的。

图25.(A)实验时间表。(B)R2Tg和转基因构建体配置的示意图。(C)针对Rad51的蛋白质印迹显示第3天Rad51蛋白表达的损伤。

图26.用非靶向对照siRNA(对照)或针对Rad51的siRNA以及R2Tg Wt或对照RT和EN突变体处理U2OS细胞。3’(A)或5’(B)连接处的ddPCR用于评估第3天的整合效率。

图27.(A)在Gene Writer转基因分子RNA模块的情况下斑胸草雀(R2Tg)的R2元件的核酶的序列图。核酶特征表示为：P，基于配对区；P'，基于成对区互补链；L，P区末端的环；J，连接碱基配对区的核苷酸。该图披露了SEQ ID NO:1734。(B)R2Tg核酶二级结构的预测。阴影框表示可用于使核酶失活的预测催化位置。该图披露了SEQ ID NO:1734。

图28.在Gene Writer转基因分子RNA模块的情况下斑胸草雀(R2Tg)的R2元件的核酶的序列图。核酶特征表示为：P，基于配对区；P'，基于成对区互补链；L，P区末端的环；J，连接碱基配对区的核苷酸。该图披露了SEQ ID NO:1734。

图29.斑胸草雀的R2元件的核酶二级结构预测。该图披露了SEQ ID NO:1734。

图30.用于治疗示例性重复序列扩增障碍的Gene Writing系统。该图按出现顺序分别披露了SEQ ID NO 1645、1599、1645、1635-1636、1645和1686-1688。

图31.示例性Gene Writing系统中第二链切口的两个取向的图示。

图32.示例性Gene Writing系统中第二链切口的取向和位置及其对编辑的影响的图示。

图33.显示Cas9-RT融合蛋白的生成和表达。为了评估人细胞中新颖Gene Writer多肽的表达，用Cas-RT表达质粒转染U2OS细胞，这些质粒含有表1和表30中与野生型(WT)或Cas9(N863A)切口酶融合的各种RT结构域。在转染后第2天收集细胞裂解物，并使用针对Cas9的一抗通过蛋白质印迹进行分析。包括针对GADPH的一抗作为上样对照。

图34.显示通过选择接头序列改善Cas-RT融合物的表达。为了评估接头如何改变人细胞中新颖Gene Writer多肽的表达，用Cas-RT表达质粒(含有来自表42的各种接头，将Cas9(N863A)切口酶融合到RNA结合结构域突变的R2Bm逆转录转座酶的RT结构域)转染U2OS细胞。收集细胞裂解物并使用针对Cas9的一抗通过蛋白质印迹进行分析。包括针对粘着斑蛋白(左)或GADPH(右)的一抗作为上样对照。左侧的Cas9对照代表Cas9表达质粒的滴定。空箭头表示测试的原始接头，而实心箭头表示发现显著改善融合多肽表达的接头(接头10)。样品编号对应于表42中的接头序列标识符。

图35.显示Cas-RT融合物中保留了Cas/gRNA DNA靶向活性。各种RT结构域与Cas9(WT)融合并电穿孔到U2OS细胞中。收获基因组DNA并通过下一代测序分析突变特征。在相关的情况下指示R2逆转录转座酶结构域的RNA或DNA结合结构域(RBD或DBD)中的突变。此处使用插入缺失频率作为RT融合物情况下Cas活性保留的代替。

图36A和36B披露了改善逆转录酶结构域的突变的应用。将来自逆转录病毒属β逆转录病毒、δ逆转录病毒、γ逆转录病毒、ε逆转录病毒和泡沫病毒的保守逆转录酶结构域与先前显示可改善RT活性的突变进行比对和比较(Anzalone等人Nat Biotechnol[自然生物技术]38(7):824-844(2020)；Baranauskas等人Protein Eng Des Sel[蛋白质工程设计与选择]25(10):657-668(2012)；Arezi和Hogrefe Nucleic Acids Res[核酸研究]37(2):473-481(2009))。图36A显示一组3个核心突变被鉴定并应用于来自如所示的这些属的RT。图36B披露了从T306K/W313F组或可替代地从L139P/E607K组中以第一优先顺序应用的另外突变，其中第一组都不被视为可转移的。选择的突变显示在表45中。

图37.用各种Cas-RT融合载体对U2OS细胞进行核转染，其中RT结构域选自单体逆转录病毒逆转录酶结构域的数据库。通过扩增子测序和精确编辑相比于插入缺失特征的分析来评估使用表43中描述的模板对HEK3基因座的编辑。数据在此处表示为活性比率，其计算为具有精确预期编辑(在靶切口位点处的CTT插入)的读段频率比具有任何其他突变(插入缺失)的读段频率的比率。测定的三个模板RNA配置产生了相似的结果，因此显示了单个模板(表43中的模板P2)的结果。

图38.显示同时靶向多个基因座导致有效的Gene Writing活性。用包含不同模板质粒组合物的Gene Writing系统对HEK293细胞进行核转染，以实现对以下的靶向：1)单独的HEK3，2)单独的HBB，或3)HBB和HEK3基因座。在递送基因座特异性模板RNA表达质粒中之一或两者后，显示每个基因座的编辑百分比。实心柱代表完全Writing事件，而空心柱代表插入缺失的频率。独立地递送任一模板时看到靶基因座特异性编辑，并且共同递送模板时在两个基因座上看到高效且特异性编辑。

图39.显示长度对Gene Writing活性的影响。用包含各种模板RNA(表48)的全RNAGene Writing系统对HEK293T细胞进行核转染，以测试在HEK3基因座处无DNA方法的编辑效率。模板4(其编码与模板1相同的编辑，但在RT模板的3’末端添加20nt)显示精确Writing活性下降大约3.1倍，精确校正比插入缺失的比率下降大约2.4倍。

图40.显示使用不同mRNA组合物时Gene Writer的全RNA递送的效果。使用模板1(表48A)将各种Cas9-RT(MMLV)mRNA(表49)核转染到HEK293T中。在此在不同的封端和UTR组合物中没有观察到强烈的效果。

图41.用Gene Writing系统对HEK293T细胞进行核转染，该系统使用用于编辑HEK3基因座的设定模板(模板1，表48)和两种不同的Cas-RT构建体。序列分析表明，两种Cas-RT融合物都以非常精确和有效的方式进行编辑。在这两个系统中，在包括任选第二切口的条件下，效率提高。这些数据显示PERV RT结构域在这些Cas-RT融合物的情况下成功克隆和精确写入。

图42.显示使用经修饰的核苷酸时Gene Writer的全RNA递送的效果。编码Cas-RT(MMLV)多肽的mRNA分子的组成不同以确定效果(表49)。在此，模板1用于在mRNA组分中掺入经修饰的核苷酸后编辑HEK3基因座。发现具有5moU修饰的mRNA组分的Gene Writing活性既高又精确。

图43A、B和C显示了使用通过脂质颗粒递送到细胞中的不同mRNA组合物时GeneWriter的全RNA递送的效果。图43A显示使用模板1(表48)并通过Lipofectamine 3000递送将各种Cas9-RT(MMLV)mRNA进行全RNA脂转染到HEK293T中。图43B显示使用模板1(表48)并通过MessengerMax试剂递送将各种Cas9-RT(MMLV)mRNA进行全RNA脂转染到HEK293T中。这些数据表明MessengerMax试剂的编辑效率更高。图45C显示了使用MessengerMax试剂对总长度不同的两种模板的测定。在本实验中，没有发现编辑效率的重大变化与模板变化有关。在包括头对头的情况下，添加第二切口gRNA导致系统效率提高。

图44.显示了使用基于脂质的系统时Cas-RT的全RNA递送。使用MessengerMax脂质试剂将Cas9-RT(MMLV)和Cas9-RT(PERV)与模板1(表48)一起递送到HEK293T细胞中。在此，两种酶的活性为约5％精确写入。

图45A和B显示了全RNA Gene Writer系统在原代人CD4+T细胞中的表达。图45A显示了在核转染后第1天，来自以不同剂量递送到原代人CD4+T细胞中的mRNA的Gene Writer蛋白表达。Gene Writer被靶向多肽的Cas9部分的抗体检测到。GAPDH是管家基因，它被靶向GAPDH的抗体检测到。随着递送的编码多肽的核转染的mRNA剂量增加，例如0、2.5、5和10μgGene Writer mRNA，观察到表达水平增加。显示的用于检测蛋白质表达的数据包括2个重复。图45B显示了6种模板RNA的核转染后的细胞活力。在核转染后第3天，在Gene Rewriter系统的RNA递送后原代CD4+T细胞的活力。在收获的T细胞的活/死染色后，通过流式细胞术评估细胞活力(平均值±s.d，n＝2次重复)。

[门控：通过FSC/SSC大小图选择的单线态细胞群中的活细胞]

图46A和46B显示了原代人CD4+ T细胞中的Gene Writing。图46A显示了在不添加第二切口gRNA的情况下，通过Gene Writer系统在原代人CD4+ T细胞中对HEK3基因组基因座的精确编辑。图46B显示了通过Gene Writer系统在原代人CD4+ T细胞中对HEK3基因组基因座的精确编辑。在核转染后第3天从细胞中提取基因组DNA。通过基于PCR的扩增子测序测定检查HEK3的基因组编辑。包含预期基因组改变的DNA扩增子被鉴定为Precise Write事件，而具有意外编辑(例如插入、缺失)的扩增子被视为插入缺失。各自的百分比是根据每个条件的总读段计算的(平均值±s.d.，n＝2次重复)。

图47A和47B显示了使用第二切口gRNA在人原代CD4+ T细胞中的Gene Writing。此处显示了图46中生成的数据，用于直接比较第二切口gRNA对效率的潜在影响。图47A显示，在该实验中，添加第二切口gRNA不会导致增强的精确写入信号。图47B显示，使用第二切口gRNA可能增加了插入缺失的频率。因此，在一些实施例中，本文描述的系统中可以不存在第二切口gRNA序列。通过Gene Writer系统在原代人CD4+ T细胞中对HEK3基因组位点的精确编辑，没有添加(图47A)或添加第二切口gRNA(图47B)。在核转染后第3天从细胞中提取基因组DNA。通过基于PCR的扩增子测序测定检查HEK3的基因组编辑。包含由Gene Writer产生的预期基因组改变的DNA扩增子被鉴定为Precise Write事件，而具有意外编辑(例如插入、缺失)的扩增子被视为插入缺失。各自的百分比是根据每个条件的总读段计算的(平均值±s.d.，n＝2次重复)。

图48.显示了用于人细胞中逆转录转座子介导的整合的筛选构建体设计。包含逆转录转座酶(Driver)表达盒的驱动质粒与包含逆转录转座子依赖性报告盒的模板质粒一起转染。由于反义内含子中断，模板质粒的表达导致非功能性GFP，模板分子从模板质粒的转录导致生成RNA，通过剪接去除内含子，然后可以由系统逆转录和整合。因此，报告盒的表达将仅从整合的报告盒(整合的gDNA，底部)发生，而不是从模板质粒发生。HA＝同源臂，适用时；CMV＝哺乳动物CMV启动子；HiBit＝HiBit标签，用于定量蛋白质表达；T7＝T7 RNA聚合酶启动子；UTR＝非翻译序列，例如天然逆转录转座子UTR；pA＝聚A信号；SD-SA用于指示GFP编码序列中反义内含子的剪接供体和剪接受体位点。

图49.筛选候选逆转录转座子鉴定了25个候选者，它们用于将反式载荷整合到人细胞中。如实例39所述，测定了总共163个逆转录转座子系统在人细胞中的活性。ddPCR测量的整合显示为每个逆转录转座子驱动子/模板系统的拷贝/基因组。每个柱的高度表示两次重复的平均值。

图50A和50B显示了原代细胞的萤光素酶活性测定。如根据实例45，分析根据实例44配制的LNP用于将货物递送至原代人(A)和小鼠(B)肝细胞。萤光素酶测定显示细胞裂解物中的剂量反应性萤光素酶活性，表明RNA成功递送至细胞并从mRNA货物中表达萤火虫萤光素酶。

图51披露了LNP介导的RNA货物向鼠肝脏的递送。配制含有萤火虫萤光素酶mRNA的LNP，并通过iv将其递送给小鼠，并在施用后6、24和48小时收集肝脏样品并测定萤光素酶活性。各种配制品的报告子活性依次为LIPIDV005>LIPIDV004>LIPIDV003。RNA表达是短暂的，酶水平在48小时后恢复到接近媒剂背景。施用后。

具体实施方式

本披露涉及用于例如体内或体外靶向、编辑、修饰或操纵细胞、组织或受试者中DNA序列中的一个或多个位置处的DNA序列(例如，将异源对象序列插入哺乳动物基因组的靶位点)的组合物、系统和方法。异源对象DNA序列可以包括例如取代、缺失、插入，例如编码序列、调节序列或基因表达单元。

更具体地，本披露提供了用于改变目的基因组DNA序列的基于逆转录酶的系统，例如，通过向目的序列中插入一个或多个核苷酸、使目的序列缺失一个或多个核苷酸或取代目的序列中的一个或多个核苷酸。本披露部分地基于生物信息学分析以鉴定逆转录酶序列，例如来自多种生物体的逆转录转座子中(参见表1或3)。

本披露部分地提供了包含多肽组分和模板核酸(例如，模板RNA)组分的GeneWriter^TM基因组编辑器。在一些实施例中，Gene Writer^TM基因组编辑器可用于将改变引入基因组中的靶位点。在一些实施例中，多肽组分包含writing结构域(例如，逆转录酶结构域)、DNA结合结构域和核酸内切酶结构域(例如，切口酶结构域)。在一些实施例中，模板核酸(例如，模板RNA)包含结合基因组中的靶位点(例如，结合靶位点的第二链)的序列、结合多肽组分的序列、异源对象序列和3'靶同源结构域。不希望受理论束缚，认为模板核酸(例如模板RNA)结合基因组中靶位点的第二链，并结合多肽组分(例如，将多肽组分定位于基因组中的靶位点)。认为多肽组分的核酸内切酶(例如，切口酶)切割靶位点(例如，靶位点的第一链)，例如，允许3'同源结构域与跟靶位点的第一链上待改变位点相邻的序列结合。认为多肽组分的writing结构域(例如，逆转录酶结构域)使用3'靶同源结构域作为引物和异源对象序列作为模板，以例如聚合与异源对象序列互补的序列。不希望受理论束缚，认为选择合适的异源对象序列可导致在靶位点处取代、缺失或插入一个或多个核苷酸。

在实施例中，本披露提供了用于重新靶向的核酸分子或系统，例如Gene Writer多肽或核酸分子，或如本文所述的系统。(例如，Gene Writer多肽或核酸分子，或如本文所述的系统的)重新靶向通常包括：(i)引导多肽在靶位点结合和切割；和/或(ii)将模板RNA设计为与靶序列具有互补性。在一些实施例中，模板RNA与第一链切口5'的靶序列具有互补性，例如，使得模板RNA的3'末端退火并且靶位点的5'末端用作引物，例如,用于靶引发的逆转录(TPRT)。在一些实施例中，多肽的核酸内切酶结构域和RNA模板的5’末端也如所述被修饰。

Gene Writer^TM基因组编辑器

Gene Writer^TM基因组编辑器是以下系统，这些系统能够修饰宿主细胞基因组，可用于基因组靶序列的突变、缺失或其他修饰，包括插入异源载荷。在一些实施例中，这些系统从一组被称为逆转录转座子的自然进化的移动遗传元件中获得灵感。Gene Writer^TM多肽还可以包含源自逆转录转座子以外的来源(例如来自病毒)的RT结构域。

非长末端重复(LTR)逆转录转座子是一种类型的在真核生物基因组中广泛分布的移动遗传元件。它们包括两类：无嘌呤/无嘧啶核酸内切酶(APE)型和限制性内切酶样核酸内切酶(RLE)型。APE类逆转录转座子由两个功能结构域构成：核酸内切酶/DNA结合结构域和逆转录酶结构域。RLE类由三个功能结构域构成：DNA结合结构域、逆转录结构域和核酸内切酶结构域。非LTR逆转录转座子的逆转录酶结构域通过结合RNA序列模板并将其逆转录进入宿主基因组的靶DNA发挥功能。RNA序列模板具有与转座酶特异性结合的3’非翻译区和通常具有编码转座酶蛋白的一个或多个开放阅读框(“ORF”)的可变5’区。RNA序列模板还可以包含特异性结合逆转录转座酶的5'非翻译区。

在一些实施例中，如本文所述，此类非LTR逆转录转座子的元件可以在功能上被模块化和/或修饰以靶向，编辑，修饰或操纵靶DNA序列，例如以通过逆转录将对象(例如异源)核酸序列插入到靶基因组例如哺乳动物基因组中。这样的经模块化和修饰的核酸、多肽组合物和系统在本文中描述，并称为Gene Writer^TM基因编辑器。Gene Writer^TM基因编辑器系统包含：(A)多肽或编码多肽的核酸，其中所述多肽包含(i)逆转录酶结构域和(x)含有DNA结合功能的核酸内切酶结构域或(y)核酸内切酶结构域和单独的DNA结合结构域；和(B)模板RNA，其包含(i)结合所述多肽的序列和(ii)异源插入序列。例如，Gene Writer^TM基因组编辑器蛋白质可包含DNA结合结构域、逆转录酶结构域和核酸内切酶结构域。在一些实施例中，DNA结合功能可涉及将蛋白质引导至DNA序列(例如gRNA)的RNA组分。在其他实施例中，Gene Writer^TM基因组编辑器蛋白质可包含逆转录酶结构域和核酸内切酶结构域。在某些实施例中，Gene Writer^TM基因编辑器多肽的元件可以源自非LTR逆转录转座子的序列，例如APE型或RLE型逆转录转座子或其部分或结构域。在一些实施例中，RLE型非LTR逆转录转座子来自R2、NeSL、HERO、R4或CRE进化枝。在一些实施例中，Gene Writer^TM基因组编辑器源自在人基因组中发现的R4元件X4_Line。在一些实施例中，APE型非LTR逆转录转座子来自R1或Tx1进化枝。在一些实施例中，Gene Writer^TM基因组编辑器源自在人基因组中发现的Tx1元件Mare6。Gene Writer^TM基因编辑器系统的RNA模板元件通常与多肽元件异源，并提供要插入(逆转录)到宿主基因组中的对象序列。在一些实施例中，Gene Writer^TM基因组编辑器蛋白能够靶向引发的逆转录。在一些实施例中，Gene Writer基因组编辑蛋白能够进行第二链合成。表50显示了示例性的Gene Writer蛋白和来自使用数据挖掘鉴定的各种逆转座酶的相关序列。第1列表示逆转录转座子所属的家族。第2列列出了元件名称。第3列表示登录号(如果有)。第4列列出了在其中发现逆转录转座酶的生物。第5列列出了预测的5'非翻译区，第6列列出了预测的3'非翻译区；两者都是片段，预测其允许模板RNA结合第7列的逆转座酶。(应理解，第5-6列显示了DNA序列，并且根据第5-6列中的任何一个的RNA序列通常会包括尿嘧啶而不是胸苷)第7列列出了预测的逆转录转座酶氨基酸序列。第8列列出了基于序列分析存在的预测RT结构域，第9列列出了起始密码子位置，第10列列出了终止密码子位置。

在一些实施例中，Gene Writer^TM基因组编辑器与第二多肽组合。在一些实施例中，第二多肽衍生自APE型非LTR逆转录转座子。在一些实施例中，第二多肽具有锌指节样基序。在一些实施例中，第二多肽是Gag蛋白的同源物。

受自然界中逆转录转座子成功的启发，这里进一步讨论了逆转录转座子的自然功能可以使用源自完全独立系统的功能部分来重现。例如，功能性Gene Writer^TM可以由不相关的DNA结合结构域、逆转录结构域和核酸内切酶结构域构成。这种模块化结构允许组合功能性结构域，例如dCas9(DNA结合)、MMLV逆转录酶(逆转录)、FokI(核酸内切酶)。在一些实施例中，多个功能性结构域可以来自单一蛋白质，例如，Cas9切口酶(DNA结合、核酸内切酶)、R2逆转录转座子(DNA结合、逆转录、核酸内切酶)。

在一些实施例中，Gene Writer^TM系统能够在靶位点中产生至少45、50、55、60、65、70、75、80、85、90、95、或100个核苷酸(并且任选地没有超过500、400、300、200或100个核苷酸)插入。在一些实施例中，Gene Writer^TM系统能够在靶位点中产生至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、或100个核苷酸(并且任选地不超过500、400、300、200或100个核苷酸)插入。在一些实施例中，Gene Writer^TM系统能够在靶位点中产生至少0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10千碱基(并且任选地不超过1、5、10或20千碱基)插入。在一些实施例中，Gene Writer^TM系统能够产生至少81、85、90、95、100、110、120、130、140、150、160、170、180、190、或200个核苷酸(并且任选地不超过500、400、300或200个核苷酸)缺失。在一些实施例中，Gene Writer^TM系统能够产生至少81、85、90、95、100、110、120、130、140、150、160、170、180、190、或200个核苷酸(并且任选地不超过500、400、300或200个核苷酸)缺失。在一些实施例中，Gene Writer^TM系统能够产生至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、或200个核苷酸(并且任选不超过500、400、300或200个核苷酸)缺失。在一些实施例中，Gene Writer^TM系统能够产生至少0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10千碱基(并且任选不超过1、5、10、或20千碱基)缺失。在一些实施例中，Gene Writer系统能够在靶位点中产生至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、或100个或更多个核苷酸取代。在一些实施例中，取代是转换突变。在一些实施例中，取代是颠换突变。在一些实施例中，取代将腺嘌呤转化为胸腺嘧啶，腺嘌呤转化为鸟嘌呤，腺嘌呤转化为胞嘧啶，鸟嘌呤转化为胸腺嘧啶，鸟嘌呤转化为胞嘧啶，鸟嘌呤转化为腺嘌呤，胸腺嘧啶转化为胞嘧啶，胸腺嘧啶转化为腺嘌呤，胸腺嘧啶转化为鸟嘌呤，胞嘧啶转化为腺嘌呤，胞嘧啶转化为鸟嘌呤，或胞嘧啶转化为胸腺嘧啶。

Gene Writer^TM基因编辑器系统的多肽组分

结构域和功能：

在一些实施例中，Gene Writer^TM多肽具有DNA靶位点结合、模板核酸(例如RNA)结合、DNA靶位点切割和模板核酸(例如RNA)书写(例如逆转录)的功能。在一些实施例中，每个功能都包含在不同的结构域内。在一些实施例中，功能可以归属于两个或更多个结构域(例如，两个或更多个结构域一起展示该功能)。在一些实施例中，两个或更多个结构域可以具有相同或相似的功能(例如，两个或更多个结构域各自独立地具有DNA结合功能，例如对于两个不同的DNA序列)。在其他实施例中，一个或多个结构域可能能够实现一种或多种功能，例如，Cas9结构域能够实现DNA结合和靶位点切割。在一些实施例中，这些结构域都位于单个多肽内。在一些实施例中，第一结构域在一个多肽中并且第二结构域在第二多肽中。例如，在一些实施例中，Gene Writer^TM多肽可以在第一多肽和第二多肽之间分开，例如，其中第一多肽包含逆转录酶(RT)结构域并且其中第二多肽包含DNA结合结构域和核酸内切酶结构域，例如切口酶结构域。作为进一步的实例，在一些实施例中，第一多肽和第二多肽各自包含DNA结合结构域(例如，第一DNA结合结构域和第二DNA结合结构域)。在一些实施例中，第一和第二多肽可以通过分裂型内含肽在翻译后结合在一起。

书写结构域：

在本发明的某些方面，Gene Writer^TM系统的书写结构域具有逆转录酶活性，也称为逆转录酶结构域(RT结构域)。在一些实施例中，RT结构域包含RT催化部分和RNA结合区(例如，结合模板RNA的区域)。

在本发明的某些方面，书写结构域基于APE型或RLE型非LTR逆转录转座子的逆转录酶结构域。APE型或RLE型非LTR逆转录转座子的野生型逆转录酶结构域可用于GeneWriter ^TM 系统中或可被修饰(例如，通过插入、缺失或取代一个或多个残基)以改变靶DNA序列的逆转录酶活性。在一些实施例中，逆转录酶从其天然序列改变为具有改变的密码子使用，例如，针对人细胞进行改善。在一些实施例中，逆转录酶结构域是来自不同逆转录病毒、LTR-逆转录转座子或非LTR逆转录转座子的异源逆转录酶。在某些实施例中，Gene Writer ^TM 系统包括多肽，该多肽包含来自R2、NeSL、HERO、R4或CRE进化枝的RLE型非LTR逆转录转座子的逆转录酶结构域，或来自R1或Tx1进化枝的APE型非LTR逆转录转座子的逆转录酶结构域。在某些实施例中，Gene Writer ^TM 系统包括多肽，该多肽包含非LTR逆转录转座子、LTR逆转录转座子、II组内含子、多样性产生元件、逆转录子、端粒酶，逆转录质粒、逆转录病毒或表1或表3中列出的工程化的聚合酶的逆转录酶结构域。在一些实施例中，Gene Writer ^TM 系统包括多肽，该多肽包含表2中所列的逆转录酶结构域。在实施例中，Gene Writer ^TM 系统的逆转录酶结构域的氨基酸序列与非LTR逆转录转座子、LTR逆转录转座子、II组内含子、多样性产生元件、逆转录子、端粒酶，逆转录质粒、逆转录病毒或工程化的聚合酶(其DNA序列在表1或表3中引用)的逆转录酶结构域或者包含表2中引用的RT结构域的肽的逆转录酶结构域的氨基酸序列至少约50％、至少约60％、至少约70％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％相同。在一些实施例中，RT结构域具有选自表1或3的序列，或包含选自表2的RT结构域的肽的序列，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列。在一些实施例中，包含Gene Writer多肽的RT结构域已从其原始氨基酸序列突变，例如，具有至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90或100个取代。在一些实施例中，RT结构域源自逆转录病毒的RT，例如HIV-1RT、莫洛尼鼠白血病病毒(MMLV)RT、禽成髓细胞病毒(AMV)RT、劳斯肉瘤病毒(RSV)RT。在一些实施例中，RT结构域源自II组内含子的RT，例如来自直肠真杆菌(Eubacterium rectale)的II组内含子成熟酶RT(MarathonRT)(Zhao等人RNA 24:2 2018)，源自LtrA的RT结构域，RT TGIRT(或trt)。在一些实施例中，RT结构域源自逆转录子的RT，例如源自Ec86的逆转录酶(RT86)。在一些实施例中，RT结构域源自产生多样性的逆转录元件，例如源自Brt的RT。在一些实施例中，RT结构域源自逆转录质粒的RT，例如源自Mauriceville质粒的RT。在一些实施例中，RT结构域源自非LTR逆转录转座子，例如源自R2Bm的RT、源自R2Tg的RT、源自LINE-1的RT、源自Penelope或Penelope样元件(PLE)的RT。在一些实施例中，RT结构域源自LTR逆转录转座子，例如源自Ty1的逆转录酶。在一些实施例中，RT结构域源自端粒酶，例如TERT。本领域普通技术人员能够使用常规工具作为基本局部比对搜索工具(BLAST)，基于与其他已知逆转录结构域的同源性来鉴定逆转录结构域。在一些实施例中，逆转录酶包含InterPro结构域IPR000477。在一些实施例中，逆转录酶包含pfam结构域PF00078。在一些实施例中，RT包含InterPro结构域IPR013103。在一些实施例中，RT包含pfam结构域PF07727。在一些实施例中，逆转录酶包含cd00304 RT_样家族的保守蛋白结构域，例如cd01644(RT_pepA17)、cd01645(RT_Rtv)、cd01646(RT_Bac_逆转录子_I)、cd01647(RT_LTR)、cd01648(TERT)、cd01650(RT_nLTR_样)、cd01651(RT_G2_内含子)、cd01699(RNA_dep_RNAP)、cd01709(RT_样_1)、cd03487(RT_Bac_逆转录子_II)、cd03714(RT_DIRS1)、cd03715(RT_ZFREV_样)。还可以通过搜索蛋白质数据库(例如InterPro(Mitchell等人Nucleic Acids Res[核酸研究]47,D351-360(2019))、UniProt(TheUniProt Consortium Nucleic Acids Res[UniProt联合核酸研究]47,D506-515(2019))、或者保守结构域数据库(Lu等人Nucleic Acids Res[核酸研究]48,D265-268(2020)))中的结构域或使用预测工具(例如InterProScan)扫描逆转录酶结构域的开放阅读框来找到包含这些结构域的蛋白质。逆转录酶的多样性已在以下中进行了描述但不限于此：原核生物使用的逆转录酶(Zimmerly等人Microbiol Spectr[微生物谱]3(2):MDNA3-0058-2014(2015)；Lampson B.C.(2007)Prokaryotic Reverse Transcriptases.[原核生物逆转录酶]在：Polaina J.,MacCabe A.P.(编辑)Industrial Enzymes.[工业酶]斯普林格出版社(Springer),多德雷赫特(Dordrecht))、病毒使用的逆转录酶(Herschhorn等人Cell MolLife Sci[细胞和分子生命科学]67(16):2717-2747(2010)；Menéndez-Arias等人VirusRes[病毒研究]234:153-176(2017))、和可移动元件(Eickbush等人Virus Res[病毒研究]134(1-2):221-234(2008)；Craig等人Mobile DNA[可移动DNA]III第三版编辑.DOI:10.1128/9781555819217(2015))，其各自通过引用并入本文。

在一些实施例中，逆转录酶(RT)结构域表现出靶引发的逆转录(TPRT)起始的增强的严格性，例如，相对于内源RT结构域。在一些实施例中，当靶位点中紧邻第一链切口上游的3nt，例如引发RNA模板的基因组DNA，与RNA模板中的同源3nt具有至少66％或100％的互补性时，RT结构域启动TPRT。在一些实施例中，当模板RNA同源性和靶DNA引发逆转录之间存在少于5nt错配(例如少于1、2、3、4或5nt错配)时，RT结构域启动TPRT。在一些实施例中，修饰RT结构域使得TPRT反应引发中的错配的严格性增加，例如，其中相对于野生型(例如，未修饰的)RT结构域，RT结构域不容许任何错配或容许引发区域中更少的错配。在一些实施例中，RT结构域包含HIV-1RT结构域。在实施例中，HIV-1RT结构域启动较低水平的合成，即使相对于替代RT结构域具有三个核苷酸错配(例如，如Jamburuthugoda和Eickbush J MolBiol[分子生物学杂志]407(5):661-672(2011)所述；将其通过引用以其整体并入本文)。

在一些实施例中，RT结构域形成二聚体(例如，异二聚体或同二聚体)。在一些实施例中，RT结构域是单体的。在一些实施例中，RT结构域，例如逆转录病毒RT结构域，天然地作为单体或二聚体(例如，异二聚体或同二聚体)起作用。在一些实施例中，RT结构域天然地作为单体起作用，例如，源自病毒，其中它作为单体起作用。示例性单体RT结构域、它们的病毒来源和与它们相关的RT特征可以在表30中找到，并且结构域特征的描述在表32中。在一些实施例中，本文所述系统的RT结构域包含表30的氨基酸序列，或其功能片段或变体，或与其具有至少70％、80％、90％、95％或99％的序列同一性的序列。在实施例中，RT结构域选自鼠白血病病毒(MLV；有时称为MoMLV)(例如，P03355)、猪内源逆转录病毒(PERV)(例如，UniProt Q4VFZ2)、小鼠乳腺肿瘤病毒(MMTV)(例如，UniProt P03365)、梅森辉瑞(Mason-Pfizer)猴病毒(MPMV)(例如，UniProt P07572)、牛白血病病毒(BLV)(例如，UniProtP03361)、人T细胞白血病病毒-1(HTLV-1)(例如UniProt P03362)、人泡沫病毒(HFV)(例如UniProt P14350)、猿泡沫病毒(SFV)(例如UniProt P23074)或牛泡沫/合胞病毒(BFV/BSV)(例如UniProt O41894)，或其功能片段或变体(例如，与其具有至少70％、80％、90％、95％或99％同一性的氨基酸序列)。在一些实施例中，RT结构域在其天然功能上是二聚体。示例性二聚体RT结构域、它们的病毒来源和与它们相关的RT特征可以在表31中找到，并且结构域特征的描述在表32中。在一些实施例中，本文所述系统的RT结构域包含表31的氨基酸序列，或其功能片段或变体，或与其具有至少70％、80％、90％、95％或99％的序列同一性的序列。在一些实施例中，RT结构域来源于病毒，其中它作为二聚体起作用。在实施例中，RT结构域选自来自以下的RT结构域：禽肉瘤/白血病病毒(ASLV)(例如，UniProt A0A142BKH1)、劳斯肉瘤病毒(RSV)(例如，UniProt P03354)、禽成髓细胞瘤病毒(AMV)(例如，UniProtQ83133)、人免疫缺陷病毒I型(HIV-1)(例如，UniProt P03369)、人免疫缺陷病毒II型(HIV-2)(例如，UniProt P15833)、猿猴免疫缺陷病毒(SIV)(例如，UniProt P05896)、牛免疫缺陷病毒(BIV)(例如，UniProt P19560)、马传染性贫血病毒(EIAV)(例如，UniProt P03371)或猫免疫缺陷病毒(FIV)(例如，UniProt P16088)(Herschhorn和Hizi Cell Mol Life Sci[细胞和分子生命科学]67(16):2717-2747(2010))，或其功能片段或变体(例如，与其具有至少70％、80％、90％、95％或99％同一性的氨基酸序列)。在一些实施例中，天然异二聚体RT结构域也可以作为同二聚体起作用。在一些实施例中，二聚体RT结构域被表达为融合蛋白，例如，同二聚体融合蛋白或异二聚体融合蛋白。在一些实施例中，系统的RT功能由多个RT结构域实现(例如，如本文所述)。在进一步的实施例中，多个RT结构域是融合的或分开的，例如，可以在相同的多肽上或在不同的多肽上。

在一些实施例中，本文所述的GeneWriter包含整合酶结构域，例如，其中整合酶结构域可以是RT结构域的一部分。在一些实施例中，RT结构域(例如，如本文所述)包含整合酶结构域。在一些实施例中，RT结构域(例如，如本文所述)缺少整合酶结构域，或包含已通过突变或缺失失活的整合酶结构域。在一些实施例中，本文所述的GeneWriter包含RNA酶H结构域，例如，其中RNA酶H结构域可以是RT结构域的一部分。在一些实施例中，RT结构域(例如，如本文所述)包含RNA酶H结构域，例如，内源RNA酶H结构域或异源RNA酶H结构域。在一些实施例中，RT结构域(例如，如本文所述)缺少RNA酶H结构域。在一些实施例中，RT结构域(例如，如本文所述)包含异源RNA酶H结构域的添加、缺失、突变或交换的RNA酶H结构域。在一些实施例中，RNA酶H结构域的突变产生表现出较低RNA酶活性的多肽，例如，如通过Kotewiczet al.Nucleic Acids Res 16(1):265-277(1988)(通过引用以其整体并入本文)描述的方法所确定的，例如与没有该突变的在其他方面类似结构域相比降低至少10％、20％、30％、40％、50％、60％、70％、80％或90％。在一些实施例中，RNA酶H活性被消除。

在一些实施例中，与没有突变的其他类似结构域相比，RT结构域被突变以增加保真度。例如，在一些实施例中，在RT结构域中(例如，在逆转录酶中)的YADD(SEQ ID NO:1539)或YMDD(SEQ ID NO:1540)基序被YVDD(SEQ ID NO:1541)替换。在实施例中，替换YADD(SEQ ID NO:1539)或YMDD(SEQ ID NO:1540)或YVDD(SEQ ID NO:1541)导致逆转录病毒逆转录酶活性的保真度更高(例如，如Jamburuthugoda和Eickbush J Mol Biol[分子生物学杂志]2011中所述；将其通过引用以其整体并入本文)。

在一些实施例中，逆转录酶结构域是选自表1或表3的元件中的一种。

表1：来自不同类型来源的示例性逆转录酶结构域。

来源包括II组内含子、非LTR逆转录转座子、逆转录病毒、LTR逆转录转座子、产生多样性的逆转录元件、逆转录子、端粒酶、逆转录质粒和进化的DNA聚合酶。还包括来自InterPro、pfam和cd数据库的相关RT特征。尽管进化的聚合酶RTX可以进行RNA依赖性DNA聚合，但InterProScan没有鉴定出RT特征，因此替而包括聚合酶特征。

表2：表1中逆转录酶中存在的特征的InterPro描述。

表3(以下)显示了示例性的Gene Writer^TM蛋白和来自使用数据挖掘鉴定的各种逆转座酶的相关序列。第1列表示逆转录转座子所属的家族。第2列列出了元件名称。第3列表示登录号(如果有)。第4列列出了在其中发现逆转录转座酶的生物。第5列列出了预测的5'非翻译区，第6列列出了预测的3'非翻译区；两者都是片段，预测其允许模板RNA结合第7列的逆转座酶。(应理解，第5-6列显示了DNA序列，并且根据第5-6列中的任何一个的RNA序列通常会包括尿嘧啶而不是胸苷)第7列列出了预测的逆转录转座酶氨基酸序列。

表30：示例性单体逆转录病毒逆转录酶及其RT结构域特征

表31：示例性二聚体逆转录病毒逆转录酶及其RT结构域特征

表32：表30(单体病毒RT)和表31(二聚体病毒RT)中逆转录酶中存在的特征的InterPro描述。

在一些实施例中，逆转录酶结构域被修饰，例如通过位点特异性突变。在一些实施例中，将逆转录酶结构域经工程化以具有改善的特性，例如源自MMLV RT的SuperScript IV(SSIV)逆转录酶。在一些实施例中，可以将逆转录酶结构域经工程化以具有较低的错误率，例如，如WO 2001068895(通过引用并入本文)中所述。在一些实施例中，可以将逆转录酶结构域经工程化以更耐热。在一些实施例中，可以将逆转录酶结构域经工程化以更具持续合成能力。在一些实施例中，可以将逆转录酶结构域经工程化以对抑制剂具有耐受性。在一些实施例中，可以将逆转录酶结构域经工程化为更快。在一些实施例中，可以将逆转录酶结构域经工程化以更好地耐受RNA模板中的经修饰的核苷酸。在一些实施例中，可以将逆转录酶结构域经工程化以插入经修饰的DNA核苷酸。在一些实施例中，将逆转录酶结构域经工程化以结合模板RNA。在一些实施例中，一种或多种突变选自鼠白血病病毒逆转录酶RT结构域中的D200N、L603W、T330P、D524G、E562Q、D583N、P51L、S67R、E67K、T197A、H204R、E302K、F309N、W313F、L435G、N454K、H594Q、L671P、E69K或D653N或另一个RT结构域的对应位置的相应突变。在一些实施例中，一个或多个突变如WO 2018089860 A1(其通过引用并入本文)中所述选自R2Bm逆转录转座酶的RT结构域中的突变(例如C952S、和/或C956S、和/或C952S、C956S(双突变体)、和/或C969S、和/或H970Y、和/或R979Q、和/或R976Q、和/或R1071S、和/或R328A、和/或R329A、和/或Q336A、和/或R328A、R329A、Q336A(三突变体)、和/或G426A、和/或D428A、和/或G426A、D428A(双突变体)突变，和/或其任何组合；相对于WO 2018089860 A1SEQ ID NO:52的位置)或者在另一个RT结构域的相应位置处的相应突变。

在一些实施例中，RT结构域具有校对活性。在一些实施例中，RT结构域是从DNA依赖性DNA聚合酶进化而来的并且已获得RNA依赖性DNA聚合酶活性。被称为逆转录异种聚合酶(RTX，Genbank：QFN49000.1)的合成进化校对RT先前是通过采用DNA依赖性DNA聚合酶(KOD，Genbank：ABN15964.1)并选择RNA依赖性DNA聚合酶活性产生(Ellefson等人2016)。在一些实施例中，工程化的RT可包含因野生型酶产生的DNA依赖性DNA聚合酶特征，例如IPR006134、PF00136、cd05536。

在一些实施例中，逆转录结构域仅识别和逆转录特定模板。在一些实施例中，模板包含特定序列。在一些实施例中，模板包含将核酸与逆转录酶结构域相关联的UTR(例如来自逆转录转座子的非翻译区(UTR)，例如R2逆转录转座子的3'UTR)。

书写(writing)结构域还可包含DNA依赖性DNA聚合酶活性，例如，包含能够将DNA从模板DNA序列书写入基因组的酶活性。在一些实施例中，DNA依赖性DNA聚合酶活性由多肽中的DNA聚合酶结构域提供。在一些实施例中，DNA依赖性DNA聚合酶活性由逆转录酶结构域提供，该逆转录酶结构域也能够进行DNA依赖性DNA聚合，例如第二链合成。

在一些实施例中，书写结构域(例如，RT结构域)包含RNA结合结构域，例如，其特异性结合RNA序列。在一些实施例中，模板RNA包含由书写结构域的RNA结合结构域特异性结合的RNA序列。

与其他类型的逆转录机器(例如逆转录病毒RT和LTR逆转录转座子)相比，非LTR逆转录转座子(如R2)中的逆转录仅在包含特定识别序列的RNA模板上进行。R2逆转录转座酶需要其模板包含最小的3'UTR区以启动TPRT(Luan和Eickbush Mol Cell Biol[分子细胞生物学]15,3882-91(1995))。在一些实施例中，Gene Writer多肽源自具有所需结合基序的逆转录转座酶，并且模板RNA被设计成含有所述结合基序，从而仅存在所期望模板的特异性逆转录转座。在一些实施例中，Gene Writer多肽源自选自表3的逆转录转座子，并且RNA模板上的3'UTR包含来自表3中相同逆转录转座子的3'UTR。

模板核酸结合结构域：

Gene Writer^TM多肽通常包含能够与Gene Writer^TM模板核酸(例如，模板RNA)相关联的区域。在一些实施例中，模板核酸结合结构域是RNA结合结构域。在一些实施例中，RNA结合结构域是可与含有特定特征(例如结构基序，例如存在于非LTR逆转录转座子中的3’UTR中的二级结构)的RNA分子相关联的模块结构域。在其他实施例中，模板核酸结合结构域(例如，RNA结合结构域)包含在逆转录结构域内，例如，逆转录酶衍生组分具有已知的RNA偏好特征，例如非LTR逆转录转座子3’UTR中存在的二级结构。在其他实施例中，模板核酸结合结构域(例如，RNA结合结构域)包含在DNA结合结构域内。例如，在一些实施例中，DNA结合结构域是识别包含gRNA的模板核酸(例如，模板RNA)的结构的CRISPR相关蛋白。在一些实施例中，gRNA是由参与CRISPR相关蛋白结合的支架序列和针对基因组靶标的用户定义的约20个核苷酸的靶向序列构成的短合成RNA。Nishimasu等人Cell[细胞]156、第935-949页(2014)描述了完整gRNA的结构。gRNA(也称为单指导RNA的sgRNA)由crRNA和tracrRNA衍生的序列组成，这些序列通过人工四环连接。crRNA序列可分为指导区(20nt)和重复序列区(12nt)，而tracrRNA序列可分为抗重复序列区(14nt)和三个tracrRNA茎环(Nishimasu等人Cell[细胞]156,第935-949页(2014))。在实践中，指导RNA序列通常被设计为具有17-24个核苷酸(例如19、20或21个核苷酸)的长度，并且与靶核酸序列互补。定制的gRNA生成器和算法可从商业上获得，用于设计有效的指导RNA。在一些实施例中，gRNA包含来自天然CRISPR系统的两种RNA组分，例如crRNA和tracrRNA。如本领域公知的，gRNA还可以包含嵌合的单指导RNA(sgRNA)，其含有来自tracrRNA(以结合核酸酶)和至少一个crRNA(以将核酸酶引导至被靶向进行编辑/结合的序列)的序列。化学修饰的sgRNA也已被证明可有效地与CRISPR相关蛋白一起使用；参见例如，Hendel等人(2015)Nature Biotechnol[自然生物技术].,985-991。在一些实施例中，gRNA包含与靶基因相关联的DNA序列互补的核酸序列。在一些实施例中，多肽包含DNA结合结构域，其包含与gRNA相关联的CRISPR相关蛋白，gRNA允许DNA结合结构域结合靶基因组DNA序列。在一些实施例中，gRNA包含在模板核酸(例如，模板RNA)内，因此DNA结合结构域也是模板核酸结合结构域。在一些实施例中，多肽在多个结构域中具有RNA结合功能，例如，可以结合CRISPR相关DNA结合结构域中的gRNA结构和非LTR逆转录转座子衍生的逆转录结构域中的3’UTR结构。

核酸内切酶结构域：

在一些实施例中，Gene Writer^TM多肽具有通过核酸内切酶结构域切割DNA靶位点的功能。在一些实施例中，核酸内切酶结构域也是DNA结合结构域。在一些实施例中，核酸内切酶结构域也是模板核酸(例如，模板RNA)结合结构域。例如，在一些实施例中，多肽包含CRISPR相关的核酸内切酶结构域，其结合包含gRNA的模板RNA，结合靶DNA序列(例如，与gRNA的一部分互补)，并切割靶DNA序列。在某些实施例中，在本文所述的Gene Writer^TM系统中可以使用或可以修饰APE型逆转录转座子的核酸内切酶/DNA结合结构域或RLE型逆转录转座子的核酸内切酶结构域(例如，通过插入、缺失或取代一个或多个残基)。在一些实施例中，核酸内切酶结构域或核酸内切酶/DNA结合结构域被从其天然序列改变为具有改变的密码子使用，例如，针对人细胞进行改善。在一些实施例中，核酸内切酶元件是异源核酸内切酶元件，例如Fok1核酸酶，II型限制性l样核酸内切酶(RLE型核酸酶)或另一RLE型核酸内切酶(也称为REL)。在一些实施例中，异源核酸内切酶活性具有切口酶活性，并且不形成双链断裂。本文所述的Gene Writer^TM系统的核酸内切酶结构域的氨基酸序列可以与逆转录转座子(其DNA序列在表1或3中引用)的核酸内切酶结构域的氨基酸序列至少约50％、至少约60％、至少约70％、至少约80％、至少约85％、至少约90％、至少约95％、至少约96％、至少约97％、至少约98％、至少约99％相同。本领域普通技术人员能够使用工具例如基本局部比对搜索工具(BLAST)，基于与其他已知核酸内切酶结构域的同源性来鉴定核酸内切酶结构域。在某些实施例中，异源核酸内切酶是Fok1或其功能片段。在某些实施例中，异源核酸内切酶是霍利迪(Holliday)连接解离酶或其同源物，例如来自硫磺矿硫化叶菌(Sulfolobussolfataricus)-Ssol Hje的霍利迪连接解离酶(Govindaraju等人,Nucleic AcidsResearch[核酸研究]44:7,2016)。在某些实施例中，异源核酸内切酶是剪接体蛋白诸如Prp8的大片段的核酸内切酶(Mahbub等人,Mobile DNA[移动DNA]8:16,2017)。在某些实施例中，异源核酸内切酶来源于CRISPR相关蛋白，例如Cas9。在某些实施例中，异源核酸内切酶被工程改造为仅具有ssDNA切割活性，例如仅具有切口酶活性，例如是Cas9切口酶。例如，本文所述的Gene Writer^TM多肽可包含来自APE或RLE型逆转录转座子的逆转录酶结构域和包含Fok1或其功能片段的核酸内切酶结构域。在其他实施例中，同源核酸内切酶结构域被修饰，例如通过位点特异性突变，以改变DNA核酸内切酶活性。在其他实施例中，核酸内切酶结构域被修饰以去除任何潜在的DNA序列特异性。

在一些实施例中，核酸内切酶结构域具有切口酶活性并且不形成双链断裂。在一些实施例中，核酸内切酶结构域以比双链断裂更高的频率形成单链断裂，例如，至少90％、95％、96％、97％、98％、或99％的断裂是单链断裂，或少于10％、5％、4％、3％、2％、或1％的断裂是双链断裂。在一些实施例中，核酸内切酶基本上不形成双链断裂。在一些实施例中，核酸外切酶不形成可检测水平的双链断裂。

在一些实施例中，核酸内切酶结构域具有对第一链的靶位点DNA进行切口的切口酶活性；例如，在一些实施例中，核酸内切酶切割基因组DNA的靶位点，该靶位点在将被writing结构域延伸的链上的改变位点附近。在一些实施例中，核酸内切酶结构域具有对第一链的靶位点DNA进行切口并且不对第二链的靶位点DNA进行切口的切口酶活性。例如，当多肽包含具有切口酶活性且不形成双链断裂的CRISPR相关核酸内切酶结构域时，在一些实施例中，所述CRISPR相关核酸内切酶结构域对含有PAM位点的靶位点DNA链进行切口(例如，并且不对不包含PAM位点的靶位点DNA链进行切口)。作为另一个实例，当多肽包含具有切口酶活性且不形成双链断裂的CRISPR相关核酸内切酶结构域时，在一些实施例中，所述CRISPR相关核酸内切酶结构域对不含有PAM位点的靶位点DNA链进行切口(例如，并且不对包含PAM位点的靶位点DNA链进行切口)。

在一些其他实施例中，核酸内切酶结构域具有切口酶活性，其对第一链和第二链的靶位点DNA进行切口。不希望受理论束缚，在本文所述的多肽的书写结构域(例如，RT结构域)从模板核酸(例如，模板RNA)的异源对象序列聚合(例如，逆转录)之后，细胞DNA修复机器必须修复第一DNA链上的切口。靶位点DNA现在包含两个不同的第一DNA链序列：一个对应于原始基因组DNA，并且第二个对应于从异源对象序列聚合而来的那个。人们认为这两个不同的序列相互平衡，第一个与第二链杂交，然后另一个，并且细胞DNA修复装置并入其修复的靶位点被认为是随机的。不希望受理论束缚，认为向第二链引入另外的切口可能使细胞DNA修复机器偏向于比原始基因组序列更频繁地采用基于异源对象序列的序列。在一些实施例中，另外的切口位于靶位点修饰(例如，插入、缺失或取代)或第一链上的切口的5’或3’的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、或150个核苷酸处。

可替代地或另外地，不希望受理论束缚，认为第二链的另外切口可促进第二链合成。在一些实施例中，当Gene Writer^TM已插入或替换了第一链的一部分时，需要合成对应于第二链中的插入/替换的新序列。

在一些实施例中，多肽包含具有核酸内切酶活性的单个结构域(例如，单个核酸内切酶结构域)并且所述结构域对第一链和第二链进行切口。例如，在这样的实施例中，核酸内切酶结构域可以是CRISPR相关核酸内切酶结构域，并且模板核酸(例如，模板RNA)包含指导对第一链进行切口的gRNA和指导对第二链进行切口的另外gRNA。在一些实施例中，多肽包含多个具有核酸内切酶活性的结构域，并且第一核酸内切酶结构域对第一链进行切口并且第二核酸内切酶结构域对第二链进行切口(任选地，第一核酸内切酶结构域不(例如，不能)对第二链进行切口，并且第二核酸内切酶结构域不(例如，不能)对第一链进行切口)。

在一些实施例中，核酸内切酶结构域能够对第一链和第二链进行切口。在一些实施例中，第一和第二链切口出现在靶位点中的相同位置但在相对的链上。在一些实施例中，第二链切口出现在第一切口的交错位置，例如上游或下游。在一些实施例中，如果第二链切口在第一链切口的上游，则核酸内切酶结构域产生靶位点缺失。在一些实施例中，如果第二链切口在第一链切口的下游，则核酸内切酶结构域产生靶位点重复。在一些实施例中，如果第一和第二链切口出现在靶位点的相同位置，则核酸内切酶结构域不产生重复和/或缺失(例如，如Gladyshev和Arkhipova Gene[基因]2009中所述，通过引用以其整体并入本文)。在一些实施例中，核酸酶内切结构域具有改变的活性，这取决于蛋白质构象或RNA结合状态，例如，这促进第一或第二链的切口(例如，如Christensen等人PNAS[美国国家科学院院刊]2006中所述；通过引用以其整体并入本文)。

在一些实施例中，Gene Writer多肽包含对核酸内切酶结构域的修饰，例如，相对于野生型多肽。在一些实施例中，核酸内切酶结构域包含对原始核酸内切酶结构域的氨基酸序列的添加、缺失、替换或修饰。在一些实施例中，核酸内切酶结构域被修饰以包括异源功能结构域，其特异性结合和/或诱导目的靶核酸(例如，DNA)序列的核酸内切酶切割。在一些实施例中，核酸内切酶结构域包含锌指。在一些实施例中，核酸内切酶结构域包含Cas结构域(例如，Cas9或其突变体或变体)。在实施例中，包含Cas结构域的核酸内切酶结构域与例如如本文所述的指导RNA(gRNA)相关联。在一些实施例中，核酸内切酶结构域被修饰以包括不靶向特定靶核酸(例如，DNA)序列的功能结构域。在实施例中，核酸内切酶结构域包含Fok1结构域。

在一些实施例中，核酸内切酶结构域包含大范围核酸酶或其功能片段。在一些实施例中，核酸内切酶结构域包含归巢核酸内切酶或其功能片段。在一些实施例中，核酸内切酶结构域包含来自LAGLIDADG(SEQ ID NO:1577)、GIY-YIG、HNH、His-Cys盒或PD-(D/E)XK家族的大范围核酸酶，或其功能片段或变体，例如，这些功能片段或变体具有例如如家族名称所示的保守氨基酸基序。在一些实施例中，核酸内切酶结构域包含大范围核酸酶或其片段，其选自例如I-SmaMI(Uniprot F7WD42)、I-SceI(Uniprot P03882)、I-AniI(UniprotP03880)、I-DmoI(Uniprot P21505)、I-CreI(Uniprot P05725)、I-TevI(Uniprot P13299)、I-OnuI(Uniprot Q4VWW5)、或I-BmoI(Uniprot Q9ANR6)。在一些实施例中，大范围核酸酶呈其功能形式时是天然单体，例如I-SceI、I-TevI，或二聚体，例如I-CreI。例如，具有单个LAGLIDADG基序(SEQ ID NO:1577)拷贝的LAGLIDADG(SEQ ID NO:1577)大范围核酸酶通常形成同二聚体，而具有两个LAGLIDADG基序(SEQ ID NO:1577)拷贝的成员通常作为单体被发现。在一些实施例中，通常以二聚体形式形成的大范围核酸酶被表达为融合物，例如，两个亚基作为单个ORF表达并且任选地通过接头连接，例如I-CreI二聚体融合物(Rodriguez-Fornes等人Gene Therapy[基因疗法]2020；通过引用以其整体并入本文)。在一些实施例中，改变大范围核酸酶或其功能片段以有利于双链DNA分子的一条链的切口酶活性，例如I-SceI(K122I和/或K223I)(Niu等人J Mol Biol[分子生物学杂志]2008)、I-AniI(K227M)(McConnell Smith等人PNAS[美国国家科学院院刊]2009)、I-DmoI(Q42A和/或K120M)(Molina等人J Biol Chem[生物化学杂志]2015)。在一些实施例中，具有这种对单链切割的偏好的大范围核酸酶或其功能片段被用作核酸内切酶结构域，例如，具有切口酶活性。在一些实施例中，核酸内切酶结构域包含大范围核酸酶或其功能片段，其天然靶向或经工程化以靶向安全港位点，例如靶向SH6位点的I-CreI(Rodriguez-Fornes等人、同上)。在一些实施例中，核酸内切酶结构域包含大范围核酸酶或其功能片段，其具有序列耐受催化结构域，例如，识别最小基序CNNNG的I-TevI(Kleinstiver等人PNAS[美国国家科学院院刊]2012)。在一些实施例中，将靶序列耐受性催化结构域融合至DNA结合结构域，例如以指导活性，例如通过将I-TevI融合至：(i)锌指以产生Tev-ZFE(Kleinstiver等人PNAS[美国国家科学院院刊]2012)，(ii)其他大范围核酸酶以产生MegaTevs(Wolfs等人Nucleic Acids Res[核酸研究]2014)，和/或(iii)Cas9以产生TevCas9(Wolfs等人PNAS[美国国家科学院院刊]2016)。

在一些实施例中，核酸内切酶结构域包含限制酶，例如，IIS型或IIP型限制酶。在一些实施例中，核酸内切酶结构域包含IIS型限制酶，例如FokI，或其片段或变体。在一些实施例中，核酸内切酶结构域包含IIP型限制酶，例如PvuII，或其片段或变体。在一些实施例中，二聚体限制酶表达为融合体，从而其作为单链发挥作用，例如，FokI二聚融合体(Minczuk等人Nucleic Acids Res[核酸研究]36(12):3926-3938(2008))。

例如，在Guha和Edgell Int J Mol Sci[国际分子科学杂志]18(22):2565(2017)中描述了另外的核酸内切酶结构域的使用，该文献通过引用以其整体并入本文。

在一些实施例中，核酸内切酶结构域包含CRISPR/Cas结构域(在本文中也称为CRISPR相关蛋白)。在一些实施例中，DNA结合结构域包含CRISPR/Cas结构域。在一些实施例中，CRISPR/Cas结构域包含参与成簇的调控间隔短回文重复序列(CRISPR)系统的蛋白质(例如Cas蛋白)，并且任选地结合指导RNA，例如单指导RNA(sgRNA)。

CRISPR系统是最初在细菌和古细菌中发现的自适应防御系统。CRISPR系统使用称为CRISPR相关或“Cas”核酸内切酶的RNA指导的核酸酶(例如，Cas9或Cpf1)来切割外源DNA。例如，在典型的CRISPR/Cas系统中，核酸内切酶通过靶向单链或双链DNA序列的序列特异性的非编码“指导RNA”定向到靶核苷酸序列(例如，基因组中待序列编辑的位点)。已经鉴定了三类(I-III)CRISPR系统。II类CRISPR系统使用单个Cas核酸内切酶(而不是多个Cas蛋白)。一种II类CRISPR系统包括II类Cas核酸内切酶，例如Cas9、CRISPR RNA(“crRNA”)和反式激活crRNA(“tracrRNA”)。crRNA包含“指导RNA”，即通常对应于靶DNA序列的约20个核苷酸RNA序列。在野生型系统和一些经工程化的系统中，crRNA还包含与tracrRNA结合的区域，以形成被RNA酶III切割的部分双链结构，产生crRNA/tracrRNA杂交体。然后，crRNA/tracrRNA杂交体指导Cas9核酸内切酶识别并切割靶DNA序列。靶DNA序列总体上与针对给定Cas核酸内切酶来说是特异性的“原间隔子邻近基序”(“PAM”)相邻；然而，PAM序列似乎遍布整个给定基因组。从不同原核物种鉴定的CRISPR核酸内切酶具有独特的PAM序列要求；PAM序列的实例包括5’-NGG(酿脓链球菌(Streptococcus pyogenes))、5’-NNAGAA(嗜热链球菌(Streptococcus thermophilus)CRISPR1)、5’-NGGNG(嗜热链球菌CRISPR3)、和5’-NNNGATT(奈瑟氏脑膜炎双球菌(Neisseria meningiditis))。一些核酸内切酶(例如Cas9核酸内切酶)与富含G的PAM位点(例如5'-NGG)相关联，并在距PAM位点上游(5')3个核苷酸处对靶DNA进行钝端切割。另一个II类CRISPR系统包括小于Cas9的V型核酸内切酶Cpf1；实例包括AsCpf1(来自氨基酸球菌属物种)和LbCpf1(来自毛螺旋菌属物种(Lachnospiraceaesp.))。Cpf1相关CRISPR阵列被处理成成熟crRNA，而不需要tracrRNA；换言之，在一些实施例中，Cpf1系统仅包含Cpf1核酸酶和crRNA以切割靶DNA序列。Cpf1核酸内切酶通常与富含T的PAM位点例如5'-TTN相关联。Cpf1也可以识别5'-CTA PAM基序。Cpf1通常通过引入具有4或5个核苷酸的5'突出端的错位或交错的双链断裂来切割靶DNA，例如切割如下靶DNA，该靶DNA中的5个核苷酸的错位或交错的切割位于距离编码链上的PAM位点下游(3')18个核苷酸的位置处和距离互补链上的PAM位点下游23个核苷酸的位置处；由这种错位切割产生的5个核苷酸突出端使得通过同源重组的DNA插入比在平末端切割的DNA的插入更精确地进行基因组编辑。参见例如，Zetsche等人(2015)Cell[细胞],163:759-771。

多种CRISPR相关(Cas)基因或蛋白可以用于本披露提供的技术中，并且Cas蛋白的选择将取决于该方法的具体条件。Cas蛋白的具体实例包括II类系统，包括Cas1、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9、Cas10、Cpf1、C2C1或C2C3。在一些实施例中，Cas蛋白(例如，Cas9蛋白)可以来自多种原核物种中的任一种。在一些实施例中，特定Cas蛋白(例如，特定Cas9蛋白)被选择以识别特定的原间隔子邻近基序(PAM)序列。在一些实施例中，DNA结合结构域或核酸内切酶结构域包括靶向多肽(例如Cas蛋白，例如Cas9)的序列。在某些实施例中，Cas蛋白(例如，Cas9蛋白)可以从细菌或古细菌中获得或使用已知方法合成。在某些实施例中，Cas蛋白可以来自革兰氏阳性细菌或革兰氏阴性细菌。在某些实施例中，Cas蛋白可以来自链球菌(例如，酿脓链球菌或嗜热链球菌)、弗朗西斯菌(例如，新凶手弗朗西斯菌)、葡萄球菌(例如，金黄色葡萄球菌)、氨基酸球菌(例如，氨基酸球菌属物种BV3L6)、奈瑟氏球菌(例如，脑膜炎奈瑟氏球菌)、隐球菌、棒状杆菌、嗜血杆菌、真细菌、巴斯德氏菌、普氏菌、韦荣球菌或海洋杆菌。

在一些实施例中，Cas蛋白需要原间隔子邻近基序(PAM)存在于靶DNA序列中或邻近靶DNA序列，以便Cas蛋白结合和/或发挥功能。在一些实施例中，PAM是或包含从5'至3'的NGG、YG、NNGRRT、NNNRRT、NGA、TYCV、TATV、NTTN或NNNGATT，其中N代表任何核苷酸，Y代表C或T，R代表A或G，并且V代表A或C或G。在一些实施例中，Cas蛋白是表4中列出的蛋白。在一些实施例中，Cas蛋白包含一个或多个改变其PAM的突变。在一些实施例中，Cas蛋白包含E1369R、E1449H和R1556A突变或对应于所述位置的氨基酸的类似取代。在一些实施例中，Cas蛋白包含E782K、N968K和R1015H突变或对应于所述位置的氨基酸的类似取代。在一些实施例中，Cas蛋白包含D1135V、R1335Q和T1337R突变或对应于所述位置的氨基酸的类似取代。在一些实施例中，Cas蛋白包含S542R和K607R突变或对应于所述位置的氨基酸的类似取代。在一些实施例中，Cas蛋白包含S542R、K548V和N552R突变或对应于所述位置的氨基酸的类似取代。

表4 CRISPR/Cas蛋白、物种和突变

在一些实施例中，Cas蛋白具有催化活性并切割靶DNA位点的一条或两条链。在一些实施例中，切割靶DNA位点之后形成改变，例如插入或缺失，例如通过细胞修复机器。

在一些实施例中，Cas蛋白被修饰以失活或部分失活核酸酶，例如，核酸酶缺陷型Cas9。而在由gRNA靶向的特异性DNA序列上，野生型Cas9产生双链断裂(DSB)，具有修饰的功能性的许多CRISPR核酸内切酶是可得的，例如：部分失活的Cas9“切口酶”版本仅产生单链断裂；无催化活性的Cas9(“dCas9”)不会切割靶DNA。在一些实施例中，dCas9与DNA序列的结合可以通过空间位阻干扰该位点处的转录。在一些实施例中，dCas9与锚定序列的结合可以干扰(例如，减少或阻止)基因组复合物(例如，ASMC)的形成和/或维持。在一些实施例中，DNA结合结构域包含无催化活性的Cas9，例如dCas9。许多无催化活性的Cas9蛋白是本领域已知的。在一些实施例中，dCas9包含Cas蛋白的每个核酸内切酶结构域中的突变，例如D10A和H840A或N863A突变。在一些实施例中，无催化活性或部分无催化活性的CRISPR/Cas结构域包含Cas蛋白，该Cas蛋白包含一个或多个突变，例如表4中列出的一个或多个突变。在一些实施例中，在表4的给定行中描述的Cas蛋白包含在表4的同一行中列出的突变中的一个、两个、三个或所有。在一些实施例中，例如未在表4中描述的Cas蛋白包含在表4的行中列出的突变中的一个、两个、三个或所有或在该Cas蛋白中相应位点处的相应突变。

在一些实施例中，无催化活性的例如dCas9或部分失活的Cas9蛋白包含D11突变(例如D11A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含H969突变(例如H969A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含N995突变(例如N995A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9包含在位置D11、H969和N995中的一个、两个或三个处的突变(例如，D11A、H969A和N995A突变)或对应于所述位置的氨基酸的类似取代。

在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含D10突变(例如D10A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含H557突变(例如H557A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9包含D10突变(例如，D10A突变)和H557突变(例如，H557A突变)或对应于所述位置的氨基酸的类似取代。

在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含D839突变(例如D839A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含H840突变(例如H840A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含N863突变(例如N863A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9包含D10突变(例如D10A)、D839突变(例如D839A)、H840突变(例如H840A)和N863突变(例如N863A))或对应于所述位置的氨基酸的类似取代。

在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含E993突变(例如E993A突变)或对应于所述位置的氨基酸的类似取代。

在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含D917突变(例如D917A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含E1006突变(例如E1006A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含D1255突变(例如D1255A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9包含D917突变(例如D917A)、E1006突变(例如E1006A)和D1255突变(例如D1255A))或对应于所述位置的氨基酸的类似取代。

在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含D16突变(例如D16A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含D587突变(例如D587A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含H588突变(例如H588A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9或部分失活的Cas9蛋白包含N611突变(例如N611A突变)或对应于所述位置的氨基酸的类似取代。在一些实施例中，无催化活性的Cas9蛋白例如dCas9包含D16突变(例如D16A)、D587突变(例如D587A)、H588突变(例如H588A)和N611突变(例如N611A))或对应于所述位置的氨基酸的类似取代。

在一些实施例中，DNA结合结构域或核酸内切酶结构域可以包含Cas分子，该Cas分子包含或连接(例如，共价地)gRNA(例如，模板核酸，例如，包含gRNA的模板RNA)。

在一些实施例中，核酸内切酶结构域或DNA结合结构域包含酿脓链球菌(Streptococcus pyogenes)Cas9(SpCas9)或其功能性片段或变体。在一些实施例中，核酸内切酶结构域或DNA结合结构域包含经修饰的SpCas9。在实施例中，经修饰的SpCas9包含改变了原间隔子邻近基序(PAM)特异性的修饰。在实施例中，PAM对核酸序列5’-NGT-3’具有特异性。在实施例中，经修饰的SpCas9包含例如在位置L1111、D1135、G1218、E1219、A1322、或R1335中的一个或多个处的一个或多个氨基酸取代，例如，该一个或多个氨基酸取代选自L1111R、D1135V、G1218R、E1219F、A1322R、R1335V。在实施例中，经修饰的SpCas9包含氨基酸取代T1337R和一个或多个另外的氨基酸取代，例如，该一个或多个另外的氨基酸取代选自L1111、D1135L、S1136R、G1218S、E1219V、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、R1335Q、T1337、T1337L、T1337Q、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337H、T1337Q、和T1337M，或其对应的氨基酸取代。在实施例中，经修饰的SpCas9包含：(i)一个或多个氨基酸取代，其选自D1135L、S1136R、G1218S、E1219V、A1322R、R1335Q、和T1337；以及(ii)一个或多个氨基酸取代，其选自L1111R、G1218R、E1219F、D1332A、D1332S、D1332T、D1332V、D1332L、D1332K、D1332R、T1337L、T1337I、T1337V、T1337F、T1337S、T1337N、T1337K、T1337R、T1337H、T1337Q、和T1337M，或这些所列举氨基酸取代的对应的氨基酸取代。

在一些实施例中，Gene Writer可以包含如表40A中所列的Cas蛋白。用于在如表40A中所示的Cas蛋白中安装切口酶活性的预测或验证的切口酶突变基于SpCas9(N863A)突变的特征。在一些实施例中，本文所述的系统包含表3的GeneWriter蛋白和表40A的Cas蛋白。在一些实施例中，表3、41或44的蛋白质或结构域与表40A的Cas蛋白融合。

表40A.CRISPR/Cas蛋白质、物种和突变

在一些实施例中，核酸内切酶结构域或DNA结合结构域包含Cas结构域，例如Cas9结构域。在实施例中，核酸内切酶结构域或DNA结合结构域包含核酸酶活性Cas结构域、Cas切口酶(nCas)结构域或无核酸酶活性Cas(dCas)结构域。在实施例中，核酸内切酶结构域或DNA结合结构域包含核酸酶活性Cas9结构域、Cas9切口酶(nCas9)结构域或无核酸酶活性Cas9(dCas9)结构域。在一些实施例中，核酸内切酶结构域或DNA结合结构域包含Cas9的结构域Cas9(例如，dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、或Cas12i。在一些实施例中，核酸内切酶结构域或DNA结合结构域包含Cas9(例如，dCas9和nCas9)、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、或Cas12i。在一些实施例中，核酸内切酶结构域或DNA结合结构域包含酿脓链球菌或嗜热链球菌Cas9，或其功能片段。在一些实施例中，核酸内切酶结构域或DNA结合结构域包含Cas9序列，例如，如Chylinski、Rhun,和Charpentier(2013)RNA Biology[RNA生物学]10:5、726-737中所述；该文献通过引用并入本文。在一些实施例中，核酸内切酶结构域或DNA结合结构域包含Cas的HNH核酸酶亚结构域和/或RuvC1亚结构域，例如，如本文所述的Cas9，或其变体。在一些实施例中，核酸内切酶结构域或DNA结合结构域包含Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、或Cas12i。在一些实施例中，核酸内切酶结构域或DNA结合结构域包含Cas多肽(例如酶)或其功能片段。在实施例中，Cas多肽(例如，酶)选自Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5d、Cas5t、Cas5h、Cas5a、Cas6、Cas7、Cas8、Cas8a、Cas8b、Cas8c、Cas9(例如，Csn1或Csx12)、Cas10、Cas10d、Cas12a/Cpfl、Cas12b/C2cl、Cas12c/C2c3、Cas12d/CasY、Cas12e/CasX、Cas12g、Cas12h、Cas12i、Csy1、Csy2、Csy3、Csy4、Cse1、Cse2、Cse3、Cse4、Cse5e、Csc1、Csc2、Csa5、Csn1、Csn2、Csm1、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx1S、Csx11、Csf1、Csf2、CsO、Csf4、Csd1、Csd2、Cst1、Cst2、Csh1、Csh2、Csa1、Csa2、Csa3、Csa4、Csa5、II型Cas效应子蛋白、V型Cas效应子蛋白、VI型Cas效应子蛋白、CARF、DinG、Cpf1、Cas12b/C2c1、Cas12c/C2c3、Cas12b/C2c1、Cas12c/C2c3、SpCas9(K855A)、eSpCas9(1.1)、SpCas9-HF1、超精确的Cas9变体(HypaCas9)、其同源物、其经修饰的或经工程化的版本、和/或其功能性片段。在实施例中，Cas9包含一种或多种取代，例如选自H840A、D10A、P475A、W476A、N477A、D1125A、W1126A,和D1127A。在实施例中，Cas9包含在选自以下的位置处的一个或多个突变：D10、G12、G17、E762、H840、N854、N863、H982、H983、A984、D986、和/或A987，例如，选自D10A、G12A、G17A、E762A、H840A、N854A、N863A、H982A、H983A、A984A、和/或D986A的一个或多个取代。在一些实施例中，核酸内切酶结构域或DNA结合结构域包含来自以下的Cas(例如，Cas9)序列或其片段或变体：溃疡棒状杆菌(Corynebacterium ulcerans)、白喉棒状杆菌(Corynebacterium diphtheria)、梅毒螺原体(Spiroplasma syrphidicola)、中间普雷沃氏菌(Prevotella intermedia)、台湾螺原体(Spiroplasma taiwanense)、海豚链球菌(Streptococcus iniae)、波罗的海贝尔氏菌(Belliella baltica)、扭曲冷弯曲菌(Psychroflexus torquis)、嗜热链球菌(Streptococcus thermophilus)、无害李斯特菌(Listeria innocua)、空肠弯曲杆菌(Campylobacter jejuni)、脑膜炎奈瑟菌(Neisseriameningitidis)、酿脓链球菌(Streptococcus pyogenes)或金黄色葡萄球菌(Staphylococcus aureus)。

在一些实施例中，核酸内切酶结构域或DNA结合结构域包含例如包含一个或多个取代(例如，在位置D917、E1006A、D1255处)或其任何组合的Cpf1结构域，该一个或多个取代例如选自D917A、E1006A、D1255A、D917A/E1006A、D917A/D1255A、E1006A/D1255A、和D917A/E1006A/D1255A。

在一些实施例中，核酸内切酶结构域或DNA结合结构域包含spCas9、spCas9-VRQR(SEQ ID NO:1578)、spCas9-VRER(SEQ ID NO:1579)、xCas9(sp)、saCas9、saCas9-KKH、spCas9-MQKSER(SEQ ID NO:1580)、spCas9-LRKIQK(SEQ ID NO:1581)或spCas9-LRVSQL(SEQ ID NO:1582)。

在一些实施例中，核酸内切酶结构域或DNA结合结构域包含如以下表37中所列的氨基酸序列，或与其具有至少80％、85％、90％、95％、96％、97％、98％、或99％序列同一性的氨基酸序列。在一些实施例中，相对于本文所述的任何氨基酸序列，核酸内切酶结构域或DNA结合结构域包含具有不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、或50个差异(例如，突变)的氨基酸序列。

表37.参考序列中的每一个通过引用以其全文并入。

在一些实施例中，Gene Writing多肽具有包含Cas9切口酶例如Cas9 H840A的核酸内切酶结构域。在实施例中，Cas9 H840A具有以下氨基酸序列：

Cas9切口酶(H840A)：

在一些实施例中，Gene Writing多肽包含来自逆转录病毒逆转录酶的RT结构域，例如野生型M-MLV RT，例如，包含以下序列：

M-MLV(WT)：

在一些实施例中，Gene Writing多肽包含来自逆转录病毒逆转录酶的RT结构域，例如M-MLV RT，例如，包含以下序列：

在一些实施例中，Gene Writing多肽包含来自逆转录病毒逆转录酶的RT结构域，该逆转录酶包含NP_057933的氨基酸659-1329的序列。在实施例中，Gene Writing多肽在NP_057933的氨基酸659-1329的序列的N末端进一步包含一个另外的氨基酸，例如，如下所示：

核心RT(粗体)，按上述注释

RNA酶H(下划线)，按上述注释

在实施例中，Gene Writing多肽在NP_057933的氨基酸659-1329序列的C末端进一步包含一个另外的氨基酸。在实施例中，Gene Writing多肽包含RNA酶H1结构域(例如，NP_057933的氨基酸1178-1318)。

在一些实施例中，逆转录病毒逆转录酶结构域，例如M-MLV RT，可以包含野生型序列的一个或多个突变，其可以改善RT的特征，例如热稳定性、持续合成能力和/或模板结合。在一些实施例中，M-MLV RT结构域相对于上述M-MLV(WT)序列包含一个或多个突变，例如选自D200N、L603W、T330P、T306K、W313F、D524G、E562Q、D583N、P51L、S67R、E67K、T197A、H204R、E302K、F309N、L435G、N454K、H594Q、D653N、R110S、K103L，例如突变的组合，例如D200N、L603W，和T330P，任选地进一步包括T306K和W313F。在一些实施例中，本文使用的M-MLV RT包含突变D200N、L603W、T330P、T306K和W313F。在实施例中，突变M-MLV RT包含以下氨基酸序列：

M-MLV(PE2)：

在一些实施例中，Gene Writer多肽可以包含接头，例如肽接头，例如表38中描述的接头。在一些实施例中，Gene Writer多肽包含在核酸内切酶和RT结构域之间的柔性接头，例如，包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSS(SEQ ID NO:1589)的接头。在一些实施例中，Gene Writer多肽的RT结构域可以位于核酸内切酶结构域的C末端。在一些实施例中，Gene Writer多肽的RT结构域可以位于核酸内切酶结构域的N末端。

表38.示例性接头序列

在一些实施例中，Gene Writer多肽包含含有D10A和/或H840A突变的dCas9序列，例如，以下序列：

在一些实施例中，用于该系统中的模板RNA分子从5'到3'包含(1)gRNA间隔子；(2)gRNA支架；(3)异源对象序列(4)3'同源结构域。在一些实施例中：

(1)是约18-22nt(例如，20nt)的Cas9间隔子。

(2)是包含一个或多个发夹环的gRNA支架，例如1、2、3个环，用于将模板与切口酶Cas9结构域相关联。在一些实施例中，gRNA支架携带如下序列，从5'到3'：GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCC(SEQ ID NO:1591)。

(3)在一些实施例中，异源对象序列长度是例如7-74，例如10-20、20-30、30-40、40-50、50-60、60-70、或70-80nt或80-90nt。在一些实施例中，序列的第一个(最5')碱基不是C。

(4)在一些实施例中，在切口发生后结合靶引发序列的3'同源结构域是例如3-20nt，例如7-15nt，例如12-14nt。在一些实施例中，3’同源结构域具有40％-60％的GC含量。

与系统相关联的第二gRNA可能有助于驱动完全整合。在一些实施例中，第二gRNA可以靶向距第一链切口0-200nt，例如距第一链切口0-50、50-100、100-200nt的位置。在一些实施例中，第二gRNA只能在进行编辑后结合其靶序列，例如，gRNA结合存在于异源对象序列中但不存在于初始靶序列中的序列。

在一些实施例中，本文所述的Gene Writing系统用于在HEK293、K562、U2OS、或HeLa细胞中进行编辑。在一些实施例中，Gene Writing系统用于在原代细胞(例如，来自E18.5小鼠的原代皮层神经元)中进行编辑。

在一些实施例中，逆转录酶或RT结构域(例如，如本文所述)包含MoMLV RT序列或其变体。在实施例中，MoMLV RT序列包含一种或多种选自以下的突变：D200N、L603W、T330P、T306K、W313F、D524G、E562Q、D583N、P51L、S67R、E67K、T197A、H204R、E302K、F309N、L435G、N454K、H594Q、D653N、R110S、和K103L。在实施例中，MoMLV RT序列包含突变(例如D200N、L603W和T330P)的组合，任选地还包括T306K和/或W313F。

在一些实施例中，核酸内切酶结构域(例如，如本文所述)包含nCAS9，例如，包含H840A突变。

在一些实施例中，异源对象序列(例如，如本文所述的系统的)长度是约1-50、50-100、100-200、200-300、300-400、400-500、500-600、600-700、700-800、800-900、900-1000或更多个核苷酸。

在一些实施例中，RT和核酸内切酶结构域通过柔性接头连接，例如，包含氨基酸序列SGGSSGGSSGSETPGTSESATPESSGGSSGGSS(SEQ ID NO:1589)。

在一些实施例中，核酸内切酶结构域相对于RT结构域在N末端。在一些实施例中，核酸内切酶结构域相对于RT结构域在C末端。

在一些实施例中，该系统通过TPRT将异源对象序列掺入靶位点，例如，如本文所述。

在一些实施例中，本文所述的系统或方法涉及美国专利申请公开号20200063126、20190002889或20190002875(每一个通过引用以其整体并入本文)中描述的CRISPR DNA靶向酶或系统或其功能片段或变体。例如，在一些实施例中，本文所述的GeneWriter多肽或Cas核酸内切酶包含本段提及的任何申请的多肽序列，并且在一些实施例中，模板RNA或指导RNA包含在本段中提及的任何申请的核酸序列。

在一些实施例中，核酸内切酶结构域或DNA结合结构域包含TAL效应子分子。TAL效应子分子，例如特异性结合DNA序列的TAL效应子分子，通常包含多个TAL效应子结构域或其片段，以及任选地天然存在的TAL效应子的一个或多个附加部分(例如，多个TAL效应子结构域的N和/或C末端)。许多TAL效应子是本领域技术人员已知的并且是可商购的，例如从赛默飞世尔科技公司(Thermo Fisher Scientific)商购。

自然存在的TALE是由多种细菌病原体(包括植物病原体黄单胞菌(Xanthomonas))分泌的天然效应蛋白，其调节宿主植物中的基因表达并促进细菌定植和存活。TAL效应子的特异性结合基于串联排列的几乎相同的典型33或34个氨基酸重复序列的中心重复结构域(重复可变二残基，RVD结构域)。

TAL效应子家族的成员主要在其重复序列的数量和顺序上不同。重复序列的数量范围通常为1.5至33.5个重复，并且C末端重复通常长度较短(例如，约20个氨基酸)，并且通常被称为“半重复”。TAL效应子的每个重复通常具有一个重复对一个碱基对的相关性，其中不同的重复类型表现出不同的碱基对特异性(一个重复识别靶基因序列上的一个碱基对)。通常，重复序列数量越少，蛋白质-DNA相互作用越弱。已证明6.5个重复序列的数量足以激活报告基因的转录(Scholze等人,2010)。

重复至重复的变异主要发生在氨基酸位置12和13处，因此它们被称为“高变的”，并负责与靶DNA启动子序列相互作用的特异性，如表5所示，其列出了示例性重复可变双残基(RVD)及其与核酸碱基靶标的对应关系。

表5-RVD和核酸碱基特异性

因此，有可能修饰TAL效应子的重复序列以靶向特定的DNA序列。进一步的研究表明，RVD NK可以靶向G。TAL效应子的靶位点也倾向于包括在被第一重复序列靶向的5'碱基侧翼的T，但这种识别的确切机制尚不清楚。迄今已知超过113种TAL效应子序列。来自黄单胞菌的TAL效应子的非限制性实例包括Hax2、Hax3、Hax4、AvrXa7、AvrXa10和AvrBs3。

相应地，本文所述的TAL效应子分子的TAL效应子结构域可以源自来自任何细菌物种(例如黄单胞菌属(Xanthomonas)物种，例如米糠黄单胞菌(Xanthomonas oryzaepv.Oryzae)的非洲菌株(Yu等人2011)、野油菜黄单胞菌萝卜致病变种(Xanthomonascampestris pv.raphani)菌株756C和水稻细菌性条斑病菌(Xanthomonas oryzaepv.oryzicola)菌株BLS256(Bogdanove等人2011))的TAL效应子。在一些实施例中，TAL效应子结构域包含RVD结构域以及以及也来自天然存在的TAL效应子的一个或多个侧翼序列(RVD结构域的N末端和/或C末端侧上的序列)。它可以包含比天然存在的TAL效应子的RVD更多或更少的重复序列。TAL效应子分子可以被设计成基于上述编码和本领域已知的其他编码来靶向给定的DNA序列。TAL效应子结构域(例如，重复序列(单体或模块))的数量及其特定序列是基于所期望的DNA靶序列来选择的。例如，为了适应特定的靶序列，可以去除或添加TAL效应子结构域，例如重复序列。在一个实施例中，本发明的TAL效应子分子包含6.5至33.5个TAL效应子结构域，例如重复序列。在一个实施例中，本发明的TAL效应子分子包含8至33.5个TAL效应子结构域，例如重复序列，例如10至25个TAL效应子结构域，例如重复序列，例如10至14个TAL效应子结构域，例如重复序列。

在一些实施例中，TAL效应子分子包含对应于与DNA靶序列完全匹配的TAL效应子结构域。在一些实施例中，允许DNA靶序列上的重复序列和靶碱基对之间的错配，只要它允许包含TAL效应子分子的多肽的功能。通常，TALE结合与错配数量呈负相关。在一些实施例中，本发明的多肽的TAL效应子分子与靶DNA序列包含不超过7个错配、6个错配、5个错配、4个错配、3个错配、2个错配或1个错配，并且任选地没有错配。不希望被理论所束缚，一般来说，TAL效应子分子中TAL效应子结构域的数量越少，将被容许的错配数量就越少，并且仍然允许包含TAL效应子分子的多肽的功能。结合亲和力被认为取决于匹配的重复-DNA组合的总和。例如，具有25个或更多个TAL效应子结构域的TAL效应子分子可能能够耐受多达7个错配。

除了TAL效应子结构域之外，本发明的TAL效应子分子还可以包含来源于天然存在的TAL效应子的另外序列。包含在TAL效应子分子的TAL效应子结构域部分每一侧上的一个或多个C末端和/或N末端序列的长度可以变化，并且由本领域技术人员选择，例如基于Zhang等人(2011)的研究。Zhang等人已经表征了Hax3来源的基于TAL效应子的蛋白质中的许多C末端和N末端截短突变体，并且已经鉴定了有助于与靶序列最佳结合并因此激活转录的关键元件。通常，发现转录活性与N末端的长度呈负相关。关于C末端，鉴定了Hax 3序列前68个氨基酸内DNA结合残基的重要元件。因此，在一些实施例中，天然存在的TAL效应子的TAL效应子结构域的C末端侧上的前68个氨基酸包括在TAL效应子分子中。因此，在一个实施例中，TAL效应子分子包含1)一个或多个来源于天然存在的TAL效应子的TAL效应子结构域；2)至少70、80、90、100、110、120、130、140、150、170、180、190、200、220、230、240、250、260、270、280个或更多个来自TAL效应子结构域N末端侧上的天然存在的TAL效应子的氨基酸；和/或3)至少68、80、90、100、110、120、130、140、150、170、180、190、200、220、230、240、250、260个或更多个来自TAL效应子结构域C末端侧上的天然存在的TAL效应子的氨基酸。

在一些实施例中，核酸内切酶结构域或DNA结合结构域是或包含锌指分子。Zn指分子包含Zn指蛋白，例如天然存在的Zn指蛋白或工程化的Zn指蛋白、或其片段。许多锌指蛋白是本领域技术人员已知的并且是可商购的，例如从西格玛奥德里奇公司(Sigma-Aldrich)商购。

在一些实施例中，Zn指分子包含非天然存在的Zn指蛋白，其被工程化以与选择的靶DNA序列结合。例如，参见Beerli等人(2002)Nature Biotechnol.[自然生物技术]20:135-141；Pabo等人(2001)Ann.Rev.Biochem.[生物化学年度综述]70:313-340；Isalan等人(2001)Nature Biotechnol.[自然生物技术]19:656-660；Segal等人(2001)Curr.Opin.Biotechnol.[生物技术当前观点]12:632-637；Choo等人(2000)Curr.Opin.Struct.Biol.[结构生物学当前观点]10:411-416；美国专利号6,453,242、6,534,261、6,599,692、6,503,717、6,689,558、7,030,215、6,794,136、7,067,317、7,262,054、7,070,934、7,361,635、7,253,273；以及美国专利公开号2005/0064474、2007/0218528、2005/0267061，均通过引用以其整体并入本文。

与天然存在的Zn指蛋白相比，工程化的Zn指蛋白可能具有新的结合特异性。工程化方法包括但不限于合理设计和各种类型的选择。合理设计包括，例如，使用包含三联体(或四联体)核苷酸序列和单个Zn指氨基酸序列的数据库，其中每个三联体或四联体核苷酸序列与结合特定三联体或四联体序列的Zn指的一个或多个氨基酸序列相关联。参见例如，美国专利号6,453,242和6,534,261，通过引用以其整体并入本文。

示例性选择方法(包括噬菌体展示和双杂交系统)披露于以下中：美国专利号5,789,538、5,925,523、6,007,988、6,013,453、6,410,248、6,140,466、6,200,759、和6,242,568；以及国际专利公开号WO 98/37186、WO 98/53057、WO 00/27878、以及WO 01/88197和GB2,338,237。另外，增强锌指蛋白的结合特异性已经例如，在国际专利公开号WO 02/077227中描述。

另外，如这些和其他参考文献中所披露的，锌指结构域和/或多指锌指蛋白可以使用任何合适的接头序列(包括例如，长度为5个或更多个氨基酸的接头)连接在一起。另参见美国专利号6,479,626、6,903,185、和7,153,949的示例性接头序列长度为6个或更多个氨基酸。本文所述的蛋白质可以包括蛋白质的单个锌指之间的合适接头的任何组合。另外，增强锌指结合结构域的结合特异性已经例如，在共同拥有的国际专利公开号WO 02/077227中描述。

Zn指蛋白和用于设计和构建融合蛋白(和编码其的多核苷酸)的方法是本领域技术人员已知的，并在以下中详细描述：美国专利号6,140,0815；789,538；6,453,242；6,534,261；5,925,523；6,007,988；6,013,453；和6,200,759；国际专利公开号WO 95/19431；WO96/06166；WO 98/53057；WO 98/54311；WO 00/27878；WO 01/60970；WO 01/88197；WO 02/099084；WO 98/53058；WO 98/53059；WO 98/53060；WO 02/016536；和WO 03/016496。

另外，如这些和其他参考文献中所披露的，Zn指蛋白和/或多指Zn指蛋白可以使用任何合适的接头序列(包括例如，长度为5个或更多个氨基酸的接头)连接在一起，例如作为融合蛋白。另参见美国专利号6,479,626；6,903,185；和7,153,949的示例性接头序列长度为6个或更多个氨基酸。本文所述的Zn指分子可以包括Zn指分子的单个锌指蛋白和/或多指Zn指蛋白之间的合适接头的任何组合。

在某些实施例中，DNA结合结构域或核酸内切酶结构域包含Zn指分子，该Zn指分子包含与靶DNA序列结合(以序列特异性方式)的工程化锌指蛋白。在一些实施例中，Zn指分子包含一种Zn指蛋白或其片段。在其他实施例中，Zn指分子包含多种Zn指蛋白(或其片段)，例如2、3、4、5、6或更多种Zn指蛋白(并且任选地，不超过12、11、10、9、8、7、6、5、4、3或2种Zn指蛋白)。在一些实施例中，Zn指分子包含至少三种Zn指蛋白。在一些实施例中，Zn指分子包含四个、五个或六个指。在一些实施例中，Zn指分子包含8、9、10、11或12个指。在一些实施例中，包含三种Zn指蛋白的Zn指分子识别包含9或10个核苷酸的靶DNA序列。在一些实施例中，包含四种Zn指蛋白的Zn指分子识别包含12至14个核苷酸的靶DNA序列。在一些实施例中，包含六种Zn指蛋白的Zn指分子识别包含18至21个核苷酸的靶DNA序列。

在一些实施例中，Zn指分子包含双手Zn指蛋白。双手锌指蛋白是这样的蛋白质，其中两簇锌指蛋白被插入的氨基酸分开，使得两个锌指结构域与两个不连续的靶DNA序列结合。双手型锌指结合蛋白的实例是SIP1，其中四种锌指蛋白的簇位于蛋白质的氨基末端处，并且三种Zn指蛋白的簇位于羧基末端处(参见Remade等人(1999)EMBO Journal[欧洲分子生物学杂志]18(18):5073-5084)。这些蛋白质中的每一簇锌指均能够与独特的靶序列结合，并且这两个靶序列之间的间隔可以包含许多核苷酸。

DNA结合结构域：

在某些方面，选择、设计或构建本文所述的Gene Writer^TM多肽的DNA结合结构域以结合期望的宿主DNA靶序列。

在一些实施例中，Gene Writer多肽包含对DNA结合结构域的修饰，例如，相对于野生型多肽。在一些实施例中，DNA结合结构域包含对原始DNA结合结构域的氨基酸序列的添加、缺失、替换或修饰。在一些实施例中，DNA结合结构域被修饰以包括特异性结合目的靶核酸(例如DNA)序列的异源功能结构域。在一些实施例中，功能结构域替换多肽的先前DNA结合结构域的至少一部分(例如，全部)。在一些实施例中，功能结构域包含锌指(例如，特异性结合目的靶核酸(例如，DNA)序列的锌指)。在一些实施例中，功能结构域包含Cas结构域(例如，特异性结合目的靶核酸(例如，DNA)序列的Cas结构域。在实施例中，Cas结构域包含Cas9或其突变体或变体(例如，如本文所述)。在实施例中，Cas结构域与指导RNA(gRNA)相关联，例如，如本文所述。在实施例中，Cas结构域被gRNA导向目的靶核酸(例如，DNA)序列。在实施例中，Cas结构域与gRNA在相同的核酸(例如，RNA)分子中编码。在实施例中，Cas结构域与gRNA在不同的核酸(例如，RNA)分子中编码。

在某些实施例中，多肽的DNA结合结构域是相对于天然逆转录转座子序列的异源DNA结合蛋白或结构域。在一些实施例中，异源DNA结合元件是锌指元件或TAL效应子元件，例如锌指或TAL多肽或其功能片段。在一些实施例中，异源DNA结合元件是序列指导的DNA结合元件，例如Cas9、Cpf1或其他已被改变为不具有核酸内切酶活性的CRISPR相关蛋白。在一些实施例中，异源DNA结合元件保留核酸内切酶活性。在一些实施例中，异源DNA结合元件保留部分核酸内切酶活性以切割ssDNA，例如，具有切口酶活性。在一些实施例中，异源DNA结合元件替代多肽的核酸内切酶元件。在特定实施例中，异源DNA结合结构域可以是Cas9、TAL结构域、ZF结构域、Myb结构域、其组合或其倍数中的任何一个或多个。在某些实施例中，异源DNA结合结构域是表1或表3中描述的逆转录转座子或病毒的DNA结合结构域。本领域普通技术人员能够使用工具作为基本局部比对搜索工具(BLAST)，基于与其他已知DNA结合结构域的同源性来鉴定DNA结合结构域。在其他实施例中，例如通过位点特异性突变、增加或减少DNA结合元件(例如锌指的数量和/或特异性)等来修饰DNA结合结构域，以改变DNA结合特异性和亲和力。在一些实施例中，DNA结合结构域从其天然序列改变为具有改变的密码子使用，例如，针对人细胞进行改善。

在一些实施例中，DNA结合结构域包含大范围核酸酶结构域(例如，如本文所述，例如，在核酸内切酶结构域部分中)，或其功能片段。在一些实施例中，大范围核酸酶结构域具有核酸内切酶活性、例如双链切割和/或切口酶活性。在其他实施例中，大范围核酸酶结构域具有降低的活性，例如，缺乏核酸内切酶活性，例如，该大范围核酸酶无催化活性。在一些实施例中，无催化活性的大范围核酸酶用作DNA结合结构域，例如，如Fonfara等人NucleicAcids Res[核酸研究]40(2):847-860(2012)中所述，该文献通过引用以其全文并入本文。在实施例中，该DNA结合结构域相对于野生型DNA结合结构域包含一个或多个修饰、例如经由定向进化(例如，噬菌体辅助的连续进化(PACE))的修饰。

在本发明的某些方面，由Gene Writer^TM系统整合的宿主DNA结合位点可以在基因中、内含子中、外显子中、ORF中、在任何基因的编码区之外、在调节子中、在基因的调节区域内、或在基因的调节区域外。在其他方面，多肽可以结合一个或多于一个宿主DNA序列。

在一些实施例中，Gene Writing系统用于编辑多个等位基因中的靶基因座。在一些实施例中，Gene Writing系统被设计为编辑特定等位基因。例如，Gene Writing多肽可以针对仅存在于一个等位基因上的特定序列，例如包含与靶等位基因(例如，gRNA或退火结构域)具有同源性的模板RNA，但不针对第二同源等位基因。在一些实施例中，Gene Writing系统可以改变单倍型特异性等位基因。在一些实施例中，靶向特定等位基因的Gene Writing系统优先靶向该等位基因，例如，对靶等位基因具有至少2、4、6、8或10倍的偏好。

在某些实施例中，Gene Writer^TM基因编辑器系统RNA进一步包含细胞内定位序列，例如，核定位序列。核定位序列可以是促进RNA输入细胞核中的RNA序列。在某些实施例中，核定位信号位于模板RNA上。在某些实施例中，逆转录转座酶多肽被编码在第一RNA上，并且模板RNA是第二单独RNA，并且核定位信号位于模板RNA上而不是在编码逆转录转座酶多肽的RNA上。尽管不希望受到理论的束缚，但是在一些实施例中，编码逆转录转座酶的RNA主要靶向细胞质以促进其翻译，而模板RNA主要靶向核以促进其逆转座进入基因组。在一些实施例中，核定位信号在模板RNA的3’末端、5'末端或内部。在一些实施例中，核定位信号在异源序列的3’(例如，直接在异源序列的3’)或在异源序列的5’(例如，直接在异源序列的5’)。在一些实施例中，核定位信号被置于模板RNA的5’UTR之外或3’UTR之外。在一些实施例中，核定位信号放置在5’UTR和3’UTR之间，其中任选地，核定位信号不随转基因转录(例如，核定位信号是反义取向或在转录终止信号或聚腺苷酸化信号的下游)。在一些实施例中，核定位序列位于内含子内部。在一些实施例中，多个相同或不同的核定位信号在RNA中，例如在模板RNA中。在一些实施例中，核定位信号的长度小于5、10、25、50、75、100、150、200、250、300、350、400、450、500、600、700、800、900或1000bp。可以使用各种RNA核定位序列。例如，Lubelsky和Ulitsky,Nature[自然]555(107-111),2018描述了RNA序列，其驱动RNA定位进入细胞核。在一些实施例中，核定位信号是SINE衍生的核RNA定位(SIRLOIN)信号。在一些实施例中，核定位信号结合核富集蛋白。在一些实施例中，核定位信号结合HNRNPK蛋白。在一些实施例中，核定位信号富含嘧啶，例如是富含C/T、富含C/U、富含C、富含T或富含U的区域。在一些实施例中，核定位信号衍生自长非编码RNA。在一些实施例中，核定位信号衍生自MALAT1长非编码RNA或是MALAT1的600个核苷酸的M区(在Miyagawa等人,RNA 18,(738-751),2012中描述)。在一些实施例中，核定位信号衍生自BORG长非编码RNA或为AGCCC基序(在Zhang等人,Molecular and Cellular Biology[分子和细胞生物学]34,2318-2329(2014)中描述。在一些实施例中，核定位序列在Shukla等人,The EMBO Journal[EMBO杂志]e98452(2018)中描述。在一些实施例中，核定位信号衍生自非LTR逆转录转座子、LTR逆转录转座子、逆转录病毒或内源逆转录病毒。

在一些实施例中，本文所述的多肽包含一个或多个(例如，2、3、4、5个)核靶向序列，例如核定位序列(NLS)。在一些实施例中，NLS是两组分NLS。在一些实施例中，NLS促进了包含NLS的蛋白质导入到细胞核中。在一些实施例中，将NLS与本文所述的Gene Writer的N末端融合。在一些实施例中，将NLS与Gene Writer的C末端融合。在一些实施例中，将NLS与Cas结构域的N末端或C末端融合。在一些实施例中，接头序列设置在NLS和Gene Writer的相邻结构域之间。

在一些实施例中，NLS包含氨基酸序列MDSLLMNRRKFLYQFKNVRWAKGRRETYLC(SEQ IDNO:1592)、PKKRKVEGADKRTADGSEFESPKKKRKV(SEQ ID NO:1593)、RKSGKIAAIWKRPRKPKKKRKV(SEQ ID NO:1594)、KRTADGSEFESPKKKRKV(SEQ ID NO:1595)、KKTELQTTNAENKTKKL(SEQ IDNO:1596)、或KRGINDRNFWRGENGRKTR(SEQ ID NO:1597)、KRPAATKKAGQAKKKK(SEQ ID NO:1598)，或其功能片段或变体。示例性NLS序列还描述于PCT/EP2000/011690中，该专利的内容针对其对示例性核定位序列的披露通过引用并入本文。在一些实施例中，NLS包含如表39中披露的氨基酸序列。该表的NLS可以与多肽的一个或多个拷贝在多肽中一个或多个位置使用，例如N末端结构域中、肽结构域之间、C末端结构域中或多个位置的组合中的1、2、3个或多个NLS拷贝，以改善细胞核的亚细胞定位。可以在单个多肽中使用多个独特的序列。序列可以是天然的单部分或二部分的，例如，具有一段或两段碱性氨基酸，或者可以用作嵌合二部分序列。序列参考对应于UniProt登录号，除非针对使用亚细胞定位预测算法挖掘的序列指示为SeqNLS(Lin等人BMC Bioinformat[BMC生物信息学]13:157(2012)，通过引用以其整体并入本文)。

表39.用于Gene Writing系统的示例性核定位信号

在一些实施例中，NLS是两组分NLS。两组分NLS典型地包含由间隔子序列(其长度可以是例如约10个氨基酸)间隔开的两个碱性氨基酸簇。单组分NLS典型地缺乏间隔子。两组分NLS的实例是核质蛋白NLS，具有序列KR[PAATKKAGQA]KKKK(SEQ ID NO:1598)，其中间隔子置于括号内。另一个示例性二部分NLS具有序列PKKKRKVEGADKRTADGSEFESPKKK RKV(SEQ ID NO:1600)。示例性NLS描述于国际申请WO 2020051561中，该申请通过引用以其全文并入本文，包括其关于核定位序列的披露。

在某些实施例中，Gene Writer^TM基因编辑器系统多肽进一步包含细胞内定位序列，例如，核定位序列和/或核仁定位序列。核定位序列和/或核仁定位序列可以是促进蛋白质输入到核和/或核仁中的氨基酸序列，其中它可以促进异源序列整合到基因组中。在某些实施例中，Gene Writer^TM基因编辑器系统多肽(例如，逆转录转座酶，例如，根据本文表1或3中的任一项的多肽)进一步包含核仁定位序列。在某些实施例中，逆转录转座酶多肽编码在第一RNA上，模板RNA是第二单独RNA，并且核仁定位信号编码在编码逆转录转座酶多肽的RNA上，而不在模板RNA上。在一些实施例中，核仁定位信号位于多肽的N末端、C末端或内部。在一些实施例中，使用多个相同或不同的核仁定位信号。在一些实施例中，核定位信号的长度小于5、10、25、50、75或100个氨基酸。可以使用各种多肽核仁定位信号。例如，Yang等人,Journal of Biomedical Science[生物化学科学杂志]22,33(2015)描述了一种核定位信号，其也起着核仁定位信号的作用。在一些实施例中，核仁定位信号也可以是核定位信号。在一些实施例中，核仁定位信号可以与核定位信号重叠。在一些实施例中，核仁定位信号可包含碱性残基区段。在一些实施例中，核仁定位信号可以富含精氨酸和赖氨酸残基。在一些实施例中，核仁定位信号可以衍生自在核仁中富集的蛋白质。在一些实施例中，核仁定位信号可以衍生自在核糖体RNA基因座处富集的蛋白质。在一些实施例中，核仁定位信号可以衍生自结合rRNA的蛋白质。在一些实施例中，核仁定位信号可以衍生自MSP58。在一些实施例中，核仁定位信号可以是单组分基序。在一些实施例中，核仁定位信号可以是两组分基序。在一些实施例中，核仁定位信号可以由多个单组分或两组分基序组成。在一些实施例中，核仁定位信号可以由单组分和两组分基序的混合物组成。在一些实施例中，核仁定位信号可以是双重两组分基序。在一些实施例中，核仁定位基序可以是KRASSQALGTIPKRRSSSRFIKRKK(SEQ ID NO:1530)。在一些实施例中，核仁定位信号可以衍生自核因子-κB诱导激酶。在一些实施例中，核仁定位信号可以是RKKRKKK基序(SEQ ID NO:1531)(在Birbach等人,Journal of Cell Science[细胞科学杂志],117(3615-3624),2004中描述)。

在一些实施例中，本文所述的核酸(例如，编码Gene Writer^TM多肽的RNA或编码该RNA的DNA)包含微小RNA结合位点。在一些实施例中，微小RNA结合位点用于增加GeneWriter^TM系统的靶细胞特异性。例如，可以基于在非靶细胞类型中存在但在靶细胞类型中不存在(或相对于非靶细胞而言以降低的水平存在)的miRNA的识别来选择微小RNA结合位点。因此，当编码Gene Writer^TM多肽的RNA存在于非靶细胞中时，它将与miRNA结合，而当编码Gene Writer^TM多肽的RNA存在于靶细胞中时，它将不会与miRNA结合(或结合，但相对于非靶细胞而言以降低的水平结合)。尽管不希望受到理论的束缚，但是miRNA与编码GeneWriter^TM多肽的RNA的结合可例如通过降解编码多肽的mRNA或通过干扰翻译来减少GeneWriter^TM多肽的产生。因此，在这样的实施例中，Gene Writer将比其编辑非靶细胞的基因组更有效地添加/编辑靶细胞的基因组，例如，异源对象序列将比插入非靶细胞的基因组更有效地插入靶细胞的基因组，或者插入或缺失在靶细胞中比在非靶细胞中更有效地产生。也可以将在编码Gene Writer^TM多肽的(或在编码RNA的DNA中编码的)RNA中具有微小RNA结合位点的系统与受第二微小RNA结合位点调节的模板RNA组合使用，例如，如本文标题为“GeneWriter^TM基因编辑器系统的模板RNA组分”中所述。在一些实施例中，例如，对于肝脏适应症，miRNA选自WO 2020014209(通过引用并入本文)的表4。

在一些实施例中，编码Gene Writer多肽的DNA包含启动子序列，例如组织特异性启动子序列。在一些实施例中，组织特异性启动子用于增加Gene Writer^TM系统的靶细胞特异性。例如，可以基于启动子在靶细胞类型中有活性但在非靶细胞类型中无活性(或在较低水平上有活性)来选择启动子。在多肽的DNA中具有组织特异性启动子序列的系统也可以与微小RNA结合位点组合使用，例如，在模板RNA或编码Gene Writer^TM蛋白的核酸中，例如如本文所述。在编码Gene Writer多肽的DNA中具有组织特异性启动子序列的系统也可以与编码由组织特异性启动子驱动的RNA模板的DNA组合使用，例如，以实现靶细胞中比非靶细胞中更高水平的RNA模板。在一些实施例中，例如，对于肝脏适应症，组织特异性启动子选自WO2020014209(通过引用并入本文)的表3。

技术人员可以基于表1和3中提供的登录号和/或序列，例如通过使用常规序列分析工具(如基本局部比对搜索工具(BLAST)或CD-搜索(用于保守结构域分析))，来确定每个逆转录转座子或病毒及其结构域的核酸和相应的多肽序列。其他序列分析工具是已知的并且可以在以下中找到：例如https://molbiol-tools.ca,例如，https://molbiol-tools.ca/Motifs.htm。

本文的表1和3提供了示例性转座子或病毒的序列，包括逆转录转座酶、逆转录酶、DNA结合结构域和/或核酸内切酶结构域的一个或多个氨基酸序列；5'和3'非翻译区的序列，以允许多肽，例如逆转录转座酶结合模板RNA；和/或完整的转座子核酸序列。在一些实施例中，包含在表1或3中或由表1或3引用的5'UTR允许多肽例如逆转录转座酶结合模板RNA。在一些实施例中，包含在表1或3中或由表1或3引用的3'UTR允许多肽例如逆转录转座酶结合模板RNA。因此，在一些实施例中，用于本文所述的任何系统中的多肽可以是本文表1或表3中的任一个的多肽，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％的同一性的序列。在一些实施例中，该系统进一步包含表1或3中包含或引用的5'或3'非翻译区中之一或两者(或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列)，例如来自与前一句中提到的多肽相同的转座子，如上表同一行所示。在一些实施例中，该系统包含表1或3中包含或引用的5'或3'非翻译区中之一或两者，例如，完整转座子序列的片段(其编码能够结合逆转录转座酶的RNA)和/或标题为预测的5’UTR或预测的3’UTR的列中提供的子序列。

在一些实施例中，本文所述的系统或方法涉及来自表3的逆转录转座子的3'UTR、5'UTR或两者。在一些实施例中，3'UTR、5'UTR或两者具有包含国际申请PCT/US2019/048607(其通过引用以其整体并入本文，包括表3)的表3的第5列中所示的完整逆转录转座子DNA序列的一部分的序列。在一些实施例中，核酸序列或氨基酸序列与PCT/US2019/048607的表3中的序列具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性。

在一些实施例中，本文所述的系统或方法涉及国际申请PCT/US2019/048607(其通过引用以其整体并入本文，包括表1和2)的表1或表2中描述的逆转录转座子的核酸序列或氨基酸序列。在一些实施例中，核酸序列或氨基酸序列与PCT/US2019/048607的所述表1或表2中描述的逆转录转座子的序列具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％的同一性。

在一些实施例中，用于本文描述的任何系统中的多肽可以是基于多个逆转录转座子的对齐的多肽序列的分子重建或遗传重建。在一些实施例中，用于本文描述的任何系统中的5'或3'非翻译区可以是基于多个逆转录转座子的对齐的5'或3'非翻译区的分子重建。基于本文提供的登录号，技术人员可以例如通过使用常规序列分析工具(如基本局部比对搜索工具(BLAST)或CD-搜索(用于保守结构域分析))来比对多肽或核酸序列。可以基于共有序列创建分子重建，例如使用在Ivics等人,Cell[细胞]1997,501-510；Wagstaff等人,Molecular Biology and Evolution[分子生物学与进化]2013,88-99。在一些实施例中，如通过诸如Boissinot等人,Molecular Biology and Evolution[分子生物学与进化]2000,915-928中所述的系统发育方法所评估的，衍生出5'或3'非翻译区或多肽的逆转录转座子是年轻的或最近活跃的移动元件。

热稳定的Gene Writer^TM系统

尽管不希望受到理论的束缚，但在某些实施例中，在冷环境中进化的逆转录转座酶在人体温度下可能无法正常发挥作用。该申请提供了许多热稳定的Gene Writer^TM系统，包括源自禽逆转录转座酶的蛋白质。表3中的示例性禽转座酶序列包括斑胸草雀(锦花雀；转座子名称R2-1_TG)、中地雀(中嘴地雀；转座子名称R2-1_Gfo)、白喉带鹀(白喉麻雀；转座子名称R2-1_ZA)和白喉

(白喉栖鸟；转座子名称R2-1_TGut)的那些。

可以例如通过测试Gene Writer^TM在高温(例如37℃)和低温(例如25℃)下体外聚合DNA的能力来测量热稳定性。用于测定体外DNA聚合活性(例如，可加工性)的合适条件描述于例如Bibillo和Eickbush,“High Processivity of the Reverse Transcriptasefrom a Non-long Terminal Repeat逆转录转座子[非长末端重复逆转录转座子的逆转录酶的高生产力]”(2002)JBC 277,34836-34845。在一些实施例中，热稳定的Gene Writer^TM多肽在37℃时具有的活性例如DNA聚合活性不低于其在25℃时在其他方面相似的条件下的活性的70％、75％、80％、85％、90％或95％。

在一些实施例中，Gene Writer^TM多肽(例如表1或3的序列或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、在98％或99％同一性的序列)在选自哺乳动物(例如人)或鸟的受试者中是稳定的。在一些实施例中，本文所述的Gene Writer^TM多肽在37℃起作用。在一些实施例中，本文所述的Gene Writer^TM多肽在37℃具有比在较低温度例如在30℃、25℃或20℃更高的活性。在一些实施例中，本文所述的Gene Writer^TM多肽在人细胞中比在斑马鱼细胞中具有更高的活性。

在一些实施例中，Gene Writer^TM多肽在37℃培养的人细胞中是有活性的，例如，使用PCT/US2019/048607(其通过引用并入本文)的实例6或实例7的测定。

在一些实施例中，所述测定包括以下步骤：(1)将HEK293T细胞以10,000个细胞/孔引入一个或多个直径为6.4mm的孔中，(2)将细胞在37℃下孵育24小时，(3)提供包含0.5μl的

HD转染试剂和80ng DNA(其中DNA是质粒，其依顺序包含(a)CMV启动子，(b)与靶位点上游100bp同源的100bp序列，(c)编码与Gene Writer^TM蛋白结合的5’非翻译区的序列，(d)编码Gene Writer^TM蛋白的序列，(e)编码与Gene Writer^TM蛋白结合的3’非翻译区的序列，(f)与靶位点下游100bp同源的100bp序列，和(g)BGH聚腺苷酸化序列)以及10μlOpti-MEM的转染混合物，并且在室温下孵育15分钟，(4)将转染混合物添加到细胞中，(5)将细胞孵育3天，以及(6)测定外源序列进入细胞基因组中的靶基因座(例如，rDNA)的整合，例如，其中一个或多个前述步骤如PCT/US2019/048607(其通过引用并入本文)的实例6所述进行。

在一些实施例中，Gene Writer^TM多肽导致异源对象序列(例如，GFP基因)以至少0.01、0.025、0.05、0.075、0.1、0.15、0.2、0.25、0.3、0.4、0.5、0.75、1、1.25、1.5、1.75、2、2.5、3、4或5个拷贝/基因组的平均拷贝数插入靶基因座(例如，rDNA)中。在一些实施例中，本文所述的细胞(例如，在靶插入位点包含异源序列的细胞)包含异源对象序列，其平均拷贝数是至少0.01、0.025、0.05、0.075、0.1、0.15、0.2、0.25、0.3、0.4，0.5、0.75、1、1.25、1.5、1.75、2、2.5、3、4或5个拷贝/基因组。

在一些实施例中，Gene Writer^TM引起靶RNA中序列的整合，其中在末端具有相对少的截短事件。例如，在一些实施例中，Gene Writer^TM蛋白(例如，SEQ ID NO:1016的蛋白)导致进入靶位点的整合子的约25％-100％，50％-100％，60％-100％，70％-100％，75％-95％，80％-90％或86.17％未被截短，如本文所述的测定(例如PCT/US2019/048607(其通过引用并入本文)的实例6和图8的测定)所测量的。在一些实施例中，Gene Writer^TM蛋白(例如，SEQ ID NO:1016的蛋白)导致进入靶位点的整合子的至少约30％、40％、50％、60％、70％、80％或90％未被截短，如本文所述的测定所测量的。在一些实施例中，使用测定将整合子分为截短的和未被截短的，所述测定包含扩增，所述扩增使用包含距元件(例如，野生型转座子序列，例如斑胸草雀)的末端565bp的正向引物和位于靶插入位点的基因组DNA(例如rDNA)中的反向引物。在一些实施例中，靶插入位点中的全长整合子的数目大于靶插入位点中的被截短300-565个核苷酸的整合子的数目，例如，全长整合子的数目是截短的整合子的数目的至少1.1x、1.2x、1.5x、2x、3x、4x、5x、6x、7x、8x、9x或10x，或全长整合子的数目是截短的整合子的数目的至少1.1x-10x、2x-10x、3x-10x或5x-10x。

在一些实施例中，本文描述的系统或方法导致异源对象序列在靶细胞的基因组中的仅一个靶位点处插入。可以例如使用高于1％、1.5％、2％、2.5％、3％、3.5％、4％、4.5％、5％的阈值来测量插入，例如，如PCT/US2019/048607(其通过引用并入本文)的实例8中所述。在一些实施例中，本文所述的系统或方法导致异源对象序列的插入，其中少于1％、1.5％、2％、2.5％、3％、3.5％、4％、4.5％、5％、10％、20％、30％、40％或50％的插入是在靶位点以外的其他位点，例如，使用本文所述的测定，例如，PCT/US2019/048607的实例8的测定。

在一些实施例中，本文所述的系统或方法导致异源对象序列的“无痕”插入，而在一些实施例中，由于插入异源序列，靶位点可显示出内源DNA的缺失或重复。不同逆转录转座子的机制可能导致在宿主基因组中在逆转座过程中发生的在靶位点处的不同的复制或缺失模式。在一些实施例中，系统导致无痕插入，在周围的基因组DNA中没有重复或缺失。在一些实施例中，系统导致在插入上游缺失小于1、2、3、4、5、10、50或100bp的基因组DNA。在一些实施例中，系统导致在插入下游缺失小于1、2、3、4、5、10、50或100bp的基因组DNA。在一些实施例中，系统导致在插入上游重复小于1、2、3、4、5、10、50或100bp的基因组DNA。在一些实施例中，系统导致在插入下游重复小于1、2、3、4、5、10、50或100bp的基因组DNA。

在一些实施例中，本文所述的Gene Writer^TM或其DNA结合结构域特异性结合其靶位点，例如如使用PCT/US2019/048607(其通过引用并入本文)的实例21的测定所测量的。在一些实施例中，Gene Writer^TM或其DNA结合结构域与其靶位点的结合以比与人基因组中任何其他结合位点的结合更强。例如，在一些实施例中，在PCT/US2019/048607的实例21的测定中，靶位点代表超过50％、60％、70％、80％、90％或95％的Gene Writer^TM或其DNA结合结构域与人基因组DNA的结合事件。

基因工程化的，例如二聚话的Gene Writer^TM系统

一些非LTR逆转录转座子利用两个亚基来完成逆转座(Christensen等人PNAS[美国国家科学院院刊]2006)。在一些实施例中，本文所述的逆转录转座酶包含两个连接的亚基作为单个多肽。例如，可以将两个野生型逆转座酶用接头连接起来以形成共价的“二聚化的”蛋白。在一些实施例中，编码逆转录转座酶的核酸编码作为单个多肽表达的两个逆转录转座酶亚基。在一些实施例中，亚基通过肽接头连接，如本文在标题为“接头”的部分中所描述的，以及例如在Chen等人Adv Drug Deliv Rev[先进药物输送评论]2013中所描述的。在一些实施例中，多肽中的两个亚基通过刚性接头连接。在一些实施例中，刚性接头由基序(EAAAK)_n(SEQ ID NO:1534)组成。在其他实施例中，多肽中的两个亚基通过柔性接头连接。在一些实施例中，柔性接头由基序(Gly)_n组成。在一些实施例中，柔性接头由基序(GGGGS)_n(SEQ ID NO:1535)组成。在一些实施例中，刚性或柔性接头由长度1、2、3、4、5、10、15或更多个氨基酸组成，以使得能够进行逆转座。在一些实施例中，接头由刚性和柔性接头基序的组合组成。

基于机制，两个逆转录转座酶亚基并不需要全部功能。在一些实施例中，融合蛋白可以由完全功能性亚基和缺少一个或多个功能性结构域的第二亚基组成。在一些实施例中，一个亚基可缺少逆转录酶功能。在一些实施例中，一个亚基可缺少逆转录酶结构域。在一些实施例中，一个亚基可仅具有核酸内切酶活性。在一些实施例中，一个亚基可仅具有核酸内切酶结构域。在一些实施例中，构成单个多肽的两个亚基可以提供互补的功能。

在一些实施例中，一个亚基可缺少核酸内切酶功能。在一些实施例中，一个亚基可缺少核酸内切酶结构域。在一些实施例中，一个亚基可仅具有逆转录酶活性。在一些实施例中，一个亚基可仅具有逆转录酶结构域。在一些实施例中，一个亚基可仅具有DNA依赖性DNA合成功能。

接头

在一些实施例中，本文所述的组合物和系统的结构域(例如，多肽的核酸内切酶和逆转录酶结构域或多肽的DNA结合结构域和逆转录酶结构域)可以通过接头连接。本文所述的包含接头元件的组合物具有S1-L-S2的一般形式，其中S1和S2可以相同或不同，并代表通过接头彼此相关联的两个结构域部分(例如，各自是多肽或核酸结构域)。在一些实施例中，接头可以连接两个多肽。在一些实施例中，接头可以连接两个核酸分子。在一些实施例中，接头可以连接多肽和核酸分子。接头可以是化学键，例如一个或多个共价键或非共价键。接头可以是柔性的、刚性的和/或可切割的。在一些实施例中，接头是肽接头。通常，肽接头的长度是至少2、3、4、5、6、7、8、9、10或更多个氨基酸，例如，长度是2-50个氨基酸，长度是2-30个氨基酸。

最常用的柔性接头具有的序列主要由Gly和Ser残基(“GS”接头)段组成。柔性接头可以有用于连接需要一定程度的移动或相互作用的结构域，并且可以包括小的、非极性的(例如Gly)或极性的(例如Ser或Thr)氨基酸。Ser或Thr的掺入还可以通过与水分子形成氢键来维持接头在水溶液中的稳定性，且因此减少了接头与其他部分之间的不利相互作用。这样的接头的实例包括具有结构[GGS]^≥1或[GGGS]^≥1(SEQ ID NO:1536)的那些。刚性接头有用于保持各结构域之间的固定距离并维持它们的独立功能。当结构域的空间分离对于保持药剂中一种或多种组分的稳定性或生物活性至关重要时，刚性接头也可以是有用的。刚性接头可以具有α螺旋结构或富含脯氨酸的序列(Pro-rich序列)、(XP)n，其中X表示任何氨基酸，优选Ala、Lys或Glu。可切割接头可以在体内释放游离的功能性结构域。在一些实施例中，接头可以在特异性条件下(例如在还原剂或蛋白酶的存在下)切割。体内可切割接头可利用二硫键的可逆性质。一个实例包括两个Cys残基之间的凝血酶敏感性序列(例如，PRS)。CPRSC(SEQ ID NO:1537)的体外凝血酶处理导致凝血酶敏感性序列的切割，而可逆的二硫键保持完整。此类接头是已知的，并且例如在Chen等人,2013.融合蛋白接头：特性、设计和功能。Adv Drug Deliv Rev.[先进药物输送评论]65(10):1357-1369中描述。本文所述组合物中接头的体内切割也可以通过蛋白酶进行，该蛋白酶在病理条件下(例如癌症或炎症)在体内、在特定细胞或组织中、或在受限的某些细胞区室内表达。许多蛋白酶的特异性在受限的区室中提供了对接头的较缓慢切割。

在一些实施例中，氨基酸接头是存在于天然多肽的此类结构域之间的内源氨基酸(或与之同源)。在一些实施例中，存在于此类结构域之间的内源氨基酸被取代，但是长度与天然长度没有变化。在一些实施例中，将另外的氨基酸残基添加至结构域之间的天然存在的氨基酸残基。

在一些实施例中，氨基酸接头被计算地设计或筛选以最大化蛋白质功能(Anad等人,FEBS Letters[FEBS通讯],587:19,2013)。

另外的结构域：

Gene Writer^TM多肽包含结合靶DNA序列和模板核酸(例如模板RNA)、对靶位点进行切口以及将模板书写(例如逆转录)入DNA中所必需的功能，从而产生靶位点的修饰。在一些实施例中，可以向多肽添加另外的结构域以提高过程的效率。在一些实施例中，GeneWriter^TM多肽可包含另外的DNA连接结构域以将逆转录的DNA连接至靶位点的DNA。在一些实施例中，多肽可以包含异源RNA结合结构域。在一些实施例中，多肽可包含具有5'至3'核酸酶外切活性的结构域(例如，其中5'至3'核酸酶外切活性增加靶位点的改变的修复，例如有利于改变原始基因组序列)。在一些实施例中，多肽可包含具有3'至5'核酸酶外切活性，例如校对活性的结构域。在一些实施例中，书写结构域，例如RT结构域，具有3'至5'核酸酶外切活性，例如校对活性。

在一些实施例中，多肽不包含RNA酶H结构域。在一些实施例中，多肽包含与其他结构域之一内源的RNA酶H结构域。在一些实施例中，多肽包含与其他结构域异源的RNA酶H结构域。在一些实施例中，多肽包含失活的内源RNA酶H结构域。

在一些实施例中，如本文所述的Gene Writer包含与指导RNA(gRNA)相关联的多肽。在某些实施例中，gRNA包含在模板核酸分子中。在其他实施例中，gRNA与模板核酸分子分开。在其中gRNA包含在模板核酸分子中的一些实施例中，模板核酸分子进一步包含gRNA间隔子序列(例如，在其5'末端的1、2、3、4、5、10、15、20、25、30、40、50、60、70、80、90或100个核苷酸处或内)。在实施例中，gRNA间隔子包含与靶核酸分子中包含的核酸序列具有至少85％、90％、95％、96％、97％、98％、99％或100％序列同一性的序列。在实施例中，gRNA间隔子在靶核酸分子中包含的核酸序列处引导Cas结构域(例如，Cas9)活性。在其中gRNA包含在模板核酸分子中的一些实施例中，模板核酸分子进一步包含引物结合位点(例如，在其3'末端的1、2、3、4、5、10、15、20、25、30、40、50、60、70、80、90或100个核苷酸处或内)。在实施例中，引物结合位点包含与位于靶核酸分子上切口位点的5’末端(例如，在1、2、3、4、5、6、7、8、9、10、15、20、25、30、40或50个核苷酸内)的核酸序列具有至少85％、90％、95％、96％、97％、98％、99％或100％序列同一性的核酸序列。在实施例中，引物结合位点与靶核酸分子的结合起到引发TPRT的作用。

Gene Writer^TM基因编辑系统的模板核酸组分

本文所述的Gene Writer^TM系统可以使用模板核酸序列修饰宿主靶DNA位点。在一些实施例中，本文所述的Gene Writer^TM系统通过靶引的逆转录(TPRT)将RNA序列模板转录到宿主靶DNA位点中。通过将RNA序列模板直接逆转录到宿主基因组中来编写一个或多个DNA序列，Gene Writer^TM系统可以将对象序列插入靶基因组中，而不需要将外源DNA序列引入宿主细胞中(不同于例如CRISPR系统)以及消除外源DNA插入步骤。Gene Writer^TM系统还可以从靶基因组中缺失序列或使用对象序列引入取代。因此，Gene Writer^TM系统提供了使用定制的RNA序列模板的平台，该模板包含对象序列，例如，包含异源基因编码和/或功能信息的序列。

在一些实施例中，Gene Writer系统包含模板核酸(例如，RNA或DNA)分子。在一些实施例中，模板核酸分子包含5'同源区和/或3'同源区。在一些实施例中，5'同源区包含与包含在靶核酸分子中的核酸序列具有至少85％、90％、95％、96％、97％、98％、99％、或100％相似性的核酸序列。在实施例中，靶核酸分子中的核酸序列在靶插入位点(例如，相对于靶插入位点在5’)的约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、或100个核苷酸内，例如，对于异源对象序列，例如，包含在模板核酸分子中。

在一些实施例中，3'同源区包含与包含在靶核酸分子中的核酸序列具有至少85％、90％、95％、96％、97％、98％、99％、或100％同一性的核酸序列。在实施例中，靶核酸分子中的核酸序列在靶插入位点(例如，相对于靶插入位点在3’)的约1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、60、70、80、90、或100个核苷酸内，例如，对于异源对象序列，例如，包含在模板核酸分子中。在一些实施例中，5'同源区与模板核酸分子的其余部分是异源的。在一些实施例中，3'同源区与模板核酸分子的其余部分是异源的。

在一些实施例中，模板核酸(例如，模板RNA)包含3'靶同源结构域。在一些实施例中，3'靶同源结构域位于异源对象序列的3'并且与跟待由本文所述系统修饰的位点相邻的序列互补，或与跟待由系统/Gene Writer^TM修饰的位点相邻的序列互补的序列包含不超过1、2、3、4或5个错配。在一些实施例中，3'同源区在靶核酸分子中切口位点的1、2、3、4、5、6、7、8、9或10个核苷酸内结合。在一些实施例中，3'同源区与靶核酸分子的结合允许启动靶引发的逆转录(TPRT)，例如，3'同源区充当TPRT的引物。在一些实施例中，3'靶同源结构域与靶位点退火，这提供了结合位点和3'羟基用于Gene Writer多肽启动TPRT。在一些实施例中，3'靶同源结构域长度是3-5、5-10、10-30、10-25、10-20、10-19、10-18、10-17、10-16、10-15、10-14、10-13、10-12、10-11、11-30、11-25、11-20、11-19、11-18、11-17、11-16、11-15、11-14、11-13、11-12、12-30、12-25、12-20、12-19、12-18、12-17、12-16、12-15、12-14、12-13、13-30、13-25、13-20、13-19、13-18、13-17、13-16、13-15、13-14、14-30、14-25、14-20、14-19、14-18、14-17、14-16、14-15、15-30、15-25、15-20、15-19、15-18、15-17、15-16、16-30、16-25、16-20、16-19、16-18、16-17、17-30、17-25、17-20、17-19、17-18、18-30、18-25、18-20、18-19、19-30、19-25、19-20、20-30、20-25、或25-30nt，例如，长度是10-17、12-16、或12-14nt。

在一些实施例中，模板核酸(例如，模板RNA)包含异源对象序列。在一些实施例中，异源对象序列可以由Gene Writer^TM多肽的RT结构域转录，例如，从而将改变引入基因组DNA中的靶位点。在一些实施例中，异源对象序列的长度是至少32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、120、140、160、180、200、500或1,000个核苷酸(nt)，或长度是至少1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10千碱基。在一些实施例中，异源对象序列的长度是不超过33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、120、140、160、180、200、500、1,000或2000个核苷酸(nt)，或长度是不超过20、15、10、9、8、7、6、5、4或3千碱基。在一些实施例中，异源对象序列的长度是30-1000、40-1000、50-1000、60-1000、70-1000、74-1000、75-1000、76-1000、77-1000、78-1000、79-1000、80-1000、85-1000、90-1000、100-1000、120-1000、140-1000、160-1000、180-1000、200-1000、500-1000、30-500、40-500、50-500、60-500、70-500、74-500、75-500、76-500、77-500、78-500、79-500、80-500、85-500、90-500、100-500、120-500、140-500、160-500、180-500、200-500、30-200、40-200、50-200、60-200、70-200、74-200、75-200、76-200、77-200、78-200、79-200、80-200、85-200、90-200、100-200、120-200、140-200、160-200、180-200、30-100、40-100、50-100、60-100、70-100、74-100、75-100、76-100、77-100、78-100、79-100、80-100、85-100或90-100个核苷酸(nt)，或长度是1-20、1-15、1-10、1-9、1-8、1-7、1-6、1-5、1-4、1-3、1-2、2-20、2-15、2-10、2-9、2-8、2-7、2-6、2-5、2-4、2-3、3-20、3-15、3-10、3-9、3-8、3-7、3-6、3-5、3-4、4-20、4-15、4-10、4-9、4-8、4-7、4-6、4-5、5-20、5-15、5-10、5-9、5-8、5-7、5-6、6-20、6-15、6-10、6-9、6-8、6-7、7-20、7-15、7-10、7-9、7-8、8-20、8-15、8-10、8-9、9-20、9-15、9-10、10-15、10-20或15-20千碱基。在一些实施例中，异源对象序列的长度为10-100、10-90、10-80、10-70、10-60、10-50、10-40、10-30或10-20nt，例如长度为10-80、10-50或10-20nt，例如，长度为约10-20nt。在一些实施例中，模板RNA包含如表43中所列的序列，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列。

在某些实施例中，模板核酸包含定制的RNA序列模板，其可以鉴定、设计、工程化和构建定制的RNA序列模板，以包含改变或指定宿主基因组功能的序列，例如通过将异源编码区引入基因组；影响或引起外显子结构/替代性剪接；引起内源基因的破坏；引起内源基因的转录激活；引起内源DNA的表观遗传调节；引起可操作地连接的基因上调或下调，等等。在某些实施例中，可以将定制的RNA序列模板工程化以包含编码外显子和/或转基因的序列，提供与转录因子激活剂、阻遏物、增强子等及其组合的结合位点。在其他实施例中，编码序列可以进一步用剪接受体位点、聚A尾定制。在某些实施例中，RNA序列可包含编码与RLE逆转录转座酶同源的RNA序列模板的序列，经工程化以包含异源编码序列或其组合。

模板核酸(例如，模板RNA)可以与靶DNA有一些同源性。在一些实施例中，模板核酸(例如，模板RNA)的3'靶同源结构域可以用作靶DNA的退火区，使得靶DNA被定位以引发模板核酸的逆转录(例如，模板RNA)。在一些实施例中，模板核酸(例如，模板RNA)具有在所述RNA的3’末端的与靶DNA完全同源的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、60、70、80、90、100、110、120、130、140、150、175、200或更多个碱基。在一些实施例中，模板核酸(例如，模板RNA)具有例如在模板核酸(例如，模板RNA)的5’末端的与靶DNA至少50％、60％、70％、80％、85％、90％、95％、97％、98％、99％或100％同源的至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、25、30、35、40、45、50、60、70、80、90、100、110、120、130、140、150、160、175、180或200或更多个碱基。在一些实施例中，模板核酸(例如，模板RNA)具有与非LTR逆转录转座子(例如本文所述的非LTR逆转录转座子)(例如表1或3中的非LTR逆转录转座子)的3’序列至少50％、60％、70％、80％、85％、90％、95％、97％、98％、99％或100％同源的至少10、15、20、25、30、40、50、60、80、100、120、140、160、180、200或更多个碱基的3’区。

本文所述的Gene Writer^TM基因组编辑系统的模板核酸(例如，模板RNA)组分通常能够结合系统的Gene Writer^TM基因组编辑蛋白。在一些实施例中，模板核酸(例如，模板RNA)具有3'区，其能够结合Gene Writer^TM基因组编辑蛋白。结合区，例如3’区，可以是结构化的RNA区，例如具有至少1、2或3个发夹环，其能够结合系统的Gene Writer^TM基因组编辑蛋白。结合区可以将模板核酸(例如，模板RNA)与任何多肽模块相关联。在一些实施例中，模板核酸(例如，模板RNA)的结合区可以与多肽中的RNA结合结构域相关联。在一些实施例中，模板核酸(例如，模板RNA)的结合区可以与多肽的逆转录结构域相关联(例如，特异性结合RT结构域)。例如，当逆转录结构域来源于非LTR逆转录转座子时，模板核酸(例如模板RNA)可以包含来源于非LTR逆转录转座子的结合区，例如来自非LTR逆转录转座子的3’UTR。在一些实施例中，模板核酸(例如，模板RNA)可以与多肽的DNA结合结构域相关联，例如，gRNA与Cas9来源的DNA结合结构域相关联。在一些实施例中，结合区还可以提供DNA靶识别，例如gRNA与靶DNA序列杂交并结合多肽，例如Cas9结构域。在一些实施例中，模板核酸(例如，模板RNA)可以与多肽的多个组分(例如，DNA结合结构域和逆转录结构域)相关联。例如，模板核酸(例如，模板RNA)可以包含与源自Cas9的DNA结合结构域相关联的gRNA区域和来自与源自非LTR逆转录转座子的逆转录结构域相关联的非LTR逆转录转座子的3’UTR。

在一些实施例中，模板RNA在3'末端具有聚A尾。在一些实施例中，模板RNA在3'末端不具有聚A尾。在一些实施例中，模板核酸(例如，模板RNA)具有与非LTR逆转录转座子(例如本文所述的非LTR逆转录转座子)的5’序列至少40％、50％、60％、70％、80％、90％、95％或更高同源的至少10、15、20、25、30、40、50、60、80、100、120、140、160、180、200或更多个碱基的5’区。

系统的模板核酸(例如模板RNA)通常包含用于插入靶DNA的对象序列(例如异源对象序列)。对象序列可以是编码的或非编码的。

在一些实施例中，本文所述的系统或方法包含单个模板核酸(例如，模板RNA)。在一些实施例中，本文所述的系统或方法包含多个模板核酸(例如，模板RNA)。例如，本文描述的系统包含第一RNA和第二RNA(例如，模板RNA)，该第一RNA包含(例如，从5'到3')结合GeneWriter^TM多肽的序列(例如，DNA结合结构域和/或核酸内切酶结构域，例如，gRNA)和结合靶位点(例如，靶基因组中位点的第二链)的序列，该第二RNA包含(例如，从5'到3')任选的结合Gene Writer^TM多肽(例如，特异性结合RT结构域)的序列、异源对象序列和3’靶同源结构域。在一些实施例中，当系统包含多个核酸时，每个核酸包含缀合结构域。在一些实施例中，缀合结构域使得核酸分子能够相关联，例如，通过互补序列的杂交。例如，在一些实施例中，第一RNA包含第一缀合结构域并且第二RNA包含第二缀合结构域，并且第一和第二缀合结构域能够例如在严格条件下彼此杂交。在一些实施例中，杂交的严格条件包括在约65℃在4x氯化钠/柠檬酸钠(SSC)中杂交，然后在约65℃在1xSSC中洗涤。

在一些实施例中，对象序列可以包含开放阅读框。在一些实施例中，模板核酸(例如，模板RNA)具有科扎克序列。在一些实施例中，模板RNA具有内部核糖体进入位点。在一些实施例中，模板RNA具有自切割肽，例如T2A或P2A位点。在一些实施例中，模板RNA具有起始密码子。在一些实施例中，模板RNA具有剪接受体位点。在一些实施例中，模板RNA具有剪接供体位点。示例性剪接受体和剪接供体位点在WO 2016044416中进行了描述，将其通过引用以其整体并入本文。示例性剪接受体位点序列是本领域技术人员已知的，并且仅作为示例包括CTGACCCTTCTCTCTCTCCCCCAGAG(SEQ ID NO:1601)(来自人HBB基因)和TTTCTCTCCCACAAG(SEQ ID NO:1602)(来自人免疫球蛋白-γ基因)。在一些实施例中，模板RNA在终止密码子的下游具有微小RNA结合位点。在一些实施例中，模板RNA在开放阅读框的终止密码子下游具有聚A尾。在一些实施例中，模板RNA包含一个或多个外显子。在一些实施例中，模板RNA包含一个或多个内含子。在一些实施例中，模板RNA包含真核转录终止子。在一些实施例中，模板RNA包含增强的翻译元件或翻译增强元件。在一些实施例中，RNA包含人T细胞白血病病毒(HTLV-1)R区。在一些实施例中，RNA包含增强核输出的转录后调节元件，例如乙型肝炎病毒(HPRE)或土拨鼠肝炎病毒(WPRE)的转录后调节元件。

在一些实施例中，本文所述的核酸(例如，模板RNA或编码模板RNA的DNA)包含微小RNA结合位点。在一些实施例中，微小RNA结合位点用于增加Gene Writer^TM系统的靶细胞特异性。例如，可以基于在非靶细胞类型中存在但在靶细胞类型中不存在(或相对于非靶细胞而言以降低的水平存在)的miRNA的识别来选择微小RNA结合位点。因此，当模板RNA存在于非靶细胞中时，它将与miRNA结合，而当模板RNA存在于靶细胞中时，它将不会与miRNA结合(或结合，但相对于非靶细胞而言以降低的水平结合)。尽管不希望受到理论的束缚，但miRNA与模板RNA的结合可以干扰其活性，例如，可以干扰异源对象序列插入基因组。因此，该系统将比其编辑非靶细胞的基因组更有效地添加/编辑靶细胞的基因组，例如，异源对象序列将比插入非靶细胞的基因组更有效地插入靶细胞的基因组，或者插入或缺失在靶细胞中比在非靶细胞中更有效地产生。在模板RNA(或编码它的DNA)中具有microRNA结合位点的系统也可以与编码Gene Writer^TM多肽的核酸组合使用，其中Gene Writer^TM多肽的表达受第二microRNA结合位点的调节，例如如本文所述，例如在标题为“Gene Writer^TM基因编辑器系统的多肽组分”的部分中所述。在一些实施例中，例如，对于肝脏适应症，miRNA选自WO2020014209(通过引用并入本文)的表4。

在一些实施例中，对象序列可以含有非编码序列。例如，模板核酸(例如，模板RNA)可以包含调节元件，例如，启动子或增强子序列或miRNA结合位点。在一些实施例中，对象序列在靶位点的整合将导致内源基因的上调。在一些实施例中，对象序列在靶位点的整合将导致内源基因的下调。在一些实施例中，模板核酸(例如，模板RNA)包含组织特异性启动子或增强子，其中的每个可以是单向的或双向的。在一些实施例中，启动子是RNA聚合酶I启动子、RNA聚合酶II启动子或RNA聚合酶III启动子。在一些实施例中，启动子包含TATA元件。在一些实施例中，启动子包含B识别元件。在一些实施例中，启动子具有针对转录因子的一个或多个结合位点。

在一些实施例中，本文所述的核酸(例如，模板RNA或编码模板RNA的DNA)包含启动子序列，例如组织特异性启动子序列。在一些实施例中，组织特异性启动子用于增加GeneWriter^TM系统的靶细胞特异性。例如，可以基于启动子在靶细胞类型中有活性但在非靶细胞类型中无活性(或在较低水平上有活性)来选择启动子。因此，即使启动子整合到非靶细胞的基因组中，它也不会驱动整合基因的表达(或仅驱动低水平表达)。如本文所述，在模板RNA中具有组织特异性启动子序列的系统也可与微小RNA结合位点(例如在模板RNA或编码Gene Writer^TM蛋白的核酸中)组合使用。在模板RNA中具有组织特异性启动子序列的系统也可与由组织特异性启动子驱动的编码Gene Writer^TM多肽的DNA组合使用，例如，以在靶细胞中获得比非靶细胞中更高水平的Gene Writer^TM蛋白。在一些实施例中，例如，对于肝脏适应症，组织特异性启动子选自WO 2020014209(通过引用并入本文)的表3。

在一些实施例中，Gene Writer系统，例如编码Gene Writer多肽的DNA、编码模板RNA的DNA或编码异源对象序列的DNA或RNA，被设计成使得一个或多个元件可操作地连接到组织特异性启动子，例如在T细胞中有活性的启动子。在进一步的实施例中，T细胞活性启动子在其他细胞类型例如B细胞、NK细胞中是无活性的。在一些实施例中，T细胞活性启动子源自编码T细胞受体组分(例如TRAC、TRBC、TRGC、TRDC)的基因的启动子。在一些实施例中，T细胞活性启动子源自编码T细胞特异性分化蛋白簇(例如CD3，例如CD3D、CD3E、CD3G、CD3Z)的组分的基因的启动子。在一些实施例中，通过比较跨细胞类型的公开可用的基因表达数据并从在T细胞中具有增强的表达的基因中选择启动子来发现Gene Writer系统中的T细胞特异性启动子。在一些实施例中，可以根据所期望的表达宽度选择启动子，例如仅在T细胞中具有活性的启动子、仅在NK细胞中具有活性的启动子、在T细胞和NK细胞中都具有活性的启动子。

在一些实施例中，模板RNA包含微小RNA序列、siRNA序列、指导RNA序列、piwi RNA序列。

在一些实施例中，模板核酸(例如，模板RNA)包含协调表观遗传修饰的位点。在一些实施例中，模板核酸(例如，模板RNA)包含染色质绝缘子。例如，模板核酸(例如模板RNA)包含CTCF位点或靶向用于DNA甲基化的位点。

在一些实施例中，模板核酸(例如，模板RNA)包含由至少一个可操作地连接至效应子序列的调节区构成的基因表达单元。效应子序列可以是转录成RNA的序列(例如，编码序列或非编码序列，例如编码微小RNA的序列)。

在一些实施例中，将模板核酸(例如，模板RNA)的对象序列插入靶基因组的内源内含子中。在一些实施例中，将模板核酸(例如，模板RNA)的对象序列插入靶基因组中，从而充当新的外显子。在一些实施例中，将对象序列插入靶基因组导致天然外显子的替换或天然外显子的跳过。

在一些实施例中，将模板核酸(例如，模板RNA)的对象序列插入靶基因组的基因组安全港位点中，例如AAVS1、CCR5、ROSA26或白蛋白基因座中。在一些实施例中，使用GeneWriter将CAR整合到T细胞受体α恒定(TRAC)基因座中(Eyquem等人Nature[自然]543,113-117(2017))。在一些实施例中，使用Gene Writer将CAR整合到T细胞受体β恒定(TRBC)基因座中。许多其他安全港已通过计算方法鉴定(Pellenz等人Hum Gen Ther[人类基因疗法]30,814-828(2019))并且可用于Gene Writer介导的整合。在一些实施例中，将模板核酸(例如，模板RNA)的对象序列添加到基因组的基因间或基因内区域中。在一些实施例中，将模板核酸(例如，模板RNA)的对象序列添加到基因组的内源活性基因的5’或3’的0.1kb、0.25kb、0.5kb、0.75，kb，1kb、2kb、3kb、4kb，5kb、7.5kb、10kb、15kb、20kb、25kb、50、75kb或100kb之内。在一些实施例中，将模板核酸(例如，模板RNA)的对象序列添加到基因组的内源启动子或增强子的5’或3’的0.1kb、0.25kb、0.5kb、0.75，kb，1kb、2kb、3kb、4kb，5kb、7.5kb、10kb、15kb、20kb、25kb、50、75kb或100kb之内。在一些实施例中，模板核酸(例如模板RNA)的对象序列可以是例如在50-50,000个碱基对之间(例如，在50-40,000bp之间，在500-30,000bp之间，在500-20,000bp之间，在100-15,000bp之间，在500-10,000bp之间，在50-10,000bp之间，在50-5,000bp之间。

模板核酸(例如，模板RNA)可以设计成在靶DNA基因座处产生插入、突变或缺失。在一些实施例中，模板核酸(例如，模板RNA)可被设计成导致插入靶DNA。例如，模板核酸(例如，模板RNA)可以含有异源序列，其中逆转录将导致异源序列插入靶DNA中。在其他实施例中，RNA模板可以设计为将缺失写入靶DNA。例如，模板核酸(例如，模板RNA)可以在所期望缺失的上游和下游匹配靶DNA，其中逆转录将导致从模板核酸(例如模板RNA)上游和下游序列的复制，而没有间插序列，例如导致间插序列的缺失。在其他实施例中，模板核酸(例如，模板RNA)可被设计为将编辑写入靶DNA。例如，模板RNA可以在一个或多个核苷酸除外的情况下匹配靶DNA序列，其中逆转录将导致这些编辑复制到靶DNA中，例如导致突变，例如转换或颠换突变。

在一些实施例中，模板具有一个或多个有助于模板与Gene Writer^TM多肽结合的序列。在一些实施例中，这些序列可以源自逆转录转座子UTR。在一些实施例中，UTR可以位于所期望插入序列的侧翼。在一些实施例中，具有靶位点同源性的序列可以位于一个或两个UTR之外。在一些实施例中，具有靶位点同源性的序列可以与靶序列退火以引发逆转录。在一些实施例中，5'和/或3’UTR可以位于靶位点同源序列的末端，例如，使得靶引发的逆转录排除5'和/或3’UTR的逆转录。在一些实施例中，Gene Writer^TM系统可导致插入所期望的载荷而无需任何额外的序列(例如，不含用于结合Gene Writer^TM蛋白的UTR的基因表达单元)。

可以使用模板RNA基序的替代取向，例如，将靶位点整合限制到所期望的遗传载荷。在一些实施例中，多肽关联结构域可以位于所期望模板序列的5'。例如，异源对象序列可位于5'UTR和3'UTR的下游，给出5'-3'取向5'UTR-3'UTR-(异源对象序列)。在其他实施例中，仅将3'UTR添加到异源对象序列的上游。例如，给出5'-3'取向3'UTR-(异源对象序列)。在某些实施例中，多肽编码区和异源对象序列可以在同一分子上编码，但其中5'UTR(例如，来自R2逆转录转座子的5'UTR)出现在两个区域之间，例如，给出5'-3'取向(多肽编码序列)-5'UTR-(异源对象序列)。

在一些实施例中，模板核酸，例如，模板RNA，可以包含gRNA(例如，pegRNA)。在一些实施例中，模板核酸，例如，模板RNA，可以通过模板核酸的gRNA部分与模板核酸结合结构域(例如RNA结合结构域(例如，异源RNA结合结构域))的相互作用而结合至Gene Writer^TM多肽。在一些实施例中，异源RNA结合结构域是CRISPR/Cas蛋白，例如Cas9。

在一些实施例中，包含gRNA的模板核酸(例如模板RNA)的区域采用结合到靶DNA的gRNA的下绕带状结构(例如以下所述：如Mulepati等人Science[科学]2014年9月19日:第345卷,第6203期,第1479-1484页)。不希望受理论束缚，这种非规范结构被认为是通过每六个核苷酸轮换出RNA-DNA杂合体来促进的。因此，在一些实施例中，包含gRNA的模板核酸(例如模板RNA)的区域可以耐受以某个间隔(例如每六个碱基)与靶位点增加的错配。在一些实施例中，包含与靶位点同源的gRNA的模板核酸(例如模板RNA)区域可以具有以规则间隔(例如每六个碱基)的摆动位置，其不需要与靶位点进行碱基配对。

具有诱导活性的gRNA

在一些实施例中，模板核酸，例如模板RNA，包含具有诱导活性的gRNA。可通过模板核酸例如模板RNA实现诱导活性，该模板核酸(除gRNA之外)还包含阻断结构域，其中部分或全部阻断结构域的序列至少部分互补于gRNA的一部分或全部。因此，阻断结构域能够与gRNA的一部分或全部杂交或基本上杂交。在一些实施例中，阻断结构域和诱导活性gRNA布置在模板核酸例如模板RNA上，使得gRNA可以采用第一构象(其中阻断结构域与gRNA杂交或基本上杂交)和第二构象(其中阻断结构域不与gRNA杂交或基本上不杂交)。在一些实施例中，在第一构象中，gRNA不能结合Gene Writer多肽(例如，模板核酸结合结构域、DNA结合结构域或核酸内切酶结构域(例如，CRISPR/Cas蛋白))或以与缺乏阻断结构域的相似模板RNA相比亲和力显著降低的方式结合。在一些实施例中，在第二构象中，gRNA能够结合GeneWriter多肽(例如，模板核酸结合结构域、DNA结合结构域或核酸内切酶结构域(例如，CRISPR/Cas蛋白))。在一些实施例中，gRNA是处于第一构象还是第二构象可影响(例如GeneWriter多肽所包含的CRISPR/Cas蛋白的)Gene Writer多肽的DNA结合或核酸内切酶活性是否有活性。在一些实施例中，gRNA与阻断结构域的杂交可以使用开放分子破坏。在一些实施例中，开放分子包含与gRNA的部分或全部或阻断结构域结合并抑制gRNA与阻断结构域杂交的试剂。在一些实施例中，开放分子包含核酸，例如，包含与gRNA、阻断结构域或两者部分地或完全地互补的序列。通过选择或设计合适的开放分子，提供的开放分子可以促进gRNA构象的变化，使其可以与CRISPR/Cas蛋白相关联并提供CRISPR/Cas蛋白的相关功能(例如，DNA结合和/或核酸内切酶活性)。不希望受理论束缚，在选定的时间和/或位置提供开放分子可以允许对gRNA、CRISPR/Cas蛋白或包含它们的Gene Writer系统的活性进行空间和时间控制。在一些实施例中，Gene Writer可包含如表40或表37中所列的Cas蛋白或其功能片段，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％、99％同一性的序列。

表40 CRISPR/Cas蛋白、物种和突变

表9B提供了定义用于设计gRNA和/或模板RNA的必要组分的参数，以将表3A中列出的Cas变体应用于Gene Writing。如果它们可用于给定基因座处，则等级表示优选Cas变体。切割位点指示经验证或预测的前间隔子邻近基序(PAM)要求、经验证或预测的切割位点位置(相对于PAM位点的最上游碱基)。给定酶的gRNA可以通过连接crRNA、Tetraloop和tracrRNA序列，并进一步在间隔子(min)和间隔子(max)内添加长度与靶位点的前间隔子匹配的5'间隔子来组装。此外，ssDNA切口在靶标上的预测位置对于设计模板RNA的3'区域(其需要立即与切口5'的序列退火，以启动靶引发的逆转录)很重要。

表9B.定义用于设计gRNA和/或模板RNA的必要组分的参数以将表9A中列出的Cas变体应用于Gene Writing

在一些实施例中，开放分子对于包含Gene Writer多肽和/或模板核酸的细胞是外源的。在一些实施例中，开放分子包含内源试剂(例如，对于包含Gene Writer多肽和/或模板核酸(其包含gRNA和封闭结构域)的细胞而言是内源的)。例如，可以选择诱导型gRNA、封闭结构域和开放分子，使得开放分子是在靶细胞或组织中表达的内源试剂，例如，从而确保Gene Writer系统在靶细胞或组织中的活性。作为另一个实例，可以选择诱导型gRNA、封闭结构域和开放分子，使得开放分子在一个或多个非靶细胞或组织中不存在或基本上不表达，例如，从而确保Gene Writer系统的活性在一种或多种非靶细胞或组织中不发生或基本上不发生，或与靶细胞或组织相比以降低的水平发生。示例性阻断结构域、开放分子及其用途在PCT申请公开WO 2020044039 A1(其通过引用以其整体并入本文)中描述。在一些实施例中，模板核酸，例如模板RNA，可以包含一个或多个UTR(例如来自R2型逆转录转座子)和gRNA。在一些实施例中，UTR促进模板核酸(例如，模板RNA)与Gene Writer多肽的writing结构域，例如逆转录酶结构域的相互作用。在一些实施例中，gRNA促进与多肽的模板核酸结合结构域(例如，RNA结合结构域)的相互作用。在一些实施例中，gRNA将多肽引导至匹配的靶序列，例如，在靶细胞基因组中。在一些实施例中，模板核酸可以仅包含逆转录酶结合基序(例如来自R2的3’UTR)，并且gRNA可以作为用于靶位点识别的第二核酸分子(例如第二RNA分子)提供。在一些实施例中，含有RT结合基序的模板核酸可以与gRNA存在于同一分子上，但通过切割活性(例如核酶)加工成两个RNA分子。

在一些实施例中，可以定制模板RNA以校正靶细胞基因组DNA中的给定突变(例如，离体或体内，例如在靶组织或器官中，例如在受试者中)。例如，突变可以是相对于野生型序列的疾病相关突变。不希望受理论束缚，经验参数组有助于确保模板RNA或其部分的最佳初始计算机模拟设计。作为非限制性说明性实例，对于选择的突变，可以采用以下设计参数。在一些实施例中，通过获取突变任一侧上大约500bp(例如，高达50、100、150、200、250、300、350、400、450、500、550、600、650、或700bp并且任选地至少20、30、40、50、100、150、200、250、300、350、400、450、500、550、600、或650bp)侧翼序列启动设计以作为靶区域。在一些实施例中，模板核酸包含gRNA。设计gRNA的方法是本领域技术人员已知的。在一些实施例中，gRNA包含结合靶位点的序列(例如，CRISPR间隔区)。通过以下来选择结合靶位点的序列(例如CRISPR间隔子)用于将模板核酸靶向靶区域：考虑所使用的特定Gene Writer多肽(例如，核酸内切酶结构域或writing结构域，例如，包含CRISPR/Cas结构域)(例如，对于Cas9，紧邻20nt gRNA结合区3’的NGG的原间隔子邻近基序(PAM))。在一些实施例中，通过首先根据PAM是否将被Gene Writing诱导的编辑破坏来选择CRISPR间隔子。在一些实施例中，PAM的中断可以提高编辑效率。在一些实施例中，可以通过以下来破坏PAM：还在Gene Writing期间在靶位点中(例如，作为基因组DNA中靶位点的另一种修饰的一部分或除此之外再)引入沉默突变(例如，不改变由靶核酸序列编码的氨基酸残基的突变，如果有的话)。在一些实施例中，通过以下来选择CRISPR间隔子：根据其相应基因组位点与所期望编辑位置的接近程度对序列进行排序。在一些实施例中，gRNA包含gRNA支架。在一些实施例中，使用的gRNA支架可以是标准支架(例如，对于Cas9，5’-GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCC-3’(SEQ ID NO:1591))，或者可以包含一个或多个核苷酸取代。在一些实施例中，异源对象序列与第一链切口3’的靶位点(例如，第一链切口的紧邻3’或第一链切口3’的多达1、2、3、4或5个核苷酸)具有至少90％的同一性，例如至少90％、95％、98％、99％或100％的同一性，或包含不超过1、2、3、4或5个非同一性位置，除了可由Gene Writer写入靶位点的任何插入、取代或缺失。在一些实施例中，3’靶同源结构域与第一链切口5’的靶位点(例如，第一链切口的紧邻5’或第一链切口3’的多达1、2、3、4或5个核苷酸)具有至少90％的同一性，例如，至少90％、95％、98％、99％或100％的同一性，或包含不超过1、2、3、4或5个非同一性位置。

针对经修饰的RNA(例如gRNA或模板RNA)的方法和组合物

在一些实施例中，系统的RNA组分(例如，模板RNA或gRNA)包含一个或多个核苷酸修饰。在一些实施例中，与未修饰或末端修饰的指导物相比，gRNA的修饰模式可显著影响体内活性(例如，如以下所示：来自Finn等人Cell Rep[细胞报道]22(9):2227-2235(2018)的图1D；通过引用以其整体并入本文)。不希望受理论束缚，该过程可能至少部分归因于修饰赋予的RNA稳定性。这种修饰的非限制性实例可以包括2'-O-甲基(2'-O-Me)、2'-0-(2-甲氧基乙基)(2'-0-MOE)、2'-氟(2'-F)、核苷酸之间的硫代磷酸酯(PS)键、G-C取代以及核苷酸及其等价物之间的反向无碱基连接。

在一些实施例中，模板RNA(例如，在其结合靶位点的部分)或指导RNA包含5'末端区域。在一些实施例中，模板RNA或指导RNA不包含5'末端区域。在一些实施例中，5'末端区包含CRISPR间隔子区，例如，如Briner AE等人、Molecular Cell[分子细胞]56:333-339(2014)中关于sgRNA所描述的(通过引用整体并入本文；适用于本文，例如，对于所有指导RNA)。在一些实施例中，5'末端区域包含5'末端修饰。在一些实施例中，具有或不具有间隔子的5'末端区域可以与crRNA、trRNA、sgRNA和/或dgRNA相关联。在一些情况下，CRISPR间隔子可以包含指导区、指导结构域或靶向结构域。在一些实施例中，靶结构域或靶序列可以包含指导区/结构域引导核酸酶切割的核酸序列。在一些实施例中，spyCas9蛋白可以通过存在于CRISPR间隔子中的核苷酸被指导区/结构域引导至靶核酸分子的靶序列。

在一些实施例中，本文所述的模板RNA(例如，在其结合靶位点的部分处)或指导RNA包含WO 2018107028 A1(通过引用以其整体并入本文)的表4中所示的任何序列。在一些实施例中，当序列显示指导区和/或间隔子区时，组合物可以包含或不包含该区域。在一些实施例中，指导RNA包含WO 2018107028 A1的表4中所示的任何序列(例如，如其中由SEQ IDNO表示)的一个或多个修饰。在实施例中，核苷酸可以相同或不同，和/或所示的修饰模式可以与WO 2018107028 A1的表4中所示的指导序列的修饰模式相同或相似。在一些实施例中，修饰模式包括gRNA或gRNA区域(例如5'末端区域、下部茎区、凸起区、上部茎区、连结区、发夹1区、发夹2区，3'末端区域))的修饰的相对位置和同一性。在一些实施例中，修饰模式包含WO 2018107028 A1的表4的序列栏中所示的任一序列的修饰和/或在该序列的一个或多个区域上的修饰的至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、或100％。在一些实施例中，修饰模式与WO 2018107028 A1的表4的序列栏中所示的任一序列的修饰模式至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％相同。在一些实施例中，修饰模式在WO 2018107028 A1的表4中所示序列的一个或多个区域(例如，在5’末端区域、下茎区域、凸起区域、上茎区域、连结区、发夹1区、发夹2区，和/或3’末端区域)上至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、或100％相同。在一些实施例中，修饰模式与5'末端区域上序列的修饰模式至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、或100％相同。在一些实施例中，修饰模式在下茎上至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、或100％相同。在一些实施例中，修饰模式在凸起上至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％相同。在一些实施例中，修饰模式在上茎上至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、或100％相同。在一些实施例中，修饰模式在连结区上至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、或100％相同。在一些实施例中，修饰模式发夹1上至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％相同。在一些实施例中，修饰模式发夹2上至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％或100％相同。在一些实施例中，修饰模式在3'端上至少50％、55％、60％、70％、75％、80％、85％、90％、95％、96％、97％、98％、99％、或100％相同。在一些实施例中，修饰模式与WO2018107028 A1的表4的序列或这样的序列的区域(例如5'末端、下茎、凸起、上茎、连结、发夹1、发夹2、3'末端)的修饰模式例如在0、1、2、3、4、5、6或更多个核苷酸处不同。在一些实施例中，gRNA包含修饰，这些修饰与WO 2018107028 A1的表4的序列的修饰例如在0、1、2、3、4、5、6或更多个核苷酸处不同。在一些实施例中，gRNA包含修饰，这些修饰语WO 2018107028A1的表4的序列的区域(例如，5'末端、下茎、凸起、上茎、连结、发夹1、发夹2、3'末端)的修饰例如在0、1、2、3、4、5、6或更多个核苷酸处不同。

在一些实施例中，模板RNA(例如，在其结合靶位点的部分)或gRNA包含2'-O-甲基(2'-O-Me)修饰的核苷酸。在一些实施例中，gRNA包含2'-O-(2-甲氧基乙基)(2'-O-moe)修饰的核苷酸。在一些实施例中，gRNA包含2'-氟(2'-F)修饰的核苷酸。在一些实施例中，gRNA包含核苷酸之间的硫代磷酸酯(PS)键。在一些实施例中，gRNA包含5'末端修饰、3'末端修饰或5'和3'末端修饰。在一些实施例中，5'末端修饰包含核苷酸之间的硫代磷酸酯(PS)键。在一些实施例中，5'末端修饰包含2'-O-甲基(2'-O-Me)、2'-O-(2-甲氧基乙基)(2'-O-MOE)和/或2'-氟(2'-F)修饰的核苷酸。在一些实施例中，5'末端修饰包含至少一个硫代磷酸酯(PS)键和2'-O-甲基(2'-O-Me)、2'-O-(2-甲氧基乙基)(2'-O-MOE)和/或2'-氟(2'-F)修饰的核苷酸中的一个或多个。末端修饰可以包含硫代磷酸酯(PS)、2'-O-甲基(2'-O-Me)、2'-O-(2-甲氧基乙基)(2'-O-MOE)和/或2'-氟(2'-F)修饰。等效的末端修饰也包含在本文所述的实施例中。在一些实施例中，模板RNA或gRNA包含末端修饰与模板RNA或gRNA的一个或多个区域的修饰组合。用于保护RNA(例如gRNA)的其他示例性修饰和方法及其式在WO2018126176 A1(其通过引用以其整体并入本文)中进行了描述。

在一些实施例中，结构指导的且系统的方法用于将修饰(例如，2′-OMe-RNA、2′-F-RNA、和PS修饰)引入模板RNA或指导RNA，例如，如在Mir等人Nat Commun[自然通讯]9:2641(2018)(通过引用整体并入本文)中描述。在一些实施例中，2'-F-RNA的掺入增加了RNA:RNA或RNA:DNA双链体的热稳定性和核酸酶稳定性，例如，同时对C3'-内糖褶皱的干扰最小。在一些实施例中，在2'-OH对RNA:DNA双链体稳定性很重要的位置，2'-F可能比2'-OMe具有更好的耐受性。在一些实施例中，crRNA包含一个或多个不降低Cas9活性的修饰，例如C10、C20或C21(完全修饰的)，例如，如Mir等人Nat Commun[自然通讯]9:2641(2018)(通过引用整体并入本文)的补充表1中所述。在一些实施例中，tracrRNA包含一个或多个不降低Cas9活性的修饰，例如Mir等人Nat Commun[自然通讯]9:2641(2018)的补充表1中所述的T2、T6、T7或T8(完全修饰的)。在一些实施例中，包含一个或多个修饰(例如，如本文所述)的crRNA可以与包含一个或多个修饰(例如C20和T2)的tracrRNA配对。在一些实施例中，gRNA包含例如crRNA和tracrRNA的嵌合体(例如，Jinek等人Science[科学]337(6096):816-821(2012))。在实施例中，来自crRNA和tracrRNA的修饰被映射到单指导嵌合体上，例如，以产生具有增强稳定性的经修饰的gRNA。

在一些实施例中，gRNA分子可以通过添加或减少天然存在的结构组分例如发夹来修饰。在一些实施例中，gRNA可包含缺失了一个或多个3'发夹元件的gRNA，例如，如WO2018106727(通过引用以其整体并入本文)中所述。在一些实施例中，gRNA可以包含添加的发夹结构，例如，在间隔子区中添加的发夹结构，其在Kocak等人Nat Biotechnol[自然生物技术]37(6):657-666(2019)的教导中显示增加CRISPR-Cas系统的特异性。其他修饰，包括缩短的gRNA和提高体内活性的特定修饰的实例可以在US20190316121(通过引用以其整体并入本文)中找到。

在一些实施例中，结构指导的且系统的方法(例如，如以下中所述：Mir等人NatCommun[自然通讯]9:2641(2018)；通过引用以其整体并入本文)用于寻找模板RNA的修饰。在实施例中，通过包含或排除模板RNA的指导区来鉴定修饰。在一些实施例中，与模板RNA结合的多肽结构用于确定RNA的非蛋白质接触核苷酸，然后可以选择这些核苷酸进行修饰，例如，其中破坏RNA与多肽结合的风险较低。模板RNA中的二级结构也可以通过软件工具在计算机上预测，例如RNAstructure工具可在以下获得：rna.urmc.rochester.edu/RNAstructureWeb(Bellaousov等人Nucleic Acids Res[核酸研究]41:W471-W474(2013)；通过引用以其整体并入本文)，例如，以确定用于选择修饰的二级结构，例如发夹、茎和/或凸起。

这里还包括用于组装完整或部分模板RNA分子(例如，Gene Writing模板RNA分子，任选地包含gRNA，或单独的gRNA分子)的组合物和方法。在一些实施例中，RNA分子可以通过两个或更多个(例如，两个、三个、四个、五个、六个、七个、八个、九个、十个或更多个)RNA区段彼此连接来组装。在一个方面，本披露提供了用于产生核酸分子的方法，该方法包括在允许第一RNA区段的5'末端与第二RNA区段的3'末端共价连接的条件下使两个或更多个线性RNA区段彼此接触。在一些实施例中，连接分子可以在允许连接分子的5'末端与第三RNA区段的3'末端共价连接的条件下与第三RNA区段接触。在实施例中，该方法进一步包括将第四、第五或另外的RNA区段连接到伸长的分子。在某些情况下，这种组装形式可以允许快速有效地组装RNA分子。

本披露还提供用于crRNA分子和tracrRNA分子的连接(例如，共价连接)的组合物和方法。在一些实施例中，可以使用与靶位点特异性crRNA分子/区段连接的单个tracrRNA分子/区段产生对不同靶位点具有特异性的指导RNA分子(例如，如US 20160102322 A1的图10所示；通过引用以其整体并入本文)。例如，US 20160102322 A1的图10显示了具有不同crRNA分子的四个管，其中crRNA分子3连接到tracrRNA分子以形成指导RNA分子，从而描绘了两个RNA区段的示例性连接以形成产物RNA分子。

本披露还提供了用于产生对Gene Writer多肽和/或基因组靶位点具有特异性的模板RNA分子的组合物和方法。在一个方面，该方法包括：(1)靶位点的鉴定和对其的期望修饰，(2)RNA区段的产生，包括上游同源区段、异源对象序列区段、Gene Writer多肽结合基序和gRNA区段，和/或(3)将四个或更多个区段连接成至少一个分子，例如，连接成单个RNA分子。在一些实施例中，将(2)中包含的一些或所有模板RNA区段组装成模板RNA分子，例如列出的组分中的一种、两种、三种或四种。在一些实施例中，(2)中包含的区段段可以在另外的区段化分子中产生，例如，分成至少2个、至少3个、至少4个或至少5个或更多个子区段，它们例如随后例如通过本文所述的一种或多种方法组装。

在一些实施例中，RNA区段可以通过化学合成产生。在一些实施例中，RNA区段可以通过核酸模板的体外转录产生，例如通过提供RNA聚合酶以作用于DNA模板的同源启动子以产生RNA转录本。在一些实施例中，使用例如T7、T3、或SP6 RNA聚合酶或其衍生物进行体外转录，该RNA聚合酶或其衍生物作用于DNA(例如，dsDNA、ssDNA、线性DNA、质粒DNA、线性DNA扩增子、线性化质粒DNA)，该DNA例如编码RNA区段，例如在同源启动子(例如，T7、T3或SP6启动子)的转录控制下。在一些实施例中，化学合成和体外转录的组合用于产生RNA区段以便组装。在实施例中，gRNA、上游靶同源性和Gene Writer多肽结合区段通过化学合成产生，并且异源对象序列区段通过体外转录产生。在不希望受理论约束的情况下，体外转录可能更适合于产生较长的RNA分子。在一些实施例中，可降低体外转录的反应温度，例如低于37℃(例如，在0-10℃、10-20℃或20-30℃之间)，以导致更高比例的全长转录本(Krieg NucleicAcids Res[核酸研究]18:6463(1990))。在一些实施例中，采用改进长转录本合成的方案来合成长模板RNA，例如大于5kb的模板RNA，例如使用可以在体外产生27kb转录本的T7RiboMAX表达(Thiel等人J Gen Virol[普通病毒学杂志]82(6):1273-1281(2001))。在一些实施例中，如本文所述对RNA分子的修饰可以在RNA区段合成期间(例如，通过包含经修饰的核苷酸或替代性的结合化学物质)、在通过化学或酶促过程合成RNA区段之后、在一个或多个RNA区段组装之后或其组合中掺入。

在一些实施例中，使用T7聚合酶介导的DNA依赖性RNA转录从线性化DNA模板体外合成系统的mRNA(例如，编码Gene Writer多肽的mRNA)，其中UTP任选地被1-甲基假UTP取代。在一些实施例中，转录本并入5'和3’UTR，例如GGGAAAUAAGAGAGAAAAGAAGAGUAAGAAGAAAUAUAAGAGCCACC(SEQ ID NO:1603)和UGAUAAUAGGCUGGAGCCUCGGUGGCCAUGCUUCUUGCCCCUUGGGCCUCCCCCCAGCCCCUCCUCCCCUUCCUGCACCCGUACCCCCGUGGUCUUUGAAUAAAGUCUGA(SEQ ID NO:1604)或其功能片段或变体，并且任选地包括聚A尾，其可以在DNA模板中编码或在转录后酶促添加。在一些实施例中，将供体甲基集团，例如S-腺苷甲硫氨酸添加到具有cap 0结构的甲基化加帽RNA以产生增加mRNA翻译效率的cap 1结构(Richner等人Cell[细胞]168(6):第1114-1125页(2017))。

在一些实施例中，来自T7启动子的转录本以GGG基序起始。在一些实施例中，来自T7启动子的转录本不以GGG基序起始。已经表明，在转录起始处的GGG基序尽管提供了更高的产率，但由于转录本在模板链的三个C残基上发生从+1到+3的滑移，转录起始处的GGG基序可能导致T7 RNAP合成聚(G)产物的阶梯(Imburgio等人.Biochemistry[生物化学]39(34):10419-10430(2000))。对于调整转录水平和改变转录起始位点核苷酸以适应替代性的5’UTR，Davidson等人.Pac Symp Biocomput[Pac Symp生物计算]433-443(2010)的传授内容描述了满足这两个特征的T7启动子变体及其发现方法。

在一些实施例中，RNA区段可以通过共价偶联彼此连接。在一些实施例中，RNA连接酶(例如，T4 RNA连接酶)可用于将两个或更多个RNA区段彼此连接。当使用诸如RNA连接酶的试剂时，5′末端典型地与3′末端连接。在一些实施例中，如果将两个区段连接，则可以形成两种可能的线性构建体(即，(1)5′-区段1-区段2-3′和(2)5′-区段2-区段1-3′)。在一些实施例中，还可以发生分子内环化。这两个问题可以例如通过阻断一个5′末端或一个3′末端以使RNA连接酶不能将末端连接到另一个末端来解决。在实施例中，如果需要构建体5′-区段1-区段2-3′，则将阻断基团置于区段1的5′端或区段2的3′端可导致仅形成正确的线性连接产物和/或防止分子内环化。用于共价连接两个核酸(例如，RNA)区段的组合物和方法连同包括使用RNA连接酶将两个单链RNA区段彼此定向连接的方法披露于例如US20160102322 A1(通过引用以其全文并入本文)中。

可以与例如T4 RNA连接酶结合使用的末端阻断剂的一个实例是双脱氧终止子。T4RNA连接酶典型地催化5′-磷酸和3′-羟基末端之间磷酸二酯键的ATP依赖性连接。在一些实施例中，当使用T4 RNA连接酶时，合适的末端必须存在于被连接的末端上。在末端阻断T4RNA连接酶的一种手段包括不具有正确的末端形式。通常，具有5-羟基或3'-磷酸的RNA区段的末端不会充当T4 RNA连接酶的底物。

可用于连接RNA区段的另外的示例性方法是通过点击化学(例如，如美国专利号7,375,234和7,070,941以及美国专利公开号2013/0046084中所述，其中的全部披露通过引用并入本文)。例如，一种示例性的点击化学反应是在炔烃基团和叠氮化物基团之间进行(参见US 20160102322 A1的图11，其通过引用以其全文并入本文)。任何点击反应都有可能被用于连接RNA区段(例如，Cu-叠氮化物-炔烃、菌株促进的叠氮化物-炔烃、施陶丁格(Staudinger)连接、四嗪连接、光诱导的四唑-烯烃、硫醇-烯、NHS酯、环氧化物、异氰酸酯和醛-氨基氧基)。在一些实施例中，使用点击化学反应连接RNA分子是有利的，因为点击化学反应快速、模块化、高效，通常不产生有毒废产物，可以用水作为溶剂进行，和/或可以设置成具有立体特异性。

在一些实施例中，可以使用叠氮化物-炔烃胡伊斯根环加成(HuisgenCycloaddition)反应连接RNA区段，该反应典型地是叠氮化物与末端或内部炔烃之间的1,3-偶极环加成，其得到用于连接RNA区段的1,2,3-三唑。在不希望受理论约束的情况下，该连接方法的一个优点可以是该反应可以通过添加所需的Cu(I)离子来引发。RNA区段可以连接的其他示例性机制包括但不限于使用卤素(F-、Br-、I-)/炔烃加成反应、羰基/巯基/马来酰亚胺和羧基/胺连接。例如，可以在3′处用硫醇修饰一个RNA分子(使用二硫键亚酰胺和通用支持物或二硫化物修饰的支持物)，并且可以在5′处用acrydite修饰另一个RNA分子(使用丙烯酸亚磷酰胺)，然后可以通过迈克尔(Michael)加成反应将两个RNA分子连接。该策略也可以应用于逐步连接多个RNA分子。还提供了用于将多于两个(例如，三个、四个、五个、六个等)RNA分子彼此连接的方法。在不希望受理论约束的情况下，当所需的RNA分子长于约40个核苷酸时，这可能是有用的，例如，使得化学合成效率降低，例如，如US 20160102322 A1(其通过引用以其全文并入本文)中所指明。

举例来说，tracrRNA的长度通常约为80个核苷酸。此类RNA分子可以例如通过诸如体外转录或化学合成的过程来产生。在一些实施例中，当化学合成用于产生此类RNA分子时，它们可以作为单一合成产物或通过将两个或更多个合成的RNA区段彼此连接来产生。在实施例中，当三个或更多个RNA区段彼此连接时，可以使用不同的方法将各个区段连接在一起。此外，RNA区段可以在一锅(例如，容器、器皿、孔、管、板或其他接受器)中、全部同时或在一锅中在不同时间或在不同锅中在不同时间彼此连接。在非限制性实例中，为了按数字顺序组装RNA区段1、2和3，可以首先将RNA区段1和2从5'到3'彼此连接。然后可以纯化反应产物的反应混合物组分(例如，通过色谱法)，然后放置在第二锅中，以便将3′末端与RNA区段3的5′末端连接。然后可以将最终反应产物与RNA区段3的5′末端连接。

在另一个非限制性实例中，RNA区段1(约30个核苷酸)是crRNA的靶基因座识别序列和发夹区1的部分。RNA区段2(约35个核苷酸)含有发夹区1的其余部分和发夹区1与发夹区2之间的一些线性tracrRNA。RNA区段3(约35个核苷酸)含有发夹区1与发夹区2之间的线性tracrRNA的其余部分以及全部的发夹区2。在该实例中，使用点击化学将RNA区段2和3从5′到3′连接。此外，反应产物的5′和3′末端均被磷酸化。然后使反应产物与具有3′末端羟基基团的RNA区段1和T4 RNA连接酶接触以产生指导RNA分子。

许多另外的连接化学物质可以用于根据本发明的方法连接RNA区段。这些化学物质中的一些阐述于US 20160102322 A1的表6中，该文献通过引用以其全文并入本文。

模板核酸组成

在一些实施例中，模板核酸是模板RNA。在一些实施例中，模板RNA包含一个或多个经修饰的核苷酸。例如，在一些实施例中，模板RNA包含一个或多个脱氧核糖核苷酸。在一些实施例中，模板RNA的区域被DNA核苷酸替代，例如，以增强分子的稳定性。例如，模板的3’末端可包含DNA核苷酸，而模板的其余部分包含可以逆转录的RNA核苷酸。例如，在一些实施例中，异源对象序列主要或完全由RNA核苷酸(例如，至少90％、95％、98％或99％RNA核苷酸)构成。在一些实施例中，3'UTR和3'靶同源结构域之一或两者主要或完全由DNA核苷酸(例如，至少90％、95％、98％或99％DNA核苷酸)构成。在其他实施例中，用于书写进入基因组的模板区域可以包含DNA核苷酸。在一些实施例中，模板中的DNA核苷酸通过能够具有DNA依赖性DNA聚合酶活性的结构域复制到基因组中。在一些实施例中，DNA依赖性DNA聚合酶活性由多肽中的DNA聚合酶结构域提供。在一些实施例中，DNA依赖性DNA聚合酶活性由逆转录酶结构域提供，该逆转录酶结构域也能够进行DNA依赖性DNA聚合，例如第二链合成。在一些实施例中，DNA依赖性DNA聚合酶活性由DNA聚合酶提供。在一些实施例中，由多肽中的DNA聚合酶结构域提供的DNA依赖性DNA聚合酶活性不能具有逆转录活性。在一些实施例中，模板分子仅由DNA核苷酸构成。在一些实施例中，DNA模板通过DNA聚合酶聚合到基因组中。在一些实施例中，由DNA核苷酸构成的模板包含经修饰的DNA核苷酸。在一些实施例中，由DNA核苷酸构成的模板包含经修饰的主链。

构成Gene Writer^TM系统的模板的核苷酸可以是天然碱基或经修饰的碱基，或其组合。例如，模板可以包含假尿苷、二氢尿苷、肌苷、7-甲基鸟苷或其他经修饰的碱基。在一些实施例中，模板可以包含锁核酸核苷酸。在一些实施例中，模板中使用的经修饰的碱基不抑制模板的逆转录。在一些实施例中，模板中使用的经修饰的碱基可以提高逆转录，例如特异性或保真度。

Gene Writers^TM的另外的功能性特征

在一些情况下，如本文所述的Gene Writer可以由一个或多个功能性测量值或特征来表征。在一些实施例中，DNA结合结构域具有下述功能特征中的一种或多种。在一些实施例中，RNA结合结构域具有下述功能特征中的一种或多种。在一些实施例中，核酸内切酶结构域具有下述功能特征中的一种或多种。在一些实施例中，逆转录酶结构域具有下述功能特征中的一种或多种。在一些实施例中，模板(例如，模板RNA)具有下述功能特征中的一种或多种。在一些实施例中，由Gene Writer结合的靶位点具有下述功能特征中的一种或多种。

Gene Writer多肽

DNA结合结构域

在一些实施例中，DNA结合结构域能够以比参考DNA结合结构域更大的亲和力结合靶序列(例如，dsDNA靶序列)。在一些实施例中，参考DNA结合结构域是来自家蚕的R2_BM的DNA结合结构域。在一些实施例中，DNA结合结构域能够以100pM-10nM之间(例如，100pM-1nM或1nM-10nM之间)的亲和力结合靶序列(例如，dsDNA靶序列)。

在一些实施例中，DNA结合结构域对其靶序列(例如，dsDNA靶序列)的亲和力在体外测量，例如，通过热泳法，例如，如Asmari等人Methods[方法]146:107-119(2018)(通过引用以其全文并入本文)中所述。

在实施例中，在例如约100倍摩尔过量的摩尔过量的乱序序列竞争者dsDNA存在的情况下，DNA结合结构域能够例如以100pM-10nM之间(例如，100pM-1nM或1nM-10nM之间)的亲和力结合其靶序列(例如，dsDNA靶序列)。

在一些实施例中，发现DNA结合结构域与其靶序列(例如，dsDNA靶序列)相关联的频率高于靶细胞(例如，人靶细胞)基因组中的任何其他序列，例如，如通过ChIP-seq测量的(例如，在HEK293T细胞中)，例如，如He和Pu(2010)Curr.Protoc Mol Biol[分子生物学最新方案]第21章(将其通过引用以其整体并入本文)中所述。在一些实施例中，发现DNA结合结构域与其靶序列(例如，dsDNA靶序列)以比靶细胞的基因组中任何其他序列更频繁至少约5倍或10倍的频率相关联，例如，如通过ChIP-seq(例如，在HEK293T细胞中)测量的，例如，如He和Pu(2010),同上中所述。

RNA结合结构域

在一些实施例中，RNA结合结构域能够以比参考RNA结合结构域更大的亲和力结合模板RNA。在一些实施例中，参考RNA结合结构域是来自家蚕的R2_BM的RNA结合结构域。在一些实施例中，RNA结合结构域能够以100pM-10nM(例如，100pM-1nM或1nM-10nM)的亲和力结合模板RNA。在一些实施例中，RNA结合结构域对其模板RNA的亲和力在体外测量，例如通过热泳，例如，如Asmari等人Methods[方法]146:107-119(2018)(将其通过引用以其整体并入本文)中所述。在一些实施例中，RNA结合结构域对其模板RNA的亲和力在细胞中测量(例如，通过FRET或CLIP-Seq)。

在一些实施例中，RNA结合结构域与模板RNA在体外以比乱序RNA高至少约5倍或10倍的频率相关联。在一些实施例中，RNA结合结构域与模板RNA或乱序RNA之间的关联频率通过CLIP-seq测量，例如，如Lin和Miles(2019)Nucleic Acids Res[核酸研究]47(11):5490-5501(将其通过引用以其整体并入本文)中所述。在一些实施例中，RNA结合结构域与模板RNA在细胞(例如，HEK293T细胞)中以比乱序RNA高至少约5倍或10倍的频率相关联。在一些实施例中，RNA结合结构域与模板RNA或乱序RNA之间的关联频率通过CLIP-seq测量，例如，如Lin和Miles(2019)同上中所述。

核酸内切酶结构域

在一些实施例中，核酸内切酶结构域与靶dsDNA在体外以比乱序dsDNA高至少约5倍或10倍的频率相关联。在一些实施例中，核酸内切酶结构域与靶dsDNA在体外以比乱序dsDNA高至少约5倍或10倍的频率相关联，例如在细胞(例如，HEK293T细胞)中。在一些实施例中，核酸内切酶结构域与靶DNA或乱序DNA之间的关联频率通过ChIP-seq测量，例如，如He和Pu(2010)Curr.Protoc Mol Biol[分子生物学最新方案]第21章(将其通过引用以其整体并入本文)中所述。

在一些实施例中，核酸内切酶结构域可以催化在靶序列处形成切口，例如相对于非靶序列(例如，相对于靶细胞基因组中的任何其他基因组序列)增加至少约5倍或10倍。在一些实施例中，使用NickSeq确定切口形成的水平，例如，如Elacqua等人(2019)bioRxivdoi.org/10.1101/867937(将其通过引用以其整体并入本文)中所述。

在一些实施例中，核酸内切酶结构域能够在体外对DNA进行切口。在实施例中，切口导致暴露的碱基。在实施例中，暴露的碱基可以使用核酸酶敏感性测定来检测，例如，如Chaudhry和Weinfeld(1995)Nucleic Acids Res[核酸研究]23(19):3805-3809(将其通过引用以其整体并入本文)中所述。在实施例中，暴露的碱基的水平(例如，通过核酸酶敏感性测定检测)相对于参考核酸内切酶结构域增加至少10％、50％或更多。在一些实施例中，参考核酸内切酶结构域是来自家蚕的R2_BM的核酸内切酶结构域。

在一些实施例中，核酸内切酶结构域能够在细胞中对DNA进行切口。在实施例中，核酸内切酶结构域能够在HEK293T细胞中对DNA进行切口。在实施例中，在没有Rad51的情况下经历复制的未修复的切口导致切口部位的NHEJ率增加，这可以例如通过使用Rad51抑制测定来检测，例如，如Bothmer等人(2017)Nat Commun[自然通讯]8:13905(将其通过引用以其整体并入本文)中所述。在实施例中，NHEJ率增加至0-5％以上。在实施例中，例如在Rad51抑制后，NHEJ率增加至20％-70％(例如，在30％-60％或40％-50％)。

在一些实施例中，核酸内切酶结构域在切割后释放靶标。在一些实施例中，通过评估酶的多次周转间接指示靶标的释放，例如，如Yourik等人RNA25(1):35-44(2019)(将其通过引用以其整体并入本文)中所述并如图2所示。在一些实施例中，如通过此类方法测量的，核酸内切酶结构域的k_exp为1x 10^-3-1 x 10^-5min-1。

在一些实施例中，核酸内切酶结构域在体外具有大于约1x 10⁸s^-1M^-1的催化效率(k_cat/K_m)。在实施例中，核酸内切酶结构域的催化效率在体外大于约1 x 10⁵、1 x 10⁶、1 x10⁷或1 x 10⁸,s^-1M^-1。在实施例中，催化效率如Chen等人(2018)Science[科学]360(6387):436-439(将其通过引用以其整体并入本文)所述确定。在一些实施例中，核酸内切酶结构域在细胞中具有大于约1 x 10⁸s^-1M^-1的催化效率(k_cat/K_m)。在实施例中，核酸内切酶结构域的催化效率在细胞中大于约1 x 10⁵、1 x 10⁶、1 x 10⁷或1 x 10⁸s^-1M^-1。

逆转录酶结构域

在一些实施例中，相对于参考逆转录酶结构域，逆转录酶结构域在体外具有较低的过早终止率概率(P_off)。在一些实施例中，参考逆转录酶结构域是来自家蚕的R2_BM的逆转录酶结构域或病毒逆转录酶结构域，例如来自M-MLV的RT结构域。

在一些实施例中，逆转录酶结构域具有低于约5 x 10^-3/nt、5 x 10^-4/nt或5 x 10^-6/nt的体外过早终止率(P_off)的较低概率，例如如在1094nt RNA上测量。在实施例中，体外过早终止率如Bibillo和Eickbush(2002)J Biol Chem[生物化学杂志]277(38):34836-34845(将其通过引用以其整体并入本文)中所述确定。

在一些实施例中，逆转录酶结构域能够在细胞中完成至少约30％或50％的整合。完全整合的百分比可以通过将基本上全长整合事件(例如，包含至少98％的预期整合序列的基因组位点)的数量除以细胞群体中总(包括基本上全长和部分)整合事件的数量来测量。在实施例中，使用长读段扩增子测序确定细胞中的整合(例如，跨整合位点)，例如，如Karst等人(2020)bioRxiv doi.org/10.1101/645903(将其通过引用以其整体并入本文)中所述。

在实施例中，定量细胞中的整合包括计数包含至少约75％、80％、85％、90％、95％、96％、97％、98％、99％或100％的对应于模板RNA(例如长度至少为0.05、0.1、0.5、0.6、0.7、0.8、0.9、1、1.5、2、3、4或5kb的模板RNA，例如长度在0.5-0.6、0.6-0.7、0.7-0.8、0.8-0.9、1.0-1.2、1.2-1.4、1.4-1.6、1.6-1.8、1.8-2.0、2-3、3-4或4-5kb)的DNA序列的整合部分。

在一些实施例中，逆转录酶结构域能够在体外聚合dNTP。在实施例中，逆转录酶结构域能够以0.1-50nt/sec(例如0.1-1、1-10或10-50nt/sec)的速率在体外聚合dNTP。在实施例中，通过单分子测定法测量逆转录酶结构域对dNTP的聚合，例如，如Schwartz和Quake(2009)PNAS[美国国家科学院院刊]106(48):20294-20299(将其通过引用以其整体并入)中所述。

在一些实施例中，逆转录酶结构域的体外错误率(例如，核苷酸的错误掺入)是1 x10^-3-1 x 10^-4或1 x 10^-4-1 x 10^-5个取代/nt，例如，如Yasukawa等人(2017)BiochemBiophys Res Commun[生物化学与生物物理研究通讯]492(2):147-153(将其通过引用以其整体并入本文)中所述。在一些实施例中，逆转录酶结构域在细胞(例如，HEK293T细胞)中具有的错误率(例如，核苷酸的错误掺入)是1 x 10^-3-1 x 10^-4或1 x 10^-4-1 x 10^-5个取代/nt，例如，通过长读段扩增子测序，例如，如Karst等人(2020)bioRxiv doi.org/10.1101/645903(将其通过引用以其整体并入本文)中所述。

在一些实施例中，逆转录酶结构域能够在体外进行靶RNA的逆转录。在一些实施例中，逆转录酶需要至少3nt的引物来启动模板的逆转录。在一些实施例中，通过检测来自靶RNA的cDNA来确定靶RNA的逆转录(例如，当提供有ssDNA引物时，例如，其与靶在3'末端退火至少3、4、5、6、7、8、9或10nt)，例如，如Bibillo和Eickbush(2002)J Biol Chem[生物化学杂志]277(38):34836-34845(将其通过引用以其整体并入本文)中所述。

在一些实施例中，与缺乏蛋白质结合基序(例如，3'UTR)的RNA模板相比，例如当将其RNA模板转化为cDNA时，逆转录酶结构域执行逆转录的效率至少高5或10倍(例如，通过cDNA产生)。在实施例中，逆转录效率如Yasukawa等人(2017)Biochem Biophys Res Commun[生物化学与生物物理研究通讯]492(2):147-153(将其通过引用以其整体并入本文)中所述测量。

在一些实施例中，逆转录酶结构域以比任何内源细胞RNA(例如，当在细胞(例如，HEK293T细胞)中表达时)更高的频率(例如，高约5或10倍的频率)特异性结合特定的RNA模板。在实施例中，通过CLIP-seq测量逆转录酶结构域和模板RNA之间的特异性结合频率，例如，如Lin和Miles(2019)Nucleic Acids Res[核酸研究]47(11):5490-5501(将其通过引用以其整体并入本文)中所述。

在一些实施例中，逆转录酶结构域可以包含突变，例如，如表45中所列的突变。在实施例中，突变修饰，例如增加RT结构域的稳定性和功能性。在一些实施例中，突变修饰，例如增加RT结构域的持续合成能力和模板亲和力。在一些实施例中，突变的RT结构域与未突变的RT结构域相比可以显示至少5倍、至少10倍、至少15倍、至少20倍、至少25倍、至少30倍、至少40倍、至少45倍、至少50倍、至少55倍、至少60倍、至少65倍、至少70倍、至少80倍、至少100倍增加的持续合成能力。在实施例中，突变的RT结构域与未突变的RT结构域相比可以显示至少5倍、至少10倍、至少15倍、至少20倍、至少25倍、至少30倍、至少40倍、至少45倍，至少50倍、至少55倍、至少60倍、至少65倍、至少70倍、至少80倍、至少100倍增加的模板亲和力。在一些实施例中，突变RT结构域可以包含一个或多个选自D200N/T330P/L603W、T306K、W313F、L139P、E607K的突变。

表45披露了改善各种逆转录酶特性的突变。跨逆转录病毒各组应用预计最有影响的核心突变。一组病毒中在这些核心突变之一处的序列保守导致在该组中安装突变(参见实例33，图36A和36B)。序列位置是指MMLV RT中的位置。在一些实施例中，本文所述的RT结构域包含如表45中所述的突变。

表45.示例性RT结构域突变的列表

组

L139

D200

T306

W313

T330

L603

E607

γ

D200N

T306K

W313F

T330P

L603W

ε

D200N

T306K

W313F

T330P

L603W

δ

L139P

D200N

X

T330P

L603W*

X

β

L139P

X

T330P

X

Spuma

D200N

T306K

X

T330P

L603W

Cas-RT融合物

在一些实施例中，GeneWriter多肽包含与Cas分子融合的RT结构域。在一些实施例中，Cas分子是GeneWriter多肽的DBD和/或核酸内切酶结构域。在一些实施例中，RT结构域包含Cas9。在一些实施例中，Cas9可以包含突变，例如表40A中披露的突变。表46披露了示例性Cas-RT融合蛋白的列表。

在一些实施例中，GeneWriter多肽中的Cas分子具有与未融合至RT结构域的在其他方面相似Cas分子相似的活性。在一些实施例中，活性是在其他方面相似的Cas分子活性的至少40％、50％、60％、70％、80％或90％。在一些实施例中，GeneWriter多肽中的Cas分子具有的插入缺失形成活性可以是未融合到RT结构域的在其他方面相似的Cas分子的至少40％、50％、60％、70％、80％或90％，例如，在根据实例32的测定中。

在一些实施例中，GeneWriter多肽包含根据下表46的氨基酸序列，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列。在一些实施例中，编码GeneWriter多肽的核酸包含根据表47的核酸序列，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列。

表47.示例性Gene Writer多肽编码mRNA序列

在一些实施例中，融合蛋白可以包含Cas分子，例如，突变的Cas9，例如，含有抑制(例如，灭活)一个核酸内切酶活性位点的突变的Cas-核酸酶，例如，Cas9切口酶Cas9(N863A)。在一些实施例中，融合蛋白包含肽接头，例如富含甘氨酸丝氨酸的柔性肽接头，例如表38和/或42中披露的接头，例如表42中的接头10。在一些实施例中，融合蛋白包含RT结构域，例如包含来自表1、表3、表30、表31、表41、表44、表50的序列或其片段或变体的RT结构域。在一些实施例中，Cas-RT融合蛋白(或编码其的核酸)与gRNA一起配制。在一些实施例中，接头长度为2-40个氨基酸、5-30个氨基酸、5-20个氨基酸、10-20个氨基酸或10-15个氨基酸。在一些实施例中，Cas-RT融合蛋白具有与未与RT结构域融合的Cas分子相似的DNA结合活性。在一些实施例中，Cas-RT可以包含含有突变的RT结构域。在实施例中，与未突变的RT结构域相比，突变的RT结构域显示出增加的持续合成能力和模板亲和力。靶位点

在一些实施例中，在Gene Writing后，例如在少于约50％或10％的整合事件中整合序列周围的靶位点包含有限数量的插入或缺失，例如如通过靶位点的长读段扩增子确定，例如，如Karst等人(2020)bioRxiv doi.org/10.1101/645903(将其通过引用以其整体并入本文)中所述。在一些实施例中，靶位点不显示多个插入事件，例如头对尾或头对头重复，例如，如通过靶位点的长读段扩增子测序确定的，例如，如Karst等人bioRxiv doi.org/10.1101/645903(2020)(将其通过引用以其整体并入本文)中所述。在一些实施例中，靶位点包含对应于模板RNA的整合序列。在一些实施例中，靶位点在超过约1％或10％的事件中不包含由内源RNA产生的插入，例如，如通过靶位点的长读段扩增子测序所确定的，例如，如Karst等人bioRxiv doi.org/10.1101/645903(2020)(将其通过引用以其整体并入本文)中所述。在一些实施例中，靶位点包含对应于模板RNA的整合序列。

第二链切口

在一些实施例中，本文所述的Gene Writer系统包含对靶DNA的第一链和第二链进行切口的切口酶活性。如本文所讨论的，不希望受理论束缚，对靶位点DNA的第一链进行切口被认为提供了可被RT结构域用于逆转录模板RNA的序列(例如，异源对象序列)的3'OH。不希望受理论束缚，认为向第二链引入另外的切口可能使细胞DNA修复机器偏向于比原始基因组序列更频繁地采用基于异源对象序列的序列。在一些实施例中，第二链的另外切口由与第一链的切口相同的核酸内切酶结构域(例如，切口酶结构域)产生。在一些实施例中，相同的Gene Writer多肽对第一链进行切口和对第二链进行切口。在一些实施例中，GeneWriter多肽包含CRISPR/Cas结构域并且第二链的另外切口由另外的核酸(例如包含引导CRISPR/Cas结构域对第二链进行切口的第二gRNA)引导。在其他实施例中，另外的第二链切口由与第一链的切口不同的核酸内切酶结构域(例如，切口酶结构域)产生。在一些实施例中，该不同的核酸内切酶结构域位于另外的多肽中(例如，本发明的系统进一步包含另外的多肽)，与Gene Writer多肽分开。在一些实施例中，另外的多肽包含本文所述的核酸内切酶结构域(例如，切口酶结构域)。在一些实施例中，另外的多肽包含例如本文所述的DNA结合结构域。

在本文中预期第二链切口相对于第一链切口出现的位置可影响以下一项或多项的程度：获得所期望的Gene Writing DNA修饰，出现不期望的双链断裂(DSB)，出现不期望的插入，或出现不期望的缺失。不希望受理论束缚，第二链切口可能以两个总体取向发生：向内切口和向外切口。

在一些实施例中，在向内切口取向，RT结构域进行聚合(例如，使用模板RNA(例如，异源对象序列))远离第二链切口。在一些实施例中，在向内切口取向，第一链的切口的位置和第二链的切口的位置位于第一PAM位点和第二PAM位点之间(例如，在两个切口都由包含CRISPR/Cas结构域的多肽(例如，Gene Writer多肽)产生的情况下)。在一些实施例中，在向内切口取向，第一链的该切口的位置和第二链的切口的位置在多肽和另外的多肽与靶DNA结合的位点之间。在一些实施例中，在向内切口取向，第二链的切口的位置相对于第一链的切口的位置位于多肽和另外的多肽的结合位点的同一侧。在一些实施例中，在向内切口取向，第一链的切口的位置和第二链的切口的位置位于PAM位点和距靶位点一定距离的位点之间。

提供向内切口取向的Gene Writer系统的实例包括：包含CRISPR/Cas结构域的Gene Writer多肽、包含引导对第一链上的靶位点DNA进行切口的gRNA的模板RNA和另外的核酸(其包含在距离第一切口位置一定距离的位点处引导切口的另外的gRNA)，其中第一切口的位置和第二切口的位置在两个gRNA引导Gene Writer多肽所至的位点的PAM位点之间。作为另一个实例，提供向内切口取向的另一种Gene Writer系统包含含有锌指分子和第一切口酶结构域的Gene Writer多肽，其中锌指分子以引导第一切口酶结构域对靶位点的第一链进行切口的方式结合靶DNA；包含CRISPR/Cas结构域的另外的多肽，和包含gRNA的另外的核酸，该gRNA引导另外的多肽在第二链上与靶位点DNA相距一段距离的位点进行切口，其中第一切口的位置和第二切口的位置位于PAM位点和锌指分子结合的位点之间。作为另一个实例，提供向内切口取向的另一种Gene Writer系统包含含有锌指分子和第一切口酶结构域的Gene Writer多肽，其中锌指分子以引导第一切口酶结构域对靶位点的第一链进行切口的方式结合靶DNA；包含TAL效应子分子和第二切口酶结构域的另外的多肽，其中TAL效应子分子以引导另外的多肽对第二链进行切口的方式结合到距靶位点一定距离的位点，其中第一切口的位置和第二个切口的位置在TAL效应子分子结合的位点和锌指分子结合的位点之间。

在一些实施例中，在向外切口取向，RT结构域进行聚合(例如，使用模板RNA(例如，异源对象序列))朝向第二链切口。在一些实施例中，在向内切口取向，当第一和第二切口均由包含CRISPR/Cas结构域的多肽(例如，Gene Writer多肽)产生时，第一PAM位点和第二PAM位点位于第一链的切口的位置和第二链的切口的位置之间。在一些实施例中，在向内切口取向，多肽(例如，Gene Writer多肽)和另外的多肽结合至靶DNA上位于第一链的切口的位置和第二链的切口的位置之间的位点。在一些实施例中，在向内切口取向，第二链的切口的位置相对于第一链的切口的位置位于多肽和另外的多肽的结合位点的相对侧。在一些实施例中，在向内取向，PAM位点和距靶位点一定距离的位点位于第一链的切口的位置和第二链的切口的位置之间。

提供向外切口取向的Gene Writer系统的实例包括：包含CRISPR/Cas结构域的Gene Writer多肽、包含引导对第一链上的靶位点DNA进行切口的gRNA的模板RNA和另外的核酸(其包含在距离第一切口位置一定距离的位点处引导切口的另外的gRNA)，其中第一切口的位置和第二切口的位置在两个gRNA引导Gene Writer多肽所至的位点的PAM位点之外(即PAM位点位于第一切口的位置和第二切口的位置之间)。作为另一个实例，提供向外切口取向的另一种Gene Writer系统包含含有锌指分子和第一切口酶结构域的Gene Writer多肽，其中锌指分子以引导第一切口酶结构域对靶位点的第一链进行切口的方式结合靶DNA；包含CRISPR/Cas结构域的另外的多肽，和包含gRNA的另外的核酸，该gRNA引导另外的多肽在第二链上与靶位点DNA相距一段距离的位点进行切口，其中第一切口的位置和第二个切口在PAM位点和锌指分子结合的位点之外(即PAM位点和锌指分子结合的位点在第一切口的位置和第二切口的位置之间)。作为另一个实例，提供向外切口取向的另一种Gene Writer系统包含含有锌指分子和第一切口酶结构域的Gene Writer多肽，其中锌指分子以引导第一切口酶结构域对靶位点的第一链进行切口的方式结合靶DNA；包含TAL效应子分子和第二切口酶结构域的另外的多肽，其中TAL效应子分子以引导另外的多肽对第二链进行切口的方式结合到距靶位点一定距离的位点，其中第一切口的位置和第二切口的位置在TAL效应子分子结合的位点和锌指分子结合的位点之外(即TAL效应子分子结合的位点和锌指分子结合的位点在第一切口的位置和第二切口的位置之间)。

不希望受理论束缚，认为对于提供第二链切口的Gene Writer系统，在一些实施例中优选向外切口取向。如本文所述，与向外切口取向相比，向内切口可产生更多数量的双链断裂(DSB)。DSB可以被细胞核中的DSB修复途径识别，这可能导致不期望的插入和缺失。向外切口取向可提供降低的DSB形成风险，并相应更少量的不期望的插入和缺失。在一些实施例中，不期望的插入和缺失是不由异源对象序列编码的插入和缺失，例如由与异源对象序列编码的修饰无关的双链断裂修复途径产生的插入或缺失。在一些实施例中，所期望的Gene Writing修饰包含对由异源对象序列编码(例如，以及通过Gene Writer将异源对象序列写入靶位点来实现)的靶DNA的改变(例如，取代、插入或缺失)。在一些实施例中，第一链切口和第二链切口处于向外取向。

此外，第一链切口和第二链切口之间的距离可能影响以下一项或多项的程度：获得所期望的Gene Writing DNA修饰，出现不期望的双链断裂(DSB)，出现不期望的插入，或出现不期望的缺失。不希望受理论束缚，认为第二链切口的益处，即DNA修复偏向于将异源对象序列掺入靶DNA中，随着第一链切口和第二链切口之间的距离减小而增加。然而，认为DSB形成风险也随着第一链切口和第二链切口之间的距离减小而增加。相应地，认为不期望的插入和/或缺失的数量可能随着第一链切口和第二链切口之间的距离减小而增加。在一些实施例中，选择第一链切口和第二链切口之间的距离以平衡偏向将异源对象序列掺入靶DNA中的DNA修复的益处和DSB形成和不希望的缺失和/或插入的风险。在一些实施例中，相对于其中第一切口和第二切口相距小于阈值距离的在其他方面类似的向内切口取向系统，其中第一链切口和第二链切口相距至少阈值距离的系统具有增加水平的所期望GeneWriting修饰结果、降低水平的不期望的缺失和/或降低水平的不期望的插入。在一些实施例中，一个或多个阈值距离在下面给出。

在一些实施例中，第一切口和第二切口分开至少20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190或200个核苷酸。在一些实施例中，第一切口和第二切口分开不超过25、30、35、40、45、50、55、60、65、70，75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200或250个核苷酸。在一些实施例中，第一切口和第二切口分开20-200、30-200、40-200、50-200、60-200、70-200、80-200、90-200、100-200、110-200、120-200、130-200、140-200、150-200、160-200、170-200、180-200、190-200、20-190、30-190、40-190、50-190、60-190、70-190、80-190、90-190、100-190、110-190、120-190、130-190、140-190、150-190、160-190、170-190、180-190、20-180、30-180、40-180、50-180、60-180、70-180、80-180、90-180、100-180、110-180、120-180、130-180、140-180、150-180、160-180、170-180、20-170、30-170、40-170、50-170、60-170、70-170、80-170、90-170、100-170、110-170、120-170、130-170、140-170、150-170、160-170、20-160、30-160、40-160、50-160、60-160、70-160、80-160、90-160、100-160、110-160、120-160、130-160、140-160、150-160、20-150、30-150、40-150、50-150、60-150、70-150、80-150、90-150、100-150、110-150、120-150、130-150、140-150、20-140、30-140、40-140、50-140、60-140、70-140、80-140、90-140、100-140、110-140、120-140、130-140、20-130、30-130、40-130、50-130、60-130、70-130、80-130、90-130、100-130、110-130、120-130、20-120、30-120、40-120、50-120、60-120、70-120、80-120、90-120、100-120、110-120、20-110、30-110、40-110、50-110、60-110、70-110、80-110、90-110、100-110、20-100、30-100、40-100、50-100、60-100、70-100、80-100、90-100、20-90、30-90、40-90、50-90、60-90、70-90、80-90、20-80、30-80、40-80、50-80、60-80、70-80、20-70、30-70、40-70、50-70、60-70、20-60、30-60、40-60、50-60、20-50、30-50、40-50、20-40、30-40或20-30个核苷酸。在一些实施例中，第一切口和第二切口分开40-100个核苷酸。

不希望受理论束缚，认为对于提供第二链切口并选择向内切口取向的GeneWriter系统，增加第一链切口和第二链切口之间的距离可以是优选的。如本文所述，向内切口取向可以比向外切口取向产生更多数量的DSB，并且可以导致比向外切口取向更多量的不期望的插入和缺失，但是增加切口之间的距离可以减轻DSB、不期望的缺失和/或不期望的插入的这种增加。在一些实施例中，相对于第一切口和第二切口相距小于阈值距离的在其他方面类似的向内切口取向系统，其中第一切口和第二切口相距至少阈值距离的向内切口取向具有增加水平的所期望Gene Writing修饰结果、减少水平的不期望的缺失和/或减少水平的不期望的插入。在一些实施例中，阈值距离在下面给出。

在一些实施例中，第一链切口和第二链切口处于向内取向。在一些实施例中，第一链切口和第二链切口处于向内取向，并且第一链切口和第二链切口分开至少100、110、120、130、140、150、160、170、180、190、200、220、240、260、280、300、350、400、450或500个核苷酸，例如至少100个核苷酸，(并且任选地不超过500、400、300、200、190、180、170，160、150、140、130或120个核苷酸)。在一些实施例中，第一链切口和第二链切口处于向内取向，并且第一链切口和第二链切口分开100-200、110-200、120-200、130-200、140-200、150-200、160-200、170-200、180-200、190-200、100-190、110-190、120-190、130-190、140-190、150-190、160-190、170-190、180-190、100-180、110-180、120-180、130-180、140-180、150-180、160-180、170-180、100-170、110-170、120-170、130-170、140-170、150-170、160-170、100-160、110-160、120-160、130-160、140-160、150-160、100-150、110-150、120-150、130-150、140-150、100-140、110-140、120-140、130-140、100-130、110-130、120-130、100-120、110-120或100-110个核苷酸。

Gene Writer的进化变体

在一些实施例中，本发明提供了Gene Writer的进化变体。在一些实施例中，进化变体可以通过对参考Gene Writer或其中包含的片段或结构域之一进行诱变处理而产生。在一些实施例中，一个或多个结构域(例如逆转录酶、DNA结合(包括例如序列指导的DNA结合元件)、RNA结合或核酸内切酶结构域)进化。在一些实施例中，可以使一个或多个此类进化变体结构域单独进化或与其他结构域一起进化。在一些实施例中，可以将一个或多个进化变体结构域与一个或多个未进化的同源组分或一个或多个同源组分的进化的变体组合，例如，该一个或多个同源组分的进化的变体能以并行或连续方式进化。

在一些实施例中，对参考Gene Writer或其片段或结构域进行诱变处理的过程包括对该参考Gene Writer或其片段或结构域进行诱变处理。在实施例中，诱变包括连续进化方法(例如，PACE)或非连续进化方法(例如，PANCE)，例如如本文所述。在一些实施例中，进化的Gene Writer或其片段或结构域包含相对于参考Gene Writer或其片段或结构域的氨基酸序列引入其氨基酸序列中的一个或多个氨基酸变异。在实施例中，氨基酸序列变异可以包括参考Gene Writer的氨基酸序列内的一个或多个突变的残基(例如，保守取代、非保守取代、或其组合)，例如，该一个或多个突变的残基是由于编码gene writer的核苷酸序列的变化(例如，该编码序列中任何特定位置处密码子的变化)，该变化引起一个或多个氨基酸(例如，截短的蛋白质)的缺失、一个或多个氨基酸的插入或前述内容的任何组合。进化的变体Gene Writer可以包括Gene Writer的一个或多个组分或结构域中的变体(例如，引入逆转录酶结构域、核酸内切酶结构域、DNA结合结构域、RNA结合结构域或其组合的变体)。

在一些方面，本文明提供了使用或包含Gene Writer的进化变体的Gene Writer、系统、试剂盒和方法，例如，采用了Gene Writer的进化的变体或由PACE或PANCE生产或可由其生产的Gene Writer。在实施例中，未进化的参考Gene Writer是如本文披露的GeneWriter。

如本文所用，术语“噬菌体辅助的连续进化(PACE)”通常是指采用噬菌体作为病毒载体的连续进化。PACE技术的实例已描述于例如以下中：2009年9月8日提交的国际PCT申请号PCT/US 2009/056194，其于2010年3月11日公开为WO 2010/028347；2011年12月22日提交的国际PCT申请PCT/US 2011/066747，其于2012年6月28日公开为WO 2012/088381；2015年5月5日发布的美国专利号9,023,594；2017年9月26日发布的美国专利号9,771,574；2016年7月19日发布的美国专利号9,394,537；2015年1月20日提交的国际PCT申请PCT/US 2015/012022，其于2015年9月11日公开为WO 2015/134121；2019年1月15日发布的美国专利号10,179,911；以及2016年4月15日提交的国际PCT申请PCT/US 2016/027795，其于2016年10月20日公开为WO 2016/168631，其中每个的全部内容通过引用并入本文。

如本文所用，术语“噬菌体辅助的非连续进化(PANCE)”通常是指使用噬菌体作为病毒载体的非连续进化。PANCE技术的实例已描述于例如Suzuki T.等人,Crystalstructures reveal an elusive functional domain of pyrrolysyl-tRNA synthetase[晶体结构揭示了吡咯赖氨酰tRNA合成酶的难以捉摸的功能性结构域],Nat Chem Biol.[自然化学生物学]13(12):1261-1266(2017)中，该文献通过引用以其全文并入本文。简言之，PANCE是一种使用进化中的选择噬菌体(SP)的连续烧瓶转移进行快速体内定向进化的技术，其中含有要在新鲜宿主细胞(例如，大肠杆菌细胞)中进化的目的基因。宿主细胞内的基因可能保持不变，而SP中含有的基因则连续进化。在噬菌体生长之后，可以使用等分的受感染细胞转染随后的含有宿主大肠杆菌的烧瓶。这一过程可以重复和/或继续，直到期望的表型实现进化，例如，持续所需的转移次数。

本领域技术人员通过参考(尤其是)前述参考文献可以容易地理解将PACE和PANCE应用于Gene Writer的方法。用于例如使用噬菌体颗粒例如在宿主细胞群体中引导基因组修饰蛋白或系统的连续进化的另外的示例性方法可用于产生Gene Writer或其片段或亚结构域的进化变体。此类方法的非限制性实例描述于以下中：2009年9月8日提交的国际PCT申请PCT/US 2009/056194，其于2010年3月11日公开为WO 2010/028347；2011年12月22日提交的国际PCT申请PCT/US 2011/066747，其于2012年6月28日公开为WO 2012/088381；2015年5月5日发布的美国专利号9,023,594；2017年9月26日发布的美国专利号9,771,574；2016年7月19日发布的美国专利号9,394,537；2015年1月20日提交的国际PCT申请PCT/US 2015/012022，其于2015年9月11日公开为WO 2015/134121；2019年1月15日发布的美国专利号10,179,911；2019年6月14日提交的国际申请号PCT/US 2019/37216；2019年1月31日公开的国际专利公开WO 2019/023680；2016年4月15日提交的国际PCT申请PCT/US 2016/027795，其于2016年10月20日公开为WO 2016/168631；以及2019年8月23日提交的国际专利公开号PCT/US 2019/47996；其中每个通过引用以其全文并入本文。

在一些非限制性说明性实施例中，进化变体Gene Writer、或其片段或结构域的进化方法包括：(a)使宿主细胞群体与包含目的基因(起始Gene Writer或其片段或结构域)的病毒载体群体接触，其中：(1)宿主细胞易于被病毒载体感染；(2)宿主细胞对产生病毒颗粒所需的病毒基因进行表达；(3)产生感染性病毒颗粒所需的至少一种病毒基因的表达取决于目的基因的功能；和/或(4)病毒载体允许蛋白质在宿主细胞中表达，并且可以被宿主细胞复制和包装成病毒颗粒。在一些实施例中，该方法包括(b)使宿主细胞与诱变剂接触，其使用具有提高突变率的突变的宿主细胞(例如，通过携带突变质粒或某种基因组修饰—例如，校对受损的DNA聚合酶、SOS基因，例如UmuC、UmuD'、和/或RecA，如果与质粒结合，这些突变可能在诱导型启动子的控制下)或其组合。在一些实施例中，该方法包括(c)在允许病毒复制和产生病毒颗粒的条件下孵育宿主细胞群体，其中从宿主细胞群体中去除宿主细胞，并将新鲜的、未感染的宿主细胞引入到宿主细胞群体中，从而补充宿主细胞群体并产生宿主细胞流。在一些实施例中，将细胞在允许目的基因获得突变的条件下孵育。在一些实施例中，该方法进一步包括(d)从宿主细胞群体中分离病毒载体的突变版本，该突变版本编码进化基因产物(例如，进化变体Gene Writer、或其片段或结构域)。

本领域技术人员将理解在上述框架内可采用的各种特征。例如，在一些实施例中，病毒载体或噬菌体是丝状噬菌体，例如M13噬菌体，例如M13选择噬菌体。在某些实施例中，产生感染性病毒颗粒所需的基因是M13基因III(gIII)。在实施例中，噬菌体可以缺乏功能性gIll，但另外包含gI、gII、gIV、gV、gVI、gVII、gVIII、gIX、和gX。在一些实施例中，感染性VSV颗粒的产生涉及包膜蛋白VSV-G。各种实施例可以使用不同的逆转录病毒载体，例如鼠白血病病毒载体或慢病毒载体。在实施例中，利用VSV-G包膜蛋白(例如，作为病毒的天然包膜蛋白的替代物)可以有效包装逆转录病毒载体。

在一些实施例中，根据合适数量的病毒生命周期孵育宿主细胞，例如至少10、至少20、至少30、至少40、至少50、至少100、至少200、至少300、至少400、至少500、至少600、至少700、至少800、至少900、至少1000、至少1250、至少1500、至少1750、至少2000、至少2500、至少3000、至少4000、至少5000、至少7500、至少10000或更多个连续的病毒生命周期，在M13噬菌体的说明性和非限制性实例中，每个病毒生命周期为10-20分钟。类似地，可以调节条件以调整宿主细胞在宿主细胞群体中保留的时间，例如约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约21、约22、约23、约24、约25、约30、约35、约40、约45、约50、约55、约60、约70、约80、约90、约100、约120、约150、或约180分钟。可以部分地通过宿主细胞的密度来控制宿主细胞群体，或者在一些实施例中，流入物中的宿主细胞密度为例如10³个细胞/ml、约10⁴个细胞/ml、约10⁵个细胞/ml、约5-10⁵个细胞/ml、约10⁶个细胞/ml、约5-10⁶个细胞/ml、约10⁷个细胞/ml、约5-10⁷个细胞/ml、约10⁸个细胞/ml、约5-10⁸个细胞/ml、约10⁹个细胞/ml、约5·10⁹个细胞/ml、约10¹⁰个细胞/ml、或约5·10¹⁰个细胞/ml。

启动子

在一些实施例中，一种或多种启动子或增强子元件可操作地连接至编码GeneWriter蛋白的核酸或模板核酸，例如，其控制异源对象序列的表达。在某些实施例中，该一个或多个启动子或增强子元件包含细胞类型或组织特异性元件。在一些实施例中，启动子或增强子是相同的或源自天然地控制异源对象序列表达的启动子或增强子。例如，鸟氨酸转氨甲酰酶启动子和增强子可用于在本发明提供的系统或方法中控制鸟氨酸转氨甲酰酶基因的表达以便纠正鸟氨酸转氨甲酰酶缺陷。在一些实施例中，用于本发明的启动子是针对表9-22中任一个中描述的基因，例如，其可以与参考基因的等位基因一起使用，或者在其他实施例中，与异源基因一起使用。在一些实施例中，启动子是表33中的启动子或其功能性片段或变体。

例如，可在统一资源定位器(例如，https://www.invivogen.com/tissue- specific-promoters)中找到可商购的示例性组织特异性启动子。在一些实施例中，启动子是天然启动子或最小启动子，例如，其由来自给定基因的5’区的单个片段组成。在一些实施例中，天然启动子包含核心启动子及其天然5’UTR。在一些实施例中，5’UTR包含内含子。在其他实施例中，这些包括复合型启动子，这些复合型启动子组合了起点不同的启动子元件，或由远端增强子与起点相同的最小启动子组装而产生。

示例性细胞或组织特异性启动子在下表中提供，并且编码它们的示例性核酸序列是本领域已知的并且可以使用多种资源容易地获得，例如NCBI数据库，包括RefSeq，以及真核启动子数据库(//epd.epfl.ch//index.php)。

表33.示例性细胞或组织特异性启动子

表34.另外的示例性细胞或组织特异性启动子

取决于所利用的宿主/载体系统，可以在表达载体中使用许多合适的转录和翻译控制元件中的任一种，包括组成型和诱导型启动子、转录增强子元件、转录终止子等(参见例如，Bitter等人(1987)Methods in Enzymology[酶学方法]，153:516-544；将其通过引用以其整体并入本文)。

在一些实施例中，编码Gene Writer的核酸或模板核酸与控制元件(例如，转录控制元件，例如启动子)可操作地连接。在一些实施例中，转录控制元件可以在以下中起作用：真核细胞例如哺乳动物细胞；或原核细胞(例如细菌或古细菌细胞)。在一些实施例中，编码多肽的核苷酸序列与例如允许该编码多肽的核苷酸序列在原核和真核细胞中表达的多个控制元件可操作地连接。

出于说明目的，空间上受限的启动子的实例包括但不限于神经元特异性启动子、脂肪细胞特异性启动子、心肌细胞特异性启动子、平滑肌特异性启动子、光感受器特异性启动子等。神经元特异性空间上受限的启动子包括但不限于神经元特异性烯醇化酶(NSE)启动子(参见例如EMBL HSENO2、X51956)；芳香族氨基酸脱羧酶(AADC)启动子、神经丝启动子(参见例如，GenBank HUMNFL，L04147)；突触蛋白启动子(参见例如，GenBank HUMSYNIB，M55301)；thy-1启动子(参见例如，Chen等人(1987)Cell[细胞]51:7-19；以及Llewellyn,等人(2010)Nat.Med.[自然·医学]16(10):1161-1166)；5-羟色胺受体启动子(参见例如，GenBank S62283)；酪氨酸羟化酶启动子(TH)(参见例如，Oh等人(2009)Gene Ther[基因疗法]16:437；Sasaoka等人(1992)Mol.Brain Res.[分子脑研究]16:274；Boundy等人(1998)J.Neurosci.[神经科学杂志]18:9989；以及Kaneda等人(1991)Neuron[神经元]6:583-594)；GnRH启动子(参见例如，Radovick等人(1991)Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]88:3402-3406)；L7启动子(参见例如，Oberdick等人(1990)Science[科学]248:223-226)；DNMT启动子(参见例如，Bartge等人(1988)Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]85:3648-3652)；脑啡肽启动子(参见例如，Comb等人(1988)EMBO J.[欧洲分子生物学学会杂志]17:3793-3805)；髓鞘碱性蛋白(MBP)启动子；Ca2+-钙调蛋白依赖性蛋白激酶II-α(CamKIIα)启动子(参见例如，Mayford等人(1996)Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]93:13250；以及Casanova等人(2001)Genesis[遗传]31:37)；CMV增强子/血小板源性生长因子-β启动子(参见例如，Liu等人(2004)Gene Therapy[基因疗法]11:52-60)；等。

脂肪细胞特异性的空间上受限的启动子包括但不限于：aP2基因启动子/增强子，例如，人aP2基因的-5.4kb至+21bp区域(参见例如，Tozzo等人(1997)Endocrinol[内分泌学].138:1604；Ross等人(1990)Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]87:9590；以及Pavjani等人(2005)Nat.Med.[自然·医学]11:797)；葡萄糖转运蛋白-4(GLUT4)启动子(参见例如，Knight等人(2003)Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]100:14725)；脂肪酸转位酶((FAT/CD36)启动子(参见例如Kuriki等人(2002)Biol.Pharm.Bull.[生物和医药学报]25:1476；以及Sato等人(2002)J.Biol.Chem.[生物化学杂志]277:15703)；硬脂酰基-辅酶A去饱和酶-1(SCD1)启动子(Tabor等人(1999)J.Biol.Chem.[生物化学杂志]274:20603)；瘦素启动子(参见例如，Mason等人(1998)Endocrinol.[内分泌学]139:1013；以及Chen等人(1999)Biochem.Biophys.Res.Comm.[生物化学与生物物理研究通讯]262:187)；脂连蛋白启动子(参见例如，Kita等人(2005)Biochem.Biophys.Res.Comm.[生物化学与生物物理研究通讯]331:484；以及Chakrabarti(2010)Endocrinol.[内分泌学]151:2408)；降脂蛋白启动子(参见例如，Platt等人(1989)Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]86:7490)；抗胰岛素蛋白启动子(参见例如，Seo等人(2003)Molec.Endocrinol.[分子内分泌学]17:1522)；等。

心肌细胞特异性的空间上受限的启动子包括但不限于源自以下基因的控制序列：肌球蛋白轻链-2、α-肌球蛋白重链、AE3、心肌肌钙蛋白C、心肌肌动蛋白等。Franz等人(1997)Cardiovasc.Res.[心血管研究]35:560-566；Robbins等人(1995)Ann.N.Y.Acad.Sci.[纽约科学院年鉴]752:492-505；Linn等人(1995)Circ.Res.[循环研究]76:584-591；Parmacek等人(1994)Mol.Cell.Biol.[分子细胞生物学]14:1870-1885；Hunter等人(1993)Hypertension[高血压]22:608-617；以及Sartorelli等人(1992)Proc.Natl.Acad.Sci.USA[美国国家科学院院刊]89:4047-4051。

平滑肌特异性空间受限启动子包括但不限于SM22α启动子(参见，例如，Akyürek等人(2000)Mol.Med.[分子医学]6:983；和美国专利号7,169,874)；平滑肌细胞分化特异性抗原(smoothelin)启动子(参见例如，WO 2001/018048)；α-平滑肌肌动蛋白启动子；等。例如，已显示SM22α启动子的0.4kb区域(其中包含两个CArG元件)介导血管平滑肌细胞特异性表达(参见，例如，Kim,等人(1997)Mol.Cell.Biol.[分子与细胞生物学]17,2266-2278；Li,等人，(1996)J.Cell Biol.[细胞生物学杂志]132,849-859；和Moessler,等人(1996)Development[发育]122,2415-2425)。

光感受器特异性的空间上受限的启动子包括但不限于视紫红质启动子；视紫红质激酶启动子(Young等人(2003)Ophthalmol.Vis.Sci.[眼科和视觉科学]44:4076)；β磷酸二酯酶基因启动子(Nicoud等人(2007)J.Gene Med.[基因医学杂志]9:1015)；视网膜色素变性基因启动子(Nicoud等人(2007)同上)；光感受器间维生素A类结合蛋白(IRBP)基因增强子(Nicoud等人(2007)同上)；IRBP基因启动子(Yokoyama等人(1992)Exp Eye Res.[实验眼科研究杂志]55:225)；等。

非限制性示例性细胞特异性启动子

本领域已知的细胞特异性启动子可用于引导Gene Writer蛋白的表达，例如，如本文所述。非限制性示例性哺乳动物细胞特异性启动子已被表征并用于以细胞特异性方式表达Cre重组酶的小鼠。某些非限制性示例性哺乳动物细胞特异性启动子列于US 9845481的表1中，该文献通过引用并入本文。

在一些实施例中，细胞特异性启动子是在植物中具有活性的启动子。许多示例性的细胞特异性植物启动子是本领域已知的。参见例如，美国专利号5,097,025；5,783,393；5,880,330；5,981,727；7,557,264；6,291,666；7,132,526；以及7,323,622；以及美国公开号2010/0269226；2007/0180580；2005/0034192；以及2005/0086712，出于任何目的这些均通过引用以其全文并入本文。

在一些实施例中，如本文所述的载体包含表达盒。如本文所用，术语“表达盒”是指包含足以表达本发明的核酸分子的核酸元件的核酸构建体。典型地，表达盒包含本发明的与启动子序列可操作地连接的核酸分子。术语“可操作地连接”是指两个或更多个核酸片段在单个核酸片段上的相关联，这样使得一个核酸片段的功能受到另一个的影响。例如，当启动子能够影响编码序列的表达时，则该启动子与该编码序列可操作地连接(例如，该编码序列在该启动子的转录控制之下)。编码序列能以有义或反义取向与调节序列可操作地连接。在某些实施例中，启动子是异源启动子。如本文所用，术语“异源启动子”是指未发现在自然界中与给定编码序列可操作地连接的启动子。在某些实施例中，表达盒可以包含另外的元件，例如，内含子、增强子、聚腺苷酸化位点、土拨鼠反应元件(WRE)和/或已知影响编码序列表达水平的其他元件“启动子”通常控制编码序列或功能性RNA的表达。在某些实施例中，启动子序列包含近端和更远端上游元件，并可以进一步包含增强子元件。“增强子”典型地可以刺激启动子的活性，且可以是启动子的固有元件或被插入以增强启动子的水平或组织特异性的异源元件。在某些实施例中，启动子整体源自天然基因。在某些实施例中，启动子由源自不同天然存在的启动子的不同元件构成。在某些实施例中，启动子包含合成的核苷酸序列。本领域技术人员将理解，不同的启动子将引导基因在不同的组织或细胞类型中、或在不同的发育阶段、或应答于不同的环境条件或应答于药物或转录辅助因子的存在或不存在的表达。普遍存在的、细胞类型特异性的、组织特异性的、发育阶段特异性的和条件性的启动子，例如，药物应答性启动子(例如，四环素应答性启动子)为本领域技术人员所熟知。启动子的实例包括但不限于：磷酸甘油酸激酶(PKG)启动子、CAG(CMV增强子、鸡β肌动蛋白启动子(CBA)和兔β珠蛋白内含子的复合物)、NSE(神经元特异性烯醇化酶)、突触蛋白或NeuN启动子、SV40早期启动子、小鼠乳腺肿瘤病毒LTR启动子；腺病毒主要晚期启动子(Ad MLP)；单纯疱疹病毒(HSV)启动子、巨细胞病毒(CMV)启动子例如CMV立即早期启动子区(CMVIE)、SFFV启动子、劳斯肉瘤病毒(RSV)启动子、合成启动子、杂合启动子等。其他启动子可以是人类来源的或来自其他物种(包括来自小鼠)。常见的启动子包括例如：人巨细胞病毒(CMV)立即早期基因启动子、SV40早期启动子、劳斯肉瘤病毒长末端重复序列、[β]-肌动蛋白、大鼠胰岛素启动子、磷酸甘油酸激酶启动子、人α-1抗胰蛋白酶(hAAT)启动子、甲状腺素转运蛋白启动子、TBG启动子和其他肝脏特异性启动子、结蛋白启动子和类似的肌肉特异性启动子、EF1-α启动子、CAG启动子和其他组成型启动子、具有多组织特异性的杂合启动子、对神经元特异的启动子(如突触蛋白)和甘油醛-3-磷酸脱氢酶启动子，所有这些都是本领域技术人员熟知且容易获得的启动子，可用于获得目的编码序列的高水平表达。另外，源自非病毒基因(如鼠金属硫蛋白基因)的序列也将在本文找到用途。此类启动子序列可商购自例如Stratagene公司(Stratagene)(加利福尼亚州圣地亚哥(San Diego,CA))。另外的示例性启动子序列描述于例如WO 2018213786 A1(其通过引用以其全文并入本文)中。

在一些实施例中，载脂蛋白E增强子(ApoE)或其功能性片段用于例如促使在肝脏中的表达。在一些实施例中，使用两个拷贝的ApoE增强子或其功能性片段。在一些实施例中，ApoE增强子或其功能性片段与启动子(例如，人α-1抗胰蛋白酶(hAAT)启动子)组合使用。

在一些实施例中，调节序列赋予组织特异性基因表达能力。在一些情况下，组织特异性调节序列结合以组织特异性方式诱导转录的组织特异性转录因子。各种组织特异性调节序列(例如，启动子、增强子等)是本领域已知的。示例性组织特异性调节序列包括但不限于以下组织特异性启动子：肝脏特异性甲状腺素结合球蛋白(TBG)启动子、胰岛素启动子、胰高血糖素启动子、生长抑素启动子、胰多肽(PPY)启动子、突触蛋白-1(Syn)启动子、肌酸激酶(MCK)启动子、哺乳动物结蛋白(DES)启动子、α-肌球蛋白重链(a-MHC)启动子或心肌肌钙蛋白T(cTnT)启动子。其他示例性启动子包括：β-肌动蛋白启动子、乙型肝炎病毒核心启动子，Sandig等人,Gene Ther.[基因疗法],3:1002-9(1996)；甲胎蛋白(AFP)启动子，Arbuthnot等人,Hum.Gene Ther.[人类基因疗法],7:1503-14(1996))，骨钙素启动子(Stein等人,Mol.Biol.Rep.[分子生物学报告],24:185-96(1997))；骨唾液蛋白启动子(Chen等人,J.Bone Miner.Res.[骨与矿物质研究杂志]11:654-64(1996))，CD2启动子(Hansal等人,J.Immunol.[免疫学杂志],161:1063-8(1998)；免疫球蛋白重链启动子；T细胞受体α链启动子，神经元例如神经元特异性烯醇化酶(NSE)启动子(Andersen等人Cell.Mol.Neurobiol.[细胞和分子神经生物学],13:503-15(1993))，神经丝轻链基因启动子(Piccioli等人,Proc.Natl.Acad.Sci.USA[美国国家科学院院刊],88:5611-5(1991))，和神经元特异性vgf基因启动子(Piccioli等人,Neuron[神经元],15:373-84(1995))，以及其他。另外的示例性启动子序列描述于例如美国专利号10300146(其通过引用以其全文并入本文)中。在一些实施例中，组织特异性调节元件(例如，组织特异性启动子)选自已知与在给定组织中高度表达的基因可操作地连接的一种，例如，如通过RNA-seq或蛋白质表达数据、或其组合所测量的。用于通过表达分析组织特异性的方法教授于Fagerberg等人MolCell Proteomics[分子与细胞蛋白质组学]13(2):397-406(2014)中，该文献通过引用以其全文并入本文。

在一些实施例中，本文所述的载体是多顺反子表达构建体。多顺反子表达构建体包括例如携带第一表达盒和第二表达盒的构建体，该第一表达盒例如包含第一启动子和第一编码核酸序列，该第二表达盒例如包含第二启动子和第二编码核酸序列。在一些情况下，此类多顺反子表达构建体可特别用于递送非翻译基因产物(例如发夹RNA)以及多肽(例如，gene writer和gene writer模板)。在一些实施例中，多顺反子表达构建体可以表现出一种或多种所包括的转基因的降低的表达水平，例如，这是因为启动子干扰或存在非常接近的不相容的核酸元件。如果多顺反子表达构建体是病毒载体的一部分，则在一些情况下，自我互补核酸序列的存在可能会干扰病毒繁殖或包装所需结构的形成。

在一些实施例中，序列编码含发夹的RNA。在一些实施例中，发夹RNA是指导RNA、模板RNA、shRNA或微小RNA。在一些实施例中，第一启动子是RNA聚合酶I启动子。在一些实施例中，第一启动子是RNA聚合酶II启动子。在一些实施例中，第二启动子是RNA聚合酶III启动子。在一些实施例中，第二启动子是U6或H1启动子。在一些实施例中，核酸构建体包含AAV构建体B1或B2的结构。

在不希望受理论约束的情况下，与含有仅一个顺反子的表达系统相比，多顺反子表达构建体可能无法实现最佳的表达水平。使用包含两个或更多个启动子元件的多顺反子表达构建体实现的较低表达水平的建议原因之一是启动子干扰现象(参见，例如，Curtin JA,Dane A P,Swanson A,Alexander I E,Ginn S L.Bidirectional promoterinterference between two widely used internal heterologous promoters in alate-generation lentiviral construct.[晚期慢病毒构建体中两个广泛使用的内部异源启动子之间的双向启动子干扰]。Gene Ther[基因疗法].2008年3月；15(5):384-90；和Martin-Duque P,Jezzard S,Kaftansis L,Vassaux G.Direct comparison of theinsulating properties of two genetic elements in an adenoviral vectorcontaining two different expression cassettes[在含有两个不同表达盒的腺病毒载体中对两个遗传元件的绝缘特性的直接比较].Hum Gene Ther[人类基因疗法].2004年10月；15(10):995-1002；两个参考文献均通过引用并入本文以披露启动子干扰现象)。在一些实施例中，可以通过以下克服启动子干扰的问题，例如通过产生包含仅一个启动子的多顺反子表达构建体，该启动子促进由内部核糖体进入位点分开的多个编码核酸序列的转录；或通过将包含具有转录绝缘子元件的自身启动子的顺反子分开。在一些实施例中，多个顺反子的单启动子驱动的表达可能导致顺反子的不均匀表达水平。在一些实施例中，不能有效地分离启动子并且分离元件可能与一些基因转移载体(例如，一些逆转录病毒载体)不相容。

微小RNA

miRNA和其他小干扰核酸通常通过靶RNA转录本切割/降解或靶信使RNA(mRNA)的翻译抑制来调节基因表达。在一些情况下，miRNA可以天然表达，通常作为最终的19-25非翻译RNA产物。miRNA通常通过与靶mRNA的3'非翻译区(UTR)的序列特异性相互作用来表现出它们的活性。这些内源表达的miRNA可以形成发夹前体，这些发夹前体随后被加工成miRNA双链体，并进一步加工成成熟的单链miRNA分子。这种成熟的miRNA通常指导多蛋白复合物miRISC，miRISC基于其与成熟miRNA的互补性来识别靶mRNA的靶3′UTR区。有用的转基因产物可以包括例如调节连接的多肽表达的miRNA或miRNA结合位点。miRNA基因的非限制性列表；例如，在如US 10300146,22:25-25:48(其通过引用并入)中所列的那些方法的方法中，这些基因及其同源物的产物可用作转基因或用作小干扰核酸(例如，miRNA海绵、反义寡核苷酸)的靶标。在一些实施例中，将一个或多个前述miRNA的一个或多个结合位点掺入转基因(例如，由rAAV载体递送的转基因)中，例如以抑制转基因在携带该转基因的动物的一种或多种组织中的表达。在一些实施例中，可以选择结合位点以以组织特异性方式控制转基因的表达。例如，可以将肝脏特异性miR-122的结合位点掺入转基因中以抑制该转基因在肝脏中的表达。另外的示例性miRNA序列描述于例如美国专利号10300146(其通过引用以其全文并入本文)中。然而，对于肝脏特异性Gene Writing，可以利用miR-122的过表达而不是使用结合位点来影响miR-122特异性降解。该miRNA与肝脏分化和成熟以及肝脏特异性基因的增强表达呈正相关。因此，在一些实施例中，可以将miR-122的编码序列添加到Gene Writer系统的组分中以增强肝脏定向疗法。

miR抑制剂或miRNA抑制剂通常是阻断miRNA表达和/或加工的药剂。此类药剂的实例包括但不限于：抑制miRNA与Drosha复合物相互作用的微小RNA拮抗剂、微小RNA特异性反义、微小RNA海绵和微小RNA寡核苷酸(双链、发夹、短寡核苷酸)。MicroRNA抑制剂，例如miRNA海绵，可以在细胞中从转基因表达(例如，如Ebert,M.S.Nature Methods[自然方法],2007年8月12日电子出版中所述；将其通过引用以其整体并入本文)。在一些实施例中，微小RNA海绵或其他miR抑制剂与AAV一起使用。微小RNA海绵通常通过互补七聚体种子序列特异性抑制miRNA。在一些实施例中，可以使用单个海绵序列沉默整个miRNA家族。其他用于在细胞中沉默miRNA功能(miRNA靶标的去阻抑)的方法对于本领域普通技术人员来说将是显而易见的。

在一些实施例中，如本文所述的miRNA包含PCT公开号WO 2020014209的表4中所列的序列，该PCT公开通过引用并入本文。还通过引用并入本文的是来自WO 2020014209的示例性miRNA序列的列表。

在一些实施例中，在细胞的一部分中使Gene Writer系统的一种或多种组分(例如，编码Gene Writer多肽的mRNA、Gene Writer模板RNA或在成功的Gene Writing后从基因组表达的异源对象序列)沉默是有利的。在一些实施例中，限制Gene Writing系统的组分的表达以选择目的组织内的细胞类型是有利的。

例如，已知在给定组织(例如肝脏)中，巨噬细胞和免疫细胞(例如肝脏中的枯否细胞)可参与Gene Writing系统的一种或多种组分的递送媒介物的摄取。在一些实施例中，在巨噬细胞和免疫细胞例如枯否细胞中高度表达的至少一种miRNA的至少一个结合位点包括在Gene Writing系统的至少一种组分中，例如编码Gene Writing多肽或转基因的核酸。在一些实施例中，靶向一个或多个结合位点的miRNA列于本文参考的表中，例如miR-142，例如成熟miRNA hsa-miR-142-5p或hsa-miR-142-3p。

在一些实施例中，在转基因的Gene Writer表达或过表达可能具有毒性作用的细胞中降低Gene Writer水平和/或Gene Writer活性可能是有益的。例如，已经表明将转基因过表达盒递送到背根神经节神经元可能导致基因疗法的毒性(参见Hordeaux等人SciTransl Med[科学转化医学]12(569)；eaba9188(2020)，将其通过引用以其整体并入本文)。在一些实施例中，可将至少一个miRNA结合位点掺入Gene Writing系统的核酸组分中以降低系统组分在神经元例如背根神经节神经元中的表达。在一些实施例中，掺入GeneWriting系统的核酸组分中以降低系统组分在神经元中的表达的至少一个miRNA结合位点是miR-182的结合位点，例如成熟miRNA hsa-miR-182-5p或hsa-miR-182-3p。在一些实施例中，掺入Gene Writing系统的核酸组分中以减少神经元中系统组分的表达的至少一个miRNA结合位点是miR-183的结合位点，例如成熟miRNA hsa-miR-183-5p或hsa-miR-183-3p。在一些实施例中，miRNA结合位点的组合可用于增强Gene Writing系统的一种或多种组分对目的组织或细胞类型的表达的限制。

下面的表A5提供了示例性的miRNA和相应的表达细胞，例如以下miRNA，在一些实施例中，可以针对该miRNA在转基因或多肽核酸中掺入结合位点(互补序列)，例如，以降低在该脱靶细胞中的表达。

表A5：来自脱靶细胞和组织的示例性miRNA

用于调节GeneWriter活性的抗crispr系统

用于调节Cas分子活性的各种方法可以与本文所述的系统和方法结合使用。例如，在一些实施例中，本文描述的多肽(例如，包含Cas结构域的Cas分子或GeneWriter)可以使用抗crispr剂(例如，抗crispr蛋白或抗crispr小分子)来调节。在一些实施例中，Cas分子或Cas结构域包含响应性内含肽，例如4-羟基三苯氧胺(4-HT)-响应性内含肽、iCas分子(例如iCas9)；4-HT反应性Cas(例如，变构调节的Cas9(arC9)或死Cas9(dC9))。本文所述的系统和方法还可以利用化学诱导的分裂型蛋白片段二聚化系统(例如，雷帕霉素介导的FK506结合蛋白12(FKBP)和FKBP雷帕霉素结合结构域(FRB)(脱落酸诱导的ABI-PYL1和赤霉素诱导的GID1-GAI异二聚化结构域)的二聚化；BCL-xL肽和BH3肽的二聚体、A385358(A3)小分子、degron系统(例如，FKBP-Cas9不稳定系统、生长素诱导degron(AID)或大肠杆菌DHFRdegron系统)、与gRNA(例如，四环素-和茶碱-响应性生物开关)、AcrIIA2和AcrIIA4蛋白以及BRD0539融合的适体或适体酶。

在一些实施例中，将小分子响应性内含肽(例如，4-羟基三苯氧胺(4-HT)-响应性内含肽)插入Cas分子(例如，Cas9)内的特定位点。在一些实施例中，4HT响应性内含肽的插入破坏了Cas9酶活性。在一些实施例中，Cas分子(例如，iCas9)融合到雌激素受体(ERT2)的激素结合结构域。在一些实施例中，人雌激素受体-α的配体结合结构域可以插入到Cas分子(例如，Cas9或死Cas9(dC9))中，例如，在位置231，产生4HT-响应性抗crispr Cas9(例如，arC9或dC9)。在一些实施例中，dCas9可以提供Cas9功能的4-HT剂量依赖性抑制。在一些实施例中，arC9可以提供对Cas9功能的4-HT剂量依赖性控制。在一些实施例中，Cas分子(例如，Cas9)被融合以分裂蛋白质片段。在一些实施例中，化学诱导的分裂型蛋白片段的二聚化(例如，雷帕霉素介导的FK506结合蛋白12(FKBP)和FKBP雷帕霉素结合结构域(FRB)的二聚化)可以诱导低水平的Cas9分子活性。在一些实施例中，化学诱导的二聚化系统(例如，脱落酸诱导型ABI-PYL1和赤霉素诱导型GID1-GAI异二聚化结构域)可以诱导Cas9的剂量依赖性和逆转录激活/抑制。在一些实施例中，Cas9诱导系统(ciCas9)包括用BCL-xl肽替换Cas分子(例如，Cas9)REC2结构域和将BH3肽连接至经修饰的Cas9.BCL的N末端和C末端。在一些实施例中，BCL-xL和BH3肽之间的相互作用可以使Cas9保持在非活性状态。在一些实施例中，小分子(例如，A-385358(A3))可以破坏BLC-xl和BH3肽之间的相互作用以激活Cas9。在一些实施例中，Cas9诱导系统可以表现出对核酸酶活性的剂量依赖性控制。在一些实施例中，degron系统可以在被外部因素(例如，小分子配体、光、温度或蛋白质)激活或失活后诱导Cas分子(例如，Cas9)的降解。在一些实施例中，小分子BRD0539可逆地抑制Cas分子(例如，Cas9)。可以在以下中找到有关抗crispr蛋白或抗crispr小分子的其他信息：例如Gangopadhyay,S.A.等人Precision control of CRISPR-Cas9[CRISPR-Cas9的精确控制]，Biochemistry[生物化学],2019(使用小分子和光),Maji,B.等人A high-throughputplatform to identify small molecule inhibitors of CRISPR-Cas9[用于鉴定CRISPR-Cas9的小分子抑制剂的高通量平台]和Pawluk Anti-CRISPR:discovery,mechanism andfunction[抗CRISPR：发现、机制和功能]Nature Reviews Microbiology[自然微生物学综述]第16卷，第12-17页(2018)，将其中每个通过引用以其整体并入本文。

用于调节GeneWriter活性的自失活模块

在一些实施例中，本文所述的Gene Writer系统包括自失活模块。自失活模块导致Gene Writer多肽、Gene Writer模板或两者的表达降低。不希望受理论束缚，自失活模块在失活之前提供短期Gene Writer表达。不希望受理论束缚，Gene Writer多肽在靶位点的活性将突变(例如取代、插入或缺失)引入编码Gene Writer多肽或Gene Writer模板的DNA中，这导致减少Gene Writer多肽或模板表达。在自失活模块的一些实施例中，Gene Writer多肽的靶位点包括在编码Gene Writer多肽或Gene Writer模板的DNA中。在一些实施例中，靶位点的一个、两个、三个、四个、五个或更多个拷贝包含在编码Gene Writer多肽或GeneWriter模板的DNA中。在一些实施例中，编码Gene Writer多肽或Gene Writer模板的DNA中的靶位点与基因组上的靶位点是相同的靶位点。在一些实施例中，靶位点是与基因组上的靶位点不同的靶位点。在一些实施例中，自失活模块靶位点使用与基因组靶位点相同或不同的模板RNA或指导RNA。在一些实施例中，通过基于模板RNA的靶引发的逆转录来修饰靶位点。在一些实施例中，靶标侧被切口。靶位点可以掺入增强子、启动子、非翻译区、外显子、内含子、开放阅读框或填充序列中。

在一些实施例中，在失活后，表达的降低比不包含自失活模块的Gene Writer系统低25％、50％、60％、70％、80％、90％、95％、99％、99.9％或更多。在一些实施例中，与不包含自失活模块的Gene Writer系统相比，包含自失活模块的Gene Writer系统在靶位点比脱靶位点具有5％、10％、15％、20％、25％、30％、40％、50％、60％、70％、80％、90％、95％、99％、或更高的整合率。与不包含自失活模块的Gene Writer系统相比，包含自失活模块的Gene Writer系统具有10％、15％、20％、25％、30％、40％、50％、60％、70％、80％、90％、95％99％、或更高的靶位点修饰效率。在一些实施例中，当Gene Writer多肽作为DNA(例如通过病毒载体)递送时，包括自失活模块。

已经描述了核酸酶的自失活模块。参见，例如在Li等人A Self-Deleting AAV-CRISPR System for In Vivo Genome Editing[用于体内基因组编辑的自缺失AAV-CRISPR系统],Mol Ther Methods Clin Dev.[分子治疗方法和临床发展]2019年3月15日；12:111-122,P.Singhal,Self-Inactivating Cas9:a method for reducing exposure whilemaintaining efficacy in virally delivered Cas9 applications[自失活Cas9：一种在病毒递送的Cas9应用中减少暴露同时保持功效的方法](可在www.editasmedicine.com/wp-content/uploads/2019/10/aef_asgct_poster_2017_final_-_present_5-11-17_515pm1_1494537387_1494558495_1497467403.pdf获得)，和Epstein与SchafferEngineering a Self-Inactivating CRISPR System for AAV Vectors Targeted GenomeEditing[为AAV载体靶向基因组编辑工程化自失活CRISPR系统]I|第24卷,增补1,S50,2016年5月1日，和WO 2018106693 A1。

小分子

在一些实施例中，本文所述的多肽(例如，Gene Writer多肽)是可通过小分子控制的。在一些实施例中，多肽通过小分子二聚化。

在一些实施例中，多肽可通过小分子的化学诱导二聚化(CID)来控制。CID通常用于产生蛋白质功能的开关以改变细胞生理。示例性的高特异性、高效二聚体是rimiducid(AP1903)，它具有两个尾对尾排列的相同蛋白质结合表面，各自对FKBP12的突变体：FKBP12(F36V)(FKBP12v36，F_V36或F_v)具有高亲和力和特异性，一个或多个F_V结构域与一个或多个通常依赖同二聚化的细胞信号传导分子的附接可以将该蛋白转化为rimiducid控制。与利米多赛的同二聚化用于诱导型半胱天冬酶安全性开关的上下文中。这种分子开关基于异二聚化小分子、雷帕霉素或雷帕霉素类似物(“rapalog”)由不同的二聚体配体控制。雷帕霉素与FKBP12及其变体结合，并且可以通过与FKBP12和包含mTOR的FKBP-雷帕霉素结合(FRB)结构域的多肽结合来诱导与FKBP12融合的信号传导结构域的异二聚化。在本申请的一些实施例中提供了分子开关，其极大地增大了雷帕霉素、雷帕霉素类似物和rimiducid作为治疗应用的药剂的使用。

在双开关技术的一些实施例中，同二聚体，例如AP1903(利米多赛)，直接诱导包含FKBP12多聚化区域的多肽的二聚化或多聚化。在其他实施例中，包含FKBP12多聚化的多肽是多聚化的，或通过与异二聚体(例如雷帕霉素或雷帕霉素类似物)结合而聚集，该异二聚体也与嵌合多肽上的FRB或FRB变体多聚化区结合，也在经修饰的细胞中表达例如嵌合抗原受体。雷帕霉素是天然产物大环内酯，以高亲和力(<1nM)与FKBP12结合，并共同启动与mTOR的FKBP-雷帕霉素-结合(FRB)结构域的高亲和力、抑制性相互作用。FRB很小(89个氨基酸)，并且因此当附加到许多蛋白质上时，可以用作蛋白质“标签”或“手柄”。FRB融合蛋白与FKBP12融合蛋白的共表达使其近似为雷帕霉素诱导型(12-16)。这可以作为细胞安全性开关的基础，由可口服的配体雷帕霉素或雷帕霉素衍生物(rapalog)(其在低治疗剂量时不抑制mTOR，而是结合选定的半胱天冬酶-9融合突变FRB结构域)调节。(参见Sabatini D M,等人，Cell.[细胞]1994；78(1):35-43；Brown E J,等人，Nature.[自然]1994；369(6483):756-8；Chen J,等人,Proc Natl Acad Sci USA.[美国国家科学院院刊]1995；92(11):4947-51；和Choi J，Science.[科学]1996；273(5272):239-42)。

在一些实施例中，在治疗细胞中提供了两个控制水平。在实施例中，第一控制水平可以是可调的，即治疗性细胞的去除水平可以被控制，从而导致治疗性细胞的部分去除。在一些实施例中，嵌合抗原多肽包含雷帕霉素或雷帕霉素类似物的结合位点。在实施例中，治疗性细胞中还存在自杀基因，例如编码半胱天冬酶多肽的基因。使用这种可控的第一水平，在一些实施例中，对持续治疗的需要可以与消除或降低负面副作用水平的需要相平衡。在一些实施例中，将雷帕霉素类似物rapalog施用于患者，然后其与半胱天冬酶多肽和嵌合抗原受体两者结合，从而将半胱天冬酶多肽募集到位置，并聚集半胱天冬酶多肽。聚集后，半胱天冬酶多肽诱导细胞凋亡。施用给患者的雷帕霉素或雷帕霉素类似物的量可能不同；如果期望通过细胞凋亡去除较低水平的细胞，则可以向患者施用较低水平的雷帕霉素或雷帕霉素类似物。在一些实施例中，可以设计第二控制水平以实现最大程度的细胞消除。该第二水平可以基于例如rimiducid或AP1903的使用。如果需要快速消除高达100％的治疗性细胞，则可以将AP1903施用于患者。多聚体AP1903与半胱天冬酶多肽结合，导致半胱天冬酶多肽的多聚化和细胞凋亡。在某些实例中，第二水平也可以通过施用于受试者的AP1903的水平来调节或控制。

在某些实施例中，小分子可用于控制基因，如例如在US 10584351中在47:53-56:47(将其通过引用以其整体并入本文)处描述的，以及用于控制特征的合适配体，例如在US10584351中在56:48及其后处和在U 10046049中在43:27-52:20(将其通过引用并入)处描述，以及在52:21及其后处对此类控制系统的配体的描述。

Gene Writing^TM事件的消退

在将模板核酸写入靶位点后，可以进行另外的活动以提高掺入的整体效率。在一些实施例中，可以在基因组中在未书写的DNA链上启动切口以促进新书写的DNA复制到第二条链上。在一些实施例中，切口可在靶位点的至少10、20、30、40、50、60、70、80、90或100个碱基内。在一些实施例中，该第二切口由执行书写的相同多肽执行。在其他实施例中，第二切口可以通过编码切口酶活性的另外多肽(例如Cas9切口酶)来进行。

对于某些Gene Writer^TM系统，书写过程可能会留下3’flap，其中包含新书写的DNA，该DNA必须置换侧翼靶序列以与第二基因组链退火以完成编辑。在一些实施例中，3’flap被设计成具有增强的链侵入能力。在一些实施例中，补充5'-3'核酸外切酶活性以咀嚼置换链的暴露的5'末端。在一些实施例中，补充DNA连接酶活性以完成反应。在一些实施例中，核酸外切酶和/或连接酶活性任选地提供在Gene Writer^TM多肽上。在一些实施例中，核酸外切酶和/或连接酶活性任选地与Gene Writer^TM多肽分开提供。

基于已公布的非LTR逆转录转座子机制，由此衍生的Gene Writing^TM系统可能不需要补充另外的功能来消退书写事件。在一些实施例中，系统可以导致完全书写而不需要内源宿主因子。在一些实施例中，该系统可以在不需要DNA修复的情况下产生完整的书写。在一些实施例中，该系统可以在不引起DNA损伤应答的情况下产生完整的书写。

化学修饰的核酸和核酸末端特征

本文所述的核酸(例如模板核酸，例如模板RNA；或编码GeneWriter的核酸(例如，mRNA)；或gRNA)可以包含未修饰或经修饰的核碱基。天然存在的RNA从四种基本核糖核苷酸合成：ATP、CTP、UTP和GTP，但可以含有转录后修饰的核苷酸。此外，已经在RNA中鉴定了大约一百种不同的核苷修饰(Rozenski,J,Crain,P,和McCloskey,J.(1999).The RNAModification Database:1999update.[RNA修饰数据库:1999年更新]Nucl Acids Res[核酸研究]27:196-197)。RNA还可包含自然界中不存在的完全合成核苷酸。

在一些实施例中，化学修饰是在以下中提供的化学修饰：PCT/US2016/032454、美国专利公开号20090286852、国际申请号WO/2012/019168、WO/2012/045075、WO/2012/135805、WO/2012/158736、WO/2013/039857、WO/2013/039861、WO/2013/052523、WO/2013/090648、WO/2013/096709、WO/2013/101690、WO/2013/106496、WO/2013/130161、WO/2013/151669、WO/2013/151736、WO/2013/151672、WO/2013/151664、WO/2013/151665、WO/2013/151668、WO/2013/151671、WO/2013/151667、WO/2013/151670、WO/2013/151666、WO/2013/151663、WO/2014/028429、WO/2014/081507、WO/2014/093924、WO/2014/093574、WO/2014/113089、WO/2014/144711、WO/2014/144767、WO/2014/144039、WO/2014/152540、WO/2014/152030、WO/2014/152031、WO/2014/152027、WO/2014/152211、WO/2014/158795、WO/2014/159813、WO/2014/164253、WO/2015/006747、WO/2015/034928、WO/2015/034925、WO/2015/038892、WO/2015/048744、WO/2015/051214、WO/2015/051173、WO/2015/051169、WO/2015/058069、WO/2015/085318、WO/2015/089511、WO/2015/105926、WO/2015/164674、WO/2015/196130、WO/2015/196128、WO/2015/196118、WO/2016/011226、WO/2016/011222、WO/2016/011306、WO/2016/014846、WO/2016/022914、WO/2016/036902、WO/2016/077125、或WO/2016/077123，将其中每个通过引用以其整体并入本文。应当理解，将化学修饰的核苷酸掺入多核苷酸可以导致将修饰掺入核碱基、主链或二者，这取决于该修饰在核苷酸中的位置。在一些实施例中，主链修饰是EP 2813570中提供的一种，将其通过引用以其全文并入本文。在一些实施例中，经修饰的帽是美国专利公开20050287539(将其通过引用以其整体并入本文)中提供的帽。

在一些实施例中，化学修饰的核酸(例如，RNA，例如，mRNA)包含一种或多种ARCA：抗反向帽类似物(m27.3'-OGP3G)、GP3G(未甲基化帽类似物)、m7GP3G(单甲基化帽类似物)、m32.2.7GP3G(三甲基化帽类似物)、m5CTP(5'-甲基-胞苷三磷酸)、m6ATP(N6-甲基-腺苷-5'-三磷酸)、s2UTP(2-硫代-尿苷三磷酸和Ψ(假尿苷三磷酸)。

在一些实施例中，化学修饰的核酸包含5’帽，例如：7-甲基鸟苷帽(例如，O-Me-m7G帽)；超甲基化帽类似物；NAD+衍生的帽类似物(例如，如Kiledjian,Trends in CellBiology[细胞生物学趋势]28,454-464(2018)中所述)；或经修饰的，例如生物素化的帽类似物(例如，Bednarek等人,Phil Trans R Soc B[伦敦皇家学会哲学汇刊b辑-生物科学]373,20180167(2018))中所述)。

在一些实施例中，化学修饰的核酸包含选自以下中的一种或多种的3’特征：聚A尾；16个核苷酸长的茎环结构，其两侧为未配对的5个核苷酸(例如，Mannironi等人,Nucleic Acid Research[核酸研究]17,9113-9126(1989)中所述)；三螺旋结构(例如，Brown等人，PNAS[美国国家科学院院报]109,19202-19207(2012)所述)；tRNA、Y RNA或穹窿RNA结构(例如，如Labno等人，Biochemica et Biophysica Acta[生物化学和生物物理学报]1863,3125-3147(2016)所述)；掺入一个或多个脱氧核糖核苷酸三磷酸(dNTP)、2'O-甲基化NTP或硫代磷酸酯-NTP；单核苷酸化学修饰(例如，将3'末端核糖氧化为反应性醛，然后缀合醛反应性修饰的核苷酸)；或化学连接到另一个核酸分子。

在一些实施例中，核酸(例如，模板核酸)包含一个或多个经修饰的核苷酸，例如选自二氢尿苷、肌苷、7-甲基鸟苷、5-甲基胞苷(5mC)、5'磷酸核糖胸核苷、2'-O-甲基核糖胸核苷、2'-O-乙基核糖胸核苷、2'-氟核糖胸核苷、C-5丙炔基-脱氧胞苷(pdC)、C-5丙炔基-脱氧尿苷(pdU)、C-5丙炔基-胞苷(pC)、C-5丙炔基-尿苷(pU)、5-甲基胞苷、5-甲基尿苷、5-甲基脱氧胞苷、5-甲基脱氧尿苷甲氧基、2,6-二氨基嘌呤、5'-二甲氧基三苯甲基-N4-乙基-2'-脱氧胞苷、C-5丙炔基-f-胞苷(pfC)、C-5丙炔基-f-尿苷(pfU)、5-甲基f-胞苷、5-甲基f-尿苷、C-5丙炔基-m-胞苷(pmC)、C-5丙炔基-f-尿苷(pmU)、5-甲基m-胞苷、5-甲基m-尿苷、LNA(锁核酸)、MGB(小沟结合剂)假尿苷(Ψ)、1-N-甲基假尿苷(1-Me-Ψ)、或5-甲氧基尿苷(5-MO-U)。

在一些实施例中，核酸包含主链修饰，例如对主链中的糖或磷酸基团的修饰。在一些实施例中，核酸包含核碱基修饰。

在一些实施例中，核酸包含表6的一个或多个化学修饰的核苷酸、表7的一个或多个化学主链修饰、表7的一个或多个化学修饰的帽。例如，在一些实施例中，核酸包含两个或更多个(例如，3、4、5、6、7、8、9或10或更多个)不同类型的化学修饰。例如，核酸可以包含两个或更多个(例如，3、4、5、6、7、8、9或10或更多个)不同类型的经修饰的核碱基，例如，如本文所述，例如表6中所述。可替代地或组合地，核酸可包含两个或更多个(例如，3、4、5、6、7、8、9或10或更多个)不同类型的主链修饰，例如，如本文所述，例如表7中所述。可替代地或组合地，核酸可包含一个或多个经修饰的帽，例如，如本文所述，例如表8中所述。例如，在一些实施例中，核酸包含一种或多种类型的经修饰的核碱基和一种或多种类型的主链修饰；一种或多种类型的经修饰的核碱基和一个或多个经修饰的帽；一种或多种类型的经修饰的帽和一种或多种类型的主链修饰；或一种或多种类型的经修饰的核碱基、一种或多种类型的主链修饰和一种或多种类型的经修饰的帽。

在一些实施例中，核酸包含一个或多个(例如，2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000、或更多个)经修饰的核碱基。在一些实施例中，核酸的所有核碱基都被修饰。在一些实施例中，在主链中的一个或多个(例如，2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、150、200、250、300、350、400、450、500、600、700、800、900、1000或更多个)位置修饰核酸。在一些实施例中，核酸的所有主链位置都被修饰。

表6.修饰的核苷酸

表7.主链修饰

表8.修饰的帽

组合物和系统的产生

如本领域技术人员将理解的那样，设计和构建核酸构建体和蛋白质或多肽(例如本文所述的系统、构建体和多肽)的方法在本领域中是常规的。通常，可以使用重组方法。通常，参见Smales和James(编辑)，Therapeutic Proteins:Methods and Protocols[治疗性蛋白：方法和方案](Methods in Molecular Biology[分子生物学方法]),Humana Press[胡玛纳出版社](2005)；以及Crommelin,Sindelar和Meibohm(编辑)，PharmaceuticalBiotechnology:Fundamentals and Applications[药物生物技术：基础与应用],Springer[斯普林格出版社](2013)。设计、制备、评估、纯化和操纵核酸组合物的方法描述于Green和Sambrook(编辑),Molecular Cloning:A Laboratory Manual[分子克隆：实验室手册](第四版)，Cold Spring Harbor Laboratory Press[冷泉港实验室出版社](2012)。

本披露部分地提供了编码本文所述的Gene Writer多肽、本文所述的模板核酸、或两者的核酸(例如，载体)。在一些实施例中，载体包含选择性标志物，例如，抗生素抗性标志物。在一些实施例中，抗生素抗性标志物是卡那霉素抗性标志物。在一些实施例中，抗生素抗性标志物不赋予对β-内酰胺抗生素的抗性。在一些实施例中，载体不包含氨苄西林抗性标志物。在一些实施例中，载体包含卡那霉素抗性标志物而不包含氨苄西林抗性标志物。在一些实施例中，将编码Gene Writer多肽的载体整合到靶细胞基因组中(例如，在施用于靶细胞、组织、器官或受试者后)。在一些实施例中，不将编码Gene Writer多肽的载体整合到靶细胞基因组中(例如，在施用于靶细胞、组织、器官或受试者后)。在一些实施例中，编码模板核酸(例如，模板RNA)的载体没有整合到靶细胞基因组中(例如，在施用于靶细胞、组织、器官或受试者后)。在一些实施例中，如果将载体整合到靶细胞基因组中的靶位点中，则不将选择性标志物整合到基因组中。在一些实施例中，如果将载体整合到靶细胞基因组中的靶位点中，则不将参与载体维持的基因或序列(例如，质粒维持基因)整合到基因组中。在一些实施例中，如果将载体整合到靶细胞基因组中的靶位点中，则不将转移调节序列(例如，反向末端重复序列，例如，来自AAV)整合到基因组中。在一些实施例中，向靶细胞、组织、器官或受试者施用载体(例如，编码本文所述的Gene Writer多肽、本文所述的模板核酸、或两者的载体)可使载体的部分整合到所述靶细胞、组织、器官或受试者的一个或多个基因组中的一个或多个靶位点中。在一些实施例中，包含整合材料的少于99％、95％、90％、80％、70％、60％、50％、40％、30％、20％、10％、5％、4％、3％、2％、或1％的靶位点(例如，没有靶位点)包含来自载体的选择性标志物(例如，抗生素抗性基因)、转移调节序列(例如，反向末端重复序列，例如，来自AAV)、或两者。

用于产生本文所述的治疗性药物蛋白质或多肽的示例性方法涉及在哺乳动物细胞中表达，尽管也可以使用昆虫细胞、酵母、细菌、或其他细胞，在适当的启动子控制下，产生重组蛋白。哺乳动物表达载体可以包含非转录元件，如复制起点、合适的启动子、以及其他5'或3’侧翼非转录序列；以及5'或3'非翻译序列，如必要的核糖体结合位点、聚腺苷酸化位点、剪接供体和受体位点、以及终止序列。源自SV40病毒基因组的DNA序列，例如SV40起点、早期启动子、剪接和聚腺苷酸化位点可以用于提供异源DNA序列表达所需的其他遗传元件。在以下文献中描述了用于与细菌、真菌、酵母、和哺乳动物细胞宿主一起使用的适当的克隆和表达载体：Green和Sambrook,Molecular Cloning:A Laboratory Manual[分子克隆：实验室手册](第四版)，Cold Spring Harbor Laboratory Press[冷泉港实验室出版社](2012)。

各种哺乳动物细胞培养系统可以用于表达和制造重组蛋白。哺乳动物表达系统的实例包括CHO、COS、HEK293、HeLA和BHK细胞系。在以下文献中描述了用于生产蛋白治疗剂的宿主细胞培养的过程：Zhou和Kantardjieff(编辑)，Mammalian Cell Cultures forBiologics Manufacturing[用于生物制品制造的哺乳动物细胞培养](Advances inBiochemical Engineering/Biotechnology[生物化学工程/生物科技的进展]),Springer[斯普林格出版社](2014)。本文所述的组合物可包括载体，例如编码重组蛋白的病毒载体，例如慢病毒载体。在一些实施例中，载体，例如病毒载体，可以包含编码重组蛋白的核酸。

在以下文献中描述了蛋白治疗剂的纯化：Franks,Protein Biotechnology:Isolation,Characterization,and Stabilization[蛋白生物技术：分离、表征、和稳定化],Humana Press[胡玛纳出版社](2013)；以及Cutler,Protein PurificationProtocols[蛋白纯化方案](Methods in Molecular Biology[分子生物学方法]),HumanaPress[胡玛纳出版社](2010)。

在一些实施例中，Gene Writer^TM系统、多肽和/或模板核酸(例如，模板RNA)符合某些质量标准。在一些实施例中，通过本文所述的方法产生的Gene Writer^TM系统、多肽和/或模板核酸(例如，模板RNA)符合某些质量标准。因此，本披露部分地涉及制造符合某些质量标准的Gene Writer^TM系统、多肽和/或模板核酸(例如，模板RNA)的方法，例如，其中所述质量标准已测定。本披露进一步涉及在Gene Writer^TM系统、多肽和/或模板核酸(例如，模板RNA)中测定所述质量标准的方法。在一些实施例中，质量标准包括但不限于：

(ii)模板RNA上聚A尾的存在、不存在和/或长度，例如，是否存在的模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％含有聚A尾(例如，长度为至少5、10、20、30、50、70、100个核苷酸的聚A尾)；

(iv)模板RNA中一个或多个经修饰核苷酸(例如，选自假尿苷、二氢尿苷、肌苷、7-甲基鸟苷、1-N-甲基假尿苷(1-Me-Ψ)、5-甲氧基尿苷(5-MO-U)、5-甲基胞苷(5mC)或锁核苷酸)的存在、不存在和/或类型，例如，是否存在的模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％含有一个或多个经修饰核苷酸；

(vi)模板RNA在用于修饰DNA的系统中的效力，例如，在测定包含该模板RNA的系统的效力之后，是否至少1％的靶位点被修饰；

(viii)多肽、第一多肽或第二多肽上翻译后修饰的存在、不存在和/或类型，例如是否至少80％、85％、90％、95％、96％、97％、98％、或99％的多肽、第一多肽或第二多肽含有磷酸化、甲基化、乙酰化、肉豆蔻酰化、棕榈酰化、异戊二烯化、glipyatyon或脂酰化，或其任何组合；

(xi)多肽、第一多肽或第二多肽在用于修饰DNA的系统中的效力，例如在测定了包含多肽、第一多肽或第二多肽的系统的效力之后是否至少1％的靶位点被修饰；或

在一些实施例中，质量标准包括但不限于：

(i)编码GeneWriter多肽的mRNA的长度，例如，mRNA的长度是否大于参考长度或在参考长度范围内，例如是否存在的mRNA中的至少80％、85％、90％、95％、96％、97％、98％或99％的长度大于3000、4000或5000个核苷酸；

(ii)mRNA上聚A尾的存在、不存在和/或长度，例如是否存在的至少80％、85％、90％、95％、96％、97％、98％、或99％的mRNA含有聚A尾(例如，长度为至少5、10、20、30、50、70、100个核苷酸的聚A尾)；

(iii)mRNA上5’帽的存在、不存在和/或类型，例如是否存在的至少80％、85％、90％、95％、96％、97％、98％、或99％的mRNA含有5’帽，例如该帽是否是7-甲基鸟苷帽，例如O-Me-m7G帽；

(iv)mRNA中一种或多种经修饰的核苷酸(例如，选自假尿苷、二氢尿苷、肌苷、7-甲基鸟苷、1-N-甲基假尿苷(1-Me-Ψ)、5-甲氧基尿苷(5-MO-U)、5-甲基胞苷(5mC)或锁定的核苷酸)的存在、不存在和/或类型，例如是否存在的至少80％、85％、90％、95％、96％、97％、98％、或99％的mRNA含有一种或多种经修饰的核苷酸；

(v)mRNA的稳定性(例如，随着时间的推移和/或在预先选择的条件下)，例如是否至少80％、85％、90％、95％、96％、97％、98％或99％的mRNA在稳定性测试后保持完整(例如，长度大于100、125、150、175或200个核苷酸)；或

(vi)mRNA在用于修饰DNA的系统中的效力，例如，在测定包含该mRNA的系统的效力之后，是否至少1％的靶位点被修饰。

Gene Writing系统中的环状RNA

已发现环状RNA(circRNA)天然存在于细胞中，并且已发现其具有不同的功能，包括在人类细胞中的非编码和蛋白编码作用。已显示，可以通过将自剪接内含子掺入到RNA分子(或编码RNA分子的DNA)中，导致RNA环化来工程化circRNA，并且工程化的circRNA可以具有增强的蛋白质产生和稳定性(Wesselhoeft等人Nature Communications[自然通讯]2018)。预期在靶细胞内的配制、递送或Gene Writing反应期间采用环状和/或线性RNA状态可能是有用的。因此，在本文所述的任何方面的一些实施例中，Gene Writing系统包含一个或多个环状RNA(circRNA)。在本文所述的任何方面的一些实施例中，Gene Writing系统包含一个或多个线性RNA。在一些实施例中，本文所述的核酸(例如，编码Gene Writer多肽的核酸分子，或两者)是circRNA。在一些实施例中，环状RNA分子编码Gene Writer^TM多肽。在一些实施例中，将编码Gene Writer^TM多肽的circRNA分子递送至宿主细胞。在一些实施例中，环状RNA分子编码重组酶，例如，如本文所述。在一些实施例中，将编码重组酶的circRNA分子递送至宿主细胞。在一些实施例中，编码Gene Writer多肽的circRNA分子在翻译之前被线性化(例如，在宿主细胞中)。已发现环状RNA(circRNA)天然存在于细胞中，并且已发现其具有不同的功能，包括在人类细胞中的非编码和蛋白编码作用。已显示，可以通过将自剪接内含子掺入到RNA分子(或编码RNA分子的DNA)中，导致RNA环化来工程化circRNA，并且工程化的circRNA可以具有增强的蛋白质产生和稳定性(Wesselhoeft等人NatureCommunications[自然通讯]2018)。在一些实施例中，Gene Writer^TM多肽被编码为circRNA。

在一些实施例中，Gene Writer^TM多肽被编码为circRNA。虽然在某些实施例中，模板核酸是DNA，例如ssDNA，但在一些实施例中，它可以作为RNA提供，例如与逆转录酶一起提供。

在一些实施例中，circRNA包含一个或多个核酶序列。在一些实施例中，核酶序列被激活用于例如在宿主细胞中自切割，例如，从而导致circRNA的线性化。在一些实施例中，当镁的浓度达到例如在宿主细胞中切割的足够水平时，核酶被激活。在一些实施例中，circRNA在递送至宿主细胞之前保持在低镁环境中。在一些实施例中，核酶是蛋白反应性核酶。在一些实施例中，核酶是核酸反应性核酶。

在一些实施例中，circRNA在靶细胞的细胞核中被线性化。在一些实施例中，细胞核中circRNA的线性化涉及细胞核中存在的组分，例如以激活切割事件。例如，B2和ALU逆转录转座子含有自切割核酶，其活性通过与多梳蛋白EZH2相互作用而增强(Hernandez等人PNAS[美国国家科学院院刊]117(1):415-425(2020))。因此，在一些实施例中，将核酶(例如来自B2或ALU元件的核酶)掺入到例如Gene Writing系统的circRNA中，该核酶对核元件(例如核蛋白，例如基因组相互作用蛋白，例如表观遗传修饰剂，例如EZH2)有反应。在一些实施例中，circRNA的核定位导致核酶的自催化活性增加和circRNA的线性化。

在一些实施例中，可诱导的核酶(例如，在本文所述的circRNA中)是合成产生的，例如，通过利用蛋白质配体反应性适体设计。已描述了利用烟草环斑病毒锤头状核酶的卫星RNA与MS2外壳蛋白适体的系统(Kennedy等人Nucleic Acids Res[核酸研究]42(19):12306-12321(2014)，其通过引用以其全文并入本文)，其在MS2外壳蛋白的存在下导致核酶活性的激活。在实施例中，这样的系统对定位于细胞质或细胞核的蛋白质配体产生反应。在一些实施例中，蛋白质配体不是MS2。已经描述了用于产生靶标配体的RNA适体的方法，例如，基于通过指数富集的配体系统进化(SELEX)(Tuerk和Gold,Science[科学]249(4968):505-510(1990)；Ellington和Szostak,Nature[自然]346(6287):818-822(1990)；每一个的方法通过引用并入本文)并且在某些情况下得到计算机模拟设计的帮助(Bell等人PNAS[美国国家科学院院刊]117(15):8486-8493，其方法通过引用并入本文)。因此，在一些实施例中，产生用于靶配体的适体并将其掺入合成核酶系统中，例如引发核酶介导的切割和circRNA线性化，例如在蛋白质配体存在下。在一些实施例中，circRNA线性化在细胞质中被引发，例如，使用与细胞质中的配体相关联的适体。在一些实施例中，circRNA线性化在细胞核中被引发，例如，使用与细胞核中的配体相关联的适体。在实施例中，细胞核中的配体包含表观遗传修饰剂或转录因子。在一些实施例中，引发线性化的配体以高于脱靶细胞的水平存在于中靶细胞中。

还预期核酸反应性核酶系统可用于circRNA线性化。例如，在例如Penchovsky(Biotechnology Advances[生物技术进展]32(5):1015-1027(2014)，通过引用并入本文)中描述了感测确定的靶核酸分子以引发核酶激活的生物传感器。通过这些方法，核酶自然折叠成非活性状态，并且仅在存在确定的靶核酸分子(例如，RNA分子)的情况下才被激活。在一些实施例中，Gene Writing系统的circRNA包含核酸反应性核酶，其在存在确定的靶核酸(例如RNA，例如mRNA、miRNA、指导RNA、gRNA、sgRNA、ncRNA、lncRNA、tRNA、snRNA或mtRNA)的情况下被激活。在一些实施例中，引发线性化的核酸以高于脱靶细胞的水平存在于中靶细胞中。

在本文任何方面的一些实施例中，Gene Writing系统掺入一种或多种对目的靶组织或靶细胞具有可诱导特异性的核酶，例如，被目的靶组织或靶细胞中以较高水平存在的配体或核酸激活的核酶。在一些实施例中，Gene Writing系统掺入对亚细胞区室(例如细胞核、核仁、细胞质或线粒体)具有可诱导特异性的核酶。在一些实施例中，核酶被以较高水平存在于靶亚细胞区室中的配体或核酸激活。在一些实施例中，Gene Writing系统的RNA组分作为circRNA提供，例如通过线性化激活。在一些实施例中，编码Gene Writing多肽的circRNA的线性化激活分子进行翻译。在一些实施例中，激活Gene Writing系统的circRNA组分的信号以更高水平存在于中靶细胞或组织中，例如使得该系统在这些细胞中被特异性激活。

在一些实施例中，Gene Writing系统的RNA组分作为通过线性化失活的circRNA提供。在一些实施例中，编码Gene Writing多肽的circRNA通过切割和降解而失活。在一些实施例中，编码Gene Writing多肽的circRNA通过将翻译信号与多肽的编码序列分开的切割而失活。在一些实施例中，使Gene Writing系统的circRNA组分失活的信号以较高水平存在于脱靶细胞或组织中，使得该系统在这些细胞中被特异性失活。

在一些实施例中，递送至细胞的核酸(例如，编码多肽或模板DNA，或两者)是共价闭合的线性DNA，或所谓的“doggybone”DNA。在其生命周期中，噬菌体N15使用原核端粒酶(protelomerase)将其基因组从环状质粒DNA转化为线性质粒DNA(Ravin等人J Mol Biol[分子生物学杂志]2001)。该方法已适用于体外生产共价闭合的线性DNA(参见，例如，WO2010086626A1)。在一些实施例中，将原核端粒酶与含有一个或多个原核端粒酶识别位点的DNA接触，其中原核端粒酶导致在一个或多个位点处的切割和随后DNA互补链的连接，导致互补链之间的共价连接。在一些实施例中，核酸(例如，编码转座酶，或模板DNA，或两者)首先作为含有单个原核端粒酶识别位点的环状质粒DNA生成，然后其与原核端粒酶接触以产生共价闭合的线性DNA。在一些实施例中，使质粒或线性DNA上侧翼为原核端粒酶识别位点的核酸(例如，编码转座酶或模板DNA，或两者)与原核端粒酶接触，以产生仅含有包含在蛋白酶识别位点之间的DNA的共价闭合线性DNA。在一些实施例中，通过原核端粒酶识别位点侧接所期望核酸序列的方法导致共价闭合环状DNA缺乏用于细菌克隆和维持的质粒元件。在一些实施例中，包含核酸和一个或多个原核端粒酶识别位点的质粒或线性DNA任选在原核端粒酶反应之前被扩增，例如通过滚环扩增或PCR。

在一些实施例中，递送至细胞的核酸(例如，编码多肽或模板核酸，或两者)被设计为微环，其中不属于Gene Writing^TM的质粒骨架序列在施用于细胞之前被去除。例如，微环可能缺乏细菌复制起点和可选择标记。在一些实施例中，微环不包含任何细菌序列。与含有细菌部分(例如，细菌复制起点、抗生素选择盒)的质粒相比，微环已显示出产生更高的转染效率和基因表达，并已被用于改善转座效率(Sharma等人Mol Ther Nucleic Acids[分子治疗-核酸]2013)。在一些实施例中，编码Gene Writer^TM多肽的DNA载体以微环形式递送。在一些实施例中，含有Gene Writer^TM模板核酸(例如，模板RNA)的DNA载体作为微环递送。在一些实施例中，细菌部分的侧翼是重组位点，例如attP/attB、loxP、FRT位点。在一些实施例中，同源重组酶的添加可实现分子内重组和细菌部分的切除。在一些实施例中，通过phiC31重组酶识别重组酶位点。在一些实施例中，通过Cre重组酶识别重组酶位点。在一些实施例中，通过FLP重组酶识别重组酶位点。除了质粒DNA之外，还可以通过从病毒骨架中切除所期望的构建体(例如转座酶表达盒或治疗性表达盒)来生成微环。以前，已经表明，从病毒骨架中切除和环化供体序列可能对转座酶介导的整合效率很重要(Yant等人Nat Biotechnol[自然生物技术]2002)。在一些实施例中，首先配制微环，然后将其递送至靶细胞。在其他实施例中，微环由DNA载体(例如，质粒DNA、rAAV、scAAV、ceDNA、doggybone DNA)通过重组酶的共递送在细胞内形成，导致重组酶识别位点侧翼核酸(例如，编码Gene Writer^TM多肽的核酸、模板核酸(例如，模板RNA)或编码它们的核酸，或两者)的切除和环化。

为了优化蛋白质表达，提供可用于调节蛋白质活性的可调控制可能会有所帮助。在一些实施例中，可调系统可以包括至少一个响应于至少一种刺激的效应子模块。该系统可以是但不限于去稳定结构域(DD)系统。该系统在PCT/US2018/020704以及2016年4月11日提交的美国临时专利申请号62/320,864、2017年3月3日提交的62/466,596和国际公开WO2017/180587(各自的内容通过引用以其整体并入本文)中进一步教导。在一些实施例中，可调系统可以包括第一效应器子模块。在一些实施例中，效应子模块可以包括可操作地连接到至少一个载荷的第一刺激响应元件(SRE)。在一方面，载荷可以是免疫治疗剂。在一方面，组合物的第一SRE可以响应于至少一种刺激或与至少一种刺激相互作用。在一些实施例中，第一SRE可以包括去稳定结构域(DD)。DD可以源自亲本蛋白质或源自与亲本蛋白质相比具有一个、两个、三个或更多个氨基酸突变的突变蛋白质。在一些实施例中，亲本蛋白可以选自但不限于人蛋白FKBP，其包含PCT/US2018/020704 SEQ.ID NO.3的氨基酸序列；人DHFR(hDHFR)，其包含PCT/US2018/020704 SEQ.ID NO.2的氨基酸序列；大肠杆菌DHFR，其包含PCT/US2018/020704 SEQ.ID NO.1的氨基酸序列；PDE5，其包含PCT/US2018/020704 SEQ.IDNO.4的氨基酸序列；PPAR，γ，其包含PCT/US2018/020704 SEQ.ID NO.5的氨基酸序列；CA2，其包含PCT/US2018/020704 SEQ.ID NO.6的氨基酸序列；或NQ02，其包含PCT/US2018/020704 SEQ.ID NO.7。在一些实施例中，将可调控制应用于Gene Writer多肽，从而例如可以使用DD和刺激来调节模板整合效率。在一些实施例中，将可调控制应用于在模板的异源对象序列内编码的一种或多种肽，从而例如可以使用DD和刺激来调节基因组整合的载荷的活性。在某些实施例中，包含DD的载荷可以是治疗性蛋白质，例如内源性突变基因的功能拷贝。在某些实施例中，包含DD的载荷可以是异源蛋白质，例如CAR。

试剂盒、制品和药物组合物

在一个方面，本披露提供了一种试剂盒，该试剂盒包含Gene Writer或GeneWriting系统，例如，如本文所述。在一些实施例中，试剂盒包含Gene Writer多肽(或编码多肽的核酸)和模板RNA(或编码模板RNA的DNA)。在一些实施例中，该试剂盒进一步包含用于将系统引入细胞的试剂，例如转染试剂、LNP等。在一些实施例中，该试剂盒适用于本文所述的任何方法。在一些实施例中，该试剂盒包含一种或多种元件、组合物(例如，药物组合物)、Gene Writer和/或Gene Writer系统，或其功能性片段或组分，它们例如布置在制品中。在一些实施例中，该试剂盒包含其使用说明书。

在一个方面，本披露提供了一种制品，例如，其中布置有本文所述的试剂盒或其组分。

在一个方面，本披露提供了一种药物组合物，该药物组合物包含Gene Writer或Gene Writing系统，例如，如本文所述。在一些实施例中，药物组合物进一步包含药学上可接受的载剂或赋形剂。在一些实施例中，药物组合物包含模板RNA和/或编码多肽的RNA。在实施例中，药物组合物具有以下特征中的一个或多个(例如，1、2、3或4个)：

(a)相对于模板RNA和/或编码多肽的RNA少于1％(例如少于0.5％、0.4％、0.3％、0.2％或0.1％)的DNA模板，例如，以摩尔计；

(b)相对于模板RNA和/或编码多肽的RNA少于1％(例如少于0.5％、0.4％、0.3％、0.2％或0.1％)的未加帽RNA，例如，以摩尔计；

(c)相对于模板RNA和/或编码多肽的RNA少于1％(例如少于0.5％、0.4％、0.3％、0.2％或0.1％)的部分长度RNA，例如，以摩尔计；

(d)基本上缺乏未反应的帽二核苷酸。

化学、制造和控制(CMC)

在例如以下文献中描述了蛋白治疗剂的纯化：Franks,Protein Biotechnology:Isolation,Characterization,and Stabilization[蛋白生物技术：分离、表征、和稳定化],Humana Press[胡玛纳出版社](2013)；以及Cutler,Protein PurificationProtocols[蛋白纯化方案](Methods in Molecular Biology[分子生物学方法]),HumanaPress[胡玛纳出版社](2010)。

在一些实施例中，Gene Writer^TM系统、多肽和/或模板核酸(例如，模板RNA)符合某些质量标准。在一些实施例中，通过本文所述的方法产生的Gene Writer^TM系统、多肽和/或模板核酸(例如，模板RNA)符合某些质量标准。因此，在一些方面，本披露涉及制造符合某些质量标准的Gene Writer^TM系统、多肽和/或模板核酸(例如，模板RNA)的方法，例如，其中所述质量标准已测定。在一些方面，本披露内容还涉及在Gene Writer^TM系统、多肽和/或模板核酸(例如，模板RNA)中测定所述质量标准的方法。在一些实施例中，质量标准包括但不限于以下中的一项或多项(例如，1、2、3、4、5、6、7、8、9、10、11、或12项)：

在一些实施例中，本文所述的系统或药物组合物不含内毒素。

在一些实施例中，确定热原、病毒、真菌、细菌病原体和/或宿主细胞蛋白中的一种或多种的存在、不存在和/或水平。在实施例中，对系统是否不含或基本上不含热原、病毒、真菌、细菌病原体和/或宿主细胞蛋白污染进行确定。

在一些实施例中，如本文所述的药物组合物或系统具有以下特征中的一项或多项(例如，1、2、3或4项)：

(d)基本上缺乏未反应的帽二核苷酸。

应用

通过将编码基因整合到RNA序列模板中，Gene Writer^TM系统可以满足治疗需求，例如，通过在具有功能丧失性突变的个体中提供治疗性转基因的表达，通过以正常转基因代替功能获得性突变，通过提供调节序列以消除功能获得性突变表达，和/或通过控制可操作地连接的基因、转基因及其系统的表达。在某些实施例中，RNA序列模板编码对宿主细胞的治疗需要具有特异性的启动子区，例如组织特异性启动子或增强子。在又其他实施例中，启动子可以与编码序列可操作地连接。在实施例中，Gene Writer^TM基因编辑器系统可以提供治疗性转基因，其表达例如替换型血液因子或替换型酶例如溶酶体酶。例如，本文所述的组合物、系统和方法可用于在靶人基因组中表达半乳糖苷酶α或β以治疗法布里病(FabryDisease)；针对戈谢病(Gaucher Disease)的伊米苷酶、塔格苷酶(taliglucerase)α、维拉苷酶(velaglucerase)α或阿糖脑苷酶；针对溶酶体酸性脂肪酶缺乏症(沃尔曼病(Wolmandisease)/CESD)的塞贝脂酶α；针对黏多醣贮积症的拉罗尼酶、艾度硫酸酯酶、依罗硫酸酯酶α、或加硫酶；针对庞贝病的阿糖苷酶α。例如，本文所述的组合物、系统和方法可用于在靶人基因组中表达因子I、II、V、VII、X、XI、XII或XIII，以改善血液因子缺陷。

在一些实施例中，异源对象序列编码细胞内蛋白(例如，细胞质蛋白、核蛋白、细胞器蛋白如线粒体蛋白或溶酶体蛋白或膜蛋白)。在一些实施例中，异源对象序列编码膜蛋白，例如除CAR以外的膜蛋白和/或内源人膜蛋白。在一些实施例中，异源对象序列编码细胞外蛋白。在一些实施例中，异源对象序列编码酶，结构蛋白，信号传导蛋白、调节蛋白、转运蛋白、感觉蛋白、运动蛋白、防御蛋白或储存蛋白。其他蛋白包括免疫受体蛋白，例如合成免疫受体蛋白如嵌合抗原受体蛋白(CAR)、T细胞受体、B细胞受体或抗体。

Gene Writing^TM系统可用于修饰免疫细胞。在一些实施例中，Gene Writing^TM系统可用于修饰T细胞。在一些实施例中，T细胞可包括任何T细胞亚群，例如CD4+、CD8+、γ-δ、初始T细胞、干细胞记忆T细胞、中央记忆T细胞或亚群的混合物。在一些实施例中，GeneWriting^TM系统可用于递送或修饰T细胞中的T细胞受体(TCR)。在一些实施例中，GeneWriting^TM系统可用于将至少一种嵌合抗原受体(CAR)递送至T细胞。在一些实施例中，GeneWriting^TM系统可用于将至少一种CAR递送至天然杀伤(NK)细胞。在一些实施例中，GeneWriting^TM系统可用于将至少一种CAR递送至天然杀伤T(NKT)细胞。在一些实施例中，GeneWriting^TM系统可用于将至少一种CAR递送至祖细胞，例如T、NK或NKT细胞的祖细胞。在一些实施例中，用至少一种CAR修饰的细胞(例如，CAR-T细胞、CAR-NK细胞、CAR-NKT细胞)或用至少一种CAR修饰的细胞的组合(例如，CAR-NK/T细胞的混合物)用于治疗病症，该病症如在通过引用以其全文并入本文的MacKay,等人Nat Biotechnol[自然生物技术]38,233-244(2020)中的CAR疗法的可靶向图谱中鉴定的病症。在一些实施例中，免疫细胞包含对选自由以下组成的组的肿瘤或病原体抗原具有特异性的CAR：AChR(胎儿乙酰胆碱受体)、ADGRE2、AFP(甲胎蛋白)、BAFF-R、BCMA、CAIX(碳酸酐酶IX)、CCR1、CCR4、CEA(癌胚抗原)、CD3、CD5、CD8、CD7、CD10、CD13、CD14、CD15、CD19、CD20、CD22、CD30、CD33、CLLI、CD34、CD38、CD41、CD44、CD49f、CD56、CD61、CD64、CD68、CD70、CD74、CD99、CD117、CD123、CD133、CD138、CD44v6、CD267、CD269、CDS、CLEC12A、CS1、EGP-2(上皮糖蛋白-2)、EGP-40(上皮糖蛋白-40)、EGFR(HER1)、EGFR-VIII、EpCAM(上皮细胞黏附分子)、EphA2、ERBB2(HER2，人表皮生长因子受体2)、ERBB3、ERBB4、FBP(叶酸结合蛋白)、Flt3受体、叶酸受体-α、GD2(神经节苷脂G2)、GD3(神经节苷脂G3)、GPC3(磷脂酰肌醇蛋白聚糖3)、GPI00、hTERT(人端粒酶逆转录酶)、ICAM-1、整合素B7、白介素6受体、IL13Ra2(白介素13受体30亚基α-2)、κ-轻链、KDR(激酶插入结构域受体)、LeY(Lewis Y)、L1CAM(LI细胞黏附分子)、LILRB2(白细胞免疫球蛋白样受体B2)、MARTI、MAGE-A1(黑素瘤相关抗原Al)、MAGE-A3、MSLN(间皮素)、MUC16(黏蛋白16)、MUCI(黏蛋白I)、KG2D配体、NY-ESO-1(癌-睾丸抗原)、PRI(蛋白酶3)、TRBCI、TRBC2、TFM-3、TACI、酪氨酸酶、存活蛋白、hTERT、癌胚抗原(h5T4)、p53、PSCA(前列腺干细胞抗原)、PSMA(前列腺特异性膜抗原)、hRORl、TAG-72(肿瘤相关糖蛋白72)、VEGF-R2(血管内皮生长因子R2)、WT-1(肾母细胞瘤蛋白)和HIV(人免疫缺陷病毒)、乙型肝炎、丙型肝炎、CMV(巨细胞病毒)、EBV(EB病毒)、HPV(人乳头瘤病毒)的抗原。

在一些实施例中，离体修饰免疫细胞，例如T细胞、NK细胞、NKT细胞或祖细胞，然后递送至患者。在一些实施例中，通过本文提及的方法中的一种递送Gene Writer^TM系统，并且在患者体内修饰免疫细胞，例如T细胞、NK细胞、NKT细胞或祖细胞。

在一些实施例中，本文所述的Gene Writer^TM系统被递送至来自大脑、小脑、肾上腺、卵巢、胰腺、甲状旁腺、垂体、睾丸、甲状腺、乳房、脾脏、扁桃体、胸腺、淋巴结、骨髓、肺、心肌、食道、胃、小肠、结肠、肝脏、唾液腺、肾脏、前列腺、血液、或其他细胞或组织类型的组织或细胞。在一些实施例中，本文所述的Gene Writer^TM系统用于治疗疾病，例如癌症、炎性疾病、传染病、遗传缺陷或其他疾病。癌症可以是大脑、小脑、肾上腺、卵巢、胰腺、甲状旁腺、垂体、睾丸、甲状腺、乳房、脾脏、扁桃体、胸腺、淋巴结、骨髓、肺、心肌、食道、胃、小肠、结肠、肝脏、唾液腺、肾脏、前列腺、血液、或其他细胞或组织类型的癌症，并且可以包括多种癌症。

在一些实施例中，本文所述的Gene Writer^TM系统通过肠内施用(例如口服、直肠、胃肠、舌下、唇下或颊部施用)来施用。在一些实施例中，本文所述的Gene Writer^TM系统通过肠胃外施用(例如，静脉内、肌内、皮下、皮内、硬膜外、脑内、脑室内、表皮、经鼻、动脉内、关节内、海绵窦内、眼内、骨内输注、腹膜内、鞘内、宫内、阴道内、膀胱内、血管周围或经粘膜施用)来施用。在一些实施例中，本文所述的Gene Writer^TM系统通过局部施用(例如，透皮施用)来施用。

在一些实施例中，Gene Writing系统可用于在细胞、组织或受试者中进行插入、缺失、取代或其组合。在一些实施例中，插入、缺失、取代或其组合增加或减少基因的表达(例如转录或翻译)。在一些实施例中，插入、缺失、取代或其组合通过改变、添加或缺失启动子或增强子中的序列(例如结合转录因子的序列)来增加或减少基因的表达(例如转录或翻译)。在一些实施例中，插入、缺失、取代或其组合改变基因的翻译(例如改变氨基酸序列)，插入或缺失起始或终止密码子，改变或固定基因的翻译框架。在一些实施例中，插入、缺失、取代或其组合改变基因的剪接，例如通过插入、缺失或改变剪接受体或供体位点。在一些实施例中，插入、缺失、取代或其组合改变转录本或蛋白质半衰期。在一些实施例中，插入、缺失、取代或其组合改变细胞中的蛋白质定位(例如从细胞质到线粒体，从细胞质到细胞外空间(例如添加分泌标签))。在一些实施例中，插入、缺失、取代或其组合改变(例如改善)蛋白质折叠(例如以防止错误折叠蛋白质的积累)。在一些实施例中，插入、缺失、取代或其组合改变、增加、降低基因的活性，例如由基因编码的蛋白质的活性。

在一些实施例中，Gene Writing系统可用于同时或顺序地对靶细胞进行多种修饰(例如，多个插入、缺失或取代，以及其所有组合)。在一些实施例中，Gene Writing系统可用于进一步修饰已修饰的细胞。在一些实施例中，Gene Writing系统可用于修饰通过互补技术编辑的细胞，例如基因编辑的细胞，例如具有一个或多个CRISPR敲除的细胞。在一些实施例中，先前经编辑的细胞是T细胞。在一些实施例中，先前的修饰包括T细胞中例如内源性TCR(例如TRAC、TRBC)、I类HLA(B2M)、PD1、CD52、CTLA-4、TIM-3、LAG-3、DGK的基因敲除。在一些实施例中，Gene Writing系统用于将TCR或CAR插入先前已修饰的T细胞中。

在一些实施例中，如本文所述的Gene Writer^TM系统可用于修饰动物细胞、植物细胞或真菌细胞。在一些实施例中，如本文所述的Gene Writer^TM系统可用于修饰哺乳动物细胞(例如，人细胞)。在一些实施例中，如本文所述的Gene Writer^TM系统可用于修饰来自家畜动物(例如，牛、马、绵羊、山羊、猪、美洲驼、羊驼、骆驼、牦牛、鸡、鸭、鹅或鸵鸟)的细胞。在一些实施例中，如本文所述的Gene Writer^TM系统可用作实验室工具或研究工具，或用于实验室方法或研究方法中，例如以修饰动物细胞例如哺乳动物细胞(例如，人细胞)、植物细胞或真菌细胞。

在一些实施例中，如本文所述的Gene Writer^TM系统可用于表达蛋白质、模板或异源对象序列(例如，在动物细胞例如哺乳动物细胞(例如，人细胞)、植物细胞中、或真菌细胞中)。在一些实施例中，如本文所述的Gene Writer^TM系统可用于在诱导型启动子(例如，小分子诱导型启动子)的控制下表达蛋白质、模板或异源对象序列。在一些实施例中，GeneWriting系统或其有效负载被设计用于例如通过使用诱导型启动子的可调控制。例如，驱动目的基因的启动子(例如，Tet)在整合时可能是沉默的，但在一些情况下，可能在暴露于小分子诱导剂(例如，强力霉素)时被激活。在一些实施例中，可调表达允许基因(例如，治疗性基因)的治疗后控制，例如，允许小分子依赖性给药效果。在实施例中，小分子依赖性给药效果包括在时间和/或空间上改变基因产物的水平，例如，通过局部施用。在一些实施例中，本文所述的系统中使用的启动子可以是诱导型的，例如应答于宿主的内源分子和/或对其施用的外源小分子。

在一些实施例中，Gene Writer系统用于改变非编码区和/或调节控制区，例如，以调节内源基因的表达。在一些实施例中，Gene Writer系统用于诱导基因表达的上调或下调。在一些实施例中，调节控制区包含启动子、增强子、UTR、CTCF位点和/或基因表达控制区中的一种或多种。

在一些实施例中，Gene Writer系统可用于治疗或预防重复序列扩增疾病(例如，表26的疾病)，或降低其严重性或症状。在一些实施例中，重复序列扩增疾病包括三核苷酸重复序列的扩增。在一些实施例中，受试者具有重复序列的至少10、20、30、40或50个拷贝。在实施例中，重复序列扩增疾病是遗传性疾病。重复序列扩增疾病的非限制性实例包括亨廷顿病(HD)和强直性营养不良。例如，健康个体可能拥有CAG三核苷酸重复序列的10到35个串联拷贝，而亨廷顿病患者通常拥有>40个拷贝，这可能导致例如拉长和功能失调的亨廷顿蛋白。在一些实施例中，Gene Writer校正重复扩增，例如，通过识别重复序列区域末端的DNA并对一条链进行切口(图30)。在一些实施例中，Gene Writer的模板RNA组分包含具有健康受试者特征性的重复序列数量的区域，例如约20个重复序列(例如，5-10、10-15、15-20、20-25、25-30、30-35、或35-40个重复序列)。在一些实施例中，Gene Writer的模板RNA组分通过TPRT复制到靶位点中。在一些实施例中，第二链切口和第二链合成然后导致新复制的包含正确数量重复序列的DNA的整合(例如，如本文所述)。在一些实施例中，系统识别重复序列区域末端的DNA，并且模板携带新重复序列数量的信息。在实施例中，可以以这种方式使用Gene Writer，而不管个体和/或个体细胞中存在的重复序列数量。由于存在多个重复序列，在一些实施例中，替代的非GeneWriter治疗剂(例如，基于CRISPR的同源重组治疗剂)可能导致不可预测的修复行为。重复序列扩增疾病和致病性重复序列的其他非限制性实例可以在例如La Spada和Taylor Nat Rev Genet[自然综述遗传学]11(4):247-258(2010)(将其通过引用以其整体并入本文)中找到。

在一些实施例中，Gene Writing系统可用于治疗健康个体，例如作为预防性疗法。在一些实施例中，Gene Writer系统可以靶向产生突变，例如，已显示对目的的疾病具有保护作用的突变。此类疾病和保护性突变靶标的示例性列表可在表22中找到。

在一些实施例中，本文描述的Gene Writer系统用于治疗表9-12中任一个的适应症。例如，在一些实施例中，GeneWriter系统修饰细胞中基因组DNA中的靶位点，其中靶位点在表9-12中任一个的基因中，例如在具有表9-12中任一个中列出的相应适应症的受试者中的基因。在一些实施例中，细胞是肝细胞并且靶位点在表9的基因中，例如在具有表9中所列的相应适应症的受试者中。在一些实施例中，细胞是HSC并且靶位点在表10的基因中，例如在具有表10中所列的相应适应症的受试者中。在一些实施例中，细胞是CNS并且靶位点在表11的基因中，例如在具有表11中所列的相应适应症的受试者中。在一些实施例中，细胞是眼睛的细胞并且靶位点在表12的基因中，例如在具有表12中所列的相应适应症的受试者中。在一些实施例中，靶位点在基因的编码区中。在一些实施例中，靶位点在启动子中。在一些实施例中，靶位点在表9-12中任一个的基因的5’UTR或3’UTR中。在一些实施例中，靶位点在基因的内含子或外显子中。在一些实施例中，GeneWriter校正基因中的突变。在一些实施例中，GeneWriter插入已经从基因中缺失(例如，通过引起疾病的突变)的序列。在一些实施例中，GeneWriter缺失已在基因中复制(例如，通过引起疾病的突变)的序列。在一些实施例中，GeneWriter用相应的野生型序列替换突变(例如，引起疾病的突变)。在一些实施例中，突变是取代、插入、缺失或倒位。

表9：适应症和遗传靶标，例如在肝脏中

表10：HSC的适应症和遗传靶标

表11：CNS的适应症和遗传靶标

表12：眼睛的适应症和遗传靶标

其他合适的适应症

可以通过本文提供的系统或方法(例如包含Gene Writer的那些)治疗的示例性合适的疾病和障碍包括但不限于：Baraitser-Winter综合征1和2；糖尿病和尿崩症伴视神经萎缩和耳聋；α-1-抗胰蛋白酶缺乏症；肝素辅因子II缺乏症；肾上腺脑白质营养不良；Keppen-Lubinsky综合征；特里奇·柯林斯(Treacher collins)综合征1；线粒体复合物I、II、III、III(核2、4或8型)缺乏症；高锰血症伴肌张力障碍、红细胞增多症和肝硬化；肠类癌；横纹肌样肿瘤易感性综合征2；威尔森(Wilson)病；高苯丙氨酸血症，bh4缺乏，a，由于部分pts缺乏，BH4缺乏，D，和非pku；高胰岛素性低血糠症家族3、4和5；毛囊角化病；口-面-指综合征；SeSAME综合征；耳聋，非综合征性感觉神经，线粒体；蛋白尿；胰岛素依赖型糖尿病分泌性腹泻综合征；烟雾病5；先天性再生障碍性贫血1、5、8和10；假性软骨发育不全性脊椎骨骺发育不良综合征；角膜脆弱综合征2；甲基丙二酸血症伴合并高胱氨酸尿症；亚当斯-奥利弗综合征5和6；常染色体隐性无丙种球蛋白血症2；皮质畸形，枕骨；高热惊厥，家族性，11；粘多糖贮积症VI型、VI型(严重)和VII型；马登·沃克(Marden Walker)样综合征；伪新生儿肾上腺脑白质营养不良；球状体肌病；颅锁骨发育不全；多发性皮肤和粘膜静脉畸形；急性婴儿肝衰竭；柑桔素缺乏所致新生儿肝内胆汁淤积症；室间隔缺损1；眼齿指发育不良；威尔姆斯(Wilms)瘤1；类Weill-Marchesani综合征；肾发育不良；白内障1、4型，常染色体显性，常染色体显性，多型，有小角膜，科普克(coppock)样，幼年型，有小角膜和糖尿，核弥漫性非进行性；牙齿型低碱性磷酸酯酶症；脑-眼-面-骨骼综合征；精神分裂症15；脑淀粉样血管病，APP相关；家族性噬血细胞性淋巴组织细胞增多症3；卟啉胆素原合酶缺乏；2型发作性共济失调；3型毛发-鼻-指综合征；进展型家族性心脏传导阻滞IB型；胶质瘤易感性1；利希滕斯坦-克罗(Lichtenstein-Knorr)综合征；X连锁少汗性外胚层发育不良；巴特综合征3型、3型低钙尿症和4型；碳酸酐酶VA缺乏，高氨血症所致；心肌病；皮肤异色症，遗传性纤维化，伴有肌腱挛缩、肌病和肺纤维化；联合d-2-和1-2-羟基戊二酸尿症；精氨酸酶缺乏症；锥体杆体营养不良2和6；斯-李-奥(Smith-Lemli-Opitz)综合征；粘脂贮积病IIIγ；布劳(Blau)综合征；韦默(Wemer)综合征；脑膜瘤；碘酪氨酰偶联缺陷；杜宾–约翰逊(Dubin-Johnson)综合征；3-氧代-5α-类固醇δ4-脱氢酶缺乏症；鲍彻纽豪斯(Boucher Neuhauser)综合征；大脑内铁沉积；智力低下，X-连锁102和综合征13；家族性垂体腺瘤易感性；胼胝体发育不良；高α脂蛋白血症2；亚铁氧化酶缺乏症；有免疫缺陷的生长激素不敏感；共济失调-白内障综合征(Marinesco-Sj\xc3\xb6gren syndrome)；马尔慈奥夫(Martsolf)综合征；家族性水平注视麻痹伴进行性脊柱侧弯；米切尔-莱利(Mitchell-Riley)综合征；低尿钙高钙血症，家族性，1型和3型；鲁宾斯坦-泰比(Rubinstein-Taybi)综合征；肾炎及耳聋综合征；青少年视网膜劈裂症；贝克(Becker)肌营养不良；洛伊迪茨(Loeys-Dietz)综合征1、2、3；先天性肌肉肥大-脑综合征；家族性幼年型痛风；精子生成障碍11、3和8；唇腭裂11和7，唇裂/腭裂-外胚层发育不良综合征；智力低下，X连锁，非特异性，综合征，Hedera型和综合征，wu型；联合氧化磷酸化缺陷1、3、4、12、15和25；额颞叶痴呆；Kniest发育不良；家族性心肌病；良性家族性血尿；嗜铬细胞瘤；氨基糖苷类引起的耳聋；γ-氨基丁酸转氨酶缺乏症；眼皮肤白化病IB型、3型和4型；肾缺损综合征；中枢神经系统髓鞘减少；Hennekam淋巴管扩张症-淋巴水肿综合征2；偏头痛，家族性基底动脉；X连锁3型远端脊髓性肌萎缩；X-连锁脑室旁异位；小头畸形；粘多糖贮积症、MPS-I-H/S、MPS-II、MPS-III-A、MPS-III-B、MPS-III-C、MPS-IV-A、MPS-IV-B；婴儿帕金森(Parkinsonism)-肌张力障碍；伴有TDP43包涵体的额颞叶痴呆，TARDBP相关；遗传性弥漫性胃癌；I型和II型唾液酸沉积症；小头畸形-毛细血管畸形综合征；遗传性乳腺癌和卵巢癌综合征；脑小血管病伴出血；非酮性高甘氨酸血症；纳瓦霍(Navajo)神经肝病；耳髁状突综合征2；痉挛性截瘫15、2、3、35、39、4、常染色体显性、55、常染色体隐性和5A；常染色体隐性皮肤松弛型IA和IB；由于葡萄糖磷酸异构酶缺乏引起的溶血性贫血，非球形红细胞性贫血；早年衰老综合征；伴有荨麻疹和耳聋的家族性淀粉样肾病；主动脉瓣上狭窄；弥漫性掌跖角化病，Bothnian型；心手综合征；Coffin Siris/智障；左右轴畸形；拉帕迪利诺(Rapadilino)综合征；真性小眼球2；颅缝早闭和牙齿变异；副神经节瘤1；斯奈德罗宾逊(Snyder Robinson)综合征；心室纤维性颤动；激活型PI3K-δ综合征；豪威尔-埃文斯(Howel-Evans)综合征；扁脸关节脱位足异常综合征，显性型；Van Maldergem综合征2；MYH相关性息肉；6-丙酮酰-四氢蝶呤合成酶缺乏症；阿拉杰里综合征1和2；淋巴管肌瘤病；肌-眼-脑病；WFSl相关障碍；原发性肥大性骨关节病，常染色体隐性遗传2；不孕不育；Nestor-Guillermo(内斯特-桂奈维尔)早衰综合征；线粒体三功能蛋白缺乏症；左心发育不全综合征2；原发性扩张型心肌病；色素性视网膜炎；先天性巨结肠3；遗传性血栓性血小板减少性紫癜；狄布寇斯(Desbuquois)发育不良2；腹泻3(分泌性钠，先天性，综合征)和5(先天性簇绒肠病)；先天性厚甲症4型和2型；伴有皮质下梗死和白质脑病的常染色体显性和隐性脑动脉病；卵黄样黄斑营养不良(Vi tel 1i form dystrophy)；II型、IV型、IV型(肝肌病联合)、V型和VI型；非典型雷特(Rett)综合征；房室间隔缺损4；掌跖角化牙周破坏综合征(Papillon-Lef\xc3\xa8vre syndrome)；莱伯氏(Leber)先天性黑蒙；X连锁遗传性运动和感觉神经病；进行性硬化性脊髓灰质炎；Goldmann-Favre综合征；肾-肝-胰腺发育不良；霍-帕二氏综合征；淀粉样变甲状腺素蛋白淀粉样变性；梅-尼二氏综合征；高免疫球蛋白E综合征；后索性共济失调与视网膜色素变性；点状软骨发育不良1，X连锁隐性和2X连锁显性；晶状体异位，孤立的常染色体隐性和显性；家族性寒冷性荨麻疹；家族性腺瘤性息肉病1和3；汗孔角化症8，播散浅表光化型；PIK3CA相关过度生长谱；颅内海绵状血管瘤2；渗出性玻璃体视网膜病变6；先天性巨脑畸形毛细血管扩张症；TARP综合征；糖尿病，永久性新生儿，具有神经系统特征；短肋胸椎发育异常11或3伴有或不伴有多指畸形；多毛性骨软骨发育不良；β地中海贫血；尼曼-匹克氏(Niemann-Pick)病Cl、C2型、A型和Cl型、成人型；夏科-马里-图思(Charcot-Marie-Tooth)病类型IB、2B2、2C、2F、21、2U(轴突)、1C(脱髓鞘)、显性中间C、隐性中间A、2A2、4C、4D、4H、IF、IVF和X；I型酪氨酸血症；阵发性心房颤动；UV敏感综合征；牙齿缺失，选择性，3和4；美罗辛(Merosin)缺乏症先天性肌肉萎缩症；长链3-羟酰基-CoA脱氢酶缺乏症；先天性无虹膜；左心室致密化不全5；芳香族-L-氨基酸脱羧酶缺乏；冠状动脉心脏疾病；全白甲；远端关节挛缩2B型；色素性视网膜炎10、11、12、14、15、17和19；罗宾索劳夫(Robinow Sorauf)综合征；特诺里奥(Tenorio)综合征；泌乳素瘤；神经纤维瘤病，蓝德(land)型2型；伴有脑和眼异常的先天性肌营养不良-抗肌萎缩相关糖蛋白病，A2、A7、A8、Al l和A14型；内脏异位，内脏，2、4和6，常染色体；扬科维奇里维拉(Jankovic Rivera)综合征；脂肪代谢障碍，家族性的部分的，2型和3型；血红蛋白H病，非缺失；多中心性骨质溶解结节病和关节病；甲状腺发育不全；酰基辅酶A脱氢酶家族成员9缺乏；亚历山大(Alexander)病；植烷酸贮积病；乳腺癌-卵巢癌，家族性1、2和4；脯氨酸脱氢酶缺乏症；儿童低磷酸酯酶症；胰腺发育不全和先天性心脏病；维生素D依赖性佝偻病，类型蓝德(land)2；虹膜前房角发育不全显性型和1型；常染色体隐性少汗性外胚层发育不良综合征；智力低下，X连锁，3、21、30和72；2型遗传性出血性毛细血管扩张症；眼睑裂缝(睑口)狭小、上睑下垂和内眦赘皮；腺嘌呤磷酸核糖转移酶缺乏症；癫痫发作，良性家族性婴儿，2；肢端发育不全2，有或无激素抵抗；法洛(Fallot)四联症；色素性视网膜炎2、20、25、35、36、38、39、4、40、43、45、48、66、7、70、72；溶酶体酸性脂肪酶缺乏症；Eichsfeld型先天性肌营养不良症；沃克-沃伯格(Walker-Warburg)先天性肌营养不良症；TNF受体相关周期性发热综合征(TRAPS)；进行性肌阵挛性癫痫伴共济失调；癫痫，儿童失神癫痫2、12(特发性全面性癫痫，易感性)5(夜间额叶癫痫)，夜间额叶癫痫1型，部分性，具有可变病灶，进行性肌阵挛癫痫3，和X连锁，具有可变的学习障碍和行为障碍；长QT综合征；二羧基氨基酸尿；A1和A2型短指症；具有多种凝血因子缺乏的弹性假黄瘤样障碍；多系统平滑肌功能障碍综合征；并指Cenani Lenz型；朱伯特(Joubert)综合征1、6、7、9/15(双基因)、14、16和17，以及口颌面指综合征xiv；指头脑综合征；视网膜母细胞瘤；家族性运动障碍，伴有面部肌纤维颤搐；遗传性感觉和自主神经病IIB和IIA；家族性高胰岛素血症；伴有皮层下囊肿的巨脑白质脑病蓝德(land)2a；阿瑟(Aase)综合征；Wiedemann-Steiner综合征；剥脱性鱼鳞癣；先天性肌强直；肉芽肿病，慢性，X连锁，变异；2-甲基丁酰辅酶A脱氢酶缺乏症；结节病，早发；青光眼，先天性和青光眼，先天性，缺损；乳腺癌，易感性；神经元蜡样脂褐质沉积症2、6、7和10；先天性全身性脂肪营养不良2型；果糖-双磷酸酶缺乏症；先天性挛缩性蛛脚样指趾；林奇(Lynch)综合征I和II；磷酸甘油酸脱氢酶缺乏症；Burn-Mckeown综合征；心肌梗死1；色盲2和7；色素性视网膜炎73；红色盲基因缺陷；多小脑回畸形，不对称，双侧额顶；脊髓性肌萎缩，远端，常染色体隐性遗传，5；由于甲基丙二酰辅酶A变位酶缺乏引起的甲基丙二酸尿症；家族性脑穿通畸形；赫勒氏(Hurler)综合征；耳腭指综合征，I型和II型；小儿巨脑畸形综合征1或2；心脑肌病，致命性小儿，由于细胞色素c氧化酶缺乏症；类扭伤性侏儒；促甲状腺素释放激素抵抗，全身性；糖尿病，2型和胰岛素依赖型，20；胸主动脉瘤和主动脉夹层；雌激素抵抗；槭糖尿病1A型和3型；尿道下裂1和2，X连锁；异染性脑白质营养不良青少年型、晚期婴儿型和成人型；早期T细胞祖细胞急性淋巴细胞白血病；遗传性感觉神经病，IC型；智力低下，常染色体显性遗传31；色素性视网膜炎39；乳腺癌，早发性；May-Hegglin异常；戈谢(Gaucher)病1型和亚急性神经元病；特诺里奥(Temtamy)综合征；脊髓性肌萎缩，下肢显性2，常染色体显性；范科尼(Fanconi)贫血，互补组E、I、N和O；黑酸尿症；巨结肠病；联合丙二酸和甲基丙二酸尿症；致心律失常性右心室心肌病5、8和10型；先天性脂肪瘤过度生长、血管畸形和表皮痣；提摩西(Timothy)综合征；胍乙酸甲基转移酶缺乏；肌阵挛性肌张力障碍；川崎(Kanzaki)病；中性1氨基酸转运缺陷；神经垂体糖尿病尿崩症；甲状腺激素代谢异常；伴有心肌病的良性肩腓肌营养不良营养不良症；肝脏缺乏糖原合成酶的低血糖症；肥厚型心肌病；与乙酰胆碱受体缺乏相关的先天性肌无力综合征，11；智力低下X连锁综合征5；斯托莫肯(Stormorken)综合征；再生障碍性贫血；智力障碍；周期性正常血钾性麻痹，钾敏感；达农病(Danon disease)；肾痨13、15和4；甲状腺毒性周期性麻痹和甲状腺毒性周期性麻痹2；与多尾精子和过多DNA相关的不孕症；青光眼，原发性开角，青少年发病；无纤维蛋白原血症和先天性无纤维蛋白原血症；多囊肾病2，成人型，婴儿型；家族性迟发性皮肤卟啉病；眼脑肾综合征(肾痨、动眼神经失用和小脑异常)；额颞叶痴呆3染色体连锁和额颞叶痴呆泛素阳性；异型增生；免疫缺陷-着丝粒不稳定-面部异常综合征2；贫血，非球形细胞溶血性，由于G6PD缺乏；伴有或不伴有汗液氯化物3升高的支气管扩张；先天性肌病伴纤维型不均衡；卡尼(Carney)综合征，1型；隐睾，单侧或双侧；西门子大疱性鱼鳞病；孤立性促黄体素缺乏；DFNA2非综合征性听力损失；克莱因-沃登伯格(Klein-Waardenberg)综合征；灰色血小板综合征；胆汁酸合成缺陷，先天性，2；46，XY性逆转，1、3、5型；急性间歇性卟啉症；德朗热综合征(Cornelia deFange syndrome)1和5；高甘氨酸尿症；锥体杆体营养不良3；异常纤维蛋白原血症；卡拉克(Karak)综合征；先天性肌营养不良症-无智力障碍的抗肌萎缩相关糖蛋白病，B5型；婴幼儿眼震，X连锁；先天性角化不良，常染色体隐性遗传，1、3、4和5；伴有或不伴有脉络膜视网膜病变、淋巴水肿或智力低下的小头畸形；高赖氨酸血症；巴德-毕德氏(Bardet-Biedl)综合征1、11、16和19；常染色体隐性中央核肌病；弗雷泽(Frasier)综合征；尾部退化综合征；先天性眼外肌纤维化，1、2、3a(有或没有眼外受累)，3b；普拉德-威利(Prader-Willi)样综合征；恶性黑色素瘤；布卢姆氏(Bloom)综合症；毛囊角化病，节段性；多中心溶骨性肾病；1型、2B型和3型血色素沉着症；伴有进行性眼外肌麻痹的婴儿小脑性共济失调和小脑性共济失调、智力低下和失衡综合征2；左心发育不全综合征；癫痫、听力损失和智力低下综合征；转铁蛋白血清水平定量性状基因座2；眼白化病，I型；马凡(Marfan)综合征；伴有脑和眼异常的先天性肌营养不良-抗肌萎缩相关糖蛋白病，A14和B14型；高氨血症，III型；隐眼综合征；先天性普秃；成人低磷酸酯酶症；甘露糖结合蛋白缺乏症；牛眼样黄斑营养不良；常染色体显性扭转性肌张力障碍4；肾病综合征，3型，5型，有或没有眼部异常，7型和9型；癫痫发作，早期婴儿型癫痫性脑病7；持续性幼儿型胰岛素过度分泌低血糖症；血小板减少症，X连锁；新生儿张力减退；奥斯塔维克林德曼索伯格(Orstavik Lindemann Solberg)综合征；肺动脉高压，原发性，1，遗传性出血性毛细血管扩张症；垂体依赖性皮质醇增多症；疣状表皮发育不良；局灶性变异型交界性大疱性表皮松解症；细胞色素c氧化酶i缺乏症；金德勒(Kindler)综合征；肌硬化，常染色体隐性遗传；动脉干；眼球后退综合征2型；ADULT综合征；齐薇格(Zellweger)综合征谱；脑白质病伴共济失调，脑干和脊髓受累以及乳酸升高，白质消融且进行性，卵巢功能衰竭；抗凝血酶III缺乏症；全前脑畸形7；罗伯茨(Roberts)-SC-光眼病综合征；线粒体DNA耗竭综合征3和7，肝脑型和13(脑肌病型)；脑穿通畸形2；头小畸型、正常智力和免疫缺陷；巨轴突神经病；斯特奇-韦伯(Sturge-Weber)综合征，毛细血管畸形，先天性，1；法布里病和法布里病心脏变异型；谷氨酸亚胺基甲基转移酶缺乏；范可尼毕克尔(Fanconi-Bickel)综合征；指端细小型发育不良；癫痫，特发性全身性，易感性，12；基底节钙化，特发性，4；多糖体肌病1伴或不伴免疫缺陷；前列腺恶性肿瘤；面部先天性外胚层发育不良；先天性心脏病；年龄相关性黄斑变性3、6、11和12；先天性肌强直，常染色体显性和隐性形式；低镁血症1，肠道；亚硫酸氧化酶缺乏症，孤立性；皮克(Pick)病；I型血纤维蛋白溶酶原缺乏症；并指3型；锥杆营养不良牙釉质发育不全；假性原发性醛固酮增多症；终末骨发育不良；新生儿型巴特综合征2型；伴有智力低下的先天性肌营养不良-抗肌萎缩相关糖蛋白病，B2型、B3型、B5型和B15型；家族性婴儿型肌无力；淋巴增生综合征1、1(X连锁)和2；高胆固醇血症和常染色体隐性高胆固醇血症；卵巢恶性肿瘤；婴儿GM1神经节苷脂沉积症；综合征型X连锁智力低下16；5-磷酸核糖异构酶缺乏症；阿尔茨海默病，1型、3型和4型；安徒生-泰维勒(Andersen Tawil)综合征；多发性关节突综合征3；冻疮样狼疮1；噬血细胞性淋巴组织细胞增多症，家族性，2；阿克森费尔德-里格尔(Axenfeld-Rieger)综合征3型；肌病，先天性核心；轻度软骨发育不良的骨关节炎；过氧化物酶体生物发生障碍；重症先天性中性粒细胞缺乏症；遗传性神经痛性肌萎缩；局灶性非表皮松解性掌跖角化病；异常纤溶酶原血症；家族性结直肠癌；痉挛性共济失调5，常染色体隐性遗传，Charlevoix-Saguenay型，1、10或11，常染色体隐性遗传；额干骺端发育不良蓝德(land)3；遗传因子II、IX、VIII缺乏症；脊柱关节发育不良，埃勒斯-当洛(Ehlers-Danlos)综合征样，免疫失调，蛋白聚糖型，先天性关节脱位，短肢手型，Sedaghatian型，锥杆营养不良，Kozlowski型；鱼鳞病早产综合症；斯蒂克勒(Stickler)综合征1型；局灶性节段性肾小球硬化5；5-羟脯氨酸酶缺乏症；综合征性小眼畸形5、7和9；幼年性息肉病/遗传性出血性毛细血管扩张综合征；丁酰辅酶A脱氢酶缺乏；青年人中的成人发病型糖尿病，2型；智力低下，综合征，Claes-Jensen型，X连锁；耳聋，耳蜗，近视和智力障碍，无前庭受累，常染色体显性遗传，X连锁2；脊椎腕关节融合综合征；Sting相关幼年发病性血管病变；中性脂肪沉积症伴肌病；钙进入缺陷导致T细胞失活的免疫功能障碍2；心面皮肤综合征；皮质酮甲基氧化酶2型缺乏症；遗传性肌病伴早期呼吸衰竭；间质性肾炎，巨核症；三甲基胺尿症；高免疫球蛋白D伴有周期性发热；恶性高热易感性1型；伴有智力低下、侏儒症和视网膜色素变性的多毛病；乳腺腺癌；补体B因子缺乏症；乌尔里希(Ullrich)型先天性肌营养不良；左心室致密化不全心肌病；鱼眼病；费氏(Finnish)先天性肾变病综合征；肢带型肌营养不良，IB型、2A型、2B型、2D型、Cl型、C5型、C9型、C14型；特发性纤维化肺泡炎，慢性形式；原发性家族性肥厚性心肌病；血管紧张素转化酶，良性血清升高；Cd8缺乏症，家族性；普罗特斯(Proteus)综合征；葡萄糖-6-磷酸转运缺陷；伯-福-萊(Borjeson-Forssman-Lehmann)三氏综合征；齐薇格(Zellweger)综合征；脊肌萎缩症，II型；前列腺癌，遗传性，2；血小板减少症、血小板功能障碍、溶血和珠蛋白合成不平衡；先天性糖基化障碍IB、ID、1G、1H、1J、IK、IN、IP、2C、2J、2K、Ilm型；交界型大疱性表皮松解症Herlitz型；全面性癫痫伴热性惊厥附加症3、1型、2型；精神分裂症4；冠状动脉疾病，常染色体显性遗传2；先天性角化不良，常染色体显性遗传，2和5；皮层下层流异位，X-连锁；腺苷酸激酶缺乏症；X连锁严重联合免疫缺陷；粪卟啉症；转甲状腺素蛋白相关的淀粉样蛋白心肌病；低血钙症，常染色体显性遗传1；布鲁加达(Brugada)综合征；先天性肌无力综合征，乙酰唑胺反应性；原发性低镁血症；硬化性骨化病；额颞叶痴呆和/或肌萎缩侧索硬化症3和4；甲羟戊酸尿症；神经鞘瘤病2；伴有视神经萎缩的遗传性运动和感觉神经病；迟发性皮肤卟啉病；剥脱性骨软骨炎；癫痫发作，良性家族性新生儿，1，和/或肌运动；长QT综合征，LQT1亚型；智力低下、上颌前突、斜视；婴儿特发性高钙血症；低促性腺激素性腺机能减退11伴或不伴嗅觉丧失；伴有硬化性白质脑病的多囊性脂膜性骨发育不良；原发性常染色体隐性小头畸形10、2、3和5；主动脉弓断离；先天性无巨核细胞的血小板过低症；赫曼斯基-普德拉克(Hermansky-Pudlak)综合征1、3、4和6；长QT综合征1、2、2/9、2/5、(双基因)、3、5和5，获得性，易感性；安德曼(Andermann)综合征；视锥细胞营养不良3B；红细胞生成性原卟啉症；墨蝶呤(Sepiapterin)还原酶缺乏症；极长链酰基辅酶A脱氢酶缺乏症；高铁蛋白血症白内障综合征；Silver痉挛性截瘫综合征；夏-马-图(Charcot-Marie-Tooth)三氏病；心房间隔缺损2；卡内瓦尔综合征；遗传性疼痛不敏感伴无汗症；儿茶酚胺敏感性室速；低钾性周期性麻痹1和2；婴儿猝死综合症；伴有铁超载的低色素性小细胞性贫血；GLUT1缺乏综合征2；脑白质营养不良伴髓鞘发育不良，11和6；锥体全色盲；骨硬化症常染色体显性1型和2型、隐性4型、隐性1型、隐性6型；重症先天性中性粒细胞缺乏症3，常染色体隐性或显性；蛋氨酸腺苷转移酶缺乏症，常染色体显性遗传；阵发性家族性心室纤维性颤动；红细胞丙酮酸激酶缺乏症；新生儿致命的软骨发育不良；尖端扭转型室性心动过速；远端肌病Markesbery-Griggs型；缺乏UDP葡萄糖-己糖-1-磷酸尿苷酰转移酶；心源性猝死；Neu-Laxova综合征1；无转铁蛋白血症；甲状旁腺功能亢进1和2；皮肤恶性黑色素瘤1；交感神经，近端，lb；进行性假性类风湿性发育不良；韦德尼希-霍夫曼综合征；2型软骨形成不良；全前脑畸形2、3、7和9；辛德勒病1型；伴有钙化和囊肿的脑视网膜微血管病；异质性、内脏性、X-连锁；结节性硬化综合征；卡塔格内综合征；甲状腺激素抵抗，全身性，常染色体显性遗传；常染色体隐性遗传斑萎；指甲障碍，非综合征性先天性，8型；Mohr-Tranebjaerg综合征；锥体杆体营养不良12；听力受损；卵巢性白质营养不良；近端肾小管酸中毒，伴有眼部异常和智力低下；二氢蝶啶还原酶缺乏症；伴有或不伴有智力低下的语言障碍的病灶性癫痫；共济失调-毛细血管扩张综合征；Brown-Vialetto-VanLaere综合征和Brown-Vialetto-VanLaere综合征2；心肌病；外周脱髓鞘性神经病，中枢性髓鞘发育不良；角膜营养不良，Fuchs内皮，4；考登(Cowden)综合征3；肌张力障碍2(扭转，常染色体隐性)、3(扭转，X连锁)、5(多巴反应型)、10、12、16、25、26(肌阵挛)；骨骺发育不良、多发、伴有近视和传导性耳聋；心脏传导缺陷，非特异性；鳃耳综合征2和3；过氧化物酶体生物发生障碍14B、2A、4A、5B、6A、7A和7B；家族性肾性糖尿；念珠菌病，家族性，2、5、6和8；自身免疫性疾病，多系统，婴儿发病；婴儿早期癫痫性脑病2、4、7、9、10、11、13和14；Segawa综合征，常染色体隐性遗传；耳聋，常染色体显性遗传3a、4、12、13、15，常染色体显性非综合征性感觉神经性17、20和65；先天性红细胞生成异常性贫血，I型和II型；增强的s锥综合征；成人神经元蜡样脂褐质沉积症；心房颤动，家族性，11、12、13和16；诺卢姆(Norum)病；骨肉瘤；部分白化病；生物素酶缺乏症；细胞和体液免疫复合缺陷伴肉芽肿；阿佩尔氏(Alpers)脑病；全羧化酶合成酶缺乏症；青少年、1型、2型、11型、3型和9型的成熟期糖尿病；变异性卟啉症；婴儿性骨皮质增生症；睾酮17-β-脱氢酶缺乏症；L-2-羟基戊二酸尿症；酪氨酸酶阴性眼皮肤白化病；原发性纤毛运动障碍24；4型脑桥小脑发育不全；睫状体运动障碍，原发性、7、11、15、20和22；基底核钙化症5；脑萎缩；颅缝早闭1和4；圆锥角膜1；皮肤病；先天性肾上腺增生和先天性肾上腺发育不良，X连锁；线粒体DNA耗竭综合征11、12(心肌病型)、2、4B(MNGIE型)、8B(MNGIE型)；患有高血压的短指；扁平角膜2；阿斯科格(Aarskog)综合征；多发性骨骺发育不良5或显性；角膜内皮营养不良2型；氨基酰化酶1缺乏症；言语和语言发育迟缓；Nicolaides-Baraitser综合征；肠激酶缺乏症；先天性缺指、外胚层发育不良和唇裂/腭裂综合征3；先天性多发性关节挛缩症，远端，X连锁；波瑞特(Perrault)综合征4；耶-兰(Jervell和Lange-Nielsen)综合征2；遗传性非息肉病性结直肠肿瘤；胎儿面容综合征，常染色体隐性遗传，常染色体隐性遗传，伴有短距先天性并(多)指(趾)；神经纤维肉瘤；细胞色素-c氧化酶缺乏症；膀胱输尿管反流8；多巴胺β羟化酶缺乏症；I型和II型碳水化合物缺乏糖蛋白综合征；进行性家族性肝内胆汁淤积3；良性家族性新生儿-婴儿癫痫发作；胰腺炎，慢性，易感；肢近端型点状软骨发育不良2型和3型；由于细胞色素p450氧化还原酶缺乏导致的类固醇生成紊乱；耳聋伴膜迷路发育不全和小齿畸形耳聋(FAMM)；罗斯蒙德-汤姆森(Rothmund-Thomson)综合征；皮层发育不良、复杂型、伴有其他脑部畸形5和6；肌无力，家族性婴儿型，1；I型毛发鼻指骨发育不良；Worth疾病；脾发育不全；钼辅因子缺乏，互补组A；塞巴斯蒂安(Sebastian)综合征；进行性家族性肝内胆汁淤积2和3；韦尔-马切萨尼(Weill-Marchesani)综合征1和3；2型小头骨发育不良原始侏儒症；肺部表面活性剂代谢功能障碍2和3；重型X连锁肌管性肌病；胰腺癌3；血小板型出血性障碍15和8；酪氨酸酶阳性眼皮肤白化病；Borrone Di Rocco Crovato综合征；ATR-X综合征；蔗糖酶-异麦芽糖酶缺乏症；补体成分4，部分缺乏，由于cl抑制剂功能失调；先天性中枢性通气不足；婴儿低磷酸酯酶症；纤溶酶原激活物抑制剂1型缺乏症；非霍奇金恶性淋巴瘤；高鸟氨酸血症-高氨血症-同型瓜氨酸尿综合征；施詹二氏(Schwartz Jampel)综合征1型；胎儿血红蛋白数量性状基因座1；远端肌病伴胫骨前部发病；努南(Noonan)综合征1和4，豹皮综合征1；青光眼1，开角型，e、F和G；肯尼-卡菲(Kenny-Caffey)综合征2型；PTEN错构瘤综合征；进行性假肥大性肌营养不良；胰岛素抵抗性糖尿病和黑棘皮病；小眼炎，孤立的3、5、6、8和伴缺损6；莱恩(Raine)综合征；卵巢早衰4、5、7和9；艾伦-赫恩登-达得利(Allan-Hemdon-Dudley)综合征；I型瓜氨酸血症；阿尔茨海默病，家族性，3，伴有痉挛性下肢轻瘫和失用症；家族性偏瘫偏头痛1型和2型；伴有囊性肾病的心包肿大；弹性假黄瘤；由于MTHFR缺乏、CBS缺乏和同型半胱氨酸尿症引起的同型半胱氨酸血症，吡哆醇反应性；扩张型心肌病1A、1AA、1C、1G、IBB、1DD、IFF、1HH、II、IKK、IN、IS、1Y、和3B；肌肉AMP鸟嘌呤氧化酶缺乏症；家族性乳腺癌；遗传性铁粒幼细胞性贫血；肌红蛋白尿，急性复发性，常染色体隐性遗传；神经铁蛋白病；心律失常；葡萄糖转运蛋白1型缺乏综合征；前脑无裂序列征；血管病，遗传性，伴有肾病、动脉瘤和肌肉痉挛；异戊酰辅酶A脱氢酶缺乏症；卡尔曼(Kallmann)综合征1、2和6；永久性新生儿糖尿病；肢端胼胝体综合征，Schinzel型；戈登(Gordon)综合征；MYH9相关障碍；唐纳-巴罗(Donnai Barrow)综合征；重度先天性中性粒细胞缺乏症6，常染色体隐性；夏科-马里-图思(Charcot-Marie-Tooth)病，ID型和IVF型；科-勒(Coffin-Lowry)综合征；线粒体3-羟基-3-甲基戊二酰辅酶A合酶缺乏症；低镁血症、癫痫发作和智力低下；坐骨髌骨发育不良；多发性先天性异常-张力减退-癫痫发作综合征3；痉挛性截瘫50，常染色体隐性遗传；具有非特异性骨骼异常的身材矮小；婴儿重症肌阵挛性癫痫；丙酸血症；青少年肾单位肾痨；大头畸形、巨大儿、面部畸形综合征；斯特格(Stargardt)病4；埃勒斯-当洛综合征7型(常染色体隐性遗传)、经典型、2型(早衰症)、羟赖氨酸缺陷型、4型、4型变异型，以及由于生腱蛋白-X缺乏所致；近视眼6；扁平髋；家族性感冒自身炎症综合征2；心脏和大血管畸形；血管假性血友病2M型和3型；半乳糖激酶缺乏症；布鲁加达(Brugada)综合征1；X-连锁鱼鳞病伴甾醇硫酸酯酶缺乏症；先天性眼缺损；组织细胞增多症-淋巴结病综合征；无虹膜、小脑共济失调和智力低下；左室心肌致密化不全3；肌萎缩侧索硬化1、6、15型(伴有或不伴有额颞叶痴呆)、22型(伴有或不伴有额颞叶痴呆)和10型；成骨不全12型、5型、7型、8型、I型、III型，巩膜正常，显性型，隐性围产期致死；血液系统肿瘤；蚕豆病，易感性；肺纤维化和/或骨髓衰竭，端粒相关，1和3；显性遗传性视神经萎缩；显性营养不良性大疱性表皮松解症，无皮肤；肌营养不良，先天性，巨锥型；多发性胃肠道闭锁；奥尔布赖特(McCune-Albright)综合征；指甲髌骨综合征；麦克劳德(McLeod)神经棘红细胞增多症综合征；普通变化型免疫缺陷病9；部分次黄嘌呤-鸟嘌呤磷酸核糖转移酶缺乏症；假性醛固酮减少症1型常染色体显性和隐性遗传和2型；尿苷酸水合酶缺乏症；异位；麦克(Meckel)综合征7型；小儿先天性白细胞颗粒异常综合征(Ch\xc3\xa9diak-Higashi syndrome)，契-东(Chediak-Higashi)综合征，成人型；ADA缺乏导致的严重联合免疫缺陷，伴有小头畸形、生长迟缓、对电离辐射敏感、非典型、常染色体隐性遗传、T细胞阴性、B细胞阳性、NK细胞阴性或NK阳性；胰岛素抵抗性；类固醇11-β-单加氧酶缺乏；腘翼状胬肉综合征；与遗传性出血性毛细血管扩张症相关的肺动脉高压；耳聋，常染色体隐性遗传1A、2、3、6、8、9、12、15、16、18b、22、28、31、44、49、63、77、86、和89；原发性高草酸尿症，I型，类型和III型；冯·尤伦伯格(von Eulenburg)先天性副肌强直；狄布寇斯(Desbuquois)综合征；肉毒碱脂酰转移酶I、II、II(迟发性)和II(婴儿)缺乏症；继发性甲状腺功能减退症；下颌面骨发育不全，特雷彻·柯林斯(Treacher Collins)型，常染色体隐性遗传；考登(Cowden)综合征1；李-佛美尼(Li-Fraumeni)综合征1；天冬酰胺合成酶缺乏症；Malattialeventines；视神经萎缩9；婴儿惊厥和阵发性舞蹈手足徐动症，家族性；缺乏维生素E的共济失调；胰岛细胞增生；三好氏(Miyoshi)肌营养不良1；血栓形成倾向，遗传性，由于蛋白C缺乏，常染色体显性和隐性；费希特纳(Fechtner)综合征；备解素缺乏，X连锁；智力低下、刻板运动、癫痫和/或脑畸形；肌酸缺乏，X连锁；毛母质瘤；发绀，短暂性新生儿和非典型肾病；成人发作性动眼不能共济失调综合征；血管瘤，毛细血管瘤；PC-K6a；全身性显性营养不良性大疱性表皮松解症；佩梅病(Pelizaeus-Merzbacher)；肌病，中心核，1，先天性，肌梭过多，远端，1，乳酸酸中毒和铁粒幼细胞性贫血1，线粒体进行性伴先天性白内障，听力损失和发育迟缓，管状聚集，2；良性家族性新生儿惊厥1和2；原发性肺动脉高压；原发性淋巴水肿伴骨髓增生异常；先天性长QT综合征；家族性渗出性玻璃体视网膜病变，X连锁；常染色体显性少汗性外胚层发育不良；原始侏儒症；家族性肺毛细血管瘤病；肉碱酰基肉碱转氨酶缺乏症；内脏肌病；家族性地中海热和家族性地中海热病，常染色体显性遗传；合并部分和完全17-α-羟化酶/17,20-裂解酶；耳腭指综合征，I型；肾结石/骨质疏松症，低磷血症，2；家族性1型和3型高脂蛋白血症；表型；CHARGE联合畸形；福尔曼(Fuhrmann)综合征；稀发症-淋巴水肿-毛细血管扩张综合征；软骨发育不良Blomstrand型；Acroerythrokeratoderma；神经传导速度减慢，常染色体显性遗传；遗传性癌症易感综合征；颅骨干发育不良，常染色体显性遗传；脊髓小脑性共济失调常染色体隐性遗传1和16；蛋白质原转换酶1/3缺乏症；D-2-羟基戊二酸尿症2；惊跳症2和遗传性惊跳症；中央轴突症；Opitz G/BBB综合征；囊性纤维化；蜂窝状角膜营养不良；双磷酸甘油酸变位酶缺乏；线粒体短链烯酰辅酶A水合酶1缺乏症；外胚层发育不良皮肤脆性综合征；沃尔弗拉姆(Wolfram)样综合征，常染色体显性遗传；小细胞性贫血；丙酮酸羧化酶缺乏症；白血球黏着不足I型和III型；多发性内分泌腺瘤，类型4；新生儿暂时性大疱性皮肤松解症；Primrose综合征；非小细胞肺癌；先天性肌营养不良症；混合型酯酶缺陷症；科尔卡彭特(COLE-CARPENTER)综合征2；房室间隔缺损和普通房室交界处；黄嘌呤氧化酶缺乏；瓦登伯革氏(Waardenburg)综合征1、4C和2E型(伴有神经系统受累)；斯蒂克勒(Stickler)综合征，l型(非综合征眼)和4型；角膜脆性角膜球、蓝色巩膜和关节活动过度；小球形晶状体；Chudley-McCullough综合征；单纯型大疱性表皮松解症和肢带型肌营养不良症，单纯性斑驳色素沉着，单纯性有幽门闭锁，单纯性，常染色体隐性遗传，有幽门闭锁；雷特(Rett)障碍；神经元迁移异常；垂体异常的生长激素缺乏症；亚急性坏死性脑脊髓病；掌跖角化症纹状体1；魏森巴赫-茨威穆勒(Weissenbacher-Zweymuller)综合征；中链酰基辅酶A脱氢酶缺乏症；UDP葡糖-4-差向异构酶缺乏症；自闭症易感性，X连锁3；孔源性视网膜脱离，常染色体显性遗传；家族性热性惊厥8；尺骨和腓骨缺乏严重肢体缺陷；左室心肌致密化不全6；染色体1,9和16的着丝粒不稳定性和免疫缺陷；具有球状体的遗传性弥漫性白质脑病；库欣(Cushing)综合征；多巴胺受体d2，脑密度降低；C样综合征；肾发育不良、视网膜色素营养不良、小脑共济失调和骨骼发育不良；卵巢发育不全1；皮尔森(Pierson)综合征；多发性神经病、听力损失、共济失调、色素性视网膜炎和白内障；进行性肝内胆汁淤积；常染色体显性遗传、常染色体隐性遗传和X连锁隐性奥尔波特(Alport)综合征；安格尔曼(Angelman)综合征；阿米什(Amish)婴儿癫痫综合征；自身免疫性淋巴增生综合征，la型；脑积水；类马方氏综合征(Marfanoid habitus)；巴尔(Bare)淋巴细胞综合征2型，互补组E；隐性营养不良性大疱性表皮松解症；因子H、VII、X、v和因子viii，2、xiii、亚基的联合缺乏；板层粉状白内障3；疣、低丙种球蛋白血症、感染和骨髓增生异常；良性遗传性舞蹈病；透明质酸葡糖胺酶缺乏；小头畸形、裂孔疝和肾病综合征；生长发育与智力低下、下颌面部发育不良、小头畸形和腭裂；淋巴水肿，遗传性，id；青春期延迟；表征性盐皮质激素增多症；婴儿期全身动脉钙化2；甲基丙二酸尿症，mut(0)型；先天性心脏病，多种类型，2个；家族性发育不全，肾小球囊肿性肾病；脑-眼-面-骨骼综合征2；斯特格(Stargardt)病1；智力低下，常染色体隐性遗传15、44、46和5；脯肽酶缺乏症；甲基丙二酸尿症cblB型，；小口氏病；内分泌-脑骨发育异常；无脑畸形1、2(X连锁)、3、6(小头畸形)、X连锁；生长激素细胞腺瘤；Gamstorp-Wohlfart综合征；脂质蛋白沉积症；包涵体肌病2和3；前庭导水管扩大综合征；骨质疏松-假性神经胶质瘤综合征；获得性长QT综合征；苯丙酮尿症；CHOPS综合征；整体发育迟缓症；结晶样视网膜变性；伴有或不伴有幼年型粒单核细胞白血病的努南(Noonan)综合征样疾病；先天性生血性卟啉症；遗传性眼球萎缩；副神经节瘤3；唇腭裂综合征；芳香环转化酵素缺乏症；Birk Barel智力障碍性畸形综合征；5型肌萎缩侧索硬化症；高铁血红蛋白症I型1和2；先天性静止性夜盲症，1A型、IB型、1C型、IE型、IF型和2A型；癫痫发作；甲状腺癌，滤泡性；致死性先天性挛缩综合征6；远端遗传性运动神经元病2B型；性索-间质肿瘤；癫痫性脑病，儿童期发病，婴儿早期，1、19、23、25、30和32；肌原纤维肌病1和ZASP相关；婴儿小脑性共济失调伴进行性眼外肌麻痹；嘌呤核苷磷酸化酶缺乏症；前脑缺陷；年龄依赖性癫痫性脑病；肥胖；4、左心室致密化不全10；Verheij综合征；Mowat-Wilson综合征；Odontotrichomelic综合征；视网膜色素上皮的斑状营养不良；Lig4综合征；巴拉卡特(Barakat)综合征；IRAK4缺乏；生长激素细胞腺瘤；支链酮酸脱氢酶激酶缺乏症；胱氨酸尿症；家族性蚓发育不良；琥珀酰-辅酶A乙酰乙酸转移酶缺乏症；肩腓型脊髓性肌萎缩；色素性视网膜变性；格兰兹曼(Glanzmann)血小板无力症；青少年原发性开角型青光眼1；Aicardi Goutieres综合征1、4和5；肾发育不良；宫内发育迟缓、干骺端发育不良、先天性肾上腺发育不全、生殖器异常；念珠状毛；身材矮小、趾甲发育不良、面部畸形和稀发症；异染性脑白质营养不良；胆甾烷醇贮积病；三M综合征2；莱伯氏(Leber)先天性黑蒙症11、12、13、16、4、7、9；下颌骨发育不良伴A型或B型脂肪营养不良，非典型；美尔戈林(Meier-Gorlin)综合征4；稀发症8和12；短QT综合征3；外胚层发育不良l ib；无甲症；1A型假性甲状旁腺功能减退症，假性甲状旁腺功能减退症；莱伯(Leber)视神经萎缩；班布里奇-罗珀斯(Bainbridge-Ropers)综合征；韦弗(Weaver)综合征；身材矮小、耳道闭锁、下颌骨发育不良、骨骼异常；缺乏α-甘露糖苷酶；黄斑营养不良，卵黄状，成人发病；戊二酸尿症，1型；神经节苷脂沉着症GM1型(心脏受累)3；下颌骨发育不良；I型遗传性淋巴水肿；心房静止2；歌舞伎面谱综合征；Bethlem(伯利恒)肌病和Bethlem(伯利恒)肌病2；髓过氧化物酶缺乏症；斑点状角膜营养不良；遗传性肠病性肢端皮炎；与apob32相关的家族性低β脂蛋白血症；科凯恩(Cockayne)综合征A型，；甲状旁腺功能亢进，新生儿重症；共济失调-毛细血管扩张样障碍；彭德莱(Pendred)综合征；I血型系统；家族性良性天疱疮；内脏异位5，常染色体；肾性尿崩症，肾性尿崩症，X连锁；伴有眼外肌麻痹的小核肌病；佩里(Perry)综合征；少汗/头发/牙齿型，常染色体隐性遗传；遗传性胰腺炎；智力低下和小头畸形伴脑桥和小脑发育不全；糖原贮积病0(肌肉)、II(成人型)、IXa2、IXc、1A型；颅骨硬化纹状骨病；谷胱甘肽合成酶缺乏症；布鲁格达氏(Brugada)综合征和布鲁格达氏(Brugada)综合征4；子宫内膜癌；伴有免疫缺陷的少汗性外胚层发育不良；胆汁淤积，肝内，妊娠3；伯-苏氏(Bemard-Soulier)综合征，A1和A2型(常染色体显性遗传)；唾液酸贮积病；鸟氨酸氨基转移酶缺乏症；PTEN错构瘤综合征；Distichiasis-淋巴水肿综合征；皮质类固醇结合球蛋白缺乏症；成人神经元蜡样脂褐质沉积症；德热里纳-索塔斯(Dejerine-Sottas)病；先天性四肢切断综合征(Tetraamelia)，常染色体隐性遗传；赛尼奥-洛肯(Senior-Loken)综合征4和5，；戊二酸血症IIA和IIB；主动脉瘤，家族性胸4、6和9；伴有精神发育迟滞综合征2、3和4的高磷酸盐血症；X连锁先天性角化不良；关节挛缩症、肾功能不全和胆汁淤积2；斑纳扬—赖利—鲁瓦尔卡巴(Bannayan-Riley-Ruvalcaba)综合征；3-甲基戊二酸尿症；孤立的17,20-裂解缺乏症；戈林(Gorlin)综合征；手足子宫综合征；泰赛二氏(Tay-Sachs)病，B1变异，Gm2-神经节苷脂沉积症(成人)，Gm2-神经节苷脂沉积症(成人发病)；道林-德戈斯(Dowling-degos)病4；帕金森病14、15、19(青少年发病)、2、20(早发)、6、(常染色体隐性早发)和9；感觉共济失调，常染色体显性遗传；先天性微绒毛萎缩；肌阵挛-失张力性癫痫；丹吉尔(Tangier)病；2-甲基-3-羟基丁酸尿症；家族性肾性低尿酸血症；脑裂畸形；线粒体DNA耗竭综合征4B，MNGIE型；芬戈尔德(Feingold)综合征1；肾性肉毒碱转运缺陷；家族性高胆固醇血症；Townes-Brocks-branchiootorenal样综合征；格里瑟里(Griscelli)综合征3型；梅克尔–格鲁贝尔(Meckel-Gruber)综合征；大疱性鱼鳞病样红皮病；中性粒细胞免疫缺陷综合征；肌无力综合征，先天性，17、2A(慢通道)、4B(快通道)，无管状聚集体；糖尿病的微血管并发症7；McKusickKaufman综合征；慢性肉芽肿病，常染色体隐性遗传细胞色素b阳性，1型和2型；精氨基琥珀酸裂解酶缺乏症；线粒体磷酸盐载体和丙酮酸载体缺乏；晶格状角膜营养不良III型；外胚层发育不良-并指综合征1；低髓性脑白质营养不良7；智力低下，常染色体显性遗传12、13、15、24、3、30、4、5、6和9；全身性癫痫伴热性惊厥加，1型和2型；银屑病易感性2；弗兰克·特哈尔(Frank Ter Haar)综合征；胸主动脉瘤和主动脉夹层；克鲁宗(Crouzon)综合征；卵巢粒层细胞瘤；表皮松解性掌跖角化病；勒里-威尔(Leri Weill)软骨发育不良；3β-羟基类固醇脱氢酶缺乏症；家族性限制性心肌病1；具有线粒体DNA缺失1和3的常染色体显性进行性眼外肌麻痹；伴有生殖器异常和类固醇生成紊乱的比克斯勒综合征(Antley-Bixler)综合征；遗传性骨发育不良并肢端溶骨症；色素性结节性肾上腺皮质疾病，原发性，1；发作性疼痛综合征，家族性，3；德热里纳-索塔斯(Dejerine-Sottas)综合征，常染色体显性；FG综合征和FG综合征4；树突状细胞、单核细胞、B淋巴细胞和自然杀伤淋巴细胞缺乏症；甲状腺功能减退，先天性，非甲状腺肿，1；米勒(Miller)综合征；线状体肌病3和9；少齿-结直肠癌综合征；寒性出汗综合征1；Van Buchem病2型；青光眼3，原发性先天性，d；I型和II型瓜氨酸血症；Nonaka肌病；由于部分LAMA2缺乏导致的先天性肌营养不良症；神经性胃肠道脑病综合征；由于线粒体复合物I缺乏导致的亚急性坏死性脑脊髓病；髓母细胞瘤；丙酮酸脱氢酶El-α缺乏症；结肠癌；南斯-霍兰(Nance-Horan)综合征；桑霍夫(Sandhoff)病，成人和婴儿型；关节挛缩症肾功能不全胆汁淤积综合征；常染色体隐性遗传性低磷性骨病；多英蜂窝状视网膜营养不良；脊髓小脑性共济失调14、21、35、40和6；路易体痴呆；RRM2B相关的线粒体疾病；布罗迪氏(Brody)病；巨脑-多小脑回-多指-脑积水综合征2；乌谢尔(Usher)综合征，1型、IB、ID、1G、2A、2C、和2D；钙化不全型和成熟不足型，IIA1牙釉质发育不全；垂体激素缺乏，联合1、2、3和4；库欣(Cushing)共生主义；肾小管酸中毒，远端，常染色体隐性遗传，迟发性感觉神经性听力损失，或溶血性贫血；婴儿肾单位肾痨；幼年性息肉病综合征；感觉共济失调性神经病、构音障碍和眼肌瘫痪；3-羟酰基-辅酶A脱氢酶缺乏症；甲状旁腺癌；X连锁无丙种球蛋白血症；巨幼细胞性贫血，硫胺素反应性，糖尿病和感觉神经性耳聋；多发性硫酸酯酶缺乏症；伴有大脑内铁沉积4和6的神经变性；胆固醇单加氧酶(侧链切割)缺乏症；腺苷酸基琥珀酸裂解酶缺乏引起的溶血性贫血；伴有参差不齐的红色纤维的癫痫肌阵挛；皮特-霍普金斯(Pitt-Hopkins)综合征；多发性翼状胬肉综合征Escobar型；同型半胱氨酸尿症-由于钴胺素代谢缺陷导致的巨幼细胞性贫血，cblE互补型；胆囊炎；4型和5型球形红细胞增多症；多种先天性异常；色素性干皮病，互补组b、组D、组E和组G；雷纳(Leiner)综合征；Groenouw角膜营养不良I型；辅酶Q10缺乏，原发性1、4和7；远端脊髓性肌萎缩，先天性非进行性；华宝(Warburg)微综合征2和4；胆汁酸合成缺陷，先天性，3；ACTH非依赖性肾上腺大结节样增生2；顶股骨发育不良；家族性佩吉特(Paget)骨病；严重的新生儿脑病伴小头畸形；齐默尔曼-拉班德(Zimmermann-Laband)综合征和齐默尔曼-拉班德(Zimmermann-Laband)综合征2；赖芬斯坦(Reifenstein)综合征；家族性低钾血症-低镁血症；光敏性毛发硫营养不良；成人结合部大疱性表皮松解症；肺癌；弗里曼-谢尔顿(Freeman-Sheldon)综合征；高胰岛素血症-高氨血症综合征；2型后极性白内障；巩膜化角膜，常染色体隐性遗传；幼年GM>1<神经节苷脂沉积症；科恩(Cohen)综合征，；遗传性副神经节瘤-嗜铬细胞瘤综合征；新生儿胰岛素依赖型糖尿病；软骨发育不良；浮港(Floating-Harbor)综合征；患有骨营养不良和严重的肺部、胃肠道和泌尿系统异常的皮肤松弛；四肢和面部的先天性挛缩、肌张力减退和发育迟缓；先天性角化不良常染色体显性遗传和常染色体显性遗传，3；组织细胞性髓质网状组织增生症；克斯提洛氏(Costello)弹性蛋白缺陷症；免疫缺陷15、16、19、30、31C、38、40、8，由于cd3-zeta缺陷，1型和2型高IgM，以及X连锁，镁缺陷，爱泼斯坦-巴尔(Epstein-Barr)病毒感染和瘤形成；房间隔缺损2、4和7(伴有或不伴有房室传导缺陷)；GTP环水解酶I缺乏症；马蹄内翻足；磷酸甘油酸激酶1缺乏症；结节性硬化症1和2；常染色体隐性先天性鱼鳞病1、2、3、4A和4B；和家族性肥厚型心肌病1、2、3、4、7、10、23和24。

组织适应症

可以通过本文提供的系统和方法治疗的其他合适的疾病和障碍包括但不限于中枢神经系统(CNS)疾病(参见表13中的示例性疾病和受影响的基因)、眼睛疾病(参见表14中的示例性疾病和受影响的基因)、心脏疾病(参见表15中的示例性疾病和受影响的基因)，造血干细胞疾病(HSC)(参见表16中的示例性疾病和受影响的基因)、肾脏疾病(参见表17中的示例性疾病和受影响的基因)、肝脏疾病(参见表18中的示例性疾病和受影响的基因)、肺部疾病(参见表19中的示例性疾病和受影响的基因)、骨骼肌疾病(参见表20中的示例性疾病和受影响的基因)和皮肤疾病(参见表21中的示例性疾病和受影响的基因)。表22提供了降低指定疾病风险的示例性保护性突变。在一些实施例中，本文描述的Gene Writer系统用于治疗表13-21中任一个的适应症。在一些实施例中，GeneWriter系统修饰细胞中基因组DNA中的靶位点，其中靶位点在表13-21中任一个的基因中，例如在具有表13-21中任一个中列出的相应适应症的受试者中的基因。在一些实施例中，GeneWriter校正基因中的突变。在一些实施例中，GeneWriter插入已经从基因中缺失(例如，通过引起疾病的突变)的序列。在一些实施例中，GeneWriter缺失已在基因中复制(例如，通过引起疾病的突变)的序列。在一些实施例中，GeneWriter用相应的野生型序列替换突变(例如，引起疾病的突变)。在一些实施例中，突变是取代、插入、缺失或倒位。

表13.受到影响的中枢神经系统疾病和基因。

表14.受到影响的眼部疾病和基因。

疾病	受影响的基因
		色盲	CNGB3
先天性黑蒙(LCA1)	GUCY2D
		先天性黑蒙(LCA10)	CEP290
先天性黑蒙(LCA2)	RPE65
		先天性黑蒙(LCA8)	CRB1
无脉络膜血症	CHM
		锥体杆体营养不良(ABCA4)	ABCA4
锥体杆体营养不良(CRX)	CRX
		锥体杆体营养不良(GUCY2D)	GUCY2D
非肾病性胱氨酸眼病	CTNS
		晶格状角膜营养不良I型	TGFBI
斑点状角膜营养不良(MCD)	CHST6
		视神经萎缩	OPA1
色素性视网膜炎(AR)	USH2A
		色素性视网膜炎(AD)	RHO
斯特格(Stargardt)病	ABCA4
		卵黄状黄斑营养不良	BEST1；PRPH2

表15.受到影响的心脏病和基因。

表16.受到影响的HSC疾病和基因。

表17.受影响的肾脏疾病和基因。

疾病	受影响的基因
		奥尔波特(Alport)综合征	COL4A5
常染色体显性多囊肾病(PKD1)	PKD1
		常染色体显性多囊肾病(PKD2)	PDK2
常染色体显性肾小管间质性肾病(MUC1)	MUC1
		常染色体显性肾小管间质性肾病(UMOD)	UMOD
常染色体隐性多囊肾病	PKHD1
		先天性肾病综合征	NPHS2
胱氨酸病	CTNS

表18.受影响的肝脏疾病和基因。

表19.受影响的肺部疾病和基因。

表20.受到影响的骨骼肌疾病和基因。

表21.受影响的皮肤病和基因。

疾病	受影响的基因
		显性大疱性表皮松解性营养不良症	COL7A1
隐性营养不良性大疱性表皮松解症(Hallopeau-Siemens型)	COL7A1
		交界型大疱性表皮松解症	LAMB3
单纯性大疱性表皮松解症	KRT5；KRT14
		表皮松解性鱼鳞病	KRT1；KRT10
Hailey-Hailey病	ATP2C1
		片层状鱼鳞病/非大疱性先天性鱼鳞病样红皮症(ARCI)	TGM1
Netherton综合征	SPINK5

表22.降低疾病风险的示例性保护性突变。

致病突变

在一些实施例中，本文提供的系统或方法可用于校正致病突变。致病突变可以是增加个体对某种疾病或病症的易感性或易染性的基因突变。在一些实施例中，致病突变是与疾病或障碍相关的基因中的引起疾病的突变。在一些实施例中，本文提供的系统或方法可用于将致病突变恢复为其野生型对应物。在一些实施例中，本文提供的系统或方法可用于将致病突变改变为不引起疾病或障碍的序列。

表23提供了示例性适应症(第1栏)、潜在基因(第2栏)和可以使用本文所述系统或方法校正的致病突变(第3栏)。

表23.适应症、基因和致病突变。

#：参见J T den Dunnen和S E Antonarakis,Hum Mutat.[人突变]2000；15(1):7-12，将其通过引用以其整体并入本文，以了解基因突变的命名法的细节。*表示终止密码子。

补偿性编辑

在一些实施例中，本文提供的系统或方法可用于引入补偿性编辑。在一些实施例中，补偿性编辑位于与疾病或障碍相关的基因的位置，该位置不同于引起疾病的突变的位置。在一些实施例中，补偿性突变不在包含致病突变的基因中。在一些实施例中，补偿性编辑可以取消或补偿引起疾病的突变。在一些实施例中，可以通过本文提供的系统或方法引入补偿性编辑以抑制或逆转引起疾病的突变的突变效应。

表24提供了示例性适应症(第1列)、基因(第2列)和可以使用本文所述的系统或方法引入的补偿性编辑(第3列)。在一些实施例中，可以引入表24中提供的补偿性编辑以抑制或逆转引起疾病的突变的突变效应。

表24.适应症、基因、补偿性编辑和示例性设计特征。

#：参见J T den Dunnen和S E Antonarakis,Hum Mutat.[人突变]2000；15(1):7-12，将其通过引用以其整体并入本文，以了解基因突变的命名法的细节。

调节性编辑

在一些实施例中，本文提供的系统或方法可用于引入调节性编辑。在一些实施例中，将调节性编辑引入基因的调节序列，例如基因启动子、基因增强子、基因阻遏物或调节基因剪接的序列。在一些实施例中，调节性编辑增加或降低靶基因的表达水平。在一些实施例中，靶基因与含有引起疾病的突变的基因相同。在一些实施例中，靶基因不同于含有引起疾病的突变的基因。例如，本文提供的系统或方法可用于通过在bcl11a的启动子处引入调节性编辑来上调胎儿血红蛋白的表达，从而治疗镰状细胞病。

表25提供了示例性适应症(第1列)、基因(第2列)和可以使用本文所述的系统或方法引入的调节性编辑(第3列)。

表25.适应症、基因和补偿性调节性编辑。

重复序列扩增疾病

在一些实施例中，本文提供的系统或方法可用于治疗重复序列扩增疾病，例如表26中提供的重复序列扩增疾病。表26提供了适应症(第1列)、基因(第2列)、在该条件下扩增的重复序列的最小重复序列(第3列)，以及每个适应症中重复序列相对于所列基因的位置(第4列)。在一些实施例中，本文提供的系统或方法，例如包含Gene Writer的系统或方法，可用于通过根据定制的RNA模板重置基因座处的重复序列数量来治疗重复序列扩增疾病(参见，例如，实例24)。

表26.示例性重复序列扩增疾病、基因、因果重复序列和重复序列位置。

示例性模板

在一些实施例中，本文提供的系统或方法使用表27中列出的模板序列。表27提供了示例性模板RNA序列(第5列)和任选的第二切口gRNA序列(第6列)，这些序列被设计为与Gene Writing多肽配对以校正指定的致病突变(第4列)。表27中的所有模板旨在举例说明以下各项的总序列：(1)针对第一链切口的gRNA，(2)多肽结合结构域，(3)异源对象序列，和(4)用于在第一链切口建立TPRT的靶向同源结构域。

表27.示例性疾病、组织、基因、致病突变、模板RNA序列和第二切口gRNA序列。

在一些实施例中，本文提供的系统或方法使用表35中列出的模板序列。表35提供了示例性模板RNA序列(第5列)和任选的第二切口gRNA序列(第6列)，这些序列被设计为与Gene Writing多肽配对以校正指定的致病突变(第4列)。表35中的所有模板旨在举例说明以下各项的总序列：(1)针对第一链切口的gRNA，(2)多肽结合结构域，(3)异源对象序列，和(4)用于在第一链切口建立TPRT的靶向同源结构域。

表35.用于校正示例性重复序列扩增疾病的示例性Gene Writing模板和第二切口gRNA序列。跨越一个或多个重复序列的模板区域以小写字母表示。

示例性异源对象序列

在一些实施例中，本文提供的系统或方法包含异源对象序列，其中该异源对象序列或其反向互补序列编码蛋白质(例如，抗体)或肽。在一些实施例中，疗法是由监管机构例如FDA批准的疗法。

在一些实施例中，蛋白质或肽是来自THPdb数据库的蛋白质或肽(Usmani等人PLoSOne[公共科学图书馆·综合]12(7):e0181748(2017)，将其通过引用以其整体并入本文。在一些实施例中，蛋白质或肽是表28中披露的蛋白质或肽。在一些实施例中，本文披露的系统或方法，例如包含Gene Writer的系统或方法，可用于将表28中的蛋白质或肽的表达盒整合到宿主细胞中，以使蛋白质或肽能够在宿主中表达。在一些实施例中，表28第一列中的蛋白质或肽的序列可以在表28第三列中提供的专利或申请(通过引用以其整体并入)中找到。

在一些实施例中，蛋白质或肽是Lu等人J Biomed Sci[生物医学科学杂志]27(1):1(2020)的表1中披露的抗体，该文献通过引用以其全文并入本文。在一些实施例中，蛋白质或肽是表29中披露的抗体。在一些实施例中，本文披露的系统或方法，例如包含GeneWriter的系统或方法，可用于将表29中的抗体的表达盒整合到宿主细胞中，以使抗体能够在宿主中表达。在一些实施例中，本文所述的系统或方法用于表达药剂，该药剂在具有表29第3列的适应症的受试者中结合表29第2列的靶(例如，表29第1列的单克隆抗体)。

表28.示例性蛋白质和肽治疗剂。

表29.示例性单克隆抗体疗法。

植物修饰方法

本文所述的Gene Writer系统可用于修饰植物或植物部分(例如，叶、根、花、果实或种子)例如以增加植物的适应度。

A.向植物的递送

本文提供了将本文所述的Gene Writer系统递送至植物的方法。包括用于通过使植物或其一部分与Gene Writer系统接触而将Gene Writer系统递送至植物的方法。这些方法可用于修饰植物以例如增加植物的适应度。

更特别地，在一些实施例中，本文所述的核酸(例如，编码GeneWriter的核酸)可以在载体中编码，例如邻近植物启动子(例如，植物载体(例如，pHUC411)中的玉蜀黍泛素启动子(ZmUBI))而插入。在一些实施例中，本文所述的核酸经由农杆菌被引入植物(例如，粳稻)或植物的一部分(例如，植物的愈伤组织)。在一些实施例中，本文所述的系统和方法可以通过用无效等位基因(例如，在起始密码子处含有碱基取代)替换植物基因(例如，潮霉素磷酸转移酶(HPT))而用于植物。以下中描述了用于修饰植物基因组的系统和方法：Xu等人Development of plant prime-editing systems for precise genome editing[开发用于精确基因组编辑的植物先导编辑系统],2020,Plant Communications[植物通讯]。

在一方面，本文提供了一种增加植物的适应度的方法，该方法包括向该植物递送本文所述的Gene Writer系统(例如，以有效的量和持续时间)以相对于未经处理的植物(例如，未递送该Gene Writer系统的植物)增加该植物的适应度。

由于递送Gene Writer系统而产生的植物适应度的增加能以多种方式表现出来，例如，从而导致植物的更好的生产，例如改善的产率，改善的植物活力或从植物中收获的产物的质量，农业或园艺业所希望的收获前或收获后的性状(例如，味道、外观、货架期)的改善，或在其他方面使人类受益的性状(例如，减少变应原产生)的改善。改善的植物产率涉及相对于在相同条件下但不应用本发明组合物而生产的植物的相同产品的产率或与应用常规植物修饰剂相比，按可测量量计植物的产品的产率的增加(例如，如通过植物生物质、谷物、种子或果实产率、蛋白质含量、碳水化合物或油含量或叶面积测量的)。例如，产率可以增加至少约0.5％、约1％、约2％、约3％、约4％、约5％、约10％、约20％、约30％、约40％、约50％、约60％、约70％、约80％、约90％、约100％、或大于100％。在一些情况下，相对于未处理的植物，该方法有效地将产率增加约2x倍、5x倍、10x倍、25x倍、50x倍、75x倍、100x倍、或大于100x倍。产率可以以在某种基础上植物或植物的产品的重量或体积计的量来表示。基础可以以时间、生长面积、生产的植物的重量、或所用原材料的量来表示。例如，此类方法可以增加植物组织的产率，这些植物组织包括但不限于：种子、果实、仁、圆荚、块茎、根和叶。

由于递送Gene Writer系统而产生的植物适应度的增加也可以通过其他手段来测量，如相对于在相同条件下但不施用本发明组合物或应用常规植物修饰剂而生产的植物的相同因素，以活力等级的增加或改善、林分(每单位面积的植物数量)的增加、植物高度、秆围、秆长、叶数量、叶尺寸、植物冠层、视觉外观(诸如更绿的叶颜色)、根等级、出苗、蛋白质含量、分蘖的增加、更大的叶、更多的叶、更少的死的基生叶、分蘖更强、所需肥料更少、所需种子更少、分蘖更多产、开花更早、提早的谷物或种子成熟度、更少的植物节(verse)(倒伏)、芽生长的增加、更早萌发、或这些因素的任何组合，按可测量或可察觉的量来测量。

因此，本文提供了一种修饰植物的方法，该方法包括向植物递送有效量的本文提供的Gene Writer系统中的任一种，其中该方法修饰该植物并由此相对于未经处理的植物引入或增加该植物中的有益性状(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％，70％、80％、90％、100％或大于100％)。特别地，该方法相对于未经处理的植物可以增加植物的适应度(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％或大于100％)。

在一些情况下，植物适应度的增加是以下方面的增加(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％或大于100％)：抗病性、耐旱性、耐热性、耐寒性、耐盐性、金属耐受性、除草剂耐受性、化学耐受性、水分利用效率、氮利用、对氮胁迫的抗性、固氮、有害生物抗性、草食动物抗性、病原体抗性、产率、限水条件下的产率、活力、生长、光合能力、营养、蛋白质含量、碳水化合物含量、油含量、生物质、芽长、根长、根结构、种子重量、或可收获产物的量。

在一些情况下，适应度的增加是发育、生长、产率、对非生物胁迫源的抗性或对生物胁迫源的抗性增加(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％或大于100％)。非生物胁迫是指植物或植物部分所经受的环境胁迫条件，包括例如干旱胁迫、盐胁迫、热胁迫、冷胁迫和低营养胁迫。生物胁迫是指植物或植物部分所经受的环境胁迫条件，包括例如线虫胁迫、食草昆虫胁迫、真菌病原体胁迫、细菌病原体胁迫或病毒病原体胁迫。胁迫可以是暂时的，例如几个小时，几天，几个月或永久的，例如持续植物的一生。

在一些情况下，植物适应度的增加是从植物收获的产物质量增加(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％或大于100％)。例如，植物适应度的增加可以是从植物收获的产物的商业上有利的特征(例如，味道或外观)的改善。在其他情况下，植物适应度的增加是从植物收获的产物的货架期的增加(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％或大于100％)。

可替代地，适应度的增加可以是对人类或动物健康有益的性状的改变，例如变应原产生的减少。例如，适应度的增加可以是刺激动物(例如人)中免疫应答的变应原(例如花粉)的产生减少(例如，减少约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％或大于100％)。

植物的修饰(例如，适应度的增加)可能来自一个或多个植物部分的修饰。例如，可以通过接触植物的叶、种子、花粉、根、果实、芽、花、细胞，原生质体或组织(例如分生组织)来修饰植物。因此，在另一方面，本文提供了一种增加植物的适应度的方法，该方法包括使植物的花粉与有效量的本文中植物修饰组合物中的任一种接触，其中相对于未经处理的植物，该方法使植物的适应度增加(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％或大于100％)。

在又另一方面，本文提供了一种增加植物的适应度的方法，该方法包括使植物的种子与有效量的本文披露的Gene Writer系统中的任一种接触，其中相对于未经处理的植物，该方法使植物的适应度增加(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％或大于100％)。

在另一方面，本文提供了一种包括使植物的原生质体与有效量的本文所述的GeneWriter系统中的任一种接触的方法，其中相对于未经处理的植物，该方法使植物的适应度增加(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％，或大于100％)。

在另外的方面，本文提供了一种增加植物的适应度的方法，该方法包括使植物的植物细胞与有效量的本文所述的Gene Writer系统中的任一种接触，其中相对于未经处理的植物，该方法使植物的适应度增加(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％，或大于100％)。

在另一方面，本文提供了一种增加植物的适应度的方法，该方法包括使植物的分生组织与有效量的本文的植物修饰组合物中的任一种接触，其中相对于未经处理的植物，该方法使植物的适应度增加(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％，或大于100％)。

在另一方面，本文提供了一种增加植物的适应度的方法，该方法包括使植物的胚与有效量的本文的植物修饰组合物中的任一种接触，其中相对于未经处理的植物，该方法使植物的适应度增加(例如，增加约1％、2％、5％、10％、20％、30％、40％、50％、60％、70％、80％、90％、100％，或大于100％)。

B.应用方法

本文所述的植物可以以允许将组合物递送或施用于植物的任何合适方式暴露于本文所述的任何Gene Writer系统组合物。Gene Writer系统可以单独递送或与其他活性(例如，肥料剂)或非活性物质组合递送，并且可以通过例如喷雾、注射(例如显微注射)、通过植物、倾倒、浸渍，以浓缩液体、凝胶、溶液、悬浮液、喷雾、粉剂、丸剂、块剂、砖剂等(配制成递送有效浓度的植物修饰组合物)的形式来应用。应用本文所述的组合物的量和位置通常取决于植物的习性、植物可被植物修饰组合物靶向的生命周期阶段、将施用的位置、以及植物修饰组合物的物理和功能特征。

在一些情况下，通过例如背包喷雾、空中喷雾、作物喷雾/尘剂等将组合物直接喷雾到植物(例如作物)上。在将Gene Writer系统递送至植物的情况下，接受Gene Writer系统的植物可以处于植物生长的任何阶段。例如，配制的植物修饰组合物可以在植物生长的早期阶段以种子包衣或根处理剂的形式或在作物周期的后期阶段以总植物处理剂的形式来应用。在一些情况下，植物修饰组合物可以作为局部剂应用于植物。

此外，可以将Gene Writer系统(例如，在植物生长的土壤中，或在用于浇灌植物的水中)作为通过植物的组织而吸收和分布的内吸剂(systemic agent)应用。在一些情况下，植物或食物生物可以经遗传转化以表达Gene Writer系统。

延迟释放或持续释放也可以通过以下方式完成：向Gene Writer系统或具有一种或多种植物修饰组合物的组合物包覆可溶解或生物可侵蚀的包衣层(诸如明胶)，该包衣层在使用环境中溶解或侵蚀，从而然后使植物修饰组合物Gene Writer系统位置可用，或者通过将药剂分散在可溶解或可侵蚀的基质中。此类持续释放和/或分配方式装置可有利地用于始终维持本文所述的一种或多种植物修饰组合物的有效浓度。

在一些情况下，将Gene Writer系统递送至植物的一部分，例如叶、种子、花粉、根、果实、芽、或花，或其组织、细胞或原生质体。在一些情况下，将Gene Writer系统递送至植物的细胞。在一些情况下，将Gene Writer系统递送至植物的原生质体。在一些情况下，将GeneWriter系统递送至植物的组织。例如，可以将组合物递送至植物的分生组织(例如，顶端分生组织、侧生分生组织或间生分生组织)。在一些情况下，将组合物递送至植物的永久组织(例如，简单组织(例如，薄壁组织、厚角组织或厚壁组织)或复杂的永久组织(例如，木质部或韧皮部))。在一些情况下，将Gene Writer系统递送至植物胚。

C.植物

可以将多种植物递送至本文所述的Gene Writer系统或用其处理。可以根据本发明方法递送Gene Writer系统(即，“处理的”)的植物包括整株植物及其部分，包括但不限于芽营养器官/结构(例如，叶、茎和块茎)、根、花和花器官/结构(例如，苞片、萼片、花瓣、雄蕊、心皮、花药和胚珠)、种子(包括胚、胚乳、子叶、和种皮)和果实(成熟的子房)、植物组织(例如，维管组织、基本组织等)和细胞(例如，保卫细胞、卵细胞等)及其子代。植物部分可以进一步指如以下的植物部分：芽、根、茎、种子、托叶、叶、花瓣、花、胚珠、苞片、枝、叶柄、节间、树皮、短柔毛、分蘖、根茎、叶状体(frond)、叶片、花粉、雄蕊等。

可以在本文披露的方法中处理的植物的类别包括高等植物和低等植物类别，包括被子植物(单子叶植物和双子叶植物)、裸子植物、蕨类、木贼类植物、裸蕨植物、石松类植物、苔藓植物、和藻类(例如，多细胞藻类或单细胞藻类)。可以根据本发明方法处理的植物进一步包括任何维管植物，例如单子叶植物或双子叶植物或裸子植物，包括但不限于苜蓿、苹果、拟南芥属、香蕉、大麦、卡诺拉油菜、蓖麻籽、菊花、三叶草、可可、咖啡、棉花、棉籽、玉米、海甘蓝、蔓越莓、黄瓜、石斛兰、薯蓣、桉树、羊茅草、亚麻、唐菖蒲、百合科、亚麻籽、粟、甜瓜、芥菜、燕麦、油棕、油菜、番木瓜、花生、菠萝、观赏植物、菜豆、马铃薯、油菜籽、水稻、黑麦、黑麦草、红花、芝麻、高粱、大豆、甜菜、甘蔗、向日葵、草莓、烟草、番茄、草皮草、小麦和蔬菜作物(如莴苣、芹菜、西兰花、花椰菜、葫芦)；水果树和坚果树，如苹果、梨、桃、橙子、葡萄柚、柠檬、酸橙、扁桃、山核桃、胡桃、榛子；藤本植物，如葡萄(例如，葡萄园)、猕猴桃、蛇麻子(hop)；水果灌木和悬钩子，如覆盆子、黑莓、醋栗；林木，如水曲柳、松树、冷杉、枫树、橡树、栗树、杨树(popular)；与苜蓿、卡诺拉油菜、蓖麻籽、玉米、棉花、海甘蓝、亚麻、亚麻籽、芥菜、油棕、油菜、花生、马铃薯、水稻、红花、芝麻、大豆、甜菜、向日葵、烟草、番茄、和小麦。可以根据本发明的方法处理的植物包括任何作物植物，例如，草料作物、油籽作物、谷物作物、水果作物、蔬菜作物、纤维作物、香料作物、坚果作物、草皮作物、糖作物、饮料作物、和森林作物。在某些情况下，在该方法中处理的作物植物是大豆植物。在其他某些情况下，作物植物是小麦。在某些情况下，作物植物是玉米。在某些情况下，作物植物是棉花。在某些情况下，作物植物是苜蓿。在某些情况下，作物植物是甜菜。在某些情况下，作物植物是水稻。在某些情况下，作物植物是马铃薯。在某些情况下，作物植物是番茄。

在某些情况下，植物是作物。此类作物植物的实例包括但不限于单子叶植物和双子叶植物，包括但不限于饲养料或草料豆类、观赏植物、食物作物、树木、或灌木，选自枫属物种(Acer spp.)、葱属物种(Allium spp.)、苋属物种(Amaranthus spp.)、凤梨(Ananascomosus)、旱芹(Apium graveolens)、花生属物种(Arachis spp)、石刁柏(Asparagusofficinalis)、甜菜(Beta vulgaris)、芸苔属物种(Brassica spp.)(例如，欧洲油菜(Brassica napus)、芜菁(Brassica rapa ssp.)(卡诺拉油菜、油菜、白菜型油菜(turniprape))、野茶树(Camellia sinensis)、美人蕉(Canna indica)、大麻(Cannabis saliva)、辣椒属物种(Capsicum spp.)、栗属物种(Castanea spp.)、栽培菊苣(Cichoriumendivia)、西瓜(Citrullus lanatus)、柑橘属物种(Citrus spp.)、椰子属物种(Cocosspp.)、咖啡属物种(Coffea spp.)、芫荽(Coriandrum sativum)、榛属物种(Corylusspp.)、山楂属物种(Crataegus spp.)、南瓜属物种(Cucurbita spp.)、黄瓜属物种(Cucumis spp.)、胡萝卜(Daucus carota)、水青冈属物种(Fagus spp.)、无花果(Ficuscarica)、草莓属物种(Fragaria spp.)、银杏(Ginkgo biloba)、大豆属违章(Glycinespp.)(例如，大豆(Glycine max)、黄豆(Soja hispida)或大豆(Soja max))、陆地棉(Gossypium hirsutum)、向日葵属物种(Helianthus spp.)(例如，向日葵)、木槿属物种(Hibiscus spp.)、大麦属物种(Hordeum spp.)(例如，大麦(Hordeum vulgare))、甘薯(Ipomoea batatas)、胡桃属物种(Juglans spp.)、莴苣(Lactuca sativa)、亚麻(Linumusitatissimum)、荔枝(Litchi chinensis)、莲属物种(Lotus spp.)、棱角丝瓜(Luffaacutangula)、羽扇豆属物种(Lupinus spp.)、蕃茄属物种(Lycopersicon spp.)(例如，番茄(Lycopersicon esculenturn))、圣女果(Lycopersicon lycopersicum)、梨形番茄(Lycopersicon pyriforme)、苹果属物种(Malus spp.)、紫花苜蓿(Medicago sativa)、薄荷属物种(Mentha spp.)、芒(Miscanthus sinensis)、黑桑(Morus nigra)、芭蕉属物种(Musa spp.)、烟草属物种(Nicotiana spp.)、木犀榄属物种(Olea spp.)、稻属物种(Oryzaspp.)(例如，稻(Oryza sativa))、宽叶野生稻(Oryza latifolia)、黍稷(Panicummiliaceum)、柳枝稷(Panicum virgatum)、西番莲(Passiflora edulis)、欧芹(Petroselinum crispum)、菜豆属物种(Phaseolus spp.)、松属物种(Pinus spp.)、阿月浑子(Pistacia vera)、豌豆属物种(Pisum spp.)、早熟禾属物种(Poa spp.)、杨属物种(Populus spp.)、李属物种(Prunus spp.)、西洋梨(Pyrus communis)、栎属物种(Quercusspp.)、萝卜(Raphanus sativus)、波叶大黄(Rheum rhabarbarum)、茶藨子属物种(Ribesspp.)、蓖麻(Ricinus communis)、悬钩子属物种(Rubus spp.)、甘蔗属物种(Saccharumspp.)、柳属物种(Salix sp.)、接骨木属物种(Sambucus spp.)、黑麦(Secale cereale)、胡麻属物种(Sesamum spp.)、白芥属物种(Sinapis spp.)、茄属物种(Solanum spp.)(例如，马铃薯(Solanum tuberosum)、红茄(Solanum integrifolium)或番茄(Solanumlycopersicum))、双色高粱(Sorghum bicolor)、石茅(Sorghum halepense)、菠菜属物种(Spinacia spp.)、罗晃子(Tamarindus indica)、可可树(Theobroma cacao)、三叶草属物种(Trifolium spp.)、小黑麦(Triticosecale rimpaui)、小麦属物种(Triticum spp.)(例如，普通小麦(Triticum aestivum))、硬粒小麦(Triticum durum)、圆锥小麦(Triticumturgidum)、Triticum hybernum、马卡小麦(Triticum macha)、Triticum sativum或Triticum vulgare)、越橘属物种(Vaccinium spp.)、蚕豆属物种(Vicia spp.)、豇豆属物种(Vigna spp.)、香堇菜(Viola odorata)、葡萄属物种(Vitis spp.)、和玉米(Zea mays)。在某些实施例中，作物植物是水稻、油菜、卡诺拉油菜、大豆、玉米(玉蜀黍(maize))、棉花、甘蔗、苜蓿、高粱、或小麦。

用于本发明的植物或植物部分包括任何植物发育阶段的植物。在某些情况下，可以在萌发、幼苗生长、营养生长、和繁殖生长的阶段进行递送。在某些情况下，向植物的递送在营养生长和繁殖生长阶段期间进行。在一些情况下，将组合物递送至植物的花粉。在一些情况下，将组合物递送至植物的种子。在一些情况下，将组合物递送至植物的原生质体。在一些情况下，将组合物递送至植物的组织。例如，可以将组合物递送至植物的分生组织(例如，顶端分生组织、侧生分生组织或间生分生组织)。在一些情况下，将组合物递送至植物的永久组织(例如，简单组织(例如，薄壁组织、厚角组织或厚壁组织)或复杂的永久组织(例如，木质部或韧皮部))。在一些情况下，将组合物递送至植物胚。在一些情况下，将组合物递送至植物细胞。营养生长和繁殖生长阶段在本文中也称为“成株”或“成熟”植物。

在将Gene Writer系统递送至植物部分的情况下，可以通过植物修饰剂对植物部分进行修饰。可替代地，Gene Writer系统可以被分布到植物的其他部分(例如，通过植物的循环系统)，其他部分随后被植物修饰剂修饰。

给予

本文所述的组合物和系统可以在体外或体内使用。在一些实施例中，例如在体外或体内将系统或系统的组分递送至细胞(例如，哺乳动物细胞，例如人细胞)。在一些实施例中，细胞是真核细胞，例如多细胞生物的细胞，例如动物，例如哺乳动物(例如人、猪、牛)、鸟(例如家禽，例如鸡、火鸡、或鸭)或鱼。在一些实施例中，细胞是非人动物细胞(例如，实验动物、牲畜或伴侣动物)。在一些实施例中，细胞是干细胞(例如，造血干细胞)、成纤维细胞或T细胞。在一些实施例中，细胞是非分裂细胞，例如非分裂成纤维细胞或非分裂T细胞。在一些实施例中，细胞是HSC，并且p53没有被上调或被上调例如少于10％、5％、2％或1％，例如，如根据PCT/US2019/048607(将其通过引用并入本文)的实例30中描述的方法确定的。本领域技术人员将理解Gene Writer^TM系统的组分可以以多肽、核酸(例如DNA、RNA)及其组合的形式递送。

例如，递送可以使用以下任何组合来递送逆转录转座酶(例如，作为编码逆转录转座酶蛋白的DNA，作为编码逆转录转座酶蛋白的RNA或作为蛋白本身)和模板RNA(例如，作为编码RNA的DNA，或作为RNA)：

1.逆转录转座酶DNA+模板DNA

2.逆转录转座酶RNA+模板DNA

3.逆转录转座酶DNA+模板RNA

4.逆转录转座酶RNA+模板RNA

5.逆转录转座酶蛋白+模板DNA

6.逆转录转座酶蛋白+模板RNA

7.逆转录转座酶病毒+模板病毒

8.逆转录转座酶病毒+模板DNA

9.逆转录转座酶病毒+模板RNA

10.逆转录转座酶DNA+模板病毒

11.逆转录转座酶RNA+模板病毒

12.逆转录转座酶蛋白+模板病毒

如上所述，在一些实施例中，使用病毒递送编码逆转录转座酶蛋白的DNA或RNA，并且在一些实施例中，使用病毒递送模板RNA(或编码模板RNA的DNA)。

在一个实施例中，系统和/或系统的组分以核酸的形式递送。例如，Gene Writer^TM多肽可以以编码所述多肽的DNA或RNA的形式递送，并且模板RNA可以以RNA或其有待转录成RNA的互补DNA的形式递送。在一些实施例中，系统或系统的组分在1、2、3、4或更多个不同的核酸分子上递送。在一些实施例中，系统或系统的组分作为DNA和RNA的组合递送。在一些实施例中，系统或系统的组分作为DNA和蛋白质的组合递送。在一些实施例中，系统或系统的组分作为RNA和蛋白质的组合递送。在一些实施例中，Gene Writer^TM基因组编辑器多肽作为蛋白质递送。

在一些实施例中，使用载体将系统或系统的组分递送至细胞，例如哺乳动物细胞或人细胞。载体可以是例如质粒或病毒。在一些实施例中，递送是体内、体外、离体或原位的。在一些实施例中，病毒是腺相关病毒(AAV)、慢病毒、腺病毒。在一些实施例中，系统或系统的组分与病毒样颗粒或病毒体一起被递送至细胞。在一些实施例中，递送使用一种以上的病毒、病毒样颗粒或病毒体。

在一个实施例中，本文所述的组合物和系统可以配制在脂质体或其他类似的囊泡中。脂质体是球形囊泡结构，这些球形囊泡结构由围绕内部水性隔室的单层或多层的脂质双层和相对不可渗透的外部亲脂性磷脂双层构成。脂质体可以是阴离子的、中性的或阳离子的。脂质体具有生物相容性，无毒，可以递送亲水性和亲脂性药物分子，保护其货物免受血浆酶的降解，并将其装载运输穿过生物膜和血脑屏障(BBB)(关于综述，参见，例如，Spuch和Navarro,Journal of Drug Delivery[药物递送杂志],第2011卷,文章ID 469679,第12页,2011.doi:10.1155/2011/469679)。

囊泡可以由若干种不同类型的脂质制成；然而，磷脂最常用于生成脂质体作为药物载剂。用于制备多层囊泡脂质的方法是本领域已知的(参见例如美国专利号6,693,086，其关于多层囊泡脂质制备的传授内容通过引用并入本文)。尽管当脂质膜与水溶液混合时，囊泡的形成是自发的，但也可以通过使用均质器、超声仪或挤压装置以振荡的形式施加力来加快囊泡的形成(关于综述，参见，例如，Spuch和Navarro,Journal of Drug Delivery[药物递送杂志],第2011卷,文章ID 469679,第12页,2011.doi:10.1155/2011/469679)。可以通过挤出通过具有减小尺寸的过滤器来制备挤出的脂质，如Templeton等人,NatureBiotech[自然生物技术],15:647-652,1997中所述，该文献关于挤出脂质制备的传授内容通过引用并入本文。

多种纳米颗粒可用于递送，例如脂质体、脂质纳米颗粒、阳离子脂质纳米颗粒、可电离脂质纳米颗粒、聚合物纳米颗粒、金纳米颗粒、树枝状大分子、环糊精纳米颗粒、胶束或上述的组合。

脂质纳米颗粒是为本文所述的药物组合物提供生物相容性且可生物降解的递送系统的载剂的实例。纳米结构化的脂质载剂(NLC)是经修饰的固体脂质纳米颗粒(SLN)，这些经修饰的固体脂质纳米颗粒保留了SLN的特征、改善了药物稳定性和负载能力、并且防止了药物泄漏。聚合物纳米颗粒(PNP)是药物递送的重要组成部分。这些纳米颗粒可以有效地将药物递送引导至特定靶标并且改善药物稳定性和受控的药物释放。也可以使用脂质聚合物纳米颗粒(PLN)，即一种组合了脂质体和聚合物的新型载剂。这些纳米颗粒具有PNP和脂质体的互补优势。PLN由核-壳结构构成；聚合物核提供了稳定的结构，并且磷脂壳提供了良好的生物相容性。这样，这两种组分增加了药物包封效率、促进了表面修饰、并且防止了水溶性药物的泄漏。对于综述，参见例如，Li等人2017,Nanomaterials[纳米材料]7,122；doi:10.3390/nano7060122。

外泌体也可用作本文所述的组合物和系统的药物递送媒介物。对于综述，参见Ha等人2016年7月.Acta Pharmaceutica Sinica B[药学学报B]第6卷第4期,第287-296页；https://doi.org/10.1016/j.apsb.2016.02.001。

融合体与靶细胞相互作用并融合，并因此可用作多种分子的递送媒介物。它们通常由封闭管腔或腔的两亲性脂质双层和与两亲性脂质双层相互作用的融合原组成。融合剂组分已被证明是可工程化的，以便为融合和载荷递送赋予靶细胞特异性，从而允许创建具有可编程细胞特异性的递送媒剂(参见例如专利申请WO 2020014209，其涉及融合体设计、制备和使用的教导通过引用并入本文)。

在一些实施例中，Gene Writing^TM系统的蛋白质组分可以与模板核酸(例如，模板RNA)预先关联。例如，在一些实施例中，Gene Writer^TM多肽可以首先与模板核酸(例如，模板RNA)组合以形成核糖核蛋白(RNP)复合物。在一些实施例中，可通过例如转染、核转染、病毒、囊泡、LNP、外泌体、融合体将RNP递送至细胞。

可以将Gene Writer^TM系统引入细胞、组织和多细胞生物中。在一些实施例中，系统或系统的组分经由机械手段或物理手段递送至细胞。

以下文献中描述了蛋白治疗剂的配制品：Meyer(编辑),Therapeutic ProteinDrug Products:Practical Approaches to formulation in the Laboratory,Manufacturing,and the Clinic[治疗性蛋白药物产品：实验室、制造和临床中配制品的实践方法],Woodhead Publishing Series[伍德海德出版系列](2012)。

组织特异性活性/施用

在一些实施例中，本文所述的系统、模板RNA或多肽被施用至靶组织(例如第一组织)或在靶组织(例如第一组织)中具有活性(例如，在其中更具活性)。在一些实施例中，系统、模板RNA或多肽未施用于非靶组织或在非靶组织中活性较低(例如，在其中不具有活性)。在一些实施例中，本文所述的系统、模板RNA或多肽可用于修饰靶组织(例如第一组织)中的DNA(例如，并且不修饰非靶组织中的DNA)。

在一些实施例中，系统包含(a)本文所述的多肽或编码其的核酸，(b)本文所述的模板核酸(例如，模板RNA)，和(c)对靶组织特异性的一个或多个第一组织特异性表达控制序列，其中对靶组织特异性的一个或多个第一组织特异性表达控制序列与(a)、(b)、或(a)和(b)可操作地关联，其中，当与(a)关联时，(a)包含编码多肽的核酸。

在一些实施例中，(b)中的核酸包含RNA。

在一些实施例中，(b)中的核酸包含DNA。

在一些实施例中，(b)中的核酸：(i)是单链区段或包含单链区段，例如，是单链DNA或包含单链区段和一个或多个双链区段；(ii)具有倒置的末端重复；或(iii)(i)和(ii)两者。

在一些实施例中，(b)中的核酸是双链区段或包含双链区段。

在一些实施例中，(a)包含编码多肽的核酸。

在一些实施例中，(a)中的核酸包含RNA。

在一些实施例中，(a)中的核酸包含DNA。

在一些实施例中，(a)中的核酸：(i)是单链区段或包含单链区段，例如，是单链DNA或包含单链区段和一个或多个双链区段；(ii)具有倒置的末端重复；或(iii)(i)和(ii)两者。

在一些实施例中，(a)中的核酸是双链区段或包含双链区段。

在一些实施例中，(a)、(b)、或(a)和(b)中的核酸是线性的。

在一些实施例中，(a)、(b)、或(a)和(b)中的核酸是环状的，例如质粒或小环。

在一些实施例中，异源对象序列与第一启动子可操作地关联。

在一些实施例中，一个或多个第一组织特异性表达控制序列包含组织特异性启动子。

在一些实施例中，组织特异性启动子包含与以下可操作地关联的第一启动子：i.异源对象序列，ii.编码转座酶的核酸，或iii.(i)和(ii)。

在一些实施例中，一个或多个第一组织特异性表达控制序列包含与以下可操作地关联的组织特异性微小RNA识别序列：i.异源对象序列，ii.编码转座酶的核酸，或iii.(i)和(ii)。

在一些实施例中，系统包含组织特异性启动子，并且该系统还包含一种或多种组织特异性微小RNA识别序列，其中：i.组织特异性启动子与以下可操作地关联：I.异源对象序列，II.编码转座酶的核酸，或III.(I)和(II)；和/或ii.一种或多种组织特异性微小RNA识别序列与以下可操作地关联：I.异源对象序列，II.编码转座酶的核酸，或III.(I)和(II)。

在一些实施例中，其中(a)包含编码多肽的核酸，该核酸包含与编码多肽的核酸可操作地关联的启动子。

在一些实施例中，编码多肽的核酸包含对靶组织具有特异性的、与多肽编码序列可操作地关联的一个或多个第二组织特异性表达控制序列。

在一些实施例中，一个或多个第二组织特异性表达控制序列包含组织特异性启动子。

在一些实施例中，组织特异性启动子是与编码多肽的核酸可操作地关联的启动子。

在一些实施例中，一个或多个第二组织特异性表达控制序列包含组织特异性微RNA识别序列。

在一些实施例中，与编码多肽的核酸可操作地关联的启动子是组织特异性启动子，该系统进一步包含一个或多个组织特异性微小RNA识别序列。

在一些实施例中，本发明提供的系统的核酸组分序列(例如，编码多肽或包含异源对象序列)的侧翼是修饰蛋白质表达水平的非翻译区(UTR)。各种5'和3’UTR会影响蛋白质表达。例如，在一些实施例中，编码序列之前可以是修饰RNA稳定性或蛋白质翻译的5’UTR。在一些实施例中，序列之后可以是修饰RNA稳定性或翻译的3’UTR。在一些实施例中，序列之前可以是5’UTR，然后是修饰RNA稳定性或翻译的3’UTR。在一些实施例中，5’和/或3’UTR可选自补体因子3(C3)(cactcctccccatcctctccctctgtccctctgtccctctgaccctgcactgtcccagcacc(SEQ ID NO:1633))或血清类黏蛋白1(ORM1)(caggacacagccttggatcaggacagagacttgggggccatcctgcccctccaacccgacatgtgtacctcagctttttccctcacttgcatcaataaagcttctgtgtttggaacagctaa(SEQ ID NO:1634))的5’和3’UTR(Asrani等人RNA Biology[核糖核酸学]2018)。在某些实施例中，5’UTR是来自C3的5’UTR并且3’UTR是来自ORM1的3’UTR。在某些实施例中，用于蛋白质表达(例如Gene Writer多肽或异源对象序列的mRNA(或编码RNA的DNA))的5’UTR和3’UTR包含优化的表达序列。在一些实施例中，5’UTR包含GGGAAAUAAGAGAGAAAAGAAGAGUAAGAAGAAAUAUAAGAGCCACC(SEQ ID NO:1603)和/或3’UTR包含UGAUAAUAGGCUGGAGCCUCGGUGGCCAUGCUUCUUGCCCCUUGGGCCUCCCCCCAGCCCCUCCUCCCCUUCCUGCACCCGUACCCCCGUGGUCUUUGAAUAAAGUCUGA(SEQ ID NO:1604)，例如，如Richner等人Cell[细胞]168(6):P1114-1125(2017)中所述，其中的序列通过引用并入本文。

在一些实施例中，可以选择5'和/或3’UTR以增强蛋白质表达。在一些实施例中，可以选择5'和/或3’UTR来修饰蛋白质表达，从而使过度生产抑制最小化。在一些实施例中，UTR在编码序列周围，例如在编码序列之外以及在其他实施例中靠近编码序列。在一些实施例中，另外的调控元件(例如，miRNA结合位点、顺式调节位点)包含在UTR中。

在一些实施例中，Gene Writer系统的开放阅读框，例如，编码Gene Writer多肽的mRNA(或编码mRNA的DNA)的ORF或异源对象序列的mRNA(或编码mRNA的DNA)的一个或多个ORF，侧翼有增强其表达的5’和/或3’非翻译区(UTR)。在一些实施例中，系统的mRNA组分(或从DNA组分产生的转录本)的5’UTR包含序列5’-GGGAAAUAAGAGAGAAAAGAAGAGUAAGAAGAAAUAUAAGAGCCACC-3’(SEQ ID NO:1603)。在一些实施例中，系统的mRNA组分(或从DNA组分产生的转录本)的3’UTR包含序列5’-UGAUAAUAGGCUGGAGCCUCGGUGGCCAUGCUUCUUGCCCCUUGGGCCUCCCCCCAGCCCCUCCUCCCCUUCCUGCACCCGUACCCCCGUGGUCUUUGAAUAAAGUCUGA-3’(SEQ ID NO:1604)。已经由以下证明5’UTR和3’UTR的组合可导致可操作地连接的ORF的期望表达：Richner等人Cell[细胞]168(6):P1114-1125(2017)，其教导和序列通过引用并入本文。在一些实施例中，本文所述的系统包含编码转录本的DNA，其中该DNA包含对应的5’UTR和3’UTR序列，其中T取代以上所列的序列中的U。在一些实施例中，用于产生系统的RNA组分的DNA载体进一步包含用于启动体外转录的5’UTR上游的启动子，例如T7、T3、或SP6启动子。以上5’UTR以GGG开头，这对于使用T7 RNA聚合酶优化转录是合适的开始。对于调整转录水平和改变转录起始位点核苷酸以适应替代性的5’UTR，Davidson等人.Pac Symp Biocomput[Pac Symp生物计算]433-443(2010)的传授内容描述了满足这两个特征的T7启动子变体及其发现方法。

病毒载体及其组分

除了本文所述的相关酶或结构域的来源，例如作为本文使用的聚合酶和聚合酶功能(例如DNA-依赖性DNA聚合酶、RNA-依赖性RNA聚合酶、RNA-依赖性DNA聚合酶、DNA-依赖性RNA聚合酶、逆转录酶)的来源，病毒还是本文所述系统的有用的递送媒剂来源。一些酶，例如逆转录酶，可能具有多种活性，例如能够进行RNA-依赖性DNA聚合和DNA-依赖性DNA聚合，例如第一和第二链合成。在一些实施例中，用作Gene Writer递送系统或其组分来源的病毒可选自如Baltimore Bacteriol Rev[细菌综述]35(3):235-241(1971)所述的组。

在一些实施例中，病毒选自组I病毒，例如，该病毒是DNA病毒并将dsDNA包装成病毒体。在一些实施例中，I组病毒选自例如腺病毒、疱疹病毒、痘病毒。

在一些实施例中，病毒选自组II病毒，例如，该病毒是DNA病毒并将ssDNA包装成病毒体。在一些实施例中，组II病毒选自例如细小病毒。在一些实施例中，细小病毒是依赖性细小病毒，例如腺相关病毒(AAV)。

在一些实施例中，病毒选自组III病毒，例如，该病毒是RNA病毒并将dsRNA包装成病毒体。在一些实施例中，组III病毒选自例如呼肠孤病毒。在一些实施例中，包含在此类病毒体中的dsRNA的一条或两条链是编码分子，在转导至宿主细胞后能够直接用作mRNA，例如，在转导至宿主细胞后可以直接翻译成蛋白质而不需要任何干预性核酸复制或聚合步骤。

在一些实施例中，病毒选自组IV病毒，例如，该病毒是RNA病毒并将ssRNA(+)包装成病毒体。在一些实施例中，组IV病毒选自例如冠状病毒、小RNA病毒、披膜病毒。在一些实施例中，包含在此类病毒体中的ssRNA(+)是编码分子，在转导至宿主细胞后能够直接用作mRNA，例如，在转导至宿主细胞后可以直接翻译成蛋白质而不需要任何干预性核酸复制或聚合步骤。

在一些实施例中，病毒选自组V病毒，例如，该病毒是RNA病毒并将ssRNA(-)包装成病毒体。在一些实施例中，组V病毒选自例如正黏病毒、弹状病毒。在一些实施例中，具有ssRNA(-)基因组的RNA病毒还在病毒体内携带酶，该酶被转导至具有病毒基因组的宿主细胞，例如RNA依赖性RNA聚合酶，能够将ssRNA(-)拷贝到可以由宿主直接翻译的ssRNA(+)。

在一些实施例中，病毒选自组VI病毒，例如，该病毒是逆转录病毒并将ssRNA(+)包装成病毒体。在一些实施例中，组VI病毒选自例如逆转录病毒。在一些实施例中，逆转录病毒是慢病毒，例如，HIV-1、HIV-2、SIV、BIV。在一些实施例中，逆转录病毒是泡沫病毒属(spumavirus)，例如泡沫病毒(foamy virus)，例如HFV、SFV、BFV。在一些实施例中，包含在此类病毒体中的ssRNA(+)是编码分子，在转导至宿主细胞后能够直接用作mRNA，例如，在转导至宿主细胞后可以直接翻译成蛋白质而不需要任何干预性核酸复制或聚合步骤。在一些实施例中，ssRNA(+)首先被逆转录并拷贝以产生dsDNA基因组中间体，mRNA可以由该基因组中间体在宿主细胞中得以转录。在一些实施例中，具有ssRNA(+)基因组的RNA病毒还在病毒体内携带酶，该酶被转导至具有病毒基因组的宿主细胞，例如RNA依赖性DNA聚合酶，能够将ssRNA(+)拷贝到可以转录为mRNA并由宿主翻译的dsDNA。在一些实施例中，来自VI组逆转录病毒的逆转录酶作为Gene Writer多肽的逆转录酶结构域并入。

在一些实施例中，病毒选自组VII病毒，例如，该病毒是逆转录病毒并将dsRNA包装成病毒体。在一些实施例中，组VII病毒选自例如嗜肝DNA病毒。在一些实施例中，包含在此类病毒体中的dsRNA的一条或两条链是编码分子，在转导至宿主细胞后能够直接用作mRNA，例如，在转导至宿主细胞后可以直接翻译成蛋白质而不需要任何干预性核酸复制或聚合步骤。在一些实施例中，包含在此类病毒体中的dsRNA的一条或两条链首先被逆转录并拷贝以产生dsDNA基因组中间体，mRNA可以由该基因组中间体在宿主细胞中得以转录。在一些实施例中，具有dsRNA基因组的RNA病毒还在病毒体内携带酶，该酶被转导至具有病毒基因组的宿主细胞，例如RNA依赖性DNA聚合酶，能够将dsRNA拷贝到可以转录为mRNA并由宿主翻译的dsDNA。在一些实施例中，来自VII组逆转录病毒的逆转录酶作为Gene Writer多肽的逆转录酶结构域并入。

在一些实施例中，本发明中用于递送核酸的病毒体还可以携带参与Gene Writing过程的酶。例如，逆转录病毒病毒体可以包含与核酸一起被递送到宿主细胞中的逆转录酶结构域。在一些实施例中，RNA模板可以与病毒体内的Gene Writer多肽相关联，从而在从病毒颗粒转导核酸后两者共同递送至靶细胞。在一些实施例中，病毒体中的核酸可以包含DNA，例如线性ssDNA、线性dsDNA、环状ssDNA、环状dsDNA、微环DNA、dbDNA、ceDNA。在一些实施例中，病毒体中的核酸可以包含RNA，例如线性ssRNA、线性dsRNA、环状ssRNA、环状dsRNA。在一些实施例中，病毒基因组可以在转导至宿主细胞后环化，例如，线性ssRNA分子可以经历共价连接以形成环状ssRNA，线性dsRNA分子可以经历共价连接以形成环状dsRNA或一个或多个环状ssRNA。在一些实施例中，病毒基因组可以通过在宿主细胞中的滚环复制来复制。在一些实施例中，病毒基因组可以包含单个核酸分子，例如，包含非分段基因组。在一些实施例中，病毒基因组可以包含两个或更多个核酸分子，例如，包含分段基因组。在一些实施例中，病毒体中的核酸可以与一种或蛋白质相关联。在一些实施例中，病毒体中的一种或多种蛋白质可在转导后被递送至宿主细胞。在一些实施例中，可通过向靶核酸添加病毒体包装信号而使天然病毒适于核酸递送，其中宿主细胞用于包装含有包装信号的靶核酸。

在一些实施例中，用作递送媒介物的病毒体可以包含共生人类病毒。在一些实施例中，用作递送媒介物的病毒体可以包含指环病毒，其用途描述于WO 2018232017 A1中，该文献通过引用以其全文并入本文。

AAV施用

在一些实施例中，腺相关病毒(AAV)与本文所述的系统、模板核酸和/或多肽联合使用。在一些实施例中，AAV用于递送、施用或包装本文所述的系统、模板核酸和/或多肽。在一些实施例中，AAV是重组AAV(rAAV)。

在一些实施例中，本文所述的系统还包含第一重组腺相关病毒(rAAV)衣壳蛋白；其中(a)或(b)中的至少一个与第一rAAV衣壳蛋白相关联，其中(a)或(b)中的至少一个侧翼为AAV反向末端重复序列(ITR)。

在一些实施例中，(a)和(b)与第一rAAV衣壳蛋白相关联。

在一些实施例中，(a)和(b)在单个核酸上。

在一些实施例中，该系统进一步包含第二rAAV衣壳蛋白，其中(a)或(b)中的至少一个与第二rAAV衣壳蛋白相关联，并且其中与第二rAAV衣壳蛋白相关联的(a)或(b)中的至少一个和与第一rAAV衣壳蛋白相关联的(a)或(b)中的至少一个不同。

在一些实施例中，(a)或(b)中的至少一个与第一或第二rAAV衣壳蛋白相关联分散在第一或第二rAAV衣壳蛋白的内部，该第一或第二rAAV衣壳蛋白是以AAV衣壳颗粒的形式。

在一些实施例中，该系统还包含纳米颗粒，其中该纳米颗粒与(a)或(b)中的至少一个相关联。

在一些实施例中，(a)和(b)分别与以下相关联：a)第一rAAV衣壳蛋白和第二rAAV衣壳蛋白；b)纳米颗粒和第一rAAV衣壳蛋白；c)第一rAAV衣壳蛋白；d)第一腺病毒衣壳蛋白；e)第一纳米颗粒和第二纳米颗粒；或f)第一纳米颗粒。

病毒载体可用于递送本发明提供的系统的全部或部分，例如用于本发明提供的方法中。衍生自不同病毒的系统已被用于递送多肽、核酸或转座子；例如：整合酶缺陷型慢病毒、腺病毒、腺相关病毒(AAV)、单纯疱疹病毒和杆状病毒(在HHodge等人Hum Gene Ther[人基因疗法]2017；Narayanavari等人Crit Rev Biochem Mol Biol[生物化学和分子生物学评论]2017；Boehme等人Curr Gene Ther[当今基因疗法]2015)中进行了综述。

腺病毒是常见的病毒，由于具有明确的生物学特性、遗传稳定性、高转导效率并易于大规模生产，其已被用作基因递送媒剂(例如，参见Lee等人Genes&Diseases[基因与疾病]2017中的综述)。它们具有线性dsDNA基因组，并有多种血清型，在组织和细胞嗜性方面有所不同。为了防止感染性病毒在受体细胞中复制，用于包装的腺病毒基因组被缺失了一些或全部内源病毒蛋白，这些内源病毒蛋白在病毒生产细胞中以反式形式提供。这使得基因组依赖于辅助功能，这意味着它们只能在所谓的辅助功能提供的缺失组分存在的情况下被复制并包装成病毒颗粒。去除所有病毒ORF的辅助依赖性腺病毒系统可与包装高达约37kb的外源DNA兼容(Parks等人J Virol[病毒学杂志]1997)。在一些实施例中，腺病毒载体用于递送对应于Gene Writing^TM系统的多肽或模板组分的DNA，或两者都包含在单独或相同的腺病毒载体上。在一些实施例中，腺病毒是不能自我包装的辅助依赖性腺病毒(HD-AdV)。在一些实施例中，腺病毒是高容量腺病毒(HC-AdV)，其已缺失了全部或大部分内源病毒ORF，同时保留了包装成腺病毒颗粒所需的序列组分。对于这种类型的载体，基因组包装所需的唯一腺病毒序列是非编码序列：两端的反向末端重复(ITR)和5’末端的包装信号(Jager等人Nat Protoc[自然实验手册]2009)。在一些实施例中，腺病毒基因组还包含填充DNA以满足用于最佳生产和稳定性的最小基因组大小(参见，例如，Hausl等人Mol Ther[分子疗法]2010)。腺病毒已在本领域中用于将转座子递送至各种组织。在一些实施例中，腺病毒用于将Gene Writing^TM系统递送至肝脏。

在一些实施例中，腺病毒用于将Gene Writing^TM系统递送至HSC，例如HDAd5/35++。HDAd5/35++是具有经修饰的血清型35纤维(其将载体从肝脏去靶向)的腺病毒(Wang等人Blood Adv[血液研究进展]2019)。在一些实施例中，将Gene Writing^TM系统递送至HSC的腺病毒利用在原始HSC上特异性表达的受体，例如，CD46。

腺相关病毒(AAV)属于细小病毒科，更具体地构成依赖细小病毒属。AAV基因组由单链DNA分子构成，所述单链DNA分子包含约4.7千碱基(kb)并且由两个主要的开放阅读框(ORF)(编码非结构Rep(复制)和结构Cap(衣壳)蛋白)组成。cap基因内的第二ORF被鉴定为编码组装激活蛋白(AAP)。AAV编码区两侧的DNA是两个顺式作用反向末端重复(ITR)序列，长度约为145个核苷酸，具有间断的回文序列，这些回文序列可折叠成能量稳定的发夹结构，这些发夹结构用作DNA复制的引物。除了它们在DNA复制中的作用外，ITR序列已被证明与病毒DNA整合到细胞基因组中、从宿主基因组或质粒中拯救以及将病毒核酸包裹到成熟病毒体中有关(Muzyczka,(1992)Curr.Top.Micro.Immunol.[当前微生物学和免疫学]158:97-129)。在一些实施例中，一种或多种Gene Writing^TM核酸组分的侧翼是源自AAV的ITR，用于病毒包装。参见，例如，WO 2019113310。

在一些实施例中，Gene Writing^TM系统的一种或多种组分通过至少一种AAV载体携带。在一些实施例中，针对特定细胞、组织、生物体的嗜性选择至少一种AAV载体。在一些实施例中，AAV载体是假型的，例如AAV2/8，其中AAV2描述了构建体的设计，但衣壳蛋白被来自AAV8的蛋白替换。应当理解，任何所述载体可以是假型衍生物，其中用于包装AAV基因组的衣壳蛋白是衍生自不同AAV血清型的衣壳蛋白。在一些实施例中，用于Gene Writing^TM的AAV可针对新的细胞或组织嗜性进行进化，如文献中已证明的(例如，Davidsson等人Proc NatlAcad Sci U S A[美国国家科学院院刊]2019)。

在一些实施例中，AAV递送载体是具有两个AAV反向末端重复(ITR)和目的核苷酸序列(例如，编码Gene Writer^TM多肽或DNA模板，或两者的序列)的载体，所述ITR中的每个具有中断(或非连续)回文序列，即由三个片段构成的序列：第一个区段和最后一个片段在5'→3'读取时是相同的，但在彼此相对放置时会杂交，以及一个不同的区段将相同的区段分开。这样的序列，特别是ITR，形成发夹结构。参见，例如，WO 2012123430。

通常，通过引入一个或多个编码rAAV或scAAV基因组、Rep蛋白和Cap蛋白的质粒来产生带有衣壳的AAV病毒体(Grimm等人,1998)。在反式引入这些辅助质粒后，AAV基因组从宿主基因组中被“拯救”(即释放并随后回收)，并进一步包裹以产生感染性AAV。在一些实施例中，通过将侧翼为ITR的核酸与辅助功能一起引入包装细胞中，将一种或多种GeneWriting^TM核酸包装到AAV颗粒中。

在一些实施例中，AAV基因组是所谓的自我互补基因组(称为scAAV)，使得位于ITR之间的序列包含所期望的核酸序列(例如，编码Gene Writer^TM多肽或模板的DNA，或两者)以及所期望的核酸序列的反向互补序列，使得这两种组分可以折叠和自杂交。在一些实施例中，自我互补模块由允许DNA自身折叠的间插序列分开，例如，形成茎环。scAAV的优势在于在进入细胞核后准备好进行转录，而不是首先依赖ITR引发和第二链合成来形成dsDNA。在一些实施例中，一种或多种Gene Writing^TM组分被设计为scAAV，其中AAV ITR之间的序列包含两个反向互补模块，它们可以自杂交以产生dsDNA。

在一些实施例中，递送至细胞的核酸(例如，编码多肽或模板，或两者)是封闭末端的线性双链体DNA(CELiD DNA或ceDNA)。在一些实施例中，ceDNA源自AAV基因组的复制形式(Li等人PLoS One[公共科学图书馆·综合]2013)。在一些实施例中，核酸(例如，编码多肽或模板DNA，或两者)的侧翼为ITR，例如AAV ITR，其中至少一个ITR包含末端解离位点和复制蛋白结合位点(有时称为复制型蛋白结合位点)。在一些实施例中，ITR源自腺相关病毒，例如AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV11、AAV12或其组合。在一些实施例中，ITR是对称的。在一些实施例中，ITR是不对称的。在一些实施例中，提供至少一种Rep蛋白以使构建体能够复制。在一些实施例中，至少一种Rep蛋白源自腺相关病毒，例如AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10、AAV11、AAV12或其组合。在一些实施例中，通过向生产细胞提供(i)侧翼为ITR(例如AAV ITR)的DNA，和(ii)ITR依赖性复制所需的组分，例如AAV蛋白Rep78和Rep52(或编码蛋白的核酸)来产生ceDNA。在一些实施例中，ceDNA不含任何衣壳蛋白，例如，未包装到感染性AAV颗粒中。在一些实施例中，ceDNA被配制成LNP(参见例如WO 2019051289 A1)。

在一些实施例中，ceDNA载体由两个自身互补序列组成，例如本文定义的不对称或对称或基本对称的ITR，位于所述表达盒的侧翼，其中ceDNA载体不与衣壳蛋白相关联。在一些实施例中，ceDNA载体包含在AAV基因组中发现的两个自互补序列，其中至少一个ITR包含AAV的可操作的Rep结合元件(RBE)(在本文中有时也称为“RBS”)和末端解离位点(trs)或RBE的功能变体。参见，例如，WO 2019113310。

在一些实施例中，AAV基因组包含分别编码四种复制蛋白和三种衣壳蛋白的两个基因。在一些实施例中，基因的侧翼中任何一侧有145-bp的反向末端重复序列(ITR)。在一些实施例中，病毒体包含例如以1:1:10比率产生的多达三种衣壳蛋白(Vp1、Vp2、和/或Vp3)。在一些实施例中，衣壳蛋白产生自相同的开放阅读框和/或差异剪接(Vp1)和替代性的翻译起始位点(分别为Vp2和Vp3)。通常，Vp3是病毒体中最丰富的亚基，并参与细胞表面的受体识别，从而定义了病毒的嗜性。在一些实施例中，Vp1在Vp1的N末端包含例如在病毒感染性方面起作用的磷脂酶结构域。

在一些实施例中，病毒载体的包装能力限制了可以包装到载体中的碱基编辑器的大小。例如，AAV的包装能力可以是约4.5kb(例如，约3.0、3.5、4.0、4.5、5.0、5.5、或6.0kb)，例如，包括一个或两个反向末端重复序列(ITR)，例如，145个碱基ITR。

在一些实施例中，重组AAV(rAAV)包含在载体转基因盒侧翼的顺式作用145-bpITR，例如，提供高达4.5kb用于外源DNA的包装。感染后，在一些情况下，rAAV可以表达本发明的融合蛋白，并且通过以环状头对尾多联体的附加体形式持续存在而不整合到宿主基因组中。rAAV可例如在体外和体内使用。在一些实施例中，AAV介导的基因递送要求基因的编码序列的长度在大小上等于或大于野生型AAV基因组。

超过该大小的基因的AAV递送和/或大的生理调节元件的使用可以例如通过将要递送的一种或多种蛋白质分成两个或更多个片段来完成。在一些实施例中，N末端片段与分裂型内含肽-N融合。在一些实施例中，C末端片段与分裂型内含肽-C融合。在实施例中，片段被包装到两个或更多个AAV载体中。

在一些实施例中，通过将大的转基因表达盒分成两个单独的半部分(5端和3端，或头和尾)来产生双重AAV载体，例如，其中盒的每一半被包装在单个AAV载体中(其<5kb)。在一些实施例中，然后可以在通过两个双重AAV载体对同一细胞进行的共感染后实现全长转基因表达盒的重新组装。在一些实施例中，共感染之后是以下中的一项或多项：(1)5和3基因组之间的同源重组(HR)(双重AAV重叠载体)；(2)5和3基因组的ITR介导的尾对头连环化(双重AAV反式剪接载体)；和/或(3)这两种机制的组合(双重AAV杂合载体)。在一些实施例中，体内使用双重AAV载体导致全长蛋白质的表达。在一些实施例中，双AAV载体平台的使用代表了用于大于约4.0、4.1、4.2、4.3、4.4、4.5、4.6、4.7、4.8、4.9、或5.0kb的转基因的有效且可行的基因转移策略。在一些实施例中，AAV载体还可用于用靶核酸转导细胞，例如在核酸和肽的体外生产中。在一些实施例中，AAV载体可用于体内和离体基因疗法程序(参见，例如，West等人,Virology[病毒学]160:38-47(1987)；美国专利号4,797,368；WO 93/24641；Kotin,Human Gene Therapy[人基因疗法]5:793-801(1994)；Muzyczka,J.Clin.Invest.[临床研究期刊]94:1351(1994)；其各自通过引用以其整体并入本文)。重组AAV载体的构建描述于许多公开物中，包括美国专利号5,173,414；Tratschin等人,Mol.Cell.Biol.[分子细胞生物学]5:3251-3260(1985)；Tratschin,等人,Mol.Cell.Biol.[分子细胞生物学]4:2072-2081(1984)；Hermonat和Muzyczka,PNAS[美国国家科学院院刊]81:6466-6470(1984)；以及Samulski等人,J.Virol.[病毒学杂志]63:03822-3828(1989)(其通过引用以其全文并入本文)。

在一些实施例中，本文所述的Gene Writer(例如，具有或不具有一种或多种指导核酸)可以使用AAV、慢病毒、腺病毒或其他质粒或病毒载体类型进行递送，特别是使用来自以下文献的配制品和剂量：例如，美国专利号8,454,972(针对腺病毒的配制品、剂量)、美国专利号8,404,658(针对AAV的配制品、剂量)和美国专利号5,846,946(针对DNA质粒的配制品、剂量)以及来自临床试验和关于涉及慢病毒、AAV和腺病毒的临床试验的公开物。例如，对于AAV，施用途径、配制品和剂量可如美国专利号8,454,972和涉及AAV的临床试验中所述。对于腺病毒，施用途径、配制品和剂量可如美国专利号8,404,658和涉及腺病毒的临床试验中所述。对于质粒递送，施用途径、配制品和剂量可如美国专利号5,846,946和涉及质粒的临床研究中所述。剂量可以基于或外推为平均70kg的个体(例如男性成人)，并且可以针对患者、受试者、不同重量和物种的哺乳动物进行调整。施用频率在医学或兽医学从业者(例如医师、兽医师)的范围之内，其取决于常规因素，包括患者或受试者的年龄、性别、一般健康状况、其他状况以及着手解决的特定病症或症状。在一些实施例中，可以将病毒载体注射到目的组织中。对于细胞类型特异性Gene Writing，在一些实施例中，Gene Writer和任选的指导核酸的表达可以由细胞类型特异性启动子驱动。

在一些实施例中，例如，由于纯化方法不需要可以激活免疫反应的细胞颗粒的超速离心，AAV允许低毒性。在一些实施例中，AAV允许引起插入诱变的可能性低，原因是例如它基本上不整合到宿主基因组中。

在一些实施例中，AAV具有约4.4、4.5、4.6、4.7、或4.75kb的包装限制。在一些实施例中，Gene Writer、启动子和转录终止子可以配合在单个病毒载体中。在一些情况下，SpCas9(4.1kb)可能难以包装成AAV。因此，在一些实施例中，使用长度比其他Gene Writer或碱基编辑器短的Gene Writer。在一些实施例中，Gene Writer小于约4.5kb、4.4kb、4.3kb、4.2kb、4.1kb、4kb、3.9kb、3.8kb、3.7kb、3.6kb、3.5kb、3.4kb、3.3kb、3.2kb、3.1kb、3kb、2.9kb、2.8kb、2.7kb、2.6kb、2.5kb、2kb、或1.5kb。

AAV可以是AAV1、AAV2、AAV5或其任何组合。在一些实施例中，AAV的类型是根据要靶向的细胞来选择的；例如，可选择AAV血清型1、2、5或杂合衣壳AAV1、AAV2、AAV5或其任何组合用于靶向脑或神经元细胞；或者可以选择AAV4用于靶向心脏组织。在一些实施例中，选择AAV8用于递送至肝脏。关于这些细胞的示例性AAV血清型描述于例如Grimm,D.等人,J.Virol.[病毒学杂志]82:5887-5911(2008)(其通过引用以其全文并入本文)中。在一些实施例中，AAV是指所有血清型、亚型和天然存在的AAV以及重组AAV。AAV可用于指代病毒本身或其衍生物。在一些实施例中，AAV包括AAV1、AAV2、AAV3、AAV3B、AAV4、AAV5、AAV6、AAV6.2、AAV7、AAVrh.64Rl、AAVhu.37、AAVrh.8、AAVrh.32.33、AAV8、AAV9、AAV-DJ、AAV2/8、AAVrhlO、AAVLK03、AV10、AAV11、AAV 12、rhlO、和其杂合体，禽AAV、牛AAV、犬AAV、马AAV、灵长类动物AAV、非灵长类动物AAV、和羊AAV。各种AAV血清型的基因组序列，以及天然末端重复序列(TR)、Rep蛋白和衣壳亚基的序列是本领域已知的。此类序列可在文献或公共数据库如GenBank中找到。其他示例性AAV血清型列于表36中。

表36.示例性AAV血清型。

在一些实施例中，药物组合物(例如，包含本文所述的AAV)具有少于10％的空衣壳、少于8％的空衣壳、少于7％的空衣壳、少于5％的空衣壳、少于3％的空衣壳、或少于1％的空衣壳。在一些实施例中，药物组合物具有少于约5％的空衣壳。在一些实施例中，空衣壳的数量低于检测限。在一些实施例中，药物组合物具有少量空衣壳是有利的，原因是例如空衣壳可能产生例如很少或没有实质性的治疗益处的不良应答(例如，免疫应答、炎性应答、肝脏应答和/或心脏应答)。

在一些实施例中，药物组合物中的残余宿主细胞蛋白(rHCP)少于或等于100ng/mlrHCP/1 x 10¹³vg/ml，例如，少于或等于40ng/ml rHCP/1 x 10¹³vg/ml或1-50ng/ml rHCP/1x 10¹³vg/ml。在一些实施例中，药物组合物包含少于10ng rHCP/l.0 x 10¹³vg、或少于5ngrHCP/1.0 x 10¹³vg、少于4ng rHCP/1.0 x 10¹³vg、或少于3ng rHCP/1.0 x 10¹³vg，或介于之间的任何浓度。在一些实施例中，药物组合物中的残余宿主细胞DNA(hcDNA)少于或等于5x 10⁶pg/ml hcDNA/1 x 10¹³vg/ml、少于或等于1.2 x 10⁶pg/ml hcDNA/1 x 10¹³vg/ml、或1x 10⁵pg/ml hcDNA/1 x 10¹³vg/ml。在一些实施例中，所述药物组合物中的残余宿主细胞DNA少于5.0 x 10⁵pg/1 x 10¹³vg、少于2.0 x 10⁵pg/l.0 x 10¹³vg、少于1.1 x 10⁵pg/1.0x 10¹³vg、少于1.0 x 10⁵pg hcDNA/1.0 x 10¹³vg、少于0.9 x 10⁵pg hcDNA/1.0 x 10¹³vg、少于0.8 x 10⁵pg hcDNA/1.0 x 10¹³vg，或介于之间的任何浓度。

在一些实施例中，药物组合物中的残余质粒DNA少于或等于1.7 x 10⁵pg/ml/1.0x 10¹³vg/ml、或1 x 10⁵pg/ml/1 x 1.0 x 10¹³vg/ml、或1.7 x 10⁶pg/ml/1.0 x 10¹³vg/ml。在一些实施例中，药物组合物中的残余DNA质粒少于10.0 x 10⁵pg/1.0 x 10¹³vg、少于8.0x 10⁵pg/1.0 x 10¹³vg或少于6.8 x 10⁵pg/1.0 x 10¹³vg。在实施例中，药物组合物包含少于0.5ng/1.0 x 10¹³vg、少于0.3ng/1.0 x 10¹³vg、少于0.22ng/1.0 x 10¹³vg或少于0.2ng/1.0 x 10¹³vg或任何中间浓度的牛血清白蛋白(BSA)。在实施例中，药物组合物中的全能核酸酶(benzonase)为少于0.2ng/1.0 x 10¹³vg、少于0.1ng/1.0 x 10¹³vg、少于0.09ng/1.0x 10¹³vg、少于0.08ng/1.0 x 10¹³vg或任何中间浓度。在实施例中，药物组合物中的泊洛沙姆188(Poloxamer 188)为约10至150ppm、约15至100ppm或约20至80ppm。在实施例中，药物组合物中的铯为少于50pg/g(ppm)、少于30pg/g(ppm)或少于20pg/g(ppm)或任何中间浓度。

在实施例中，药物组合物包含少于10％、少于8％、少于7％、少于6％、少于5％、少于4％、少于3％、少于2％或介于之间的任何百分比的总杂质，例如，如通过SDS-PAGE测定。在实施例中，例如，如通过SDS-PAGE测定的总纯度为大于90％、大于92％、大于93％、大于94％、大于95％、大于96％、大于97％、大于98％、或介于之间的任何百分比。在实施例中，例如，如通过SDS-PAGE测量的，没有单一的未命名相关杂质多于5％、多于4％、多于3％或多于2％、或介于之间的任何百分比。在实施例中，药物组合物包含的填充的衣壳相对于总衣壳(例如，如通过分析型超速离心测量的峰1+峰2)的百分比为大于85％、大于86％、大于87％、大于88％、大于89％、大于90％、大于91％、大于91.9％、大于92％、大于93％，或介于之间的任何百分比。在药物组合物的实施例中，通过分析超速离心在峰1中测量的填充的衣壳的百分比为20-80％、25-75％、30-75％、35-75％或37.4-70.3％。在药物组合物的实施例中，通过分析型超速离心在峰2中测量的填充的衣壳的百分比为20％-80％、20％-70％、22％-65％、24％-62％、或24.9％-60.1％。

在一个实施例中，药物组合物包含1.0至5.0 x 10¹³vg/mL、1.2至3.0 x 10¹³vg/mL或1.7至2.3 x 10¹³vg/ml的基因组效价。在一个实施例中，药物组合物显示出小于5CFU/mL、小于4CFU/mL、小于3CFU/mL、小于2CFU/mL或小于1CFU/mL或任何中间浓度的生物负载。在实施例中，根据USP，例如USP<85>(通过引用以其全文并入)的内毒素的量少于1.0EU/mL、少于0.8EU/mL或少于0.75EU/mL。在实施例中，根据USP，例如USP<785>(通过引用以其全文并入)的药物组合物的渗透压摩尔浓度为350至450mOsm/kg、370至440mOsm/kg或390至430mOsm/kg。在实施例中，药物组合物含有少于1200个大于25μm的颗粒/容器、少于1000个大于25μm的颗粒/容器、少于500个大于25μm的颗粒/容器或任何中间值。在实施例中，药物组合物含有少于10,000个大于10μm的颗粒/容器、少于8000个大于10μm的颗粒/容器、或少于600个大于10pm的颗粒/容器。

在一个实施例中，药物组合物具有0.5至5.0 x 10¹³vg/mL、1.0至4.0 x 10¹³vg/mL、1.5至3.0 x 10¹³vg/ml或1.7至2.3 x 10¹³vg/ml的基因组效价。在一个实施例中，本文所述的药物组合物包含以下中的一项或多项：小于约0.09ng全能核酸酶/1.0 x 10¹³vg，小于约30pg/g(ppm)的铯，约20至80ppm泊洛沙姆188，小于约0.22ng BSA/1.0 x 10¹³vg，小于约6.8 x 10⁵pg的残余DNA质粒/1.0 x 10¹³vg，小于约1.1 x 10⁵pg的残余hcDNA/1.0 x10¹³vg，小于约4ng的rHCP/1.0 x 10¹³vg，pH 7.7至8.3，约390至430mOsm/kg，小于约600个大小>25μm的颗粒/容器，小于约6000个大小>10μm的颗粒/容器，约1.7 x 10¹³-2.3 x10¹³vg/mL基因组效价，约3.9 x 10⁸至8.4 x 10¹⁰IU/1.0 x 10¹³vg的感染效价，约100-300pg/1.0 x 10¹³vg的总蛋白，在约7.5 x 10¹³vg/kg剂量的病毒载体情况下A7SMA小鼠>24天的平均存活，根据基于体外细胞的测定的约70％至130％相对效力和/或小于约5％空衣壳。在各种实施例中，本文所述的药物组合物包含本文讨论的任何病毒颗粒，该药物组合物保留了参考标准品的±20％之间、±15％之间、±10％之间、或±5％内的效力。在一些实施例中，使用合适的体外细胞测定或体内动物模型来测量效力。

WO 2019094253中传授了制备、表征和给予AAV颗粒的另外的方法，该文献通过引用以其全文并入本文。

可与本发明一致使用的其他rAAV构建体包括Wang等人2019中描述的那些，可在以下网址获得：//doi.org/10.1038/s41573-019-0012-9，包括其表1，将该文献通过引用以其整体并入本文。

内含肽

在一些实施例中，如下文更详细描述的，内含肽-N可融合至本文所述的第一结构域的N末端部分，并且内含肽-C可融合至本文所述的第二结构域的C末端部分用于将N末端部分连接到C末端部分，从而连接第一和第二结构域。在一些实施例中，第一和第二结构域各自独立地选自DNA结合结构域、RNA结合结构域、RT结构域和核酸内切酶结构域。

如本文所用，“内含肽”是指自剪接蛋白内含子(例如肽)，例如，其连接侧翼N末端和C末端外显子(例如，待连接的片段)。在一些情况下，内含肽可以包含蛋白质的片段，该片段能够在称为蛋白质剪接的过程中自我切除并将剩余的片段(外显肽)与肽键连接。内含肽也称为“蛋白质内含子”。本文将内含肽自我切除并将蛋白质的剩余部分连接的过程称为“蛋白质剪接”或“内含肽介导的蛋白质剪接”。在一些实施例中，前体蛋白(在内含肽介导的蛋白质剪接之前的含内含肽的蛋白质)的内含肽来自两个基因。这种内含肽在本文称为断裂内含肽(例如，断裂内含肽-N和断裂内含肽-C)。例如，在蓝细菌中，DNA聚合酶III的催化亚基a(即DnaE)由两个分开的基因dnaE-n和dnaE-c编码。由dnaE-n基因编码的内含肽在本文可以称为“内含肽-N”。由dnaE-c基因编码的内含肽在本文可以称为“内含肽-C”。

以下中描述了使用内含肽连接异源蛋白质片段：例如，Wood等人,J.Biol.Chem.[生物化学杂志]289(21)；14512-9(2014)(将其通过引用以其整体并入本文)。例如，当与分开的蛋白质片段融合时，内含肽IntN和IntC可以彼此识别，自我剪除，和/或同时连接它们所融合的蛋白质片段的侧翼N末端和C末端外显肽，从而从两个蛋白质片段重构全长蛋白质。

在一些实施例中，使用基于dnaE内含肽的合成内含肽，即Cfa-N(例如，断裂内含肽-N)和Cfa-C(例如，断裂内含肽-C)内含肽对。此类内含肽的实例已在以下中进行了描述：例如Stevens等人,J Am Chem Soc.[美国化学学会杂志]2016年2月24日；138(7):2162-5(将其通过引用以其整体并入本文)。根据本披露可以使用的内含肽对的非限制性实例包括：Cfa DnaE内含肽、Ssp GyrB内含肽、Ssp DnaX内含肽、Ter DnaE3内含肽、Ter ThyX内含肽、Rma DnaB内含肽和Cne Prp8内含肽(例如，如美国专利号8,394,604中所述，该专利通过引用并入本文)。

在一些实施例中，可以将内含肽-N和内含肽-C分别与断裂Cas9的N末端部分和断裂Cas9的C末端部分融合，以便将断裂Cas9的N末端部分和断裂Cas9的C末端部分连接。例如，在一些实施例中，内含肽-N融合至分裂型Cas9的N末端部分的C末端，即形成N—[分裂型Cas9的N末端部分]-[内含肽-N]～C的结构。在一些实施例中，内含肽-C融合到分裂型Cas9的C末端部分的N末端，即，形成N-[内含肽-C]～[分裂型Cas9的C末端部分]-C的结构。用于连接与内含肽融合的蛋白质(例如，分裂型Cas9)的内含肽介导的蛋白质剪接机制在以下中进行描述：Shah等人,Chem Sci.[化学科学]2014；5(l):446-46l，其通过引用并入本文。用于设计和使用内含肽的方法在本领域已知，并且例如由WO 2020051561、W02014004336、WO2017132580、US 20150344549、和US 20180127780进行了描述，其中每个通过引用以其全文并入本文。

在一些实施例中，断裂是指分成两个或更多个片段。在一些实施例中，断裂Cas9蛋白或断裂Cas9包含Cas9蛋白，该蛋白作为由两个分开的核苷酸序列编码的N末端片段和C末端片段来提供。可以对与Cas9蛋白的N末端部分和C末端部分对应的多肽进行剪接以形成重构的Cas9蛋白。在实施例中，Cas9蛋白质在蛋白质的无序区域内被分成两个片段，例如，如以下中描述：Nishimasu等人,Cell[细胞],第156卷,第5期,第935-949页,2014，或Jiang等人(2016)Science[科学]351:867-871和PDB文件：5F9R(将其各自通过引用以其整体并入本文)。无序区域可通过本领域已知的一种或多种蛋白质结构测定技术测定，包括但不限于X射线晶体学、NMR光谱学、电子显微术(例如，cryoEM)和/或计算机模拟蛋白质建模。在一些实施例中，将蛋白质在例如氨基酸A292-G364、F445-K483、或E565-T637之间的SpCas9的区域内的任何C、T、A、或S处，或在任何其他Cas9、Cas9变体(例如，nCas9、dCas9)或其他napDNAbp中的对应位置处分成两个片段。在其他实施例中，将蛋白质在SpCas9T310、T313、A456、S469、或C574处分成两个片段。在一些实施例中，将蛋白质分成两个片段的过程称为对蛋白质的断裂。

在一些实施例中，蛋白质片段的长度范围为约2-1000个氨基酸(例如，2-10、10-50、50-100、100-200、200-300、300-400、400-500、500-600、600-700、700-800、800-900、或900-1000个之间的氨基酸)。在一些实施例中，蛋白质片段的长度范围为约5-500个氨基酸(例如，5-10、10-50、50-100、100-200、200-300、300-400、或400-500个之间的氨基酸)。在一些实施例中，蛋白质片段的长度范围为约20-200个氨基酸(例如，20-30、30-40、40-50、50-100、或100-200个之间的氨基酸)。

在一些实施例中，将Gene Writer(例如，Cas9-R2Tg)的一部分或片段与内含肽融合。可以将核酸酶与内含肽的N末端或C末端融合。在一些实施例中，将融合蛋白的部分或片段与内含肽融合并与AAV衣壳蛋白融合。可以将内含肽、核酸酶和衣壳蛋白以任何排列方式(例如，核酸酶-内含肽-衣壳、内含肽-核酸酶-衣壳、衣壳-内含肽-核酸酶等)融合在一起。在一些实施例中，将内含肽的N末端与融合蛋白的C末端融合，并将内含肽的C末端与AAV衣壳蛋白的N末端融合。

在一些实施例中，核酸内切酶结构域(例如，切口酶Cas9结构域)与内含肽-N融合，并且包含RT结构域的多肽与内含肽-C融合。

以下提供了内含肽的示例性核苷酸和氨基酸序列：

DnaE内含肽-N DNA：

DnaE内含肽-N蛋白质：

DnaE内含肽-C DNA：

内含肽-C：

Cfa-N DNA：

Cfa-N蛋白质：

Cfa-C DNA：

Cfa-C蛋白质：

脂质纳米颗粒

本发明提供的方法和系统可以采用任何合适的载剂或递送形式，在某些实施例中包括脂质纳米颗粒(LNP)。在一些实施例中，脂质纳米颗粒包含一种或多种离子脂质，诸如非阳离子脂质(例如，中性或阴离子或两性离子脂质)；一种或多种缀合的脂质(诸如WO2019217941的表5中描述的PEG缀合的脂质或缀合至聚合物的脂质；其通过引用以其全文并入本文)；一种或多种固醇(例如，胆固醇)；以及，任选地，一种或多种靶向分子(例如，缀合的受体、受体配体、抗体)；或前述内容的组合。

可用于形成纳米颗粒(例如，脂质纳米颗粒)的脂质包括例如WO 2019217941的表4中描述的那些，其通过引用并入—例如，含脂质的纳米颗粒可包含WO 2019217941的表4中的一种或多种脂质。脂质纳米颗粒可以包括另外的元件，例如聚合物，例如WO 2019217941(通过引用并入)的表5中描述的聚合物。

在一些实施例中，缀合的脂质，当存在时，可以包括以下的一种或多种：PEG-二酰基甘油(DAG)(诸如l-(单甲氧基-聚乙二醇)-2,3-二肉豆蔻酰甘油(PEG-DMG))、PEG-二烷氧基丙基(DAA)、PEG-磷脂、PEG-神经酰胺(Cer)、聚乙二醇化磷脂酰乙醇胺(PEG-PE)、PEG琥珀酸二酰基甘油(PEGS-DAG)(诸如4-0-(2',3'-二(十四烷酰氧基)丙基-l-0-(w-甲氧基(聚乙氧基)乙基)丁二酸酯(PEG-S-DMG))、PEG二烷氧基丙基氨基甲酸酯、N-(羰基-甲氧基聚乙二醇2000)-1,2-二硬脂酰-sn-甘油-3-磷酸乙醇胺钠盐，以及在WO 2019051289的表2中描述的那些(通过引用并入)和前述的组合。

在一些实施例中，可掺入脂质纳米颗粒中的固醇包括胆固醇或胆固醇衍生物中的一种或多种，诸如通过引用并入的W02009/127060或US 2010/0130588中的那些。另外的示例性固醇包括植物固醇，包括通过引用并入本文的Eygeris等人(2020)，dx.doi.org/10.1021/acs.nanolett.0c01386中描述的那些。

在一些实施例中，脂质颗粒包含可电离脂质、非阳离子脂质、抑制颗粒聚集的缀合脂质和固醇。这些组分的量可以独立地变化，以获得所需特性。例如，在一些实施例中，脂质纳米颗粒包含：可电离脂质，其量是总脂质的约20mol％至约90mol％(在其他实施例中，它可以是存在于脂质纳米颗粒中的总脂质的20-70％(mol)、30-60％(mol)或40-50％(mol)；约50mol％至约90mol％)；非阳离子脂质，其量是总脂质的约5mol％至约30mol％；缀合脂质，其量是总脂质的约0.5mol％至约20mol％，以及甾醇，其量是总脂质的约20mol％至约50mol％。总脂质与核酸(例如，编码Gene Writer或模板核酸)的比率可以根据需要而变化。例如，总脂质与核酸(质量或重量)的比率可为约10:1至约30:1。

在一些实施例中，可电离脂质可以是阳离子脂质、可电离阳离子脂质，例如可以根据pH以带正电荷的形式或中性形式存在的阳离子脂质，或可以容易地质子化的含胺脂质。在一些实施例中，阳离子脂质是例如在生理条件下能够带正电的脂质。示例性的阳离子脂质包括一个或多个带有正电荷的胺基。在一些实施例中，脂质颗粒包含阳离子脂质与中性脂质、可电离含胺脂质、生物可降解炔烃脂质、类固醇、包括多不饱和脂质的磷脂、结构脂质(例如甾醇)、PEG、胆固醇和聚合物缀合脂质一起配制。在一些实施例中，阳离子脂质可以是可电离的阳离子脂质。如本文所披露的示例性阳离子脂质可具有超过6.0的有效pKa。在实施例中，脂质纳米颗粒可包含具有与第一阳离子脂质不同的有效pKa(例如，大于第一有效pKa)的第二阳离子脂质。脂质纳米颗粒可包含40mol％至60mol％的阳离子脂质、中性脂质、类固醇、聚合物缀合脂质和治疗剂，例如本文所述的核酸(例如RNA)(例如模板核酸或编码Gene Writer的核酸)，包封在脂质纳米颗粒内或与脂质纳米颗粒相关联。在一些实施例中，核酸与阳离子脂质共同配制。核酸可以吸附到LNP(例如包含阳离子脂质的LNP)的表面。在一些实施例中，核酸可以包封在LNP(例如包含阳离子脂质的LNP)中。在一些实施例中，脂质纳米颗粒可包含靶向部分，例如用靶向剂包被的靶向部分。在实施例中，LNP配制品是生物可降解的。在一些实施例中，包含一种或多种本文所述的脂质(例如式(i)、(ii)、(ii)、(vii)和/或(ix))的脂质纳米颗粒包封至少1％、至少5％、至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少92％、至少95％、至少97％、至少98％或100％的RNA分子，例如，模板RNA和/或编码Gene Writer多肽的mRNA。

在一些实施例中，脂质与核酸的比率(质量/质量比率；w/w比率)可以在以下范围中：约1:1至约25:1、约10:1至约14:1、约3:1至约15:1、约4:1至约10:1、约5:1至约9:1、或约6:1至约9:1。可以调节脂质和核酸的量以提供所需的N/P比，例如3、4、5、6、7、8、9、10或更高的N/P比。通常，脂质纳米颗粒配制品的总脂质含量可在约5mg/ml至约30mg/mL的范围内。

可用于脂质纳米颗粒配制品中的示例性可电离脂质包括但不限于通过引用并入本文的WO 2019051289的表1中所列的那些。另外的示例性脂质包括但不限于下式中的一种或多种：US 2016/0311759的X；US 20150376115或US 2016/0376224中的I；US 20160151284的I、II或III；US 20170210967的I、IA、II或IIA；US 20150140070的I-c；US 2013/0178541的A；US 2013/0303587或US 2013/0123338的I；US 2015/0141678的I；US 2015/0239926的II、III、IV或V；US 2017/0119904的I；WO 2017/117528的I或II；US 2012/0149894的A；US2015/0057373的A；WO 2013/116126的A；US 2013/0090372的A；US 2013/0274523的A；US2013/0274504的A；US 2013/0053572的A；W02013/016058的A；W02012/162210的A；US 2008/042973的I；US 2012/01287670的I、II、III或IV；US 2014/0200257的I或II；US 2015/0203446的I、II或III；US 2015/0005363的I或III；US 2014/0308304的I、IA、IB、IC、ID、II、IIA、IIB、IIC、IID或III-XXIV；US 2013/0338210；W02009/132131的I、II、III或IV；US2012/01011478的A；US 2012/0027796的I或XXXV；US 2012/0058144的XIV或XVII；US 2013/0323269的；US 2011/0117125的I；US 2011/0256175的I、II或III；US 2012/0202871的I、II、III、IV、V、VI、VII、VIII、IX、X、XI、XII；US 2011/0076335的I、II、III、IV、V、VI、VII、VIII、X、XII、XIII、XIV、XV或XVI；US 2006/008378的I或II；US 2013/0123338的I；US 2015/0064242的I或X-A-Y-Z；US 2013/0022649的XVI、XVII或XVIII；US 2013/0116307的I、II或III；US 2013/0116307的I、II或III；US 2010/0062967的I或II；US 2013/0189351的I-X；US2014/0039032的I；US 2018/0028664的V；US 2016/0317458的I；US 2013/0195920的I；US10,221,127的5、6或10；WO 2018/081480的III-3；WO 2020/081938的I-5或I-8；US9,867,888的18或25；US 2019/0136231的A；WO 2020/219876的II；US 2012/0027803的1；US 2019/0240349的OF-02；US 10,086,013的23；Miao等人(2020)的cKK-E12/A6；WO 2010/053572的C12-200；Dahlman等人(2017)的7C1；Whitehead等人的304-O13或503-O13；US9,708,628的TS-P4C2；WO 2020/106946的I；WO 2020/106946的I。

在一些实施例中，可电离脂质是MC3(6Z,9Z,28Z,3lZ)-三十七烷-6,9,28,3l-四烯-l9-基-4-(二甲基氨基)丁酸酯(DLin-MC3-DMA或MC3)，例如，如WO 2019051289 A9(通过引用以其全文并入本文)的实例9中所述。在一些实施例中，可电离脂质是脂质ATX-002，例如，如WO 2019051289 A9(通过引用以其全文并入本文)的实例10中所述。在一些实施例中，可电离脂质是(l3Z,l6Z)-A,A-二甲基-3-壬基二十二-l3,l6-二烯-l-胺(化合物32)，例如，如WO 2019051289 A9(通过引用以其全文并入本文)的实例11中所述。在一些实施例中，可电离脂质是化合物6或化合物22，例如，如WO 2019051289 A9的实例12中所述(通过引用以其整体并入本文)。在一些实施例中，可电离脂质是十七烷-9-基8-((2-羟乙基)(6-氧代-6-(十一烷氧基)己基)氨基)辛酸酯(SM-102)；例如，如US 9,867,888(将其通过引用以其整体并入本文)的实例1中所述。在一些实施例中，可电离脂质是9Z,12Z)-3-((4,4-双(辛基氧基)丁酰基)氧基)-2-((((3-(二乙基氨基)丙氧基)羰基)氧基)甲基)丙基十八碳-9,12-二烯酸酯(LP01)，例如，如WO 2015/095340(将其通过引用以其整体并入本文)的实例13中合成的。在一些实施例中，可电离脂质是9-((4-二甲基氨基)丁酰基)氧基)十七烷二酸二((Z)-壬-2-烯-1-基)酯(L319)，例如如US 2012/0027803(将其通过引用以其整体并入本文)的实例7、实例8或实例9中合成的。在一些实施例中，可电离脂质是1,1'-((2-(4-(2-((2-(双(2-羟基十二烷基)氨基)乙基)(2-羟基十二烷基)氨基)乙基)哌嗪-1-基)乙基)氮烷二基)双(十二烷-2-醇)(C12-200)，例如，如WO 2010/053572(将其通过引用以其整体并入本文)的实例14和实例16中合成的。在一些实施例中，可电离脂质是；咪唑胆固醇酯(ICE)脂质(3S,10R,13R,17R)-10,13-二甲基-17-((R)-6-甲基庚-2-基)-2,3,4,7,8,9,10,11,12,13,14,15,16,17-十四氢-lH-环戊[a]菲-3-基3-(1H-咪唑-4-基)丙酸酯，例如来自WO2020/106946(将其通过引用以其整体并入本文)的结构(I)。

可用于(例如，与其他脂质组分组合)形成用于递送本文所述的组合物，例如本文所述的核酸(例如，RNA)(例如，模板核酸或编码GeneWriter的核酸)的脂质纳米颗粒的脂质化合物的一些非限制性实例包括：

在一些实施例中，包含式(i)的LNP用于将本文所述的GeneWriter组合物递送至肝脏和/或肝细胞。

在一些实施例中，包含式(ii)的LNP用于将本文所述的GeneWriter组合物递送至肝脏和/或肝细胞。

在一些实施例中，包含式(iii)的LNP用于将本文所述的GeneWriter组合物递送至肝脏和/或肝细胞。

在一些实施例中，包含式(v)的LNP用于将本文所述的GeneWriter组合物递送至肝脏和/或肝细胞。

在一些实施例中，包含式(vi)的LNP用于将本文所述的GeneWriter组合物递送至肝脏和/或肝细胞。

在一些实施例中，包含式(viii)的LNP用于将本文所述的GeneWriter组合物递送至肝脏和/或肝细胞。

在一些实施例中，包含式(ix)的LNP用于将本文所述的GeneWriter组合物递送至肝脏和/或肝细胞。

其中

X¹是O、NR¹或直接键，X²是C2-5亚烷基，X³是C(＝0)或直接键，R¹是H或Me，R³是Ci-3烷基，R²是Ci-3烷基，或R²与它所附接的氮原子和X²的1-3个碳原子一起形成4元、5元或6元环，或X¹是NR¹，R¹和R²与它们所附接的氮原子一起形成5元或6元环，或R²与R³和它们所附接的氮原子一起形成5元、6元或7元环，Y¹是C2-12亚烷基，Y²选自

n是0至3，R⁴是Ci-15烷基，Z¹是Ci-6亚烷基或直接键，

Z²是

(在任一取向上)或不存在，条件是如果Z¹是直接键，则Z²不存在；

R⁵是C5-9烷基或C6-10烷氧基，R⁶是C5-9烷基或C6-10烷氧基，W是亚甲基或直接键，并且R⁷是H或Me，或其盐，条件是如果R³和R²是C2烷基，X¹是O，X²是直链C3亚烷基，X³是C(＝0)，Y¹是直链Ce亚烷基，(Y²)n-R⁴是

，R⁴是直链C5烷基，Z¹是C2亚烷基，Z²不存在，W是亚甲基，并且R⁷是H，则R⁵和R⁶不是Cx烷氧基。

在一些实施例中，包含式(xii)的LNP用于将本文所述的GeneWriter组合物递送至肝脏和/或肝细胞。

在一些实施例中，包含式(xi)的LNP用于将本文所述的GeneWriter组合物递送至肝脏和/或肝细胞。

其中

在一些实施例中，式(xii)的脂质可以由以下结构表示

在一些实施例中，LNP包含式(xiii)的化合物和式(xiv)的化合物。

在一些实施例中，包含式(xv)的LNP用于将本文所述的GeneWriter组合物递送至肝脏和/或肝细胞。

在一些实施例中，包含式(xvi)的配制品的LNP用于将本文所述的GeneWriter组合物递送至肺内皮细胞。

其中

在一些实施例中，用于形成用于递送本文所述组合物(例如本文所述的核酸(例如，RNA)(例如模板核酸或编码GeneWriter的核酸))的脂质纳米颗粒的脂质化合物通过以下反应之一制备：

示例性的非阳离子脂质包括但不限于二硬脂酰-sn-甘油-磷酸乙醇胺、二硬脂酰磷脂酰胆碱(DSPC)、二油酰磷脂酰胆碱(DOPC)、二棕榈酰磷脂酰胆碱(DPPC)、二油酰磷脂酰甘油(DOPG)、二棕榈酰磷脂酰甘油(DPPG)、二油酰-磷脂酰乙醇胺(DOPE)、棕榈酰油酰磷脂酰胆碱(POPC)、棕榈酰油酰磷脂酰乙醇胺(POPE)、1,2-二油酰-sn-甘油-3-磷酸乙醇胺(DOPE)、二油酰-磷脂酰乙醇胺4-(N-马来酰亚胺甲基)-环己烷-1-甲酸盐(DOPE-mal)、二棕榈酰磷脂酰乙醇胺(DPPE)、二肉豆蔻酰磷酸乙醇胺(DMPE)、二硬脂酰-磷脂酰-乙醇胺(DSPE)、单甲基-磷脂酰乙醇胺(例如16-O-单甲基PE)、二甲基-磷脂酰乙醇胺(例如16-O-二甲基PE)、l8-l-反式PE,l-硬脂酰-2-油酰-磷脂酰乙醇胺(SOPE)、氢化大豆磷脂酰胆碱(HSPC)、蛋磷脂酰胆碱(EPC)、二油酰磷脂酰丝氨酸(DOPS)、鞘磷脂(SM)、二肉豆蔻酰磷脂酰胆碱(DMPC)、二肉豆蔻酰磷脂酰甘油(DMPG)、二硬脂酰磷脂酰甘油(DSPG)、二芥子酰磷脂酰胆碱(DEPC)、棕榈酰油酰磷脂酰甘油(POPG)、二反油酰-磷脂酰乙醇胺(DEPE)、卵磷脂、磷脂酰乙醇胺、溶血卵磷脂、溶血磷脂酰乙醇胺、磷脂酰丝氨酸、磷脂酰肌醇、鞘磷脂、卵鞘磷脂(ESM)、脑磷脂、心磷脂、磷脂酸、脑苷脂、双十六烷基磷酸、溶血磷脂酰胆碱、二亚油酰磷脂酰胆碱、或其混合物。应当理解，也可以使用其他二酰基磷脂酰胆碱和二酰基磷脂酰乙醇胺磷脂。这些脂质中的酰基基团优选为源自具有C10-C24碳链的脂肪酸的酰基基团，例如月桂酰基、肉豆蔻酰基、棕榈酰基、硬脂酰基或油酰基。在某些实施例中，另外的示例性脂质包括但不限于通过引用并入本文的Kim等人(2020)dx.doi.org/10.1021/acs.nanolett.0c01386中描述的那些。在一些实施例中，此类脂质包括发现会改善用mRNA进行肝脏转染的植物脂质(例如DGTS)。

在一些实施例中，非阳离子脂质可以具有以下结构

适合用于脂质纳米颗粒中的非阳离子脂质的其他实例包括但不限于非磷脂质，例如硬脂胺、十二烷基胺、十六烷基胺、乙酰基棕榈酸酯、蓖麻酸甘油酯、硬脂酸十六烷基酯、肉豆蔻酸异丙酯、两性丙烯酸聚合物、三乙醇胺-月桂基硫酸酯、烷基-芳基硫酸酯、聚乙氧基化脂肪酸酰胺、双十八烷基二甲基溴化铵、神经酰胺、鞘磷脂等。其他非阳离子脂质在WO2017/099823或美国专利公开US 2018/0028664中描述，其内容通过引用以其全文并入本文。

在一些实施例中，非阳离子脂质是油酸或通过引用以其全文并入的US 2018/0028664的式I、II或IV的化合物。非阳离子脂质可以占脂质纳米颗粒中存在的总脂质的例如0-30％(摩尔)。在一些实施例中，非阳离子脂质含量是脂质纳米颗粒中存在的总脂质的5％-20％(摩尔)或10％-15％(摩尔)。在实施例中，可电离脂质与中性脂质的摩尔比为约2:1至约8:1(例如，约2:1、3:1、4:1、5:1、6:1、7:1或8:1)。

在一些实施例中，脂质纳米颗粒不包含任何磷脂。

在一些方面，脂质纳米颗粒可进一步包含诸如固醇的组分以提供膜完整性。可用于脂质纳米颗粒中的一种示例性固醇是胆固醇及其衍生物。胆固醇衍生物的非限制性实例包括极性类似物，诸如5a-胆甾烷醇、53-粪甾烷醇、胆甾醇基-(2,-羟基)-乙基醚、胆甾醇基-(4'-羟基)-丁基醚和6-酮胆甾烷醇；非极性类似物，诸如5a-胆甾烷、胆甾烯酮、5a-胆甾烷酮、5p-胆甾烷酮和胆甾醇癸酸酯；及其混合物。在一些实施例中，胆固醇衍生物是极性类似物，例如，胆甾醇基-(4'-羟基)-丁基醚。示例性的胆固醇衍生物在PCT公开W02009/127060和美国专利公开US 2010/0130588中描述，其中每个通过引用以其全文并入本文。

在一些实施例中，提供膜完整性的组分，诸如固醇，可占脂质纳米颗粒中存在的总脂质的0-50％(摩尔)(例如，0-10％、10％-20％、20％-30％、30％-40％或40％-50％)。在一些实施例中，此类组分是脂质纳米颗粒的总脂质含量的20％-50％(摩尔)、30％-40％(摩尔)。

在一些实施例中，脂质纳米颗粒可包含聚乙二醇(PEG)或缀合的脂质分子。通常，这些用于抑制脂质纳米颗粒的聚集和/或提供空间稳定。示例性的缀合脂质包括但不限于PEG-脂质缀合物、聚噁唑啉(POZ)-脂质缀合物、聚酰胺-脂质缀合物(诸如ATTA-脂质缀合物)、阳离子聚合物脂质(CPL)缀合物及其混合物。在一些实施例中，缀合脂质分子是PEG-脂质缀合物，例如(甲氧基聚乙二醇)缀合脂质。

示例性的PEG-脂质缀合物包括但不限于PEG-二酰基甘油(DAG)(诸如l-(单甲氧基-聚乙二醇)-2,3-二肉豆蔻酰甘油(PEG-DMG))、PEG-二烷氧基丙基(DAA)、PEG-磷脂、PEG-神经酰胺(Cer)、聚乙二醇化磷脂酰乙醇胺(PEG-PE)、PEG琥珀酸二酰基甘油(PEGS-DAG)(诸如4-0-(2',3'-二(十四烷酰基氧基)丙基-l-0-(w-甲氧基(聚乙氧基)乙基)丁二酸酯(PEG-S-DMG))、PEG二烷氧基丙基氨基甲酸酯、N-(羰基-甲氧基聚乙二醇2000)-l,2-二硬脂酰基-sn-甘油-3-磷酸乙醇胺钠盐、1,2-二肉豆蔻酰基-sn-甘油，甲氧基聚乙二醇(DMG-PEG-2K)或其混合物。另外的示例性PEG-脂质缀合物例如在US 5,885,6l3、US 6,287,59l、US 2003/0077829、US 2003/0077829、US 2005/0175682、US 2008/0020058、US 2011/0117125、US2010/0130588、US 2016/0376224、US 2017/0119904和US/099823中描述，所有这些的内容通过引用以其全文并入本文。在一些实施例中，PEG-脂质是US 2018/0028664的式III、III-a-I、III-a-2、III-b-1、III-b-2或V的化合物，其内容通过引用以其全文并入本文。在一些实施例中，PEG-脂质具有US 20150376115或US 2016/0376224的式II，两者的内容通过引用以其全文并入本文。在一些实施例中，PEG-DAA缀合物可以是例如PEG-二月桂基氧基丙基、PEG-二肉豆蔻基氧基丙基、PEG-二棕榈基氧基丙基或PEG-二硬脂基氧基丙基。PEG-脂质可以是以下的一种或多种：PEG-DMG、PEG-二月桂基甘油、PEG-二棕榈酰甘油、PEG-二硬脂基甘油、PEG-二月桂基甘油脂酰胺、PEG-二肉豆蔻基甘油脂酰胺、PEG-二棕榈酰甘油脂酰胺、PEG-二硬脂基甘油脂酰胺、PEG-胆固醇(l-[8'-(胆甾-5-烯-3[β]-氧基)甲酰胺基-3',6'-二氧杂辛基]氨基甲酰基-[ω]-甲基-聚(乙二醇)、PEG-DMB(3,4-双十四烷氧基苄基-[ω]-甲基-聚(乙二醇)醚)和1,2-二肉豆蔻酰基-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-2000]。在一些实施例中，PEG-脂质包含PEG-DMG、1,2-二肉豆蔻酰基-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-2000]。在一些实施例中，PEG-脂质包含选自以下的结构：

在一些实施例中，与PEG以外的分子缀合的脂质也可用于代替PEG-脂质。例如，聚噁唑啉(POZ)-脂质缀合物、聚酰胺-脂质缀合物(诸如ATTA-脂质缀合物)和阳离子聚合物脂质(GPL)缀合物可用于代替PEG-脂质或与PEG-脂质一起使用。

示例性缀合脂质，即PEG-脂质、(POZ)-脂质缀合物、ATTA-脂质缀合物和阳离子聚合物-脂质在WO 2019051289 A9和WO 2020106946 A1的表2中列出的PCT和LIS专利申请中描述，所有这些的内容通过引用以其整体并入本文。

在一些实施例中，LNP包含式(xix)化合物、式(xxi)化合物和式(xxv)化合物。在一些实施例中，包含式(xix)、式(xxi)和式(xxv)的配制品的LNP用于将本文所述的GeneWriter组合物递送至肺或肺细胞。

在一些实施例中，PEG或缀合脂质可以占脂质纳米颗粒中存在的总脂质的0-20％(摩尔)。在一些实施例中，PEG或缀合脂质的含量为脂质纳米颗粒中存在的总脂质的0.5％-10％或2％-5％(摩尔)。可电离脂质、非阳离子脂质、固醇和PEG/缀合脂质的摩尔比可以根据需要变化。例如，脂质颗粒可包含按组合物的摩尔或总重量计30％-70％的可电离脂质，按组合物的摩尔或总重量计0-60％的胆固醇，按组合物的摩尔或总重量计0-30％的非阳离子脂质和按组合物的摩尔或总重量计1％-10％的缀合脂质。优选地，组合物包含按组合物的摩尔或总重量计30％-40％的可电离脂质，按组合物的摩尔或总重量计40％-50％的胆固醇，和按组合物的摩尔或总重量计10％-20％的非阳离子脂质。在一些其他实施例中，该组合物是按组合物的摩尔或总重量计50％-75％的可电离脂质，按组合物的摩尔或总重量计20％-40％的胆固醇和按组合物的摩尔或总重量计5％至10％的非阳离子脂质以及按组合物的摩尔或总重量计1％-10％的缀合脂质。该组合物可以含有按组合物的摩尔或总重量计60％-70％的可电离脂质，按组合物的摩尔或总重量计25％-35％的胆固醇，以及按组合物的摩尔或总重量计5％-10％的非阳离子脂质。该组合物还可含有按组合物的摩尔或总重量计至多90％的可电离脂质和按组合物的摩尔或总重量计2％至15％的非阳离子脂质。配制品也可以是脂质纳米颗粒配制品，例如包含按组合物的摩尔或总重量计8％-30％的可电离脂质，按组合物的摩尔或总重量计5％-30％的非阳离子脂质，以及按组合物的摩尔或总重量计0-20％的胆固醇；按组合物的摩尔或总重量计4％-25％的可电离脂质，按组合物的摩尔或总重量计4％-25％的非阳离子脂质，按组合物的摩尔或总重量计2％至25％的胆固醇，按组合物的摩尔或总重量计10％至35％的缀合脂质，以及按组合物的摩尔或总重量计5％的胆固醇；或按组合物的摩尔或总重量计2％-30％的可电离脂质，按组合物的摩尔或总重量计2％-30％的非阳离子脂质，按组合物的摩尔或总重量计1％至15％的胆固醇，按组合物的摩尔或总重量计2％至35％的缀合脂质，以及按组合物的摩尔或总重量计1％-20％的胆固醇；或按组合物的摩尔或总重量计甚至高达90％的可电离脂质和按组合物的摩尔或总重量计2％-10％的非阳离子脂质，或按组合物的摩尔或总重量计甚至100％的阳离子脂质。在一些实施例中，脂质颗粒配制品包含摩尔比为50:10:38.5:1.5的可电离脂质、磷脂、胆固醇和聚乙二醇化脂质。在一些其他实施例中，脂质颗粒配制品包含摩尔比为60:38.5:1.5的可电离脂质、胆固醇和聚乙二醇化脂质。

在一些实施例中，脂质颗粒包含可电离脂质、非阳离子脂质(例如磷脂)、固醇(例如胆固醇)和聚乙二醇化脂质，其中可电离脂质的脂质摩尔比在20至70摩尔％的范围内，目标为40-60，非阳离子脂质的摩尔百分比在0至30的范围内，目标为0至15，固醇的摩尔百分比在20至70的范围内，目标为30至50，并且聚乙二醇化脂质的摩尔百分比在1至6的范围内，目标为2至5。

在一些实施例中，脂质颗粒包含摩尔比为50:10:38.5:1.5的可电离脂质/非阳离子脂质/固醇/缀合脂质。

在一个方面，本披露提供了包含磷脂、卵磷脂、磷脂酰胆碱和磷脂酰乙醇胺的脂质纳米颗粒配制品。

在一些实施例中，还可以包括一种或多种另外的化合物。那些化合物可以单独施用，或者另外的化合物可以包括在本发明的脂质纳米颗粒中。换言之，除核酸或至少第二核酸之外，脂质纳米颗粒可含有不同于第一核酸的其他化合物。非限制性地，其他另外的化合物可以选自由以下组成的组：小的或大的有机分子或无机分子、单糖、二糖、三糖、寡糖、多糖、肽、蛋白质、其肽类似物和衍生物、肽模拟物、核酸、核酸类似物和衍生物、由生物材料制成的提取物，或其任何组合。

在一些实施例中，脂质纳米颗粒(或包含脂质纳米颗粒的配制品)缺乏反应性杂质(例如，醛或酮)，或包含低于预选水平的反应性杂质(例如，醛或酮)。虽然不希望受理论约束，但在一些实施例中，脂质试剂用于制备脂质纳米颗粒配制品，并且脂质试剂可包含污染性反应性杂质(例如，醛或酮)。可以基于具有低于预选水平的反应性杂质(例如，醛或酮)来选择用于制造的脂质试剂。在不希望受理论约束的情况下，在一些实施例中，醛可引起RNA的修饰和损伤，例如，碱基之间的交联和/或脂质与RNA的共价缀合(例如，形成脂质-RNA加合物)。在一些情况下，这可能导致逆转录酶反应失败和/或例如在一个或多个病变的一个或多个位点掺入不适当的碱基，例如新合成的靶DNA中的突变。

在一些实施例中，脂质纳米颗粒配制品使用包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的总反应性杂质(例如醛)含量的脂质试剂产生。在一些实施例中，脂质纳米颗粒配制品使用包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的任何单一反应性杂质(例如醛)种类的脂质试剂产生。在一些实施例中，脂质纳米颗粒配制品使用脂质试剂产生，该脂质试剂包含：(i)小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的总反应性杂质(例如醛)含量；和(ii)小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的任何单一反应性杂质(例如醛)种类。在一些实施例中，脂质纳米颗粒配制品使用多种脂质试剂产生，并且多种脂质试剂中的每一种独立地满足本段落中所述的一个或多个标准。在一些实施例中，多种脂质试剂中的每一种满足相同的标准，例如本段落的标准。

在一些实施例中，脂质纳米颗粒配制品包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的总反应性杂质(例如醛)含量。在一些实施例中，脂质纳米颗粒配制品包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的任何单一反应性杂质(例如醛)种类。在一些实施例中，脂质纳米颗粒配制品包含：(i)小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的总反应性杂质(例如醛)含量；和(ii)小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的任何单一反应性杂质(例如醛)种类。

在一些实施例中，用于如本文所述的脂质纳米颗粒或其配制品的一种或多种或任选地所有脂质试剂包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的总反应性杂质(例如醛)含量。在一些实施例中，用于如本文所述的脂质纳米颗粒或其配制品的一种或多种或任选地所有脂质试剂包含小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的任何单一反应性杂质(例如醛)种类。在一些实施例中，用于本文所述的脂质纳米颗粒或其配制品的一种或多种或任选地所有脂质试剂包含：(i)小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的总反应性杂质(例如醛)含量；和(ii)小于5％、4％、3％、2％、1％、0.9％、0.8％、0.7％、0.6％、0.5％、0.4％、0.3％、0.2％或0.1％的任何单一反应性杂质(例如醛)种类。

在一些实施例中，总醛含量和/或任何单一反应性杂质(例如醛)种类的量通过液相色谱法(LC)，例如与串联质谱法(MS/MS)联用，例如根据实例40中所述的方法来测定。在一些实施例中，反应性杂质(例如醛)含量和/或反应性杂质(例如醛)种类的量通过检测与例如脂质试剂中反应性杂质(例如醛)的存在相关的核酸分子(例如RNA分子，例如如本文所述)的一个或多个化学修饰来确定。在一些实施例中，反应性杂质(例如醛)含量和/或反应性杂质(例如醛)种类的量通过检测例如脂质试剂中与反应性杂质(例如醛)的存在相关联的核苷酸或核苷(例如核糖核苷酸或核糖核苷，例如包含在如本文所述的模板核酸中或从其分离)的一个或多个化学修饰来确定，例如，如实例41中所述。在实施例中，核酸分子、核苷酸或核苷的化学修饰通过测定一个或多个修饰的核苷酸或核苷的存在来检测，例如使用LC-MS/MS分析，例如，如实例41中所述。

在一些实施例中，本文所述的核酸(例如，RNA)(例如，模板核酸或编码GeneWriter的核酸)不包含醛修饰，或包含少于预选量的醛修饰。在一些实施例中，平均每1000个核苷酸，核酸具有少于50、20、10、5、2或1个醛修饰，例如，其中两个核苷酸的单个交联是单个醛修饰。在一些实施例中，醛修饰是RNA加合物(例如脂质-RNA加合物)。在一些实施例中，醛修饰的核苷酸是碱基之间的交联。在一些实施例中，本文所述的核酸(例如RNA)在核苷酸之间包含少于50、20、10、5、2或1个交联。

在一些实施例中，通过添加靶向结构域将LNP定向至特定组织。例如，可以将生物配体展示在LNP的表面，以增强与展示同源受体的细胞的相互作用，从而推动与细胞表达受体的组织的相关联和向其中的载物递送。在一些实施例中，生物配体可以是驱动递送至肝脏的配体，例如展示GalNAc的LNP促使核酸载物递送至展示无唾液酸糖蛋白受体(ASGPR)的肝细胞。Akinc等人Mol Ther[分子治疗]18(7):1357-1364(2010)的工作传授了将三价GalNAc配体与PEG-脂质缀合(GalNAc-PEG-DSG)以产生依赖于ASGPR的LNP以获得可观察的LNP载物效应(参见，例如，图6)。其他展示配体的LNP配制品，例如掺入叶酸、转铁蛋白或抗体的配制品，在WO 2017223135中进行了讨论，其通过引用以其全文并入本文，此外还有在其中使用的参考文献也并入本文：即，Kolhatkar等人,Curr Drug Discov Technol[当代药物发现技术].2011 8:197-206；Musacchio和Torchilin,Front Biosci.[生物科学前沿]2011 16:1388-1412；Yu等人,Mol Membr Biol.[分子膜生物学]201027:286-298；Patil等人,Crit Rev Ther Drug Carrier Syst[治疗性药物载剂系统的重要评论].2008 25:1-61；Benoit等人,Biomacromolecules[生物大分子].2011 12:2708-2714；Zhao等人,ExpertOpin Drug Deliv[药物递送专家观点].2008 5:309-319；Akinc等人,Mol Ther[分子治疗].2010 18:1357-1364；Srinivasan等人,Methods Mol Biol[分子生物学方法].2012820:105-116；Ben-Arie等人,Methods Mol Biol[分子生物学方法].2012 757:497-507；Peer 2010 J Control Release[控释杂志].20:63-68；Peer等人,Proc Natl Acad Sci US A.[美国国家科学院院刊]2007 104:4095-4100；Kim等人,Methods Mol Biol.[分子生物学方法]2011 721:339-353；Subramanya等人,Mol Ther[分子治疗].2010 18:2028-2037；Song等人,Nat Biotechnol.[自然生物技术]2005 23:709-717；Peer等人,Science[科学].2008 319:627-630；以及Peer和Lieberman,Gene Ther[基因疗法].2011 18:1127-1133。

在一些实施例中，通过将选择性器官靶向(Selective ORgan Targeting，SORT)分子添加至包含传统组分(例如可电离的阳离子脂质、两亲性磷脂、胆固醇和聚(乙二醇)(PEG))的配制品中来针对组织特异性活性对LNP进行选择。Cheng等人Nat Nanotechnol[自然纳米技术]15(4):313-320(2020)的传授内容证明，添加补充的“SORT”组分可根据SORT分子的百分比和生物物理特性精确地改变体内RNA递送谱并介导组织特异性(例如，肺、肝脏、脾脏)基因递送和编辑。

在一些实施例中，LNP包含生物可降解的可电离脂质。在一些实施例中，LNP包含(9Z,l2Z)-3-((4,4-双(辛氧基)丁酰基)氧基)-2-((((3-(二乙基氨基)丙氧基)羰基)氧基)甲基)丙基十八碳-9,l2-二烯酸酯，也称为3-((4,4-双(辛氧基)丁酰基)氧基)-2-((((3-(二乙基氨基)丙氧基)羰基)氧基)甲基)丙基(9Z,l2Z)-十八碳-9,l2-二烯酸酯)或另一种可电离脂质。参见，例如WO 2019/067992、WO/2017/173054、WO 2015/095340和WO 2014/136086，以及其中提供的参考文献的脂质。在一些实施例中，在LNP脂质的上下文中术语阳离子和可电离是可互换的，例如，其中可电离脂质根据pH是阳离子的。

在一些实施例中，可以将Gene Writer系统的多个组分制备为单一LNP配制品，例如，LNP配制品包含编码Gene Writer多肽的mRNA和RNA模板。可以改变核酸组分的比率以便最大化治疗剂的特性。在一些实施例中，RNA模板与编码Gene Writer多肽的mRNA的比率为按摩尔比计约1:1至100:1，例如约1:1至20:1、约20:1至40:1、约40:1至60:1、约60:1至80:1、或约80:1至100:1。在其他实施例中，可以由单独的配制品制备多种核酸的系统，例如，包含模板RNA的一种LNP配制品和包含编码Gene Writer多肽的mRNA的第二LNP配制品。在一些实施例中，该系统可以包含配制到LNP中的多于两种核酸组分。在一些实施例中，该系统可以包含蛋白质(例如，Gene Writer多肽)以及配制到至少一种LNP配制品中的模板RNA。

在一些实施例中，LNP配制品的平均LNP直径可以在数十nm和数百nm之间，例如通过动态光散射(DLS)测量的。在一些实施例中，LNP配制品的平均LNP直径可以为约40nm至约150nm，诸如约40nm、45nm、50nm、55nm、60nm、65nm、70nm、75nm、80nm、85nm、90nm、95nm、100nm、105nm、110nm、115nm、120nm、125nm、130nm、135nm、140nm、145nm或150nm。在一些实施例中，LNP配制品的平均LNP直径可为约50nm至约100nm、约50nm至约90nm、约50nm至约80nm、约50nm至约70nm、约50nm至约60nm、约60nm至约100nm、约60nm至约90nm、约60nm至约80nm、约60nm至约70nm、约70nm至约100nm、约70nm至约90nm、约70nm至约80nm、约80nm至约100nm、约80nm至约90nm或约90nm至约100nm。在一些实施例中，LNP配制品的平均LNP直径可为约70nm至约100nm。在特定实施例中，LNP配制品的平均LNP直径可为约80nm。在一些实施例中，LNP配制品的平均LNP直径可为约100nm。在一些实施例中，LNP配制品的平均LNP直径范围为约l mm至约500mm、约5mm至约200mm、约10mm至约100mm、约20mm至约80mm、约25mm至约60mm、约30mm至约55mm、约35mm至约50mm、或约38mm至约42mm。

在一些情况下，LNP可以是相对均质的。多分散性指数可用于指示LNP的均质性，例如脂质纳米颗粒的粒度分布。小的(例如，小于0.3)多分散性指数通常指示窄的粒度分布。LNP的多分散性指数可为约0至约0.25，诸如0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、0.10、0.11、0.12、0.13、0.14、0.15、0.16、0.17、0.18、0.19、0.20、0.21、0.22、0.23、0.24或0.25。在一些实施例中，LNP的多分散性指数可为约0.10至约0.20。

LNP的ζ电位可用于指示组合物的电动电位。在一些实施例中，ζ电位可以描述LNP的表面电荷。具有相对低电荷(正电荷或负电荷)的脂质纳米颗粒通常是期望的，因为更高电荷的物质可能不理想地与体内的细胞、组织和其他元素相互作用。在一些实施例中，LNP的ζ电位可为约-10mV至约+20mV、约-10mV至约+15mV、约-10mV至约+10mV、约-10mV至约+5mV、约-10mV至约0mV、约-10mV至约-5mV、约-5mV至约+20mV、约-5mV至约+15mV、约-5mV至约+10mV、约-5mV至约+5mV、约-5mV至约0mV、约0mV至约+20mV、约0mV至约+15mV、约0mV至约+10mV、约0mV至约+5mV、约+5mV至约+20mV、约+5mV至约+15mV或约+5mV至约+10mV。

蛋白质和/或核酸(例如，Gene Writer多肽或编码该多肽的mRNA)的包封效率描述了相对于所提供的初始量，在制备后被包封或以其他方式与LNP相关联的蛋白质和/或核酸的量。包封效率理想的是较高(例如，接近100％)。包封效率可以例如通过比较在用一种或多种有机溶剂或洗涤剂破碎脂质纳米颗粒之前和之后含有脂质纳米颗粒的溶液中蛋白质或核酸的量来测量。阴离子交换树脂可用于测量溶液中游离蛋白质或核酸(例如RNA)的量。荧光可用于测量溶液中游离蛋白质和/或核酸(例如RNA)的量。对于本文所述的脂质纳米颗粒，蛋白质和/或核酸的包封效率可以是至少50％，例如50％、55％、60％、65％、70％、75％、80％、85％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％或100％。在一些实施例中，包封效率可以是至少80％。在一些实施例中，包封效率可以是至少90％。在一些实施例中，包封效率可以是至少95％。

LNP可以任选地包含一层或多层包衣。在一些实施例中，LNP可以配制在具有包衣的胶囊、膜或片剂中。包含本文所述的组合物的胶囊、膜或片剂可具有任何可用的尺寸、拉伸强度、硬度或密度。

另外的示例性脂质、配制品、方法和LNP表征由WO 2020061457传授，其通过引用以其全文并入本文。

在一些实施例中，使用Lipofectamine MessengerMax(赛默飞世尔(ThermoFisher))或TransIT-mRNA转染试剂(米卢斯生物(Mirus Bio))进行体外或离体细胞脂质转染。在某些实施例中，使用GenVoy_ILM可电离脂质混合物(精密纳米系统(PrecisionNanoSystems))配制LNP。在某些实施例中，使用2,2‐二亚油烯基‐4‐二甲基氨基乙基‐[1,3]‐二氧戊环(DLin‐KC2‐DMA)或二亚油烯基甲基‐4‐二甲基氨基丁酸酯(DLin-MC3-DMA或MC3)配制LNP，其配制和体内用途在Jayaraman等人Angew Chem Int Ed Engl[德国应用化学]51(34):8529-8533(2012)中传授，其通过引用以其全文并入本文。

优化用于递送CRISPR-Cas系统(例如Cas9-gRNA RNP、gRNA、Cas9 mRNA)的LNP配制品在两者均通过引用并入的WO 2019067992和WO 2019067910中描述。

可用于递送核酸的另外的特定LNP配制品在两者均通过引用并入的US 8158601和US 8168775中描述，其包括帕替西兰(patisiran)中使用的以名称ONPATTRO销售的配制品。

Gene Writer LNP的示例性给药可包括约0.1、0.25、0.3、0.5、1、2、3、4、5、6、8、10或100mg/kg(RNA)。包含编码系统的一种或多种组分的核酸的AAV的示例性给药可包括约10¹¹、10¹²、10¹³和10¹⁴vg/kg的MOI。

所有的公开物、专利申请、专利、以及本文引用的其他公开物和参考文献(例如，序列数据库参考号)通过引用以其全文并入本文。例如，本文提及的所有GenBank、Unigene和Entrez序列(例如，在本文的任一表中)均通过引用而结合。除非另有说明，本文中指定的序列登录号，包括本文任何表中的序列登录号，均指截至2020年3月4日的当前数据库条目。当一个基因或蛋白质参考多个序列登录号时，涵盖所有的序列变体。

实例

本发明进一步通过以下实例说明。提供这些实例仅出于说明目的，而不应以任何方式解释为限制本发明的范围或内容。

实例1：Gene Writer^TM使基因组DNA中的核苷酸取代能够校正人细胞中α-1抗胰蛋白酶缺乏症突变

该实例描述了使用Gene Writer^TM基因编辑系统在单个核苷酸处改变基因组序列。

在该实例中，Gene Writer^TM多肽和书写模板作为转染入HEK293T细胞(其具有PiZ基因型(E342K)，一种与α-1抗胰蛋白酶缺乏症相关的常见等位基因)的DNA提供。GeneWriter^TM多肽使用Cas9切口酶来实现DNA结合和核酸内切酶功能。writing模板被设计为与靶序列具有同源性，同时在所期望位置处掺入另外的核苷酸，这样模板RNA的逆转录导致产生包含取代的新DNA链。

为了在受影响的人SERPINA1基因中产生颠换(这恢复健康患者中编码谷氨酸的GAG三联体)，将Gene Writer^TM多肽与特定模板核酸一起使用，该模板核酸编码用于多肽结合的gRNA支架、用于多肽归巢的间隔子、用于建立TPRT的靶同源结构域和用于逆转录的模板序列(其包括需要的取代)。示例性模板RNA携带序列(1)TCCCCTCCAGGCCGTGCATA(2)GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCC(3)TcGTCGATGGTCAGCACAGCCTTAT(4)GCACGGCCTGGA(SEQ IDNO:1607)，其中数字用于按顺序(5'-3')描绘模板的模块(1)gRNA间隔子，(2)gRNA支架，(3)异源对象序列，(4)3'同源引发结构域，小写字母“c”表示模板中携带待写入靶位点以校正E342K突变的核苷酸取代的位置。如本系统的实施例中所述的用于提供第二切口的示例性gRNA包含间隔子序列TTTGTTGAACTTGACCTCGG(SEQ ID NO:1608)并引导Cas9切口酶对同源区域内的靶位点的第二链进行切口。在一些实施例中，该第二切口改善了编辑的效率。

转染后，将细胞孵育三天，以允许Gene Writing^TM系统的表达和基因组DNA靶标的转变，并从细胞中提取基因组DNA。然后使用位点特异性引物对基因组DNA进行基于PCR的扩增，并根据制造商的方案在Illumina MiSeq上对扩增子进行测序。然后进行序列分析以确定包含所期望的编辑的读段的频率。

实例2：Gene Writer^TM能在基因组DNA中进行短插入以校正CFTR

该实例描述了使用Gene Writer^TM基因编辑系统通过插入一短串核苷酸来改变基因组序列。

在该实例中，Gene Writer^TM多肽和writing模板作为转染入具有CFTRδ-F508突变(与囊性纤维化相关的常见等位基因)的HEK293T细胞中的DNA提供。Gene Writer^TM多肽使用Cas9切口酶来实现DNA结合和核酸内切酶功能。writing模板被设计为与靶序列具有同源性，同时在所期望位置处掺入另外的核苷酸，这样模板RNA的逆转录导致产生包含短插入的新DNA链。

为了在受影响的人CFTR基因座中创建短插入(这恢复健康患者中编码苯丙氨酸的TTT三联体)，将Gene Writer^TM多肽与特定模板一起使用，该模板编码用于多肽归巢的间隔子、用于建立TPRT的靶同源结构域和用于逆转录的模板序列(其包括3-nt插入)。

转染后，将细胞孵育三天，以允许Gene Writing^TM系统的表达和基因组DNA靶标的转变。孵育期后，从细胞中提取基因组DNA。然后使用位点特异性引物对基因组DNA进行基于PCR的扩增，并根据制造商的方案在Illumina MiSeq上对扩增子进行测序。然后进行序列分析以确定包含所期望的编辑的读段的频率。

实例3：Gene Writer^TM能缺失基因组DNA以校正进行性假肥大性肌营养不良(DMD)

该实例描述了使用Gene Writer^TM基因编辑系统通过缺失核苷酸来改变基因组序列。

在DMD患者中发现的最常见突变之一是消除肌营养不良蛋白的棒结构域中的外显子50的缺失，这使外显子51脱离了具有前面外显子的框架。这种突变导致产生截短的肌营养不良蛋白，从而导致疾病的病理影响。为了改善疾病(79个总外显子的其余部分)，剪接受体位点从外显子51中缺失，导致全长蛋白质的恢复，这种方法称为外显子跳跃。

在本实施例中，Gene Writer^TM多肽和书写模板作为核转染到细胞中的RNA提供，这些细胞含有外显子50中的缺失，导致截短的肌营养不良蛋白产物，如上所述。靶细胞要么是源自患者的含有突变的iPSC，要么是使用CRISPR-Cas合成地工程化以产生缺失。GeneWriter^TM多肽使用Cas9切口酶来实现DNA结合和核酸内切酶功能。书写模板被设计为与靶序列具有同源性，同时在所期望位置处掺入缺失，这样模板RNA的逆转录导致产生缺乏缺失的核苷酸的新DNA链。

为产生去除外显子51 5’剪接受体位点的短缺失，将Gene Writer^TM多肽与以下一起使用：编码用于多肽归巢的间隔子的特定模板、用于建立TPRT的靶同源结构域和用于逆转录的模板序列(其包括Gene Writer^TM多肽诱导的切口(其包括剪接受体位点)近端的5-nt缺失。

转染后，将细胞孵育三天，以允许Gene Writing^TM系统的表达和基因组DNA靶标的转变。孵育期后，从细胞中提取基因组DNA。然后使用位点特异性引物对基因组DNA进行基于PCR的扩增，并根据制造商的方案在Illumina MiSeq上对扩增子进行测序。然后进行序列分析以确定包含所期望的编辑的读段的频率。通过蛋白质印迹进行的蛋白质分析用于进一步确认与在未编辑的细胞中产生的截短的肌营养不良蛋白相比恢复的肌营养不良蛋白的表达。

实例4：Gene Writer^TM实现在基因组DNA中的大插入

该实例描述了使用Gene Writer^TM基因编辑系统通过插入一大串核苷酸来改变基因组序列。

在该实例中，Gene Writer^TM多肽、gRNA和writing模板作为转染到HEK293T细胞中的DNA提供。Gene Writer^TM多肽使用Cas9切口酶来实现DNA结合和核酸内切酶功能。逆转录酶功能衍生自R2逆转录转座酶的高持续合成能力RT结构域。writing模板被设计为与靶序列具有同源性，同时在所期望位置并入遗传载荷，这样模板RNA的逆转录导致产生包含所期望插入的新DNA链。

为了在人HEK293T细胞DNA中产生大插入，Gene Writer^TM多肽与特定gRNA(其将含有Cas9的Gene Writer^TM靶向靶基因座)和用于逆转录的模板RNA(其包含用于与逆转录酶相关联的RT结合基序(来自R2元件的3’UTR)、用于引发逆转录的靶位点同源区域和遗传载荷(GFP表达单元))联合使用。该复合物对靶位点进行切口，然后在模板上执行TPRT，通过使用模板上与紧邻切口位点的序列互补的引发区域来引发反应，并将GFP载荷复制到基因组DNA中。

实例5：Gene Writer^TM编辑不掺入来自模板RNA的结合序列

该实例描述了使用Gene Writer^TM基因编辑系统通过插入遗传载荷来改变基因组序列，而不会导致插入来自模板分子的另外序列。

在该实例中，Gene Writer^TM多肽和书写模板作为转染到HEK293T细胞中的DNA提供。Gene Writer^TM多肽使用Cas9切口酶来实现DNA结合和核酸内切酶功能。书写模板被设计为与靶序列具有同源性，同时在所期望位置并入遗传载荷(例如GFP基因表达单元)，这样模板RNA的逆转录导致产生包含所期望插入的新DNA链。

为了在不包含外来模板基序(例如蛋白质结合基序)的情况下完成遗传载荷的特异性插入，模板RNA分子的布局是这样的：使得蛋白质结合序列(例如UTR)位于将新载荷书写入基因组靶位点的同源序列末端。

实例6：在存在DNA修复抑制剂的情况下进行Gene Writer^TM基因组编辑

在该实例中，实验将通过应用DNA修复途径抑制剂或DNA修复途径缺陷细胞系来测试不同DNA修复途径对Gene Writing^TM的影响。当应用DNA修复途径抑制剂时，首先进行PrestoBlue细胞生存力测定，以确定抑制剂的毒性以及随后的测定是否应进行任何归一化。SCR7是NHEJ抑制剂，在Gene Writer^TM递送过程中以一系列稀释度应用。PARP蛋白是核酶，其作为同二聚体与单链和双链断裂结合。因此，其抑制剂可用于相关DNA修复途径的测试，包括同源重组修复途径和碱基切除修复途径。实验程序与SCR7的实验程序相同。具有核苷酸切除修复(NER)途径的核心蛋白缺陷的细胞系用于测试NER对Gene Writing^TM的影响。在将Gene Writer^TM系统递送到细胞中后，ddPCR用于在抑制DNA修复途径的情况下评估逆转录转座。还进行测序分析以评估某些DNA修复途径是否在整合连接的改变中起作用。在一些实施例中，进入基因组中的Gene Writing^TM不会因DNA修复途径的敲低而减少，这表明该系统不利用宿主细胞修复途径进行DNA整合。在一些实施例中，进入基因组中的GeneWriting^TM不会因DNA修复途径的敲低而减少超过50％，这表明该系统不依赖宿主细胞修复途径进行DNA整合。

实例7：显示蛋白质结构域模块化的内部Gene Writer缺失

该实例描述了保留功能并进一步证明DNA结合结构域的模块性的Gene Writer多肽中的缺失。

在本实例中，进行了一系列实验以测试各种突变逆转录转座酶的活性，并获得有关蛋白质模块性的结构知识。该实验测试了去除DNA结合结构域(DBD)中c-myb基序后的多肽段并用柔性接头替换它(图8a)。去除的多肽段被称为“天然接头”，因为它是DNA结合基序和RNA结合结构域之间的中间区域。去除的多肽区域跨以下：在位置A(c-myb基序后预测的随机卷曲)或位置B(含有部分c-myb基序预测的α螺旋的末端)任一个处的N末端侧，并且移除的区域在位置v1(预测的-1RNA结合基序之前的R2Tg的α螺旋区)或位置v2(预测的-1RNA结合基序之前的R2Tg的α螺旋区的C末端侧)结束。代替去除的多肽段，“天然接头”是两个接头(接头A，XTEN：SGSETPGTSESATPES(SEQ ID NO:1023)，和接头B，3GS：GGGS(SEQ ID NO:1024))中的一个。对于含不同去除区域(位置A-v1、位置A-v2、位置B-v1或位置B-v2)的这些突变逆转录转座酶中的每一个，它们通过对表达R2Tg的DNA质粒的PCR被替换为接头A或接头B，从而产生以下序列：c-mybA-v1替换为3GS接头(SEQ ID NO:1024)，c-mybA-v2替换为3GS接头(SEQ ID NO:1024)，c-mybA-v1替换为XTEN接头，c-mybA-v2替换用XTEN接头，c-mybB-v1替换为3GS接头(SEQ ID NO:1024)，c-mybB-v2替换为3GS接头(SEQ ID NO:1024)，c-mybB-v1替换为XTEN接头，c-mybB-v2替换为XTEN接头，如下表E1所示。通过桑格测序验证了接头的插入，并纯化了DNA质粒用于转染。

表E1.R2Tg突变体的氨基酸序列，其中接头代替了干预DNA结合结构域(DBD)和RNA结合结构域的“天然接头”区域。

N末端DNA结合结构域用斜体表示，连接到蛋白质其余部分的接头用粗体且下划线表示。

将HEK293T细胞铺板在96孔板中，并在37℃，5％CO2下生长过夜。用表达R2Tg(野生型)、R2核酸内切酶突变体和天然接头突变体的质粒转染HEK293T细胞。根据生产商的建议，使用Fugene HD转染试剂进行转染，其中每个孔接受80ng质粒DNA和0.5μL转染试剂。所有转染均一式两份进行，并在基因组DNA提取之前将细胞孵育72小时。

通过ddPCR测定法测量突变体的活性，该测定法通过测量3'连接扩增子的数量来量化R2Tg整合的拷贝数(图8b)。

在c-myb DNA结合基序(位置A，c-mybA)之后的随机卷曲之后开始的缺失具有与野生型R2Tg接近的对整合活性的良好耐受性。对于位置v1(-1RNA结合基序之前的α螺旋的N末端)或v2(-1RNA结合基序之前的α螺旋的C末端)，天然接头区域缺失终点几乎相同。对于从位置A开始并在位置v1或v2结束的缺失，用XTEN接头(SEQ ID NO:1023)替换该多肽段似乎保留了最大的活性，而用3GS接头(SEQ ID NO:1024)替换时整合活性减少了约50％。对于在位置B(c-mybB)开始的天然接头缺失，与野生型或位置A(c-mybA)相比，这些配置显示出整合活性的更显著降低。活性差异可能与基于缺失位点的蛋白质结构有关，该缺失通过该接头的位置、该接头的长度或该接头的氨基酸组合产生逆转录转座酶的非最佳三维结构，其不是连接位置B和位置v1或v2的最佳选择。即使N末端天然接头缺失起始位置mybB是次优的，缺失的C末端在v2处与3GS(SEQ ID NO:1024)或XTEN接头的耐受性最好，并似乎是在RBD-1区之前具有多肽的优先位置。

实例8：Gene Writer核酸内切酶结构域靶特异性的确定

该实例描述了在人细胞中使用定制的基因组着陆垫来确定靶切割和随后的GeneWriter系统整合是否有序列要求。

在该实例中，细胞系被创建为具有模拟rDNA区域(其包含R2逆转录转座酶靶向其进行逆转录转座的R2位置)的“着陆垫”或稳定整合(见图9)。整合子或着陆垫被设计成在rDNA中发现的R2位点内和周围具有野生型区域序列，在R2切割位点处和周围具有12-bp序列突变，或在R2切割位点处和周围具有75-bp序列突变(表E2)。这些不同着陆垫的DNA被化学合成并克隆到pLenti-N-tGFP载体中。将克隆到慢病毒表达载体中的着陆垫通过着陆垫的桑格测序进行确认和序列验证。根据制造商的说明，使用Lipofectamine2000^TM将经过序列验证的质粒(9μg)以及慢病毒包装混合物(9μg，获自Biosettia公司)转染到包装细胞系LentiX-293T(宝生物工程株式会社(Takara Bio))中。将转染的细胞在37℃、10％CO₂下孵育48小时(包括在24小时更换一次培养基)，然后从细胞培养皿中收集含有病毒颗粒的培养基。将收集的培养基通过0.2μm过滤器过滤以去除细胞碎片并准备转导U2OS细胞。将含有病毒的培养基在DMEM中稀释并与聚凝胺混合以制备用于转导U2OS细胞的稀释系列，其中聚凝胺的最终浓度为8μg/ml。U2OS细胞在含有病毒的培养基中生长48小时，然后用新鲜培养基分开。分裂的细胞生长至汇合，通过经由流式细胞术和ddPCR检测基因组整合的慢病毒(含有GFP和不同rDNA着陆垫(WT、12-bp突变或75-bp突变))的GFP表达来测量不同病毒稀释度的转导效率。选择来自1:10病毒培养基稀释液(>99％GFP+)的GFP阳性细胞系用于后续实验并冷冻保存。

为了测试R2切割位置内及其周围的突变是否会影响Gene Writer系统活性，将R2Tg Gene Writer驱动子与表达Gene Writer转基因分子的质粒一起电穿孔到不同的着陆垫细胞系中。为了测试切割位点内和周围的序列是否影响Gene Writer多肽序列整合活性，Gene Writer模板分子的同源臂被设计为对每个着陆垫的切割位置左侧具有100％同源的100bp(Gene Writer分子模块A)和右侧具有100％同源的100bp(Gene Writer分子模块F)。通过PCR引入对Gene Writer模板分子表达质粒的同源臂的变化，并通过桑格测序确认。用177ng的质粒(其表达与WT着陆垫、12-bp突变体着陆垫或75-bp突变体着陆垫有100％同源性的Gene Writer模板分子)使用核转染程序DN100将73ng WT R2Tg Gene Writer驱动子或核酸内切酶结构域突变体R2Tg Gene Writer驱动子表达质粒共核转染)到每个不同的U2OS着陆垫细胞系(WT、12-bp突变体或75-bp突变体)中。核转染后，将细胞在37℃、10％CO₂下培养3天，然后进行细胞裂解和基因组DNA提取。通过ddPCR测量提取的gDNA在着陆垫位点的Gene Writer模板分子整合。通过对从gDNA中发现的着陆垫产生的扩增子进行下一代序列分析，检测着陆垫处的插入、缺失和/或插入和缺失的组合，从而测量DNA切口活性。

当在12-bp或75-bp着陆垫细胞系中没有Gene Writer模板分子的整合的切割区域发生突变时，R2Tg Gene Writer的整合活性会大大降低(图10a)。此外，对于具有对应于12-bp或75-bp突变着陆垫的同源臂的Gene Writer模板分子，未检测到整合。为了排除丢失的整合活性是由于不相容的同源臂，通过着陆垫的NGS分析测量DNA切口活性。切口活性独立于Gene Writer模板分子，因为WT R2Tg Gene Writer驱动子在WT着陆垫处具有与WT、12-bp突变体或75-bp突变体Gene Writer模板分子相当的插入缺失(图10b)。12-bp和75-bp着陆垫(不论与WT R2Tg Gene Writer共核转染的Gene Writer模板分子)均未显示任何高于背景的包含插入缺失的读段。插入缺失的水平类似于包含核酸内切酶突变的Gene Writer模板驱动子。

表E2：示例性着陆垫

在一些实施例中，Gene Writer源自在核酸内切酶结构域中具有某种水平的靶序列特异性的逆转录转座酶。因此，可能期望将Gene Writer重新靶向到基因组中与被称为核酸内切酶识别基序(ERM)的核酸内切酶结构域识别的天然靶序列具有同源性的位置。在一些实施例中，该亚靶序列可以包含在切口位点周围的区域中。在具体实施例中，基于R2元件的切口位点(例如R2Tg)的13nt序列(TAAGGTAGCCAAA(SEQ ID NO:1657))用于在人基因组中搜索合适位置以使Gene Writer重新靶向，其中异源DNA结合结构域被设计为使GeneWriter定位至内源ERM，从而引导核酸内切酶活性和随后的模板RNA逆转录转座。在一些实施例中，人基因组位点与13nt基序中的至少1、2、3、4、5、6、7、8、9、10、11、12或13个核苷酸具有100％同一性。在进一步的实施例中，包含ERM的人基因组位点选自表E3，并且DNA结合结构域(例如ZF、TAL或dCas9)与定制gRNA的融合物被设计用于将多肽定位到位点(例如，见实例9)。在优选的实施例中，基因组位点具有至少5、6、7、8的安全港得分，如Pellenz等人HumGene Ther[人基因疗法]30,814-282(2019)中定义并显示在表E3中。在一些实施例中，模板RNA(或编码模板RNA的DNA)被设计成使得同源臂与新靶标处预期切口位点周围的侧翼基因组序列相匹配。

表E3：人基因组位点与R2元件的切口位点周围的13nt段相匹配。

针对与完整的13nt匹配或12个连续核苷酸的100％同一性(“匹配”)搜索人基因组。为每个匹配提供染色体位置和起始和结束坐标。得分(“得分”)是评估每个位点的八个理想安全港特征的指标。

实例9：将Gene Writer重新靶向到基因组安全港站点

该实例描述了包含异源DNA结合结构域的Gene Writer，该异源DNA结合结构域将Gene Writer活性重定向到基因组安全港位点。

在该实例中，Gene Writer多肽序列被改变到其天然DNA结合结构域被替换、突变/失活和/或与另一个多肽序列连接，该另一个多肽序列可以将Gene Writer系统重新引导到另一个不是其内源性或天然结合位点的基因组位置。在一些情况下，将Gene Writer系统重新定向到非天然基因组位置的多肽序列也可以连接和/或插入Gene Writer多肽序列的任何模块。

在一些实施例中，用于将Gene Writer系统重定向到非天然基因组靶标的多肽序列编码：锌指、一系列相邻规则或不规则间隔的锌指、转录激活子样效应子(TALE)、一系列相邻规则或不规则间隔的转录激活子器样效应子(TALE)、Cas9、催化残基突变使双链DNA核酸内切酶活性失活的Cas9(称为无催化活性的Cas9(dCas9))、单个催化结构域中具有一个或多个点突变以使Cas9核酸内切酶只能切割双链DNA的一条链的Cas9(称为Cas9切口酶)(见图12)。

在一些实施例中，用于重新引导Gene Writer系统的多肽序列靶向基因组安全港位置(例如，人第19号染色体上的AAVS1位点)(Pellenz,S.,等人Human Gene Therapy[人类基因疗法],30(7),814-828,2019)，见图11和13。在进一步的实施例中，用于重新引导GeneWriter多肽序列的多肽序列与靶向基因组安全港位置的核酸一起使用(例如，无催化活性的Cas9的多肽序列与靶向第19号染色体上AAVS1位点的单指导RNA)。

表E4：重新靶向的Gene Writer构建体。所示实例是使用ZF或Cas9结构域将R2TgGene Writer多肽序列重新靶向到AAVS1位点。

实例10：Gene Writer中内源性核仁定位信号的失活

该实例描述了Gene Writer，其中内源性核仁定位信号已被灭活，以减少蛋白质对核仁的细胞内靶向。

在该实例中，逆转录转座酶的核仁定位信号(NoLS)是使用已发布的算法计算预测的，该算法是用定位到核小体的经过验证的蛋白质训练的(Scott,M.S.,等人,NucleicAcids Research[核酸研究],38(21),7388-7399(2010))。预测的NoLS序列基于氨基酸序列、氨基酸序列背景和预测的逆转录转座酶二级结构。鉴定的序列通常富含碱性氨基酸(Scott,M.S.,等人Nucleic Acids Research[核酸研究],38(21),7388-7399(2010))，当这些残基突变为简单的侧链非碱性氨基酸或从逆转录转座酶多肽链中移除时，则它可以防止定位到核仁(Yang,C.P.,等人,Journal of Biomedical Science[生物医学科学杂志],22(1),1-15.(2015),Martin,R.M.,等人,Nucleus[细胞核],6(4),314-325(2015))。在一些实施例中，NoLS序列位于逆转录酶聚合酶基序和限制酶样核酸内切酶基序之间的逆转录转座酶的氨基酸区域中。预测的NoLS区域含有赖氨酸、精氨酸、组氨酸和/或谷氨酰胺氨基酸，其中通过将这些残基中的一个或多个突变为丙氨酸氨基酸残基和/或将这些氨基酸中的一个或多个从逆转录酶的多肽链中移除而使核仁定位失活。在一些实施例中，在RLE上游发现的R2Tg的Gene Writer驱动子的氨基酸序列被突变，使得赖氨酸(K)取代丙氨酸(A)，例如，R2Tg的预测的NoLS(多肽序列的氨基酸1,128-1,154)(APTQKDKFPKPCNWRKNEFKKWTKLAS(SEQID NO:1681))在1、2、3、4、5、6或7个残基处突变，产生失活的NoLS

实例11：Gene Writer系统中第二链切口的应用

该实例描述了Gene Writer系统，其中逆转录转座与靶向的第二链切口活性配对，以提高整合事件的效率。第二链切口可以通过以下方式实现：(1)将Cas9切口酶融合到GeneWriter系统，其中该Gene Writer通过其核酸内切酶结构域(EN)引入一个切口，而融合的切口酶Cas9在DNA顶链和底链任一个上放置另一个切口(图7A)，或(2)Gene Writer系统，其中活性EN结构域引入切口，Cas9切口酶在DNA顶链和底链任一个上在Gene Writer诱导的切口的上游或下游引入第二切口(图7B)。

在该实例的第一部分，Cas9切口酶与Gene Writer蛋白融合(图7A)。Cas9通过gRNA靶向DNA序列。Gene Writer蛋白通过其EN结构域引入个DNA切口，并通过切口酶Cas9活性产生另外的切口。这个另外的切口可以靶向Gene Writer引入的切口周围的DNA的顶链或底链(图8A)。设计和测试的构建体包括(参见示意图图14A)：

·Cas9-N863A-R2tg(RBD*、RT、EN)

·Cas9-H840A-R2tg(RBD*、RT、EN)

·Cas9-D10A-R2tg(RBD*、RT、EN)

·dCas9-R2tg(RBD*、RT、EN)

DNA结合结构域是切口酶Cas9，它通过gRNA将Gene Writer分子引导至DNA靶标。这组Gene Writer构建体中的RNA结合结构域(RBD)通过点突变(RBD*)失活。作为插入的供体，其中R2Tg RNA结合结构域失活的构建体使用在其3’末端延伸的gRNA，以包括用于基因组修饰的供体序列(图14B)。这些修饰包括核苷酸取代、核苷酸缺失和核苷酸插入。在这第一组实验中，上述构建体-R2Tg(RBD*、RT、EN)和dCas9-R2Tg(RBD*、RT、EN)与靶向AAVS1基因座的3’延伸的gRNA模板的融合物通过使用程序DN100在SE缓冲液中进行核转染递送给U2OS细胞。所用的gRNA包括针对每个构建体的gRNA，它们靶向DNA的底链或顶链。核转染后，细胞在完全培养基中生长3天。在第3天收获gDNA，并进行扩增子测序，然后使用CRISPResso(插入缺失分析工具)进行计算分析。在递送dCas9-R2Tg(RBD*、RT、EN)后观察到3’延伸gRNA介导的插入、缺失或核苷酸取代，并在递送切口酶-Cas9-R2Tg(RBD*、RT、EN)构建体时观察到增加的频率。

在该实例的第二部分，Cas9切口酶与Gene Writer蛋白融合(图7A)。Cas9通过gRNA靶向DNA序列。Gene Writer蛋白通过其EN结构域引入个DNA切口，并通过切口酶Cas9活性产生另外的切口。这个另外的切口可以靶向Gene Writer引入的切口周围的DNA的顶链或底链(图7A)。与上面列出的构建体不同，R2Tg的RNA结合结构域是有活性的(图15A)，用于基因组修饰的模板是侧翼为UTR的转基因(图15B)。构建体包括(参见示意图图15A)：

·Cas9-N863A-R2tg(RBD、RT、EN)

·Cas9-H840A-R2tg(RBD、RT、EN)

·Cas9-D10A-R2tg(RBD、RT、EN)

·dCas9-R2tg(RBD、RT、EN)

UTR侧翼的转基因在切口位点需要同源臂。为了确定用于准确设计供体转基因DNA同源臂的切口位点，将上述构建体用脉冲代码DN100进行核转染到200k U2OS细胞中，其中gRNA靶向AAVS1基因座。核转染后，细胞在完全培养基中生长3天。在第3天收获gDNA，并进行扩增子测序，然后使用CRISPResso作为插入缺失分析工具进行计算分析。EN结构域的切口位点是从EN结构域在AAVS1位点产生的插入缺失鉴定。EN切口位点侧翼的100bp同源臂被设计并包含在转基因中。为了实现基因组修饰，将上面列出的Cas9-R2Tg融合构建体与靶向AAVS1基因座的顶链或底链的gRNA以及与先前确定的切口位点具有同源性的适当转基因一起核转染到U2OS细胞中。核转染后，细胞在完全培养基中生长3天。在第3天收获gDNA，并进行ddPCR以检测AAVS1位点的转基因整合。在递送dCas9-R2Tg(RBD、RT、EN)后观察到整合，并在递送切口酶-Cas9-R2Tg(RBD、RT、EN)构建体时观察到增加的频率。

在另一个实例中，Gene Writer蛋白通过其DNA结合结构域靶向DNA(图7B)。GeneWriter蛋白将在DNA链上引入DNA切口。此外，Cas9切口酶用于在DNA的顶链或底链上、第一切口的上游或下游产生第二切口。在该实例中，使用脉冲代码DN100将靶向AAVS1位点(图16A)和具有与AAVS1位点同源的UTR侧翼转基因(图16B)的Gene Writer质粒进行核转染到200k U2OS细胞中。以下Cas9构建体与Gene Writer质粒一起转染(图16C)：

·Cas9-N863A

·Cas9-H840A

·Cas9-D10A

·dCas9

所有Cas9构建体均与gRNA共核转染，gRNA靶向顶链或底链的由Gene Writer引入的切口的上游或下游的AAVS1基因座。核转染后，细胞在完全培养基中生长3天。在第3天收获gDNA，并进行ddPCR以检测AAVS1位点的转基因整合。在递送dCas9后观察到整合，并在递送切口酶-Cas9构建体时观察到增加的频率。

实例12：通过异源UTR改善Gene Writer多肽的表达

该实例描述了使用异源UTR来增强Gene Writer多肽的细胞内表达。

在该实例中，Gene Writer多肽由mRNA表达(图17)。在用于生产mRNA的质粒模板中，原初的逆转录转座子UTR被替换为针对蛋白质表达优化的UTR(C3 5’UTR和ORM 3’UTR(来自Asrani等人,RNA biology[RNA生物学]15,756-762(2018))或5’和3’UTR(来自Richte等人,Cell[细胞]168,1114-1125(2017)))。该质粒包括T7启动子，然后是5'UTR、逆转录转座子编码序列、3'UTR、3GS接头(SEQ ID NO:1024)、SV40核定位信号(NLS)、XTEN接头、HiBit序列和96-100个核苷酸长的聚(A)尾(SEQ ID NO:1683)。质粒通过酶促限制线性化(导致聚(A)尾下游的平末端或5'突出末端)并用于使用T7聚合酶(NEB)进行体外转录(IVT)。在IVT步骤之后，用DNA酶I(NEB)处理RNA。在缓冲液交换步骤之后，在GTP和SAM(NEB)存在下，使用牛痘加帽酶(NEB)和2'-O-甲基转移酶(NEB)进行酶促加帽反应。将加帽的RNA浓缩并进行缓冲液交换。使用Neon转染系统(每脉冲1150V，每脉冲20msec，10μL吸头中的2个脉冲，96孔格式)，在存在或不存在RNA模板的情况下以1:1摩尔比，用0.5μg Gene Writer mRNA转染50,000个HEK293T细胞。如实例14(用于基于RNA的递送的改善的Gene Writer组分)中所述，从质粒体外转录RNA模板。

转染后，HEK293T细胞生长5小时，然后通过使用标准方案https://www.promega.com/-/media/files/resources/protocols/technical-manuals/500/nano-glo-hibit-lytic-detection-system-technical-manual.pdf？la＝en探测其HiBit标签表达来测定Gene Writer表达。发现与使用来自R2Tg的天然UTR相比，使用来自C3-ORM的5'和3’UTR_exp可以大大改善蛋白质表达(图17)。在转染后3天使用3’ddPCR分析基因组整合(图18)。

实例13：用于混合的RNA和DNA递送的改善的Gene Writer组分

该实例描述了对编码Gene Writer多肽的RNA分子的改善，当与编码在质粒DNA上的Gene Writer模板一起使用时，这些改善可增强表达并提高逆转录转座效率。

在该实例中，Gene Writer^TM系统的多肽组分由实例12(通过异源UTR改善GeneWriter多肽的表达)中描述的mRNA表达。质粒模板的合成使得报告基因(eGFP)的侧翼是R2Tg非翻译区(UTR)和与其rDNA靶标同源的100bp。模板表达由哺乳动物CMV启动子驱动。我们使用

HD转染试剂将质粒引入HEK393T细胞。转染前24小时，将HEK293T细胞以10,000个细胞/孔接种在96孔板中。在转染当天，将0.5μl转染试剂和80ng DNA混合在10μlOpti-MEM中，并在室温孵育15分钟。然后将转染混合物添加到接种细胞的培养基中。使细胞脱离并使用Neon转染系统(每脉冲1150V，每脉冲20msec，10μL吸头中的2个脉冲，96孔格式)用于每孔电穿孔0.5μg mRNA。

用以下测试试剂转染HEK293T细胞：

1.编码上述多肽的mRNA

2.编码上述模板RNA的质粒

3.1和2的组合。如上所述，在转染mRNA前24小时对质粒进行预脂转染。

转染后，将HEK293T细胞培养1-3天，然后测定位点特异性基因组编辑。从每组HEK293细胞中分离基因组DNA。

执行ddPCR以确认整合并评估整合效率。Taqman探针和引物的设计如PCT/US2019/048607中所述，以跨整合连接的5'和3'末端扩增预期产物。ddPCR拷贝数分析的结果(与参考基因RPP30相比)显示在图19中。在mRNA和模板质粒存在的情况下，基因组整合在靶向3'连接时实现了0.683个整合子/基因组的平均拷贝数，在靶向5'连接点时实现了0.249个整合子/基因组的平均拷贝数。仅mRNA转染导致平均拷贝数为0.002个整合子/基因组，相比之下仅质粒转染为0.0004个整合子/基因组。

实例14：用于基于RNA的递送的改善的Gene Writer组分

该实例描述了对编码Gene Writer多肽的RNA分子的改善，当与Gene Writer RNA模板共同递送时，这些改善可增强表达并提高逆转录转座效率。

在该实例中，Gene Writer^TM系统的多肽组分由实例12(通过异源UTR改善GeneWriter多肽的表达)中描述的mRNA表达。用于RNA模板生产的质粒模板包括T7启动子，然后是表达IRES的报告基因(eGFP)，其侧翼是R2Tg非翻译区(UTR)和与其rDNA靶标同源的100bp。质粒模板通过酶促限制线性化(导致RNA模板序列下游的平末端或5'突出末端)并使用T7 RNA聚合酶(NEB)用于体外转录(IVT)。在IVT步骤之后，将RNA用DNA酶I(NEB)处理，或者被聚(A)聚合酶(NEB)酶促聚腺苷酸化或不被酶促聚腺苷酸化。在缓冲液交换步骤之后，在GTP和SAM(NEB)存在下，使用牛痘加帽酶(NEB)和2'-O-甲基转移酶(NEB)进行酶促加帽反应。将加帽的RNA浓缩并进行缓冲液交换。将50,000个HEK293T细胞与0.5至1μg的GeneWriter mRNA和RNA模板以1:4至1:12的摩尔比进行共转染。Neon转染系统用于RNA转染(每脉冲1150V，每脉冲20msec，10μL吸头中的2个脉冲，96孔格式)。

转染后，将HEK293T细胞培养至少1天，然后测定位点特异性基因组编辑。从每组HEK293细胞中分离基因组DNA。

执行ddPCR以确认整合并评估整合效率。Taqman探针和引物的设计如PCT/US2019/048607中所述，以跨整合连接的5'和3'末端扩增预期产物。当RNA模板被酶促多聚腺苷酸化时，在0.5μg mRNA和1:8摩尔比的Gene Writer mRNA比RNA模板存在下，可实现平均拷贝数为0.498个整合子/基因组，相比之下，而当RNA转基因未被聚腺苷酸化时，平均拷贝数为0.031个整合子/基因组。

实例15：递送含有内含子的基因货物的Gene Writer

该实例描述了使用Gene Writer系统通过使用基于RNA的递送整合包含内含子的基因货物以调整目的基因从其新引入的基因组位点的表达。

在该实例中，Gene writing技术使用RNA模板编码目的蛋白质，包括其天然或非天然内含子。例如，磷酸丙糖异构酶(TPI)基因的内含子6(Nott等人,2003)将用作这些实验中的非天然内含子之一。

据报道，基因的基因组拷贝中内含子的存在以及通过剪接去除它们会影响基因表达的几乎每个方面，包括其转录速率、mRNA加工、输出、细胞定位、翻译和衰变(综述于ShaulInternational Journal of Biochemistry and Cell Biology[国际生物化学与细胞生物学杂志]91B,145-155(2017))。内含子可以插入RNA模板的不同部分(图21)，并且根据内含子的位置，它们在基因表达中的作用可能不同。

5’UTR_exp中靠近转录起始位点的内含子引入了激活性染色质修饰(Bieberstein等人,Cell Reports[细胞通讯]2,62-68(2012))，改善了转录起始位点识别的准确性并且有利于PolII的招募(Laxa等人,Plant Physiology[植物生理学]172,313-327(2016))，增加了转录起始速率(Kwek等人,Nature Structural Biology[自然结构生物学]9,800-805(2002))和延伸速率(Lin等人,Nature Structural and Molecular Biology[自然结构和分子生物学]15,819-826(2008))，并改善了相对于反义取向的有义中富有成效的延伸(Almada等人,Nature[自然]499,360-363(2013))。

3’UTR_exp中的内含子将mRNA表达限制为一个蛋白质分子/mRNA：终止密码子下游剪接体留下的外显子连接复合物(EJC)被无义介导的衰变(NMD)机构识别，因此在首轮翻译结束时该mRNA被标记以缺失(Zhang等人.,RNA 4,801-815(1998))。

然而，在治疗性基因中使用内含子的能力可能会受到模板整合之前发生的剪接的限制。例如，当RNA模板被编码并递送到DNA质粒上时，正向取向的内含子会被剪接掉，因为相同方向的转录会产生模板RNA，该模板RNA在整合之前会被剪接，因此无法将内含子掺入基因组。此外，设计用于递送转基因的慢病毒构建体必须编码具有反向取向的内含子的序列，因为病毒包装过程会导致内含子剪接和包装的病毒颗粒中的内含子缺乏(Miller等人JVirol[病毒杂志]62,4337-45(1988))。然而，反向取向也被认为会导致病毒滴度和转导降低(Uchida等人,Nat Commun[自然通讯]10,4479(2019))。值得注意的是，由于Gene Writer模板可以通过体外转录生成并直接作为RNA递送，因此可以避免所期望内含子的整合前剪接问题。在一些实施例中，Gene Writer模板因此可以包含与转录本同义取向的一个或多个内含子，转录本由IVT产生并作为RNA递送至靶细胞。

图21中描述的任何位置的内含子将招募U1snRNP，其保护mRNA免受过早地切割和多聚腺苷酸化(Kaida等人,Nature[自然]468 664-681(2010)；Berg等人,Cell[细胞]150,53-64(2012))。此外，EJC与TREX(转录-输出)复合物的组分相互作用，并且与缺乏内含子的构建体相比使mRNA从细胞核到细胞质的输出速率提高了6-10倍(Valencia等人,PNAS[美国国家科学院院刊]105,3386-3391(2008))。还证明了聚嘧啶束结合蛋白(一种剪接调节蛋白)的结合介导了剪接的转录本的半衰期的显著增长(Lu&Cullen,RNA 9,618-630(2003)；Millevoi等人,Nucleic Acid Research[核酸研究]37,4672-4683(2009))。显示mRNA翻译的效率因SR蛋白(富含丝氨酸-精氨酸的蛋白，参与RNA剪接)(Sanford等人,Genes&Development[基因与发展]18,755-768(2004)；Sato等人,Molecular Cell[分子细胞]29,255-262(2008))和EJC蛋白及其外周因子(Nott等人,Genes&Development[基因与发展]18,210-222(2004))的存在而增加。

在该实例中，含有一个或多个内含子的模板RNA和Gene Writer多肽作为体外转录的加帽RNA被递送至细胞，如实例14(用于基于RNA的递送的改善的GeneWriter组分)中所述。转染后1到3天，测定GOI表达和基因组整合。在一些实施例中，对于含内含子的RNA模板而言的基因组整合和/或蛋白质表达将更高。

实例16：逆转录转座子5’UTR的工程化以改善整合效率

该实例描述了逆转录转座子的5'UTR的缺失、替换或突变以提高整合效率。

非LTR逆转录转座子的5’UTR区域具有多种功能，包括自切割核酶活性，其已在某些元件中表现出来，并在其他逆转录转座子中被预测(参见图27-28的模块B和C)(Ruminski等人J Biol Chem[生物化学杂志]286,41286-41295(2011))。预计核酶活性会在5'UTR内或上游切割RNA。增加或限制5'UTR的这种活性组分和结构组分可能有益于逆转录转座效率。图29提供了R2Tg的核酶结构的预测。

为了评估5'UTR的工程化，设计了构建体来增强或减少这些活性(图20)。在情况(A)中，R2Tg的自然5'UTR用于以反式整合，如之前的实验中一样。情况(B)说明了5'UTR的缺失。(C)和(D)表示来自原始物种的5'UTR(在这种情况下来自斑胸草雀的R2Tg)已被来自不同物种的逆转录转座子的5'UTR取代的情况。情况(C)提供了实例，其中来自A.maritima R2的5'UTR替代R2Tg的5'UTR。(D)代表来自其他物种的UTR(“Rx”)可以被取代的一般情况，例如来自家蚕、D.ananasse、地蜈蚣(F.auricularia)、美洲鲎(L.polyphemus)、格尔提金小峰(N.giraulti)或青鳉(O.latipes)，或来自选自本文的表或PCT/US 2019/048607(通过引用以其整体并入本文)的表1-3中的任一个的逆转录转座子。情况(E)表示核酶的取代，例如锤头状核酶，例如RiboJ(Lou等人Nat Biotechnol[自然生物技术]30,1137-1142(2012))。情况(F)表示R2Tg的5'UTR通过点突变失活，例如5'UTR中的75C>T(图20.B，阴影框指示的位置)。预计5'UTR序列对任何由逆转录转座子介导的插入序列都是模块化的。

每种情况都如先前实例中通过以下来评估：用模板质粒转染Gene Writer多肽质粒并且通过ddPCR评估整合频率。在一些实施例中，5'UTR的取代或突变导致整合效率增加。

实例17：修饰Gene Writer RNA组分的5'和3'末端以改善RNA稳定性

该实例描述了在RNA的5'和3'末端添加非编码序列以改善在哺乳动物细胞中的稳定性。

细胞中真核RNA的衰变主要由核糖核酸外切酶进行。在该实例中，通过在其5'和3'末端引入保护序列和/或修饰来延长RNA的半衰期。保护RNA末端最常见的自然方法是引入5'帽结构和3'聚(A)尾。在该实例中，Gene Writer^TM系统的多肽组分由实例12(通过异源UTR改善Gene Writer多肽的表达)中描述的mRNA表达。用于RNA模板生产的质粒模板包括T7启动子，然后是表达IRES的报告基因(eGFP)，其侧翼是R2Tg非翻译区(UTR)和与其rDNA靶标同源的100bp。质粒模板通过酶促限制线性化(导致RNA模板序列下游的平末端或5'突出末端)并使用T7聚合酶(NEB)用于体外转录(IVT)。在IVT步骤之后，将RNA用DNA酶I(NEB)处理，或者被聚(A)聚合酶(NEB)酶促聚腺苷酸化或不被酶促聚腺苷酸化。在缓冲液交换步骤之后，产生帽1结构的酶加帽反应按照实例14(用于基于RNA的递送的改善的Gene Writer组分)中的描述进行或不进行。将模板RNA浓缩并进行缓冲液交换。使用Neon转染系统(每脉冲1150V，每脉冲20msec，10μL吸头中的2个脉冲，96孔格式)，用0.5μg Gene Writer mRNA和RNA模板以1:1至1:8的摩尔比共转染50,000个HEK293T细胞。

执行ddPCR以确认整合并评估整合效率。Taqman探针和引物的设计如PCT/US2019/048607中所述，以跨整合连接的3'末端扩增预期产物。当使用酶促加帽和聚(A)加尾模板时，基因组整合得到改善(图22)。

与当RNA转基因未被酶促多腺苷酸化时的0.031个整合子/基因组相比，当RNA模板被酶促多腺苷酸化时在0.5μg mRNA和1:8摩尔比的mRNA:RNA模板存在下，实现平均拷贝数为0.498个整合子/基因组。

RNA的3'末端修饰。

据报道，短于15-20nt的聚(A)尾与聚(A)结合蛋白(PABP)之间的相互作用不稳定，导致RNA快速降解(Chang等人,Molecular Cell[分子细胞]53,1044-1052(2014)；Subtelny等人,Nature[自然]508,66-71(2014))。为了确定模板RNA的聚(A)尾的合适长度，我们将测试其30、40、50、60、70、80、90和100个核苷酸的长度。将使用编码上述长度的聚(A)尾的反向引物通过PCR产生IVT模板。Gene Writer和RNA模板的IVT、DNA酶I处理和加帽将如实例14(用于基于RNA的递送的改善的GeneWriter组分)中所述进行。转染后一到三天后，将测定基因组整合。在一些实施例中，带有合适长度的聚(A)尾的RNA模板的基因组整合将更高。

在细胞中，RNA降解是通过去腺苷酶缩短其聚(A)尾来启动的。由于去腺苷酶是有利于聚(A)延伸的3'-5'核糖核酸外切酶，因此提出许多mRNA的天然聚(A)尾中检测到的末端尿苷、胞苷和最常见的鸟嘌呤以保护聚(A)尾免受其缩短(Chang等人,Molecular Cell[分子细胞]53,1044-1052(2014))。我们将按照之前的描述测定Gene Writer和模板RNA，该模板RNA具有编码的聚(A)尾(其带有末端G或C，或间歇性G或C(与Lim等人,Science[科学]361,701-704(2018)所用的类似))。

一些RNA已被描述为进化出保护其3'末端的替代方法。据报道，特定的16个核苷酸长的茎环结构(两侧侧翼是未配对的5个核苷酸)可保护编码H2a.X组蛋白的mRNA的3’末端(Mannironi等人,Nucleic Acid Research[核酸研究]17,9113-9126(1989))。已经表明，以组蛋白茎环结构结尾的异源mRNA是受细胞周期调节的(Harris等人,Molecular CellularBiology[分子细胞生物学]11,2416-2424(1991)；Stauber等人,EMBO Journal[EMBO杂志]5,3297-3303(1986))。茎环结构被茎环结合蛋白(SLBP)识别和保护。蛋白质在细胞进入S期前不久积累，并在S期结束时迅速降解(Whifield等人,Molecular Cellular Biology[分子细胞生物学]20,4188-4198(2000))。茎环元件将被插入到Gene Writer mRNA和RNA模板的3'末端，并如上所述进行测试，以诱导细胞周期特异性基因组整合事件。

一些病毒和长链非编码RNA已经进化为用三螺旋结构保护它们的3'末端(Brown等人,PNAS[美国国家科学院院刊]109,19202-19207(2012))。此外，据报道，tRNA、Y RNA和vault RNA的结构元件(在Labno等人,Biochemica et Biophysica Acta[生物化学和生物物理学报]1863,3125-3147(2016)中进行了综述)延长这些非编码RNA的半衰期。我们将插入结构以保护RNA模板的3’末端，并如上所述在Gene Writing系统中探测它们的效率。

最后，我们将在RNA转基因的3’末端掺入dNTP、2'O-甲基化NTP或硫代磷酸酯-NTP，以通过保护RNA的3'端免受核糖核酸外切酶的影响来延长这些分子的半衰期。我们将通过DNA聚合酶(例如，Klenow片段)延伸RNA的3’末端来掺入单个经修饰的核苷酸或其段，该DNA聚合酶能够通过添加经修饰的核苷酸延伸RNA序列(Shcherbakova&Brenowitz,NatureProtocols[自然实验手册]3,288-302(2008))。

该RNA的3’末端的单核苷酸化学修饰可以通过首先用高碘酸钠氧化核糖的3’末端以形成反应性醛，然后再与醛反应性的经修饰核苷酸缀合来完成。

可替代地，T4 DNA或T4 RNA连接酶可用于将经修饰的核苷酸段夹板连接到RNA的3’末端(Moore&Query,Methods in Enzymology[酶学方法]317,109-123(2000))。

两个片段的化学连接也是可能的。两个RNA底物之间的磷酸二酯键连接可以通过使用反应性咪唑化物激活磷酸单酯基团或通过使用缩合试剂如溴化氰来形成。化学连接的缺点是它还可能导致产生2'-5'磷酸二酯连接以及所期望的3'-5'磷酸二酯连接。

RNA的5'末端修饰

除了实例14(用于基于RNA的递送的改善的Gene Writer组分)中描述的帽1结构之外，还将探索其他5'末端保护基团。特别地，我们将使用超甲基化的(Wurth等人NucleicAcid Res[核酸研究]42,8663-8677(2014))、硫代磷酸酯(Kuhn等人,Gene Therapy[基因疗法]17,961-971(2010))、NAD⁺-衍生的(Kiledjian,Trends in Cell Biology[细胞生物学趋势]28,454-464(2018))和经修饰的(例如，生物素化的：Bednarek等人,Phil Trans RSoc B[英国皇家学会哲学汇刊生命科学]373,20180167(2018))帽类似物用于共转录加帽。

我们还将用5’-[γ-硫代]三磷酸标记RNA的5’以产生反应性硫基团，并使用经修饰的基团的卤代乙酰胺衍生物通过保护性修饰对5'末端进行化学修饰。

提议的保护RNA的3'和5'末端的修饰将被引入RNA模板和/或Gene Writer mRNA(如果与翻译兼容)。RNA的基因组整合效率将如实例14(用于基于RNA的递送的改善的GeneWriter组分)中所述进行测试。

实例18：在Gene Writer系统中使用经修饰的RNA碱基

该实例描述了包含经修饰的RNA碱基的Gene Writer系统，以潜在地改善系统的特性，例如，提高整合效率，降低细胞对外源核酸的反应。对于Gene Writer多肽，与编码区有关的建议的修饰与翻译兼容。对于RNA模板，建议的修饰与逆转录兼容。

在本实例中，编码Gene Writer多肽的mRNA在体外转录，相应的rNTP被以下经修饰的rNTP中一种100％替代：假尿苷(Ψ)、1-N-甲基假尿苷(1-Me-Ψ)、5-甲氧基尿苷(5-MO-U)或5-甲基胞苷(5mC)。在其他方面，RNA制备、纯化和细胞转染如实例14(用于基于RNA的递送的改善的Gene Writer组分)中所述进行。使用ddPCR将经修饰的mRNA的基因整合能力与未修饰的mRNA(G0)的基因整合能力进行比较，所有多肽mRNA都与未修饰的模板RNA配对(图23)。当使用每个经修饰的rNTP编码多肽时检测到整合，最高信号来自5-MO-U，最低来自5mC。这表明当从含有经修饰的碱基的mRNA表达时，Gene Writer多肽组分是有功能的。

此外，该实例描述了Gene Writer模板分子的模块化，其中它由图6中所列并在图5中说明的示例性模块的全部或子集构成。单个模块可以通过化学或体外合成作为连续的核酸分子或以随后组合在一起的单独片段产生。Gene Writer模板分子的各个模块可以是化学修饰的核酸，部分或全部地由非核酸构成，按顺序重新排列，和/或省略以形成GeneWriter模板分子。

在一些实施例中，Gene Writer模板分子(所有模块，A-F)通过体外转录合成，其中相应的rNTP(腺苷、胞苷、鸟苷和/或尿苷)的0-100％替换为一个或多个经修饰的rNTP(碱基或核糖修饰)，例如5’羟基、5’磷酸酯、2’-O-甲基、2’-O-乙基、2’-氟、核糖胸核苷、C-5丙炔基-dC(pdC)、C-5-丙炔基-dU(pdU)、C-5-丙炔基-C(pC)、C-5-丙炔基-U(pU)、5-甲基C、5-甲基U、5-甲基dC、5-甲基dU甲氧基、(2,6-二氨基嘌呤)、5’-二甲氧三苯甲基-N4-乙基-2’-脱氧胞苷、C-5丙炔基-fC(pfC)、C-5丙炔基-fU(pfU)、5-甲基fC、5-甲基fU、C-5丙炔基-mC(pmC)、C-5丙炔基-fU(pmU)、5-甲基mC、5-甲基mU、LNA(锁核酸)、MGB(小沟结合物)假尿苷(Ψ)、1-N-甲基假尿苷(1-Me-Ψ)、5-甲氧尿苷(5-MO-U)。该实施例中的经修饰核苷酸依赖于通过转录反应的掺入，该转录反应利用RNA聚合酶的天然或突变多肽序列，该RNA聚合酶容易将经修饰的核苷酸掺入体外制备的RNA转录本中(Padilla,R.,Nucleic AcidsResearch[核酸研究],30(24),138e-138,2002；Ibach,J.,等人,Journal ofBiotechnology[生物技术杂志],167(3),287-295,2013；Meyer,A.J.,等人,Nucleic AcidsResearch[核酸研究],43(15),7480-7488,2015)。经修饰的Gene Writer模板分子通常与Gene Writer多肽序列的逆转录酶活性完全或部分兼容；对于用作逆转录模板的GeneWriter模板分子的模块或模块的部分，优选与逆转录兼容的修饰(Motorin等人,Methodsin Enzymology[酶学方法]425 21-53,2007；Mauger等人,PNAS[美国国家科学院院刊]116,24075-24083,2019)。如上文和实例14(用于基于RNA的递送的改善的Gene Writer组分)中所述测试具有包含经修饰的rNTP的模板分子的Gene Writer系统。

在一些实施例中，各个模块是化学合成的，含有经修饰的核苷酸，例如5’羟基、5’磷酸酯、2’-O-甲基、2’-O-乙基、2’-氟、核糖胸核苷、C-5丙炔基-dC(pdC)、C-5-丙炔基-dU(pdU)、C-5-丙炔基-C(pC)、C-5-丙炔基-U(pU)、5-甲基C、5-甲基U、5-甲基dC、5-甲基dU甲氧基、(2,6-二氨基嘌呤)、5’-二甲氧三苯甲基-N4-乙基-2’-脱氧胞苷、C-5丙炔基-fC(pfC)、C-5丙炔基-fU(pfU)、5-甲基fC、5-甲基fU、C-5丙炔基-mC(pmC)、C-5丙炔基-fU(pmU)、5-甲基mC、5-甲基mU、LNA(锁核酸)、MGB(小沟结合物)假尿苷(Ψ)、1-N-甲基假尿苷(1-Me-Ψ)、5-甲氧尿苷(5-MO-U)，其中各个模块通过酶促(例如，使用T4DNA连接酶的夹板连接,Moore,M.J.,&Query,C.C.Methods in Enzymology[酶学方法],317,109-123,2000)或化学过程(例如，Fedorova,O.A.,等人,Nucleosides and Nucleotides[核苷与核苷酸],15(6),1137-1147,1996)连接在一起以形成完整的Gene Writer模板分子。

经修饰的Gene Writer模板分子的实例是，模块A和F各为100nt的化学合成的RNA，其胞苷和尿苷核苷酸含有2′-O-甲基核糖修饰，并且模块A在5’末端前3个核苷酸之间含有(3)硫代磷酸酯连接，模块F在模块的3’末端最后3个核苷酸之间含有(3)硫代磷酸酯连接。模块B-E使用RNA聚合酶(RNAP)(例如T7 RNAP、T3 RNAP或SP6 RNAP(NEB))或其具有增强特性的衍生物(例如增加的保真度、增加的持续合成能力或增加掺入经修饰的核苷酸的效率)通过体外转录合成。模块A连接到体外转录的模块B-E分子的5′末端，模块F通过夹板连接来连接到体外转录的模块B-E分子的3′末端(描述于Moore,M.J.,&Query,C.C.Methods inEnzymology[酶学方法],317,109-123,2000中)。然后将这种完全组装的模板RNA(所有模块，A-F)与靶细胞中的Gene Writer多肽(或编码该多肽的核酸)一起使用，以如前面的实例中评估基因组整合。在一些实施例中，RNA修饰不会使整合效率降低大于50％，例如，如通过ddPCR测量的。在一些实施例中，RNA修饰改善整合效率，例如，如通过ddPCR测量的。在一些实施例中，RNA修饰改善了逆转录反应，例如，改善了通过整合事件的测序测量的持续合成能力或保真度。

实例19：不掺入UTR的Gene Writer模板

该实例描述了导致UTR排除的Gene Writer模板分子的配置，因此这些用于逆转录转座的区域不会整合到宿主细胞中。

在该实例中，我们描述了Gene Writer模板分子的UTR模块的定位、省略和/或取代(图5和6)，以导致Gene Writer驱动子不将UTR模块作为逆转录转座的一部分掺入基因组。在一些实施例中，用于5’和3’UTR(Gene Writer模板分子的模块B+C和E)的Gene Writer模板分子模块被移动到分子的末端，使得它们与Gene Writer驱动子相互作用的功能不会改变，但同源臂现在位于异源对象序列(模块D)附近，在此处同源臂的互补性充当逆转录的引物。在一些情况下，模块B和/或C从Gene Writer模板分子中省略，模块E在模块F之后。

不将UTR掺入到基因组中的其他实例是从Gene Writer模板分子中移除模块B和C，将模块F(3'同源臂)重新定位到模块D(异源对象序列)之后，并将模块E取代为结合配体，例如生物素。该Gene Writer模板分子现在将由模块A(5'同源臂)-模块D(异源对象序列)-模块F(3'同源臂)-由生物素构成的模块E组成。Gene Writer驱动子多肽序列将被修饰以掺入单体链霉抗生物素的氨基酸序列。该实例说明了介导非核酸介导的Gene Writer模板分子与Gene Writer驱动子多肽序列的关联的效用如何。

实例20：Gene Writer可以独立于同源定向修复途径整合基因货物

该实例描述了在同源重组修复途径被抑制的人细胞中使用Gene Writer系统。

在该实例中，用30pmol(1.5μM)非靶向对照siRNA(对照)或针对Rad51(同源重组修复途径的核心组分)的siRNA处理U2OS细胞。SiRNA与R2Tg驱动子和转基因质粒以反式共同递送(驱动子和转基因配置示意图见图24)。具体地，将表达R2Tg的质粒、在RT结构域中具有突变的对照R2Tg或具有核酸内切酶失活突变的对照R2Tg与转基因联合使用(图25A、B)。使用脉冲代码DN100，将共计250ng DNA质粒与1:4摩尔比的驱动子比转基因以及30pmolsiRNA进行核转染到再悬浮在20μL核转染缓冲液SE中的200k U2OS细胞中。第3天收集的蛋白质裂解物显示，在siRad51处理的条件下不存在Rad51(图25C)。在第3天提取gDNA，并进行ddPCR分析以在rDNA基因座处检测转基因整合。ddPCR拷贝数分析的结果(与参考基因RPP30相比)显示在图26中。Rad51的不存在导致在rDNA基因座处在3’和5’连接处R2Tg介导的转基因整合减少约20％(图26)，表明R2TG介导的转基因插入并不完全依赖于同源重组途径的存在，并且可以在没有内源HR途径的情况下发生。在一些实施例中，HR独立性使Gene Writing能够在内源性低水平HR的细胞和组织中工作，例如肝、脑、视网膜、肌肉、骨、神经、G0或G1期细胞、非分裂细胞、衰老细胞、终末分化的细胞。在一些实施例中，HR独立性使Gene Writing能够在细胞中或在患者或组织中起作用，这些患者或组织中的细胞具有参与HR途径的基因(例如BRCA1、BRCA2、P53、RAD51)的突变。

实例21：Gene Writer可以独立于单链模板修复途径整合基因货物

该实例描述了在单链模板修复(SSTR)途径被抑制的人细胞中使用Gene Writer系统。

在该实例中将使用针对SSTR途径的核心组分的siRNA抑制该途径：FANCA、FANCD2、FANCE、USP1。还将包括非靶标对照的对照siRNA。用30pmol(1.5μM)siRNA以及R2Tg驱动子和转基因质粒(反式构型)对200k U2OS细胞进行核转染。具体来说，250ng表达R2Tg的质粒、在RT结构域中具有突变的对照R2Tg或具有核酸内切酶失活突变的对照R2Tg以1:4的摩尔比(驱动子与转基因)与转基因联合使用。使用程序DN100在SE缓冲液中进行U2OS细胞的转染。核转染后，将细胞在完全培养基中生长3天。在第3天收获gDNA，并进行ddPCR以评估rDNA位点的整合。在没有核心SSTR途径组分的情况下检测到rDNA上的转基因整合。

实例22：对于靶细胞相比于非靶细胞具有增强的活性的Gene Writer系统

该实例描述了将调控序列掺入Gene Writer系统中，以降低非靶细胞中的整合活性。

在该实例中，遗传调控是通过以下方式完成的：(i)使用组织特异性启动子来上调靶细胞中的组分表达和整合和(ii)使用miRNA结合位点来降低非靶细胞(其具有相应miRNA的增加的内源水平)中的整合。使用的靶细胞是人肝细胞，非靶细胞是造血干细胞(HSC)。此处整合的驱动子是编码Gene Writer多肽(例如，R2Tg逆转录酶)的质粒，Gene Writer多肽由不同的启动子驱动并在编码序列后具有乱序或特异性miRNA结合位点。用于整合的模板在质粒DNA上编码，因此转录产生同源的且侧翼是UTR的异源对象序列。异源对象序列可以包含由不同启动子驱动并且在编码序列之后具有乱序或特异性miRNA结合位点的报告基因。这里使用的对照启动子是CMV，并且miRNA结合位点的对照是miR-142结合位点的随机乱序版本。这里使用的靶组织特异性启动子是ApoE.HCR.hAAT，其在肝细胞中表达，脱靶组织特异性miRNA结合位点与在HSC中表达的miR-142(uguaguguuuccuacuuuaugga(SEQ ID NO:1684))互补。

靶细胞和非靶细胞用选自以下的Gene Writer多肽(1)和模板(2)的组合进行核转染：

Gene Writer多肽构建体(1)：

a.非特异性驱动子：CMV-R2Tg

b.非特异性失活驱动子：CMV-R2Tg(EN*)

c.组织特异性驱动子：ApoE.HCR.hAAT-R2Tg-miR142

d.组织特异性失活驱动子：ApoE.HCR.hAAT-R2Tg(EN*)-miR142

Gene Writer模板构建体(2)：

a.非特异性转基因：CMV-gfp

b.组织特异性转基因：ApoE.HCR.hAAT-gfp-miR142

将细胞培养至少三天，然后评估整合效率和报告基因表达。对于整合效率，执行ddPCR以量化每个样品的每个基因组的平均整合数。在一些实施例中，当使用与组织特异性驱动子(1a)相比于与非特异性驱动子(1c)配对的模板时，靶细胞和非靶细胞中的整合效率之间的比率更高。为了评估报告基因的表达，通过流式细胞仪分析细胞以检测GFP荧光和RT-qPCR以检测转录。在一些实施例中，与非特异性转基因盒(2a)相比，当使用与组织特异性转基因盒(2b)配对的驱动子时，靶细胞和非靶细胞中的荧光比率更高。在一些实施例中，与非特异性转基因盒(2a)相比，当使用与组织特异性转基因盒(2b)配对的驱动子时，靶细胞和非靶细胞中的转录本水平比率更高。在一些实施例中，组织特异性驱动子(1a)与组织特异性转基因盒(2b)的组合导致靶细胞和非靶细胞之间转录或表达的最高比率。可替代地，可以在人工表达或不表达给定miRNA的相同细胞系中进行筛选测定，例如，中靶筛选细胞是HEK293T细胞，非靶细胞是通过在HEK293T细胞中引入miR-142的过表达来模拟。

实例23：使用包含Gene Writer的脂质纳米颗粒校正α-1抗胰蛋白酶缺乏。

该实例描述了使用Gene Writer^TM基因编辑系统在体内在单个核苷酸处改变基因组序列。更特别地，Gene Writer^TM多肽和书写模板通过脂质纳米颗粒递送至小鼠肝细胞，以校正导致α-1抗胰蛋白酶缺乏的SERPINA1 PiZ突变。

Finn等人Cell Reports[细胞报道]22:2227-2235(2018)(其方法通过引用并入本文)教授了携带Cas9和gRNA的LNP(LNP-INT01系统)的配制和用其治疗小鼠模型。

使用线性质粒DNA模板和T7 RNA聚合酶通过体外转录产生含有N1-甲基假U的加帽和多腺苷酸化的Gene Writer多肽mRNA。根据制造商的方案(赛默飞世尔公司(ThermoFisher))，使用MegaClear Transcription Clean-up试剂盒从酶和核苷酸纯化多肽mRNA。通过测量260nm(Nanodrop)处的吸光度确定转录本浓度，并通过TapeStation(安捷伦公司(Agilent))的毛细管电泳分析转录本。还使用类似方法通过体外转录和翻译制备包含突变校正序列的模板RNA。在该实例中，模板RNA包含实例1中举例说明的序列。

以胺比RNA磷酸(N:P)比率为4.5来配制LNP。脂质纳米颗粒组分溶解在100％乙醇中，摩尔比率如下：45mol％LP01脂质、44mol％胆固醇、9mol％DSPC和2mol％PEG2k-DMG。将RNA货物(1:40摩尔比率的多肽mRNA:模板RNA)溶解在50mM乙酸盐缓冲液(pH 4.5)中，导致RNA货物的浓度约为0.45mg/mL。根据制造商的方案，使用精密纳米系统纳米组件台式仪器(Precision Nanosystems NanoAssemblr Benchtop Instrument)通过微流体混合脂质和RNA溶液形成LNP。混合后，收集LNP并在PBS中稀释(大约1:1)，然后将剩余的缓冲液用10kDaSlide-a-Lyzer G2透析盒(赛默飞世尔科技公司(ThermoFisher Scientific))在轻轻搅拌下在4C过夜交换到PBS(比样品体积100倍过量)中。然后使用0.2-mm无菌过滤器过滤所得混合物。滤液储存在2C-8C。可以使用25mM柠檬酸盐、100mM NaCl货物缓冲液(pH 5)和通过TFF进行缓冲液交换成三盐蔗糖缓冲液(TSS)(5％蔗糖、45mM NaCl和50mM Tris)配制多剂量配制品。配制的LNP的平均尺寸为105nm。封装效率由核糖绿测定法确定(Leung等人,2012)。使用Malvern Zetasizer DLS仪器通过动态光散射(DLS)测量粒度和多分散性。

携带人SERPINA1 PiZ等位基因(E342K)的NSG-PiZ小鼠购自杰克逊实验室(TheJackson Laboratory)。为了评估Gene Writing在体内编辑突变等位基因的能力，通过尾侧静脉以3mg/kg每只动物以0.2mL的体积给予LNP。赋形剂处理的动物用作所有研究的阴性对照。在异氟醚麻醉下通过心脏穿刺放血在不同的时间点处死动物。在一些实施例中，动物在治疗后一周被安乐死以分析Gene Writing。从每只动物的中叶或左侧叶收集肝组织用于DNA提取和分析。

对于编辑效率的NGS分析，在靶位点周围设计PCR引物，并从提取的基因组DNA中扩增目的区域。根据制造商的方案(Illumina)进行另外的PCR，以添加适当的化学品进行测序，然后在Illumina MiSeq上对扩增子进行测序。在消除那些质量得分低的基因组后，测序读段将与小鼠参考基因组比对。包含读段的结果文件被映射到参考基因组(BAM文件)，其中选择与目的靶区域重叠的读段，并计算野生型读段的数量相比于含模板RNA中编码的SERPINA1反向突变的读段的数量。编辑百分比(例如，“编辑效率”或“编辑百分比”)定义为反转序列读段的总数与序列读段的总数之比。

在一些实施例中，用另外的小鼠组重复该实例，并且使用重新给药方案来分析系统的剂量-效应特性。在这些实验中，将小鼠分配到每周给药多达4周的组中，每周进行如本文所述的安乐死和组织分析。在一些实施例中，接受更多剂量的LNP配制品的小鼠通过测序显示出更高的Gene Writing效率，例如，在第三周对每隔一周接受2剂量的小鼠进行分析，显示通过肝组织样品的NGS的基因校正读段的分数相比于第三周分析的接受单剂量的小鼠更高。在应用中，以这种方式给药可以在评估患者对一个或多个剂量的反应后调整治疗干预。

实例24：使用Gene Writing来解决重复序列扩增疾病

该实例描述了使用Gene Writer^TM基因编辑系统通过将正常数量的重复序列重书写到基因座中来治疗重复序列扩增疾病。更特别地，Gene Writer^TM多肽和书写模板通过AAV递送至小鼠CNS，以根据自定义模板RNA重置HTT中的CAG重复序列，从而治愈亨廷顿病。健康的人倾向于在亨廷顿基因(HTT)内携带10到35个CAG重复，而患有亨廷顿病的人可能拥有36到超过120个重复。

在该实例中，模板RNA被设计为通过编码具有10个此类重复的序列和与侧翼靶序列同源以完全跨靶基因座书写的序列来校正HTT基因的CAG重复区域。可以设计这样的模板RNA的多个实例，其中示例性模板RNA，如在DNA中编码的，包括序列(1)GGCGGCTGAGGAAGCTGAGG(2)GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCC(3)AGTCCCTCAAGTCCTTCcagcagcagcagcagcagcagcagcagcagccgccaccgccgccgccgccgccgccgcctcct(4)CAGCTTCCTCAG(SEQ ID NO:1685)，其中使用数字以顺序(5’-3’)描绘模板的模块：(1)gRNA间隔子，(2)gRNA支架，(3)异源对象序列，(4)3’同源引发结构域，其中在(3)中编码重复校正。CAG重复区之后是短重复区，编码11个脯氨酸残基(8个残基由CCG三联体编码)。不希望受理论束缚，该区域包括在(3)中以将(4)放置在更独特的区域中以防止错误引发。如本系统的实施例中所述的用于提供第二切口的示例性gRNA包含间隔子序列CGCTGCACCGACCGTGAGTT(SEQ ID NO:1630)并引导Cas9切口酶对同源区域内的靶位点的第二链进行切口。在一些实施例中，该第二切口改善了编辑的效率。

为了向CNS递送完整的Gene Writing系统，在此实例中，Gene Writer被拆分为两个AAV基因组，第一个编码与分裂型内含肽对的内含肽N融合的切口酶Cas9结构域(DnaE内含肽-N：CLSYETEILTVEYGLLPIGKIVEKRIECTVYSVDNNGNIYTQPVAQWHDRGEQEVFEYCLEDGSLIRATKDHKFMTVDGQMLPIDEIFERELDLMRVDNLPN(SEQ ID NO:1638))并且第二个编码融合到分裂型内含肽对的内含肽-C的RT结构域的(DnaE内含肽-C，MIKIATRKYLGKQNVYDIGVERDHNFALKNGFIASN(SEQ ID NO:1640))和模板RNA。两种多肽组分从聚合酶II启动子(例如本文所述的神经元细胞特异性启动子)表达，并且用于提供第二切口的模板RNA和gRNA从聚合酶III启动子(例如U6启动子)表达。当共感染细胞时，这两种多肽组分重组了具有N末端Cas9和C末端RT的完整Gene Writer多肽，模板RNA被表达并逆转录到靶基因座中。为了实现针对CNS细胞(特别是叶状核和基底神经节的壳核)的递送，此处使用假型系统rAAV2/1，其中AAV2 ITR用于将所述核酸包装成带有AAV1衣壳的颗粒。此处使用的AAV制备和小鼠注射和收获方案遵循Monteys等人Mol Ther[分子疗法]25(1):12-23(2017)的教导。

FVB-Tg(YAC128)53Hay/J小鼠购自杰克逊实验室(The Jackson Laboratory)。这些转基因小鼠表达具有约118个谷氨酰胺重复(CAG三核苷酸重复)的全长人亨廷顿蛋白，并在三个月大时出现运动机能亢进。在8周龄时，用rAAV2/1-Cas9病毒和rAAV-MMLV_RT/hU6模板RNA病毒的1:1组合治疗小鼠。对于rAAV注射，用异氟醚麻醉小鼠，并将5μL rAAV混合物以0.2μL/min单侧注射到右侧纹状体中。三周后，处死小鼠并取出脑组织用于基因组DNA提取和NGS分析。

对于编辑效率的NGS分析，在靶位点侧翼设计PCR引物，并从提取的基因组DNA中扩增目的区域。根据制造商的方案(Illumina)进行另外的PCR，以添加所需化学品进行测序，然后在Illumina MiSeq上对扩增子进行测序。在消除那些质量得分低的基因组后，测序读段将与小鼠参考基因组比对。包含读段的结果文件被映射到参考基因组(BAM文件)，其中选择与目的靶区域重叠的读段，并且计算致病等位基因(>35个CAG重复)读段的数量相比于修复的等位基因(10-35个CAG重复)读段的数量。编辑百分比(例如，“编辑效率”或“编辑百分比”)定义为修复的读段的总数(如上定义)相比于序列读段的总数。

实例25：通过LNP和AAV媒剂递送Gene Writing系统

该实例描述了使用Gene Writer^TM基因编辑系统在体内在单个核苷酸处改变基因组序列。更特别地，Gene Writer^TM多肽和书写模板通过脂质纳米颗粒(编码多肽的mRNA)和AAV(编码RNA模板的DNA)的组合被递送至小鼠肝脏细胞，以校正导致α-1抗胰蛋白酶缺乏症的SERPINA1 PiZ突变。

如实施例23中所述，通过体外转录制备编码Gene Writer多肽的加帽和加尾的mRNA并配制进入LNP-INT01，但未与模板RNA共配制。

在该实例中，模板RNA被编码为DNA并通过AAV递送。Cunningham等人Mol Ther[分子疗法]16(6):1081-1088(2008)的教导描述了使用带有人α-1抗胰蛋白酶(hAAT)启动子和载脂蛋白E增强子(ApoE)的肝控制区的两个拷贝的rAAV2/8来有效转导并驱动货物在幼鼠肝脏中的表达。因此，此处描述的rAAV2/8.ApoE-hAAT.PiZ(rAAV2/8.PiZ)包含上述AAV和启动子系统(其驱动用于校正PiZ突变的RNA模板的表达)，以及由U6启动子(先前在实例1中描述的RNA序列)驱动的第二切口导向gRNA。

携带人SERPINA1 PiZ等位基因(E342K)的NGS-PiZ小鼠购自杰克逊实验室(TheJackson Laboratory)。为了评估Gene Writing在体内编辑突变等位基因的活性，对8周龄的小鼠腹腔内给予约10¹¹vg的rAAV2/8.PiZ来表达模板RNA，并通过侧尾静脉以每只动物0.2mL的体积给予3mg/kg的配制的LNP以表达Gene Writer多肽。在异氟醚麻醉下通过心脏穿刺放血在不同的时间点处死动物。在一些实施例中，动物在治疗后一周被安乐死以分析Gene Writing。从每只动物的中叶或左侧叶收集肝组织用于DNA提取和分析。

对于编辑效率的NGS分析，在靶位点周围设计PCR引物，并从提取的基因组DNA中扩增目的区域。根据制造商的方案(Illumina)进行另外的PCR，以添加所需化学品进行测序，然后在Illumina MiSeq上对扩增子进行测序。在消除那些质量得分低的基因组后，测序读段将与小鼠参考基因组比对。包含读段的结果文件被映射到参考基因组(BAM文件)，其中选择与目的靶区域重叠的读段，并计算野生型读段的数量相比于含模板RNA中编码的SERPINA1反向突变的读段的数量。编辑百分比定义为反转序列读段的总数与序列读段的总数之比。

实例26：在人嵌合肝小鼠模型中应用Gene Writer^TM系统向肝脏递送治疗性基因

该实例描述了Gene Writer^TM基因组编辑系统，它在体内递送至肝脏用于整合和稳定表达基因载荷。特别地，LNP用于递送Gene Writing系统，该系统能够整合完整的OTC表达盒，以治疗OTC缺陷的人源化小鼠模型。

在该实例中，Gene Writing系统用于治疗OTC缺乏症的人源化小鼠模型，其中将源自OTC缺乏症患者的人肝细胞移植到小鼠模型中(Ginn等人JHEP Reports[JHEP报道]2019)。用于大载荷整合的示例性Gene Writing系统包括利用高持续合成能力逆转录酶(例如MarathonRT)的Cas9定向逆转录酶系统。示例性的模板RNA组分包含(从5’到3’)(1)与AAVS1安全港位点同源的gRNA间隔子、(2)gRNA支架、(3)异源对象序列、和(4)3’靶同源区域(用于与紧邻第一链切口上游的基因组DNA退火以引发异源对象序列的TPRT)。(1)的示例性序列是GGGGCCACTAGGGACAGGAT(SEQ ID NO:1689)。区域(2)携带如本申请中所述的gRNA支架，一般包含序列GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGGACCGAGTCGGTCC(SEQ ID NO:1591)。在该实例中，(3)包含完整的OTC表达盒，其中编码人OTC(UniProt P00480)的肝脏密码子优化序列与实例25中所述的ApoE.hAAT启动子系统可操作地关联。(4)的示例性序列是CTGTCCCTAGTG(SEQ ID NO:1690)。用于产生第二链切口以提高整合效率的另外gRNA间隔子的示例性序列是AGAGAGATGGCTCCAGGAAA(SEQ ID NO:1691)。

将人肝细胞(分离自儿科捐赠者或从龙沙公司(Lonza)(瑞士巴塞尔)购买)植入8至12周大的雌性Fah^-/-Rag2^-/-Il2rg^-/-(FRG)小鼠，如前所述(Azuma等人Nat Biotechnol[自然生物技术]2007)。移植的小鼠在饮用水中循环使用2-(2-硝基-4-三氟-甲基苯甲酰基)-1,3-环己二酮(NTBC)以促进肝脏再生。每两周及实验结束时采血，通过酶联免疫吸附测定(ELISA；贝斯实验室公司(Bethyl Laboratories,Inc.),得克萨斯州蒙哥马利市)测量血清中人白蛋白水平，将其用作估计移植水平的标志物。移植十一周后，用如实例23中配制的Gene Writer^TM处理小鼠。对于治疗，通过侧尾静脉以3mg/kg以每只动物0.2mL的体积递送LNP。

载体注射后，小鼠在NTBC上再循环5周，然后实施安乐死。随后通过标准方法从肝裂解物中提取DNA和RNA。随后通过使用序列特异性引物对分离的RNA样品进行RT-qPCR来测定OTC表达。还在整个实验过程中使用人OTC ELISA试剂盒(例如，奥维亚系统生物公司(Aviva Systems Biology)OTC ELISA试剂盒(人)(OKCD07437))按照制造商推荐的方案，在注射后的第-7、0、2、4、7、14、21、28和35天对血清测量人OTC水平。

为了分析编辑效率，使用一对在跨整合的5’连接或3’连接退火的引物进行ddPCR分析，每组引物中的一个引物与异源对象序列退火，另一个引物与基因组上AAVS1位点的适当区域退火。该测定被标准化为参考基因以量化靶位点整合数/基因组。

为了分析靶位点的整合，跨整合位点执行长读段测序。在靶位点侧翼设计PCR引物，并从提取的基因组DNA中扩增目的区域。根据制造商的方案(PacBio)进行另外的PCR，以添加所需化学品进行测序，然后通过PacBio对扩增子进行测序。在消除那些质量得分低的基因组后，测序读段将与小鼠参考基因组比对。含有读段的结果文件被映射到参考基因组(BAM文件)，其中选择相对于参考基因组含有插入序列的读段用于进一步分析，以确定整合的完整性，在该实例中完整性被定义为含有完整启动子和OTC编码序列。

实例27：用于在体外将CAR整合到T细胞中的Gene Writer

该实例描述了将Gene Writer^TM基因组编辑系统递送给离体T细胞，以整合和稳定表达基因载荷。特别地，LNP用于递送Gene Writing系统，该系统能够将嵌合抗原受体(CAR)整合到TRAC基因座中，以生成用于治疗B细胞淋巴瘤的CAR-T细胞。

在该实例中，Gene Writing系统包含Gene Writing多肽，例如，如本文所述的切口酶Cas9和R2Tg逆转录酶结构域，用于将切口酶活性引导至靶基因座的gRNA，和模板RNA，其从5'至3'包含：

(1)与第一链切口3'的靶位点有同源性的100nt

(2)来自R2Tg的5'UTR

(3)异源对象序列

(4)来自R2Tg的3'UTR

(5)与第一链切口5'的靶位点有同源性的100nt

其中(3)包含CD19特异性Hu19-CD828Z(Genbank MN698642；Brudno等人Nat Med[自然医学]26:270-280(2020))CAR分子的编码序列。该实例中的Gene Writer通过使用靶向gRNA(例如，TCAGGGTTCTGGATATCTGT(SEQ ID NO:1692))被引导至TRAC的第一个外显子的5’末端，以便将货物置于来自该基因座的内源性表达控制之下，同时破坏内源性TCR，正如Eyquem等人Nature[自然]543:113-117(2017)所教导。这三种组分(多肽、gRNA和模板)都包含RNA，其通过体外转录(如多肽mRNA、模板RNA)或化学合成(gRNA)而合成。

该实例中使用的LNP配制品已经过筛选和验证，可用于离体递送至T细胞，如Billingsley等人Nano Lett[纳米快报]20(3):1578-1589(2020)(将其通过引用以其整体并入本文)所教导。具体地，LNP配制品C14-4(包括胆固醇、磷脂、脂质锚定的PEG和可电离脂质C14-4(Billingsley等人Nano Lett[纳米快报]20(3):1578-1589(2020)的图2C))被用于以多肽mRNA:gRNA:模板RNA约1:40:40的摩尔比率封装所有三种RNA组分。

可以对T细胞进行另外的编辑，以提高CAR-T细胞针对其同源靶标的活性。在一些实施例中，如所述的C14-4的第二LNP配制品包含Cas9/gRNA预形成的RNP复合物，其中gRNA靶向Pdcd1外显子1以进行PD-1失活，这可以通过破坏此抑制检查点(否则其会触发细胞抑制)增强CAR-T细胞的抗肿瘤活性(见Rupp等人Sci Rep[科学报道]7:737(2017))。因此，两种纳米颗粒配制品的应用通过提供抗CD19货物来实现淋巴瘤靶向，同时通过敲除PD-1检查点抑制剂来提高功效。在一些实施例中，可以同时用纳米颗粒处理细胞。在一些实施例中，可以在单独的步骤中用纳米颗粒处理细胞，例如，首先递送用于产生PD-1敲除的RNP，然后用携带抗CD19CAR的纳米颗粒处理细胞。在一些实施例中，提高T细胞功效的系统的第二组分可导致PD-1、TCR、CTLA-4、HLA-I、HLA-II、CS1、CD52、B2M、MHC-I、MHC-II、CD3、FAS、PDC1、CISH、TRAC或其组合的敲除。在一些实施例中，PD-1、TCR、CTLA-4、HLA-I、HLA-II、CS1、CD52、B2M、MHC-I、MHC-II、CD3、FAS、PDC1、CISH或TRAC的敲低可以是优选的，例如，使用靶向PD-1的siRNA。在一些实施例中，靶向PD-1的siRNA可以通过使用自递送RNAi(如Ligtenberg等人Mol Ther[分子疗法]26(6):1482-1493(2018)和WO 2010033247所述，均通过引用以其整体并入本文)来实现，其中，对siRNA进行广泛的化学修饰，赋予所得疏水修饰的siRNA分子在离体和体内穿透所有类型细胞的能力并实现持久的特异性靶基因敲低，无需任何另外的递送配制品或技术。在一些实施例中，系统的一个或多个组分可以通过其他方法递送，例如电穿孔。在一些实施例中，将另外的调节剂敲入细胞中以进行过表达以控制T细胞和NK细胞介导的免疫反应和巨噬细胞吞噬，例如PD-L1、HLA-G、CD47(Han等人PNAS[美国国家科学院院刊]116(21):10441-10446(2019))。敲入可以通过应用以下来完成：具有模板的另外的GeneWriting系统，该模板携带一个或多个此类因子(3)的表达盒，其中靶向安全港基因座，例如AAVS1，例如，使用gRNA GGGGCCACTAGGGACAGGAT(SEQ ID NO:1689)将Gene Writer多肽靶向AAVS1。

LNP用于治疗由Dynabead以1:1 CD4⁺:CD8⁺比率以450ng/μL总mRNA浓度活化的原代T细胞。分析所得T细胞群的整合、表达和效果。为了评估整合，ddPCR与产生从整合的CAR内延伸到侧翼基因组TRAC序列的扩增子的引物一起使用。将信号与参考基因(例如RPP30)进行比较，可以量化平均拷贝数/基因组和整合效率。为了分析表达，使用带有免疫探针的流式细胞术来评估显示表面CAR表达的细胞的水平和百分比。为了分析CAR-T细胞的活性，通过共铺板癌细胞杀伤测定评估处理过的细胞。通过工程化Nalm6ALL细胞以表达萤光素酶，与来自单独的Nalm6细胞的信号相比，可以通过与CAR-T细胞共培养后的发光变化来评估癌细胞杀伤，Billingsley等人Nano Lett[纳米快报]20(3):1578-1589(2020)。因此，GeneWriting系统可用于离体生成具有所期望细胞毒活性的CAR-T细胞。

实例28：用于在体内将CAR整合到T细胞中的Gene Writer

该实例描述了Gene Writer^TM基因组编辑系统，它在体内递送至T细胞用于整合和稳定表达基因载荷。具体而言，靶向的纳米颗粒用于递送Gene Writing系统，该系统能够将嵌合抗原受体(CAR)表达盒整合到鼠Rosa26基因座中，以在鼠模型中生成CAR-T细胞。

(1)与第一链切口3'的靶位点有同源性的100nt

(2)来自R2Tg的5'UTR

(3)异源对象序列

(4)来自R2Tg的3'UTR

(5)与第一链切口5'的靶位点有同源性的100nt

其中(3)包含由EF1a启动子驱动的CD19特异性m194-1BBz CAR的编码序列(Smith等人Nat Nanotechnol[自然纳米技术]12(8):813-820(2017))。使用gRNA(例如ACTCCAGTCTTTCTAGAAGA(SEQ ID NO:1693))将该实例中的Gene Writer引导至鼠Rosa26基因座(Chu等人Nat Biotechnol[自然生物技术]33(5):543-548(2015))。RNA分子的产生是根据本文提供的实例，例如，通过体外转录(例如，Gene Writer多肽mRNA、模板RNA)和通过化学合成(例如，gRNA)。对系统RNA组分的修饰如其他地方所述。对于Gene Writer mRNA，序列另外包含编码序列侧翼的5'UTR(例如，GGGAAAUAAGAGAGAAAAGAAGAGUAAGAAGAAAUAUAAGAGCCACC(SEQ ID NO:1603))和3’UTR(例如，UGAUAAUAGGCUGGAGCCUCGGUGGCCAUGCUUCUUGCCCCUUGGGCCUCCCCCCAGCCCCUCCUCCCCUUCCUGCACCCGUACCCCCGUGGUCUUUGAAUAAAGUCUGA(SEQ IDNO:1604))序列。已经证明5’UTR和3’UTR的组合可导致可操作地连接的ORF的良好表达(Richner等人Cell[细胞]168(6):第1114-1125页(2017))。

为了实现向T细胞的特异性递送，产生携带针对CD4的缀合mAb的靶向LNP(tLNP)。参见，例如，Ramishetti等人ACS Nano[美国化学学会纳米]9(7):6706-6716(2015)。可替代地，针对CD3的mAb的缀合可用于靶向CD4⁺和CD8⁺T细胞(Smith等人Nat Nanotechnol[自然纳米技术]12(8):813-820(2017))。在其他实施例中，用于体内递送至T细胞的纳米颗粒是缺乏靶向配体的受限纳米颗粒，如以下所教导：Lokugamage等人Adv Mater[先进材料]31(41):e1902251(2019)。

通过以下制备tLNP：首先制备核酸(例如，多肽mRNA:gRNA:模板RNA摩尔比为1:40:40)与脂质混合物(胆固醇、DSPC、PEG-DMG、Dlin-MC3-DMA和DSPE-PEG-马来酰亚胺)的混合，然后将所期望的DTT还原的mAb(例如，抗CD4，例如，克隆YTS.177)与LNP上的马来酰亚胺官能团化学缀合。参见Ramishetti等人ACS Nano[美国化学学会纳米]9(7):6706-6716(2015)。

向6至8周龄C57BL6/J小鼠静脉内注射配制的LNP，剂量为1mg RNA/kg体重。在施用后第一天和第三天，将血液收集在肝素包被的收集管中，并使用Ficoll-Paque PLUS(通用电气医疗集团(GE Healthcare))通过密度离心分离白细胞。施用后五天，将动物安乐死，收获血液和器官(脾脏、淋巴结、骨髓细胞)用于T细胞分析。使用特异性免疫分选通过FACS检测抗CD19CAR的表达。通过对分选的群体进行ddPCR确认对于整合呈阳性的细胞，其中使用在整合连接侧翼的引物，例如，一对引物中的一个引物与整合的货物退火，另一个引物与Rosa26靶位点的基因组DNA退火。

实例29：评估第一和第二切口之间的距离和PAM取向以减少Gene Writing过程中非模板插入缺失的形成

该实例描述了优化Gene Writing系统中使用的第二切口的放置以(1)使用带有模板RNA的Gene Writer多肽增加所期望编辑的安装频率，同时(2)减少可能以第二切口副产物而产生的不期望的插入和/或缺失。

示例性Gene Writing系统可以安装所期望的基因组修饰(例如，插入、缺失和点突变)，其中使用：1)模板RNA(包含gRNA和含有所期望基因组修饰的异源对象序列)，和2)GeneWriting多肽(包含与逆转录酶(RT)(例如，来自MMLV的RT结构域)融合的切口酶Cas9(例如，Cas9N863A)。在所述示例性Gene Writing系统中，Cas9-RT融合物引入了第一切口，其暴露了可用的3'OH以启动逆转录酶反应，其中使用模板RNA作为用于靶引发的逆转录的模板。将第二切口放置在与第一切口相邻但在相反链上的位置上，增强了所期望基因组修饰的安装。

在本实验中，3nt插入(CTT)指向HEK3基因座。用于插入的模板RNA包含(1)与HEK3位点同源的gRNA间隔子、(2)gRNA支架、(3)包括该CTT插入的异源对象序列、和(4)3’靶同源区域(用于与紧邻第一链切口上游的基因组DNA退火，以建立靶引发的异源对象序列逆转录)。使用的模板RNA的序列是(5'-3')GGCCCAGACTGAGCACGTGAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTCTGCCATCA<AAG>CGTGCTCAGTCTG(SEQID NO:1694)，其中

用于表示插入序列。

此外，设计了一组第二切口gRNA(将切口靶向到与第一切口相对的DNA链)，将第二个切口放置在所期望CTT插入位置的距离范围为26到257bp的上游或下游。如本文所述，上游第二切口产生一组向内取向的切口(PAM位点在外(PAM-外))，而下游第二切口产生一组向外取向的切口(PAM位点在切口内(PAM-内))。第二切口gRNA是使用基于网络的工具设计的，并列出在表E5和E6中。双切口之间的距离表明模板RNA引导的第一切口和第二切口gRNA引导的第二切口之间的距离，以及相对于第一切口提供的PAM取向(例如，“PAM-内”并且因此向外取向，或“PAM-外”并且因此向内取向)，如图31所示。

表E5：gRNA以“PAM-外”取向靶向第一切口上游的第二切口

表E6：:gRNA以“PAM-内”取向靶向第一切口下游的第二切口

为进行实验，将20μL SE缓冲液中的200,000个U2OS细胞用编码Gene Writer多肽(N863ACas9-RT)、200ng模板RNA和83ng表E5和E6中所列的第二切口gRNA的800ng质粒进行核转染。龙沙公司Amaxa核转染系统与核转染代码DN100一起使用。核转染后，将80μL DMEM+10％FBS培养基添加到细胞悬浮液中，并且将细胞铺板于具有500μL DMEM+10％FBS的24孔板中。在核转染后第3天提取基因组DNA。

为了分析提取的DNA的所期望CTT插入，如本文所述通过使用第一切口周围的引物扩增HEK基因座进行扩增子测序。然后在Illumina MiSeq上对预期的300-350bp扩增子进行测序。使用CRISPResso计算分析流程(Clement等人Nat Biotechnol[自然生物技术]37(3):224-226(2019))确定所期望CCT插入的频率。

为了测量作为反应副产物产生的不期望的插入和/或缺失，使用位于第一切口位点上游和下游>1.5kb的引物进行长程扩增，产生>3kb的扩增子。使用长读段测序(例如PacBio)对该扩增子进行测序，并分析是否存在由双切口导致的插入和缺失。

在一些实施例中，使用第二切口gRNA(其切割第一切口下游并提供“PAM内”或向外取向)的反应相较于放置在第一切口上游类似距离但提供“PAM-外”或向内取向的gRNA造成更少的意外突变(例如，靶向的CTT插入以外的靶位点突变)，如本文所述的方法测量。在其他实施例中，与第二切口gRNA(其提供第一与第二切口之间的距离小于100nt)相比，当第一和第二切口之间的距离至少为100nt时，第二切口gRNA(其切割第一切口上游并提供“PAM-外”或向内取向)造成更少的不期望突变(例如，靶向的CTT插入以外的靶位点突变)，如本文所述的方法测量。

因此，在一些实施例中，第二切口gRNA的优选设计是导致1)“PAM-内”或向外取向，或2)“PAM-外”或向内取向，在第一和第二切口之间至少100nt间隔(图32)。

实例30：利用各种Cas-RT融合物的Gene Writing系统的设计和人细胞表达

该实例描述了包含Cas和逆转录酶结构域融合物的Gene Writing多肽的构建和在哺乳动物细胞中表达。本文已显示具有这些结构域的Gene Writing多肽能够对来自RNA模板分子的DNA靶标进行精确的位点特异性修饰。在这里，我们描述了结构域库的表达，以创建可能具有不同功能特征的新系统。更具体地，本文描述了包含以下的融合蛋白：1)Cas-核酸酶，其含有使一个核酸内切酶活性位点失活的突变，例如Cas9切口酶Cas9(N863A)；2)连接功能性蛋白质结构域的肽接头，例如来自表38或42的序列，例如SGGSSGGSSGSETPGTSESATPESSGGSSGGSS；和3)逆转录酶(RT)(例如本申请中描述的RT结构域，例如包含来自表1、表3、表30、表31或表41的序列的RT结构域，或其衍生物)可以用于这样的测定，在该实例中统称为Cas-RT。因此，Cas-RT融合蛋白被组装在质粒上，并与单指导RNA(sgRNA)表达质粒共同递送，以验证系统在人体细胞中的表达。

在此测定的由Cas-RT结构域融合物产生的Gene Writer多肽包括：(1)Cas9野生型或Cas9(N863A)切口酶结构域；(2)肽接头(SGGSSGGSSGSETPGTSESATPESSGGSSGGSS)；(3)从表1和表30中选择的来自不同来源的RT结构域；和(4)至少一种核定位信号。将U2OS或HEK293T细胞通过250,000个细胞/孔的龙沙公司Amaxa核转染使用约800ng Cas9(N863A)-RT融合物质粒和200ng sgRNA质粒进行转染。为了评估Cas9-RT融合的表达水平，在转染后第2天收集细胞裂解物，并使用针对Cas9的一抗通过蛋白质印迹进行分析。几个Cas9-RT融合物显示出可观的蛋白质表达(图33)，表明表达水平对于Gene Writing活性是足够的。值得注意的是，观察到不同Cas9-RT构建体的宽范围表达水平，证明了融合设计和RT选择对细胞中Cas-RT表达水平的影响。

实例31：通过接头选择改善Cas-RT融合蛋白的表达

该实例展示了Cas-RT融合物的优化，以改善哺乳动物细胞中的蛋白质表达。如实例30中所述，通过简单替换新功能结构域来构建新的Cas-RT融合物可导致Gene Writer多肽的低或中度表达。因此，这里预期融合物的经修饰的构型在不同结构域的上下文中可能是有利的。不希望受限于该实例，一种用于改善新融合物的表达和稳定性的方法是通过使用接头文库。在这里，使用接头序列文库，Cas-RT融合物的Cas和RT结构域之间的肽接头序列是可变的。更具体地，表42中的接头用于生成之前展示低蛋白质表达的Cas9-RT融合构建体(参见实例30和图33)的新变体，并递送至人细胞以筛选改善的Cas-RT蛋白质表达。

一组22个具有不同程度的长度、柔性、疏水性和二级结构的肽接头(表42)首先用于通过替换原始接头来产生Cas-RT融合蛋白的变体(参见实例30)。将HEK293T细胞通过250,000个细胞/孔的电穿孔使用约800ng的每种Cas9-RT融合物质粒以及200ng单指导RNA质粒进行转染。为了评估Cas9-RT融合物的表达水平，在转染后第2天收集细胞裂解物，并使用针对Cas9的第一抗体通过蛋白质印迹进行分析。表38中列出的接头10显著改善了Cas-RT融合物表达(图34)，说明肽接头序列对Cas-RT表达有潜在的深远影响。

表42.用作包含Cas-RT融合物的Gene Writer多肽中Cas和RT结构域之间的接头的肽序列

实例32：Cas介导的包含Cas-RT融合物的Gene Writer的切割活性

该实例展示了Cas-RT融合物保留蛋白质结构域功能的能力。具体而言，通过测定用包含有切割能力的Cas结构域(切割酶)的Gene Writer多肽处理的细胞，可以通过靶位点分析读取DNA结合以证明融合物情况下Cas的活性。在这里，其中两个核酸酶活性位点都具有功能的Cas-RT切割酶融合物，例如Cas9(野生型)-RT，与sgRNA表达质粒一起在质粒载体上共同递送，以将Cas靶向人细胞中的AAVS1位点。通过Cas-RT切割酶融合物分析AAVS1中预测的切割位点处的插入缺失形成可作为DNA结合活性和核酸内切酶活性的读出，从而确认Cas-RT融合物的有效DNA靶向。

具有全功能核酸内切酶结构域的Cas-RT融合物(例如，包含其两个核酸酶活性位点是完整的野生型Cas9，例如Cas9(N863))由本文所述的Cas-RT融合蛋白生成(例如，包含Cas9切口酶(例如，Cas9(N863A)))以提高检测DNA结合和切割的灵敏度。由于完整的Cas9核酸酶可以切割两条链以在基因组中产生双链切割事件，因此修复这些位点会产生比修复单链DNA切口更高的突变(插入缺失)信号。因此，将融合物的插入缺失形成频率与未融合的野生型Cas9的插入缺失形成频率进行比较，以评估在新颖Cas-RT融合物情况下Cas功能的维持。

将U2OS或HEK293T细胞通过250,000个细胞/孔的龙沙公司Amaxa核转染使用约800ng Cas9(WT)-RT融合物质粒和200ng sgRNA质粒进行转染，以产生使Cas9靶向AAVS1的gRNA(表43 gRNA P7)。为了评估Cas9-RT切割酶融合物的DNA结合和切割活性，在转染后第3天收集基因组DNA(gDNA)。通过在sgRNA靶向的基因座处进行扩增子测序分析gDNA中的插入缺失模式。通过CRISPResso2管道分析测序结果(Clement等人Nat Biotechnol[自然生物技术]37(3):224-226(2019))。所有测试的Cas-RT切割酶融合物显示插入缺失形成与其各自的蛋白质表达水平相称(图33)，表明Cas介导的DNA结合活性保留在Cas-RT融合物中(图35)。

实例33：包含具有各种RT结构域的Cas-RT融合物的Gene Writer实现人细胞中的精确编辑

该实例展示了多个测试的Cas-RT融合物在人细胞基因组DNA中以可编程方式安装突变的能力。更具体地说，改变Cas-RT融合物的逆转录酶结构域，例如本申请中描述的RT结构域，以确定采用新颖RT组合的Cas-RT融合物的基因组编辑能力。模板RNA与人细胞中的Cas-RT表达质粒一起在质粒载体上共同递送，以确定Cas-RT融合物的重书写活性。

为了生成Gene Writer多肽的结构域文库，选择了Cas效应子蛋白；见表37和表40A。进一步选择另外的Cas9结构域用于本文所述的Gene Writer多肽中，特征(包括靶序列的PAM要求、赋予切口酶活性的预测突变(例如，SpCas9的D10A、H840A或N863A)和gRNA特征(包括单指导物组成，例如，特定的间隔子参数)和gRNA支架序列(以赋予对于同源Cas酶而言的多肽结合))都能够被确定(表40A)。基于对长度、柔性和组成的多样性的搜索，收集连接Cas和RT结构域的接头序列，以优化融合蛋白(表38和42)。通过接头筛选优化融合表达在实例31中进一步描述。如本申请中所述，使用文献和RT蛋白结构域特征从各种来源挖掘逆转录酶结构域，包括从非LTR逆转录转座子、LTR逆转录转座子、II组内含子、多样性生成元件、逆转录子、端粒酶、逆转录质粒、逆转录病毒、和具有进化的RNA依赖性DNA聚合酶活性的聚合酶(例如，这种测定中可以使用包含来自表1、表3、表30、表31、表44或表N41的序列的RT结构域或其衍生物)。

具体而言，为了评估在Gene Writer多肽情况下使用新颖RT结构域以成功编辑基因组，选择来自逆转录病毒的示例性RT结构域的子集与Cas9(N863A)切口酶融合。简而言之，首先生成了来自逆转录病毒科的POL蛋白数据库，然后对其进行了优先排序(参见TheUniProt Consortium[UniProt联合]Nucleic Acids Res[核酸研究]47(D1):D506-D515(2019)；Mitchell等人Nucleic Acids Res[核酸研究]47(D1):D351-D360(2019))。尽管不希望受此类实例的限制，但来自β逆转录病毒、δ逆转录病毒、γ逆转录病毒和泡沫病毒的逆转录病毒RT可以作为单体蛋白发挥作用(例如，见Herschhorn等人Cell Mol Life Sci[细胞与分子生命科学]67(16):2717-2747(2010)中的表1)，因此可能有利于用于融合蛋白，如本文所述。表44显示了从使用这些标准的分析中选出的逆转录病毒单体RT序列。此外，已显示稳定RT结构域的突变，如本申请和文献中所述(表45)(Anzalone等人Nat Biotechnol[自然生物技术]38(7):824-844(2020)；Baranauskas等人Protein Eng Des Sel[蛋白质工程设计与选择]25(10):657-668(2012)；Arezi和Hogrefe Nucleic Acids Res[核酸研究]37(2):473-481(2009)；Yasukawa等人J Biotechnol[生物技术杂志]150(3):299-306(2010)；分析其与改善RT稳定性和功能有关的发现，以其整体并入本文)，被分析以应用于候选RT结构域(此处提供的位置基于作为参考的MMLV RT氨基酸序列)。例如，具有突变谱L139P/D200N/T330P/L603W/E607K的MMLV RT显示持续合成能力增加约65倍，模板亲和力增加约48倍(Baranauskas等人Protein Eng Des Sel[蛋白质工程设计与选择]25(10):657-668(2012))并且具有突变谱为D200N/T306K/W313F/T330P/L603W时，基因组DNA的先导编辑效率增加了1.6-5.1倍(Anzalone等人Nat Biotechnol[自然生物技术]38(7):824-844(2020))。从这些研究中，鉴定了D200N/T330P/L603W的核心组，并使用来自此处描述的逆转录病毒属的RT结构域的比对来预测保守的相关氨基酸位置(图36A)。另外的突变T306K和/或W313F也被应用在相关的地方，并且当T306K/W313F组的任何一个突变都不能被应用时使用L139P和/或E607K(图36B)。产生了与这些野生型RT结构域或具有潜在改善活性的突变变体的Cas9切口酶融合物，示例性融合物描述于表46中。

为了使用Gene Writer Cas-RT融合物产生精确的编辑，模板RNA被构建为通过RT结构域将编辑进行模板逆转录到基因组靶位点。模板RNA被设计为包含(i)用于将Cas-RT引导至靶区域的gRNA间隔子序列，例如，与HEK3基因座中的20个核苷酸序列互补的序列；(ii)引物结合序列，其能够与带切口的DNA的单链互补碱基配对以进行靶引发的逆转录；(iii)提供逆转录模板的异源对象序列，其进一步包含预期的最终靶序列；和(iv)与Cas9-RT多肽融合物的Cas9结构域相关联的gRNA支架序列。这里使用的构建体特别遵循5'到3'取向(i)、(iv)、(iii)、(ii)。将质粒上编码的模板RNA进行克隆，使得表达由U6启动子驱动，转录终止由引物结合序列后在模板RNA盒3’末端的7nt聚T段控制。模板组成描述于表43(模板P1、P2、P3)中。

通过250,000个细胞/孔的电穿孔用约800ng的Cas9-RT(MMLV)融合表达质粒、200ng的模板RNA表达质粒和83ng的另外的第二切口gRNA(2gRNA P5)表达质粒转染U2OS或HEK293T细胞(表43)。为了评估Cas-RT融合物的基因组编辑能力，在转染后第3天收集基因组DNA(gDNA)。通过扩增子测序分析靶基因座处的预期(如设计的精确和无痕编辑)相比于非预期(对靶序列的任何非预期改变)编辑的频率(“活性比率”)。如本文所用，靶位点的扩增子测序包含在靶位点的PCR扩增中使用位点特异性引物，在Illumina MiSeq上对扩增子进行测序，以及使用CRISPResso2管道检测和表征编辑事件(Clement等人Nat Biotechnol[自然生物技术]37(3):224-226(2019))。几个Cas-RT融合物显示出可观的基因组编辑活性(多个Cas-RT融合物具有约3的活性比率(图37))，说明从本文所述的逆转录酶结构域中提取的各种Cas-RT融合物可以有效且精确地将编辑编码入人基因组中。

表43.选定的实例中使用的模板RNA和gRNA的列表。

实例34：多路复用Gene Writer系统以同时编辑人细胞中的多个基因座

该实例展示了使用Gene Writer系统编辑基因组中的多个位点。在一些应用中，能够对基因组中的多个位置进行工程化可能具有很高的价值，例如，校正多个基因突变或通过在体外或体内进行多次同时修饰来优化工程化的细胞以进行细胞疗法。在该实例中，使用了3质粒系统，其包含：1)Gene Writer多肽表达质粒，例如，编码与逆转录酶融合的Cas9切口酶(Cas-RT)的质粒；2)模板质粒，例如，编码模板RNA(其确定基因组位点)和在该位点注入的编辑的表达盒的质粒；和3)第二切口gRNA表达质粒，例如，编码另外gRNA序列的质粒，以在靠近靶位点的位置处引导Cas9的第二链切口。

在该实例中，使用以下来靶向两个基因组基因座，HBB基因和人HEK3基因座以确定并行靶向多个基因座的能力：包含与这些位点具有同一性的间隔子序列的gRNA。为了分别或同时评估任一基因座的靶向，用不同的模板质粒组合物处理细胞以实现靶向以下：1)单独的HEK3，2)单独的HBB，或3)HBB和HEK3基因座。

具体地，将800ng编码Cas9-RT(MMLV)融合物的质粒(表46)、200ng编码HEK3修饰模板(模板P2，表43)的质粒和/或编码HBB修饰模板(模板P4，表43)的质粒和83ng编码HEK3第二切口gRNA(2gRNA P5，表43)的质粒和/或编码HBB第二切口gRNA(2gRNA P6，表43)的质粒使用核转染程序DS_150进行核转染进入HEK293T细胞中。核转染后，将细胞在37℃、5％CO₂下培养3天，然后进行细胞裂解和基因组DNA提取。每个基因座特异的引物用于扩增该区域，并使用Illumina MiSeq对扩增子进行测序。使用CRISPResso2管道(Clement等人NatBiotechnol[自然生物技术]37(3):224-226(2019))分析完全校正和插入缺失率以确定Gene Writing功效。表51列出了该实例中使用的Gene Writer系统的组分。

表51.

当独立测试时，两个靶标都看到了高度精确的校正，在HEK3中编辑了大约36％，在HBB中编辑了23％(图38)。此外，当同时靶向时，用通过各自模板RNA赋予的精确校正实现了约34％的HEK3靶位点编辑和14％的HBB靶位点编辑。另外，在所有条件下都以低频率观察到插入和缺失，当单独或组合测试时，每个基因座的插入缺失达到相似水平。尽管不是该实例的明确意图，但同时编辑期间插入缺失没有增加是积极指标，表明有可能在不影响每个单独编辑的精度的情况下增加可并行靶向的基因座数量。

实例35：通过人细胞的核转染递送无DNA Gene Writer系统

该实例描述了Gene Writer系统的应用以通过递送RNA组分(例如，编码GeneWriter多肽的mRNA和RNA模板)来编辑人细胞中的基因组。不希望受理论束缚，在没有DNA的情况下递送仅RNA组分的能力预计将赋予该系统主要优势，包括降低与细胞质中的DNA检测相关的免疫原性和细胞毒性，和本文描述的脂质纳米颗粒系统的可用性，其中大多数针对RNA递送而优化，可以规避与核酸治疗剂的病毒递送相关的问题(例如，制造挑战、预先存在的免疫性、对病毒蛋白的免疫原性反应)。通过使用RNA系统降低细胞毒性对于修饰更敏感的细胞类型(例如原代细胞)可能特别重要。此外，核转染可能是将这些系统递送给患者细胞例如用于离体细胞工程化的有效方法。因此，证明Gene Writing系统在作为全RNA递送且不存在DNA时正常起功能的能力具有重要价值。具体来说，该实例展示了全RNA GeneWriting系统的递送，以修饰HEK293T细胞的基因组。为了说明基于RNA的Gene Writing不限于单一组合物，采用了两个版本的Cas-RT融合多肽，它们包含衍生自莫洛尼鼠白血病病毒(Cas9-RT(MMLV))或猪内源逆转录病毒(Cas9-RT(PERV))的RT结构域(表46)。

使用T7聚合酶驱动的体外转录生成编码Gene Writer多肽的mRNA(1)。通常，编码mRNA构建体的质粒包含转录盒，该转录盒包含以下组分：T7启动子、5'UTR、Gene Writer编码序列(Cas9切口酶通过肽接头与逆转录酶融合并且进一步包含核定位信号)、3'UTR和80nt聚A尾。在该实例中，使用来自线性化质粒模板的未修饰的核苷酸制备RNA分子。编码Cas9-RT(MMLV)或Cas9-RT(PERV)(表47)的mRNA用CleanCap AG(三联生物技术公司(TriLink BioTechnologies))共转录加帽。

编码基因组编辑的Gene Writer模板RNA(2)通过化学合成产生并通过标准脱盐纯化。每个模板RNA的前三个和最后三个碱基包含2'-O-甲基硫代磷酸酯修饰。设计不同长度的模板RNA以将不同的突变引入人HEK3基因座(表48)。

如有说明，第二切口gRNA(3)是通过化学合成产生并且包括以下序列修饰：mG*mC*mA*rGrArArArUrArGrArCrUrArArUrUrGrCrArGrUrUrUrUrArGrArGrCrUrArGrArArArUrArGrCrArArGrUrUrArArArArUrArArGrGrCrUrArGrUrCrCrGrUrUrArUrCrArArCrUrUrGrArArArArArGrUrGrGrCrArCrCrGrArGrUrCrGrGrUrGrCmU*mU*mU*rU。

为了测定本文所述的RNA Gene Writing系统，在核转染前2天将HEK293T细胞铺板，以在核转染当天获得70％-80％的汇合度。根据以下组合混合RNA：i)仅Cas9-RT mRNA(1)；ii)Cas9-RT mRNA(1)、模板RNA(2)和第二切口gRNA(3)；或iii)Cas9-RT mRNA(1)和模板RNA(2)。RNA混合物包含4.5μg的Cas9-RT mRNA(1)、5μM最终浓度的模板RNA(2)和1.3μM最终浓度的第二切口gRNA(3)。根据制造商的方案，使用龙沙公司Amaxa Nucleofector 96孔穿梭系统将混合物核转染到约200,000个细胞中。然后裂解细胞并在核转染后72小时收集基因组DNA。使用引物制备扩增子测序文库以跨靶位点进行扩增，并进行Illumina测序。使用CRISPResso2管道(Clement等人Nat Biotechnol[自然生物技术]37(3):224-226(2019))分析精确校正和插入缺失率。

在这些实验中，使用模板1的Cas9-RT(MMLV)实现了约20％精确书写活性(表48)。对于长度超过120nt的模板，观察到活性下降；模板4(其编码与模板1相同的编辑，但在RT模板的3’末端添加20nt)显示精确书写活性下降约3.1倍，精确校正比插入缺失的比率下降约2.4倍(图39)。不同UTR和加帽方法情况下使用编码Cas9-RT的mRNA产生了相似水平的活性，尽管mRNA-5情况下略有增加(表49；图40)。Gene Writer Cas9-RT(PERV)与模板1和第二切口gRNA的的全RNA核转染进一步导致了约7％的精确书写效率(图41)。在该实例的实验中，添加第二切口gRNA导致书写活性增加。

表48提供了在全RNA Gene Writing实例中使用的模板RNA分子的序列。此处描述的每个模板RNA的间隔子序列保持不变并包含20nt(5’-GGCCCAGACTGAGCACGTGA-3’)，其与人HEK3基因座(也称为LINC01509)中的靶位点具有100％同一性(序列映射到NC_000009.12:107422339..107422358，装配GRCh38.p13)。模板RNA通常包含表中所示的组分，使得间隔子+支架+RT+编辑+PBS+尾可以产生完整的分子。

实例36：在全RNA Gene Writer系统中使用经修饰的核苷酸

该实例描述了Gene Writer系统的应用以通过递送RNA组分(例如，编码GeneWriter多肽的mRNA和RNA模板)来编辑人细胞中的基因组。在实例35中，进一步展示无DNA系统，该实例描述了将经修饰的核苷酸(例如，5-甲氧基尿苷)掺入编码Gene Writer多肽的mRNA中，以及将经修饰的核苷酸(例如，2’-O-甲基硫代磷酸酯)掺入Gene Writer模板RNA中。

使用T7聚合酶驱动的扩增子体外转录产生编码Gene Writer多肽的mRNA(1)，该扩增子通过PCR从质粒产生。编码mRNA构建体的质粒包含转录盒，该转录盒包含以下组分：T7启动子、5'UTR、Gene Writer编码序列(Cas9切口酶通过肽接头与逆转录酶融合并且进一步包含二分型SV40NLS)和3'UTR。添加聚A尾组分，使其被编码在用作RNA转录模板的扩增子中。在该实例中，通过将一种经修饰的核苷酸5-甲氧基尿苷(5moU)掺入转录反应中来制备mRNA分子。编码Cas9-RT(MMLV)(表47)的mRNA用CleanCap AG(三联生物技术公司)共转录加帽或通过酶促加帽(2'O甲基化，帽1)在转录后加帽(表49)。

编码基因组编辑的Gene Writer模板RNA(2)通过化学合成产生并通过标准脱盐纯化。每个模板RNA的前三个和最后三个碱基包含2'-O-甲基硫代磷酸酯修饰。在此，模板1用于将CTT插入引入人HEK3基因座中(表48)。

在这些实验中，使用全RNA Gene Writing系统实现了约20％精确书写活性，该系统在编码Gene Writer多肽的mRNA中掺入了经修饰的核苷酸(5moU)(图42)。值得注意的是，经修饰的核苷酸5moU的掺入并未对书写效率产生可观察到的抑制作用。此处测定的mRNA加帽方法产生了类似的效率(参见表49)。在没有第二切口gRNA的情况下观察到效率略有下降(图42)。

实例37：通过人细胞的基于脂质的转染递送无DNA Gene Writer系统

该实例描述了Gene Writer系统的应用以通过递送RNA组分(例如，编码GeneWriter多肽的mRNA和RNA模板)来编辑人细胞中的基因组。不希望受理论束缚，在没有DNA的情况下递送仅RNA组分的能力预计将赋予该系统主要优势，包括降低与细胞质中的DNA检测相关的免疫原性和细胞毒性，和本文描述的脂质纳米颗粒系统的可用性，其中大多数针对RNA递送而优化，可以规避与核酸治疗剂的病毒递送相关的问题(例如，制造挑战、预先存在的免疫性、对病毒蛋白的免疫原性反应)。通过使用RNA系统降低细胞毒性对于修饰更敏感的细胞类型(例如原代细胞)可能特别重要。脂质转染试剂可直接用于离体细胞工程化，基于脂质的纳米颗粒适用于体内将RNA递送至患者细胞。因此，证明Gene Writing系统在作为全RNA递送且不存在DNA时正常起功能的能力具有重要价值。具体而言，该实例展示了使用基于脂质的转染试剂Lipofectamine 3000和MessengerMAX(英杰公司(Invitrogen))递送全RNA Gene Writing系统以修饰HEK293T细胞的基因组。为了说明基于RNA的Gene Writing不限于单一组合物，采用了两个版本的Cas-RT融合多肽，它们包含衍生自莫洛尼鼠白血病病毒(Cas9-RT(MMLV))或猪内源逆转录病毒(Cas9-RT(PERV))的RT结构域(表46)。

使用T7聚合酶驱动的体外转录生成编码Gene Writer多肽的mRNA(1)。通常，编码mRNA构建体的质粒包含转录盒，该转录盒包含以下组分：T7启动子、5'UTR、Gene Writer编码序列(Cas9切口酶通过肽接头与逆转录酶融合并且进一步包含核定位信号)、3'UTR和80nt聚A尾。在该实例中，使用来自线性化质粒模板的未修饰核苷酸或使用上述转录盒的PCR扩增子制备RNA分子。编码Cas9-RT(MMLV)的mRNA用CleanCap AG(三联生物技术公司)共转录加帽或通过酶促加帽(2'O甲基化，帽1)在转录后加帽(表49)。从质粒模板产生编码Cas9-RT(PERV)的mRNA，并用CleanCap AG(三联生物技术公司)共转录加帽(表47)。

为了测定本文所述的RNA Gene Writing系统，在脂质转染前1天，将约50,000个HEK293T细胞铺板在24孔板中。根据以下组合混合RNA：i)仅Cas9-RT mRNA(1)；ii)Cas9-RTmRNA(1)、模板RNA(2)和第二切口gRNA(3)；或iii)Cas9-RT mRNA(1)和模板RNA(2)。RNA混合物包含0.45μg的Cas9-RT mRNA(1)、2.5pM最终浓度的模板RNA(2)和1.0pM最终浓度的第二切口gRNA(3)。将RNA与Opti-MEM培养基(博科公司(Gibco))和Lipofectamine 3000或MessengerMAX试剂(英杰公司)混合并添加到细胞中。然后裂解细胞并在核转染后72小时收集基因组DNA。使用引物制备扩增子测序文库以跨靶位点进行扩增，并进行Illumina测序。使用CRISPResso2管道(Clement等人Nat Biotechnol[自然生物技术]37(3):224-226(2019))分析精确校正和插入缺失率。

在这些实验中，使用通过基于脂质的转染递送的全RNA Gene Writing系统实现了高达约17％的精确书写活性，接近类似核转染的效率(图43B；核转染参见实例35)。还使用了Lipofectamine 3000(图43A)。与核转染(实例35)相比，当使用与模板1相比长20nt的模板4时，没有可观察到的减少(表48；图43C)。此外，Gene Writer Cas9-RT(PERV)与模板1的全RNA脂质转染导致所我编辑的精确书写，效率为约3.5％(图44)。

实例38：RNA Gene Writing实现对原代T细胞的无DNA精确编辑

该实例描述了使用基于Cas9-RT融合多肽的Gene Writer系统对靶DNA序列进行基因组编辑。更具体地，该实例描述了将全RNA系统核转染到原代CD4+ T细胞中以在原代人细胞中进行Gene Rewriting，例如，作为展示Gene Rewriter系统在离体应用的一种手段。

这里描述的所有RNA系统包括：1)编码Gene Writer多肽的mRNA(例如，编码Cas9-RT融合多肽的RNA)作为驱动子通过靶向切口和逆转录过程进行程序化的基因编辑，如本发明所述；2)模板RNA分子，例如，RNA，其包含(i)用于将驱动子引导至靶区域的gRNA间隔子序列(例如，与HEK3基因座中的20个核苷酸序列互补的序列)；(ii)引物结合序列，其能够与带切口的DNA的单链互补碱基配对以进行靶引发的逆转录；(iii)提供逆转录模板的异源对象序列，其进一步包含预期的最终靶序列；和(iv)与Cas9-RT多肽融合物的Cas9结构域相关联的gRNA支架序列；以及3)任选的另外的gRNA以启动靶位点附近的第二链切口，例如，RNA，其包含(i)间隔子序列，用于靶向驱动子以诱导第二切口，该第二切口在模板RNA引导的第一切口的相对链上在靶位点的近端位点处(例如，在距离第一切口50-150nt内)；和(ii)gRNA支架序列，其介导与驱动子的Cas9结构域的关联。在该实例中，Cas-RT融合多肽(1)(表46)包含与MMLV逆转录酶结构域融合的Cas9(N863A)切口酶。此处使用的模板RNA(2)具体遵循5'至3'取向(i)、(iv)、(iii)、(ii)，如其描述中所列，并在表48和实例35中详述。

为了将RNA Gene Writer系统递送入原代人CD4+ T细胞中并验证蛋白质表达，将1,000,000个细胞(人外周血CD4+T细胞，龙沙公司目录#2W-200)用CD3/CD28刺激两天，然后根据制造商的方案，使用带有EO-115核转染程序的Nucleofector 96孔穿梭系统(龙沙公司)以0、2.5、5、或10μg的编码Cas-RT多肽的mRNA进行核转染。核转染后一天，用Cas9抗体(细胞信号传导公司(Cell Signaling))进行免疫印迹来评估递送效率，以测量来自核转染的mRNA的Gene Writer多肽的蛋白质表达(图45A)。

随后，用以下任一对原代人CD4+T细胞进行核转染：(1)5μg Gene Writer多肽mRNA(仅Writer对照)；(2)5μg Gene Writer多肽mRNA和5μM模板RNA，例如，来自表48的六种模板RNA之一，它们靶向HEK3基因座的相同位点，但编辑结果或设计不同；或(3)5μg GeneWriter多肽mRNA、5μM模板RNA(例如，表48中的六种模板RNA之一)和2.075μM用于生成第二链切口的另外gRNA，例如，靶向HEK3靶位点上游108nt的序列的第二切口gRNA，如实例35所述。核转染后三天，收获细胞以检查1)Gene Writer系统的RNA递送后的细胞活力，以及2)对基因组靶位点的编辑效率。为了评估细胞活力，在用荧光活/死染料(博奇公司(BioLegend))染色细胞后，通过流式细胞术测量活细胞的百分比。在实验条件和不存在核转染(未处理的对照)的情况下，细胞活力是可比较的(图45B)。为了评估Gene Writing系统的编辑效率，通过基于PCR的扩增子测序分析分析基因组DNA，如实例35中所述。使用模板1(表48)与Gene Writer多肽mRNA(图46A和46B)，所期望编辑(完全书写)的效率达到大约6.3％。在这里，添加第二切口gRNA(图46B)导致相似的编辑水平。因此，该实例展示了使用Gene Writing系统在原代T细胞中进行高度特异性编辑，并进一步展示了在这些细胞中成功应用无DNA的全RNA Gene Writing。

实例39：检测人细胞中逆转录转座酶介导的整合

该实例描述了在人细胞中展示功能性的逆转录转座子的鉴定。通过测定天然或经修饰的逆转录转座子的整合活性，该实例展示了一种选择包含蛋白质结构域的逆转录转座酶的方法，该蛋白质结构域可用于以其天然结构域组成来重建逆转录转座酶，或作为嵌合或合成Gene Writer的组分用于工程化人基因组细胞。例如，成功产生整合信号的逆转录转座子预期包括功能性DNA结合、核酸内切酶、逆转录酶和任选的第二链合成活性。在一些实施例中，已显示证明如该实例中所述的活性的来自逆转录转座子的逆转录酶结构域用于在Gene Writer多肽中提供逆转录酶活性，例如作为Cas-RT融合多肽的RT。此处描述的筛选采用包含逆转录转座子多肽和灭活报告模板的双质粒系统的核转染进入人细胞，以表征计算机选择的逆转录转座子的RT依赖性逆转录转座效率。

在该实例中，使用了双质粒系统，其包含：1)逆转录转座子编码的蛋白质表达驱动子质粒，例如编码来自表50的逆转录转座酶多肽的质粒，其包含与用于检测蛋白表达的HiBit标签融合并由哺乳动物CMV启动子驱动的人密码子优化的逆转录转座酶编码序列，和2)模板质粒，例如包含以下的质粒：(i)用于在哺乳动物细胞中表达以驱动RNA模板分子转录的启动子，例如CMV启动子，其中模板分子进一步包含(ii)报告盒，其在质粒衍生表达的情况下是无活性的，例如，EGFP表达盒，其编码序列被相反方向编码的内含子(GFPai)破坏，两侧是(iii)天然包含(1)的逆转录转座酶的天然逆转录转座子的非翻译区(UTR)(参见图48)。在这里，GFP报告子在没有驱动其表达的启动子的情况下进行编码，以避免由于GFP毒性导致的任何信号丢失(参见图48)。

为了将双质粒系统递送进入U2OS细胞，按照制造商的说明，使用Lonza SE细胞系96孔Nucleofector^TM试剂盒，用88.3ng驱动质粒(1)和161.7ng模板质粒(2)对约400,000个细胞进行核转染。核转染后三天，使用ddPCR测量整合效率以确定每个基因组的整合拷贝数。通过使用如下所述的利用反义内含子的ddPCR方法测量逆转录依赖性逆转录转座活性。通过基于HiBit的生物发光测定法测量驱动子蛋白的表达。

当在模板质粒的报告盒(例如，此处描述的GFPai系统)中使用包含内含子序列的反义内含子报告子时，内含子存在于质粒中，但在转录过程中被剪接，因此只有通过反向从转录本获得的报告子DNA转录将缺少内含子序列(图48)。为了将检测限制在仅源自逆转录的事件，ddPCR Taqman探针被设计为跨越剪接点以与缺少内含子的DNA杂交，但不与仍含有完整内含子的质粒DNA杂交。正向和反向引物设计在探针的上游和下游以及GFP序列内。这种设计避免了模板质粒在没有第一转录步骤的情况下直接重组到基因组中的可能背景，或者来自完整模板质粒污染gDNA提取样品的可能背景。

源自表50中逆转录转座酶的Gene Writing系统按照该实例进行测定，以确定在人细胞中的活性。ddPCR对163个候选逆转录转座子系统的整合效率的分析如图49所示。根据该实例中描述的测定，25个逆转录转座酶候选者证明逆转录转座子UTR侧翼模板序列以平均大于0.01个拷贝/基因组的成功反式整合。

实例40：具有降低的醛含量的脂质试剂的选择

在该实例中，选择脂质用于含有一种或多种Gene Writing组分核酸的脂质纳米颗粒配制品的下游使用，并且至少部分基于不存在污染醛或低水平的污染醛来选择脂质。脂质试剂中的反应性醛基可在LNP配制期间引起对一种或多种组分核酸(例如RNA，例如模板RNA)的化学修饰。因此，在一些实施例中，脂质试剂的醛含量被最小化。

液相色谱(LC)与串联质谱法(MS/MS)联用可用于分离、表征和定量试剂的醛含量，例如，如Zurek等人.The Analyst[分析家]124(9):1291-1295(1999)所述，通过引用并入本文。在此，将每种脂质试剂进行LC-MS/MS分析。LC/MS-MS方法首先用C8HPLC柱分离脂质和一种或多种杂质，然后用质谱仪对这些分子进行检测和结构测定。如果醛存在于脂质试剂中，则使用结构上与醛相同但由于C13和N15标记而较重的稳定同位素标记(SIL)标准对其进行定量。将适量的SIL标准掺加到脂质试剂中。然后将混合物进行LC-MS/MS分析。通过将SIL标准的量乘以峰比(未知/SIL)来测定污染醛的量。如所述定量脂质试剂中的任何一个或多个鉴定的醛。在一些实施例中，发现选择用于LNP配制品的脂质原料不包含高于选定水平的任何污染性醛含量。在一些实施例中，用于配制的一种或多种且任选地所有脂质试剂包含小于3％的总醛含量。在一些实施例中，用于配制的一种或多种且任选地所有脂质试剂包含少于0.3％的任何单一醛种类。在一些实施例中，配制中使用的一种或多种且任选地所有脂质试剂包含少于0.3％的任何单一醛种类和少于3％的总醛含量。

实例41：在配制期间由醛引起的RNA修饰的定量

在该实例中，在配制后分析RNA分子以确定在配制过程中可能发生的任何修饰的程度，例如，以检测由脂质试剂的醛污染引起的化学修饰(参见，例如，实例40)。

RNA修饰可以通过分析核糖核苷来检测，例如根据Su等人Nature Protocols[自然实验手册]9:828-841(2014)的方法，其通过引用以其全文并入本文。在该方法中，将RNA消化成核苷混合物，然后进行LC-MS/MS分析。配制后RNA包含在LNP中，并且其必须首先通过在80％异丙醇中与GlycoBlue共沉淀而从脂质中分离。离心后，将含有RNA的沉淀小心地转移到新的Eppendorf管中，向其中添加酶混合物(全能核酸酶、1型磷酸二酯酶、磷酸酶)以将RNA消化成核苷。将Eppendorf管置于37℃下预热的Thermomixer上1小时。将所得核苷混合物通过LC-MS/MS方法直接分析，该方法首先用C18柱分离核苷和修饰的核苷，然后用质谱检测它们。

如果脂质试剂中的一个或多个醛引起了化学修饰，则数据分析将使一个或多个修饰的核苷与一个或多个醛相关联。可以使用SIL标准定量修饰的核苷，SIL标准在结构上与天然核苷相同，不同之处在于由于C13和N15标记而更重。将适当量的SIL标准掺加到核苷消化物中，然后对其进行LC-MS/MS分析。通过将SIL标准的量乘以峰比(未知/SIL)获得修饰核苷的量。LC-MS/MS能够同时定量所有靶标分子。

在一些实施例中，与在脂质纳米颗粒配制过程中使用较高纯度的脂质试剂作为材料相比，使用具有较高杂质醛含量的脂质试剂导致较高水平的RNA修饰。因此，在优选的实施例中，使用较高纯度的脂质试剂，其导致RNA修饰低于可接受的水平。

实例42：Gene Writer^TM实现在基因组DNA中的大插入

实例43：Gene Writer可以独立于单链模板修复途径整合基因货物

实例44：封装萤火虫萤光素酶mRNA的脂质纳米颗粒的配制

在该实例中，将编码萤火虫萤光素酶的报告子mRNA配制成包含不同可电离脂质的脂质纳米颗粒。脂质纳米颗粒(LNP)组分(可电离脂质、辅助脂质、甾醇、PEG)与脂质组分一起溶解在100％乙醇中。然后分别使用可电离脂质LIPIDV004或LIPIDV005(表A1)、DSPC、胆固醇和DMG-PEG2000以50:10:38.5:1.5的摩尔比制备这些。分别使用LIPIDV003、DSPC、胆固醇和DMG-PEG 2000以45:9:44:2的摩尔比制备含有可电离脂质LIPIDV003(表A1)的萤火虫萤光素酶mRNA-LNP。这些配制品中使用的萤火虫萤光素酶mRNA是通过体外转录产生的，并编码萤火虫萤光素酶蛋白，进一步包含5'帽、5'和3’UTR以及聚A尾。mRNA是在T7 RNA聚合酶体外转录的标准条件下合成的，具有共转录加帽，但在反应中，核苷酸三磷酸UTP 100％被N1-甲基-假尿苷三磷酸取代。将纯化的mRNA溶解在25mM柠檬酸钠中，pH 4，浓度为0.1mg/mL。

萤火虫萤光素酶mRNA被配制成LNP，其中脂质胺与RNA磷酸(N:P)的摩尔比为6。使用精密纳米系统NanoAssemblr^TM台式仪器，使用制造商推荐的设置，通过微流体混合脂质和RNA溶液形成LNP。在使用不同流速的混合过程中，水溶剂与有机溶剂的比例保持为3:1。混合后，收集LNP，并在15mM Tris、5％蔗糖缓冲液中在4℃透析过夜。通过使用Amicon 10kDa离心过滤器(密理博公司(Millipore))离心来浓缩萤火虫萤光素酶mRNA-LNP配制品。然后使用0.2μm无菌过滤器过滤所得混合物。最终的LNP储存在-80℃直至进一步使用。

表A1：实例44中使用的可电离脂质(式(ix)、(vii)和(iii))

分析制备的LNP的尺寸、均匀性和％RNA封装。使用Malvern Zetasizer DLS仪器(马尔文分析公司(Malvern Panalytical))通过动态光散射进行尺寸和均匀性测量。在通过DLS测量之前在PBS中稀释LNP以确定平均粒径(纳米，nm)和多分散指数(pdi)。萤火虫萤光素mRNA-LNP的粒径显示在表A2中。

表A2：LNP粒径和均匀性

LNP ID	可电离脂质	粒径(nm)	pdi
				LNPV019-002	LIPIDV005	77	0.04
LNPV006-006	LIPIDV004	71	0.08
				LNPV011-003	LIPIDV003	87	0.08

通过基于荧光的RNA定量测定Ribogreen(赛默飞世尔科技公司(ThermoFisherScientific))测量萤光素酶mRNA的封装百分比。在1×TE缓冲液中稀释LNP样品，并按照制造商的建议与Ribogreen试剂混合，并在i3 SpectraMax分光光度计(分子仪器公司(Molecular Devices))上使用644nm激发和673 nm发射波长进行测量。为了确定封装百分比，使用利用完整LNP和破坏的LNP的Ribogreen测定法测量LNP，其中将颗粒与含有0.2％(w/w)Triton-X100的1×TE缓冲液一起孵育以破坏颗粒以允许封装的RNA与Ribogreen试剂相互作用。再次在i3 SpectraMax分光光度计上测量样品以确定RNA的总量。当LNP完整时，从检测到的RNA量中减去总RNA以确定封装的部分。将值乘以100以确定封装百分比。由Ribogreen测量的萤火虫萤光素酶mRNA-LNP和RNA封装百分比报告在表A3中。

表A3：LNP配制后的RNA封装

LNP ID	可电离脂质	％mRNA封装
			LNPV019-002	LIPIDV005	98
LNPV006-006	LIPIDV004	92
			LNPV011-003	LIPIDV003	97

实例45：原代肝细胞中mRNA-LNP的体外活性测试

在该实例中，包含萤光素酶报告子mRNA的LNP用于将RNA货物递送到培养细胞中。将原代小鼠或原代人肝细胞解冻并以每孔30,000或50,000个细胞的密度分别接种在胶原蛋白包被的96孔组织培养板中。将细胞铺板于不含酚红的1x William培养基E中，并在37℃和5％CO₂下孵育。4小时后，将培养基更换为维持培养基(1x William培养基E，不含苯酚，含肝细胞维持补充剂包(赛默飞世尔科技公司))，并且将细胞在37℃和5％CO₂下培养过夜。将萤火虫萤光素酶mRNA-LNP在4℃解冻并轻轻混合。在含有7.5％胎牛血清的维持培养基中将LNP稀释至适当浓度。将LNP在37℃孵育5分钟，然后添加到铺板的原代肝细胞中。为了评估RNA货物向细胞的递送，将LNP与原代肝细胞孵育24小时，然后收获细胞并裂解以进行萤光素酶活性测定。简而言之，从每个孔中吸出培养基，然后用1x PBS洗涤。从每个孔中吸出PBS，并将200μL被动裂解缓冲液(PLB)(普洛麦格公司(Promega))添加回每个孔中，然后放置在板振荡器上10分钟。将PLB中的裂解细胞冷冻并储存在-80℃，直到进行萤光素酶活性测定。

为了进行萤光素酶活性测定，将被动裂解缓冲液中的细胞裂解物解冻，转移到圆底96孔微量滴定板中，并在4℃以15,000g离心3分钟以去除细胞碎片。根据制造商的说明，使用Pierce^TM BCA蛋白质测定试剂盒(赛默飞世尔科技公司)测量每个样品的蛋白质浓度。蛋白质浓度用于标准化细胞数量并确定用于萤光素酶测定的裂解物的适当稀释度。根据制造商的说明，使用萤光素酶测定试剂(普洛麦格公司)在白壁96孔微量滴定板中进行萤光素酶活性测定，并使用i3X SpectraMax读板器(分子仪器公司)测量发光。萤火虫mRNA-LNP介导的萤火虫萤光素酶活性的剂量反应结果如图50A和B中所示并且表明RNA向培养中的原代细胞中的成功的LNP介导的递送。如图50A所示，如根据实例45，分析根据实例44配制的LNP用于将货物递送至原代人(A)和小鼠(B)肝细胞。萤光素酶测定显示细胞裂解物中的剂量反应性萤光素酶活性，表明RNA成功递送至细胞并从mRNA货物中表达萤火虫萤光素酶。

实例46：LNP介导的RNA向小鼠肝脏的递送。

为了测量LNP介导的将含有萤火虫萤光素酶的颗粒递送至肝脏的有效性，如实例44中所述配制和表征LNP，并在施用至小鼠之前(实例45)进行体外测试。大约8周龄的C57BL/6雄性小鼠(查尔斯河实验室(Charles River Labs))通过静脉内(i.v.)途径以1mg/kg的剂量被给予LNP。媒剂对照动物静脉内给予300μL磷酸盐缓冲盐水。在注射LNP前30分钟，通过腹膜内途径给小鼠注射5mg/kg的地塞米松。在LNP施用后或6、24、48小时尸检时收集组织，每个时间点每组5只小鼠。收集肝脏和其他组织样品，在液氮中速冻，并储存在-80℃直至分析。

在干冰上将冷冻的肝脏样品粉碎并转移到含有裂解基质D珠(MP生物医药公司(MPBiomedical))的均质管中。将冰冷的1x萤光素酶细胞培养裂解试剂(CCLR)(普洛麦格公司)添加到每个试管中，并将样品在Fast Prep-245G匀浆器(MP生物医药公司)中以6m/s匀浆40秒。将样品转移到干净的微量离心管中并通过离心澄清。在萤光素酶活性测定之前，根据制造商的说明，使用Pierce^TM BCA蛋白质测定试剂盒(赛默飞世尔科技公司)确定每个样品的蛋白质浓度。根据制造商的说明，使用i3X SpectraMax读板器(分子仪器公司)，使用萤光素酶测定试剂(普洛麦格公司)用200μg(总蛋白)肝脏匀浆测量萤光素酶活性。肝样品显示所有脂质配制品成功递送mRNA，其中报告子活性按照LIPIDV005>LIPIDV004>LIPIDV003的排序(图51)。如图51所示，配制含有萤火虫萤光素酶mRNA的LNP，并通过iv将其递送给小鼠，并在施用后6、24和48小时收集肝脏样品并测定萤光素酶活性。各种配制品的报告子活性依次为LIPIDV005>LIPIDV004>LIPIDV003。RNA表达是短暂的，酶水平在48小时后恢复到接近媒剂背景。施用后。该测定验证了这些可电离脂质及其各自配制品对于RNA系统而言用于递送至肝脏的用途。

不希望受实例限制，该实例中描述的脂质和配制品支持报告子mRNA以外的其他RNA分子体内递送的功效。全RNA Gene Writing系统可以通过本文所述的配制品递送。例如，描述了使用Gene Writer多肽mRNA、模板RNA和任选的第二切口gRNA的全RNA系统，用于通过核转染、通过使用修饰的核苷酸、通过脂转染体外编辑基因组，以及编辑细胞，例如，原代T细胞。如本申请所述，这些全RNA系统在细胞免疫原性和毒性方面具有许多独特的优势，这在处理更敏感的原代细胞，尤其是免疫细胞(例如T细胞)时非常重要，与永生化细胞培养细胞系不同。此外，考虑到这些全RNA系统可以使用如本文中提及的新型脂质递送系统靶向替代组织和细胞类型，例如，用于递送至肝、肺、肌肉、免疫细胞等，条件是Gene Writing系统的功能已经在体外的多种细胞类型中得到验证，并且用靶向LNP递送的其他RNA系统的功能是本领域已知的。Gene Writing系统的体内递送可能在许多治疗领域产生巨大影响，例如校正致病突变、滴注保护性变体和增强身体内源性细胞，例如T细胞。考虑到适当的配制品，全RNA Gene Writing被认为能够制造基于细胞的患者中原位治疗剂。

Claims

1.一种用于修饰DNA的系统，该系统包含：

(b)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5′到3′)(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3′靶同源结构域，

2.一种用于修饰DNA的系统，该系统包含：

3.一种用于修饰DNA的系统，该系统包含：

(b)模板RNA(etRNA)(或编码该模板RNA的DNA)，其包含(例如，从5′到3′)(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3′靶同源结构域，

4.一种用于修饰DNA的系统，该系统包含：

5.如前述权利要求中任一项所述的系统，其中以下一项或多项：该RT结构域与该DBD异源；该DBD与该核酸内切酶结构域异源；或该RT结构域与该核酸内切酶结构域异源。

6.一种用于修饰DNA的系统，该系统包含：

7.一种用于修饰DNA的系统，该系统包含：

(b)模板(或编码该模板RNA的DNA)，其包含(例如，从5′到3′)(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3′靶同源结构域，

其中(a)(ii)和/或(a)(iii)包含TAL结构域；锌指结构域；或选自表3的CRISPR/Cas结构域或其功能变体(例如，突变体)。

8.一种用于修饰DNA的系统，该系统包含：

(b)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5′到3′)(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列(例如CRISPR间隔子)，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3’靶同源结构域，

其中该核酸内切酶结构域，例如切口酶结构域，切割该靶位点DNA的两条链，并且其中这些切割彼此分开至少2、3、4、5、6、7、8、9、10、15、20或30个核苷酸。

9.一种用于修饰DNA的系统，该系统包含：

(b)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5′到3′)(i)任选地，结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)特异性结合该RT结构域的序列，(iii)异源对象序列，和(iv)3’靶同源结构域。

10.如权利要求9所述的系统，其中该模板RNA进一步包含结合(a)(ii)和/或(a)(iii)的序列。

11.一种用于修饰DNA的系统，该系统包含：

(c)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5′到3′)(i)任选地，结合该第二多肽(例如，结合(b)(i)和/或(b)(ii))的序列，(ii)任选地，结合该第一多肽(例如，特异性结合该RT结构域)的序列，(iii)异源对象序列，和(iv)3’靶同源结构域。

12.一种用于修饰DNA的系统，该系统包含：

(b)第一模板RNA(或编码该RNA的DNA)，其包含(例如，从5′到3′)(i)结合该多肽(例如，结合(a)(ii)和/或(a)(iii))的序列和(ii)结合靶位点(例如，靶基因组中位点的第二链)的序列，(例如，其中该第一RNA包含gRNA)；

(c)第二模板RNA(或编码该RNA的DNA)，其包含(例如，从5′到3′)(i)任选地，结合该多肽(例如，特异性结合该RT结构域)的序列，(ii)异源对象序列，和(iii)3’靶同源结构域。

13.一种模板RNA(或编码模板RNA的DNA)，其包含(例如，从5′到3′)(i)结合靶位点(例如靶基因组中位点的第二链)的序列，(ii)特异性结合多肽的RT结构域的序列，(iii)异源对象序列，和(iv)3’靶同源结构域。

14.如权利要求13所述的模板RNA，其进一步包含(v)结合多肽(例如，包含该RT结构域的相同多肽)的核酸内切酶和/或DNA结合结构域的序列。

15.如权利要求13或14中任一项所述的模板RNA，其中该RT结构域包含选自表1或3的序列或表2的逆转录酶结构域的序列或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列。

16.如权利要求13或14中任一项所述的模板RNA，其中该RT结构域包含选自表1或3的序列或表2的逆转录酶结构域的序列，其中该RT结构域进一步包含相对于天然序列的多个取代，例如至少1、2、3、4、5、10、20、30、40、50、60、70、80、90、或100个取代。

17.如权利要求13-16中任一项所述的模板RNA，其中(ii)的序列特异性结合该RT结构域。

18.如权利要求13-17中任一项所述的模板RNA，其中特异性结合该RT结构域的序列是表1的序列，例如UTR序列，或来自表2的结构域的序列，或与其具有至少70％、75％、80％、85％、90％、95％或99％同一性的序列。

19.一种模板RNA(或编码该模板RNA的DNA)，其从5′至3′包含：(ii)结合多肽的核酸内切酶和/或DNA结合结构域的序列，(i)结合靶位点(例如靶基因组中位点的第二链)的序列，(iii)异源对象序列，和(iv)3′靶同源结构域。

20.一种模板RNA(或编码该模板RNA的DNA)，其从5′至3′包含：(iii)异源对象序列，(iv)3’靶同源结构域，(i)结合靶位点(例如，靶基因组中位点的第二链)的序列，和(ii)结合多肽的核酸内切酶和/或DNA结合结构域的序列。

21.如任一前述权利要求所述的系统或模板RNA，其中该模板RNA、第一模板RNA或第二模板RNA包含特异性结合该RT结构域的序列。

22.一种用于修饰DNA的系统，其包含：

(b)第二模板RNA(或编码该第二模板RNA的DNA)，其包含(i)特异性结合多肽(例如(a)的多肽)的逆转录酶(RT)结构域的序列，(ii)异源对象序列，和(iii)3′靶同源结构域。

23.如权利要求14所述的系统，其中编码该第一模板RNA的核酸和编码该第二模板RNA的核酸是两个分开的核酸。

24.如权利要求14所述的系统，其中编码该第一模板RNA的核酸和编码该第二模板RNA的核酸是相同核酸分子的一部分，例如，存在于相同载体上。

25.一种多肽或编码该多肽的核酸，其中该多肽包含(i)逆转录酶(RT)结构域，(ii)DNA结合结构域(DBD)；和(iii)核酸内切酶结构域，例如切口酶结构域，其中该RT结构域具有表1或3的序列或表2的逆转录酶结构域的序列，或与其具有至少70％、75％、80％、85％、90％、95％、96％、97％、98％或99％同一性的序列。

26.一种多肽或编码该多肽的核酸，其中该多肽包含(i)逆转录酶(RT)结构域，(ii)DNA结合结构域(DBD)；和(iii)核酸内切酶结构域，例如切口酶结构域，其中该RT结构域具有表1或3的序列或表2的逆转录酶结构域的序列，其中该RT结构域进一步包含相对于天然序列的多个取代，例如至少1、2、3、4、5、10、20、30、40、50、60、70、80、90、或100个取代。

27.一种用于修饰DNA的系统，其包含：

28.一种用于修饰DNA的系统，其包含：

29.如权利要求27或28中任一项所述的系统，其中编码该第一多肽的核酸和编码该第二多肽的核酸是两个分开的核酸。

30.如权利要求27或28中任一项所述的系统，其中编码该第一多肽的核酸和编码该第二多肽的核酸是相同核酸分子的一部分，例如，存在于相同载体上。

31.一种反应混合物，该反应混合物包含：

细胞和如任一前述权利要求所述的任何系统、多肽、模板RNA、或编码其的DNA。

32.一种反应混合物，该反应混合物包含：

包含靶位点的DNA和和如任一前述权利要求所述的任何系统、多肽、模板RNA、或编码其的DNA。

33.一种试剂盒，该试剂盒包含：

如任一前述权利要求所述的系统、多肽、模板RNA、或编码其的DNA；

使用该系统、多肽、模板RNA或编码其的DNA的说明：以及

包含靶位点的细胞或DNA中之一或两者。

34.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该DBD包含TAL结构域。

35.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该DBD包含锌指结构域。

36.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该DBD包含CRISPR/Cas结构域。

37.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该核酸内切酶结构域是切口酶结构域。

38.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该核酸内切酶结构域包含CRISPR/Cas结构域。

39.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该CRISPR/Cas结构域包含来自表4的结构域或多肽，或其功能变体(例如，突变体)。

40.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该CRISPR/Cas结构域包含来自表4的属/种的结构域或多肽。

41.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该核酸内切酶结构域包含IIs型核酸酶(例如FokI)、霍利迪连接解离酶或包含消除其切割一条链的能力的改变(例如，将双链DNA核酸酶转化为切口酶)的双链DNA核酸酶。

42.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域包含选自表1或3的逆转录酶或其功能片段或变体或表2的逆转录酶结构域的序列。

43.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域包含相对于天然存在的RT结构域或选自表1或3的RT结构域或功能片段或表2的逆转录酶结构域的序列的一个或多个突变(例如，插入、缺失或取代)，例如，至少1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90或100个突变。

44.如权利要求43所述的系统、试剂盒、多肽或反应混合物，其中该一个或多个突变选自鼠白血病病毒逆转录酶的RT结构域中的D200N、L603W、T330P、D524G、E562Q、D583N、P51L、S67R、E67K、T197A、H204R、E302K、F309N、W313F、L435G、N454K、H594Q、L671P、E69K或D653N或另一个RT结构域的相应位置处的相应突变。

45.如权利要求43所述的系统、试剂盒、多肽或反应混合物，其中该一个或多个突变选自WO 2018089860 A1的R2Bm逆转录转座酶的RT结构域中的突变(例如C952S、和/或C956S、和/或C952S、C956S(双突变体)、和/或C969S、和/或H970Y、和/或R979Q、和/或R976Q、和/或R1071S、和/或R328A、和/或R329A、和/或Q336A、和/或R328A、R329A、Q336A(三突变体)、和/或G426A、和/或D428A、和/或G426A、D428A(双突变体)突变，和/或其任何组合；相对于WO2018089860 A1 SEQ ID NO：52的位置)或者在另一个RT结构域的相应位置处的相应突变，WO 2018089860 A1通过引用并入本文。

46.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域位于该多肽中该DBD的C末端。

47.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域位于该多肽中该切口酶结构域的C末端。

48.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域位于该多肽中该DBD的N末端。

49.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该RT结构域位于该多肽中该切口酶结构域的N末端。

50.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该多肽包含接头，例如，位于该RT结构域和该DBD之间或该RT结构域和该切口酶结构域之间。

51.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该接头的长度是2-50个氨基酸，例如2-30个氨基酸。

52.如任一前述权利要求所述的系统、试剂盒、多肽或反应混合物，其中该接头是柔性接头，例如，包含Gly和/或Ser残基。

53.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该3′靶同源结构域与待由该系统修饰的位点相邻的序列互补，或与跟待由该系统修饰的位点相邻的序列互补的序列包含不超过1、2、3、4或5个错配。

54.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该3′靶同源结构域的长度超过4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190或200个核苷酸，(例如，长度是4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸)。

55.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该3′靶同源结构域的长度不超过4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190或200个核苷酸。

56.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列与待由该系统修饰的位点互补，除了待修饰的一个或多个位置处。

57.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列与待由该系统修饰的位点互补，除了在编码待插入该位点的序列的位置处。

58.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列与待由该系统修饰的位点互补，除了该异源对象序列不包含编码待在该位点缺失的序列的核苷酸。

59.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列的长度超过3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸(例如，长度是3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸)。

60.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列的长度不超过3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸。

61.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列用至少1、2、3、4、5、6、7、8、9或10个核苷酸取代非靶位点核苷酸。

62.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列在该靶位点中插入至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95或100个核苷酸，或至少0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10千碱基。

63.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列缺失至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、81、85、90、95、100、110、120、130、140、150、160、170、180、190或200个核苷酸。

64.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该异源对象序列与结合该多肽(例如，结合核酸内切酶结构域和/或DBD结构域)的序列分开至少1、2、3、4、5、6、7、8、9、10、15、20、25或30个核苷酸。

65.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中结合该多肽(例如，结合核酸内切酶结构域和/或DBD结构域)的序列的长度是至少45、50、55、60、65、70、75、80、85、90、95、100、110、120或130个核苷酸(并且任选地长度不超过150、140、130、120、110、100、90、85或80个核苷酸)。

66.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中结合该多肽的序列结合该核酸内切酶结构域和/或DBD结构域。

67.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中结合该多肽(例如，结合该核酸内切酶结构域和/或DBD结构域)的序列包含gRNA。

68.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中结合靶位点(例如，靶基因组中位点的第二链)的序列的长度是至少15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120或130个核苷酸(并且长度任选地不超过150、140、130、120、110、100、90、80、70、60、50、40、30、29、28、27、26、25、24、23、22、21或20个核苷酸)，例如长度是17、18、19、20、21、22、23或24个核苷酸。

69.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中结合靶位点的序列与该靶位点的第二链互补，或相对于与该靶位点的第二链互补的序列包含不超过1、2、3、4、或5个错配。

70.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中结合靶位点(例如，靶基因组中位点的第二链)的序列与结合该多肽(例如，结合该核酸内切酶结构域和/或DBD结构域)的序列分开至少1、2、3、4、5、6、7、8、9、10、15、20、25或30个核苷酸。

71.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其进一步包含引导该核酸内切酶结构域(例如，切口酶)结构域对该第二链(例如，在该靶基因组中)进行切口的第二链靶向gRNA。

72.如权利要求71所述的系统、试剂盒、模板RNA或反应混合物，其中该模板RNA进一步包含该第二链靶向gRNA。

73.如权利要求71所述的系统、试剂盒、模板RNA或反应混合物，其中该第二链靶向gRNA位于与该模板RNA分开的核酸上。

74.如权利要求71-73中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该gRNA引导该核酸内切酶结构域(例如，切口酶)结构域在位于该靶位点修饰的5’或3’的至少10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145或150个核苷酸的位点处对该第二链(例如在该靶基因组中)进行切口。

75.如权利要求71-74中任一项所述的系统、试剂盒、模板RNA或反应混合物，其中该gRNA特异性结合该第一链。

76.一种系统，其包含：

编码如任一前述权利要求所述的多肽或系统的mRNA，和

如任一前述权利要求所述的模板RNA。

77.如权利要求76所述的系统，其中编码如任一前述权利要求所述的多肽或系统的mRNA和如任一前述权利要求所述的模板RNA位于不同的核酸分子上。

78.一种包含RNA分子的系统，该系统包含：

如任一前述权利要求所述的模板RNA(或编码该模板RNA的RNA)，和

编码如任一前述权利要求所述的系统或多肽的序列。

79.如权利要求78所述的系统，其中该RNA分子包含内部核糖体进入位点，该内部核糖体进入位点例如可操作地连接至编码该系统或多肽的序列。

80.如权利要求78或79中任一项所述的系统，其中该RNA分子包含切割位点，该切割位点例如位于该模板RNA(或编码该模板RNA的RNA)和编码该系统或多肽的序列之间。

81.如任一前述权利要求所述的系统或多肽，其中该多肽包含分裂型内含肽，例如该RT结构域、DBD、核酸内切酶(例如切口酶)结构域或其组合中的两个或更多个(例如全部)被翻译为分开的蛋白质，通过蛋白质剪接将这些分开的蛋白质组合成单个多肽。

82.一种脂质纳米颗粒(LNP)，该脂质纳米颗粒包含如任一前述权利要求所述的系统、模板RNA、多肽(或编码其的RNA)，或编码该系统、模板RNA或多肽的DNA。

83.一种系统，其包含：

第一脂质纳米颗粒，该第一脂质纳米颗粒包含如任一前述权利要求所述的系统或多肽的多肽(或编码其的DNA或RNA)；以及

第二脂质纳米颗粒，该第二脂质纳米颗粒包含如任一前述权利要求所述的系统或模板RNA的模板RNA(或编码其的DNA)。

84.一种病毒、病毒样颗粒、融合体或病毒体，该病毒、病毒样颗粒、融合体或病毒体包含如任一前述权利要求所述的系统、模板RNA、多肽(或编码其的RNA)，或编码该系统、模板RNA或多肽的DNA。

85.一种系统，其包含：

第一病毒、病毒样颗粒、融合体或病毒体，该第一病毒、病毒样颗粒、融合体或病毒体包含如任一前述权利要求所述的系统或多肽的多肽(或编码其的DNA或RNA)；以及

第二病毒、病毒样颗粒或病毒体，该第二病毒、病毒样颗粒或病毒体包含如任一前述权利要求所述的系统或模板RNA的模板RNA(或编码其的DNA)。

86.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中存在的该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％的长度大于100、125、150、175或200个核苷酸，或长度至少0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10千碱基(并且任选地长度小于15、10、5或20千碱基，或长度小于500、400、300或200个核苷酸)。

87.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中存在的该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％含有聚A尾(例如，长度是至少5、10、20、30、40、50、60、70、80、90或100个核苷酸的聚A尾)。

88.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％包含：

5′帽，例如：7-甲基鸟苷帽(例如，O-Me-m7G帽)；超甲基化帽类似物；NAD+衍生的帽类似物(例如，如Kiledjian，Trends in Ccll Biology[细胞生物学趋势]28，454-464(2018)中所述)；或经修饰的，例如生物素化的帽类似物(例如，Bednarek等人，Phil Trans R Soc B[伦敦皇家学会哲学汇刊b辑-生物科学]373，20180167(2018))中所述)，和/或

选自以下中的一项或多项的3′特征：聚A尾；16个核苷酸长的茎环结构，其两侧为未配对的5个核苷酸(例如，Mannironi等人，Nucleic Acid Research[核酸研究]17，9113-9126(1989)中所述)；三螺旋结构(例如，Brown等人，PNAS[美国国家科学院院报]109，19202-19207(2012)所述)；tRNA、YRNA或穹窿RNA结构(例如，如Labno等人，BioChemica etBiophysica Acta[生物化学和生物物理学报]1863，3125-3147(2016)所述)；掺入一个或多个脱氧核糖核苷酸三磷酸(dNTP)、2′O-甲基化NTP或硫代磷酸酯-NTP；单核苷酸化学修饰(例如，将3′末端核糖氧化为反应性醛，然后缀合醛反应性修饰的核苷酸)；或化学连接到另一个核酸分子。

89.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该模板RNA包含一个或多个经修饰的核苷酸，例如选自二氢尿苷、肌苷、7-甲基鸟苷、5-甲基胞苷(5mC)、5′磷酸核糖胸核苷、2′-O-甲基核糖胸核苷、2′-O-乙基核糖胸核苷、2′-氟核糖胸核苷、C-5丙炔基-脱氧胞苷(pdC)、C-5丙炔基-脱氧尿苷(pdU)、C-5丙炔基-胞苷(pC)、C-5丙炔基-尿苷(pU)、5-甲基胞苷、5-甲基尿苷、5-甲基脱氧胞苷、5-甲基脱氧尿苷甲氧基、2，6-二氨基嘌呤、5′-二甲氧基三苯甲基-N4-乙基-2′-脱氧胞苷、C-5丙炔基-f-胞苷(pf℃)、C-5丙炔基-f-尿苷(pfU)、5-甲基f-胞苷、5-甲基f-尿苷、C-5丙炔基-m-胞苷(pmC)、C-5丙炔基-f-尿苷(pmU)、5-甲基m-胞苷、5-甲基m-尿苷、LNA(锁核酸)、MGB(小沟结合剂)假尿苷(Ψ)、1-N-甲基假尿苷(1-Me-Ψ)、或5-甲氧基尿苷(5-MO-U)。

90.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％包含一个或多个经修饰的核苷酸。

91.如任一前述权利要求所述的系统、试剂盒、模板RNA或反应混合物，其中在稳定性测试后该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％保持完整(例如，长度大于100、125、150、175或200个核苷酸，或长度至少0.3、0.4、0.5、0.6、0.7、0.8、0.9、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5或10千碱基)。

92.如前述权利要求中任一项所述的系统、试剂盒或反应混合物，其中在对该系统进行效力测定后，至少1％的靶位点被修饰。

93.如任一前述权利要求所述的系统、试剂盒、模板RNA、多肽或反应混合物，其中该系统、多肽、模板RNA、和/或编码其的DNA被配制成脂质纳米颗粒(LNP)。

94.如任一前述权利要求所述的系统、试剂盒、模板RNA、多肽或反应混合物，其中编码该系统、多肽和/或模板RNA的DNA被包装到病毒、病毒样颗粒、病毒体、脂质体、囊泡、外泌体或LNP中。

95.如权利要求94所述的系统、试剂盒、模板RNA、多肽或反应混合物，其中编码该系统、模板RNA或多肽的DNA被包装到腺相关病毒(AAV)中。

96.如任一前述权利要求所述的系统、试剂盒、模板RNA、多肽或反应混合物，其中该系统、模板RNA、多肽、脂质纳米颗粒(LNP)、病毒、病毒样颗粒或病毒体不含或基本上不含热原、病毒、真菌、细菌病原体和/或宿主细胞蛋白质污染。

97.一种病毒、病毒样颗粒或病毒体，其包含：

如任一前述权利要求所述的系统、模板RNA或多肽，或编码其中任一个的DNA，和

腺相关病毒(AAV)衣壳蛋白。

98.如任一前述权利要求所述的系统、试剂盒、模板RNA、多肽、病毒、病毒样颗粒或病毒体，其中该系统、模板RNA和/或多肽在靶组织中是有活性的，并且在非靶组织中活性较低(例如，无活性)。

99.如权利要求98所述的系统、试剂盒、模板RNA、多肽、病毒、病毒样颗粒或病毒体，其进一步包含对该靶组织特异的一个或多个第一组织特异性表达控制序列，其中对该靶组织特异性的该一个或多个第一组织特异性表达控制序列与该模板RNA、该多肽或编码其的核酸、或两者可操作地相关联。

100.一种模板RNA的制备方法，该方法包括：

(a)提供如任一前述权利要求所述的模板RNA，和

(b)测定以下中的一项或多项：

(iv)该模板RNA中一个或多个经修饰的核苷酸(例如，选自二氢尿苷、肌苷、7-甲基鸟苷、5-甲基胞苷(5mC)、5′磷酸核糖胸核苷、2′-O-甲基核糖胸核苷、2′-O-乙基核糖胸核苷、2′-氟核糖胸核苷、C-5丙炔基-脱氧胞苷(pdC)、C-5丙炔基-脱氧尿苷(pdU)、C-5丙炔基-胞苷(pC)、C-5丙炔基-尿苷(pU)、5-甲基胞苷、5-甲基尿苷、5-甲基脱氧胞苷、5-甲基脱氧尿苷甲氧基、2，6-二氨基嘌呤、5′-二甲氧基三苯甲基-N4-乙基-2′-脱氧胞苷、C-5丙炔基-f-胞苷(pfC)、C-5丙炔基-f-尿苷(pfU)、5-甲基f-胞苷、5-甲基f-尿苷、C-5丙炔基-m-胞苷(pmC)、C-5丙炔基-f-尿苷(pmU)、5-甲基m-胞苷、5-甲基m-尿苷、LNA(锁核酸)、MGB(小沟结合剂)假尿苷(Ψ)、1-N-甲基假尿苷(1-Me-Ψ)、或5-甲氧基尿苷(5-MO-U))的存在、不存在和/或类型，例如是否存在的该模板RNA中的至少80％、85％、90％、95％、96％、97％、98％或99％含有一个或多个经修饰的核苷酸；

101.一种制造用于修饰DNA的系统的方法，该方法包括：

(a)提供用于修饰如任一前述权利要求所述的DNA的系统，以及

(b)测定以下中的一项或多项：

(viii)该多肽、第一多肽或第二多肽上翻译后修饰的存在、不存在和/或类型，例如是否该多肽、第一多肽或第二多肽中的至少80％、85％、90％、95％、96％、97％、98％、或99％含有选定的翻译后修饰；

(ix)该多肽、第一多肽或第二多肽中一个或多个人工的、合成的或非规范的氨基酸的存在、不存在和/或类型，例如，是否该多肽、第一多肽或第二多肽中的至少80％、85％、90％、95％、96％、97％、98％、或99％含有一个或多个人工的、合成的或非规范的氨基酸；

102.一种用于修饰细胞中基因组DNA中的靶位点的方法，该方法包括：

使该细胞与以下接触：

(b)模板RNA(或编码该模板RNA的DNA)，其包含(例如，从5′到3′)(i)任选地，结合该靶位点(例如靶基因组中位点的第二链)的序列，(ii)任选地，结合该多肽的序列，(iii)异源对象序列，和(iv)3′靶同源结构域，

从而修饰细胞中基因组DNA中的靶位点。

103.一种用于修饰细胞中基因组DNA中的靶位点的方法，该方法包括：

使该细胞与如任一前述权利要求所述的系统、多肽、模板RNA、或编码其的DNA接触，

从而修饰细胞中基因组DNA中的靶位点。

104.一种用于修饰细胞中基因组DNA中的靶位点的方法，该方法包括：

使该细胞与以下接触：

从而修饰细胞中基因组DNA中的靶位点，

105.一种治疗患有与遗传缺陷相关的疾病或病症的受试者的方法，该方法包括：

向该受试者施用：

从而治疗患有与遗传缺陷相关的疾病或病症的受试者。

106.一种治疗患有与遗传缺陷相关的疾病或病症的受试者的方法，该方法包括：

向该受试者施用如任一前述权利要求所述的系统、多肽、模板RNA、或编码其的DNA，

从而治疗患有与遗传缺陷相关的疾病或病症的受试者。

107.如权利要求105或106所述的方法，其中与遗传缺陷相关的疾病或病症是表9-12中任一个中所列的适应症，和/或其中该遗传缺陷是表9-12中任一个中所列的基因的缺陷。

108.如权利要求105-107中任一项所述的方法，其中该受试者是人患者。