CN116419975A

CN116419975A - 使用以位点特异性靶向元件实现的可编程添加（paste）来进行位点特异性遗传改造的系统、方法和组合物

Info

Publication number: CN116419975A
Application number: CN202180072013.8A
Authority: CN
Inventors: 奥马尔·阿布达耶; 乔纳森·古滕伯格
Original assignee: Massachusetts Institute of Technology
Current assignee: Massachusetts Institute of Technology
Priority date: 2020-10-21
Filing date: 2021-10-21
Publication date: 2023-07-11
Also published as: US20230135673A1; US20230279391A1; US11572556B2; US11834658B2; EP4232583A1; US20240067961A1; JP2023546597A; KR20230091894A; US11827881B2; AU2021364781A1; US20220154224A1; US20220145293A1; MX2023004383A; US20240076662A1; IL301368A; WO2022087235A1; CA3196116A1; US11952571B2

Abstract

本公开内容提供了使用以位点特异性靶向元件实现的可编程添加(Programmable Addition via Site‑Specific Targeting Element，PASTE)来进行位点特异性遗传改造的系统、方法和组合物。PASTE包括将整合位点添加到靶基因组中，随后在该位点处插入一个或更多个目的基因或者一个或更多个目的核酸序列。PASTE组合了基因编辑技术和整合酶技术以实现基因在基因组中的单向并入，以用于疾病的治疗和疾病的诊断。

Description

使用以位点特异性靶向元件实现的可编程添加(PASTE)来进行位点特异性遗传改造的系统、方法和组合物

相关申请的交叉引用

本申请要求于2021年7月16日提交的美国临时专利申请序列号63/222,550、以及于2020年10月21日提交的美国临时专利申请序列号63/094,803的权益。以上所引用专利申请的全部内容通过引用整体并入本文。

技术领域

本文中所公开的主题总体上涉及使用以位点特异性靶向元件实现的可编程添加(Programmable Addition via Site-Specific Targeting Element，PASTE)来进行位点特异性遗传改造的系统、方法和组合物，其用于疾病的治疗和诊断。

背景技术

已经广泛开发了使用CRISPR-Cas(成簇的规则间隔的短回文重复-CRISPR相关蛋白(Clustered Regularly Interspaced Short Palindromic Repeats-CRISPRassociated proteins)免疫的RNA指导的DNA靶向原理进行的基因组编辑，并且其已成为广泛多种应用的强大基因组编辑手段。CRISPR-Cas系统的主要优点在于对可编程DNA干扰的需求最低：内切核酸酶，例如Cas9、Cas12或任何可编程核酸酶，其由可定制的双RNA结构指导。Cas9是使用HNH核酸酶结构域来切割靶链的多结构域酶。CRISPR/Cas9蛋白-RNA复合物通过指导RNA(guide RNA)定位在靶标上，然后进行切割以产生DNA双链断裂(dsDNA断裂(dsDNA break)，DSB)。在切割之后，DNA修复机制被激活以修复经切割的链。修复机制通常是来自两种类型中的一者：非同源末端连接(non-homologous end joining，NHEJ)或同源重组(homologous recombination，HR)。一般而言，NHEJ主导修复，并且易于出错，产生随机插失(indel)(插入或缺失)，引起移码突变等。相比之下，HR具有更精确的修复能力，并潜在地能够并入精确的替换或插入。为了增强HR，已经尝试了数种技术，例如：将Cas9核酸酶的融合蛋白与同源定向修复(homology-directed repair，HDR)效应物组合以增强它们在DSB处的定位，引入重叠同源臂，或抑制NHEJ。这些技术中大多数依赖于宿主DNA修复系统。

最近，已经开发了新的指导编辑器，例如经指导的先导编辑器(prime editor，PE)PE1、PE2、和PE3，例如Liu，D.et al.，Nature 2019，576，149-157。这些PE是与Cas 9 H 840A切口酶(Cas9n(H840A))融合的逆转录酶(reverse transcriptase，RT)，并且使用先导编辑指导RNA(prime-editing guide RNA，pegRNA)实现基因组编辑。尽管有这些开发，但是可编程基因整合通常仍依赖于细胞途径或修复过程。

因此，需要更有效的用于基因编辑和递送的工具。

发明内容

本公开内容提供了使核酸位点特异性地整合到细胞基因组中的方法。该方法包括通过将以下引入到细胞中而在细胞基因组中的在期望位置处并入整合位点：与逆转录酶结构域连接的DNA结合核酸酶，其中所述DNA结合核酸酶含有切口酶活性；和指导RNA(gRNA)，其包含与整合序列连接的引物结合序列，其中gRNA与DNA结合核酸酶相互作用并靶向细胞基因组中的期望位置，其中DNA结合核酸酶对细胞基因组的链进行切口，并且逆转录酶结构域将gRNA中的整合序列并入到切口位点中，从而在细胞基因组的期望位置处提供整合位点。该方法还包括通过将以下引入到细胞中而使核酸整合到细胞基因组中：包含核酸的DNA或RNA链，所述核酸与和整合位点互补或缔合的序列连接，以及整合酶，其中整合酶通过整合、重组或逆转录与整合位点互补或缔合的序列而在整合位点处将核酸并入到细胞基因组中，从而将核酸引入到细胞的细胞基因组中的期望位置中。

在一些实施方案中，gRNA可与被DNA结合核酸酶切口的基因组链的互补细胞基因组链杂交。

在一些实施方案中，整合酶可作为肽或编码该肽的核酸引入。

在一些实施方案中，DNA结合核酸酶可作为肽或编码该肽的核酸引入。

在一些实施方案中，包含核酸的DNA或RNA链可作为微环、质粒、mRNA或线性DNA引入到细胞中。

在一些实施方案中，包含核酸的DNA或RNA链可以为1000bp至10,000bp。

在一些实施方案中，包含核酸的DNA或RNA链可超过10,000bp。

在一些实施方案中，包含核酸的DNA或RNA链可小于1000bp。

在一些实施方案中，包含核酸的DNA可作为微环引入到细胞中。

在一些实施方案中，微环不可以包含细菌来源的序列。

在一些实施方案中，DNA结合核酸酶可以与逆转录酶结构域连接，并且整合酶可以通过接头连接。接头可以是可切割的。接头可以是不可切割的。接头可以被与逆转录酶连接的DNA结合核酸酶的两个关联结合结构域替代。

在一些实施方案中，整合酶可选自

Crc，Dre，Vika，Bxb1，

RDF，FLP，/>

R1，R2，R3，R4，R5，TP901-1，A118，

MR11，TG1，/>

Wβ，BL3，SPBc，K38，Peaches，Veracruz，Rebcuca，Theia，Benedict，KSSJEB，PattyP，Doom，Scowl，Lockley，Switzer，Bob3，Troube，Abrogate，Anglerfish，Sarfire，SkiPole，ConceptII，Museum，Severus，Airmid，Benedict，Hinder，ICleared，Sheen，Mundrea，BxZ2，/>

由R2、L1、Tol2 Tc1、Tc3、Mariner(Himar 1)、Mariner(mos 1)和Minos编码的逆转录转座酶、及其任何突变体。

在一些实施方案中，整合酶可以是Bxb1或其突变体。

在一些实施方案中，整合位点可选自attB位点、attP位点、attL位点、attR位点、lox71位点、Vox位点或FRT位点。

在一些实施方案中，含有切口酶活性的DNA结合核酸酶可选自Cas9-D10A、Cas9-H840A和Cas12a/b切口酶。

在一些实施方案中，逆转录酶结构域可选自莫洛尼鼠白血病病毒(MoloneyMurine Leukemia Virus，M-MLV)逆转录酶结构域、转录异种聚合酶(transcriptionxenopolymerase，RTX)、禽成髓细胞瘤病毒逆转录酶(avian myeloblastosis virusreverse transcriptase，AMV-RT)和直肠真杆菌成熟酶RT(MarathonRT)。

在一些实施方案中，逆转录酶结构域相对于野生型序列可包含突变。

在一些实施方案中，M-MLV逆转录酶结构域可包含一个或更多个选自D200N、T306K、W313F、T330P和L603W的突变。

在一些实施方案中，该方法还可包括引入第二切口指导RNA(nicking guide RNA，ngRNA)。该ngRNA可指导在互补链上gRNA切口下游90个碱基处进行切口。

在一些实施方案中，gRNA、编码DNA结合核酸酶的核酸、逆转录酶、包含与互补整合位点连接的核酸的DNA、整合酶和任选的ngRNA可在单个反应中引入到细胞中。

在一些实施方案中，gRNA、编码DNA结合核酸酶的核酸、逆转录酶、包含与互补整合位点连接的核酸的DNA、整合酶和任选的ngRNA可以使用病毒、RNP、mRNA、脂质或聚合物纳米粒来引入。

在一些实施方案中，核酸可以是报道基因。该报道基因可以是荧光蛋白。

在一些实施方案中，细胞可以是分裂细胞。

在一些实施方案中，细胞可以是非分裂细胞。

在一些实施方案中，细胞基因组中的期望位置可以是突变基因的基因座。

在一些实施方案中，核酸可以是在小分子存在下可编程地敲低蛋白质的降解标签。

在一些实施方案中，细胞可以是哺乳动物细胞、细菌细胞或植物细胞。

在一些实施方案中，核酸可以是T细胞受体(T-cell receptor，TCR)、嵌合抗原受体(chimeric antigen receptor，CAR)、白介素、细胞因子或用于整合到T细胞或自然杀伤(natural killer，NK)细胞中的免疫检查点基因。TCR、CAR、白介素、细胞因子或免疫检查点基因可以使用微环DNA并入到T细胞或NK细胞基因组的靶位点中。

在一些实施方案中，核酸可以是β血红蛋白(HBB)基因，并且细胞可以是造血干细胞(hematopoietic stem cell，HSC)。可使用微环DNA将HBB基因并入到HSC基因组中的靶位点中。核酸可以是造成β地中海贫血或镰状细胞贫血的基因。

在一些实施方案中，核酸可以是代谢基因。代谢基因可涉及α-1抗胰蛋白酶缺乏症或鸟氨酸转氨甲酰酶(ornithine transcarbamylase，OTC)缺乏症。代谢基因可以是涉及遗传疾病的基因。

在一些实施方案中，核酸可以是涉及遗传性疾病或遗传性综合征的基因。遗传性疾病可以是囊性纤维化、家族性高胆固醇血症、腺苷脱氨酶(adenosine deaminase，ADA)缺乏症、X-连锁SCID(X-SCID)、威斯科特-奥尔德里奇综合征(Wiskott-Aldrich syndrome，WAS)、血色素沉着病、泰-萨克斯病(Tay-Sachs)、脆性X综合征、亨廷顿病(Huntington’sdisease)、马方综合征、苯丙酮尿症或肌营养不良。

本公开内容提供了载体，其包含这样的核酸，所述核酸编码含有切口酶活性的DNA结合核酸酶，所述含有切口酶活性的DNA结合核酸酶在C端与逆转录酶连接，所述逆转录酶经由接头与整合酶连接。

在一些实施方案中，接头可以是可切割的。

在一些实施方案中，接头可以是不可切割的。

在一些实施方案中，接头可包含与逆转录酶连接的DNA结合核酸酶的两个关联结合结构域。

在一些实施方案中，整合酶可包含条件激活结构域或条件表达结构域。

在一些实施方案中，整合酶可以与雌激素受体融合。

在一些实施方案中，含有切口酶活性的DNA结合核酸酶可选自Cas9-D10A、Cas9-H840A和Cas12a/b。

在一些实施方案中，逆转录酶可以是M-MLV逆转录酶、AMV-RT、MarathonRT或RTX。逆转录酶可以是相对于野生型M-MLV逆转录酶的经修饰M-MLV逆转录酶。M-MLV逆转录酶结构域可以包含一个或更多个选自D200N、T306K、W313F、T330P和L603W的突变。

在一些实施方案中，整合酶可选自

Cre，Dre，Vika，Bxb1，

RDF，FLP，/>

R1，R2，R3，R4，R5，TP901-1，A118，

MR11，TG 1，/>

Wβ，BL3，SPBc，K38，Peaches，Veracruz，Rebeuca，Theia，KSSJEB，PattyP，Doom，Scowl，Lockley，Switzer，Bob3，Troube，Abrogate，Anglerfish，Sarfire，SkiPole，ConceptII，Museum，Severus，Airmid，Benedict，Hinder，ICleared，Sheen，Mundrca，BxZ2，/>

在一些实施方案中，重组酶或整合酶可以是Bxb1或其突变体。

本公开内容提供了包含载体的细胞，所述载体包含这样的核酸，所述核酸编码含有切口酶活性的DNA结合核酸酶，所述含有切口酶活性的DNA结合核酸酶在C端与逆转录酶连接，所述逆转录酶经由接头与整合酶连接。所述细胞还包含gRNA，其包含引物结合序列、整合序列和指导序列，其中所述gRNA可与所编码的含有切口酶活性的核酸酶相互作用。所述细胞还包含DNA微环，其包含核酸和被所编码的整合酶、重组酶或逆转录酶识别的序列。所述细胞还包含切口指导RNA(ngRNA)，其能够结合所编码的含有切口酶活性的核酸酶，并且其中ngRNA靶向远离gRNA的序列。

在一些实施方案中，微环不可包含细菌来源的序列。

在一些实施方案中，整合酶可选自

Cre，Dre，Vika，Bxb1，

RDF，FLP，/>

R1，R2，R3，R4，R5，TP901-1，A118，

MR11，TG1，/>

Wβ，BL3，SPBc，K38，Peaches，Veracruz，Rebeuca，Theia，KSSJEB，PattyP，Doom，Scowl，Lockley，Switzer，Bob3，Troube，Abrogate，Anglerfish，Sarfire，SkiPole，ConceptII，Museum，Severus，Airmid，Benedict，Hinder，ICleared，Sheen，Mundrea，BxZ2，/>

在一些实施方案中，整合酶可以是Bxb1或其突变体。

在一些实施方案中，含有切口酶活性的DNA结合核酸酶可选自Cas9-D10A、Cas9-H840A和Cas12a。

在一些实施方案中，逆转录酶可以是M-MLV逆转录酶。逆转录酶可以是经修饰的M-MLV逆转录酶。M-MLV逆转录酶的氨基酸序列可以包含一个或更多个选自D200N、T306K、W313F、T330P和L603W的突变。

在一些实施方案中，细胞可还包含将ngRNA引入到细胞中。ngRNA可以是+90ngRNA。该+90ngRNA可指导在互补链上gRNA切口下游90个碱基处进行切口。

本公开内容提供了多肽，其包含含有切口酶活性的DNA结合核酸酶，所述含切口酶活性的DNA结合核酸酶在C端与逆转录酶连接，所述逆转录酶经由接头与整合酶连接。

在一些实施方案中，接头可以是可切割的。

在一些实施方案中，接头可以是不可切割的。

在一些实施方案中，整合酶可与雌激素受体融合。

在一些实施方案中，逆转录酶可以是M-MLV逆转录酶、AMV-RT、MarathonRT或XRT。逆转录酶可以是相对于野生型M-MLV逆转录酶的经修饰M-MLV。M-MLV逆转录酶结构域可包含一个或更多个选自D200N、T306K、W313F、T330P和L603W的突变。

在一些实施方案中，整合酶可选自

Cre，Dre，Vika，Bxb1，

RDF，FLP，/>

R1，R2，R3，R4，R5，TP901-1，A118，

MR11，TG1，/>

在一些实施方案中，整合酶可以是Bxb1或其突变体。

本公开内容提供了gRNA，其与含有切口酶活性的DNA结合核酸酶特异性地结合，所述gRNA包含与带切口DNA链杂交的引物结合位点、整合酶的识别位点，以及识别细胞基因组中的靶位点并与被DNA结合核酸酶切口的链的互补基因组链杂交的靶识别序列。

在一些实施方案中，引物结合位点可以与带切口DNA链的3’端杂交。

在一些实施方案中，整合酶的识别位点可选自attB位点、attP位点、attL位点、attR位点、lox71位点和FRT位点。

在一些实施方案中，整合酶的识别位点可以是Bxb1位点。

本公开内容提供了使两个或更多个核酸位点特异性地整合到细胞基因组中的方法。该方法包括通过将以下引入到细胞中而在细胞基因组中在期望位置处并入两个整合位点：与逆转录酶结构域连接的DNA结合核酸酶，其中DNA结合核酸酶含有切口酶活性；和两个指导RNA(gRNA)，所述两个指导RNA(gRNA)各自包含引物结合序列，其与独特整合序列连接，其中gRNA与DNA结合核酸酶相互作用并靶向细胞基因组中的期望位置，其中DNA结合核酸酶对细胞基因组的链进行切口，并且逆转录酶结构域将gRNA中的整合序列中的每一个并入到切口位点中，从而在细胞基因组中的期望位置处提供整合位点。该方法还包括通过将以下引入到细胞中来整合核酸：包含核酸的两个或更多个DNA或RNA，其中每个DNA的侧翼为正交整合位点，以及整合酶，其中整合酶通过对与整合位点互补或缔合的序列发挥整合酶、重组酶或逆转录酶作用而在整合位点处将核酸并入到细胞基因组中，从而将核酸引入到细胞的细胞基因组中的期望位置中。

在一些实施方案中，插入到细胞基因组中的两个不同整合位点中的每一个均可以是包含不同回文或非回文中心二核苷酸的attB序列。

在一些实施方案中，插入到细胞基因组中的两个不同整合位点中的每一个均可以是包含不同回文或非回文中心二核苷酸的attP序列。

在一些实施方案中，整合酶可使得包含核酸的两个或更多个DNA或RNA中的每一个能够通过正交的attB位点序列和attP位点序列对的重组而定向地使核酸整合到基因组中。

在一些实施方案中，整合酶可选自

Cre，Dre，Vika，Bxb1，

RDF，FLP，/>

TP901-1，A118，/>

MR11，TG1，

Wβ，BL3，SPBc，K38，Peaches，Veracruz，Rebeuca，Theia，KSSJEB，PattyP，Doom，Scow1，Lockley，Switzer，Bob3，Troube，Abrogate，Anglerfish，Sarfire，SkiPole，ConceptII，Museum，Severus，Airmid，Benedict，Hinder，ICleared，Shcen，Mundrea，BxZ2，

由R1、R2、R3、R4、R5、L1、Tol2 Tc1、Tc3、Mariner(Himar 1)、Mariner(mos 1)和Minos编码的逆转录转座酶、及其任何突变体。

在一些实施方案中，整合酶可以是Bxb1或其突变体。

在一些实施方案中，包含基因的DNA可以是涉及细胞维持途径、细胞分裂或信号转导途径的基因。

在一些实施方案中，逆转录酶结构域可包含莫洛尼鼠白血病病毒(M-MLV)逆转录酶结构域、转录异种聚合酶(RTX)、禽成髓细胞瘤病毒逆转录酶(AMV-RT)或直肠真杆菌成熟酶RT(MarathonRT)。

在一些实施方案中，attB位点序列和attP位点序列对可选自SEQ ID NO：5和SEQID NO：6、SEQ ID NO：7和SEQ ID NO：8、SEQ ID NO：9和SEQ ID NO：10、SEQ ID NO：11和SEQID NO：12、SEQ ID NO：13和SEQ ID NO：14、SEQ ID NO：15和SEQ ID NO：16、SEQ ID NO：17和SEQ ID NO：18、SEQ ID NO：19和SEQ ID NO：20、SEQ ID NO：21和SEQ ID NO：22、SEQ ID NO：23和SEQ ID NO：24、SEQ ID NO：25和SEQ ID NO：26、SEQ ID NO：27和SEQ ID NO：28、SEQ IDNO：29和SEQ ID NO：30、SEQ ID NO：31和SEQ ID NO：32、SEQ ID NO：33和SEQ ID NO：34、以及SEQ ID NO：35和SEQ ID NO：36。

本公开内容提供了包含载体的细胞，所述载体包含这样的核酸，所述核酸编码含有切口酶活性的DNA结合核酸酶，其中所述DNA结合核酸酶在C端与逆转录酶连接，其中所述逆转录酶经由接头与重组酶或整合酶连接。所述细胞还包含两个指导RNA(gRNA)，其包含引物结合序列、整合序列和指导序列，其中gRNA可以与所编码的含有切口酶活性的DNA结合核酸酶相互作用。所述细胞还包含两个或更多个DNA或RNA链，所述DNA或RNA链包含核酸和被所编码的整合酶或重组酶识别的侧翼attB位点序列和attP位点序列对。所述细胞任选地还包含切口指导RNA(ngRNA)，其能够结合所编码的含有切口酶活性的核酸酶，并且其中ngRNA靶向远离gRNA的序列。

本公开内容提供了包含经修饰基因组的细胞，其中所述修饰包含通过将以下引入到细胞中而在细胞基因组内并入两个正交整合位点：载体，其包含这样的核酸，所述核酸编码含有切口酶活性的DNA结合核酸酶，其中所述DNA结合核酸酶在C端与逆转录酶连接；两个指导RNA(gRNA)，其各自包含引物结合序列、基因组整合序列和指导序列，其中所述gRNA可与所编码的含有切口酶活性的核酸酶相互作用；以及任选的切口指导RNA(ngRNA)，其能够结合所编码的含有切口酶活性的核酸酶，并且其中ngRNA靶向远离gRNA的序列。

本公开内容提供了使两个或更多个核酸整合到权利要求90所述细胞的细胞基因组中的方法，该方法包括将以下引入到细胞中：两个或更多个DNA，其各自包含核酸和侧翼正交整合位点序列对；整合酶，所述整合酶可识别整合位点序列，其使得包含核酸的两个或更多个DNA能够定向连接；以及通过进行以下使得核酸能够并入到细胞基因组中，从而将两个或更多个核酸并入到细胞基因组中：将第一DNA的5’正交整合序列与第一基因组整合序列整合，并将最后一个DNA的3’正交整合序列与最后一个基因组整合序列整合。

本公开内容提供了包含经修饰基因组的细胞，其中所述修饰包含通过将以下引入到细胞中而在细胞基因组内并入两个正交整合位点：载体，其包含这样的核酸，所述核酸编码含有切口酶活性的DNA结合核酸酶，其中所述DNA结合核酸酶在C端与逆转录酶连接；两个指导RNA(gRNA)，其各自包含引物结合序列、基因组整合序列和指导序列，其中所述gRNA可与所编码的含有切口酶活性的核酸酶相互作用；以及任选的切口指导RNA(ngRNA)，其能够结合所编码的含有切口酶活性的核酸酶，并且其中ngRNA靶向远离gRNA的序列；包含核酸的两个或更多个DNA或RNA，其中每个DNA的侧翼为正交整合位点；以及整合酶，其中整合酶在整合位点处将核酸并入到细胞基因组中。

附图说明

参照以下描述、所附权利要求书和附图，本文中所述实施方案的一些方面、特征、益处和优点将显而易见，其中：

图1示出了根据本教导一些实施方案的以位点特异性靶向元件实现的可编程添加(PASTE)的概念的示意图；

图2示出了根据本教导一些实施方案的先导编辑过程的示意图；

图3示出了根据本教导一些实施方案的在存在多质粒的情况下，在HEK293FT细胞系中在慢病毒整合的lox71位点中绿色荧光蛋白(green fluorescent protein，GFP)的整合百分比；

图4示出了根据本教导一些实施方案的用于并入不同长度的lox71或lox66的HEK293FT基因组的编辑百分比；

图5A示出了根据本教导一些实施方案的用不同PE/Cre载体进行的lox71位点的编辑百分比；

图5B示出了根据本教导一些实施方案的在HEK293FT细胞基因组中在lox71位点处GFP的整合百分比；

图6示出了根据本教导一些实施方案的使用Bxb1将核酸整合到基因组中的示意图；

图7示出了根据本教导一些实施方案的使用Bxb1经由位点特异性靶向元件可编程添加(PASTE)将GFP或Gluc整合到attB基因座中的百分比；

图8示出了根据本教导一些实施方案的以位点特异性靶向元件实现的可编程添加(PASTE)的多种HEK3靶向pegRNA的编辑百分比；

图9A示出了根据本教导一些实施方案的其中使用PASTE用EGFP标记SUPT16H标志物的细胞的荧光图像；

图9B示出了根据本教导一些实施方案的其中使用以位点特异性靶向元件实现的可编程添加(PASTE)用EGFP标记SRRM2标志物的细胞的荧光图像；

图9C示出了根据本教导一些实施方案的其中使用以位点特异性靶向元件实现的可编程添加(PASTE)用EGFP标记LAMNB1标志物的细胞的荧光图像；

图9D示出了根据本教导一些实施方案的其中使用以位点特异性靶向元件实现的可编程添加(PASTE)用EGFP标记NOLC1标志物的细胞的荧光图像；

图9E示出了根据本教导一些实施方案的其中使用以位点特异性靶向元件实现的可编程添加(PASTE)用EGFP标记NOLC1标志物的细胞的荧光图像；

图9F示出了根据本教导一些实施方案的其中使用以位点特异性靶向元件实现的可编程添加(PASTE)用EGFP标记NOLC 1标志物的细胞的荧光图像；

图9G示出了根据本教导一些实施方案的其中使用以位点特异性靶向元件实现的可编程添加(PASTE)用EGFP标记DEPDC4标志物的细胞的荧光图像；

图10A示出了根据本教导一些实施方案的针对使用PASTE在基因组中在ACTB N端位点处添加Bxb1 attB位点的以蓝色示出的脂质体辅助转染与以红色示出的电穿孔辅助转染的比较；

图10B示出了根据本教导一些实施方案的针对使用PASTE在基因组中在ACTB N端位点处进行EGFP整合的以蓝色示出的脂质体辅助转染与以红色示出的电穿孔辅助转染的比较；

图11示出了根据本教导一些实施方案的用多种HEK3靶向pegRNA整合EGFP和Gluc的图；

图12示出了根据本教导一些实施方案的使用

作为整合酶的示意图；

图13示出了根据本教导一些实施方案的涉及使用并入外部侧翼attB位点的独特指导RNA在多个基因座中插入多个目的基因的多重化(multiplex)的示意图；

图14A示出了根据本教导一些实施方案的在正确的GT-EGFP(right GT-EGFP)下正交编辑的图；

图14B示出了根据本教导一些实施方案的在正确的GA-mCherry下正交编辑的图；

图15A示出了根据本教导一些实施方案的ACTB-EGFP和NOLC1-mCherry的多重化的荧光图像

图15B示出了根据本教导一些实施方案的ACTB-EGFP和LAMNB1-mCherry的多重化的荧光图像；

图16A示出了根据本教导一些实施方案的9X9attP和attB中心二核苷酸变体的下一代测序结果及其编辑百分比，其中示出了用于潜在多重化应用的attB/attP组合的正交性；

图16B示出了根据本教导一些实施方案的9X9attP和attB中心二核苷酸变体及其编辑百分比的热图；

图17示出了根据本教导一些实施方案的在HEK293FT细胞中使用白蛋白指导-pegRNA将SERPINA和CPS1整合到白蛋白基因座中；

图18示出了根据本教导一些实施方案的用于改造T细胞的不同核酸的示意图；

图19示出了根据本教导一些实施方案的在原代T细胞中在ACTB基因座处进行EGFP整合的编辑效率；

图20示出了根据本教导一些实施方案的用不同pegRNA在HEK293FT中在TRAC基因座中进行编辑；

图21A示出了根据本教导一些实施方案的使用切口指导子1和切口指导子2在ACTB位点处进行的attB整合；

图21B示出了根据本教导一些实施方案的使用切口指导子1和切口指导子2在ACTB位点处进行的EGFP整合；

图21C示出了根据本教导一些实施方案的在ACTB位点处进行的EGFP整合；

图22A示出了根据本教导一些实施方案的在肝肝细胞癌细胞系HEPG2中的PASTE编辑；

图22B示出了根据本教导一些实施方案的对慢性髓细胞性白血病细胞系K562的PASTE编辑；

图23A示出了根据本教导一些实施方案的在具有靶向指导子和非靶向指导子的情况下的attB添加；

图23B示出了根据本教导一些实施方案的在靶向指导子和非靶向指导子情况下的EGFP整合；

图23C示出了根据本教导一些实施方案的经诱变Bxb1的EGFP整合；

图24A示出了根据本教导一些实施方案的用于pegRNA的设计参数的示意图；

图24B示出了根据本教导一些实施方案的用于切口指导RNA的设计参数的示意图；

图25A示出了根据本教导一些实施方案的在不同的PBS和RT长度下在ACTD基因座处EGFP的整合；

图25B示出了根据本教导一些实施方案的在不同的PBS和RT长度下在LMNB1基因座处EGFP的整合；

图25C示出了根据本教导一些实施方案的在不同的PBS和RT长度下在NOLC1基因座处EGFP的整合；

图25D示出了根据本教导一些实施方案的在不同的PBS和RT长度以及不同切口指导子下在GRSF1基因座处EGFP的整合；

图25E示出了根据本教导一些实施方案的在突变体attP位点下的EGFP整合；

图25F示出了根据本教导一些实施方案的对扩增基因组(expanded panel ofgene)的PASTE编辑；

图26A示出了根据本教导一些实施方案的在ACTB基因座处的PASTE EGPF编辑；

图26B示出了根据本教导一些实施方案的在ACTB基因座处的HITI EGPF编辑；

图26C示出了根据本教导一些实施方案的PASTE与HITI编辑14个基因之组之间的比较；

图26D示出了根据本教导一些实施方案的PASTE Bxb1脱靶(off-target)整合；

图26E示出了根据本教导一些实施方案的PASTE Cas9脱靶整合；

图26F示出了根据本教导一些实施方案的不同尺寸的基因插入物的EGFP整合；

图27A示出了根据本教导一些实施方案的所选的attB位点与attP位点组之间的正交性；

图27B示出了根据本教导一些实施方案的所选的attB位点与attP位点组之间的正交性；

图27C示出了根据本教导一些实施方案的使用经改造二核苷酸组合进行正交PASTE编辑的示意图；

图28A示出了根据本教导一些实施方案的用PASTE对ACTB和SUPT16H基因进行GFP标记的荧光图像；

图28B示出了根据本教导一些实施方案的用PASTE对NOLC1和SRRM2基因进行GFP标记的荧光图像；

图28C示出了根据本教导一些实施方案的用PASTE对LMNB1和DEPDC4基因进行GFP标记的荧光图像；

图28D示出了根据本教导一些实施方案的用PASTE在三个内源性位点处的正交基因整合；

图28E示出了根据本教导一些实施方案的通过PASTE在三个内源性位点处经由单重(one-plex)、双重(two-plex)和三重(three-plex)基因插入的多重插入；

图28F示出了根据本教导一些实施方案的使用PASTE对ACTB(EGFP)和NOLC1(mCherry)进行多重基因标记情况下的两个单细胞的荧光图像；

图28G示出了根据本教导一些实施方案的使用PASTE对ACTB(EGFP)和LMNB1(mCherry)进行多重基因标记情况下的两个单细胞的荧光图像；

图29A示出了根据本教导一些实施方案的在ACTB基因座处Bxb1 attB位点插入的先导编辑效率；

图29B示出了根据本教导一些实施方案的在ACTB基因座处不同长度的Bxb1 attB位点插入时的先导编辑效率；

图29C示出了根据本教导一些实施方案的来自不同整合酶的插入attB序列的先导编辑效率，其中谱分析(profile)了着陆位点(landing site)的两个方向(F，正向；和R，反向)；

图29D示出了根据本教导一些实施方案的来自Bxb1整合酶和Cre重组酶的插入attB序列的先导编辑效率，其中谱分析了着陆位点的两个方向(F，正向；和R，反向)；

图29E示出了根据本教导一些实施方案的显示指导序列和靶序列的在ACTB基因座处PASTE插入的示意图。图29E以出现顺序分别公开了SEQ ID NOS 428至431；

图29F示出了根据本教导一些实施方案的靶向ACTB基因座5’端的整合酶组对GFP的PASTE整合效率的比较，其中谱分析了着陆位点的两个方向(F，正向；和R，反向)；

图29G示出了根据本教导一些实施方案的Bxb1整合酶与Cre重组酶之间的GFP载物(cargo)整合效率的比较；

图29H示出了根据本教导一些实施方案的PASTE编辑活性对不同先导(prime)和整合酶组分的依赖性；

图29I示出了根据本教导一些实施方案的单载体PASTE系统(SpCas9-RT-P2A-Bxb1)对整合酶效率的滴定；

图29J示出了根据本教导一些实施方案的载物尺寸对内源性ACTB靶标处的PASTE插入效率的作用；

图29K示出了根据本教导一些实施方案的凝胶电泳，其示出了针对不同载物尺寸通过PASTE的完全插入；

图30A示出了根据本教导一些实施方案的PASTE整合(包括产生的所得attR和attL位点以及用于测定整合连接的PCR引物)的示意图；

图30B示出了根据本教导一些实施方案的在ACTB基因座处来自GFP的PASTE插入的左整合连接(left integration junction)的PCR和凝胶电泳读出，其中分析了框内和框外GFP整合实验以及无先导对照的插入，并使用子图(subpanel)图30A中示意图中所示的引物示出了PCR片段的预期尺寸；

图30C示出了根据本教导一些实施方案的在ACTB基因座处来自GFP的PASTE插入的右侧整合连接(right integration junction)的PCR和凝胶电泳读出，其中分析了框内和框外GFP整合实验以及无先导对照的插入，并且使用子图图30A中示意图中所示的引物示出了PCR片段的预期尺寸；

图30D示出了根据本教导一些实施方案的针对通过PASTE使GFP框内融合至ACTB N端的右侧整合连接所示的Sanger测序；

图30E示出了根据本教导一些实施方案的针对通过PASTE使GFP框内融合至ACTB N端的左整合连接所示的Sanger测序；

图31A示出了根据本教导一些实施方案的影响约1kb GFP插入物的PASTE整合的多种参数的示意图，其中在pegRNA上，PBS、RT和attB长度可以改变attB插入的效率，并且切口指导子选择也影响总体基因整合效率；

图31B示出了根据本教导一些实施方案的PBS和RT长度对GFP在ACTB基因座处PASTE整合的影响；

图31C示出了根据本教导一些实施方案的PBS和RT长度对GFP在LMNB1基因座处PASTE整合的影响；

图31D示出了根据本教导一些实施方案的attB长度对GFP在ACTB基因座处PASTE整合的影响；

图31E示出了根据本教导一些实施方案的attB长度对GFP在LMNB1基因座处PASTE整合的影响；

图31F示出了根据本教导一些实施方案的attB长度对GFP在NOLC1基因座处PASTE整合的影响；

图31G示出了根据本教导一些实施方案的最小PBS、RT和attB长度对GFP在ACTB基因座处PASTE整合效率的影响；

图31H示出了根据本教导一些实施方案的最小PBS、RT和attB长度对GFP在LMNB1基因座处PASTE整合效率的影响；

图31I示出了根据本教导一些实施方案的与较长pegRNA设计相比，在含有38bpattB的最小紧凑pegRNA下在存在和不存在切口指导子、先导物和Bxb1的情况下，GFP在LMNB1基因座处的PASTE整合；

图32A示出了根据本教导一些实施方案的在两种不同切口指导子设计下ACTB和LMNB1基因座处的PASTE插入效率；

图32B示出了根据本教导一些实施方案的在有和没有Bxb1表达的情况下在靶向和非靶向间隔区以及匹配的pegRNA下在ACTB和LMNB1处的PASTE编辑效率；

图33A示出了根据本教导一些实施方案的在不同Bxb1催化突变体的情况下GFP在ACTB基因座处的PASTE整合；

图33B示出了根据本教导一些实施方案的在不同RT催化突变体的情况下GFP在ACTB基因座处的PASTE整合；

图34A示出了根据本教导一些实施方案的在一组内源性基因组基因座处通过PASTE的GFP整合；

图34B示出了根据本教导一些实施方案的通过PASTE在ACTB基因座处一组不同基因载物的整合；

图34C示出了根据本教导一些实施方案的在ACTB基因座处治疗相关基因的整合效率；

图34D示出了根据本教导一些实施方案的在ACTB基因座和SRRM2基因座处通过框内内源性基因标记经由PASTE用GFP进行的内源性蛋白质标记；

图34E示出了根据本教导一些实施方案的在NOLC1基因座和LMNB1基因座处通过框内内源性基因标记经由PASTE用GFP进行的内源性蛋白质标记；

图35示出了根据本教导一些实施方案的经由PASTE在LMNB1基因座处不同基因载物组的整合；

图36A示出了根据本教导一些实施方案的在ACTB基因座处用5kb GFP模板对所有16个中心二核苷酸attB/attP序列对的PASTE整合效率；

图36B示出了根据本教导一些实施方案的合并的attB/attP二核苷酸正交性测定的示意图，其中每个attB二核苷酸序列与所有16个attP二核苷酸序列的条码化合并物(barcoded pool)和Bxb1整合酶共转染，通过对条码的下一代测序来确定相对整合效率，并且所有16个attB二核苷酸以attP合并物的阵列形式进行谱分析；

图36C示出了根据本教导一些实施方案的通过合并的正交性测定确定的所有可能的attB/attP二核苷酸对的相对插入偏好；

图36D示出了根据本教导一些实施方案的针对在ACTB基因座处用PASTE进行GFP整合而评价的前4个attB/attP二核苷酸对的正交性；

图37示出了根据本教导一些实施方案的如通过合并的报道测定测量的Bxb1二核苷酸的正交性，其中每个web logo基序示出了合并物中不同attP序列在所示attB序列处与所列二核苷酸的相对整合；

图38A示出了根据本教导一些实施方案的在特定基因组基因座处不同载物组的多重整合的示意图，其中将三种荧光载物(GFP、mCherry和YFP)正交插入在三个不同的基因座(ACTB、LMNB1、NOLC1)以用于框内基因标记；

图38B示出了根据本教导一些实施方案的在ACTB、LMNB1和NOLC1基因座处荧光团组合的多重化PASTE插入的效率；

图39A示出了根据本教导一些实施方案的与通过同源非依赖性靶向整合(homology-independent targeted integration，HITI)的插入率相比，通过PASTE在一组基因组基因座处的GFP整合效率；

图39B示出了根据本教导一些实施方案的在ACTB和LMNB1靶位点处通过PASTE和HITI产生的非预期插失的比较，其中示出了与非预期插失相比观察到的中靶(on-target)EGFP整合率；

图39C示出了根据本教导一些实施方案的与在相同靶标处的同源定向修复(HDR)相比，在ACTB基因座处通过PASTE进行的GFP模板的整合，其中通过单细胞克隆计数进行定量，其中靶向和非靶向指导子用于HDR插入，并且其中对于PASTE靶向和非靶向分别是指SpCas9-RT蛋白的存在或不存在；

图39D示出了根据本教导一些实施方案的在ACTB靶位点处通过基于PASTE和HDR的EGFP插入产生的非预期插失的比较，其中示出了在产生的所有单细胞克隆中测量的平均插失率；

图39E示出了根据本教导一些实施方案的Bxb1和Cas9脱靶鉴定和检测测定的示意图；

图39F示出了根据本教导一些实施方案的在人基因组中在预测的Bxb1脱靶位点处的GFP整合活性；

图39G示出了根据本教导一些实施方案的在预测的PASTE ACTB Cas9指导子脱靶位点处的GFP整合活性；

图39H示出了根据本教导一些实施方案的在预测的HITIACTB Cas9指导子脱靶位点处的GFP整合活性；

图39I示出了根据本教导一些实施方案的测定通过PASTE的全基因组脱靶整合位点的下一代测序方法的示意图；

图39J示出了根据本教导一些实施方案的使用全基因组整合测定进行的在中靶ACTB位点处的读出比对，其中示出了预期的中靶整合结果；

图39K示出了根据本教导一些实施方案的对PASTE的3个单细胞克隆和无先导物情况的3个单细胞克隆的中靶和脱靶整合事件的分析；

图39L示出了根据本教导一些实施方案的用PASTE编辑的代表性单细胞克隆的整合事件的曼哈顿图(Manhattan plot)，其中中靶位点位于染色体7上的ACTB基因处；

图40A示出了根据本教导一些实施方案的在HepG2细胞中在ACTB和LMNB1基因座处通过PASTE和HITI介导的EGFP插入而产生的插失率的比较；

图40B示出了根据本教导一些实施方案的使用合成扩增子检测预测的Bxb1脱靶位点处的编辑的ddPCR测定的验证；

图40C示出了根据本教导一些实施方案的使用合成扩增子检测预测的PASTE ACTBCas9指导子脱靶位点处编辑的ddPCR测定的验证；

图40D示出了根据本教导一些实施方案的使用合成扩增子检测预测的HITI ACTBCas9指导子脱靶位点处编辑的ddPCR测定的验证；

图41A示出了根据本教导一些实施方案的在表达Bxb1整合酶、靶向ACTB以整合EGFP的PASTE、或靶向ACTB以用于EGFP插入而无Bxb1表达的先导编辑的HEK293FT细胞中的显著差异调节基因的数目；

图41B示出了根据本教导一些实施方案的示出了所测序mRNA的倍数表达变化相对于显着性(p值)的火山图，其中每个点表示独特的mRNA转录物，并且显著的转录物根据上调(红色)或下调(蓝色)以阴影显示，并且其中针对ACTB靶向指导子-仅表达(包括载物)来测量倍数表达变化；

图41C示出了根据本教导一些实施方案的仅Bxb1条件下的最高(top)显著上调和下调的基因，其中对于仅Bxb1表达、仅GFP表达、靶向ACTB以用于EGFP插入的PASTE、靶向ACTB以用于EGFP表达而无Bxb1的先导物、以及仅指导子/载物，示出了基因与其相应的计数Z评分/百万(cpm)；

图42A示出了根据本教导一些实施方案的在存在细胞周期抑制的情况下PASTE性能的示意图，其中将细胞用质粒进行转染以插入PASTE或Cas9诱导的HDR，并用阿非迪霉素(aphidicolin)进行处理以抑制细胞分裂，并且其中分别用ddPCR或扩增子测序来读出PASTE和HDR的效率；

图42B示出了根据本教导一些实施方案的在存在或不存在细胞分裂(用扩增子测序读出)的情况下，使用两个Cas9指导子在EMX1基因座处通过HDR对单突变的编辑效率；

图42C示出了根据本教导一些实施方案的在存在或不存在细胞分裂的情况下，使用PASTE在ACTB基因座处高至13.3kb的不同尺寸的GFP插入物的整合效率；

图42D示出了根据本教导一些实施方案的在K562细胞中使用双载体(PE2和Bxb1)和单载体(PE2-P2A-Bxb1)设计的PASTE编辑效率；

图42E示出了根据本教导一些实施方案的在原代人T细胞中使用单载体(PE2-P2A-Bxb1)设计的PASTE编辑效率；

图42F示出了根据本教导一些实施方案的在ACTB基因座处治疗相关基因的整合效率；

图42G示出了根据本教导一些实施方案的用于PASTE整合的转基因的蛋白质产生测定的示意图，其中SERPINA1和CPS1转基因用HIBIT萤光素酶标记，以用ddPCR和发光二者读出；

图42H示出了根据本教导一些实施方案的在ACTB基因座处在HEK293FT细胞中SERPINA1和CPS1转基因的整合效率；

图42I示出了根据本教导一些实施方案的在ACTB基因座处在HepG2细胞中SERPINA1和CPS1转基因的整合效率；

图42J示出了根据本教导一些实施方案的在HepG2细胞中SERPINA1-HIBIT和CPS1-HIBIT的胞内水平；

图42K示出了根据本教导一些实施方案的在HepG2细胞中SERPINA1-HIBIT和CPS1-HIBIT的分泌水平；

图43A示出了根据本教导一些实施方案的HDR介导的对EMX1基因座的编辑，其在被5μM阿非迪霉素处理阻断的非分裂HEK293FT细胞中显著减少；

图43B示出了根据本教导一些实施方案的在分裂HEK293FT细胞和通过5μM阿非迪霉素处理阻断的非分裂HEK293FT细胞中，插入物微环DNA量对在ACTB基因座处PASTE介导的插入的作用；

图43C示出了根据本教导一些实施方案的用经由AAV递送的GFP模板在ACTB基因座处GFP的PASTE整合，其显示出整合效率的剂量依赖性；

图44A示出了根据本教导一些实施方案的在三个内源性基因座处的PASTE整合活性，其比较了正常PASTE SV40 NLS与c-Myc NLS/可变二分SV40 NLS设计；

图44B示出了根据本教导一些实施方案的采用不同的GFP微环模板量在ACTB基因座处的PASTE整合活性，其比较了正常PASTE SV40 NLS与c-Myc NLS/可变二分SV40 NLS设计；

图45示出了根据本教导一些实施方案的使用嘌呤霉素生长选择标志物对PASTE编辑活性的改善；

图46A示出了根据本教导一些实施方案的如通过蛋白质表达萤光素酶测定测量的经HIBIT标记的SERPINA1和CPS1基因的整合；

图46B示出了根据本教导一些实施方案的如通过相对于标准化的HIBIT梯状物(ladder)归一化的蛋白质表达萤光素酶测定测量的经HIBIT标记的SERPINA1和CPS1基因的整合，使得能够准确定量蛋白质水平；

图47A示出了根据本教导一些实施方案的针对ACTB基因座处的EGFP整合，具有一组接头和逆转录酶(RT)修饰的PASTE构建体的优化；

图47B示出了载物尺寸对内源性ACTB靶标处的PASTE插入效率的作用。根据本教导的一些实施方案，载物以固定摩尔量转染；

图48A示出了根据本教导一些实施方案的在ACTB处插入不同长度的BxbINT AttB位点的先导编辑效率；

图48B示出了根据本教导一些实施方案的使用靶向和非靶向指导子在ACTB处插入BxbINT AttB位点的先导编辑效率；

图48C示出了在ACTB处插入不同整合酶(Bxb1、Tp9和Bt1)AttB位点的先导编辑效率。根据本教导的一些实施方案，对着陆位点的两个方向进行谱分析(F，正向；R，反向)；

图48D示出了根据本教导一些实施方案的在有和没有切口指导子的情况下，在ACTB处插入EGFP的PASTE编辑效率；以及

图49A示出了通过剂量滴定和蛋白质优化对PASTE编辑的优化。在不同剂量的单载体递送组分的情况下测量的在ACTB处EGFP的PASTE整合效率。

图49B在不同比率的单载体递送组分与EGFP模板载体的情况下测量的在ACTB处EGFP的PASTE整合效率。

图49C在不同RT结构域融合下在ACTB处EGFP的PASTE整合效率。

图49D在不同RT结构域融合和接头下在ACTB处EGFP的PASTE整合效率。

图49E在突变体RT结构域下在ACTB处EGFP的PASTE整合效率。

图49F在突变的BxbINT结构域下在ACTB处EGFP的PASTE整合效率。

图50A通过AAV转导递送的插入模板。PASTE编辑机构通过转染来递送，并且模板通过所示水平的AAV给药共递送。

图50B采用三病毒载体的完整PASTE系统的AdV递送的示意图。

图50C在HEK293FT和HepG2细胞中整合酶、指导子和载物的AdV递送的整合效率。BxbINT和指导RNA或载物通过以下来递送：质粒转染(Pl)、AdV转导(AdV)或省略(-)。SpCas9-RT仅作为以下来递送：质粒或省略。

图50D在HEK293FT和HepG2细胞中所有PASTE组分的AdV递送。

图50E PASTE组分的mRNA和合成指导子递送的示意图。

图50F与AdV或质粒载物配对的具有mRNA和合成指导子的PASTE系统组分的递送。

图50G具有合成指导子和AdV或质粒载物的环状mRNA的递送。

图50H在原代人T细胞中用单载体设计的PASTE编辑效率。

图50I在原代人肝细胞中用单载体设计的PASTE编辑效率。

图51A在LMNB1基因座处在LMNB1的第一外显子的130bp和385bp缺失与attB序列插入组合情况下的PASTE编辑效率。

图51B使用PASTE系统进行的LMNB1的第一外显子的130bp缺失与967bp载物插入组合的PASTE编辑效率。

具体实施方式

应理解，为清楚起见，以下讨论将描述申请人教导的实施方案的多个方面。应当注意，特定实施方案不旨在作为穷尽的描述或者作为对本文中所讨论的更广泛方面的限制。结合特定实施方案描述的一个方面不一定限于该实施方案，并且可以用任何其他实施方案来实践。贯穿本说明书对“一个实施方案”、“实施方案”、“示例性实施方案”的提及意指结合实施方案所描述的具体特征、结构或特性包括在本公开内容的至少一个实施方案中。因此，贯穿本说明书在各个地方中出现的短语“在一个实施方案中”、“在实施方案中”、“示例性实施方案”不一定都指同一实施方案，但是也可能如此。此外，在一个或更多个实施方案中，如根据本公开内容对于本领域技术人员将变得明显的，特定特征、结构或特性可以以任何合适的方式组合。

一般定义

除非另有定义，否则本文中使用的技术和科学术语与本公开内容所属领域的普通技术人员通常理解的含义相同。分子生物学中常用术语和技术的定义可见于MolecularCloning：A Laboratory Manual，第2版(1989)(Sambrook，Fritsch，and Maniatis)；Molecular Cloning：A Laboratory Manual，第4版(2012)(Green and Sambrook)；CurrentProtocols in Molecular Biology(1987)(F.M.Ausubel et al.eds.)；the seriesMethods in Enzymology(Academic Press，Inc.)：PCR 2：A Practical Approach(1995)(M.J.MacPherson，B.D.Hames，and G.R.Taylor eds.)：Antibodies，A Laboratory Manual(1988)(Harlow and Lane，eds.)：Antibodies A Laboratory Manual，第2版2013(E.A.Greenfield ed.)；Animal Cell Culture(1987)(R.I.Freshney，ed.)；BenjaminLewin，Genes IX，其由Jones和Bartlet公开，2008(ISBN 0763752223)；Kendrew et al.(eds.)，The Encyclopedia of Molecular Biology，由Blackwell Science Ltd.公开，1994(ISBN 0632021829)；Robert A.Meyers(ed.)，Molecular Biology andBiotechnology：a Comprehensive Desk Reference，由VCH Publishers，Inc.公开，1995(ISBN 9780471185710)；Singleton et al.，Dictionary of Microbiology andMolecular Biology第2版，J.Wiley&Sons(New York，N.Y.1994)，March，Advanced OrganicChemistry Reactions，Mechanisms and Structure第4版，John Wiley&Sons(New York，N.Y.1992)；以及Marten H.Hofker and Jan van Deursen，Transgenic Mouse Methodsand Protocols，第2版(2011)。

除非上下文另外明确指出，否则本文中使用的没有数量词修饰的名词包括一个/种和/或更多个/种。因此，例如，对“细胞”的提及包括多个这样的细胞。

本文中使用的术语“任选的”或“任选地”意指随后描述的事件、情况或取代可发生或可不发生，并且意指该描述包括该事件或情况发生的情况和该事件或情况不发生的情况。

通过端点对数值范围的记载包括各个范围内包括的所有数字和分数，以及所记载的端点。

本文中使用的术语“约”或“大约”是指可测量的值，例如参数、量、时距等，意在涵盖特定值的变化和相对于特定值的变化，例如特定值的和相对于特定值的+/-10％或更小、+/-5％或更小、+/-1％或更小、+/-0.5％或更小，以及+/-0.1％或更小的变化，在此范围内这样的变化适合于在本公开内容中进行。应当理解的是，修饰语“约”或“大约”所指的值本身也是具体且优选地公开的。

注意本文中引用的所有出版物和参考文献均通过引用整体明确并入本文。本文中所讨论的出版物仅出于其在本申请的提交日期之前的公开内容而提供。本文中的任何内容均不得理解为承认本公开内容无权先于这样的出版物。此外，提供的公布日期可能与实际公布日期有所不同，所述实际公布日期可能需要独立确认。

概述

本文中所公开的实施方案提供了用于使用以位点特异性靶向元件实现的可编程添加(PASTE)来进行位点特异性遗传改造的非天然存在或经改造的系统、方法和组合物。图1中示出了举例说明PASTE概念的示意图。如下文更详细讨论的，PASTE包含将整合位点添加到靶基因组中，随后在该位点处插入一个或更多个目的基因或者一个或更多个目的核酸序列。该过程可作为细胞中的一个或更多个反应来进行。使用基因编辑技术来进行将整合位点添加到靶基因组中，所述基因编辑技术包括，例如但不限于，先导编辑(prime editing)、重组腺相关病毒(rAAV)介导的核酸整合、转录激活因子样效应物核酸酶(transcriptionactivator-like effector nuclease，TALEN)和锌指核酸酶(zinc finger nuclease，ZFN)。使用整合酶技术来进行转基因在整合位点处的整合，所述整合酶技术包括例如但不限于整合酶、重组酶和逆转录酶。本文中所公开的位点特异性遗传改造的必要组分包含至少一种或更多种核酸酶、一种或更多种gRNA、一种或更多种整合酶和一个或更多个序列，所述序列与整合位点互补或缔合并与一个或更多个目的基因或一个或更多个待插入到细胞基因组中的目的核酸序列连接。

本文中所公开的用于位点特异性遗传改造的非天然存在或经改造的系统、方法和组合物的一个优点是在不依赖于DNA损伤响应的情况下大元件的可编程插入。

本文中所公开的用于位点特异性遗传改造的非天然存在或经改造的系统、方法和组合物的另一个优点是易于多重化，使得能够在多个位点处进行可编程插入。

本文中所公开的用于位点特异性遗传改造的非天然存在或经改造的系统、方法和组合物的另一个优点是通过微环模板的可规模化产生(scalable production)和递送。

先导编辑

本公开内容提供了使用基因编辑技术(例如先导编辑)以将整合位点添加到靶基因组中进行位点特异性遗传改造的非天然存在或经改造的系统、方法和组合物。以下将更详细地讨论先导编辑。

先导编辑是通用且精确的基因组编辑方法，其将新的遗传信息直接写入指定的DNA位点中。图2中示出了举例说明先导编辑概念的示意图。参见Anzalone，A.V.，et al.“Search-and-replace genome editing without double-strand breaks or donorDNA，”Nature 576，149-157(2019)。先导编辑使用催化受损的Cas9内切核酸酶，该酶与经改造逆转录酶(RT)融合，并借助于先导编辑指导RNA(pegRNA)进行编程。本领域技术人员将理解，pegRNA既指定了靶位点又编码了期望的编辑。催化受损的Cas9内切核酸酶还包含与逆转录酶融合的Cas9切口酶。在遗传编辑期间，蛋白质的Cas9切口酶部分被pegRNA指导至DNA靶位点。逆转录酶结构域然后使用pegRNA来对所期望的编辑物进行模板逆转录，直接使DNA聚合到带切口的靶DNA链上。经编辑DNA链替代原始DNA链，产生含有一个经编辑链和一个未经编辑链的异源双链体。之后，先导编辑器(PE)指导异源双链体的分解，以有利于将编辑物复制到未经编辑的链上，完成该过程。

先导编辑器是指与Cas9H840A切口酶融合的莫洛尼鼠白血病病毒(M-MLV)逆转录酶(RT)。将RT与Cas9切口酶的C端融合可产生更高的编辑效率。这样的复合物被称为PE1。Cas9(H840A)也可以与非M-MLV逆转录酶(例如AMV-RT或XRT)连接(Cas9(H840A)-AMV-RT或XRT)。在一些实施方案中，Cas 9(H840A)可以被Cas12a/b或Cas9(D10A)替代。与M-MLV RT的五突变体(pentamutant)(D200N/L603W/T330P/T306K/W313F)融合的Cas9(野生型)、Cas9(H840A)、Cas9(D10A)或Cas12a/b切口酶(其具有高至约45倍高的效率)被称为PE2。在一些实施方案中，M-MLV RT包含一个或更多个以下突变：

Y8H，P51L，S56A，S67R，E69K，V129P，L139P，T197A，H204R，V223H，T246E，N249D，E286R，Q291I，E302K，E302R，F309N，M320L，P330E，L435G，L435R，N454K，D524A，D524G，D524N，E562Q，D583N，H594Q，E607K，D653N和L671P。

在一些实施方案中，逆转录酶还可以是野生型或经修饰的转录异种聚合酶(RTX)、禽成髓细胞瘤病毒逆转录酶(AMV-RT)、猫免疫缺陷病毒逆转录酶(FIV-RT)、FeLV-RT(猫白血病病毒逆转录酶)、HIV-RT(人免疫缺陷病毒逆转录酶)或直肠真杆菌成熟酶RT(MarathonRT)。PE3涉及将非编辑链(non-edited strand)切口，潜在地导致细胞使用所编辑链作为模板以诱导HR来重制该链。非编辑链的切口可涉及使用切口指导RNA(ngRNA)。

对非编辑链进行切口可以提高编辑效率。例如，对非编辑链进行切口可将编辑效率提高约1.1倍、约1.3倍、约1.5倍、约1.7倍、约1.9倍、约2.1倍、约2.3倍、约2.5倍、约2.7倍、约2.9倍、约3.1倍、约3.3倍、约3.5倍、约3.7倍、约3.9倍、4.1倍、约4.3倍、约4.5倍、约4.7倍、约4.9倍、或由这些值中任意两个作为端点形成的任意范围。

尽管最佳切口位置根据基因组位点而变化，但位于距pegRNA诱导的切口约40至90bp的编辑物(edit)的3’的切口通常可提高编辑效率而不会有过量插失形成。先导编辑实践允许以距pegRNA介导的切口约50bp的非编辑链切口开始，并且如果插失频率超过可接受的水平，则测试替代切口位置。

本文中使用的术语“指导RNA”(gRNA)等是指这样的RNA，其指导一个或更多个目的基因或一个或更多个目的核酸序列插入到靶基因组中，或者靶基因组中一个或更多个目的基因或一个或更多个目的核酸序列的缺失。gRNA也可以指先导编辑指导RNA(pegRNA)、切口指导RNA(ngRNA)和单指导RNA(single guide RNA，sgRNA)。在一些实施方案中，术语“gRNA分子”是指编码gRNA的核酸。在一些实施方案中，gRNA分子是天然存在的。在一些实施方案中，gRNA分子是非天然存在的。在一些实施方案中，gRNA分子是合成gRNA分子。gRNA可以将核酸酶或切口酶例如Cas9、Cas 12a/b、Cas9(H840A)或Cas9(D10A)分子靶向至基因组中的靶核酸或序列。在一些实施方案中，gRNA可以与和逆转录酶结构域结合的DNA切口酶结合。本文中使用的“经修饰gRNA”是指这样的gRNA分子，其与引入到细胞中之后的未经修饰gRNA分子相比，在引入到细胞中之后半衰期提高。在一些实施方案中，指导RNA可以促进插入位点序列的添加以便被整合酶、转座酶或重组酶识别。

本文中使用的术语“先导编辑指导RNA”(peg RNA)等是指延伸的单指导RNA(sgRNA)，其包含引物结合位点(PBS)、逆转录酶(RT)模板序列和可被重组酶、整合酶或转座酶识别的整合位点序列。pegRNA的示例性设计参数在图24A中示出。例如，PBS的长度可以为至少约4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、21nt、22nt、23nt、24nt、25nt、26nt、27nt、28nt、29nt、30nt或更多nt。例如，PBS的长度可以为约4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、21nt、22nt、23nt、24nt、25nt、26nt、27nt、28nt、29nt、30nt，或者由这些值中任意两个作为端点形成的任意范围。例如，RT模板序列的长度可以为至少约4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、21nt、22nt、23nt、24nt、25nt、26nt、27nt、28nt、29nt、30nt、31nt、32nt、33nt、34nt、35nt、36nt、37nt、38nt、39nt、40nt、41nt、42nt、43nt、44nt、45nt、46nt、47nt、48nt、49nt、50nt或更多nt。例如，RT模板序列的长度可以为约4nt、5nt、6nt、7nt、8nt、9nt、10nt、11nt、12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt、21nt、22nt、23nt、24nt、25nt、26nt、27nt、28nt、29nt、30nt、31nt、32nt、33nt、34nt、35nt、36nt、37nt、38nt、39nt、40nt、41nt、42nt、43nt、44nt、45nt、46nt、47nt、48nt、49nt、50nt，或者由这些值中任意两个作为端点形成的任意范围。

在基因组编辑期间，引物结合位点允许带切口DNA链的3’端与pegRNA杂交，而RT模板用作合成所编辑遗传信息的模板。pegRNA能够例如但不限于(i)识别待编辑的靶核苷酸序列，和(ii)编码替代靶向序列的新遗传信息。在一些实施方案中，pegRNA能够(i)识别待编辑的靶核苷酸序列，和(ii)编码替代靶向序列的整合位点。

本文中使用的术语“切口指导RNA”(ngRNA)等是指这样的RNA序列，其可对链(例如所编辑链和非编辑链)进行切口。ngRNA的示例性设计参数在图24B中示出。ngRNA可以在远离gRNA诱导的切口的位点约1或更多nt处诱导切口。例如，ngRNA可以在远离gRNA诱导的切口的位点至少约

1，2，3，4，5，6，7，8，9，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，31，32，33，34，35，36，37，38，39，40，41，42，43，44，45，46，47，48，49，50，51，52，53，54，55，56，57，58，59，60，61，62，63，64，65，66，67，68，69，70，71，72，73，74，75，76，77，78，79，80，81，82，83，84，85，86，87，88，89，90，91，92，93，94，95，96，97，98，99，100，101，102，103，104，105，106，107，108，109，110，111，112，113，114，115，116，117，118，119，120

或更多nt处进行切口。在一些实施方案中，ngRNA包含含有指导序列SEQ ID NO：74的SEQ ID NO：75。本文中使用的术语“逆转录酶”和“逆转录酶结构域”是指可将RNA逆转录成互补DNA的酶或酶活性结构域。逆转录酶或逆转录酶结构域是RNA依赖性DNA聚合酶。这样的逆转录酶结构域涵盖但不限于M-MLV逆转录酶或经修饰逆转录酶，例如但不限于

逆转录酶(Invitrogen；Carlsbad，California)，/>

VILO^TMcDNA合成(Invitrogen；Carlsbad，California)、RTX、AMV-RT和Quantiscript逆转录酶(Qiagen，Hilden，Germany)。

本文中所公开的pegRNA-PE复合物识别基因组中的靶位点，并且Cas9例如对前间区序列邻近基序(protospacer adjacent motif，PAM)链进行切口。pegRNA中的引物结合位点(PBS)与PAM链杂交。含有编辑物序列的与PBS可操作连接的RT模板指导RT模板逆转录成DNA进入靶位点中。经编辑3’flap和未经编辑5’flap之间的平衡化、细胞5’flap切割和连接以及DNA修复产生稳定编辑的DNA。为了优化碱基编辑，可以使用Cas9切口酶来对非编辑链进行切口，从而使用经编辑链作为模板指导DNA修复该链。

整合酶技术

本公开内容提供了使用整合酶技术进行位点特异性遗传改造的非天然存在或经改造的系统、方法和组合物。将在下面更详细地讨论整合酶技术。

本文中使用的整合酶技术包含指导经由核酸酶(例如先导编辑核酸酶)将目的基因或目的核酸序列整合到整合位点中的蛋白质或编码该蛋白质的核酸。指导整合的蛋白质可以是酶例如整合酶。整合酶可以是通过整合在整合位点处将目的基因组或核酸并入到细胞基因组中的整合酶。整合酶可以是通过重组在整合位点处将目的基因组或核酸并入到细胞基因组中的重组酶。整合酶可以是通过逆转录在整合位点处将目的基因组或核酸并入到细胞基因组中的逆转录酶。整合酶可以是通过逆转录转座在整合位点处将目的基因组或核酸并入到细胞基因组中的逆转录转座酶。

本文中使用的术语“整合酶”是指用于在单个反应或多个反应中将目的基因或目的核酸序列整合到细胞基因组中的期望位置中或者整合位点处的酶或蛋白质。整合酶的实例包括，例如但不限于，Cre，Dre，Vika，Bxb1，

RDF，FLP，/>

R1，R2，R3，R4，R5，TP901-1，A118，/>

MR11，TG1，/>

Wβ，BL3，SPBc，K38，Peaches，Veracruz，Rebeuca，Theia，Benedict，KSSJEB，PattyP，Doom，Scowl，Lockley，Switzer，Bob3，Troube，Abrogate，Anglerfish，Sarfire，SkiPole，ConceptII，Museum，Severus，Airmid，Benedict，Hinder，ICleared，Sheen，Mundrea，BxZ2，/>

以及由R2、L1、Tol2 Tc1、Tc3、Mariner(Himar 1)、Mariner(mos 1)和Minos编码的逆转录转座酶。在一些实施方案中，术语“整合酶”是指编码上述酶的核酸(DNA或RNA)。在一些实施方案中，Cre重组酶由Cre重组酶表达质粒(SEQ ID NO：71)表达。

哺乳动物表达质粒可见于下表1中。

表1

/>

微环载物基因图谱可见于下表2中。

/>

在一些实施方案中，来自

噬菌体的丝氨酸整合酶/>

用作整合酶。与pegRNA组合的整合酶/>

可用于插入假attP整合位点(SEQ ID NO：78)。包含目的基因或核酸和attB(SEQ ID NO：3)位点的DNA微环可用于将目的基因或核酸整合到细胞的基因组中。该整合可通过具有/>

整合酶的表达载体的共转染来辅助。

本文中使用的术语“整合酶”是指噬菌体来源整合酶，包括野生型整合酶和多种突变体整合酶或经修饰整合酶中的任一种。本文中使用的术语“整合酶复合物”可以指包含整合酶和整合宿主因子(integration host factor，IF)的复合物。本文中使用的术语“整合酶复合物”等也可以指包含整合酶、整合宿主因子和噬菌体X来源切除酶(Xis)的复合物。

本文中使用的术语“重组酶”等是指介导重组酶识别序列之间DNA重组的位点特异性酶，其使得重组酶识别序列之间DNA片段的切除、整合、倒位或交换(例如，易位)。重组酶可分成两个不同的家族：丝氨酸重组酶(例如，解离酶和转化酶)和酪氨酸重组酶(例如，整合酶)。丝氨酸重组酶的一些实例包括但不限于Ilin，Gin，Tn3，β-six，CinH，ParA，γδ，Bxb1，

TP901，TG1，/>

R1，R2，R3，R4，R5，/>

MR11，A118，U153，和gp29。丝氨酸重组酶的一些实例还包括但不限于重组酶Peaches，Veracruz，Rebeuca，Theia，Benedict，KSSJEB，PattyP，Doom，Scowl，Lockley，Switzer，Bob3，Troube，Abrogate，Anglerfish，Sarfire，SkiPole，ConceptII，Museum，Severus，Airmid，Benedict，Hinder，ICleared，Sheen，Mundrea，和BxZ2(来自分枝杆菌噬菌体)。

酪氨酸重组酶的一些实例包括但不限于Cre、FLP、R、Lambda、HK101、HK022和pSAM2。丝氨酸和酪氨酸重组酶命名来源于该重组酶用来攻击DNA并且在链交换期间变成与DNA共价连接的保守的亲核氨基酸残基。

重组酶具有多种应用，包括基因敲除/敲入的建立和基因治疗应用。参见例如，Brown et al.，“Serine recombinases as tools for genome engineering.”Methods，2011；53(4)：372-9；Hirano et al.，“Site-specific recombinases as tools forhcterologous gene integration.”Appl.Microbiol.Biotechnol.2011；92(2)：227-39；Chavez and Calos，“Therapeutic applications of theФC31 integrase system.”Curr.Gene Ther.2011；11(5)：375-81；Turan and Bode，“Site-specific recombinases：from tag-and-target-to tag-and-exchange-based genomic modifications.”FASEBJ.2011；25(12)：4088-107；Venken and Bellen，“Genome-wide manipulations ofDrosophila melanogaster with transposons，Flp recombinase，andФC31 integrase.”Methods Mol.Biol.2012；859：203-28；Murphy，“Phage recombinases and theirapplications.”Adv.Virus Res.2012；83：367-414；Zhang et al.，“Conditional genemanipulation：Creating a new biological era.”J.Zhejiang Univ.Sci.B.2012；13(7)：511-24；Karpenshif and Bernstein，“From yeast to mammals：recent advances ingenetic control of homologous recombination.”DNA Repair(Amst).2012；1；11(10)：781-8

其各自的全部内容在此通过引用整体并入。

本文中提供的重组酶并不意味着是可用于本公开内容实施方案中的重组酶的排他性实例。本公开内容的方法和组合物可以通过挖掘新的正交重组酶的数据库或者设计具有所定义DNA特异性的合成重组酶来扩展(参见，例如，Groth et al.，“Phage integrases：biology and applications.”J.Mol.Biol.2004；335，667-678；Gordley et al.，“Synthesis of programmable integrases.”Proc.Natl.Acad.Sci.USA.2009；106，5053-5058；其各自的全部内容在此通过引用整体并入)。

可用于本文中所述的系统、方法和组合物的重组酶的另一些实例是本领域技术人员已知的，并且发现或产生的任何新重组酶预期能够用于本公开内容的不同实施方案中。

本文中使用的术语“逆转录转座酶”等是指一种酶或者一种或更多种酶的组合，其中至少一种酶具有逆转录酶结构域。逆转录转座酶能够将异源核酸的长序列(例如，超过3000个核苷酸)插入到基因组中。逆转录转座酶的一些实例包括，例如但不限于，由元件例如R2、L1、Tol2 Tc1、Tc3、Mariner(Himar 1)、Mariner(mos 1)、Minos编码的逆转录转座酶、及其任何突变体。

在一些实施方案中，使用编码与互补或缔合的整合位点连接的核酸的RNA片段(例如逆转录转座子)将一个或更多个目的基因或一个或更多个目的核酸序列插入到基因组中的期望位置中。使用逆转录转座子将目的核酸插入到基因组中期望位置的位置中是由逆转录转座酶来辅助。

本文中公开的目的基因和核酸序列可以是本领域已知的任何基因和核酸序列。目的基因和核酸序列可用于治疗和/或诊断用途。目的基因的一些实例包括但不限于，

GBA，BTK，ADA，CNGB3，CNGA3，ATF6，GNAT2，ABCA1，ABCA7，APOE，CETP，LIPC，MMP9，PLTP，VTN，ABCA4，MFSD8，TLR3，TLR4，ERCC6，HMCN1，HTRA1，MCDR4，MCDR5，ARMS2，C2，C3，CFB，CFH，JAG1，NOTCH2，CACNA1F，SERPINA1，TTR，GSN，B2M，APOA2，APOA1，OSMR，ELP4，PAX6，ARG，ASL，PITX2，FOXC1，BBS1，BBS10，BBS2，BBS9，MKKS，MKS1，BBS4，BBS7，TTC8，ARL6，BBS5，BBS12，TRIM32，CEP290，ADIPOR1，BBIP1，CEP19，IFT27，LZTFL1，DMD，BEST1，HBB，CYP4V2，AMACR，CYP7B1，HSD3B7，AKR1D1，OPN1SW，NR2F1，RLBP1，RGS9，RGS9BP，PROM1，PRPH2，GUCY2D，CACD，CHM，ALAD，ASS1，SLC25A13，OTC，ACADVL，ETFDH，TMEM67，CC2D2A，RPGRIP1L，KCNV2，CRX，GUCA1A，CERKL，CDHR1，PDE6C，TTLL5，RPGR，CEP78，C21orf2，C8ORF37，RPGRIP1，ADAM9，POC1B，PITPNM3，RAB28，CACNA2D4，AIPL1，UNC119，PDE6H，OPN1LW，RIMS1，CNNM4，IFT81，RAX2，RDH5，SEMA4A，CORD17，PDE6B，GRK1，SAG，RHO，CABP4，GNB3，SLC24A1，GNAT1，GRM6，TRPM1，LRIT3，TGFBI，TACSTD2，KRT12，OVOL2，CPS1，UGT1A1，UGT1A9，UGT1A8，UGT1A7，UGT1A6，UGT1A5，UGT1A4，CFTR，DLD，EFEMP1，ABCC2，ZNF408，LRP5，FZD4，TSPAN12，EVR3，APOB，SLC2A2，LOC106627981，GBA1，NR2E3，OAT，SLC40A1，F8，F9，UROD，CPOX，HFE，JH，LDLR，EPHX1，TJP2，BAAT，NBAS，LARS1，HAMP，HJV，RS1，ADAMTS18，LRAT，RPE65，LCA5，MERTK，GDF6，RD3，CCT2，CLUAP1，DTHD1，NMNAT1，SPATA7，IFT140，IMPDH1，OTX2，RDH12，TULP1，CRB1，MT-ND4，MT-ND1，MT-ND6，BCKDHA，BCKDHB，DBT，MMAB，ARSB，GUSB，NAGS，NPC1，NPC2，NDP，OPA1，OPA3，OPA4，OPA5，RTN4IP1，TMEM126A，OPA6，OPA8，ACO2，PAH，PRKCSH，SEC63，GAA，UROS，PPOX，HPX，HMOX1，HMBS，MIR223，CYP1B1，LTBP2，AGXT，ATP8B1，ABCB11，ABCB4，FECH，ALAS2，PRPF31，RP1，EYS，TOPORS，USH2A，CNGA1，C2ORF71，RP2，KLHL7，ORF1，RP6，RP24，RP34，ROM1，ADGRA3，AGBL5，AHR，ARHGEF18，CA4，CLCC1，DHDDS，EMC1，FAM161A，HGSNAT，HK1，IDH3B，KIAA1549，KIZ，MAK，NEUROD1，NRL，PDE6A，PDE6G，PRCD，PRPF3，PRPF4，PRPF6，PRPF8，RBP3，REEP6，SAMD11，SLC7A14，SNRNP200，SPP2，ZNF513，NEK2，NEK4，NXNL1，OFD1，RP1L1，RP22，RP29，RP32，RP63，RP9，RGR，POMGNT1，DHX38，ARL3，COL2A1，SLCO1B1，SLCO1B3，KCNJ13，TIMP3，ELOVL4，TFR2，FAH，HPD，MYO7A，CDH23，PCDH15，DFNB31，GPR98，USH1C，USH1G，CIB2，CLRN1，HARS，ABHD12，ADGRV1，ARSG，CEP250，IMPG1，IMPG2，VCAN，G6PC1，ATP7B

及其任何衍生物。

本文中使用的术语“逆转录转座子”、“跳跃基因(jumping gene)”、“跳跃核酸(jumping nucleic acid)”等是指依赖于逆转录的细胞可移动遗传元件。逆转录转座子是非复制能力细胞来源的，并且能够携带外源核酸序列。逆转录转座子可用作逆转录病毒的寄生子(parasite)，保留某些经典标志，例如长末端重复(long terminal repeat，LTR)、逆转录病毒引物结合位点等。然而，天然存在的逆转录转座子通常不包含功能性逆转录病毒结构基因，其通常能够重组以产生具有复制能力的病毒。一些逆转录转座子是除复制自身的能力之外什么都不编码的所谓的“自私DNA”或遗传信息的实例。逆转录转座子可通过利用宿主细胞内偶尔存在的逆转录病毒或逆转录转座酶做到这样，有效地将自身包装在病毒颗粒内，所述病毒颗粒将其转运至新的宿主基因组，在那里其再次作为RNA表达。RNA内编码的信息可能与跳跃基因一起转运。逆转录转座子可以是DNA转座子或逆转录转座子，包括LTR逆转录转座子或非LTR逆转录转座子。

非长末端重复(LTR)逆转录转座子是在真核生物基因组中广泛分布的可移动遗传元件的一种类型。它们包括两类：无嘌呤/无嘧啶内切核酸酶(apurinic/apyrimidinicendonuclease，APE)型和限制酶样内切核酸酶(restriction enzyme-like endonuclease，RLE)型。APE类逆转录转座子由两个功能结构域构成：内切核酸酶/DNA结合结构域和逆转录酶结构域。RLE类由三个功能结构域构成：DNA结合结构域、逆转录结构域和内切核酸酶结构域。非LTR逆转录转座子的逆转录酶结构域通过结合RNA序列模板并将其逆转录到宿主基因组的靶DNA中来发挥作用。RNA序列模板具有与转座酶特异性结合的3’非翻译区，以及通常具有编码转座酶蛋白质的开放阅读框(“ORF”)的可变5’区。RNA序列模板还可包含特异性结合逆转录转座酶的5’非翻译区。在一些实施方案中，非LTR转座子可包括LINE逆转录转座子(例如L1)和SINE逆转录转座子(例如Alu序列)。另一些实例包括，例如但不限于，R1、R2、R3、R4和R5逆转录转座子(Moss，W.N.et al.，RNA Biol.2011，8(5)，714-718；和Burke，W.D.etal.，Molecular Biology and Evolution 2003，20(8)，1260-1270)。转座子可以是自主或非自主的。

包括逆转录病毒的LTR逆转录转座子占典型哺乳动物基因组的显著部分，包含约人基因组中的8％和小鼠基因组中的10％。Lander et al.，2001，Nature 409，860-921；Waterson et al.，2002，Nature 420，520-562。LTR元件包括逆转录转座子、内源性逆转录病毒(endogenous retrovirus，ERV)和具有HERV来源的重复元件，例如SINE-R。LTR逆转录转座子包括侧翼为编码以下两种酶的区域的两个LTR序列：整合酶和逆转录转座酶。

ERV包括人内源性逆转录病毒(human endogenous retrovirus，HERV)，即古代生殖细胞感染的残余物。虽然大多数HERV前病毒已经经历了广泛的缺失和突变，但是一些保留了编码功能蛋白(包括糖基化的env蛋白)的ORFS。env基因赋予LTR元件在细胞与个体之间传播的潜能。事实上，所有三个开放阅读框(pol、gag和env)均已在人中识别，并且证据表明ERV在种系中是活跃的。参见，例如，Wang et al.，2010，Genome Res.20，19-27。此外，已显示一些家族(包括HERV-K(HML-2)组)能形成病毒颗粒，并且最近在一小部分人群中发现了明显完整的前病毒。例如，参见Bannert and Kurth，2006，Proc.Natl.Acad.USA 101，14572-14579。

使用在DNA转座子中观察到的DNA切割和DNA链转移的同一步骤，将LTR逆转录转座子插入到基因组中的新位点中。然而，与DNA转座子相反，LTR逆转录转座子的重组涉及RNA中间体。LTR逆转录转座子占人基因组中约8％。参见，例如，Lander et al.，2001，Nature409，860-921；Hua-Van et al.，2011，Biol.Dir.6，19。

整合位点

本公开内容提供了用于通过将整合位点添加到靶基因组中进行位点特异性遗传改造的非天然存在或经改造的系统、方法和组合物。整合位点将在下面更详细地讨论。

本文中使用的术语“整合位点”是指其中插入一个或更多个目的基因或者一个或更多个目的核酸序列的靶基因组内的位点。整合位点的一些实例包括例如但不限于lox71位点(SEQ ID NO：1)、attB位点(SEQ ID NO：3和SEQ ID NO：43)、attP位点(SEQ ID NO：4和SEQ ID NO：44)、attL位点(SEQ ID NO：67)、attR位点(SEQ ID NO：68)、Vox位点(SEQ IDNO：69)、FRT位点(SEQ ID NO：70)或假attP位点(SEQ ID NO：78)。可使用核酸酶、gRNA和/或整合酶将整合位点插入到细胞的基因组或其片段中。可使用先导编辑器例如但不限于PE1、PE2和PE3，将整合位点插入到细胞的基因组中，其中使整合位点携带在pegRNA上。pegRNA可以靶向本领域已知的任何位点。pegRNA所靶向的位点的一些实例包括但不限于ACTB，SUPT16H，SRRM2，NOLC1，DEPDC4，NES，LMNB1，AAVS1基因座，CC10，CFTR，SERPINA1，ABCA4，及其任何衍生物。互补整合位点可以与外源DNA或RNA的目的基因或目的核酸序列可操作地连接。在一些实施方案中，将一个整合位点添加至靶基因组。在一些实施方案中，将多于一个整合位点添加至靶基因组。

为了插入多个目的基因或核酸，将两个或更多个整合位点添加至期望的位置。包含目的核酸序列的多个DNA正交侧接有整合序列，例如但不限于attB和attP。当整合位点不显著识别重组酶的识别位点或核苷酸序列时，则其是“正交的”。因此，重组酶的一个attB位点可以与不同重组酶的attB位点正交。另外，重组酶的一对attB与attP位点可以与通过同一重组酶识别的另一对attB与attP位点正交。如本文中所定义的，当存在对彼此attB或attP位点序列的识别时，重组酶对被认为是彼此正交的。

通过同一重组酶或不同重组酶对整合位点或位点对的识别缺失可小于约30％。在一些实施方案中，通过同一重组酶或不同重组酶对整合位点或位点对的识别缺失可小于约30％、小于约28％、小于约26％、小于约24％、小于约22％、小于约20％、小于约18％、小于约16％、小于约14％、小于约12％、小于约10％、小于约8％、小于约6％、小于约4％、小于约2％、约1％、或由这些值中任意两个作为端点形成的任意范围。串扰(crosstalk)可小于约30％。在一些实施方案中，串扰小于约30％、小于约28％、小于约26％、小于约24％、小于约22％、小于约20％、小于约18％、小于约16％、小于约14％、小于约12％、小于约10％、小于约8％、小于约6％、小于约4％、小于约2％、小于约1％、或由这些值中任意两个作为端点形成的任意范围。

在一些实施方案中，attB和/或attP位点序列包含中心二核苷酸序列。已表明，例如，中心二核苷酸可以从GT变为GA，并且仅包含GA的attB/attP位点相互作用，并且不与包含GT的序列交叉反应。在一些实施方案中，中心二核苷酸选自AG，AC，TG，TC，CA，CT，GA，AA，TT，CC，GG，AT，TA，GC，CG和GT。

本文中使用的术语“aRB与attP位点序列对”等是指共享相同中心二核苷酸并且可以重组的attB与attP位点序列。这意味着在存在一种丝氨酸整合酶的情况下，多达六对这些正交att位点可以重组(attPTT将与attBTT特异性重组，attPTC将与attBTC特异性重组，等)。

在一些实施方案中，中心二核苷酸是非回文的。在一些实施方案中，中心二核苷酸是回文的。在一些实施方案中，attB位点序列与attP位点序列对用于编码目的基因或目的核酸序列的不同DNA，以用于诱导两个或更多个不同核酸的定向整合。

下表3示出了具有不同中心二核苷酸(central dinucleotide，CD)的attB位点序列与attP位点序列对的一些实例。

表3

PASTE

本公开内容提供了使用PASTE进行位点特异性遗传改造的非天然存在或经改造的系统、方法和组合物。PASTE将在下面更详细地讨论。

本文中公开的位点特异性遗传改造用于将一个或更多个目的基因或者一个或更多个目的核酸序列插入到细胞的基因组中。在一些实施方案中，目的基因是与遗传疾病有关的突变基因，所述遗传疾病例如但不限于代谢性疾病、囊性纤维化、肌营养不良、血色素沉着病、泰-萨克斯病、亨廷顿病(Huntington disease)、先天性耳聋、镰状细胞贫血、家族性高胆固醇血症、腺苷脱氨酶(adenosine deaminase，ADA)缺乏症、X-连锁SCID(X-SCID)和威斯科特-奥尔德里奇综合征(Wiskott-Aldrich syndrome，WAS)。在一些实施方案中，目的基因或目的核酸序列可以是基因上游或下游的用于遗传分析例如但不限于用于确定基因表达的报道基因。在一些实施方案中，报道基因是GFP模板(SEQ ID NO：76)或Gaussia萤光素酶(G-萤光素酶)模板(SEQ ID NO：77)。在一些实施方案中，目的基因或目的核酸序列可用于植物遗传学以插入在植物中增强耐旱性、耐候性(weather hardiness)以及提高产量和除草剂抗性的基因。在一些实施方案中，目的基因或目的核酸序列可用于将以下位点特异性地插入到细胞中以用于免疫疾病(包括但不限于关节炎、银屑病、狼疮、乳糜泻(coeliac disease)、肾小球肾炎、肝炎和炎性肠病)的治疗：蛋白质(例如，溶酶体酶)、血液因子(例如，因子I、II、V、VII、X、XI、XII或XIII)、膜蛋白、外显子、胞内蛋白(例如，胞质蛋白、核蛋白、细胞器蛋白例如线粒体蛋白或溶酶体蛋白)、胞外蛋白、结构蛋白、信号传导蛋白、调节蛋白、转运蛋白、感觉蛋白、运动蛋白、防御蛋白、或储存蛋白、抗炎信号传导分子。

所插入基因或核酸的尺寸可以为约1bp至约50,000bp。在一些实施方案中，所插入基因或核酸的尺寸可以为约1bp，10bp，50bp，100bp，150bp，200bp，250bp，300bp，350bp，400bp，600bp，800bp，1000bp，1200bp，1400bp，1600bp，1800bp，2000bp，2200bp，2400bp，2600bp，2800bp，3000bp，3200bp，3400bp，3600bp，3800bp，4000bp，4200bp，4400bp，4600bp，4800bp，5000bp，5200bp，5400bp，5600bp，5800bp，6000bp，6200，6400bp，6600bp，6800bp，7000bp，7200bp，7400bp，7600bp，7800bp，8000bp，8200bp，8400bp，8600bp，8800bp，9000bp，9200bp，9400bp，9600bp，9800bp，10,000bp，10，200bp，10，400bp，10,600bp，10,800bp，11,000bp，11,200bp，11,400bp，11,600bp，11,800bp，12,000bp，14,000bp，16,000bp，18,000bp，20,000bp，30,000bp，40,000bp，50,000bp，或由这些值中任意两个作为端点形成的任意范围。

在一些实施方案中，使用本文中公开的目的基因或目的核酸序列进行的位点特异性改造是用于改造用于肿瘤靶向或同种异体产生的T细胞和NK。这些可涉及使用肿瘤特异性的受体或CAR、抗PD1抗体、细胞因子(如IFN-γ、TNF-α、IL-15、IL-12、IL-18、IL-21和IL-10)以及免疫逃逸基因。

在本公开内容中，目的基因或目的核酸的位点特异性插入是通过以位点特异性靶向元件实现的可编程添加(PASTE)来进行的。使用PASTE用于插入目的基因或目的核酸的组分例如但不限于核酸酶、添加整合位点的gRNA、包含与和整合位点互补或缔合的序列连接的基因或核酸的DNA或RNA链、以及整合酶。使用PASTE用于插入目的基因或目的核酸的组分例如但不限于先导编辑器表达、添加整合位点的pegRNA、切口指导RNA、整合酶(Cre或丝氨酸重组酶)、包含具有基因和整合信号的目的基因或目的核酸序列的转基因载体。核酸酶和先导编辑器将整合位点整合到基因组中。整合酶将目的基因整合到整合位点中。在一些实施方案中，包含具有基因和整合信号的目的基因或核酸序列的转基因载体是不含细菌DNA序列的DNA微环。在一些实施方案中，转基因载体是真核或原核载体。

本文中使用的术语“载体”或“转基因载体”是指包含用于在宿主生物体中表达可操作连接的编码序列所需的期望编码序列和适当核酸序列的重组DNA分子。在原核生物中用于表达所需的核酸序列通常包括例如但不限于启动子、操纵子(任选)、核糖体结合位点和/或其他序列。公知的是，真核细胞利用启动子(组成型、诱导型或组织特异性)、增强子、以及终止和聚腺苷酸化信号，但是在不牺牲必要表达的情况下可以缺失一些元件和添加其他元件。转基因载体可以编码PE和整合酶，所述PE和整合酶通过接头彼此连接。接头可以是可切割接头。例如，编码通过接头彼此连接的PE和整合酶的转基因载体是包含SEQ ID NO：73的pCMV PE2 P2A Cre。在一些实施方案中，接头可以是不可切割接头。在一些实施方案中，核酸酶、先导编辑器和/或整合酶可以在不同的载体中编码。

根据本公开内容的一些实施方案，将多个目的基因或核酸序列插入到单位点中的方法在图12中示出。在一些实施方案中，多重化涉及使用独特的pegRNA在多个基因座中插入多个目的基因，如在图13中示出(Merrick，C.A.etal.，ACS Synth.Biol.2018，7，299-310)。通过将互补的5’整合位点并入至包含第一核酸的DNA或RNA的5’端并且将3’整合位点并入至包含最后一个核酸的DNA或RNA的3’端，有助于将多个目的基因或目的核酸插入到细胞基因组中，本文中称为“多重化”。在一些实施方案中，使用多重化插入到细胞基因组中的目的基因组或目的氨基酸序列的数目可以是约1、2、3、4、5、6、7、8、910、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、或由这些值中任意两个作为端点形成的任意范围。

在一些实施方案中，多重化允许整合例如信号传导级联、目的蛋白与其辅因子的过表达、插入在赘生性病症中突变的多个基因、或插入用于治疗癌症的多种CAR。

在一些实施方案中，可以使用非先导编辑方法(例如rAAV介导的核酸整合、TALEN和ZFN)将整合位点插入到基因组中。许多独特的特性使AAV成为用于人基因治疗的有前景的载体(Muzyczka，CURRENT TOPICS IN MICROBIOLOGY AND IMMUNOLOGY，158：97-129(1992))。与另一些病毒载体不同，AAV未显示出与任何已知的人疾病相关并且通常不被认为是致病性的。野生型AAV能够以位点特异性的方式整合到宿主染色体中，M.Kotin etal.，PROC.NATL.ACAD.SCI，USA，87：2211-2215(1990)；R.J.Samulski，EMBO 10(12)：3941-3950(1991))。作为引起双链DNA断裂的替代，AAV刺激内源性同源重组以实现DNA修饰。此外，转录激活因子样效应物核酸酶(transcription activator-like effector nuclease，TALEN)和锌指核酸酶(Zinc-finger nuclease，ZFN)用于基因组编辑和引入靶向DSB。TALEN的特异性来自两个多态氨基酸，即位于重复单元的第12和13位处的所谓重复可变二残基(repeat variable diresidue，RVD)。TALEN与FokI核酸酶连接，其在期望位置处切割DNA。ZFN是用于定制位点特异性基因组编辑的人工限制酶。锌指本身是转录因子，其中每个指(finger)识别3至4个碱基。通过混合和匹配这些指模块，研究者可以定制所靶向的序列。

本文中使用的关于修饰宿主基因组的质粒、核酸或蛋白质的术语“施用、“引入”或“递送”到细胞、组织或器官中是指可在体内、体外或离体发生的针对这样的施用、引入或递送的转运。用于遗传修饰的质粒、DNA或RNA可通过转染引入到细胞中，其通常通过以下来实现：化学手段(例如，磷酸钙转染、聚乙烯亚胺(polyethyleneimine，PEI)或脂质转染)、物理手段(电穿孔或显微注射)、感染(这通常意味着引入感染原(infectious agent)例如病毒(例如，表达AAV Rep基因的杆状病毒))、转导(在微生物学中，这是指通过病毒对细胞的稳定感染，或通过病毒因子(例如，噬菌体)将遗传物质从一种微生物转移至另一种微生物)。用于表达重组多肽、蛋白质或寡核苷酸的载体可以在细胞、组织、器官或对象中通过物理手段(例如，磷酸钙转染、电穿孔、显微注射或脂质转染)来获得。载体(vector)可通过在可药用载体(carrier)中制备载体来递送，以用于体外、离体或体内递送载体。

本文中使用的术语“转染”是指细胞对外源核酸分子的摄取。当外源核酸被引入细胞膜内时，则细胞被“转染”。转染可以是单转染、共转染或多重转染。许多转染技术是本领域公知的。参见，例如，Graham et al.(1973)Virology，52：456。这样的技术可用于将一个或更多个外源核酸分子引入到合适的宿主细胞中。

在一些实施方案中，用于基因编辑的外源核酸分子和/或其他组分在单转染中组合和递送。在另一些实施方案中，用于基因编辑的外源核酸分子和/或其他组分不在单转染中组合和递送。在一些实施方案中，用于基因编辑的外源核酸分子和/或其他组分在单转染中组合和递送以包含例如但不限于先导编辑载体、着陆位点例如包含着陆位点的pegRNA、切口指导子例如用于刺激先导编辑的切口指导子、表达载体例如用于相应的整合酶或重组酶的表达载体、微环DNA载物例如编码绿色荧光蛋白(green fluorescent protein，GFP)的微环DNA载物、其任何衍生物、及其任何组合。在一些实施方案中，目的基因或目的氨基酸序列可以使用脂质体来引入。在一些实施方案中，目的基因或目的氨基酸序列可以使用合适的载体(例如但不限于质粒和病毒载体)来递送。病毒载体的一些实例包括但不限于腺相关病毒(adeno-associated viruses，AAV)、慢病毒、腺病毒、其他病毒载体、其衍生物或其组合。蛋白质和一个或更多个指导RNA可以包装到一个或更多个载体(例如，质粒或病毒载体)中。在一些实施方案中，递送是通过纳米粒或外排体。例如，外排体可特别可用于递送RNA。

在一些实施方案中，先导编辑以以下效率插入着陆位点：至少约1％、至少约5％、至少约10％、至少约15％、至少约、至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％或至少约50％。在一些实施方案中，先导编辑以以下效率插入着陆位点：约1％、约2％、约3％、约4％、约5％、约6％、约7％、约8％、约9％、约10％、约11％、约12％、约13％、约14％、约15％、约16％、约17％、约18％、约19％、约20％、约21％、约22％、约23％、约24％、约25％、约26％、约27％、约28％、约29％、约30％、约31％、约32％、约33％、约34％、约35％、约36％、约37％、约38％、约39％、约40％、约41％、约42％、约43％、约44％、约45％、约46％、约47％、约48％、约49％、约50％、或由这些值中任意两个作为端点形成的任意范围。

序列

酶、指导子、整合位点和质粒的序列可见于下表4中。

表4

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

/>

插入位点的序列可见于下表4中。

/>

/>

/>

/>

/>

/>

/>

Bxb1和RT突变体的序列可见于下表6中。

/>

用于ddPCR读出的引物、探针和限制酶的序列可见于下表7中。

表7

/>

/>

/>

/>

/>

/>

/>

/>

用于NGS读出的引物序列可见于下表8中。

/>

/>

/>

脱靶位点的序列可见于下表9中。

/>

接头序列在下表10中。

示例性融合序列在下表11中。

/>

/>

/>

/>

/>

实施例

虽然设想了数个实验性实施例，但是这些实施例旨在是非限制性的。

实施例1

CRE整合效率

测试了CRE整合的效率。为了使用lox71/lox66/Cre重组酶系统用GFP测试PASTE的效力，开发了使用慢病毒具有整合到基因组中的lox71序列(SEQ ID NO：1)的克隆HEK293FT细胞系。GFP的整合通过用以下转染经修饰HEK293FT细胞系来测试：(1)包含Cre重组酶表达质粒的plus/minus SEQ ID NO：71，和(2)包含GFP模板和SEQ ID NO：2的lox 66 Cre位点的SEQ ID NO：72。在72小时之后，探测GFP在lox71位点中的整合百分比。图3示出了在存在多质粒的情况下，在HEK293FT细胞系中经慢病毒整合的lox71位点中GFP的整合百分比。观察到pCMV PE2 P2A Cre(SEQ ID NO：73)，即具有先导编辑复合物和通过可切割接头或不可切割接头与PE2连接的Cre重组酶的哺乳动物表达载体，显示出对GFP的整合。

实施例2

采用Cre重组酶的以位点特异性靶向元件实现的可编程添加(PASTE)——Lox位点的添加

使用先导编辑将lox71(SEQ ID NO：1)或lox66(SEQ ID NO：2)序列插入到HEK293FT细胞基因组中以测试GFP在HEK293FT基因组中的整合。为了将lox71或lox66序列插入到HEK293FT细胞基因组中，使用与不同长度的RT区域可操作地连接的具有PBS长度为13个碱基对的pegRNA。以下质粒用于HEK293FT细胞的转染。用以下来转染细胞：(1)先导编辑构建体(PE2)或具有条件性Cre表达的PE2，(2)靶向HEK3基因座的Lox71或Lox66 pegRNA，以及(3)靶向HEK3基因座的plus/minus+90 HEK3切口第二指导RNA(+90ngRNA)。在72小时之后，针对不同长度的lox71或lox66的并入，探测在HEK3基因座处HEK293FT基因组的编辑百分比(参见图4)。观察到采用+90ngRNA(SEQ ID NO：75)的34个碱基对lox71(HEK3基因座指导子，SEQ ID NO：83；以及具有RT 34和PBS 13的Lox71 pegRNA，SEQ ID NO：81)和采用+90ngRNA(SEQ ID NO：75)的34个碱基对lox66(HEK3基因座指导子，SEQ ID NO：83；以及具有RT 34和PBS 13的Lox 66pegRNA，SEQ ID NO：82)具有最高的编辑百分比。

实施例3

采用Cre重组酶的PASTE——基因的整合

使用具有PBS长度为13个碱基对和插入物长度为34个碱基对的lox71或lox66pegRNA来探测GFP在HEK293F基因组中的整合。PE和Cre均在诱导型表达载体中递送，并在第2天诱导。用以下质粒转染HEK293FT细胞：(1)先导编辑构建体(PE2或具有条件性Cre表达的PE2)；(2)Lox 71 pegRNA；(3)plus/minus+90 HEK3切口指导RNA；以及(4)具有Lox66位点的EGFP模板。在72小时之后，在存在多PE/Cre构建体的情况下，在有或没有lox66位点的情况下探测lox71位点的编辑百分比和GFP的整合百分比。图5A总结了采用不同PE/Cre载体的lox71位点的编辑百分比。图5B总结了在HEK293FT细胞基因组中在lox71位点处GFP的整合百分比。观察到尽管在存在诱导型或非诱导型PE/Cre表达系统的情况下lox71位点被编辑，但是没有GFP整合。

实施例4

Bxb1整合数据Lenti报告

将整合系统转换为整合酶系统，其可使得靶基因以更高的效率整合到基因组中。已显示丝氨酸整合酶Bxb1比Cre重组酶更具有活性，并且在细菌和哺乳动物细胞中对靶基因的不可逆整合是高度有效的。图6示出了使用Bxb1的PASTE方法的示意图(Merrick，C.A.et al.，ACS Synth.Biol.2018，7，299-310)。

为了探测Bxb1整合系统的效率，开发了使用慢病毒整合的具有attB Bxb1位点(SEQ ID NO：3)的克隆HEK293FT细胞系。然后用以下质粒转移经修饰HEK293FT细胞系：(1)plus/minus Bxb1表达质粒，和(2)具有attP Bxb1位点的plus/minus GFP(SEQ ID NO：76)或G-Luc(SEQ ID NO：77)微环模板。在72小时之后，探测GFP或Gluc在HEK293FT基因组中在attB位点中的整合。图7中示出了GFP或Gluc在attB基因座中的整合百分比。观察到GFP和Gluc在HEK293FT细胞中显示出有效整合到attB位点中。

实施例5

使用先导物将Bxb1位点添加至人基因组

探测了可以以最佳效率整合到HEK293FT细胞系中的attB的最大长度。为了探测用于先导编辑的attB(SEQ ID NO：3)或其反向互补attP(SEQ ID NO：4)的最佳长度，使用了具有PBS长度为13nt与不同RT同源长度的pegRNA。在HEK293FT中转染以下质粒：(1)先导表达质粒；(2)HEK3靶向pegRNA设计；以及(3)HEK3+90切口指导子。在72小时之后，探测每个attB构建体的整合百分比。图8示出了每个HEK3靶向pegRNA的编辑百分比。观察到具有44、34和26个碱基对的attB和具有34和26个碱基对的attB反向互补物显示出最高的编辑百分比。

然后在HEK29FT细胞中用GFP标记细胞-细胞器标志物蛋白来测试整合PASTE。PASTE用于在不同的细胞培养孔中用GFP标记SUPT16H、SRRM2、LAMNB1、NOLC1和DEPDC4，以及使用显微术来测试PASTE在追踪细胞内蛋白质定位中的有用性。图9A至9G示出了每个细胞器的荧光显微术结果。观察到SUPT16H-GFP在细胞核中富集，观察到SRRM2-GFP在核斑点(nuclear speckle)中富集，观察到LAMNB1-GFP在核膜中富集，观察到NOLC1-GFP在纤维中心中富集，以及观察到DEPDC4-GFP在聚集体中富集。

质粒的转染可以使用电穿孔来实现，如在图10A至10B中所示。

实施例6

用PASTE对基因的可编程整合

测试了用PASTE对Gluc或EGFP的基因整合的效率。为了用PASTE使得基因整合，使用了以下HEK3靶向pegRNA：(1)44pegRNA：PBS为13nt和RT同源为44nt；(2)34pegRNA：PBS为13nt和RT同源为34nt；以及(3)26pegRNA：PBS为13nt和RT同源为26nt。

用以下质粒转染HEK293细胞系HEK293FT：(1)先导表达质粒；(2)Bxb1表达质粒；(3)HEK3靶向pegRNA设计；(4)HEK3+90切口指导子；以及(5)EGFP或Gluc微环。在72小时之后，观察Gluc或EGFP的整合百分比。图11示出了在所测试的HEK3靶向pegRNA中的每一个下EGFP和Gluc的整合。观察到使用PASTE有效地整合了EGFP和Gluc。

实施例7

PASTE整合多个基因

通过使用正交的attB与attP位点，有利于PASTE技术使多个基因位点特异性地整合到细胞中。中心二核苷酸可从GT变为GA，并且仅包含GA的attB/attP位点可以相互作用，并且不与包含GT的序列交叉反应。可以进行二核苷酸组合的筛选以找寻用于多重化PASTE编辑的正交attB/attP对。已经表明，使用Bxb1报道系统可以发现许多正交的二核苷酸组合。

为了测试这一点，通过先导编辑在ACTB位点处添加了针对Bxb1的attB^GT和attB^GA二核苷酸。引入EGFP-attP^GT DNA微环和mCherry-attP^GA DNA微环以测试在存在或不存在Bxb1的情况下EGFP和mCherry的编辑百分比。EGFP和mCherry编辑的结果示于图14A至14B中。

用正确的GT-EGFP和GA-mCherry对实现了正交编辑，表明在细胞中进行多重化PASTE编辑的能力。

在单个反应中，使用标记两种不同基因的多重化PASTE将两种基因引入到同一细胞中。在单个反应中，使EGFP和mCherry标记到x细胞系中的ACTB与NOLC1的基因座中。此外，使EGFP和mCherry标记到ACTB和LAMNB1的基因座中。使用荧光显微术将细胞可视化。图15A至15B示出了针对多重化PASTE的荧光显微术的结果。

测试了在attB与attP的9x9杂交(cross)中，9种不同的attB与attP中心二核苷酸(AA、GA、CA、AG、AC、CC、GT、CT和TT(SEQ ID NO：7、8、23、24、19、20、25、26、27、28、9、10、15、16、17、18、5和6))情况下的多重化能力。使用下一代测序对编辑物进行了探测。attB与attP中心二核苷酸(AA、GA、CA、AG、AC、CC、GT、CT和TT)的9X9杂交结果示于图16A中。仅attB与attP的正交对显示出最高的编辑百分比。该结果也在图16B的热图中示出。

实施例8

白蛋白和CPS1在白蛋白基因座中的整合

将具有白蛋白指导子的12种pegRNA与可变长度的PBS和逆转录酶序列连接，并使用不同的切口指导RNA来转染HEK293FT细胞。使用下一代测序来探测白蛋白中的编辑百分比。白蛋白基因座处先导编辑的结果在图17中所示。观察到SEQ ID NO：79显示出SERPINA1的最高百分比编辑，SEQ ID NO：80显示出CPS1的最高百分比编辑。

实施例9

经改造T细胞

为了改造CD8+T细胞，可以评价T细胞中PASTE递送和编辑的效率(图18)。ACTB靶向pegRNA可用于插入具有EGFP插入模板的整合位点。为了将PASTE组分递送至CD8+T细胞，电穿孔可与针对未经刺激T细胞的优化电穿孔方案一起使用。由于多质粒可降低电穿孔的效率，因此可以应用使用较少载体的合并的PASTE组分。

五载体、三载体和二载体的PASTE系统显示，可通过使用三载体方法以最大编辑来实现稳健的T细胞编辑(图19)。此外，可以测试电穿孔条件的扩展组，包括总质粒量、细胞数和电压/安培数方案。另外，T细胞的刺激可以影响转导效率和PASTE效率。此外，用T-活化剂CD3/CD28配体刺激的CD4+/CD8+T细胞混合物相比于未经刺激的细胞可以具有更高的PASTE编辑效率。为了将PASTE的效率与总递送速率分开，可以评价PASTE载体上的mCherry表达盒以便对成功转染的T细胞进行分选。一旦实现优化的参数，就可以使用不同的插入物(例如EGFP、BFP和YFP)在单编辑和多重化编辑环境二者中评价T细胞中用PASTE的10个插入位点的组，包括TRAC、IL2Rα和PDCD1基因座。HEK293FT中相关位点的测试子集实现了对EGFP插入的大于40％的编辑(图20)。可以评价采用不同TCR和CAR构建体的TRAC基因座处的PASTE效率。可以成功地转染T细胞以实现CAR或TCR的插入。

实施例10

针对CFTR的PASTE

可在HEK293FT细胞中测试针对CFTR基因座的PASTE以鉴定针对人细胞的最高性能pegRNA和切口设计。还可以测试神经2A细胞(Neuro-2A cell)以鉴定针对小鼠细胞的最高性能pegRNA和切口设计。最佳构建体可应用于体外小鼠空气肺界面(air lung interface，ALI)类器官中的测试，或应用于小鼠中囊性纤维化的临床前模型中的递送。表12示出了用于CFTR基因调节的pegRNA、切口指导和微环DNA特征。

表12

实施例11

使用PASTE的AttB和EGPF整合

评价了在ACTB基因座处attB和EGPF的整合效率(图21A至21C)。为了研究Bxb1是否可以将EGFP模板添加到该位点中，开发了使用表达以下组分中每一者的5种质粒系统的递送方法：1)pegRNA表达，2)切口指导表达，3)先导表达(Cas9-RT)，4)Bxb1表达，以及5)插入模板(在该情况下为EGFP)。发现该方法在HEK293FT细胞中产生了高至24％的attB位点编辑效率和约10％的EGFP整合，如通过测序测量的(图21A至21B)。最佳活性在3至4天内实现，并且可作为所有组分的单步骤转染或电穿孔来进行。因为EGFP质粒设计成微环，允许去除所有不期望的细菌组分，因此仅插入期望的基因，同时来自Bxb1重组位点的“瘢痕(scar)”最小。

为了使该工具更容易地使用，可通过P2A接头使Bxb1与先导物连接，即与Cas9-RT融合体连接，允许仅单质粒而不是二质粒用于PASTE蛋白表达。该优化可以维持同一水平的编辑，使其易于使用该工具并将其递送(图21C)。

实施例12

不同细胞类型中的可编程EGFP整合

评价了肝肝细胞癌细胞系HEPG2(图22A)和慢性髓细胞性白血病细胞系K562(图22B)中的可编程EGFP整合。观察到约15％的K562和HEPG2细胞中在ACTB基因座处的EGFP整合，表明了该平台跨细胞类型的稳健性。

实施例13

用于增强的PASTE活性的Bxb1诱变

评价了用于增强的PASTE活性的Bxb1诱变(图23A至23C)。存在用于优化PASTE活性的两种手段：1)提高整合酶的活性，和2)增强整合序列的先导添加。如在图23A至23B中所示，可提高Bxb1活性，因为通过PASTE添加的Bxb1 attB位点中仅约30％被Bxb1整合。这说明如果可提高Bxb1效率，则可提高PASTE。此外，通过保守性和结构分析来鉴定Bxb1整合酶中的催化残基，并产生Bxb1突变体以作为PASTE的一部分进行测试。如在图23B中所示，该突变可以提高整合约20％至30％。

实施例14

pegRNA PBS和RT长度对先导编辑整合效率的作用

评价了pegRNA PBS和RT长度对先导编辑整合效率的作用(图25A至25F)。发现PASTE可通过调节PBS和RT长度在ACTB基因座处进行优化以实现高至约20％的编辑率(图25A)。发现缩短attB位点可有助于提高PASTE功能，因为先导物更善于插入较短的序列。PBS、RT和attB长度的进一步优化显示，可以找到用于LMNB1、NOLC1和GRSF1基因座上游插入的最佳设计(图25B、25C和25D)。发现attB短至36nt的长度对于整合到报道质粒中仍然是具有功能的(图25B和25C)。发现通过先导编辑能更好地整合attB序列的反向互补形式，表明先导物插入的序列很重要。采用attP位点突变体的EGFP整合显示出某些突变体可以显著提高整合效率(图25E)。还用一大组基因进行PASTE，在ACTB，LMNB1，SUPT16H，SRRM2，NOLC1，KLHL15，GRSF1，DEPDC4，NES，PGM1，CLTA，BASP1，和DNAJC18的N端处插入EGFP(图25F)。使用数字微滴PCR(digital droplet PCR，ddPCR)发现约5％至40％的编辑率。

实施例15

PASTE和HITI的中靶(on-target)和脱靶(off-target)活性的比较

比较了PASTE和HITI的中靶和脱靶活性(图26A至26F)。发现当使用同一指导序列时，PASTE和HITI分别具有约22％和5％的整合效率(图26A和26B)。当分析14种基因的编辑时，发现在大多数位点处PASTE优于HITI(图26C)。使用基于ddPCR的方法，发现PASTE对Bxb1脱靶整合(图26D)和Cas9脱靶整合(图26E)具有显著特异性并且脱靶活性最小。对不同尺寸的插入物的分析表明，PASTE可以可靠地插入尺寸为1kb至10kb的序列(图26F)，揭示了宽范围的序列尺寸PASTE能够处理(working with)。还观察到在较大尺寸下插入效率降低，这可能是由于在较大质粒尺寸下向HEK293FT细胞递送的质粒减少。

实施例16

用PASTE和正交二核苷酸attB与attP位点的多重化

评价了用PASTE和正交二核苷酸attB与attP位点的多重化(图28A至28C)。发现了中心二核苷酸基序的突变体的多个正交组合(图28A和28B)。如图28C中所示，可通过使用这些正交组合来实现可编程的多重化基因插入，其中PASTE仅递送不同的pegRNA和基因插入物，同时保持蛋白质组分相同(图8C)。

实施例17

在内源性位点处的PASTE多重整合

评价了在内源性位点处PASTE的多重化整合(图28A至28G)。鉴定了由于序列(GLSGQPPRSPSSGSSG(SEQ ID NO：426))中甘氨酸、丝氨酸和脯氨酸的富集，由Bxb1整合后留下的对于蛋白质接头是理想的attR瘢痕的阅读框。使用attR分解的该接头框来设计PegRNA，以用于用EGFP标记N端处的许多基因(ACTB，NOLC1，LMNB1，SUPT16H，SRRM2，和DEPDC4)。由于这些基因均具有不同的蛋白质定位表现，因此显微术可用于确定合适的基因标记。发现PASTE能够以匹配参考图像和细胞中蛋白质的预期定位的蛋白质定位进行高效基因标记(图28A至28C)。基因也以多重化的方式标记以表明经改造整合位点的正交性。分别用携带GT、TG、AC和CA的正交pegRNA在HEK293FT中以单重、双重和三重的组来靶向ACTB、LMNB1、NOLC1和GRSF(图28D至28E)。这些二核苷酸与携带EGFP、BFP和mCherry的模板配对以允许这些经标记基因的多色成像。发现这些多重化实验的整合效率的范围为约5％至32％，揭示了用PASTE的有效多重整合。使用这些多重整合实验的共聚焦显微术，发现了同时标记这些不同蛋白质的细胞(图28F至28G)。

实施例18

基于CRISPR的基因组编辑和位点特异性整合的组合

评价了基于CRISPR的基因组编辑和位点特异性整合的组合。

评估了包含不同attB长度截短的PegRNA(图29A)。发现先导编辑能够在β-肌动蛋白(ACTB)基因基因座处插入高至56bp的序列，其中在长度低于31bp时效率更高(图29A至B)。测试了以下多种插入酶的同源着陆位点的整合：Bxb1、TP901和phiBT1噬菌体丝氨酸整合酶和Cre重组酶。先导编辑成功地插入了所有测试的着陆位点，其中效率为10％至30％(图29C至D)。为了测试完整的系统，将所有组分组合并在单转染中递送：先导编辑载体、包含着陆位点的pegRNA、用于刺激先导编辑的切口指导子、用于相应的整合酶或重组酶的哺乳动物表达载体以及编码绿色荧光蛋白(GFP)的969bp微环DNA载物(图29E)。比较了四种整合酶和重组酶之间的GFP整合率，并且发现Bxb1整合酶在所靶向ACTB基因座处具有最高的整合率(约20％)，并且需要先导编辑切口指导以用于最佳性能(图29F至H)。最后，为了减少转染组分的数目，使Bxb1通过P2A蛋白切割位点与SpCas9-M-MLV逆转录酶(PE2)融合蛋白共表达。该组合维持了高至30％的高GFP插入效率(图29E)。完整的系统PASTE实现了大至9,500bp的模板的精确整合，整合效率大于10％(图29J至K和26E)，通过Sanger测序确定了全长载物的完全整合(图30A至E)。

实施例19

先导编辑和整合酶参数对先导编辑的影响

评估了先导编辑和整合酶参数对先导编辑整合效率的影响。

PASTE的相关pegRNA参数包括引物结合位点(primer binding site，PBS)、逆转录模板(reverse transcription template，RT)和attB位点长度、以及pegRNA间隔区和切口指导子的相对位置和效力(图31A)。在两个基因座(ACTB和核纤层蛋白B1(lamin B1，LMNB1))处测试了一系列PBS和RT长度，并且发现控制效率的规则在基因座之间变化，其中较短的PBS长度和较长的RT设计在ACTB基因座处具有较高的编辑(图31B)，以及较长的PBS和较短的RT设计在LMNB1处表现更好(图31C)。

attB着陆位点的长度必须平衡两个相互冲突的因素：较小插入物的先导编辑效率较高，而较短attB长度的Bxb1整合效率降低。在ACTB、LMNB1和核仁磷蛋白p130(NOLC1)处评价attB长度，并且发现最佳attB长度是基因座依赖性的。在ACTB基因座处，可以通过先导编辑插入长的attB长度(图29B)，并且对于长的attB长度，插入GFP的总PASTE效率是最高的(图31d)。相比之下，中间的attB长度在LMNB1(图31E)和NOLC1(图31F)处具有更高的总整合效率(＞20％)，表明安置较短attB序列的效率的提高克服了在这些位点处Bxb1整合的降低。

先导编辑的PE3形式组合了PE2和另外的切口指导子以使flap中间体的分解物(resolution)偏向插入。为了测试切口指导子选择对PASTE编辑的重要性，用两个切口指导子位置测试了ACTB和LMNB1基因座处的编辑。发现次优的切口指导子位置使PASTE效率降低多至30％(图32A)，与在不存在切口指导子情况下PASTE效率降低75％一致(图29G)。发现pegRNA间隔区序列对于PASTE编辑是必需的，并且发现用非靶向指导子替代间隔区序列以消除编辑(图32B)。

还在PE2构建体的逆转录酶结构域和Bxb1整合酶二者中引入了合理的突变，以进一步优化PASTE。虽然PASTE对这些突变中的一些很好地耐受(图33A至B)，但是其都没有提高PASTE编辑效率。

较短的RT和PBS长度可为编辑提供另外的改进。在ACTB和LMNB1基因座处测试了一组较短的RT和PBS指导子，并且虽然较短的RT和PBS序列没有提高在ACTB处的编辑(图31G)，但是发现其改善了在LMNB1处的编辑(图31H)，其中表现最好的指导子达到GFP插入率为约40％(图31I)。

实施例20

多个内源性基因的PASTE标记

在七种不同的基因座(ACTB、SUPT16H、SRRM2、NOLC1、DEPDC4、NES和LMNB1)处测量了GFP插入效率以测试PASTE编程的多功能性。发现了高至22％的整合率范围(图34A)。由于PASTE不需要载物质粒上的同源性或序列相似性，因此不同载物序列的整合是模块化的，并且很容易在不同的基因座处进行缩放。用PASTE测试了尺寸为969bp至4906bp不等的六种不同的基因载物在ACTB和LMNB1基因座处的插入。发现依赖于基因和插入基因座的整合频率为5％至22％(图34B和35)。另外，评价了一组七种常见治疗基因，CEP290、OTC、HBB、PAH、GBA、BTK和ADA在ACTB基因座处的插入，并且并且发现这些载物的有效整合为5％至20％(图34C)。

评估了PASTE对框内蛋白质标记或表达载物而不破坏内源性基因表达的精确插入。由于Bxb1在载物整合之后在基因组中留下了剩余序列(称为attL和attR)，因此这些基因组瘢痕(genomic scar)可用作蛋白质接头。通过将attP策略性地置于微环载物上来定位attR序列的框架，从而取得合适的蛋白质接头GGLSGQPPRSPSSGSSG(SEQ ID NO：427)。使用该接头，使用PASTE用GFP标记四种基因(ACTB、SRRM2、NOLC1和LMNB1)。为了评估正确的基因标记，通过免疫荧光将GFP的亚细胞定位与经标记基因产物进行比较。对于所有四种靶向基因座，GFP与经标记基因产物共定位，表明成功的标记(图34D至E)。

实施例21

Bxb1整合的正交序列偏好

Bxb1的中心二核苷酸参与attB与attP位点的缔合以进行整合，并且改变匹配的中心二核苷酸序列可以改进整合酶活性并为两个基因的插入提供正交性。扩展attB/attP二核苷酸组可使得用PASTE能够进行多重化基因插入。对在所有16个二核苷酸attB/attP序列对中用PASTE在ACTB基因座处的GFP整合效率进行谱分析，以找寻最佳attB/attP二核苷酸以用于PASTE插入。发现了数种具有整合效率高于野生型GT序列的二核苷酸(图36A)。与野生型attB/attP效率相比，大多数二核苷酸具有75％的编辑效率或更高，意味着这些二核苷酸可以是用PASTE进行多重化基因插入的正交通道。

然后评估了匹配和非匹配的attB/attP二核苷酸相互作用的特异性。使用比较attB/attP整合的合并测定以可扩展方式对所有二核苷酸组合之间的相互作用进行谱分析(图36B)。通过用独特标识符对16个attP二核苷酸质粒进行条码化，用Bxb1整合酶表达载体和单个attB二核苷酸接受体质粒共转染该attP合并物，以及对所得整合产物进行测序，测量了所有可能的attB/attP对的相对整合效率(图36C)。发现二核苷酸特异性呈多样性，其中一些二核苷酸(GG)表现出强烈的自相互作用(串扰可以忽略不计)，而另一些二核苷酸(AA)表现出最小的自偏好。attP偏好的序列标志(图37)揭示了在第一个位置具有C或G的二核苷酸对具有共享第一碱基的attB二核苷酸序列具有更强的偏好，而其他attP二核苷酸，尤其是在第一位置具有A的那些，对第一attB碱基的特异性降低。

然后，测试GA、AG、AC和CT二核苷酸pegRNA在ACTB处的GFP整合，或者与其相应的attP载物配对，或者与其他三种二核苷酸attP序列错配。发现所有四种所测试的二核苷酸仅在与相应的attB/attP对配对时才有效整合载物，其中在错配的组合中没有可检测的整合(图36D)。

实施例22

用PASTE的多重化基因整合

评估了通过使用正交pegRNA在细胞中的多重化，所述正交pegRNA将匹配的attP载物导向基因组中的特定位点(图38A)。选择前三个二核苷酸附着位点对(CT、AG和GA)，设计靶向ACTB(CT)、LMNB1(AG)和NOLC1(GA)的pegRNA和包含GFP(CT)、mCherry(AG)和YFP(GA)的相应微环载物。在将这些试剂共递送至细胞时，发现实现了这些pegRNA与载物的所有可能组合的单重、双重和三重编辑，整合范围为5％至25％(图38B)。

多重化基因整合的应用是用于标记不同的蛋白质以显现同一细胞内的胞内定位和相互作用。PASTE用于在同一细胞中同时标记ACTB(GFP)和NOLC1(mCherry)或者ACTB(GFP)和LMNB1(mCherry)。基于ACTB、NOLC1和LMNB1蛋白质产物的已知亚细胞定位，未观察到GFP和mCherry荧光的重叠，并且确定了经标记基因在其适当的细胞区室中显现(图15A至B)。

实施例23

与基于DSB的插入方法相比的PASTE效率

发现PASTE效率超过了相当的基于DSB的插入方法。

使用NHEJ(即，同源非依赖性靶向整合，HITI)或HDR途径来评估PASTE编辑与DSB依赖性基因整合。与HITI(图39A至B)或HDR(图39C至D)相比，PASTE具有相等或更好的基因插入效率。在7个不同的内源靶标的组上，PASTE在7个基因中的6个中超过了HITI编辑，其中对于第7个基因具有相似的效率(图39A)。由于DSB产生可导致插入或缺失(插失)作为替代和不期望的编辑结局，因此通过下一代测序评估所有三种方法的插失频率，发现在HEK293FT和HepG2细胞二者中，用PASTE产生的插失显著少于HDR或HITI(图39B、39D和40A)，展现了用PASTE的基因整合结局的高纯度。

实施例24

PASTE和HITI基因整合的脱靶特征

脱靶编辑可用于基因组编辑技术。基于通过将Bxb1整合到人基因组中的假attB位点中所产生的脱靶以及人基因组中通过指导子和Cas9依赖性编辑所产生的脱靶来评估PASTE在特定位点处的特异性(图39E)。虽然Bxb1在假附着位点处缺乏记录的整合到人基因组中，但是通过计算确定了与天然Bxb1 attB核心序列部分相似的潜在位点。测试了通过ddPCR在这些位点中的Bxb1整合，并且没有发现脱靶活性(图39F和40B至D)。为了测定ACTBpegRNA的Cas9脱靶，通过计算预测鉴定了两个潜在的脱靶位点，并且没有发现PASTE的脱靶整合(图39G和40A至D)，但是在其中一个位点处发现了HITI的显著脱靶活性(图39H和40A至D)。

通过插入基因组连接的标记和PCR扩增，另外评估了由于Cas9或Bxb1引起的全基因组脱靶(图39I)。在PASTE编辑和阴性对照缺失PE2的条件下分离单细胞克隆，并且来自这些克隆的插入基因组连接的深度测序显示出所有读出与中靶ACTB位点对齐，确定了没有脱靶基因组插入(图39J至L)。

PASTE中涉及的逆转录酶和整合酶的表达可对细胞健康具有有害影响。转染完整的PASTE系统、仅具有PE2的载物和相应的指导子、以及仅具有Bxb1的载物和相应的指导子，并将其通过转录组范围的RNA测序与GFP对照转染和无蛋白质表达的指导子二者进行比较，以确定这些影响的程度。虽然发现在不存在先导编辑的情况下Bxb1表达具有数个显著的脱靶，但是完整的PASTE系统仅有一个变化超过1.5倍的差异调节的基因(图41A至B)。被Bxb1过表达上调的基因包括应激响应基因例如TENT5C和DDIT3，但是在PASTE系统的表达中没有看到这些变化(图41C)，这可能是由于来自PASTE构建体上P2A接头的Bxb1表达减少所致。

实施例25

非分裂细胞中的PASTE效率

评估了非分裂细胞中的PASTE活性。将Cas9与HDR模板或者PASTE转染到HEK293FT细胞中，并通过阿非迪霉素(aphidicolin)处理抑制细胞分裂(图42)。在该阻断的细胞分裂的模型中，发现PASTE在ACTB基因座处维持大于20％的GFP基因整合活性，而HDR介导的整合被消除(图42B和43A)。

实施例26

治疗性转基因的产生和分泌

评估了在更大转基因下和另外的细胞系中的PASTE。

为了评价治疗性转基因的尺寸限制，评估了在分裂细胞和经阿非迪霉素处理的细胞二者中长度高至13.3kb的载物的插入。发现插入效率大于10％(图42C)，使得能够插入所有全长人cDNA转基因中的约99.7％。为了克服由于递送低效而导致的大插入物递送至细胞的减少，发现递送更大DNA量的插入物显著提高了基因整合效率(图43B)。还评估了对另外的细胞类型的PASTE编辑，例如K562淋巴母细胞系和原代人T细胞中的PASTE。发现PE2-P2A-Bxb1(PASTE)和PE2与Bxb1的单独递送二者均导致两种细胞类型中的有效编辑(图42D至E)。最后，由于体内PASTE的治疗性递送可能需要病毒递送DNA载物，因此评价了AAV是否可以递送attP，其包含可通过Bxb1整合到基因组中的有效载荷。靶向ACTB基因座，发现AAV能够以剂量依赖性方式以高至4％的速率递送用于整合酶介导的插入的合适模板(图42F和43C)。

为了提高PASTE的效率，将PE2*NLS并入先导编辑，并且发现在多个基因座处的提高的PASTE整合(图44A)。此外，PE2*在较低的载物质粒滴定下导致更稳健的整合，表明在质粒低至8ng的量下的整合(图44B)。为了对抗由于质粒递送不完全导致的PASTE效率降低，共递送了嘌呤霉素抗性基因，并且发现在存在药物选择的情况下提高了PASTE效率(图45)。

可编程的基因整合为治疗性蛋白质产物的表达提供了方式，并且对治疗相关蛋白质α-1抗胰蛋白酶(由SERPINA1编码)和氨甲酰磷酸合成酶I(由CPS1编码)(分别涉及疾病α-1抗胰蛋白酶缺乏症和CPS1缺乏症)的蛋白质产生进行了评估。通过用发光蛋白亚基HiBiT标记基因产物，独立地评估响应于PASTE处理的转基因产生和分泌(图42G)。在HEK293FT细胞和人肝细胞癌细胞系(HepG2)中用SERPINA1或CPS1载物转染PASTE，并且发现在ACTB基因座处有效整合(图42H至I)。该整合导致稳健的蛋白质表达、转基因产物的胞内累积(图42J和46A至B)以及蛋白质分泌到培养基中(图42K)。

实施例27

优化的PASTE构建体

为了优化复合物活性，筛选了一组蛋白质修饰，包括替代的逆转录酶融合和突变、逆转录酶结构域与整合酶之间和Cas9与逆转录酶结构域之间的多种接头、以及逆转录酶和BxbINT结构域突变体(图47A和图49C至图49F)。许多蛋白质修饰(包括Cas9与逆转录酶之间的48残基XTEN接头以及MMuLV与Sto7d DNA结合结构域的融合(Oscorbin et al.FEBSLett.594.4338-4356.2020))提高了编辑效率(图47A和图49C至图49D)。当这些最佳修饰(top modification)和逆转录酶-Sto7d结构域与BxbINT之间的GGGGS接头(SEQ ID NO：420)组合时，它们产生了约55％的基因整合，突显了将整合酶直接募集至靶位点的重要性(图47A)。该优化的构建体被称为SpCas9-(XTEN-48)-RT-Sto7d-(GGGGS)-BxbINT。优化的构建体以约20％的整合效率实现了大至约36,000bp的模板的精确整合(图47A)，其中通过Sanger测序确认了全长载物的完全整合。

另外，测试了包含不同AttB长度截短的pegRNA并且发现先导编辑能够在β-肌动蛋白(ACTB)基因基因座处插入高至56bp的序列，其中在长度低于31bp时效率更高(图48A至图48B)。评价了一组多种酶，包括Bxb1(即，BxbINT)、TP901(即，Tp9INT)和phiBT1(即，Bt1INT)噬菌体丝氨酸整合酶。先导编辑成功地插入了所有测试的着陆位点，效率为10％至30％(图48C至图48D)

实施例28

病毒递送&体内编辑

为了将完整的PASTE系统包装在病毒载体中，使用了AdV载体(图50B)。评价腺病毒是否可以递送用于BxbINT介导的插入的合适模板以及用于SpCas9-RT-BxbINT和指导表达的质粒，或者AdV在质粒递送SpCas9-RT的情况下对指导子和BxbINT的递送，发现在HEK293FT和HepG2细胞中携带EGFP的约36kb腺病毒基因组实现了10％至20％的整合(图50C)。在3个AdV载体中在包装和递送载物和PASTE系统组分后，完整的PASTE系统(Cas9-逆转录酶、整合酶和指导RNA、或载物)可被腺病毒递送替代，其中在HEK293FT和HepG2细胞中在仅病毒递送下整合高至约50％至60％(图50D)。

为了进一步表明PASTE可用于体内递送，开发了PASTE蛋白质组分的mRNA形式以及经化学修饰的合成atgRNA和针对LMNB1靶标的切口指导子(图50E)。mRNA和指导子的电穿孔以及通过腺病毒或质粒递送模板产生了高至约23％的高效率整合(图50E至图50F)。更持续的BxbINT表达可以允许整合到基因组中新安置的AttB位点中，因此测试了环状mRNA表达，并且发现其将整合效率提高至约30％(图50G至图50I)。

实施例29

用PASTE同时缺失&插入

使用PASTE系统以同时缺失一个序列和插入另一个序列。进行了LMNB1第一外显子的130bp和385bp缺失以及AttB核酸序列的组合插入(图51A)。该数据表明，使用PASTE系统可替换DNA序列。

还使用PASTE系统进行了LMNB1第一外显子的130bp缺失以及组合插入967bp载物。

如上所述，使用已经突变的AttP的微环模板插入两个attP序列之一。该AttP突变体显示出良好的整合动力学和效力，尤其是较短的AttB(38至44bp)。该实验中使用的LMNB1AttB是38bp(图51B)。

Claims

1.使核酸位点特异性地整合到细胞基因组中的方法，所述方法包括：

(a)通过将以下引入到细胞中而在所述细胞基因组中的期望位置处并入整合位点：

i.与逆转录酶结构域连接的DNA结合核酸酶，其中所述DNA结合核酸酶含有切口酶活性；和

ii.指导RNA(gRNA)，其包含与整合序列连接的引物结合序列，其中所述gRNA与所述DNA结合核酸酶相互作用并靶向所述细胞基因组中的期望位置，其中所述DNA结合核酸酶对所述细胞基因组的链进行切口，并且所述逆转录酶结构域将所述gRNA中的整合序列并入到切口位点中，从而在所述细胞基因组的期望位置处提供所述整合位点；以及

(b)通过将以下引入到所述细胞中来使所述核酸整合到所述细胞基因组中：

i.包含所述核酸的DNA或RNA链，所述核酸与和所述整合位点互补或缔合的序列连接；和

ii.整合酶，其中所述整合酶通过整合、重组或逆转录与所述整合位点互补或缔合的序列，而在所述整合位点处将所述核酸并入到所述细胞基因组中，从而将所述核酸引入到所述细胞的细胞基因组的期望位置中。

2.权利要求1所述的方法，其中所述gRNA与被所述DNA结合核酸酶切口的基因组链的互补细胞基因组链杂交。

3.前述权利要求中任一项所述的方法，其中所述整合酶作为肽或编码所述整合酶的核酸引入。

4.前述权利要求中任一项所述的方法，其中所述DNA结合核酸酶作为肽或编码所述DNA结合核酸酶的核酸引入。

5.前述权利要求中任一项所述的方法，其中包含所述核酸的DNA或RNA链作为微环、质粒、mRNA或线性DNA引入到所述细胞中。

6.前述权利要求中任一项所述的方法，其中包含所述核酸的DNA或RNA链为1000bp至36,000bp。

7.权利要求1至5中任一项所述的方法，其中包含所述核酸的DNA或RNA链大于36,000bp。

8.权利要求1至5中任一项所述的方法，其中包含所述核酸的DNA或RNA链小于1000bp。

9.前述权利要求中任一项所述的方法，其中包含所述核酸的DNA作为微环引入到所述细胞中。

10.权利要求9所述的方法，其中所述微环不包含细菌来源的序列。

11.前述权利要求中任一项所述的方法，其中所述与逆转录酶结构域连接的DNA结合核酸酶与所述整合酶通过接头连接。

12.权利要求11所述的方法，其中所述接头是可切割的。

13.权利要求11所述的方法，其中所述接头是不可切割的。

14.权利要求11所述的方法，其中所述接头可被所述与逆转录酶连接的DNA结合核酸酶的两个关联结合结构域替代。

15.前述权利要求中任一项所述的方法，其中所述整合酶选自

Cre，Dre，Vika，Bxb1，

RDF，FLP，/>

R1，R2，R3，R4，R5，TP901-1，A118，

MR11，TG1，/>

16.前述权利要求中任一项所述的方法，其中所述整合酶是Bxb1或其突变体。

17.前述权利要求中任一项所述的方法，其中所述整合位点是attB位点、attP位点、attL位点、attR位点、lox71位点、Vox位点或FRT位点。

18.前述权利要求中任一项所述的方法，其中所述含有切口酶活性的DNA结合核酸酶选自Cas9-D10A、Cas9-H840A和Cas12a/b切口酶。

19.前述权利要求中任一项所述的方法，其中所述逆转录酶结构域选自莫洛尼鼠白血病病毒(M-MLV)逆转录酶结构域、转录异种聚合酶(RTX)、禽成髓细胞瘤病毒逆转录酶(AMV-RT)和直肠真杆菌成熟酶RT(MarathonRT)。

20.前述权利要求中任一项所述的方法，其中所述逆转录酶结构域相对于野生型序列包含突变。

21.权利要求19所述的方法，其中所述M-MLV逆转录酶结构域包含一个或更多个选自D200N、T306K、W313F、T330P和L603W的突变。

22.前述权利要求中任一项所述的方法，其还包括引入第二切口指导RNA(ngRNA)。

23.前述权利要求中任一项所述的方法，其中所述gRNA、编码所述DNA结合核酸酶的核酸、所述逆转录酶、包含与互补或缔合的整合位点连接的核酸的DNA、所述整合酶和任选的所述ngRNA在单个反应中引入到细胞中。

24.前述权利要求中任一项所述的方法，其中所述gRNA、编码所述DNA结合核酸酶的核酸、所述逆转录酶、包含与互补整合位点连接的核酸的DNA、所述整合酶和任选的所述ngRNA使用病毒、RNP、mRNA、脂质或聚合物纳米粒来引入。

25.前述权利要求中任一项所述的方法，其中所述核酸是报道基因。

26.权利要求25所述的方法，其中所述报道基因是荧光蛋白。

27.前述权利要求中任一项所述的方法，其中所述细胞是分裂细胞。

28.前述权利要求中任一项所述的方法，其中所述细胞是非分裂细胞。

29.前述权利要求中任一项所述的方法，其中所述细胞基因组中的期望位置是突变基因的基因座。

30.前述权利要求1中任一项所述的方法，其中所述核酸是用于在小分子存在下可编程地敲低蛋白质的降解标签。

31.权利要求1所述的方法，其中所述细胞是哺乳动物细胞、细菌细胞或植物细胞。

32.权利要求1所述的方法，其中所述核酸是T细胞受体(TCR)、嵌合抗原受体(CAR)、白介素、细胞因子或用于整合到T细胞或自然杀伤(NK)细胞中的免疫检查点基因。

33.权利要求32所述的方法，其中使用微环DNA将所述TCR、所述CAR、所述白介素、所述细胞因子或所述免疫检查点基因并入到T细胞或NK细胞基因组的靶位点中。

34.权利要求1所述的方法，其中所述核酸是β血红蛋白(HBB)基因，并且所述细胞是造血干细胞(HSC)。

35.权利要求34所述的方法，其中使用微环DNA将所述HBB基因并入到HSC基因组中的靶位点中。

36.权利要求34所述的方法，其中所述核酸是造成β地中海贫血或镰状细胞贫血的基因。

37.权利要求1所述的方法，其中所述核酸是代谢基因。

38.权利要求37中任一项所述的方法，其中所述代谢基因涉及α-1抗胰蛋白酶缺乏症或鸟氨酸转氨甲酰酶(OTC)缺乏症。

39.权利要求37至38中任一项所述的方法，其中所述代谢基因是涉及遗传性疾病的基因。

40.权利要求1所述的方法，其中所述核酸是涉及遗传性疾病或遗传性综合征的基因。

41.权利要求40所述的方法，其中所述遗传性疾病是囊性纤维化、家族性高胆固醇血症、腺苷脱氨酶(ADA)缺乏症、X-连锁SCID(X-SCID)、威斯科特-奥尔德里奇综合征(WAS)、血色素沉着病、泰-萨克斯病、脆性X综合征、亨廷顿病、马方综合征、苯丙酮尿症或肌营养不良。

42.载体，其包含这样的核酸，所述核酸编码含有切口酶活性的DNA结合核酸酶，所述含有切口酶活性的DNA结合核酸酶在C端与逆转录酶连接，所述逆转录酶经由接头与整合酶连接。

43.权利要求42所述的载体，其中所述接头是可切割的。

44.权利要求42所述的载体，其中所述接头是不可切割的。

45.权利要求42所述的载体，其中所述接头包含与逆转录酶连接的DNA结合核酸酶的两个关联结合结构域。

46.权利要求42所述的载体，其中所述整合酶包含条件激活结构域或条件表达结构域。

47.权利要求46所述的载体，其中所述整合酶与雌激素受体融合。

48.权利要求42所述的载体，其中所述含有切口酶活性的DNA结合核酸酶选自Cas9-D10A、Cas9-H840A和Cas12a/b。

49.权利要求42所述的载体，其中所述逆转录酶是M-MLV逆转录酶、AMV-RT、MarathonRT或RTX。

50.权利要求49所述的载体，其中所述逆转录酶与野生型M-MLV逆转录酶相比是经修饰的M-MLV逆转录酶。

51.权利要求49所述的载体，其中所述M-MLV逆转录酶结构域包含一个或更多个选自D200N、T306K、W313F、T330P和L603W的突变。

52.权利要求42所述的载体，其中所述整合酶选自

Cre，Dre，Vika，Bxb1，

RDF，FLP，/>

R1，R2，R3，R4，R5，TP901-1，A118，

MR11，TG1，/>

由R2、L1、Tol2 Tc1、Tc3、Mariner(Himar 1)、Mariner(mos 1)、Minos编码的逆转录转座酶、及其突变体。

53.权利要求52所述的载体，其中所述整合酶或重组酶是Bxb1或其突变体。

54.细胞，其包含：

(a)载体，其包含这样的核酸，所述核酸编码含有切口酶活性的DNA结合核酸酶，所述含有切口酶活性的DNA结合核酸酶在C端与逆转录酶连接，所述逆转录酶经由接头与整合酶连接；

(b)gRNA，其包含引物结合序列、整合序列和指导序列，其中所述gRNA可与所编码的含有切口酶活性的核酸酶相互作用；

(c)DNA微环，其包含核酸和被所编码的整合酶、重组酶或逆转录酶识别的序列；以及

(d)切口指导RNA(ngRNA)，其能够结合所编码的含有切口酶活性的核酸酶，其中所述ngRNA靶向远离所述gRNA的序列。

55.权利要求54所述的细胞，其中所述微环不包含细菌来源的序列。

56.权利要求54所述的细胞，其中所述整合酶选自

Cre，Dre，Vika，Bxb1，

RDF，FLP，/>

R1，R2，R3，R4，R5，TP901-1，A118，/>

MR11，TG1，/>

Wβ，BL3，SPBc，K38，Peaches，Veracruz，Rebeuca，Theia，KSSJEB，PattyP，Doom，Scowl，Lockley，Switzer，Bob3，Troube，Abrogate，Anglerfish，Sarfire，SkiPole，ConceptII，Museum，Severus，Airmid，Benedict，Hinder，ICleared，Sheen，Mundrea，BxZ2，

由R2、L1、Tol2 Tc1、Tc3、Mariner(Himar 1)、Mariner(mos 1)、Minos编码的逆转录转座酶、及其任何突变体。

57.权利要求54所述的细胞，其中所述整合酶是Bxb1或其突变体。

58.权利要求54所述的细胞，其中所述含有切口酶活性的DNA结合核酸酶选自Cas9-D10A、Cas9-H840A和Cas12a。

59.权利要求54所述的细胞，其中所述逆转录酶是M-MLV逆转录酶。

60.权利要求59所述的细胞，其中所述逆转录酶是经修饰M-MLV逆转录酶。

61.权利要求59所述的细胞，其中所述M-MLV逆转录酶的氨基酸序列包含一个或更多个选自D200N、T306K、W313F、T330P和L603W的突变。

62.权利要求54至61中任一项所述的细胞，其还包含ngRNA。

63.多肽，其包含含有切口酶活性的DNA结合核酸酶，所述含有切口酶活性的DNA结合核酸酶在C端与逆转录酶连接，所述逆转录酶经由接头与整合酶连接。

64.权利要求63所述的多肽，其中所述接头是可切割的。

65.权利要求63所述的多肽，其中所述接头是不可切割的。

66.权利要求63所述的多肽，其中所述整合酶与雌激素受体融合。

67.权利要求63所述的多肽，其中所述含有切口酶活性的DNA结合核酸酶选自Cas9-D10A、Cas9-H840A和Cas12a/b/c/d/e/f/g/h/i/j。

68.权利要求63所述的多肽，其中所述逆转录酶是M-MLV逆转录酶、AMV RT、MarathonRT或XRT。

69.权利要求68所述的多肽，其中所述逆转录酶与野生型M-MLV逆转录酶相比是经修饰的M-MLV。

70.权利要求69所述的多肽，其中所述M-MLV逆转录酶结构域包含一个或更多个选自D200N、T306K、W313F、T330P和L603W的突变。

71.权利要求63所述的多肽，其中所述整合酶选自

Cre，Dre，Vika，Bxb1，

RDF，FLP，/>

R1，R2，R3，R4，R5，TP901-1，A118，/>

MR11，TG1，/>

由R2、L1、Tol2 Te1、Tc3、Mariner(Himar 1)、Mariner(mos 1)、Minos编码的逆转录转座酶、及其任何突变体。

72.权利要求63所述的多肽，其中所述整合酶是Bxb1或其突变体。

73.gRNA，其与含有切口酶活性的DNA结合核酸酶特异性地结合，所述gRNA包含：

(a)引物结合位点，其与带切口的DNA链杂交；

(b)整合酶的识别位点；以及

(c)靶识别序列，其识别细胞基因组中的靶位点，并与被所述DNA结合核酸酶切口的链的互补基因组链杂交。

74.权利要求73所述的gRNA，其中所述含有切口酶活性的DNA结合核酸酶选自Cas9-D10A、Cas9-H840A和Cas12a/b/c/d/e/f/g/h/i/j。

75.权利要求73所述的gRNA，其中所述引物结合位点与带切口DNA链的3’端杂交。

76.权利要求73所述的gRNA，其中所述整合酶的识别位点选自attB位点、attP位点、attL位点、attR位点、lox71位点和FRT位点。

77.权利要求73所述的gRNA，其中所述整合酶的识别位点是Bxb1位点。

78.使两个或更多个核酸位点特异性地整合到细胞基因组中的方法，所述方法包括：

(a)通过将以下引入到细胞中而在所述细胞基因组中的期望位置处并入两个整合位点：

ii.两个指导RNA(gRNA)，其各自包含引物结合序列并与独特的整合序列连接，其中所述gRNA与所述DNA结合核酸酶相互作用并靶向所述细胞基因组中的期望位置，其中所述DNA结合核酸酶对所述细胞基因组的链进行切口，并且所述逆转录酶结构域将所述gRNA中的整合序列中的每一个并入到切口位点中，从而在所述细胞基因组的期望位置处提供所述整合位点；以及

(b)通过将以下引入到所述细胞中来整合所述核酸：

i.包含所述核酸的两个或更多个DNA或RNA，其中每个DNA的侧翼为正交整合位点；和

ii.整合酶，其中所述整合酶通过对与所述整合位点互补或缔合的序列发挥整合酶、重组酶或逆转录酶作用而在所述整合位点处将所述核酸并入到所述细胞基因组中，从而将所述核酸引入到所述细胞的细胞基因组中的期望位置中。

79.权利要求78所述的方法，其中插入到所述细胞基因组中的两个不同整合位点中的每一个均是包含不同的回文或非回文中心二核苷酸的attB序列。

80.权利要求78所述的方法，其中插入到所述细胞基因组中的两个不同整合位点中的每一个均是包含不同的回文或非回文中心二核苷酸的attP序列。

81.权利要求78所述的方法，其中所述整合酶使得包含所述核酸的两个或更多个DNA或RNA中的每一个均能够通过正交的attB位点序列和attP位点序列对的重组而定向地使得所述核酸整合到基因组中。

82.权利要求78所述的方法，其中所述整合酶选自

Cre，Dre，Vika，Bxb1，

RDF，FLP，/>

TP901-1，A118，/>

MR11，TG1，

Wβ，BL3，SPBc，K38，Peaches，Veracruz，Rebeuca，Theia，KSSJEB，PattyP，Doom，Scowl，Lockley，Switzer，Bob3，Troube，Abrogate，Anglerfish，Sarfire，SkiPole，ConceptII，Museum，Severus，Airmid，Benedict，IIinder，ICleared，Sheen，Mundrea，BxZ2，

由R1、R2、R3、R4、R5、L1、Tol2 Tc1、Tc3、Mariner(Himar 1)、Mariner(mos 1)、Minos编码的逆转录转座酶、及其任何突变体。

83.权利要求78所述的方法，其中所述整合酶是Bxb1或其突变体。

84.权利要求78所述的方法，其中包含基因的DNA是涉及细胞维持途径、细胞分裂或信号转导途径的基因。

85.权利要求78所述的方法，其中所述逆转录酶结构域包含莫洛尼鼠白血病病毒(M-MLV)逆转录酶结构域、转录异种聚合酶(RTX)或禽成髓细胞瘤病毒逆转录酶(AMV-RT)。

86.权利要求78所述的方法，其中所述含有切口酶活性的DNA结合核酸酶选自Cas9-D10A、Cas9-H840A和Cas12a/b。

87.权利要求78所述的方法，其中attB位点序列和attP位点序列对选自SEQ ID NO：5和SEQ ID NO：6、SEQ ID NO：7和SEQ ID NO：8、SEQ ID NO：9和SEQ ID NO：10、SEQ ID NO：11和SEQ ID NO：12、SEQ ID NO：13和SEQ ID NO：14、SEQ ID NO：15和SEQ ID NO：16、SEQ ID NO：17和SEQ ID NO：18、SEQ ID NO：19和SEQ ID NO：20、SEQ ID NO：21和SEQ ID NO：22、SEQ IDNO：23和SEQ ID NO：24、SEQ ID NO：25和SEQ ID NO：26、SEQ ID NO：27和SEQ ID NO：28、SEQID NO：29和SEQ ID NO：30、SEQ ID NO：31和SEQ ID NO：32、SEQ ID NO：33和SEQ ID NO：34、以及SEQ ID NO：35和SEQ ID NO：36。

88.细胞，其包含：

(a)载体，其包含这样的核酸，所述核酸编码含有切口酶活性的DNA结合核酸酶，其中所述DNA结合核酸酶在C端与逆转录酶连接，其中所述逆转录酶经由接头与重组酶或整合酶连接；

(b)两个指导RNA(gRNA)，其包含引物结合序列、整合序列和指导序列，其中所述gRNA可与所编码的含有切口酶活性的DNA结合核酸酶相互作用；

(c)两个或更多个DNA或RNA链，其包含核酸和被所编码的整合酶或重组酶识别的侧翼attB位点序列和attP位点序列对；以及任选的

(d)切口指导RNA(ngRNA)，其能够结合所编码的含有切口酶活性的核酸酶，并且其中所述ngRNA靶向远离所述gRNA的序列。

89.细胞，其包含经修饰基因组，其中所述修饰包含通过将以下引入到所述细胞中而在细胞基因组内并入两个正交整合位点：

(a)载体，其包含这样的核酸，所述核酸编码含有切口酶活性的DNA结合核酸酶，其中所述DNA结合核酸酶在C端与逆转录酶连接；

(b)两个指导RNA(gRNA)，其各自包含引物结合序列、基因组整合序列和指导序列，其中所述gRNA可与所编码的含有切口酶活性的核酸酶相互作用；以及任选的，

(c)切口指导RNA(ngRNA)，其能够结合所编码的含有切口酶活性的核酸酶，其中所述ngRNA靶向远离所述gRNA的序列。

90.使两个或更多个核酸整合到权利要求90所述细胞的细胞基因组中的方法，所述方法包括将以下引入到所述细胞中：

(a)两个或更多个DNA，其各自包含核酸和侧翼正交整合位点序列对；

(b)整合酶，所述整合酶可识别所述整合位点序列，其使得包含核酸的所述两个或更多个DNA能够定向连接；以及

(c)通过进行以下使得所述核酸能够并入到所述细胞基因组中，从而将所述两个或更多个核酸并入到所述细胞基因组中：将第一DNA的5’正交整合序列与第一基因组整合序列整合，并将最后一个DNA的3’正交整合序列与最后一个基因组整合序列整合。

91.细胞，其包含经修饰基因组，其中所述经修饰基因组的修饰包含通过将以下引入到所述细胞中而在细胞基因组内并入两个正交整合位点：

(b)两个指导RNA(gRNA)，其各自包含引物结合序列、基因组整合序列和指导序列，其中所述gRNA可与所编码的含有切口酶活性的核酸酶相互作用；以及任选的

(c)切口指导RNA(ngRNA)，其能够结合所编码的含有切口酶活性的核酸酶，并且其中所述ngRNA靶向远离所述gRNA的序列；

(d)包含核酸的两个或更多个DNA或RNA，其中每个DNA的侧翼为正交整合位点；以及

(e)整合酶，其中所述整合酶在所述整合位点处将所述核酸并入到所述细胞基因组中。