CN117320741A

CN117320741A - 用于治疗cag重复疾病的靶向rna的组合物和方法

Info

Publication number: CN117320741A
Application number: CN202180091948.0A
Authority: CN
Inventors: D·A·内尔斯; R·巴特拉; D·罗斯; D·齐苏里斯; A·塔
Original assignee: Rocana Biological Co ltd
Current assignee: Rocana Biological Co ltd
Priority date: 2020-12-01
Filing date: 2021-12-01
Publication date: 2023-12-29

Abstract

公开了靶向RNA的基因疗法组合物和方法，所述靶向RNA的基因疗法组合物和方法用于破坏或阻断毒性靶CAG重复RNA和治疗CAG重复障碍如亨廷顿病(HD)和脊髓小脑性共济失调1型(SCA1)。

Description

用于治疗CAG重复疾病的靶向RNA的组合物和方法

技术领域

本公开文本涉及分子生物学、基因疗法、以及用于修饰RNA分子的表达和活性的组合物和方法。

相关申请的交叉引用

本申请要求2020年12月1日提交的U.S.S.N.63/119,977和2020年12月23日提交的U.S.S.N.63/130,060的权益和优先权，将其各自的内容通过引用以其整体特此并入。

通过引用序列表并入

将2021年12月1日创建的大小为140KB的名为“LOCN_008_001WO_SeqList_ST25”的文本文件的内容通过引用以其整体特此并入。

背景技术

对于提供有效的基因疗法，特别是靶向引起疾病的潜在致病性RNA的基因疗法，本领域存在长期但未满足的需求。

已经将超过20个不稳定的微卫星重复扩增(MRE)确定为人的神经系统疾病的原因。(Rohilla和Gagnon,Acta Neuropahtologica Communications,(2017)5:63)。在微卫星重复扩增中由这些重复性MRE段表达的致病性RNA导致一系列虚弱性疾病和障碍以及通常毁灭性疾病和障碍。这些重复RNA、它们在基因中的位置、正常重复长度和引起疾病的重复长度的范围以及临床结局是不同的。不稳定的重复可以位于基因的编码区或非编码区中。可用的治疗方法解决了这些MRE疾病的症状，但是不能针对其潜在病因。

最常见的通过改变蛋白质生理学而引起疾病的三核苷酸重复是CAG MRE。CAG MRE的翻译导致聚Q段。许多不同的障碍在基因的编码区都具有CAG重复。尽管所得蛋白质的扩增大小、结构、细胞定位和功能不同，但是所有CAG MRE诱导的疾病都是神经系统变性疾病或障碍和/或神经肌肉性疾病或障碍。

HD是由亨廷顿蛋白(HTT)基因中的CAG重复扩增引起的致命性障碍。所述疾病导致纹状体神经元退化，从而导致运动失控、情绪问题和痴呆。目前，美国有超过40,000名患者，以及超过200,000名处于风险中的患者。

扩增CAG重复还引起一系列脊髓小脑性共济失调(SCA)，迄今为止已经描述了其中九种SCA，并且其中SCA的子集是由CAG MRE的存在引起的。SCA1是由ATXN1基因中CAG三核苷酸重复的存在引起的。SCA 1型(SCA1)是一种罕见的常染色体显性(autodominant)障碍，其特征在于运动进行性问题。SCA1症状包括协调和平衡(共济失调)，言语和吞咽困难，肌肉僵硬(痉挛状态)和控制眼球运动的眼部肌肉无力(眼球震颤)，以及与加工、学习和记忆相关的认知损害。在全球每100,000个人中就有1至2人受SCA1影响。

为了克服针对这些CAG MRE疾病和障碍的疾病改善疗法的缺乏，需要描述和开发治疗剂以提供有效、持续和可扩展的治疗方法。靶向RNA的基因疗法系统对于靶向致病性三核苷酸重复如CAG MRE是理想的，所述CAG MRE是所述疾病和障碍的潜在病理学的原因。

因此，本公开文本提供了用于在微卫星重复扩增(MRE)疾病(称为三核苷酸CAG重复障碍，如亨廷顿病(HD)和脊髓小脑性共济失调(SCA))中特异性靶向和破坏由重复性段表达的毒性RNA的基因疗法组合物和方法。本文提供了能够消除毒性CAG重复的靶向RNA的基因疗法组合物和系统，以及使用所述靶向RNA的基因疗法组合物和系统治疗由CAG MRE引起的疾病和障碍的方法。

发明内容

本公开文本提供了用于CAG重复障碍的组合物和方法。本文公开的组合物和方法经由破坏或阻断导致CAG^exp(CAG重复扩增)RNA的剂量依赖性降低。

本公开文本提供了用于治疗由CAG MRE引起的疾病和障碍的组合物和方法。

本文公开了一种治疗哺乳动物的亨廷顿病(HD)的方法，所述方法包括将组合物施用至所述哺乳动物的组织中的毒性靶CAG微卫星重复扩增(MRE)分子，其中所述组合物包含编码非指导的RNA结合融合蛋白的核酸序列，所述非指导的RNA结合融合蛋白包含a)能够结合毒性靶CAG RNA重复序列的PUF RNA结合序列或Cas13d RNA结合蛋白，和b)能够切割所述毒性靶CAG RNA重复序列的核酸内切酶，从而降低所述毒性靶RNA的表达水平。

本文公开了一种治疗哺乳动物的脊髓小脑性共济失调1型(SCA1)的方法，所述方法包括将组合物施用至所述哺乳动物的组织中的毒性靶CAG微卫星重复扩增(MRE)分子，其中所述组合物包含编码非指导的RNA结合融合蛋白的核酸序列，所述非指导的RNA结合融合蛋白包含a)能够结合毒性靶CAG RNA重复序列的PUF RNA结合序列或Cas13d RNA结合蛋白，和b)能够切割所述毒性靶CAG RNA重复序列的核酸内切酶，从而降低所述毒性靶RNA的表达水平。

本公开文本提供了一种组合物，所述组合物包含编码RNA结合多肽的核酸序列，所述RNA结合多肽包含能够结合毒性靶CAG重复RNA序列的非指导的RNA结合多肽或指导的RNA结合多肽。

在一些实施方案中，所述RNA结合多肽是融合蛋白。在一些实施方案中，所述融合蛋白包含所述RNA结合多肽，所述RNA结合多肽与能够切割所述毒性CAG重复RNA序列的核酸内切酶融合。

在一些实施方案中，所述非指导的RNA结合多肽是PUF或PUMBY蛋白。在一些实施方案中，所述指导的RNA结合多肽是Cas13d蛋白。在一些实施方案中，所述cas13d蛋白是无催化活性的。

在一些实施方案中，所述cas13d蛋白包含SEQ ID NO:587或590-594中任一个所示的氨基酸序列。

在一些实施方案中，所述核酸内切酶是ZC3H12A锌指核酸内切酶的核酸酶结构域。

在一些实施方案中，所述PUF RNA结合蛋白包含SEQ ID NO:444-451、461、480-488、549-557或656中任一个所示的氨基酸序列。在一些实施方案中，所述PUF RNA结合蛋白包含SEQ ID NO:549或480中所示的氨基酸序列。

在一些实施方案中，所述毒性靶CAG RNA重复序列包含SEQ ID NO:453-456或472-479中所示的核酸序列中的任一种。在一些实施方案中，所述毒性靶CAG RNA重复序列包含SEQ ID NO:453或472中任一个所示的核酸序列。

在一些实施方案中，所述靶向CAG的PUF蛋白由SEQ ID NO:577、581、614、619、621或622中所示的核酸序列编码。

在一些实施方案中，其中所述PUF或PUMBY蛋白是人PUF或PUMBY蛋白。在一些实施方案中，所述PUF或PUMBY蛋白通过接头序列与所述ZC3H12A核酸内切酶连接。

在一些实施方案中，所述接头包含SEQ ID NO:411中所示的氨基酸序列。

在一些实施方案中，所述融合蛋白包含选自核定位序列(NLS)和核输出序列(NES)的一个或多个信号序列。

在一些实施方案中，所述ZC3H12A锌指核酸酶包含SEQ ID NO:358或SEQ ID NO:359中所示的氨基酸序列。

在一些实施方案中，所述融合蛋白包含SEQ ID NO:460中任一个所示的氨基酸序列。在一些实施方案中，所述融合蛋白由包含SEQ ID NO:574-582的核酸序列编码。

在一些实施方案中，编码所述融合蛋白的核酸分子包含启动子。在一些实施方案中，所述启动子是tCAG启动子、EFS/UBB启动子或突触素启动子。

一种载体，所述载体包含根据本公开文本的任何实施方案所述的组合物。

在一些实施方案中，所述载体选自：腺相关病毒(AAV)、逆转录病毒、慢病毒、腺病毒、纳米颗粒、胶束、脂质体、阳离子脂质体/DNA复合物(lipoplex)、聚合物囊泡、多聚复合物(polyplex)和树状聚合物。在一些实施方案中，是AAV载体。

在一些实施方案中，所述AAV载体包含：第一AAV ITR序列；第一启动子序列；编码至少一个CAG重复RNA结合多肽的多核苷酸序列；和第二AAV ITR序列。

在一些实施方案中，所述CAG重复RNA结合多肽包含PUF或PUMBY蛋白。本公开文本的任何实施方案的AAV载体，其中编码所述PUF或PUMBY序列的多核苷酸序列包含SEQ IDNO:577、581、614、619、621或622中所示的核酸序列。

在一些实施方案中，所述CAG重复RNA结合多肽包含Cas13d蛋白。在一些实施方案中，编码所述Cas13d序列的多核苷酸序列包含SEQ ID NO:587或590-594中所示的核酸序列。

在一些实施方案中，所述第一启动子序列包含SEQ ID NO:389、627或613中所示的核酸序列。

在一些实施方案中，所述第一AAV ITR序列包含SEQ ID NO:597或598中所示的核酸序列。在一些实施方案中，所述第二AAV ITR序列包含SEQ ID NO:597或598中所示的核酸序列。

在一些实施方案中，所述载体进一步包含第二启动子序列。

在一些实施方案中，其中所述第二启动子控制指导RNA(gRNA)的表达，其中所述gRNA包含(i)DR序列和(ii)间隔子序列。在一些实施方案中，所述第二启动子包含SEQ IDNO:519中所示的核酸序列。

在一些实施方案中，所述载体进一步包含聚A序列。在一些实施方案中，所述载体包含至少一个接头序列。

在一些实施方案中，所述载体包含至少一个核定位序列。在一些实施方案中，所述载体由SEQ ID NO:588、589、624或625中任一个所示的核酸编码。

本公开文本提供了一种药物组合物，所述药物组合物包含：a)本公开文本的任何实施方案的AAV病毒载体；和b)至少一种药学上可接受的赋形剂和/或添加剂。

本公开文本提供了一种AAV病毒载体，所述AAV病毒载体包含：a)本公开文本的任何实施方案的AAV载体；和b)AAV衣壳蛋白。

在一些实施方案中，所述AAV衣壳蛋白是AAV1衣壳蛋白、AAV2衣壳蛋白、AAV4衣壳蛋白、AAV5衣壳蛋白、AAV6衣壳蛋白、AAV7衣壳蛋白、AAV8衣壳蛋白、AAV9衣壳蛋白、AAV10衣壳蛋白、AAV11衣壳蛋白、AAV12衣壳蛋白、AAV13衣壳蛋白、AAVPHP.B衣壳蛋白、AAVrh74衣壳蛋白或AAVrh.10衣壳蛋白。在一些实施方案中，所述AAV衣壳蛋白是AAV9或AAVrh10衣壳蛋白。

本公开文本提供了一种细胞，所述细胞包含本公开文本的任何实施方案的载体。

本公开文本提供了一种治疗哺乳动物的CAG重复疾病的方法，所述方法包括将根据本公开文本的任何组合物的组合物或AAV载体施用至所述哺乳动物的组织中的毒性靶CAG微卫星重复扩增(MRE)RNA序列，从而降低所述毒性靶RNA的表达水平。

在一些实施方案中，将所述组合物或AAV载体以如下方式施用于所述受试者：静脉内、鞘内、大脑内、心室内、鼻内、气管内、耳内、眼内或眼周、口服、直肠、透粘膜、吸入、经皮、肠胃外、皮下、皮内、肌内、脑池内、神经内、胸膜内、外用、淋巴内、脑池内或神经内。

在一些实施方案中，将所述组合物或AAV载体静脉内施用于所述受试者。在一些实施方案中，所述CAG重复障碍是亨廷顿病(HD)或脊髓小脑性共济失调1型(SCA1)。

在一些实施方案中，所述毒性靶RNA的降低的表达水平因此改善了所述哺乳动物中HD或SCA1的症状。

在一些实施方案中，与未经处理的毒性靶CAG RNA的表达水平的降低相比，所述毒性靶RNA的表达水平降低。

在一些实施方案中，所述毒性CAG重复是CAG³⁶或更多。在一些实施方案中，所述毒性CAG重复是CAG⁸⁰重复。在一些实施方案中，降低的水平在1倍与20倍之间。

本文公开了一种组合物，所述组合物包含编码非指导的RNA结合融合蛋白的核酸序列，所述非指导的RNA结合融合蛋白包含a)能够结合毒性靶CAG重复RNA序列的PUF或PUMBY蛋白和b)能够切割所述毒性靶RNA序列的核酸内切酶，其中所述核酸内切酶是ZC3H12A锌指核酸内切酶的核酸酶结构域。

在一些实施方案中，所述PUF RNA结合蛋白包含SEQ ID NO:444-451、461、480-488或549-557中的任一个。

在一些实施方案中，所述PUF RNA结合蛋白包含SEQ ID NO:549或480。

在一些实施方案中，所述毒性靶CAG RNA重复序列包含SEQ ID NO:453-456或472-479中的任一个。

在一些实施方案中，所述毒性靶CAG RNA重复序列包含SEQ ID NO:453或472。

在一些实施方案中，所述靶向CAG的PUF蛋白由包含SEQ ID NO:577或581中任一个的核酸序列编码。

在一些实施方案中，所述PUF或PUMBY蛋白是人PUF或PUMBY蛋白。

在一些实施方案中，所述PUF或PUMBY蛋白通过VDTANGS(SEQ ID NO:411)接头与所述ZC3H12A连接。

在一些实施方案中，所述ZC3H12A锌指核酸酶包含SEQ ID NO:358或SEQ ID NO:359。

在一些实施方案中，所述融合蛋白由包含SEQ ID NO:574-582中任一个的核酸序列编码。

在一些实施方案中，编码所述融合蛋白的核酸分子包含启动子。

在一些实施方案中，所述启动子是tCAG启动子。

本文公开了一种载体，所述载体包含前述组合物中的任一种。

在一些实施方案中，所述载体选自：腺相关病毒(AAV)、逆转录病毒、慢病毒、腺病毒、纳米颗粒、胶束、脂质体、阳离子脂质体/DNA复合物、聚合物囊泡、多聚复合物和树状聚合物。

在一些实施方案中，是AAV载体。

在一些实施方案中，所述AAV载体是AAV9、AAVrh10或AAVrh.74。

本文公开了一种细胞，所述细胞包含任何前述实施方案的载体。

本文公开了一种治疗哺乳动物的CAG重复疾病的方法，所述方法包括将组合物施用至所述哺乳动物的组织中的毒性靶CAG微卫星重复扩增(MRE)RNA序列，其中所述组合物包含编码非指导的RNA结合融合蛋白的核酸序列，所述非指导的RNA结合融合蛋白包含a)能够结合毒性靶CAG RNA重复序列的PUF RNA结合蛋白，和b)能够切割所述毒性靶CAG RNA重复序列的核酸内切酶，从而降低所述毒性靶RNA的表达水平。

在一些实施方案中，通过纹状体内施用将所述组合物施用至所述哺乳动物的组织。

在一些实施方案中，所述毒性靶RNA的降低的表达水平因此改善了所述哺乳动物中CAG重复障碍的症状。

在一些实施方案中，降低的水平在1倍与20倍之间。

在一些实施方案中，所述核酸内切酶是ZC3H12A锌指核酸内切酶的结构域。

在一些实施方案中，所述ZC3H12A锌指核酸酶的结构域包含SEQ ID NO:358或SEQID NO:359。

在一些实施方案中，编码所述融合蛋白的核酸序列包含启动子。

在一些实施方案中，所述启动子是tCAG启动子。

在一些实施方案中，所述启动子是神经元特异性启动子。

在一些实施方案中，所述神经元特异性启动子是突触素启动子。

一种组合物，所述组合物包含编码非天然存在的或工程化的规律间隔成簇短回文重复序列(CRISPR)相关(Cas)系统的核酸序列，所述系统包含：(a)至少一种RNA指导的RNA酶Cas蛋白；和b)能够与所述至少一种Cas蛋白中的一种形成复合物的至少一种同源CRISPR-Cas系统指导RNA(gRNA)，其中所述gRNA包含(i)DR序列和(ii)间隔子序列，其中所述间隔子序列与所述靶CAG MRE分子杂交，并且其中所述间隔子序列包含选自以下的间隔子序列：tgctgctgctgctgctgctgctgctg(指导物1，SEQ ID NO:457)、gctgctgctgctgctgctgctgctgc(指导物2，SEQ ID NO:458)和ctgctgctgctgctgctgctgctgct(指导物3，SEQ ID NO:458)或其部分，其中所述CRISPR-Cas系统能够结合并切割所述靶CAGMRE，其中所述CRISPR-Cas系统是无催化活性的，并且其中所述CRISPR-Cas能够结合但不切割所述靶CAG MRE。

在一些实施方案中，所述Cas蛋白是Cas13a、Cas13b、Cas13c或Cas13d。在一些实施方案中，所述Cas蛋白是Cas13d。

在一些实施方案中，所述RNA指导的RNA酶Cas蛋白或所述非指导的RNA结合多肽是第一RNA结合多肽，所述第一RNA结合多肽与第二RNA结合多肽融合。在一个实施方案中，所述第二RNA结合多肽能够以其与RNA缔合的方式结合RNA。在一些实施方案中，所述第二RNA结合多肽能够以其切割RNA的方式与RNA缔合。在一个实施方案中，所述第二RNA结合多肽是ZC3H12A锌指核酸内切酶的核酸酶结构域。

在一些实施方案中，编码所述Cas或dCas系统的核酸包含启动子。在一些实施方案中，所述启动子是EFS启动子。在一些实施方案中，所述启动子是神经元特异性启动子。在一些实施方案中，所述神经元特异性启动子是突触素启动子。

在一些实施方案中，所述CAG重复障碍是HD或SCA1。

在一些实施方案中，所述毒性CAG重复是CAG³⁶或更多。

在一些实施方案中，所述毒性CAG重复是CAG⁸⁰重复。

在所述方法的另一个实施方案中，通过小脑内或纹状体内施用将所述组合物施用于所述哺乳动物的组织。

在另一个实施方案中，所述毒性靶RNA的降低的表达水平因此改善了所述哺乳动物中疾病的症状。

在另一个实施方案中，与未经处理的毒性靶CAG RNA的表达水平的降低相比，所述毒性靶RNA的表达水平降低。

在另一个实施方案中，降低的水平在1倍与20倍之间，或者所述毒性CAG重复的消除在约20％-100％之间。

在另一个实施方案中，所述核酸内切酶是ZC3H12A锌指核酸内切酶的核酸酶结构域。

在另一个实施方案中，所述核酸序列包含启动子。

在另一个实施方案中，所述启动子是tCAG启动子。

在另一个实施方案中，所述融合蛋白包含选自NLS和NES的一种或多种信号序列。

在一个实施方案中，所述NLS或NES是人NLS或人NES。在另一个实施方案中，所述人NLS是人pRB-NLS：KRSAEGSNPPKPLKKLR(SEQ ID NO:442)或人RB-NLS(延伸形式)：DRVLKRSAEGSNPPKPLKKLR(SEQ ID NO:543)。

在另一个实施方案中，编码所述融合蛋白的核酸分子包含启动子。

在另一个实施方案中，所述启动子是tCAG启动子。

本文公开了一种治疗哺乳动物的CAG重复障碍HD或SCA1的方法，所述方法包括将组合物施用至所述哺乳动物的组织中的毒性靶CAG微卫星重复扩增(MRE)分子，其中所述组合物包含编码非天然存在的或工程化的规律间隔成簇短回文重复序列(CRISPR)相关(Cas)系统的核酸序列，所述系统包含：(a)至少一种RNA指导的RNA酶Cas蛋白；和(b)能够与所述至少一种Cas蛋白中的一种形成复合物的至少一种同源CRISPR-Cas系统指导RNA(gRNA)，其中所述gRNA包含(i)DR序列和(ii)间隔子序列，其中所述间隔子序列与所述靶CAG MRE分子杂交，并且由此由所述组合物形成的复合物直接靶向并破坏所述靶CAG MRE分子，从而治疗所述哺乳动物的疾病。

在前述方法的另一个实施方案中，所述间隔子序列包含选自以下的间隔子序列：tgctgctgctgctgctgctgctgctg(指导物1，SEQ ID NO:457)、gctgctgctgctgctgctgctgctgc(指导物2，SEQ ID NO:458)和ctgctgctgctgctgctgctgctgct(指导物3，SEQ ID NO:459)。

在另一个实施方案中，通过纹状体内或小脑内施用，将所述组合物施用于所述哺乳动物的组织。

在另一个实施方案中，所述RNA指导的RNA酶Cas蛋白选自Cas13a、Cas13b、Cas13c、Cas13d及其RNA结合部分。

在另一个实施方案中，所述RNA指导的RNA酶Cas蛋白是Cas13d或其RNA结合部分。

在另一个实施方案中，所述RNA指导的RNA酶Cas蛋白是无催化活性的(dCas)。

在另一个实施方案中，所述dCas蛋白与核酸内切酶连接。

在另一个实施方案中，所述核酸分子包含能够驱动所述RNA指导的Cas蛋白的表达的启动子。

在另一个实施方案中，所述启动子是EFS启动子。

本文公开了一种组合物，所述组合物包含编码非天然存在的或工程化的规律间隔成簇短回文重复序列(CRISPR)相关(Cas)系统的核酸序列，所述系统包含：(a)至少一种RNA指导的RNA酶Cas蛋白；和b)能够与所述至少一种Cas蛋白中的一种形成复合物的至少一种同源CRISPR-Cas系统指导RNA(gRNA)，其中所述gRNA包含(i)DR序列和(ii)间隔子序列，其中所述间隔子序列与所述靶CAG MRE分子杂交，并且其中所述间隔子序列包含选自以下的间隔子序列：tgctgctgctgctgctgctgctgctg(指导物1，SEQ IDNO:457)、gctgctgctgctgctgctgctgctgc(指导物2，SEQ ID NO:458)和ctgctgctgctgctgctgctgctgct(指导物3，SEQ ID NO:458)。

在另一个实施方案中，所述载体选自：腺相关病毒(AAV)、逆转录病毒、慢病毒、腺病毒、纳米颗粒、胶束、脂质体、阳离子脂质体/DNA复合物、聚合物囊泡、多聚复合物和树状聚合物。

在另一个实施方案中，所述载体是AAV载体。

在另一个实施方案中，所述AAV载体是AA9、AAVrh10或AAVrh.74。

本文公开了包含所述载体的细胞。

附图说明

本专利或申请文件包含至少一幅彩色附图。具有一副或多副彩色附图的本专利或专利申请公开文本的副本将在请求和支付必要费用后由主管局提供。

图1示出了CAG⁸⁰ qPCR测定的结果，其展示了本文公开的靶向CAG的Cas13d组合物和PUF组合物的示例性实施方案破坏毒性CAG重复。示出了使用三种不同的指导物CAG-g1、CAG-g2和CAG-g3，在基于Cas13d的系统(标记为Cas13d-L1)中的毒性重复的减少。示出了使用编码8PUF(CAG)-E17融合蛋白(标记的CAG-f1靶向框架1：CAGCAGCA；和CAG-f2靶向框架2：GCAGCAC)的示例性核酸分子，在基于PUF的系统中的毒性重复的减少。E17是ZC3H12A核酸酶的结构域。将结果相对于非靶向对照归一化，并显示为生物重复实验的平均值+/-s.d.(n＝2)。

图2示出了与非靶向对照相比，使用本文公开的示例性靶向CAG的Cas13d和PUF组合物的RNA荧光原位杂交(FISH)测定的结果。将CosM6细胞用CAG-80报告基因和非靶向Cas13d(左)或靶向CAG的Cas13d(右)共转染。转染后48小时将细胞用4％ PFA固定，并且用Alexa-546(红色)标记的(CAG)10反义DNA探针进行RNA FISH，然后用抗聚Q一抗以及Alexa-488(绿色)标记的抗小鼠二抗进行免疫荧光。

图3A-图3C示出了本文公开的CAG重复基因疗法组合物的示例性载体配置。图3A展示了CAG重复基因疗法构建体配置，其包含与截短的CAG启动子(tCAG)可操作连接的靶向CAG的PUF-E17。图3B展示了CAG重复基因疗法构建体配置，其包含与E17融合的靶向CAG的无催化活性的Cas13d以及与EFS启动子可操作连接的相应指导物。图3C展示了CAG重复基因疗法构建体配置，其包含与EFS启动子可操作连接的靶向CAG的Cas13d和相应的指导物。

图4描绘了靶向CAG的PUF与人PUM1的比对，其中突出显示了错配。

图5描绘了使用本文公开的组合物的等位基因优先CAG靶向。HD中的CAG扩增(CAG^exp)防止外显子1-外显子2剪接，导致含有HTT外显子1同种型的CAG^exp的过量产生。在一些方面，含有HTT外显子1同种型的CAG^exp被称为突变型HTT(mHTT)。

图6A是描绘相对于假处理对照，用中等剂量的AAVrh10-1684载体或AAVrh10-1589载体处理的小鼠的体重变化百分比的图。

图6B是描绘AAVrh10-1684载体和AAVrh10-1589载体的载体组成的表。AAVrh10-1684包含控制缺乏核酸内切酶融合物的靶向CAG的PUF蛋白的表达的EFS/UBB启动子。AAVrh10-1589包含控制缺乏靶向CAG的RNA结合蛋白的E17核酸内切酶的表达的EFS/UBB启动子。

图7是描绘在递送优化之前(图7A)和之后(图7B)非人灵长类动物中AAVrh10-1383(LBIO-210；靶向CAG的PUF)的表达的一系列图像。

图8A是详细说明经由包含CAG重复RNA结合蛋白和核酸内切酶的靶向CAG重复的融合蛋白降低突变型HTT蛋白水平的示意图，其中所述融合蛋白结合突变型HTT mRNA，后者被核酸内切酶切割。

图8B是详细说明经由靶向CAG重复的蛋白质降低突变型HTT蛋白水平的示意图，其中所述靶向CAG重复的蛋白结合所述突变型HTT并阻断翻译。在一些方面，所述靶向CAG重复的蛋白质包含核酸内切酶融合物。在一些方面，所述靶向CAG重复的蛋白质不包含核酸内切酶融合物。

图9A是描绘图9B和图9C中使用的载体构建体的表。将研究HD08组1分为两半(对半)：hemi 1利用AAV9-rCas9-PIN和非靶向(NT)指导RNA(AAV9-1475)，而另一半(hemi 2)利用AAV9-rCas9-PIN和靶向CAG重复的指导RNA(AAV9-1347)。将研究HD08b分为组2AV9-RCas9-PIN+CAG指导物(AAV9-1347)和组3AAV9-RCas9-PIN+NT指导物(AAV9-1475)。

图9B是描绘用RCas9+NT或RCas9+CAG(研究HD08)处理后，小鼠中相对突变型HTT(mHTT)RNA水平*和蛋白质(可溶性mHTT)水平的一系列图。*将mHTT RNA水平相对于Atp5b和Eif4a2归一化。

图9C是描绘用AAV9-rCas9-PIN+AAV-1475(NT指导物)或AAV9-rCas9-PIN+AAV9-1347(CAG指导物)处理后，小鼠中相对突变型HTT(mHTT)RNA水平以及相对Darpp32水平和相对Pde10a水平*的一系列图。(研究HD08b)。*相对于Atp5b和Eif4a2归一化。

图10A是针对NeuN或GFAP进行免疫组织化学染色的zQ175 P1皮层神经元培养物的一系列荧光图像。培养物显示为含有神经元和星形胶质细胞两者。

图10B是描绘用AAVrh.10-GFP载体转导后绿色荧光蛋白(GFP)的表达的荧光图像，其证明zQ175 P1皮层神经元培养物容易被AAVrh10转导。

图10C是描绘在用对照(UTC)、Syn Clover或1E4、1E5或1E6 MOI剂量的A01380(PUF(CAG)-E17)转导后，zQ175 P1皮层神经元培养物中的突变型HTT RNA水平的图。

图11A是亨廷顿病患者来源的成纤维细胞的一系列图像。

图11B是描绘野生型HTT和突变型HTT两者的凝胶的图像。

图12是描绘如通过qRT-PCR测量的源自未经处理的野生型(WT)和HET(杂合)幼崽的P1神经元培养物中mHTT表达的缺乏的图。使用原始Ct(循环阈值)展示了HET特异性mHTT表达。

图13A是描绘归一化为在P1神经元中的UTC表达的百分比的mHTT表达的图，所述P1神经元源自用1E5和1E6 MOI的靶向CAG的PUF和Seq212载体构建体转导7天的杂合zQ175小鼠幼崽。样品包括未经处理的对照(UTC)、A01383_1E5(1x 10⁵vg)、A01477_1E5、A01477_1E6、A01479_1E5、A01479_1E6、A01553_1E5、A01553_1E6和AA09sh。

图13B是描绘归一化为P1神经元中UTC表达的百分比的wt HTT表达的图，所述P1神经元源自用1E5和1E6 MOI的靶向CAG的PUF和Seq212载体构建体转导7天的杂合zQ175小鼠幼崽。样品包括未经处理的对照(UTC)、A01383_1E5(1x 10⁵vg)、A01477_1E5、A01477_1E6、A01479_1E5、A01479_1E6、A01553_1E5、A01553_1E6和AA09sh。

图14A是描绘通过Meso Scale Discovery免疫测定(MSD)测量的P1神经元中mHTT表达的图，所述P1神经元源自用1E5或1E6 MOI的靶向CAG的PUF和靶向CAG的cas13d载体转导7天的杂合zQ175小鼠幼崽。样品包括未经处理的对照(UTC)、A01383、A01479、A01922和wt。呈现了两只小鼠幼崽的数据。

图14B是描绘归一化为P1神经元中UTC表达的百分比的mHTT表达的图，所述P1神经元源自用1E5和1E6 MOI的靶向CAG的PUF和靶向CAG的cas13d载体转导7天的杂合zQ175小鼠幼崽。样品包括未经处理的对照(UTC)、A01383、A01479、A01922和wt。呈现了两只小鼠幼崽的数据。

图15A是描绘P1神经元中cas13d Seq212表达的图，所述P1神经元源自用1E5和1E6MOI的靶向CAG的cas13d Seq212构建体转导7天的杂合zQ175小鼠幼崽。将Cas13d表达相对于ATP5b归一化。所评估的载体包括A01477、A01479和A01553。

图15B是描绘P1神经元中cas13d指导RNA表达的图，所述P1神经元源自用1E5和1E6MOI的靶向CAG的cas13d Seq212构建体转导7天的杂合zQ175小鼠幼崽。所评估的载体包括A01477、A01479和A01553。

图16A是描绘相对于UTC细胞，用1E5 MOI的靶向CAG的PUF A01383转导7天的P1神经元中神经元和小胶质激活生物标记物AIF1、PDE10A、PPPIR1B和RBFOX3的表达的一系列图。

图16B是描绘相对于UTC细胞，用1E5 MOI的靶向CAG的PUF A01383转导7天的P1神经元中神经元和小胶质激活生物标记物PDE10A、PPPIR1B和RBFOX3的表达的一系列图。

图17是描绘相对于UTC，在用1E5 MOI的靶向CAG的构建体转导7天的P1神经元中的细胞毒性的倍数变化差异。样品包括wt、杂合子(het)、A01383载体、A01684载体、A01479载体或A01922载体。

图18A是描绘靶向CAG的PUF蛋白的示意图，所述靶向CAG的PUF蛋白适合于结合CAG重复RNA并阻断RNA从而导致破坏所结合的RNA和/或抑制所结合的RNA的翻译。

图18B是描绘靶向CAG的dCas13d蛋白的示意图，所述靶向CAG的dCas13d蛋白适合于结合CAG重复RNA并阻断RNA从而导致破坏所结合的RNA和/或抑制所结合的RNA的翻译。

图19是列出包含本公开文本的靶向CAG的组合物的示例性AAV载体的表。

具体实施方式

本公开文本提供了用于治疗CAG三核苷酸重复或CAG MRE引起的疾病和/或障碍如HD和SCA1的靶向RNA的基因疗法组合物和方法。

HD和SCA1分别是由HTT和ATXN1基因中扩增的CAG重复引起的致命性、进行性常染色体显性疾病。这些重复编码聚谷氨酰胺段，其大小与疾病的发作和进展相关。

人亨廷顿蛋白(HTT)基因具有67个外显子。外显子1中CAG重复扩增导致聚Q蛋白聚集和HD。HD疾病发作与CAG重复的数量逆相关。所有单核苷酸多态性(SNP)均与外显子1下游的扩增的CAG等位基因相关。利用与扩增相关的SNP以等位基因特异性方式靶向HTT将靶向含有HTT外显子1同种型的高致病性短CAG。靶向CAG重复以外的外显子1不会导致等位基因特异性敲低。此处公开的用于治疗HD的基因疗法组合物和方法以等位基因优先的方式靶向CAG重复，并且允许正常HTT蛋白的表达(图5)。

在HD中，与在HTT基因内被认为是正常的10至35次CAG重复相比，在突变型HTT基因内CAG区段被重复36至120次。CAG区段大小的增加导致产生异常长形式的亨廷顿蛋白，所述异常长形式的亨廷顿蛋白被切成较小的毒性片段，这些较小的毒性片段结合在一起并在神经元中积累，从而破坏这些细胞的正常功能。脑的某些区域中神经元的这种功能异常和最终死亡导致HD的体征和症状。

在SCA1中，与在ATXN1基因内被认为正常的4至39次CAG重复相比，在突变型ATXN1基因内CAG区段被重复40至超过80次。CAG区段的这种增加导致产生异常长形式的共济失调蛋白-1蛋白，所述异常长形式的共济失调蛋白-1蛋白折叠成错误的3维形状。蛋白质折叠中的这种异常导致蛋白质与其他蛋白质在细胞核内聚集形成团块(聚集体)，并导致细胞损伤和最终细胞死亡。靶向和消除(或阻断)CAG重复是针对HD和SCA1的治疗策略。

本文公开的基因疗法组合物在治疗CAG重复疾病和/或障碍的方法中提供了毒性CAG重复的改善的切割(图8A)。在本公开文本的其他实施方案中，本文公开的基因疗法组合物阻断含有毒性CAG重复的mRNA转录物的表达(图8B)。这些基因疗法组合物能够特异性靶向毒性CAG重复RNA并且提供与疾病如HD和SCA1相关的疾病表型的长期修复。这些基因疗法组合物还提供毒性CAG重复RNA的有效切割或阻断。用于靶向CAG MRE的此类基因疗法组合物对于在制造中缩放治疗系统是重要的，因为所述组合物的组分具有足够小的尺寸以依赖于统一(单一)载体。与未治疗相比，本文公开的基因疗法组合物能够实现更有效的毒性CAG重复的敲低或阻断。

本文公开了用于治疗CAG重复疾病如HD和SCA1的包含核酸分子的组合物和包含所述核酸分子的载体，所述核酸分子编码能够结合毒性CAG重复RNA的指导或非指导的RNA结合系统。此类组合物能够靶向和结合以敲低/破坏或阻断毒性CAG重复。在一些方面，适合于阻断CAG重复RNA的组合物结合含有CAG重复的RNA并阻止CAG重复RNA的翻译。在一些方面，这阻止翻译，导致含有CAG重复的RNA序列的蛋白质表达降低。这些系统包含RNA指导的RNA酶Cas(如Cas13d)或非指导的PUF、PUMBY或PPR蛋白配置。

在用于治疗HD或SCA1的任何前述或随后的靶向RNA的组合物中，在特定的靶向RNA的组合物的上下文中描述的任何特定构建体元件(例如，接头、启动子、信号序列等)可以被取代为具有相同元件类型的另一个元件(例如，接头、启动子、信号序列等)。在一些实施方案中，可以省略或去除任何特定构建体元件(如标签序列)。换句话说，本文所述的任何特定基因疗法组合物中的元件的示例性组合并不旨在限制。

示例性阻断性RNA靶向组合物

HTT或ATXN1 mRNA中扩增的CAG(CAG^exp)重复导致HTT或共济失调蛋白-1的蛋白质聚集从而导致其功能丧失。PUF(CAG)或dCas13d(CAG)将直接结合CAG^expRNA并且阻断CAG^expRNA，导致阻断的/抑制的翻译的隔离，从而最终导致突变的蛋白质(如mHTTT或mATXN1)水平降低。

示例性阻断性CAG靶向PUF蛋白组合物包含：

含myc标签的靶向CAG框架2(阻断性)的PUF

不含myc标签的靶向CAG框架2(阻断性)的PUF

RNA指导的CAG重复RNA结合系统

在一些实施方案中，RNA指导的RNA结合系统是基于RNA酶Cas的RNA指导的RNA结合多肽。在一些实施方案中，核酸序列编码作为RNA酶Cas蛋白(或失活的RNA酶Cas蛋白)的RNA指导的RNA结合多肽。在一个实施方案中，核酸序列进一步包含gRNA序列，其含有与毒性靶CAG重复RNA结合的间隔子序列和与RNA酶Cas蛋白结合的同向重复(DR)序列。

在一个实施方案中，Cas13d(CAG)系统是有催化活性的，在这种情况下，所述Cas13d核蛋白复合物切割并破坏毒性RNA CAG重复。在另一个实施方案中，Cas13d(CAG)系统是无催化活性的，在这种情况下，所述Cas13d核蛋白复合物结合并阻断(但不切割)RNACAG重复。在又另一个实施方案中，Cas13d(CAG)包含与核酸内切酶融合的无催化活性的Cas13d(CAG)，所述核酸内切酶能够切割毒性RNA CAG重复。在这样一个实施方案中，所述核酸内切酶是活性RNA酶。可以在本文中找到具有RNA酶活性的示例性核酸内切酶，并且这些包括例如来自ZC3H12A锌指的结构域(在本文中也称为E17)或来自PIN核酸内切酶的结构域。

表1：用RNA酶Cas系统进行CAG靶向以治疗CAG重复疾病的sgRNA中使用的示例性间隔子序列：

间隔子	间隔子序列
		1	tgctgctgctgctgctgctgctgctg(SEQ ID NO:457)
2	gctgctgctgctgctgctgctgctgc(SEQ ID NO:458)
		3	ctgctgctgctgctgctgctgctgct(SEQ ID NO:459)

在一个实施方案中，RNA酶Cas蛋白是Cas13蛋白。在另一个实施方案中，Cas13蛋白是Cas13d蛋白。在另一个实施方案中，Cas13d蛋白是失活的RNA酶Cas13d蛋白(dCas13d)。在另一个实施方案中，dCas13d蛋白是融合蛋白，其包含1)dCas13d和2)编码具有核酸酶活性的蛋白质或其片段的多肽。在另一个实施方案中，dCas13d蛋白是融合蛋白，其包含1)dCas13d和2)ZC3H12A(锌指核酸内切酶)的核酸酶结构域(本文称为E17)。在一些实施方案中，Cas配置包含一个或多个信号序列，如一个或多个NLS和/或一个或多个NES。在一些实施方案中，dCas13d经由接头序列与E17连接。在一个实施方案中，接头序列是VDTANGS(SEQ IDNO:411)。在一些实施方案中，编码Cas13d或dCas13d融合蛋白的核酸序列与至少一个启动子序列可操作地连接。在一些实施方案中，启动子序列包含增强子和/或内含子。在一些实施方案中，启动子序列是EFS启动子序列、tCAG启动子序列、EFS/UBB启动子序列、EFS启动子序列或突触素序列(图3B、图3C、图20A和图20B)。

在一些实施方案中，核酸序列包含控制Cas13d蛋白或Cas13d融合蛋白表达的第一启动子序列和控制所述至少一个指导RNA序列表达的第二启动子序列。在一些实施方案中，Cas13d或dCas13d系统靶向扩增的CAG重复，其中所述CAG重复是CAG³⁶或更多。在一些实施方案中，CAG重复是CAG⁸⁰。在一些方面，CAG³⁶或CAG⁸⁰是指HTT或ATXN1基因中的36个CAG重复或80个CAG重复。任何其他数量的CAG重复都是可能的，包括至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、76、77、78、79、80、81、82、83、84、85、90、95、100、105、110、115、120个CAG重复，或在其间任何数量的CAG重复。

在一些实施方案中，本公开文本的靶向CAG重复的dCas13d蛋白从N末端至C末端包含：dCas13d(dSeq212)、接头、SV-40NLS、接头和HA标签。在一些实施方案中，本公开文本的dCas13d蛋白从N末端至C末端包含：dCas13d(dSeq212)、接头、SV-40NLS和接头。在一些方面，本公开文本的靶向CAG重复的dCas13d蛋白示于表A中。在一些方面，将靶向CAG重复的dCas13d蛋白用于阻断CAG重复RNA序列表达的方法中。

表A：靶向CAG重复的dCas13d蛋白

在一些实施方案中，本公开文本的靶向CAG重复的cas13d或dCas13d蛋白从N末端至C末端包含：dCas13d(dSeq212)、接头、SV-40NLS、接头和HA标签。在一些实施方案中，本公开文本的dCas13d蛋白从N末端至C末端包含：dCas13d(dSeq212)、接头和SV-40NLS。在一些方面，本公开文本的靶向CAG重复的dCas13d蛋白示于表B中。在一些方面，将靶向CAG重复的dCas13d蛋白用于阻断CAG重复RNA序列表达的方法中。

表B：靶向CAG重复的dCas13d蛋白

在一些实施方案中，本公开文本的靶向CAG重复的dCas13d蛋白从N末端至C末端包含：dCas13d(dSeq212)、接头、SV-40NLS、接头和HA标签。在一些实施方案中，本公开文本的dCas13d蛋白从N末端至C末端包含：dCas13d(dSeq212)、接头、SV-40NLS和接头。在一些方面，本公开文本的靶向CAG重复的dCas13d蛋白示于表C中。在一些方面，将靶向CAG重复的dCas13d蛋白用于阻断CAG重复RNA序列表达的方法中。

表C：靶向CAG重复的dCas13d蛋白

靶向CAG重复的dCas13d蛋白

/>

在一些实施方案中，本公开文本的靶向CAG重复的dCas13d融合蛋白从N末端至C末端包含：SV-40NLS序列、dCas13d(dSeq212)序列、接头序列、SV-40NLS、ZC3H12A核酸内切酶(E17)、接头序列和myc标签。在一些实施方案中，本公开文本的靶向CAG重复的dCas13d融合蛋白从N末端至C末端包含：SV-40NLS序列、dCas13d(dSeq212)序列、接头序列、SV-40NLS和ZC3H12A核酸内切酶(E17)。在一些方面，本公开文本的靶向CAG重复的dCas13d蛋白示于表D中。在一些方面，将靶向CAG重复的dCas13d蛋白用于结合并切割CAG重复RNA序列的方法中。

表D：靶向CAG重复的dCas13d蛋白

/>

在一些实施方案中，本公开文本的靶向CAG重复的dCas13d融合蛋白从N末端至C末端包含：SV-40NLS序列、接头序列、dCas13d(dSeq212)序列、接头序列、ZC3H12A核酸内切酶(E17)、接头序列和myc标签。在一些实施方案中，本公开文本的靶向CAG重复的dCas13d融合蛋白从N末端至C末端包含：SV-40NLS序列、接头序列、dCas13d(dSeq212)序列、接头序列和ZC3H12A核酸内切酶(E17)。在一些方面，本公开文本的靶向CAG重复的dCas13d蛋白示于表E中。在一些方面，将靶向CAG重复的dCas13d蛋白用于结合并切割CAG重复RNA序列的方法中。

表E：靶向CAG重复的dCas13d蛋白

在一些实施方案中，本公开文本的靶向CAG重复的dCas13d融合蛋白从N末端至C末端包含：ZC3H12A核酸内切酶(E17)、接头序列、dCas13d(dSeq212)序列、接头序列、SV-40NLS、接头序列和HA标签。在一些实施方案中，本公开文本的靶向CAG重复的dCas13d融合蛋白从N末端至C末端包含：ZC3H12A核酸内切酶(E17)、接头序列、dCas13d(dSeq212)序列、接头序列和SV-40NLS。在一些方面，本公开文本的靶向CAG重复的dCas13d蛋白示于表F中。在一些方面，将靶向CAG重复的dCas13d蛋白用于结合并切割CAG重复RNA序列的方法中。

表F：靶向CAG重复的dCas13d蛋白

/>

非指导的CAG重复RNA结合系统

在一些实施方案中，用于靶向CAG毒性重复的RNA结合系统不包含RNA指导的RNA结合多肽。在一些实施方案中，RNA结合系统由非RNA指导的RNA结合多肽组成。在一些实施方案中，RNA结合系统由非RNA指导的RNA结合多肽(如PUF蛋白或PUMBY蛋白)或其RNA结合部分组成。在一个实施方案中，本文公开的非指导的RNA结合融合蛋白包含a)能够结合包含CAGCAGCA(SEQ ID NO:453)或GCAGCAGC(SEQ ID NO:476)的毒性靶CAG重复RNA序列的PUF或PUMBY RNA结合序列和b)能够切割毒性靶CAG重复序列的核酸内切酶。靶CAG重复框架1(图1中的CAG-f1)是CAGCAGCA(SEQ ID NO:453)并且靶CAG重复框架2(图1中的CAG-f2)是GCAGCAGC(SEQ ID NO:476)。在另一个实施方案中，靶CAG重复框架是CAG重复框架3，所述CAG重复框架3是AGCAGCAG(SEQ ID NO:472)。

在另一个实施方案中，毒性靶RNA序列包含选自以下的靶RNA序列：CAGCAGCAGCAGCA(SEQ ID NO:454)、CAGCAGCAGCAGCAG(SEQ ID NO:455)、CAGCAGCAGCAGCAGC(SEQ ID NO:456)、GCAGCAGCAGCAGC(SEQ ID NO:477)、GCAGCAGCAGCAGCA(SEQ ID NO:478)、GCAGCAGCAGCAGCAG(SEQ ID NO:479)、AGCAGCAGCAGCAG(SEQ ID NO:473)、AGCAGCAGCAGCAGC(SEQ ID NO:474)、和AGCAGCAGCAGCAGCA(SEQ ID NO:475)。

在一个实施方案中，PUF或PUMBY RNA结合融合蛋白包含a)PUF或PUMBYCAG靶向蛋白和b)ZC3H12A(锌指核酸内切酶)的核酸酶结构域(本文称为E17)。在一些实施方案中，将靶向CAG的PUF或PUMBY融合蛋白以N末端至C末端方向如下配置：

PUF(CAG)-E17，其中PUF(CAG)是靶向CAG的PUF；

E17-PUF(CAG)；

PUMBY(CAG)-E17，其中PUMBY(CAG)是靶向CAG的PUMBY；或

E17-PUMBY(CAG)。

在一些实施方案中，PUF或PUMBY融合物配置包含PUF(CAG)或PUMBY(CAG)与E17核酸酶结构域之间的接头。在一个实施方案中，接头序列是VDTANGS(SEQ ID NO:411)。

在一些实施方案中，将包含接头的靶向CAG的PUF或PUMBY融合蛋白以N末端至C末端如下配置：

PUF(CAG)-接头-E17

E17-接头-PUF(CAG)

PUMBY(CAG)-接头-E17；或

E17-接头-PUMBY(CAG)。

在一个实施方案中，靶向CAG的PUF或PUMBY融合蛋白配置从N末端至C末端为方向PUF(CAG)-VDTANGS-E17或PUMBY(CAG)-VDTANGS-E17。在另一个实施方案中，靶向CAG的PUF或PUMBY融合蛋白配置从N末端至C末端为方向E17-VDTANGS-PUF(CAG)或E17-VDTANGS-PUMBY(CAG)。

在一些实施方案中，PUF或PUMBY配置包含一个或多个信号序列和/或标签，如FLAG、NLS、NES或其组合。在一个实施方案中，FLAG标签序列是DYKDDDDK(SEQ ID NO:436)。在一个实施方案中，NLS是人NLS。在另一个实施方案中，所述人NLS是人pRB-NLS：KRSAEGSNPPKPLKKLR(SEQ ID NO:442)或人RB-NLS(延伸形式)：DRVLKRSAEGSNPPKPLKKLR(SEQ ID NO:543)。

在一个实施方案中，所述配置包含两个不同的标签和/或信号序列。在另一个实施方案中，所述配置包含两个或更多个信号序列。在一些实施方案中，所述一个或多个信号位于N末端。在一些实施方案中，所述一个或多个信号位于C末端。在一些实施方案中，一个或多个信号位于N末端并且一个或多个信号位于C末端。在一个实施方案中，将包含一个或多个信号和/或标签的靶向CAG的PUF或PUMBY融合蛋白以N末端至C末端如下配置：

FLAG-NLS-PUF(CAG)-接头-E17；

FLAG-NLS-PUMBY(CAG)-接头-E17；

NLS-PUF(CAG)-接头-E17；或

NLS-PUMBY(CAG)-接头-E17。

在一个实施方案中，将包含一个或多个标签的靶向CAG的PUF或PUMBY融合蛋白以N末端至C末端如下配置：

FLAG-NLS-PUF(CAG)-VDTANGS-E17；

FLAG-NLS-PUMBY(CAG)-VDTANGS-E17；

NLS-PUF(CAG)-VDTANGS-E17；或

NLS-PUMBY(CAG)-VDTANGS-E17

NLS-PUF(CAG)-VDTANGS-E17-NES。

表2：用于靶向CAG MRE的示例性8PUF配置

/>

在一个实施方案中，PUF(CAG)或PUMBY(CAG)融合构建体靶向扩增的CAG重复，其中CAG重复是CAG³⁶或更多。在另一个实施方案中，CAG重复是CAG⁸⁰。在一些方面，CAG³⁶或CAG⁸⁰是指HTT或SCA1基因中的36个CAG重复或80个CAG重复。任何其他数量的CAG重复都是可能的，包括至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、55、60、65、70、75、76、77、78、79、80、81、82、83、84、85、90、95、100、105、110、115、120个CAG重复，或在其间任何数量的CAG重复。

在一个实施方案中，编码PUF(CAG)或PUMBY(CAG)蛋白或融合构建体的核酸序列与启动子序列可操作连接以在细胞内表达。在一个实施方案中，启动子序列是截短的CAG(tCAG)启动子(图3A)。在一些实施方案中，启动子序列包含增强子序列和/或内含子序列。在一个实施方案中，启动子是EFS/UBB启动子。在一些实施方案中，启动子序列是神经元特异性启动子。

在一个实施方案中，编码Cas13d(CAG)或dCas13d(CAG)(含或不含核酸内切酶的dCas13d(CAG))的核酸与启动子序列可操作地连接以在细胞内表达(图3A-图3C和图18A-图18B)。在一个实施方案中，启动子序列是EFS启动子(图3C或图18A-图18B)。在一个实施方案中，启动子是EFS/UBB启动子(图18A-图18B)。在一个实施方案中，启动子是突触素启动子(图18A-图18B)。在一些实施方案中，启动子序列包含增强子序列和/或内含子序列。在一些实施方案中，启动子序列是神经元特异性启动子。

在另一个实施方案中，将PUF(CAG)或PUMBY(CAG)或Cas13d(CAG)或dCas13d(CAG)配置包装在AAV载体中。在一个实施方案中，AAV载体是AAV9载体。在另一个实施方案中，AAV载体是AAVrh74载体。

在另一个实施方案中，将PUF(CAG)或PUMBY(CAG)配置包装在AAV载体中。在一个实施方案中，AAV载体是AAV9或AAVrh10载体。

用于RNA指导的RNA结合蛋白的指导RNA

术语指导RNA(gRNA)与单一指导RNA(sgRNA)在整个本公开文本中可互换使用。

本公开文本的指导RNA(gRNA)可以由间隔子序列和“同向重复”(DR)序列组成。在一些实施方案中，指导RNA是包含连续间隔子序列和DR序列的单一指导RNA(sgRNA)。在一些实施方案中，间隔子序列和DR序列是不连续的。在一些实施方案中，gRNA包含DR序列。DR序列是指CRISPR基因座(天然存在于细菌基因组或质粒中)中的重复性序列，其中散布有间隔子序列。众所周知，如果相关CRISPR基因座的序列是已知的，则将能够推断相应(或同源)Cas蛋白的DR序列。在一些实施方案中，指导RNA包含同向重复(DR)序列和间隔子序列。在一些实施方案中，编码本公开文本的指导RNA或单一指导RNA的序列包含由接头序列隔开的间隔子序列和DR序列或由其组成。在一些实施方案中，接头序列可以包含1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50个或其间的任何数量的核苷酸(nt)或由其组成。在一些实施方案中，接头序列可以包含至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50个或之间的任何数量的核苷酸。在一些实施方案中，DR序列是Cas13d DR序列。

在一个实施方案中，以Cas l3d介导的方式与一种或多种靶RNA分子杂交的gRNA包含一个或多个同向重复(DR)序列、一个或多个间隔子序列，例如像一个或多个包含DR-间隔子-DR-间隔子阵列的序列。在一个实施方案中，多个gRNA由单个阵列产生，其中每个gRNA可以是不同的，例如靶向不同的RNA或靶向单个RNA的多个区域，或其组合。在一些实施方案中，分离的gRNA包含一个或多个同向重复序列，如未经加工的DR(例如，约36nt)或经加工的DR(例如，约30nt)。在一些实施方案中，gRNA可以进一步包含对靶RNA具有特异性(例如，与靶RNA互补)的一个或多个间隔子序列。在某些这样的实施方案中，多个polIII启动子可以用于驱动多个gRNA、间隔子和/或DR。在一个实施方案中，指导阵列包含DR(约36nt)-间隔子(约30nt)-DR(约36nt)-间隔子(约30nt)。

本公开文本的指导RNA(gRNA)可以包含非天然存在的核苷酸。在一些实施方案中，本公开文本的指导RNA或编码所述指导RNA的序列包含修饰的或合成的RNA核苷酸或由其组成。示例性的修饰的RNA核苷酸包括但不限于假尿苷(Ψ)、二氢尿苷(D)、肌苷(I)、和7-甲基鸟苷(m7G)、次黄嘌呤、黄嘌呤、黄苷、7-甲基鸟嘌呤、5,6-二氢尿嘧啶、5-甲基胞嘧啶、5-甲基胞苷、5-羟甲基胞嘧啶、异鸟嘌呤和异胞嘧啶。

本公开文本的指导RNA(gRNA)可以结合靶序列内的修饰的RNA。在靶序列内，本公开文本的指导RNA(gRNA)可以结合经修饰的或突变的(例如，致病性)RNA。示例性的表观遗传或转录后修饰的RNA包括但不限于2’-O-甲基化(2'-OMe)(2'-O-甲基化发生在核糖部分的游离2'-OH的氧上)、N6-甲基腺苷(m6A)和5-甲基胞嘧啶(m5C)。

在本公开文本的组合物的一些实施方案中，本公开文本的指导RNA包含编码非编码C/D盒核仁小RNA(snoRNA)序列的至少一个序列。在一些实施方案中，snoRNA序列包含与靶RNA互补的至少一个序列，其中所述RNA分子的靶序列包含至少一个2’-OMe。在一些实施方案中，snoRNA序列包含与靶RNA互补的至少一个序列，其中与靶RNA互补的所述至少一个序列包含盒C基序(RUGAUGA)和盒D基序(CUGA)。

本公开文本的间隔子序列与RNA分子的所述靶序列结合。在一些实施方案中，本公开文本的间隔子序列与致病性靶RNA结合。

在本公开文本的组合物的一些实施方案中，包含所述gRNA的序列还包含与所述靶RNA序列特异性结合的间隔子序列。在一些实施方案中，所述间隔子序列与所述靶RNA序列具有至少50％、55％、60％、65％、70％、75％、80％、87％、90％、95％、97％、99％或其间的任何百分比的互补性。在一些实施方案中，所述间隔子序列与所述靶RNA序列具有100％互补性。在一些实施方案中，所述间隔子序列包含20个核苷酸或由其组成。在一些实施方案中，所述间隔子序列包含21个核苷酸、22个核苷酸、23个核苷酸、24个核苷酸、25个核苷酸、26个核苷酸、27个核苷酸、28个核苷酸、或29个核苷酸或由其组成。在一些实施方案中，所述间隔子序列包含26个核苷酸或由其组成。在一些实施方案中，所述间隔子序列是未经加工的并且包含30个核苷酸或由其组成。在一些实施方案中，未经加工的间隔子序列包含30-36个核苷酸或由其组成。

本公开文本的DR序列结合本公开文本的Cas多肽。在gRNA的间隔子序列与靶RNA序列结合后，与gRNA的DR序列结合的Cas蛋白定位于靶RNA序列上。与其同源Cas蛋白或其核酸具有足够互补性的DR序列选择性地结合Cas蛋白的靶核酸序列，并且与所述序列具有至少50％、55％、60％、65％、70％、75％、80％、85％、90％、95％、96、97％、98％，99％或其间的任何百分比的同一性。在一些实施方案中，具有足够互补性的序列具有100％同一性。在一些实施方案中，本公开文本的DR序列包含二级结构或三级结构。示例性二级结构包括但不限于螺旋、茎环、凸起、四环和假结。示例性三级结构包括但不限于螺旋的A形式、螺旋的B形式和螺旋的Z形式。示例性三级结构包括但不限于扭曲的或螺旋化的茎环。示例性三级结构包括但不限于扭曲的或螺旋化的假结。在一些实施方案中，本公开文本的DR序列包含至少一个二级结构或至少一个三级结构。在一些实施方案中，本公开文本的DR序列包含一个或多个二级结构或者一个或多个三级结构。

在本公开文本的组合物的一些实施方案中，指导RNA或其部分与本公开文本的RNA分子中的四环基序选择性结合。在一些实施方案中，RNA分子的靶序列包含四环基序。在一些实施方案中，四环基序是“GRNA”基序，所述基序包含GAAA、GUGA、GCAA或GAGA的序列中的一种或多种或由其组成。

在本公开文本的组合物的一些实施方案中，与RNA分子的靶序列结合的指导RNA或其部分与所述RNA分子的靶序列杂交。在一些实施方案中，与第一RNA结合蛋白或与第二RNA结合蛋白结合的指导RNA或其部分与第一RNA结合蛋白或与第二RNA结合蛋白共价结合。在一些实施方案中，与第一RNA结合蛋白或与第二RNA结合蛋白结合的指导RNA或其部分与第一RNA结合蛋白或与第二RNA结合蛋白非共价结合。

在本公开文本的组合物的一些实施方案中，指导RNA或其部分包含在10个与100个之间的核苷酸(包括端点)或由所述核苷酸组成。在一些实施方案中，本公开文本的间隔子序列包含在10个与30个之间的核苷酸(包括端点)或由其组成。在一些实施方案中，本公开文本的间隔子序列包含15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个核苷酸或由其组成。在一些实施方案中，本公开文本的间隔子序列包含20个核苷酸或由其组成。在一些实施方案中，本公开文本的间隔子序列包含21个核苷酸或由其组成。在一些实施方案中，本公开文本的间隔子序列包含26个核苷酸或由其组成。

指导分子通常以各种加工状态存在。在一个例子中，未经加工的指导RNA是36nt的DR，然后是30-32nt的间隔子。通过Cas l3d本身或其他RNA酶将指导RNA加工成更短的“成熟”形式。在一些实施方案中，未经加工的指导序列的长度是约或至少约30、35、40、45、50、55、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75或更多个核苷酸(nt)。在一些实施方案中，经加工的指导序列是约44至60nt(如40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69或70nt)。在一些实施方案中，未经加工的间隔子是约28-32nt长(如25、26、27、28、29、30、31、32、33、34或35nt)，而成熟的(经加工的)间隔子可以是约10至30nt、10至25nt、14至25nt、20至22nt或14-30nt(如10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35nt)。在一些实施方案中，未经加工的DR是约36nt(如30、31、32、33、34、35、36、37、38、39、40或41nt)，而经加工的DR是约30nt(如25、26、27、28、29、30、31、32、33、34或35nt)。在一些实施方案中，DR序列在例如5’端被截短1-10个核苷酸(如1、2、3、4、5、6、7、8、9至10个核苷酸)以被表达为成熟的加工前指导RNA。

在本公开文本的组合物的一些实施方案中，指导RNA或其部分不包含核定位序列(NLS)。

在本公开文本的组合物的一些实施方案中，指导RNA或其部分包含与原间隔子侧翼序列(PFS)互补的序列。在一些实施方案(包括其中指导RNA或其部分包含与PFS互补的序列的那些实施方案)中，第一RNA结合蛋白可以包含从Cas13蛋白分离或衍生的序列。在一些实施方案(包括其中指导RNA或其部分包含与PFS互补的序列的那些实施方案)中，第一RNA结合蛋白可以包含编码Cas13蛋白或其RNA结合部分的序列。在一些实施方案中，所述指导RNA或其部分不包含与PFS互补的序列。

在本公开文本的组合物的一些实施方案中，包含本公开文本的指导RNA序列的载体包含用于驱动指导RNA的表达的启动子序列。在一些实施方案中，包含本公开文本的指导RNA序列的载体包含用于驱动指导RNA的表达的启动子序列。在一些实施方案中，用于驱动指导RNA的表达的启动子是组成型启动子。在一些实施方案中，所述启动子序列是诱导型启动子。在一些实施方案中，所述启动子是序列是组织特异性和/或细胞类型特异性启动子。在一些实施方案中，所述启动子是杂合启动子或重组启动子。在一些实施方案中，所述启动子是能够在哺乳动物细胞中表达指导RNA的启动子。在一些实施方案中，所述启动子是能够在人细胞中表达指导RNA的启动子。在一些实施方案中，所述启动子是能够表达指导RNA并将指导RNA限制于细胞核的启动子。在一些实施方案中，所述启动子是人RNA聚合酶启动子或从编码人RNA聚合酶启动子的序列分离或衍生的序列。在一些实施方案中，所述启动子是U6启动子或从编码U6启动子的序列分离或衍生的序列。在一些实施方案中，所述U6启动子是人U6启动子。在一些实施方案中，所述启动子是人tRNA启动子或从编码人tRNA启动子的序列分离或衍生的序列。在一些实施方案中，所述启动子是人缬氨酸tRNA启动子或从编码人缬氨酸tRNA启动子的序列分离或衍生的序列。

在本公开文本的组合物的一些实施方案中，用于驱动指导RNA的表达的启动子还包含调节元件。在一些实施方案中，包含用于驱动指导RNA的表达的启动子序列的载体还包含调节元件。在一些实施方案中，调节元件增强指导RNA的表达。示例性调节元件包括但不限于增强子元件、内含子、外显子或其组合。

在本公开文本的组合物的一些实施方案中，本公开文本的载体包含编码指导RNA的序列、用于驱动指导RNA的表达的启动子序列和编码调节元件的序列中的一种或多种。在本公开文本的组合物的一些实施方案中，所述载体还包含编码本公开文本的融合蛋白的序列。

RNA指导的RNA结合蛋白

在本公开文本的组合物的一些实施方案中，gRNA对应于靶RNA分子和RNA指导的RNA结合蛋白。在一些实施方案中，gRNA对应于RNA指导的RNA结合融合蛋白，其中所述融合蛋白包含第一RNA结合蛋白和第二RNA结合蛋白。在一些实施方案中，所述融合蛋白中的第一RNA结合蛋白是失活的RNA结合蛋白，例如失活的Cas或无催化活性的Cas蛋白。在一些实施方案中，沿着编码RNA结合融合蛋白的序列，编码第一RNA结合蛋白的序列定位于编码第二RNA结合蛋白的序列的5’。在一些实施方案中，沿着编码融合蛋白的序列，编码第一RNA结合蛋白的序列定位于编码第二RNA结合蛋白的序列的3’。

在本公开文本的组合物的一些实施方案中，编码第一RNA结合蛋白的序列包含从蛋白质分离或衍生的序列，所述蛋白质能够结合RNA分子。在一些实施方案中，编码第一RNA结合蛋白的序列包含从蛋白质分离或衍生的序列，所述蛋白质能够选择性结合RNA分子，并且不结合DNA分子、哺乳动物DNA分子或任何DNA分子。在一些实施方案中，编码第一RNA结合蛋白的序列包含从蛋白质分离或衍生的序列，所述蛋白质能够结合RNA分子，并且诱导所述RNA分子中的断裂。在一些实施方案中，编码第一RNA结合蛋白的序列包含从蛋白质分离或衍生的序列，所述蛋白质能够结合RNA分子，诱导所述RNA分子中的断裂，并且不结合DNA分子、哺乳动物DNA分子或任何DNA分子。在一些实施方案中，编码第一RNA结合蛋白的序列包含从蛋白质分离或衍生的序列，所述蛋白质能够结合RNA分子，诱导所述RNA分子中的断裂，并且既不结合DNA分子、哺乳动物DNA分子或任何DNA分子，也不诱导所述DNA分子中的断裂。

在本公开文本的组合物的一些实施方案中，编码第一RNA指导的RNA结合蛋白的序列包含从没有DNA核酸酶活性的蛋白质分离或衍生的序列。

在本公开文本的组合物的一些实施方案中，编码本文公开的RNA指导的RNA结合蛋白的序列包含从CRISPR Cas蛋白分离或衍生的序列。在一些实施方案中，CRISPR Cas蛋白不是II型CRISPR Cas蛋白。在一些实施方案中，CRISPR Cas蛋白不是Cas9蛋白。

在本公开文本的组合物的一些实施方案中，编码RNA指导的RNA结合蛋白的序列包含VI型CRISPR Cas蛋白或其部分。在一些实施方案中，所述VI型CRISPR Cas蛋白包含Cas13蛋白或其部分。本公开文本的示例性Cas13蛋白可以从任何物种分离或衍生，所述物种包括但不限于细菌或古生菌。本公开文本的示例性Cas13蛋白可以从任何物种分离或衍生，所述物种包括但不限于韦德纤毛菌(Leptotrichia wadei)、西尔李斯特菌血清变型(Listeriaseeligeri serovar)1/2b(菌株ATCC 35967/DSM 20751/CIP 100100/SLCC 3954)、毛螺科细菌、嗜氨基梭菌(Clostridium aminophilum)DSM 10710、鸡肉杆菌(Carnobacteriumgallinarum)DSM 4847、产丙酸沼杆菌(Paludibacter propionicigenes)WB4、韦氏李斯特菌(Listeria weihenstephanensis)FSL R9-0317、韦氏李斯特菌FSL R9-0317、细菌FSLM6-0635(纽约李斯特菌(Listeria newyorkensis))、韦德纤毛菌F0279、荚膜红细菌(Rhodobacter capsulatus)SB 1003、荚膜红细菌R121、荚膜红细菌DE442和溃疡棒状杆菌(Corynebacterium ulcerans)。本公开文本的示例性Cas13蛋白可以是DNA核酸酶失活的。本公开文本的示例性Cas13蛋白包括但不限于Cas13a、Cas13b、Cas13c、Cas13d及其直向同源物。本公开文本的示例性Cas13b蛋白包括但不限于亚型1和2，在本文中分别称为Csx27和Csx28。

示例性Cas13a蛋白包括但不限于：

/>

本公开文本的示例性野生型Cas13a蛋白可以包含SEQ ID NO:408的氨基酸序列或由其组成。

示例性Cas13b蛋白包括但不限于：

/>

本公开文本的示例性野生型动物溃疡伯格菌ATCC 43767Cas13b(BzCas13b)蛋白可以包含SEQ ID NO:409的氨基酸序列或由其组成。

在本公开文本的组合物的一些实施方案中，编码RNA结合蛋白的序列包含从Cas13d蛋白分离或衍生的序列。Cas13d是VI-D型CRISPR-Cas系统的效应子。在一些实施方案中，Cas13d蛋白是可以切割或结合RNA的RNA指导的RNA核酸内切酶。在一些实施方案中，Cas13d蛋白可以包含一个或多个高等真核生物和原核生物核苷酸结合(HEPN)结构域。在一些实施方案中，Cas13d蛋白可以包含野生型或突变的HEPN结构域。在一些实施方案中，Cas13d蛋白包含无法切割RNA但可以加工指导RNA的突变的HEPN结构域。在一些实施方案中，Cas13d蛋白不需要原间隔子侧翼序列。在没有限制的情况下，关于Cas13d蛋白的其他例子和序列还参见WO公开号WO2019/040664和US2019/0062724，将其通过引用以其整体并入本文。

在一些实施方案中，本公开文本的Cas13d序列包括但不限于WO 2019/040664的SEQ ID NO:1-296，在本文中也是如此编号的并且如此包含在本文内。

SEQ ID NO:1是来自惰性真杆菌(Eubacterium siraeum)的含有HEPN位点的示例性Cas13d序列。

SEQ ID NO:2是来自惰性真杆菌的含有突变的HEPN位点的示例性Cas13d序列。

SEQ ID NO:3是来自未培养的瘤胃球菌属属物种(Ruminococcus sp.)的含有HEPN位点的示例性Cas13d序列。

SEQ ID NO:4是来自未培养的瘤胃球菌属物种的含有突变的HEPN位点的示例性Cas13d序列。

SEQ ID NO:5是来自肠道_宏基因组_重叠群2791000549的示例性Cas13d序列。

SEQ ID NO:6是来自肠道_宏基因组_重叠群855000317的示例性Cas13d序列。

SEQ ID NO:7是来自肠道_宏基因组_重叠群3389000027的示例性Cas13d序列。

SEQ ID NO:8是来自肠道_宏基因组_重叠群8061000170的示例性Cas13d序列。

SEQ ID NO:9是来自肠道_宏基因组_重叠群l509000299的示例性Cas13d序列。

SEQ ID NO:10是来自肠道_宏基因组_重叠群9549000591的示例性Cas13d序列。

SEQ ID NO:11是来自肠道_宏基因组_重叠群71000500的示例性Cas13d序列。

SEQ ID NO:12是来自人肠道宏基因组的示例性Cas13d序列。

SEQ ID NO:13是来自肠道_宏基因组_重叠群3915000357的示例性Cas13d序列。

SEQ ID NO:14是来自肠道_宏基因组_重叠群4719000173的示例性Cas13d序列。

SEQ ID NO:15是来自肠道_宏基因组_重叠群6929000468的示例性Cas13d序列。

SEQ ID NO:16是来自肠道_宏基因组_重叠群7367000486的示例性Cas13d序列。

SEQ ID NO:17是来自肠道_宏基因组_重叠群7930000403的示例性Cas13d序列。

SEQ ID NO:18是来自肠道_宏基因组_重叠群993000527的示例性Cas13d序列。

SEQ ID NO:19是来自肠道_宏基因组_重叠群6552000639的示例性Cas13d序列。

SEQ ID NO:20是来自肠道_宏基因组_重叠群ll932000246的示例性Cas13d序列。

SEQ ID NO:21是来自肠道_宏基因组_重叠群l2963000286的示例性Cas13d序列。

SEQ ID NO:22是来自肠道_宏基因组_重叠群2952000470的示例性Cas13d序列。

SEQ ID NO:23是来自肠道_宏基因组_重叠群451000394的示例性Cas13d序列。

SEQ ID NO:24是来自惰性真杆菌_DSM_l5702的示例性Cas13d序列。

SEQ ID NO:25是来自肠道_宏基因组_P19E0k2120140920,_c369000003的示例性Cas13d序列。

SEQ ID NO:26是来自肠道_宏基因组_重叠群7593000362的示例性Cas13d序列。

SEQ ID NO:27是来自肠道_宏基因组_重叠群l2619000055的示例性Cas13d序列。

SEQ ID NO:28是来自肠道_宏基因组_重叠群l405000151的示例性Cas13d序列。

SEQ ID NO:29是来自鸡_肠道_宏基因组_c298474的示例性Cas13d序列。

SEQ ID NO:30是来自肠道_宏基因组_重叠群l516000227的示例性Cas13d序列。

SEQ ID NO:31是来自肠道_宏基因组_重叠群l838000319的示例性Cas13d序列。

SEQ ID NO:32是来自肠道_宏基因组_重叠群13123000268的示例性Cas13d序列。

SEQ ID NO:33是来自肠道_宏基因组_重叠群5294000434的示例性Cas13d序列。

SEQ ID NO:34是来自肠道_宏基因组_重叠群6415000192的示例性Cas13d序列。

SEQ ID NO:35是来自肠道_宏基因组_重叠群6144000300的示例性Cas13d序列。

SEQ ID NO:36是来自肠道_宏基因组_重叠群9118000041的示例性Cas13d序列。

SEQ ID NO:37是来自活性_污泥_宏基因组_转录物_124486的示例性Cas13d序列。

SEQ ID NO:38是来自肠道_宏基因组_重叠群1322000437的示例性Cas13d序列。

SEQ ID NO:39是来自肠道_宏基因组_重叠群4582000531的示例性Cas13d序列。

SEQ ID NO:40是来自肠道_宏基因组_重叠群9190000283的示例性Cas13d序列。

SEQ ID NO:41是来自肠道_宏基因组_重叠群l709000510的示例性Cas13d序列。

SEQ ID NO:42是来自具有HEPN结构域的M24_(LSQX01212483_厌氧_消化器_宏基因组)的示例性Cas13d序列。

SEQ ID NO:43是来自肠道_宏基因组_重叠群3833000494的示例性Cas13d序列。

SEQ ID NO:44是来自活性_污泥_宏基因组_转录物_117355的示例性Cas13d序列。

SEQ ID NO:45是来自肠道_宏基因组_重叠群ll061000330的示例性Cas13d序列。

SEQ ID NO:46是来自绵羊肠道宏基因组的肠道_宏基因组_重叠群338000322的示例性Cas13d序列。

SEQ ID NO:47是来自人肠道宏基因组的示例性Cas13d序列。

SEQ ID NO:48是来自肠道_宏基因组_重叠群9530000097的示例性Cas13d序列。

SEQ ID NO:49是来自肠道_宏基因组_重叠群l750000258的示例性Cas13d序列。

SEQ ID NO:50是来自肠道_宏基因组_重叠群5377000274的示例性Cas13d序列。

SEQ ID NO:51是来自肠道_宏基因组_P19E0k2120140920_c248000089的示例性Cas13d序列。

SEQ ID NO:52是来自肠道_宏基因组_重叠群ll400000031的示例性Cas13d序列。

SEQ ID NO:53是来自肠道_宏基因组_重叠群7940000191的示例性Cas13d序列。

SEQ ID NO:54是来自肠道_宏基因组_重叠群6049000251的示例性Cas13d序列。

SEQ ID NO:55是来自肠道_宏基因组_重叠群l137000500的示例性Cas13d序列。

SEQ ID NO:56是来自肠道_宏基因组_重叠群9368000105的示例性Cas13d序列。

SEQ ID NO:57是来自肠道_宏基因组_重叠群546000275的示例性Cas13d序列。

SEQ ID NO:58是来自肠道_宏基因组_重叠群7216000573的示例性Cas13d序列。

SEQ ID NO:59是来自肠道_宏基因组_重叠群4806000409的示例性Cas13d序列。

SEQ ID NO:60是来自肠道_宏基因组_重叠群l0762000480的示例性Cas13d序列。

SEQ ID NO:61是来自肠道_宏基因组_重叠群4114000374的示例性Cas13d序列。

SEQ ID NO:62是来自生黄瘤胃球菌(Ruminococcus_flavefaciens)_FD1的示例性Cas13d序列。

SEQ ID NO:63是来自肠道_宏基因组_重叠群7093000170的示例性Cas13d序列。

SEQ ID NO:64是来自肠道_宏基因组_重叠群l1113000384的示例性Cas13d序列。

SEQ ID NO:65是来自肠道_宏基因组_重叠群6403000259的示例性Cas13d序列。

SEQ ID NO:66是来自肠道_宏基因组_重叠群6193000124的示例性Cas13d序列。

SEQ ID NO:67是来自肠道_宏基因组_重叠群721000619的示例性Cas13d序列。

SEQ ID NO:68是来自肠道_宏基因组_重叠群l666000270的示例性Cas13d序列。

SEQ ID NO:69是来自肠道_宏基因组_重叠群2002000411的示例性Cas13d序列。

SEQ ID NO:70是来自白色瘤胃球菌(Ruminococcus_albus)的示例性Cas13d序列。

SEQ ID NO:71是来自肠道_宏基因组_重叠群13552000311的示例性Cas13d序列。

SEQ ID NO:72是来自肠道_宏基因组_重叠群l0037000527的示例性Cas13d序列。

SEQ ID NO:73是来自肠道_宏基因组_重叠群238000329的示例性Cas13d序列。

SEQ ID NO:74是来自肠道_宏基因组_重叠群2643000492的示例性Cas13d序列。

SEQ ID NO:75是来自肠道_宏基因组_重叠群874000057的示例性Cas13d序列。

SEQ ID NO:76是来自肠道_宏基因组_重叠群4781000489的示例性Cas13d序列。

SEQ ID NO:77是来自肠道_宏基因组_重叠群l2144000352的示例性Cas13d序列。

SEQ ID NO:78是来自肠道_宏基因组_重叠群5590000448的示例性Cas13d序列。

SEQ ID NO:79是来自肠道_宏基因组_重叠群9269000031的示例性Cas13d序列。

SEQ ID NO:80是来自肠道_宏基因组_重叠群8537000520的示例性Cas13d序列。

SEQ ID NO:81是来自肠道_宏基因组_重叠群l845000130的示例性Cas13d序列。

SEQ ID NO:82是来自肠道_宏基因组_P13E0k2l20140920_c3000072的示例性Cas13d序列。

SEQ ID NO:83是来自肠道_宏基因组_P1 E0k2l20140920_c I000078的示例性Cas13d序列。

SEQ ID NO:84是来自肠道_宏基因组_重叠群l2990000099的示例性Cas13d序列。

SEQ ID NO:85是来自肠道_宏基因组_重叠群525000349的示例性Cas13d序列。

SEQ ID NO:86是来自肠道_宏基因组_重叠群7229000302的示例性Cas13d序列。

SEQ ID NO:87是来自肠道_宏基因组_重叠群3227000343的示例性Cas13d序列。

SEQ ID NO:88是来自肠道_宏基因组_重叠群7030000469的示例性Cas13d序列。

SEQ ID NO:89是来自肠道_宏基因组_重叠群5149000068的示例性Cas13d序列。

SEQ ID NO:90是来自肠道_宏基因组_重叠群400200045的示例性Cas13d序列。

SEQ ID NO:91是来自肠道_宏基因组_重叠群l0420000446的示例性Cas13d序列。

SEQ ID NO:92是来自新_生黄瘤胃球菌(flavefaciens)_菌株_XPD3002的示例性Cas13d序列(CasRx)。

SEQ ID NO:93是来自M26_肠道_宏基因组_重叠群698000307的示例性Cas13d序列。

SEQ ID NO:94是来自M36_未培养的_真杆菌属物种(Eubacterium_sp)_TS28_c40956的示例性Cas13d序列。

SEQ ID NO:95是来自M12_肠道_宏基因组_P25C0k2l20140920_c134000066的示例性Cas13d序列。

SEQ ID NO:96是来自人肠道宏基因组的示例性Cas13d序列。

SEQ ID NO:97是来自MlO_肠道_宏基因组_P25C90k2120 l 40920_c2800004l的示例性Cas13d序列。

SEQ ID NO:98是来自30Ml I_肠道_宏基因组_P25C7k2120140920_c4078000105的示例性Cas13d序列。

SEQ ID NO:99是来自肠道_宏基因组_P25C0k2120l40920_c32000045的示例性Cas13d序列。

SEQ ID NO:100是来自M13_肠道_宏基因组_P23C7k2l20140920_c3000067的示例性Cas13d序列。

SEQ ID NO:101是来自M5_肠道_宏基因组_Pl8E90k2120140920的示例性Cas13d序列。

SEQ ID NO:102是来自M2l_肠道_宏基因组_Pl8E0k2120140920的示例性Cas13d序列。

SEQ ID NO:103是来自M7_肠道_宏基因组_P38C7k2120 l 40920_c484 l 000003的示例性Cas13d序列。

SEQ ID NO:104是来自双环瘤胃球菌(Ruminococcus_bicirculans)的示例性Cas13d序列。

SEQ ID NO:105是示例性Cas13d序列。

SEQ ID NO:106是示例性Cas13d共有序列。

SEQ ID NO:107是来自M18_肠道_宏基因组_P22EOk2l20140920_c3395000078的示例性Cas13d序列。

SEQ ID NO:108是来自M17_肠道_宏基因组_P22E90k2120140920_c114的示例性Cas13d序列。

SEQ ID NO:109是来自瘤胃球菌属_物种_CAG57的示例性Cas13d序列。

SEQ ID NO:110是来自肠道_宏基因组_Pl 1E90k2120 l 40920_c43000123的示例性Cas13d序列。

SEQ ID NO:111是来自M6_肠道_宏基因组_P13E90k2120 l 40920_c7000009的示例性Cas13d序列。

SEQ ID NO:112是来自Ml9_肠道_宏基因组_Pl 7E90k2120140920的示例性Cas13d序列。

SEQ ID NO:113是来自肠道_宏基因组_Pl7E0k2120l40920,_c87000043的示例性Cas13d序列。

SEQ ID NO:114是示例性人密码子优化的惰性真杆菌Cas13d核酸序列。

SEQ ID NO:115是具有突变型HEPN结构域的示例性人密码子优化的惰性真杆菌Cas13d核酸序列。

SEQ ID NO:116是具有N末端NLS的示例性人密码子优化的惰性真杆菌Cas13d核酸序列。

SEQ ID NO:117是具有N末端和C末端NLS标签的示例性人密码子优化的惰性真杆菌Cas13d核酸序列。

SEQ ID NO:118是示例性人密码子优化的未培养的瘤胃球菌属物种Cas13d 30核酸序列。

SEQ ID NO:119是具有突变型HEPN结构域的示例性人密码子优化的未培养的瘤胃球菌属物种Cas13d核酸序列。

SEQ ID NO:120是具有N末端NLS的示例性人密码子优化的未培养的瘤胃球菌属物种Cas13d核酸序列。

SEQ ID NO:121是具有N末端和C末端NLS标签的示例性人密码子优化的未培养的瘤胃球菌属物种Cas13d核酸序列。

SEQ ID NO:122是示例性人密码子优化的未培养的生黄瘤胃球菌FDl Cas13d核酸序列。

SEQ ID NO:123是具有突变的HEPN结构域的示例性人密码子优化的未培养的生黄瘤胃球菌FDl Casl3d核酸序列。

SEQ ID NO:124是来自双环瘤胃球菌的示例性Cas13d核酸序列。

SEQ ID NO:125是来自惰性真杆菌的示例性Cas13d核酸序列。

SEQ ID NO:126是来自生黄瘤胃球菌FD1的示例性Cas13d核酸序列。

SEQ ID NO:127是来自白色瘤胃球菌的示例性Cas13d核酸序列。

SEQ ID NO:128是来自生黄瘤胃球菌XPD的示例性Cas13d核酸序列。

SEQ ID NO:129是惰性真杆菌(E.siraeum)Cas13d的示例性共有DR核酸序列。

SEQ ID NO:130是瘤胃球菌属物种(Rum.Sp.)Cas13d的示例性共有DR核酸序列。

SEQ ID NO:131是生黄瘤胃球菌(Rum.Flavefaciens)菌株XPD3002 Cas13d(CasRx)的示例性共有DR核酸序列。

SEQ ID NO:132-137是示例性共有DR核酸序列。

SEQ ID NO:138是七个全长Cas13d直向同源物的示例性50％共有序列。

SEQ ID NO:139是来自肠道宏基因组PlEO的示例性Cas13d核酸序列。

SEQ ID NO:140是来自厌氧消化器的示例性Cas13d核酸序列。

SEQ ID NO:141是来自瘤胃球菌属物种CAG:57的示例性Cas13d核酸序列。

SEQ ID NO:142是示例性人密码子优化的未培养的肠道宏基因组PlEO Cas13d核酸序列。

SEQ ID NO:143是示例性人密码子优化的厌氧消化器Cas13d核酸序列。

SEQ ID NO:144是示例性人密码子优化的生黄瘤胃球菌XPD Cas13d核酸序列。

SEQ ID NO:145是示例性人密码子优化的白色瘤胃球菌Cas13d核酸序列。

SEQ ID NO:146是瘤胃球菌属物种CAG:57CRISPR阵列的示例性加工。

SEQ ID NO:147是来自重叠群emb|OBVH01003037.l，人肠道宏基因组序列(也发现于WGS重叠群emb|OBXZ01000094.l|和emb|OBJFO1000033.1)的示例性Cas13d蛋白序列。

SEQ ID NO:148是示例性共有DR核酸序列(与SEQ ID NO:147一起)。

SEQ ID NO:149是来自重叠群tpg|DBYI01000091.l|(从牛肠道宏基因组组装的未培育的生黄瘤胃球菌UBA1190)的示例性Cas13d蛋白序列。

SEQ ID NO:150-152是示例性共有DR核酸序列(与SEQ ID NO:149一起)。

SEQ ID NO:153是来自重叠群tpg|DJXD01000002.l|(未培育的瘤胃球菌组装，UBA7013，来自绵羊肠道宏基因组)的示例性Cas13d蛋白序列。

SEQ ID NO:154是示例性共有DR核酸序列(与SEQ ID NO:153一起)。

SEQ ID NO:155是来自重叠群OGZC01000639.l(人肠道宏基因组组装)的示例性Cas13d蛋白序列。

SEQ ID NO:156-177是示例性共有DR核酸序列(与SEQ ID NO:155一起)。

SEQ ID NO:158是来自重叠群emb|OHBM01000764.l(人肠道宏基因组组装)的示例性Cas13d蛋白序列。

SEQ ID NO:159是示例性共有DR核酸序列(与SEQ ID NO:158一起)。

SEQ ID NO:160是来自重叠群emb|0HCP01000044.l(人肠道宏基因组组装)的示例性Cas13d蛋白序列。

SEQ ID NO:161是示例性共有DR核酸序列(与SEQ ID NO:160一起)。

SEQ ID NO:162是来自重叠群embl0GDF01008514.l|(人肠道宏基因组组装)的示例性Cas13d蛋白序列。

SEQ ID NO:163是示例性共有DR核酸序列(与SEQ ID NO:162一起)。

SEQ ID NO:164是来自重叠群emb|0GPN01002610.l(人肠道宏基因组组装)的示例性Cas13d蛋白序列。

SEQ ID NO:165是示例性共有DR核酸序列(与SEQ ID NO:164一起)。

SEQ ID NO:166是来自重叠群NFIR01000008.l(真杆菌属物种An3，来自鸡肠道宏基因组)的示例性Cas13d蛋白序列。

SEQ ID NO:167是示例性共有DR核酸序列(与SEQ ID NO:166一起)。

SEQ ID NO:168是来自重叠群NFLV01000009.l(来自鸡肠道宏基因组的真杆菌属物种An11)的示例性Cas13d蛋白序列。

SEQ ID NO:169是示例性共有DR核酸序列(与SEQ ID NO:168一起)。

SEQ ID NO:171-174是示例性Cas13d基序序列。

SEQ ID NO:175是来自重叠群OJMM01002900人肠道宏基因组序列的示例性Cas13d蛋白序列。

SEQ ID NO:176是示例性共有DR核酸序列(与SEQ ID NO:175一起)。

SEQ ID NO:177是来自重叠群ODAI011611274.l肠道宏基因组序列的示例性Cas13d蛋白序列。

SEQ ID NO:178是示例性共有DR核酸序列(与SEQ ID NO:177一起)。

SEQ ID NO:179是来自重叠群OIZX01000427.l的示例性Cas13d蛋白序列。

SEQ ID NO:180是示例性共有DR核酸序列(与SEQ ID NO:179一起)。

SEQ ID NO:181是来自重叠群emb|OCVV012889144.l|的示例性Cas13d蛋白序列。

SEQ ID NO:182是示例性共有DR核酸序列(与SEQ ID NO:181一起)。

SEQ ID NO:183是来自重叠群OCTW011587266.l的示例性Cas13d蛋白序列。

SEQ ID NO:184是示例性共有DR核酸序列(与SEQ ID NO:183一起)。

SEQ ID NO:185是来自重叠群emb|OGNFO 1009141.1的示例性Cas13d蛋白序列。

SEQ ID NO:186是示例性共有DR核酸序列(与SEQ ID NO:185一起)。

SEQ ID NO:187是来自重叠群emb|OIEN01002l96.l的示例性Cas13d蛋白序列。

SEQ ID NO:188是示例性共有DR核酸序列(与SEQ ID NO:187一起)。

SEQ ID NO:189是来自重叠群e-k87_11092736的示例性Cas13d蛋白序列。

SEQ ID NO:190-193是示例性共有DR核酸序列(与SEQ ID NO:189一起)。

SEQ ID NO:194是来自肠道_宏基因组_重叠群6893000291的示例性Cas13d序列。

SEQ ID NO:195-197是示例性Cas13d基序序列。

SEQ ID NO:198是来自Ga0224415_10007274的示例性Cas13d蛋白序列。

SEQ ID NO:199是示例性共有DR核酸序列(与SEQ ID NO:198一起)。

SEQ ID NO:200是来自EMG_l0003641的示例性Cas13d蛋白序列。

SEQ ID NO:202是来自Ga0129306_1000735的示例性Cas13d蛋白序列。

SEQ ID NO:201是示例性共有DR核酸序列(与SEQ ID NO:200一起)。

SEQ ID NO:202是来自Ga0129306_1000735的示例性Cas13d蛋白序列。

SEQ ID NO:203是示例性共有DR核酸序列(与SEQ ID NO:203一起)。

SEQ ID NO:204是来自GaO129317_l 008067的示例性Cas13d蛋白序列。

SEQ ID NO:205是示例性共有DR核酸序列(与SEQ ID NO:204一起)。

SEQ ID NO:206是来自Ga0224415_10048792的示例性Cas13d蛋白序列。

SEQ ID NO:207是示例性共有DR核酸序列(与SEQ ID NO:206一起)。

SEQ ID NO:208是来自160582958_基因49834的示例性Cas13d蛋白序列。

SEQ ID NO:209是示例性共有DR核酸序列(与SEQ ID NO:208一起)。

SEQ ID NO:210是来自250twins_35838_GL0110300的示例性Cas13d蛋白序列。

SEQ ID NO:211是示例性共有DR核酸序列(与SEQ ID NO:210一起)。

SEQ ID NO:212是来自250twins_36050_GLOI58985的示例性Cas13d蛋白序列。

SEQ ID NO:213是示例性共有DR核酸序列(与SEQ ID NO:212一起)。

SEQ ID NO:214是来自31009_GL0034153的示例性Cas13d蛋白序列。

SEQ ID NO:215是示例性共有DR核酸序列(与SEQ ID NO:214一起)。

SEQ ID NO:216是来自530373_GL0023589的示例性Cas13d蛋白序列。

SEQ ID NO:217是示例性共有DR核酸序列(与SEQ ID NO:216一起)。

SEQ ID NO:218是来自BMZ-l 1B_GL0037771的示例性Cas13d蛋白序列。

SEQ ID NO:219是示例性共有DR核酸序列(与SEQ ID NO:218一起)。

SEQ ID NO:220是来自BMZ-l 1B_GL0037915的示例性Cas13d蛋白序列。

SEQ ID NO:221是示例性共有DR核酸序列(与SEQ ID NO:220一起)。

SEQ ID NO:222是来自BMZ-l 1B_GL00696 l 7的示例性Cas13d蛋白序列。

SEQ ID NO:223是示例性共有DR核酸序列(与SEQ ID NO:222一起)。

SEQ ID NO:224是来自DLF014_GL0011914的示例性Cas13d蛋白序列。

SEQ ID NO:225是示例性共有DR核酸序列(与SEQ ID NO:224一起)。

SEQ ID NO:226是来自EYZ-362B_GL0088915的示例性Cas13d蛋白序列。

SEQ ID NO:227-228是示例性共有DR核酸序列(与SEQ ID NO:226一起)。

SEQ ID NO:229是来自Ga0099364 10024192的示例性Cas13d蛋白序列。

SEQ ID NO:230是示例性共有DR核酸序列(与SEQ ID NO:229一起)。

SEQ ID NO:231是来自Ga0187910_10006931的示例性Cas13d蛋白序列。

SEQ ID NO:232是示例性共有DR核酸序列(与SEQ ID NO:231一起)。

SEQ ID NO:233是来自Ga0187910_10015336的示例性Cas13d蛋白序列。

SEQ ID NO:234是示例性共有DR核酸序列(与SEQ ID NO:233一起)。

SEQ ID NO:235是来自Ga0187910_10040531的示例性Cas13d蛋白序列。

SEQ ID NO:236是示例性共有DR核酸序列(与SEQ ID NO:23一起)。

SEQ ID NO:237是来自Ga0187911_10069260的示例性Cas13d蛋白序列。

SEQ ID NO:238是示例性共有DR核酸序列(与SEQ ID NO:237一起)。

SEQ ID NO:239是来自MH0288_GL0082219的示例性Cas13d蛋白序列。

SEQ ID NO:240是示例性共有DR核酸序列(与SEQ ID NO:239一起)。

SEQ ID NO:241是来自O2.UC29-0_GL0096317的示例性Cas13d蛋白序列。

SEQ ID NO:242是示例性共有DR核酸序列(与SEQ ID NO:241一起)。

SEQ ID NO:243是来自PIG-014_GL0226364的示例性Cas13d蛋白序列。

SEQ ID NO:244是示例性共有DR核酸序列(与SEQ ID NO:243一起)。

SEQ ID NO:245是来自PIG-018_GL0023397的示例性Cas13d蛋白序列。

SEQ ID NO:246是示例性共有DR核酸序列(与SEQ ID NO:245一起)。

SEQ ID NO:247是来自PIG-025_GL0099734的示例性Cas13d蛋白序列。

SEQ ID NO:248是示例性共有DR核酸序列(与SEQ ID NO:247一起)。

SEQ ID NO:249是来自PIG-028_GL0185479的示例性Cas13d蛋白序列。

SEQ ID NO:250是示例性共有DR核酸序列(与SEQ ID NO:249一起)。

SEQ ID NO:251是来自Ga0224422_10645759的示例性Cas13d蛋白序列。

SEQ ID NO:252是示例性共有DR核酸序列(与SEQ ID NO:251一起)。

SEQ ID NO:253是来自ODAI嵌合体的示例性Cas13d蛋白序列。

SEQ ID NO:254是示例性共有DR核酸序列(与SEQ ID NO:253一起)。

SEQ ID NO:255是HEPN基序。

SEQ ID NO:256和257分别是示例性Cas13d核定位信号氨基酸序列和核酸序列。

SEQ ID NO:258和260分别是示例性SV40大T抗原核定位信号氨基酸序列和核酸序列。

SEQ ID NO:259是dCas9靶序列。

SEQ ID NO:261是靶向ccdB的人工惰性真杆菌nCasl阵列。

SEQ ID NO:262是完整的36nt同向重复。

SEQ ID NO:263-266是间隔子序列。

SEQ ID NO:267是靶向ccdB的人工未培养的瘤胃球菌属物种(Ruminoccussp.)nCasl阵列。

SEQ ID NO:268是完整的36nt同向重复。

SEQ ID NO:269-272是间隔子序列。

SEQ ID NO:273是ccdB靶RNA序列。

SEQ ID NO:274-277是间隔子序列。

SEQ ID NO:278是突变的Cas13d序列，NLS-Ga_053l(trunc)-NLS-HA。此突变体具有非保守N末端的缺失。

SEQ ID NO:279是突变的Cas13d序列，NES-Ga_053l(trunc)-NES-HA。此突变体具有非保守N末端的缺失。

SEQ ID NO:280是全长Cas13d序列，NLS-RfxCas13d-NLS-HA。

SEQ ID NO:281是突变的Cas13d序列，NLS-RfxCas13d(del5)-NLS-HA。此突变体具有氨基酸558-587的缺失。

SEQ ID NO:282是突变的Cas13d序列，NLS-RfxCas13d(del5.12)-NLS-HA。此突变体具有氨基酸558-587和953-966的缺失。

SEQ ID NO:283是突变的Cas13d序列，NLS-RfxCas13d(del5.13)-NLS-HA。此突变体具有氨基酸376-392和558-587的缺失。

SEQ ID NO:284是突变的Cas13d序列，NLS-RfxCas13d(del5.12+5.13)-NLS-HA。此突变体具有氨基酸376-392、558-587和953-966的缺失。

SEQ ID NO:285是突变的Cas13d序列，NLS-RfxCas13d(dell3)-NLS-HA。此突变体具有氨基酸376-392的缺失。

SEQ ID NO:286是用于编辑ADAR2的表达的效应子序列。氨基酸1至969是dRfxCas13，aa 970至991是NLS序列，并且氨基酸992至1378是ADAR2DD。

SEQ ID NO:287是示例性HIV NES蛋白序列。

SEQ ID NO:288-291是示例性Cas13d基序序列。

SEQ ID NO:292是Cas13d直向同源序列MH_4866。

SEQ ID NO:293是来自037_-_emblOIZA01000315.ll的示例性Cas13d蛋白序列。

SEQ ID NO:294是来自PIG-022GL002635l的示例性Cas13d蛋白序列。

SEQ ID NO:295是来自PIG-046_GL0077813的示例性Cas13d蛋白序列。

SEQ ID NO:296是来自猪_嵌合体(pig_chimera)的示例性Cas13d蛋白序列。

SEQ ID NO:297是来自生黄瘤胃球菌XPD3002(CasRx)的示例性核酸酶失活或无核酸酶活性的Cas13d(dCas13d)蛋白。

SEQ ID NO:298是示例性Cas13d蛋白序列。

SEQ ID NO:299是来自(重叠群tpg|DJXD01000002.1|；未培育的瘤胃球菌组装，UBA7013，来自绵羊肠道宏基因组)的示例性Cas13d蛋白序列。

SEQ ID NO:300是来自Cas13d(重叠群tpg|DJXD01000002.1|；未培育的瘤胃球菌组装，UBA7013，来自绵羊肠道宏基因组)的示例性Cas13d同向重复核苷酸序列(与SEQ IDNO:299一起)。

SEQ ID NO:301是示例性Cas13d蛋白重叠群emb|OBLI01020244。

Yan等人(2018)Mol Cell.70(2):327-339(doi:10.1016/j.molcel.2018.02.2018)和Konermann等人(2018)Cell 173(3):665-676(doi:10.1016/j.cell/2018.02.033)已经描述了Cas13d蛋白，并且将这两者均通过引用以其整体并入本文。还参见WO公开号WO2018/183403(CasM，其是Cas13d)和WO2019/006471(Cas13d)，将其通过引用以其整体并入本文。

SEQ ID NO:587是无催化活性的示例性cas13d，称为失活的Cas13d或dCas13d。

SEQ ID NO:590是无催化活性的示例性cas13d，称为失活的Cas13d或dCas13d。

SEQ ID NO:591是无催化活性的示例性cas13d，称为失活的Cas13d或dCas13d。

SEQ ID NO:592是无催化活性的示例性cas13d，称为失活的Cas13d或dCas13d。

SEQ ID NO:593是无催化活性的示例性cas13d，称为失活的Cas13d或dCas13d。

SEQ ID NO:594是无催化活性的示例性cas13d，称为失活的Cas13d或dCas13d。

SEQ ID NO:303是来自惰性真杆菌的示例性CasM蛋白。

SEQ ID NO:304是来自瘤胃球菌属物种分离株2789STDY5834971的示例性CasM蛋白。

SEQ ID NO:305是来自双环瘤胃球菌的示例性CasM蛋白。

SEQ ID NO:306是来自瘤胃球菌属物种分离株2789STDY5608892的示例性CasM蛋白。

SEQ ID NO:307是来自瘤胃球菌属物种CAG:57的示例性CasM蛋白。

SEQ ID NO:308是来自生黄瘤胃球菌FD-1的示例性CasM蛋白。

SEQ ID NO:309是来自白色瘤胃球菌菌株KH2T6的示例性CasM蛋白。

SEQ ID NO:310是来自生黄瘤胃球菌菌株XPD3002的示例性CasM蛋白。

SEQ ID NO:311是来自瘤胃球菌属物种分离株2789STDY5834894的示例性CasM蛋白。

SEQ ID NO:312是示例性RtcB同源物。

SEQ ID NO:313是来自惰性真杆菌的示例性WYL+C末端NLS。

SEQ ID NO:314是来自瘤胃球菌属物种分离株2789STDY5834971的示例性WYL+C末端NLS。

SEQ ID NO:315是来自双环瘤胃球菌的示例性WYL+C末端NLS。

SEQ ID NO:316是来自瘤胃球菌属物种分离株2789STDY5608892的示例性WYL+C末端NLS。

SEQ ID NO:317是来自瘤胃球菌属物种CAG:57的示例性WYL+C末端NLS。

SEQ ID NO:318是来自生黄瘤胃球菌FD-1的示例性WYL+C末端NLS。

SEQ ID NO:319是来自白色瘤胃球菌菌株KH2T6的示例性WYL+C末端NLS。

SEQ ID NO:320是来自生黄瘤胃球菌菌株XPD3002的示例性WYL+C末端NLS。

SEQ ID NO:321是来自惰性真杆菌的示例性RtcB+C末端NLS。

SEQ ID NO:322是生黄瘤胃球菌XPD3002 Cas13d(CasRx)的示例性同向重复序列。

本公开文本的示例性野生型Cas13d蛋白可以包含氨基酸序列SEQ ID NO:92或SEQID NO:298(Cas13d蛋白也称为CasRx)或由其组成。

生黄瘤胃球菌XPD3002 Cas13d(CasRx)的示例性同向重复序列包含核酸序列：AACCCCTACCAACTGGTCGGGGTTTGAAAC(SEQ ID NO:302)。

gRNA靶序列

本公开文本的组合物结合并破坏RNA分子的包含致病性重复序列的靶序列。在一个实施方案中，靶RNA包含对应于指导RNA的间隔子序列的序列基序，所述指导RNA对应于RNA指导的RNA结合蛋白。在一些实施方案中，一个或多个间隔子序列用于靶向一个或多个靶序列。在一些实施方案中，多个间隔子用于靶向多个靶RNA。此类靶RNA可以是相同RNA分子内的不同靶位点，或者可以是不同RNA分子内的不同靶位点。间隔子序列也可以靶向非编码RNA。在一些实施方案中，多个启动子(例如Pol III启动子)可以用于驱动gRNA中多个间隔子以靶向多个靶RNA。在一个实施方案中，一个或多个靶RNA或者一个或多个靶序列基序的破坏降低了致病性CAG重复RNA的表达，从而治疗CAG重复疾病如HD或SCA1，和/或改善与CAG重复疾病如HD或SCA1相关的一种或多种症状。

在本公开文本的组合物和方法的一些实施方案中，所述靶RNA的序列基序是疾病或障碍的标志。

本公开文本的序列基序可以从基因组序列中发现的外来或外源序列的序列分离或衍生，并且因此翻译为本公开文本的mRNA分子或在本公开文本的RNA序列中发现的外来或外源序列的序列。

本公开文本的靶序列基序可以包含引起疾病或障碍的内源性序列中的突变、由所述突变组成、位于所述突变旁或与所述突变相关。所述突变可以包含序列取代、倒位、缺失、插入、转座或其任何组合，或者由其组成。

本公开文本的靶序列基序可以包含重复的序列或由其组成。在一些实施方案中，所述重复的序列可能与微卫星不稳定性(MSI)相关。一个或多个基因座处的MSI是由于本公开文本的细胞的DNA错配修复机制受损所致。可以将DNA的超变序列转录为本公开文本的包含靶序列的mRNA，所述靶序列包含所述超变序列或由其组成。

本公开文本的靶序列基序可以包含生物标记物或由其组成。所述生物标记物可以指示患上疾病或障碍的风险。所述生物标记物可以指示健康基因(低或无可确定的患上疾病或障碍的风险)。所述生物标记物可以指示编辑的基因。示例性生物标记物包括但不限于单核苷酸多态性(SNP)、序列变异或突变、表观遗传标记、剪接受体位点、外源序列、异源序列及其任何组合。

本公开文本的靶序列基序可以包含二级、三级或四级结构或者由其组成。所述二级、三级或四级结构可以是内源的或天然存在的。所述二级、三级或四级结构可以是诱导的或非天然存在的。所述二级、三级或四级结构可以由内源、外源或异源序列编码。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的所述靶序列包含在2个与100个之间的核苷酸或核酸碱基(包括端点)或由其组成。在一些实施方案中，RNA分子的所述靶序列包含在2个与50个之间的核苷酸或核酸碱基(包括端点)或由其组成。在一些实施方案中，RNA分子的所述靶序列包含在2个与20个之间的核苷酸或核酸碱基(包括端点)或由其组成。在一些实施方案中，RNA分子的所述靶序列包含在20-30个之间的核苷酸或核酸碱基(包括端点)或由其组成。在一些实施方案中，RNA分子的所述靶序列包含约26个核苷酸或核酸碱基(包括端点)或由其组成。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的靶序列是连续的。在一些实施方案中，RNA分子的所述靶序列是不连续的。例如，RNA分子的所述靶序列可以包含不连续的一个或多个核苷酸或核酸碱基或由其组成，因为一个或多个间断的核苷酸定位于所述靶序列的核苷酸之间。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的靶序列是天然存在的。在一些实施方案中，RNA分子的所述靶序列是非天然存在的。示例性的非天然存在的靶序列可以包含序列变异或突变、嵌合序列、外源序列、异源序列、嵌合序列、重组序列、包含修饰的或合成的核苷酸的序列或其任何组合，或者由其组成。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的靶序列与本公开文本的指导RNA结合。在本公开文本的组合物和方法的一些实施方案中，RNA分子的一个或多个靶序列与本公开文本的一个或多个指导RNA间隔子序列结合。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的靶序列与本公开文本的第一RNA结合蛋白结合。

在本公开文本的组合物和方法的一些实施方案中，RNA分子的靶序列与本公开文本的第二RNA结合蛋白结合。

本公开文本的组合物包含gRNA，所述gRNA包含与靶毒性CAG RNA重复序列特异性结合的间隔子序列。在一些实施方案中，结合靶CAG RNA重复序列的间隔子包含约20-30个核苷酸或由其组成。在一些实施方案中，gRNA包含一个或多个间隔子序列。

本公开文本的与RNA分子的靶CAG序列特异性结合的示例性gRNA间隔子序列是SEQID NO:457-459。

核酸内切酶

在一些实施方案中，本公开文本的组合物包含第二RNA结合蛋白，所述第二RNA结合蛋白包含核酸酶或核酸内切酶结构域或者由其组成。在一些实施方案中，所述第二RNA结合蛋白是效应蛋白。在一些实施方案中，所述第二RNA结合蛋白以与RNA缔合的方式结合RNA。在一些实施方案中，所述第二RNA结合蛋白以切割RNA的方式与RNA缔合。在一些实施方案中，所述第二RNA结合蛋白与第一RNA结合蛋白融合，所述第一RNA结合蛋白是基于PUF、PUMBY或PPR的蛋白质。在一个实施方案中，所述第二RNA结合蛋白与第一RNA结合蛋白融合，所述第一RNA结合蛋白是基于无催化活性的Cas(基于dCas)的蛋白质。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含RNA酶或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶1或由其组成。在一些实施方案中，所述RNA酶1蛋白包含SEQ ID NO:325或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶4或由其组成。在一些实施方案中，所述RNA酶4蛋白包含SEQ ID NO:326或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶6或由其组成。在一些实施方案中，所述RNA酶6蛋白包含SEQ ID NO:327或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶7或由其组成。在一些实施方案中，所述RNA酶7蛋白包含SEQ ID NO:328或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶8或由其组成。在一些实施方案中，所述RNA酶8蛋白包含SEQ ID NO:329或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶2或由其组成。在一些实施方案中，所述RNA酶2蛋白包含SEQ ID NO:330或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶6PL或由其组成。在一些实施方案中，所述RNA酶6PL蛋白包含SEQ ID NO:331或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶L或由其组成。在一些实施方案中，所述RNA酶L蛋白包含SEQ ID NO:332或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶T2或由其组成。在一些实施方案中，所述RNA酶T2蛋白包含SEQ ID NO:333或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶11或由其组成。在一些实施方案中，所述RNA酶11蛋白包含SEQ ID NO:334或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含RNA酶T2样蛋白或由其组成。在一些实施方案中，所述RNA酶T2样蛋白包含SEQ ID NO:335或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(K41R))多肽或由其组成。在一些实施方案中，所述RNA酶1(K41R)多肽包含SEQ ID NO:336或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(K41R、D121E))多肽或由其组成。在一些实施方案中，所述RNA酶1(RNA酶1(K41R、D121E))多肽包含SEQ ID NO:337或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(K41R、D121E、H119N))多肽或由其组成。在一些实施方案中，所述RNA酶1(RNA酶1(K41R、D121E、H119N))多肽包含SEQ ID NO:338或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1或由其组成。在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(H119N))多肽或由其组成。在一些实施方案中，所述RNA酶1(RNA酶1(H119N))多肽包含SEQ ID NO:339或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N))多肽或由其组成。

在一些实施方案中，所述RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N))多肽包含SEQ ID NO:340或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N))多肽或由其组成。在一些实施方案中，所述RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N、K41R、D121E))多肽包含SEQ ID NO:341或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N))多肽或由其组成。在一些实施方案中，所述RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D))多肽包含SEQ ID NO:342或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含突变的RNA酶1(RNA酶1(R39D、N67D、N88A、G89D、R91D、H119N、K41R、D121E))多肽或由其组成，所述多肽包含SEQ ID NO:343或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含NOB1多肽或由其组成。在一些实施方案中，所述NOB1多肽包含SEQ ID NO:344或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含核酸内切酶或由其组成。在一些实施方案中，所述第二RNA结合蛋白包含核酸内切酶V(ENDOV)或由其组成。在一些实施方案中，所述ENDOV蛋白包含SEQ ID NO:345或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含核酸内切酶G(ENDOG)或由其组成。在一些实施方案中，所述ENDOG蛋白包含SEQ ID NO:346或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含核酸内切酶D1(ENDOD1)或由其组成。在一些实施方案中，所述ENDOD1蛋白包含SEQ ID NO:347或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含人瓣状核酸内切酶-1(hFEN1)或由其组成。在一些实施方案中，所述hFEN1多肽包含SEQ ID NO:348或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含DNA修复核酸内切酶XPF(ERCC4)多肽或由其组成。在一些实施方案中，所述ERCC4多肽包含SEQ ID NO:349或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含核酸内切酶III样蛋白1(NTHL)多肽或由其组成。在一些实施方案中，所述NTHL多肽包含SEQ ID NO:340或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含人斯库拉芬蛋白14(hSLFN14)多肽或由其组成。在一些实施方案中，所述hSLFN14多肽包含SEQ IDNO:351或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含人β-内酰胺酶样蛋白2(hLACTB2)多肽或由其组成。在一些实施方案中，所述hLACTB2多肽包含SEQ IDNO:352或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含无嘌呤/无嘧啶(AP)内切脱氧核糖核酸酶(APEX)多肽或由其组成。在一些实施方案中，所述第二RNA结合蛋白包含无嘌呤/无嘧啶(AP)内切脱氧核糖核酸酶(APEX2)多肽或由其组成。在一些实施方案中，所述APEX2多肽包含SEQ ID NO:353或由其组成。

在一些实施方案中，所述APEX2多肽包含SEQ ID NO:354或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含无嘌呤或无嘧啶位点裂解酶(APEX1)多肽或由其组成。在一些实施方案中，所述APEX1多肽包含SEQ ID NO:355或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含血管生成素(ANG)多肽或由其组成。在一些实施方案中，所述ANG多肽包含SEQ ID NO:356或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含热反应蛋白12(HRSP12)多肽或由其组成。在一些实施方案中，所述HRSP12多肽包含SEQ ID NO:357或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含含锌指CCCH型12A(ZC3H12A)多肽或由其组成。在一些实施方案中，所述ZC3H12A多肽是ZC3H12A多肽的核酸内切酶结构域，所述核酸内切酶结构域包含SEQ ID NO:358或由其组成，本文也称为E17。在一些实施方案中，所述ZC3H12A多肽包含SEQ ID NO:359或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含反应性中间亚胺脱氨酶A(RIDA)多肽或由其组成。在一些实施方案中，所述RIDA多肽包含SEQ ID NO:360或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含磷脂酶D家族成员6(PDL6)多肽或由其组成。在一些实施方案中，所述PDL6多肽包含SEQ ID NO:361或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含线粒体核糖核酸酶P催化亚基(KIAA0391)多肽或由其组成。在一些实施方案中，所述KIAA0391多肽包含SEQ ID NO:362或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含阿尔古蛋白2(AGO2)多肽或由其组成。

在本公开文本的组合物的一些实施方案中，所述AGO2多肽包含SEQ ID NO:363或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含线粒体核酸酶EXOG(EXOG)多肽或由其组成。在一些实施方案中，所述EXOG多肽包含SEQ ID NO:364或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含含锌指CCCH型12D(ZC3H12D)多肽或由其组成。在一些实施方案中，所述ZC3H12D多肽包含SEQ IDNO:365或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含内质网核信号转导蛋白2(ERN2)多肽或由其组成。在一些实施方案中，所述ERN2多肽包含SEQ ID NO:366或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含回力球mRNA监督和核糖体挽救因子(PELO)多肽或由其组成。在一些实施方案中，所述PELO多肽包含SEQ ID NO:367或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含YBEY金属肽酶(YBEY)多肽或由其组成。在一些实施方案中，所述YBEY多肽包含SEQ ID NO:368或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含剪切和多聚腺苷酸化特异性因子4样蛋白(CPSF4L)多肽或由其组成。在一些实施方案中，所述CPSF4L多肽包含SEQ ID NO:369或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含hCG_2002731多肽或由其组成。在一些实施方案中，所述hCG_2002731多肽包含SEQ ID NO:370或由其组成。

在一些实施方案中，所述hCG_2002731多肽包含SEQ ID NO:371或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含切除修复交叉互补组1(ERCC1)多肽或由其组成。在一些实施方案中，所述ERCC1多肽包含SEQ ID NO:372或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含ras相关C3肉毒杆菌毒素底物1亚型(RAC1)多肽或由其组成。在一些实施方案中，所述RAC1多肽包含SEQ ID NO:373或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含核糖核酸酶A A1(RAA1)多肽或由其组成。在一些实施方案中，所述RAA1多肽包含SEQ ID NO:374或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含Ras相关蛋白(RAB1)多肽或由其组成。在一些实施方案中，所述RAB1多肽包含SEQ ID NO:375或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含DNA复制解旋酶/核酸酶2(DNA2)多肽或由其组成。在一些实施方案中，所述DNA2多肽包含SEQ ID NO:376或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含FLJ35220多肽或由其组成。在一些实施方案中，所述FLJ35220多肽包含SEQ ID NO:377或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含FLJ13173多肽或由其组成。在一些实施方案中，所述FLJ13173多肽包含SEQ ID NO:378或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含特诺伊林跨膜蛋白(TENM)多肽或由其组成。在一些实施方案中，所述第二RNA结合蛋白包含特诺伊林跨膜蛋白1(TENM1)多肽或由其组成。在一些实施方案中，所述TENM1多肽包含SEQ ID NO:379或由其组成。

在一些实施方案中，所述第二RNA结合蛋白包含特诺伊林跨膜蛋白2(TENM2)多肽或由其组成。在一些实施方案中，所述TENM2多肽包含SEQ ID NO:380或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含核糖核酸酶κ(RNA酶K)多肽或由其组成。在一些实施方案中，所述RNA酶K多肽包含SEQ ID NO:381或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含转录激活因子样效应物核酸酶(TALEN)多肽或所述多肽的核酸酶结构域或由其组成。在一些实施方案中，所述TALEN多肽包含SEQ ID NO:382或由其组成。在一些实施方案中，所述TALEN多肽包含SEQ ID NO:383或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含锌指核酸酶多肽或所述多肽的核酸酶结构域或由其组成。在一些实施方案中，所述第二RNA结合蛋白包含ZNF638多肽或所述多肽的核酸酶结构域或由其组成。在一些实施方案中，所述ZNF638多肽包含SEQ ID NO:384或由其组成。

在本公开文本的组合物的一些实施方案中，所述第二RNA结合蛋白包含从人SMG6蛋白衍生的PIN结构域或由其组成，所述人SMG6蛋白通常也称为端粒酶结合蛋白EST1A亚型3，NCBI参考序列：NP_001243756.1。在一些实施方案中，来自hSMG6的PIN以Cas融合蛋白的形式在本文中使用并且例如但不限于作为内部对照。在一些实施方案中，所述PIN多肽包含SEQ ID NO:626或由其组成。

在本公开文本的组合物的一些实施方案中，所述组合物进一步包含(a)含有特异性结合在RNA分子内的gRNA的序列；以及(b)编码核酸酶的序列。在一些实施方案中，核酸酶包含从CRISPR/Cas蛋白分离或衍生的序列。在一些实施方案中，核酸酶包含从TALEN或其核酸酶结构域分离或衍生的序列。在一些实施方案中，核酸酶包含从锌指核酸酶或其核酸酶结构域分离或衍生的序列。

AAV载体

如本文所用的“AAV载体”是指这样一种载体，所述载体包含一个或多个核酸分子和一个或多个AAV反向末端重复序列(ITR)，基本上由其组成或由其组成。在一些方面，所述核酸分子编码本公开文本的靶向CAG重复的蛋白质和/或组合物。当存在于提供rep和cap基因产物的功能的宿主细胞中(例如通过转染宿主细胞)时，此类AAV载体可以被复制并包装到感染性病毒颗粒中。在一些方面，AAV载体含有启动子、可编码至少一种蛋白质或RNA的至少一种核酸、和/或包装到感染性AAV颗粒中的侧翼ITR内的增强子和/或终止子。衣壳化的核酸部分可以称为AAV载体基因组。含有AAV载体的质粒还可以含有用于制造目的的元件，例如抗生素抗性基因、复制起点序列等，但是这些元件没有被衣壳化，因此不形成AAV颗粒的一部分。

在一些方面，AAV载体可以包含至少一种编码本公开文本的靶向CAG重复的组合物的核酸分子。在一些方面，AAV载体可以包含至少一个调节序列。在一些方面，AAV载体可以包含至少一个AAV反向末端(ITR)序列。在一些方面，AAV载体可以包含第一ITR序列和第二ITR序列。在一些方面，AAV载体可以包含至少一个启动子序列。在一些方面，AAV载体可以包含至少一个增强子序列。在一些方面，AAV载体可以包含至少一个聚A序列。在一些方面，AAV载体可以包含至少一个接头序列。在一些方面，本公开文本的AAV载体可以包含至少一个核定位信号。在一些方面，本公开文本的AAV载体可以包含靶向CAG重复的PUF或PUMBY蛋白、肽或其片段。在一些方面，本公开文本的AAV载体可以包含Cas蛋白、肽或其片段。在一些方面，本公开文本的AAV载体可以包含核酸内切酶蛋白、肽或其片段。在一些方面，本公开文本的AAV载体可以包含指导RNA，在一些情况下，靶向CAG重复的指导RNA。在一些方面，本公开文本的AAV载体可以包含融合蛋白，所述融合蛋白包含本公开文本的一个或多个元件，包括但不限于靶向CAG重复的蛋白质(如Cas、PUF或PUMBY)和核酸内切酶。任选地，AAV载体的融合蛋白可以进一步包含本公开文本的一个或多个元件之间的接头氨基酸序列。

在一些方面，AAV载体可以包含第一AAV ITR序列、启动子序列、靶向CAG重复的组合物核酸分子、调节序列和第二AAV ITR序列。在一些方面，AAV载体可以在5’至3’方向上包含第一AAV ITR序列、启动子序列、转基因核酸分子和第二AAV ITR序列。

靶向CAG的Cas13d载体

在本公开文本的组合物的一些实施方案中，将靶向CAG的Cas13d组合物包装为AAV载体。在一些实施方案中，被包装为AAV载体的靶向CAG的Cas13d组合物示于SEQ ID NO:518、528、534、536和539中。

在一些实施方案中，包含靶向CAG的Cas13d组合物的AAV载体从5’至3’包含：人U6启动子、cas13d gRNA，其中所述gRNA包含同向重复序列和靶向CAG的间隔子序列、EFS启动子、kozak序列、SV40 NLS序列、接头序列、编码Cas13d的序列、接头序列、SV40NLS序列、接头序列、HA标签序列和BGH聚a序列。

在一些实施方案中，编码靶向CAG的Cas13d组合物的核酸示于SEQ ID NO:518中。在一些实施方案中，将靶向CAG的Cas13d组合物如表3中所描绘的布置。

表3：用于包装在AAV单一载体中的靶向CAG的Cas13d组合物

/>

在一些实施方案中，靶向CAG的Cas13d组合物从N末端至C末端包含：人U6启动子、cas13d gRNA，其中所述gRNA包含同向重复序列和靶向CAG的间隔子序列、EFS启动子、kozak序列、编码Cas13d的序列、接头序列、SV40 NLS序列和SV40聚a序列。在一些实施方案中，编码靶向CAG的Cas13d组合物的核酸示于SEQ ID NO:528中。在一些实施方案中，将靶向CAG的Cas13d组合物如表4中所描绘的布置。

表4：用于包装在AAV单一载体中的靶向CAG的Cas13d组合物

/>

在一些实施方案中，包含靶向CAG的Cas13d组合物的AAV载体从5’至3’包含：人U6启动子、cas13d gRNA，其中所述gRNA包含同向重复序列和靶向CAG的间隔子序列、EFS启动子、kozak序列、编码Cas13d的序列、接头序列、SV40 NLS序列和SV40聚a序列。在一些实施方案中，编码靶向CAG的Cas13d组合物的核酸示于SEQ ID NO:534中。在一些实施方案中，将靶向CAG的Cas13d组合物如表5中所描绘的布置。

表5：用于包装在AAV单一载体中的靶向CAG的Cas13d组合物

/>

在一些实施方案中，包含靶向CAG的Cas13d组合物的AAV载体从5’至3’包含：人U6启动子、cas13d gRNA，其中所述gRNA包含同向重复序列和靶向CAG的间隔子序列、EFS启动子、kozak序列、编码Cas13d的序列、接头序列、SV40 NLS序列和SV40聚a序列。在一些实施方案中，编码靶向CAG的Cas13d组合物的核酸示于SEQ ID NO:536中。在一些实施方案中，将靶向CAG的Cas13d组合物如表6中所描绘的布置。

表6：用于包装在AAV单一载体中的靶向CAG的Cas13d组合物

/>

在一些实施方案中，包含靶向CAG的Cas13d组合物的AAV载体从5’至3’包含：人U6启动子、cas13d gRNA，其中所述gRNA包含同向重复序列和靶向CAG的间隔子序列、EFS启动子、kozak序列、编码Cas13d的序列、接头序列、SV40 NLS序列和SV40聚a序列。在一些实施方案中，编码靶向CAG的Cas13d组合物的核酸示于SEQ ID NO:539中。在一些实施方案中，将靶向CAG的Cas13d组合物如表7中所描绘的布置。

表7：用于包装在AAV单一载体中的靶向CAG的Cas13d组合物

/>

在一些实施方案中，包含编码靶向CAG的Cas13d组合物的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码人U6启动子的序列、dCas13d seq212同向重复、编码CAG指导物3间隔子序列的序列、编码EFS启动子的序列、编码kozak序列的序列、编码dCas13d seq212蛋白的序列、编码接头序列的序列、编码SV-40NLS的序列、编码接头序列的序列、编码HA标签的序列、编码WPRE的序列、编码SV-40聚A的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表G中所描绘的布置。在一些实施方案中，载体A01479适合于阻断。在一些方面，A01479由包含SEQ ID NO:588的核酸序列编码。

在一些实施方案中，表G中所示的载体称为A01479。

表G1：用于阻断的编码靶向CAG重复的dCas13d蛋白的载体A01479

/>

在一些实施方案中，包含编码靶向CAG的Cas13d组合物的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码人U6启动子的序列、dCas13d seq212同向重复、编码CAG指导物3间隔子序列的序列、编码EFS启动子的序列、编码kozak序列的序列、编码dCas13d seq212蛋白的序列、编码接头序列的序列、编码SV-40NLS的序列、编码接头序列的序列、编码HA标签的序列、编码WPRE的序列、编码SV-40聚A的序列和3’ITR(第二ITR)。在一些实施方案中，编码所述载体的核酸示于SEQ ID NO:589中。在一些实施方案中，将靶向CAG的Cas13d组合物如表H中所描绘的布置。在一些实施方案中，载体A01922适合于阻断。在一些方面，载体A01922由包含SEQ ID NO:589的核酸序列编码。

在一些实施方案中，表H中所示的载体称为A01922。

表H：用于阻断的编码靶向CAG重复的dCas13d融合物的载体A01922

/>

在一些实施方案中，包含编码靶向CAG的Cas13d组合物的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码人U6启动子的序列、dCas13d seq212同向重复、编码CAG指导物3间隔子序列的序列、编码EFS启动子的序列、编码kozak序列的序列、编码dCas13d seq212蛋白的序列、编码接头序列的序列、编码SV-40NLS的序列、编码接头序列的序列、编码HA标签的序列、编码WPRE的序列、编码SV-40聚A的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表I中所描绘的布置。

表I：编码靶向CAG重复的dCas13d融合物的载体

/>

在一些实施方案中，包含编码靶向CAG的Cas13d组合物的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码人U6启动子的序列、dCas13d seq212同向重复、编码CAG指导物3间隔子序列的序列、编码EFS启动子的序列、编码kozak序列的序列、编码dCas13d seq212蛋白的序列、编码接头序列的序列、编码SV-40NLS的序列、编码接头序列的序列、编码HA标签的序列、编码WPRE的序列、编码SV-40聚A的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表J中所描绘的布置。

表J：编码靶向CAG重复的dCas13d融合物的载体

/>

在一些实施方案中，包含编码靶向CAG的Cas13d组合物的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码人U6启动子的序列、dCas13d seq212同向重复、编码CAG指导物3间隔子序列的序列、编码EFS启动子的序列、编码kozak序列的序列、编码dCas13d seq212蛋白的序列、编码接头序列的序列、编码SV-40NLS的序列、编码接头序列的序列、编码HA标签的序列、编码WPRE的序列、编码SV-40聚A的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表K中所描绘的布置。

表K：编码靶向CAG重复的dCas13d融合物的载体

/>

在一些实施方案中，包含编码靶向CAG的Cas13d组合物的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码人U6启动子的序列、dCas13d seq212同向重复、编码CAG指导物3间隔子序列的序列、编码EFS启动子的序列、编码kozak序列的序列、编码dCas13d seq212蛋白的序列、编码接头序列的序列、编码SV-40NLS的序列、编码接头序列的序列、编码HA标签的序列、编码WPRE的序列、编码SV-40聚A的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表L中所描绘的布置。

表L：编码靶向CAG重复的dCas13d融合物的载体

/>

在一些实施方案中，包含编码靶向CAG的Cas13d组合物的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码人U6启动子的序列、dCas13d seq212同向重复、编码CAG指导物3间隔子序列的序列、编码EFS启动子的序列、编码kozak序列的序列、编码SV-40NLS的序列、编码接头的序列、编码dCas13d seq212蛋白的序列、编码接头序列的序列、编码E17核酸内切酶的序列、编码接头序列的序列、编码myc标签的序列、编码WPRE的序列、编码SV-40聚A的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表M中所描绘的布置。在一些实施方案中，表M中所示的载体称为A01545。

表M：编码靶向CAG重复的dCas13d融合物的载体A01545

/>

在一些实施方案中，包含编码靶向CAG的Cas13d组合物的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码人U6启动子的序列、dCas13d seq212同向重复、编码CAG指导物3间隔子序列的序列、编码EFS启动子的序列、编码kozak序列的序列、编码SV-40NLS的序列、编码接头的序列、编码dCas13d seq212蛋白的序列、编码接头序列的序列、编码E17核酸内切酶的序列、编码接头序列的序列、编码myc标签的序列、编码WPRE的序列、编码SV-40聚A的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表N中所描绘的布置。在一些实施方案中，表N中所示的载体称为A01553。

表N：编码靶向CAG重复的dCas13d融合物的载体A01553

/>

在一些实施方案中，包含编码靶向CAG的Cas13d组合物的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码人U6启动子的序列、dCas13d seq212同向重复、编码CAG指导物3间隔子序列的序列、编码EFS启动子的序列、编码kozak序列的序列、编码E17核酸内切酶的序列、编码接头序列的序列、编码dCas13d seq212蛋白的序列、编码接头序列的序列、编码SV-40NLS的序列、编码接头的序列、编码HA标签的序列、编码WPRE的序列、编码SV-40聚A的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表O中所描绘的布置。

表O：编码靶向CAG重复的dCas13d融合物的载体

/>

靶向CAG的Cas13d PUF AAV载体

在本公开文本的组合物的一些实施方案中，将靶向CAG的PUF组合物包装为AAV载体。在一些实施方案中，包装为AAV载体的靶向CAG的PUF组合物示于SEQ ID NO:518、528、534、536和539中。

在一些实施方案中，包含编码靶向CAG重复的PUF的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码EFS/UBB启动子的序列、编码kozak序列的序列、编码8PUF蛋白的序列、编码接头的序列、编码核酸酶(E17)的序列、编码WPRE元件的序列、编码SV40聚A序列的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表P中所描绘的布置。在一些实施方案中，表P中所示的载体称为A01383。

表P：编码靶向CAG重复的PUF-E17融合物的载体A01383

/>

在一些实施方案中，包含编码靶向CAG重复的PUF的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码EFS/UBB启动子的序列、编码kozak序列的序列、编码8PUF蛋白的序列、编码接头的序列、编码myc标签的序列、编码WPRE元件的序列、编码SV40聚A序列的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表Q中所描绘的布置。在一些实施方案中，表Q中所示的载体称为A01684。在一些实施方案中，载体A01684适合于阻断。

表Q：用于阻断的编码靶向CAG重复的PUF的载体A01684

在一些实施方案中，包含编码靶向CAG重复的PUF的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码EFS/UBB启动子的序列、编码kozak序列的序列、编码8PUF蛋白的序列、编码WPRE元件的序列、编码SV40聚A序列的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表R中所描绘的布置。在一些实施方案中，表R中所示的载体称为A01683。

表R：用于阻断的编码靶向CAG重复的PUF的载体A01683

/>

在一些实施方案中，包含编码靶向CAG重复的PUF的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码EFS/UBB启动子的序列、编码kozak序列的序列、编码8PUF蛋白的序列、接头序列、PIN核酸内切酶、接头序列、myc标签、编码WPRE元件的序列、编码SV40聚A序列的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表S1和表S2中所描绘的布置。编码载体A02249的核酸序列包含SEQ ID NO:624。编码载体A02250的核酸序列包含SEQ ID NO:625。

表S1：编码与PIN核酸内切酶融合的靶向CAG重复的PUF的载体A02250

/>

表S2：与PIN核酸内切酶融合的靶向CAG重复的PUF

/>

在一些实施方案中，包含编码靶向CAG重复的PUF的核酸的AAV载体从5’至3’包含：编码5’ITR(第一ITR)的序列、编码EFS/UBB启动子的序列、编码kozak序列的序列、编码8PUF蛋白的序列、接头序列、PIN核酸内切酶、编码WPRE元件的序列、编码聚A序列的序列和3’ITR(第二ITR)。在一些实施方案中，将靶向CAG的Cas13d组合物如表S3和表S4中所描绘的布置。

表S3：编码与PIN核酸内切酶融合的靶向CAG重复的PUF的载体A02249

/>

表S4：与PIN核酸内切酶融合的靶向CAG重复的PUF

在一些实施方案中，本公开文本的编码靶向CAG的Cas13d蛋白的核酸序列是密码子优化的核酸序列。在一些实施方案中，在人受试者中，编码靶向CAG的Cas13d蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％，或至少1000％增加的翻译。

在一些方面，编码靶向CAG的Cas13d蛋白的密码子优化的核酸序列(如SEQ ID NO:518、528、534、536和539中所示的那些)展现出增加的稳定性。在一些方面，编码靶向CAG的Cas13d蛋白的密码子优化的核酸序列通过增加的对水解的抗性展现出增加的稳定性。在一些实施方案中，编码靶向CAG的Cas13d蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的稳定性。在一些实施方案中，在人受试者中，编码靶向CAG的Cas13d蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的对水解的抗性。

在一些方面，编码靶向CAG的Cas13d蛋白的密码子优化的核酸序列(如SEQ ID NO:518、528、534、536和539中所示的那些)可以不包含供体剪接位点。在一些方面，编码靶向CAG的Cas13d蛋白的密码子优化的核酸序列可以包含不超过约一个、或约两个、或约三个、或约四个、或约五个、或约六个、或约七个、或约八个、或约九个、或约十个供体剪接位点。在一些方面，与编码靶向CAG的Cas13d蛋白的非密码子优化的核酸序列相比，编码靶向CAG的Cas13d蛋白的密码子优化的核酸序列包含少至少一个、或至少两个、或至少三个、或至少四个、或至少五个、或至少六个、或至少七个、或至少八个、或至少九个、或至少十个的供体剪接位点。

不希望受理论束缚，在密码子优化的核酸序列中去除供体剪接位点可以出乎意料地且不可预测地增加体内靶向CAG的Cas13d蛋白的表达，因为阻止了隐蔽剪接。此外，隐蔽剪接在不同受试者之间可能变化，这意味着包含供体剪接位点的靶向CAG的Cas13d蛋白的表达水平在不同受试者之间可能不可预测地变化。这种不可预测性在人类疗法的背景下是不可接受的。因此，SEQ ID NO:518、528、534、536和539中所示的缺乏供体剪接位点的密码子优化的核酸序列出乎意料地且令人惊讶地允许人受试者中靶向CAG的Cas13d蛋白的表达增加，并且使不同人受试者中靶向CAG的Cas13d蛋白的表达规范化。

在一些方面，编码靶向CAG的Cas13d蛋白的密码子优化的核酸序列(如SEQ ID NO:518、528、534、536和539中所示的那些)可以具有与编码靶向CAG的Cas13d蛋白的非密码子优化的核酸序列的GC含量不同的GC含量。在一些方面，与编码靶向CAG的Cas13d蛋白的非密码子优化的核酸序列相比，编码靶向CAG的Cas13d蛋白的密码子优化的核酸序列的GC含量更均匀地分布在整个核酸序列上。

不希望受理论束缚，通过将GC含量更均匀地分布在整个核酸序列上，密码子优化的核酸序列在转录物的长度上展现出更统一的解链温度(“Tm”)。解链温度的统一性出乎意料地导致人受试者中密码子优化的核酸的增加的表达，因为核酸序列的转录和/或翻译发生时聚合酶和/或核糖体的停滞较少。

在一些方面，与编码靶向CAG的Cas13d蛋白的非密码子优化的核酸序列相比，编码靶向CAG的Cas13d蛋白的密码子优化的核酸序列(如SEQ ID NO:518、528、534、536和539中所示的那些)可以具有更少的抑制性微小RNA靶结合位点。在一些方面，与编码靶向CAG的Cas13d蛋白的非密码子优化的核酸序列相比，编码靶向CAG的Cas13d蛋白的密码子优化的核酸序列可以具有少至少一个、或至少两个、或至少三个、或至少四个、或至少五个、或至少六个、或至少七个、或至少八个、或至少九个、或至少十个、或至少十个的抑制性微小RNA靶结合位点。

不希望受到理论的束缚，通过具有更少的抑制性微小RNA靶结合位点，编码靶向CAG的Cas13d蛋白的密码子优化的核酸序列出乎意料地在人受试者中展现出增加的表达。

融合蛋白

在本公开文本的组合物和方法的一些实施方案中，所述组合物包含编码靶RNA结合融合蛋白的序列，所述序列包含(a)编码第一RNA结合多肽或其部分的序列；以及任选地(b)编码第二RNA结合多肽的序列，其中所述第一RNA结合多肽结合靶RNA，并且其中所述第二RNA结合多肽包含RNA核酸酶活性。

在一些实施方案中，靶RNA结合融合蛋白是RNA指导的靶RNA结合融合蛋白。RNA指导的靶RNA结合融合蛋白包含至少一种RNA结合多肽，其对应于将所述RNA结合多肽指导至靶RNA的gRNA。RNA指导的靶RNA结合融合蛋白包括但不限于RNA结合多肽，其是基于CRISPR/Cas的RNA结合多肽或其部分。

信号序列

在一些实施方案中，本公开文本的靶RNA结合融合蛋白包含信号序列。在一些实施方案中，靶RNA结合融合蛋白包含一个或多个信号序列。在一些实施方案中，所述一个或多个信号序列是核定位序列(NLS)、核输出信号(NES)或其组合。在一些实施方案中，标签序列包含核定位序列(NLS)。在一些实施方案中，NLS序列包含表8中所列的序列。在一些实施方案中，NLS信号序列是人NLS。在一些实施方案中，人NLS信号序列是人pRB-NLS或人pRB-NLS(延伸形式)。

表8：本公开文本的核定位序列

在一些实施方案中，信号序列包含一个或多个NES序列。在一些实施方案中，所述一个或多个NES序列包含表9中所列的序列。

表9：本公开文本的核输出序列

名称	氨基酸序列	SEQ ID NO:
			HIV REV NES	LPPLERLTLD	544
人PKI NES	LALKLAGLDI	545

在一些实施方案中，本公开文本的靶RNA结合融合蛋白包含标签序列。在一些实施方案中，标签序列是FLAG标签。

在一些实施方案中，FLAG标签序列是DYKDDDDK(SEQ ID NO:436)。

接头序列

在一些实施方案中，靶RNA结合融合蛋白包含接头序列。在一些实施方案中，接头序列可以包含1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50个或其间任何数量的氨基酸，或者由其组成。在一些实施方案中，接头序列包含表10中所列的接头序列。

表10.本公开文本的接头序列

启动子序列

在一个方面，本公开文本的靶向CAG的组合物包含启动子序列。在一些实施方案中，本文公开的任何启动子可以被取代为本文公开的靶向RNA的构建体中所述的任何其他启动子。在一些方面，靶向CAG的组合物包含截短的CAG(tCAG)启动子(SEQ ID NO:385)。在一些方面，靶向CAG的组合物包含短EF1-α(EFS)启动子(SEQ ID NO:520)。在一些方面，靶向CAG的组合物包含SEQ ID NO:613中所示的EFS-UBB启动子。在一些方面，靶向CAG的组合物包含SEQ ID NO:627中所示的人突触素启动子。在一些实施方案中，本公开文本的启动子序列包含人EF1-α核心启动子(SEQ ID NO:642)。在一些实施方案中，本公开文本的启动子序列包含经修饰的UBB内含子(SEQ ID NO:643)。在一些实施方案中，本公开文本的启动子序列包含经修饰的CMV增强子序列(SEQ ID NO:644)。在一些实施方案中，本公开文本的启动子序列包含eCMV-EFS-UBB启动子序列(SEQ ID NO:645)。

在一些实施方案中，启动子对表达的控制是组成型的或遍在的。非限制性示例性启动子包括Pol III启动子(例如像U6和H1启动子)和/或Pol II启动子，例如SV40、CMV(任选地包括CMV增强子)、RSV(劳斯肉瘤病毒LTR启动子(任选地包括RSV增强子))、CBA(杂合CMV增强子/鸡β-肌动蛋白)、CAG(与鸡β-肌动蛋白融合的杂合CMV增强子)、截短的CAG、Cbh(杂合CBA)、EF-1a(人延伸因子α-1)或EFS(短的少内含子的EF-1α)、PGK(磷酸甘油激酶)、CEF(鸡胚成纤维细胞)、UBC(泛素C)、GUSB(溶酶体酶β-葡糖醛酸糖苷酶)、UCOE(遍在染色质开放元件)、hAAT(α-1抗胰蛋白酶)、TBG(甲状腺素结合球蛋白)、结蛋白(全长或截短的)、MCK(肌肉肌酸激酶)、C5-12(合成的肌肉启动子)、CK8e(肌酸激酶8)、NSE(神经元特异性烯醇化酶)、突触素、突触素-1(SYN-1)、视蛋白、PDGF(血小板源性生长因子)、PDGF-A、MecP2(甲基CpG结合蛋白2)、CaMKII(钙/钙调蛋白依赖性蛋白激酶II)、mGluR2(代谢型谷氨酸受体2)、NFL(神经丝轻链)、NFH(神经丝重链)、nβ2、PPE(大鼠前脑啡肽原)、ENK(前脑啡肽原)、前脑啡肽原-神经丝嵌合启动子、EAAT2(谷氨酸转运蛋白)、GFAP(胶质纤维酸性蛋白)、MBP(髓磷脂碱性蛋白质)、人视紫红质激酶启动子(hGRK1)、β-肌动蛋白启动子、二氢叶酸还原酶启动子、MHCK7(肌肉肌酸激酶和α肌球蛋白重链基因的增强子/启动子区的杂合启动子)及其组合。“增强子”是DNA中可以由激活蛋白结合以增加转录的可能性或频率的区域。非限制性示例性增强子和转录后调节元件包括CMV增强子、MCK增强子、HTLV-1的LTR中的R-U5’区段、SV40增强子、兔β-珠蛋白的外显子2与外显子3之间的内含子序列和WPRE。在一些实施方案中，使用内含子如UBB内含子来增强启动子活性。在一些实施方案中，将UBB内含子与EFS启动子一起使用。在一些实施方案中，可以将增强子序列添加到5’或3’UTR中。在一些实施方案中，5’增强子可以是如SEQ ID NO:657中所示的Hsp70：TAACGGCTAGCCTGAGGAGCTGCTGCGACAGTCCACTACCTTTTTCGAGAGTGACTCCCGTTGTCCCAAGGCTTCCCAGAGCGAACCTGTGCGGCTGCAGGCACCGGCGCGTCGAGTTTCCGGCGTCCGGAAGGACCGAGCTCTTCTCGCGGATCCAGTGTTCCGTTTCCAGCCCCCAATCTCAGAGCGGAGCCGACAGAGAGCAGGGAACCGGC。

非指导的RNA结合融合蛋白

在一些实施方案中，靶RNA结合融合蛋白不是RNA指导的靶RNA结合融合蛋白，并且因此包含至少一种RNA结合多肽，其能够在没有相应gRNA序列的情况下结合靶RNA。此类非指导的RNA结合多肽包括但不限于作为PUF(Pumilio和FBF同源家族)蛋白的至少一种RNA结合蛋白或其RNA结合部分。这种类型的RNA结合多肽可以用于代替gRNA指导的RNA结合蛋白如CRISPR/Cas。参与介导mRNA稳定性和翻译的PUF蛋白(以果蝇(Drosophila)Pumilio和秀丽隐杆线虫(C.elegans)fem-3结合因子命名)的独特RNA识别模式是本领域中熟知的。也是本领域中已知的人Pumilio1的PUF结构域与同源RNA序列紧密结合，并且可以修饰其特异性。其含有八个PUF模块，它们识别八个保守RNA碱基，且每个模块重复识别单个碱基。由于每个模块中的两条氨基酸侧链识别相应碱基的Watson-Crick边缘并决定该模块的特异性，PUF蛋白可以被设计为特异性结合大多数8至16nt RNA。Wang等人,Nat Methods.2009；6(11):825-830。还参见WO2012/068627，将其通过引用以其整体并入本文。

已经使用PUF-RNA相互作用的模块性质合理地工程化PUF结构域的结合特异性(Cheong,C.G.和Hall,T.M.(2006)PNAS103:13635-13639；Wang,X.等人(2002)Cell110:501-512)。然而，在WO2012/06827(同上)的教导之前，仅报道了具有识别腺嘌呤、鸟嘌呤或尿嘧啶的模块的PUF蛋白的成功设计。虽然野生型PumHD不结合胞嘧啶(C)，但是分子工程化已经表明，可以使一些Pum单元突变从而以良好的产率和特异性结合C。参见例如，Dong,S.等人Specific and modular binding code for cytosine recognition in Pumilio/FBF(PUF)RNA-binding domains,The Journal of biological chemistry 286,26732-26742(2011)。因此，PumHD是WT Pumilio蛋白的经修饰形式，其展现出与RNA的任意8碱基序列的可编程结合。PumHD的八个单元中的每一个都可以与所有四种RNA碱基结合，并且侧接靶序列的RNA碱基不影响结合。还参见以下关于本领域承认的PUF设计的RNA结合规则：Filipovska A,Razif MF,KK和Rackham O.A universal code for RNArecognition by PUF proteins.Nature chemical biology,7(7),425-427(2011)；Filipovska A和Rackham O.Modular recognition of nucleic acids by PUF,TALE andPPR proteins.Molecular BioSystems,8(3),699-708(2012)；Abil Z,Denard CA和ZhaoH.Modular assembly of designer PUF proteins for specific post-transcriptionalregulation of endogenous RNA.Journal of biological engineering,8(1),7(2014)；Zhao Y,Mao M,Zhang W,Wang J,Li H,Yang Y,Wang Z和Wu J.Expanding RNA bindingspecificity and affinity of engineered PUF domains.Nucleic Acids Research,46(9),4771–4782(2018)；Shinoda K,Tsuji S,Futaki S和Imanishi M.Nested PUFProteins:Extending Target RNA Elements for Gene Regulation.ChemBioChem,19(2),171-176(2018)；Koh YY,Wang Y,Qiu C,Opperman L,Gross L,Tanaka Hall TM和WickensM.Stacking Interactions in PUF-RNA Complexes.RNA,17(4),718-727(2011)。

因此，本领域熟知，人PUM1(1186个氨基酸)在蛋白质的C末端含有RNA结合结构域(RBD)(也称为Pumilio同源结构域PUM-HD氨基酸828-氨基酸1175)，并且PUF基于人PUM1的RBD。存在8个36个氨基酸的结构重复模块(除了具有43个氨基酸的模块7之外)，以用于RNA结合和侧接对蛋白质结构和稳定性重要的N末端和C末端区域。在每个重复模块中，氨基酸12、13和16对于RNA结合很重要，其中12和16负责RNA碱基识别。氨基酸13与RNA碱基堆叠，并可以被修饰以调节特异性和亲和力。可替代地，PUF设计可以保持氨基酸13作为人PUM1的天然残基。在本文公开的PUF(CAG)或PUMBY(CAG)组合物的一些实施方案中，氨基酸13(用于堆叠)将用H工程化，而在其他实施方案中，将用Y工程化。在一些实施方案中，可以修饰堆叠残基以改善结合和特异性。在反向方向上发生识别，因为N末端至C末端PUF识别3’至5’RNA。因此，本领域已知的8个模块(8PUF)的PUF工程化模拟人蛋白质。将如下设计示例性8聚体RNA识别(8PUF)：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一个实施方案中，将8PUF用作RBD。在另一个实施方案中，使用8PUF设计的变型来创建14聚体RNA识别(14PUF)RBD、15聚体RNA识别(15PUF)RBD或16聚体RNA识别(16PUF)RBD。在另一个实施方案中，可以将PUF工程化以包含4聚体、5聚体、6聚体、7聚体、8聚体、9聚体、10聚体、11聚体、12聚体、13聚体、14聚体、15聚体、16聚体、24聚体、30聚体、36聚体或其间任何数量的模块。Shinoda等人,2018；Criscuolo等人,2020。分别以SEQ ID NO:462-469随同提供了野生型PUM1人的重复1-8。编码来自人PUM1的PUF结构域的核酸序列是SEQ ID NO:470，并且来自人PUM1氨基酸828-1176的PUF结构域的氨基酸序列是SEQ ID NO:471。还参见美国专利9,580,714，将其以其整体并入本文。

在本公开文本的非指导的RNA结合融合蛋白的一些实施方案中，所述融合蛋白包含作为PUMBY(基于Pumilio的组装)蛋白的至少一种RNA结合蛋白或其RNA结合部分。已经以天然和修饰形式广泛用于靶向RNA的RNA结合蛋白PumHD已经被工程化为这样一种蛋白质结构，其被设计以产生一组四个规范蛋白质模块，其中的每一个靶向一个RNA碱基。这些模块(即，Pumby，代表基于Pumilio的组装)以不同组成和长度的链进行链状结合，以结合所需靶RNA。本质上，PUMBY是PumHD的一种更简单和模块化的形式，其中PumHD的单个蛋白质单元被串联成具有任意大小和结合序列特异性的阵列。此类Pumby-RNA相互作用的特异性高，且Pumby链与携带相对于靶序列的三个或更多个错配的RNA序列的结合不可检测。Katarzyna等人,PNAS,2016；113(19):E2579-E2588。还参见US2016/0238593，将其通过引用以其整体并入本文。

在本公开文本的组合物的一些实施方案中，所述第一RNA结合蛋白包含Pumilio和FBF(PUF)蛋白。在一些实施方案中，所述第一RNA结合蛋白包含基于Pumilio的组装(PUMBY)蛋白。在一些实施方案中，所述PUF或PUMBY RNA结合蛋白与核酸酶结构域如E17融合。

在本公开文本的组合物的一些实施方案中，至少一种RNA结合蛋白或其RNA结合部分是PPR蛋白。PPR蛋白(从植物衍生的具有三角状五肽重复(PPR)基序的蛋白质)是核编码的并且仅在RNA水平上受控制的细胞器(叶绿体和线粒体)，切割，翻译，剪接，RNA编辑，特异性作用于RNA稳定性的基因。PPR蛋白通常是35个氨基酸的基序，并且具有以下结构，其中PPR基序是约10个连续氨基酸。PPR基序的组合可以用于与RNA的序列选择性结合。PPR蛋白通常由约10个重复结构域的PPR基序构成。PPR结构域或RNA结合结构域可以被配置为无催化活性的。将WO 2013/058404通过引用以其整体并入本文。

在一些实施方案中，本文公开的融合蛋白在所述至少两种RNA结合多肽之间包含接头。在一些实施方案中，所述接头是肽接头。在一个实施方案中，所述接头是VDTANGS(SEQID NO:411)。在一些实施方案中，所述肽接头包含三肽GGS的一个或多个重复。在其他实施方案中，所述接头是非肽接头。在一些实施方案中，所述非肽接头包含聚乙二醇(PEG)、聚丙二醇(PPG)、共-聚(乙二醇/丙二醇)、聚氧乙烯(POE)、聚氨基甲酸酯、聚膦腈、多糖、葡聚糖、聚乙烯醇、聚乙烯吡咯烷酮、聚乙烯基乙醚、聚丙烯酰胺、聚丙烯酸酯、聚氰基丙烯酸酯、脂质聚合物、甲壳素、透明质酸、肝素或烷基接头。

在一些实施方案中，所述至少一种RNA结合蛋白不需要多聚化以用于RNA结合活性。在一些实施方案中，所述至少一种RNA结合蛋白不是多聚体复合物的单体。在一些实施方案中，多聚体蛋白复合物不包含所述RNA结合蛋白。在一些实施方案中，所述至少一种RNA结合蛋白与所述RNA分子内的靶序列选择性结合。在一些实施方案中，所述至少一种RNA结合蛋白不包含对所述RNA分子内的第二序列的亲和力。在一些实施方案中，所述至少一种RNA结合蛋白不包含对所述RNA分子内的第二序列的高亲和力或不选择性结合所述第二序列。在一些实施方案中，所述至少一种RNA结合蛋白包含在2个与1300个之间的氨基酸，包括端点。

在一些实施方案中，本文公开的融合蛋白的所述至少一种RNA结合蛋白还包含编码核定位信号(NLS)的序列。在一些实施方案中，核定位信号(NLS)定位于所述RNA结合蛋白的N末端。在一些实施方案中，所述至少一种RNA结合蛋白包含在所述蛋白质的C末端的NLS。在一些实施方案中，所述至少一种RNA结合蛋白还包含编码第一NLS的第一序列和编码第二NLS的第二序列。在一些实施方案中，所述第一NLS或所述第二NLS定位于所述RNA结合蛋白的N末端。在一些实施方案中，所述至少一种RNA结合蛋白包含在所述蛋白质的C末端的第一NLS或第二NLS。在一些实施方案中，所述至少一种RNA结合蛋白还包含NES(核输出信号)或其他肽标签或分泌信号。在一个实施方案中，所述标签是FLAG标签。

在一些实施方案中，本文公开的融合蛋白包含所述至少一种RNA结合蛋白作为第一RNA结合蛋白以及包含核酸酶结构域或由其组成的第二RNA结合蛋白。

在一些实施方案中，所述第二RNA结合多肽被可操作地配置到在所述第一RNA结合多肽的C末端的第一RNA结合多肽。在一些实施方案中，所述第二RNA结合多肽被可操作地配置到在所述第一RNA结合多肽的N末端的第一RNA结合多肽。在一个实施方案中，示例性融合蛋白是与第二RNA结合蛋白融合的基于PUF或PUMBY的第一RNA结合蛋白，所述第二RNA结合蛋白是SEQ ID NO:358中所示的称为ZC3H12A的锌指核酸内切酶或其截短(也称为E17)。

靶向AGCAGCAG(SEQ ID NO:472)的示例性8聚体RNA识别(8PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:444)。在一些方面，SEQ ID NO:444包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:444由表11中详述的序列组成。

表11：根据SEQ ID NO:444的8PUF蛋白

靶向GCAGCAGC(SEQ ID NO:476)的示例性8聚体RNA识别(8PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSYFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSNVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSNVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCRVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASNVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:656)。在一些方面，SEQ ID NO:656包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R8’。

在一些方面，本公开文本的PUF蛋白可以被修饰以用于改善堆叠。用于改善堆叠的可能的突变列于表T中。在一些实施方案中，PUF模块R1、R2、R3、R4、R5、R6、R7、R8、1’和8’可以以任何数量和任何顺序组合用于本公开文本的PUF蛋白中。

表T：PUF蛋白的堆叠突变

靶向AGCAGCAGCAGCAG(SEQ ID NO:473)的示例性14聚体RNA识别(14PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:445)。在一些方面，SEQ IDNO:445包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R6-R7-R8-R8’。在一些方面，SEQ ID NO:445由表12中详述的序列组成。

表12：根据SEQ ID NO:445的14PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNV

VEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:446)。在一些方面，SEQ ID NO:446包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:446由表13中详述的序列组成。

表13：根据SEQ ID NO:446的14PUF蛋白

靶向AGCAGCAGCAGCAGC(SEQ ID NO:474)的示例性15聚体RNA识别(15PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:447)。在一些方面，SEQ ID NO:447包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R6-R7-R8-R8’。在一些方面，SEQID NO:447由表14中详述的序列组成。

表14：根据SEQ ID NO:447的15PUF蛋白

/>

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:448)。在一些方面，SEQ ID NO:448包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R7-R8-R8’。在一些方面，SEQID NO:448由表15中详述的序列组成。

表15：根据SEQ ID NO:448的15PUF蛋白

/>

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:461)。在一些方面，SEQ ID NO:461包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQID NO:461由表16中详述的序列组成。

表16：根据SEQ ID NO:461的15PUF蛋白

/>

靶向AGCAGCAGCAGCAGCA(SEQ ID NO:475)的示例性16聚体RNA识别(16PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:449)。在一些方面，SEQ IDNO:449包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R8-R6-R7-R8-R8’。在一些方面，SEQ ID NO:449由表17中详述的序列组成。

表17：根据SEQ ID NO:449的16PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:450)。在一些方面，SEQ IDNO:450包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R7-R8-R8’。在一些方面，SEQ ID NO:450由表18中详述的序列组成。

表18：根据SEQ ID NO:450的16PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:451)。在一些方面，SEQ IDNO:451包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:451由表19中详述的序列组成。

表19：根据SEQ ID NO:451的16PUF蛋白

靶向CAGCAGCA(SEQ ID NO:453)的示例性8聚体RNA识别(8PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCYVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:480)。在一些方面，SEQ ID NO:480包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:480由表20中详述的序列组成。

表20：根据SEQ ID NO:480的8PUF蛋白

靶向CAGCAGCAGCAGCA(SEQ ID NO:454)的示例性14聚体RNA识别(14PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:481)。在一些方面，SEQ IDNO:481包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R6-R7-R8-R8’。在一些方面，SEQ ID NO:481由表21中详述的序列组成。

表21：根据SEQ ID NO:481的14PUF蛋白

/>

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:482)。在一些方面，SEQ IDNO:482包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:482由表22中详述的序列组成。

表22：根据SEQ ID NO:482的14PUF蛋白

靶向CAGCAGCAGCAGCAG(SEQ ID NO:455)的示例性15聚体RNA识别(15PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:483)。在一些方面，SEQ ID NO:483包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R6-R7-R8-R8’。在一些方面，SEQID NO:483由表23中详述的序列组成。

表23：根据SEQ ID NO:483的15PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:484)。在一些方面，SEQ ID NO:484包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R7-R8-R8’。在一些方面，SEQID NO:484由表24中详述的序列组成。

表24：根据SEQ ID NO:484的15PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:485)。在一些方面，SEQ ID NO:485包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQID NO:485由表25中详述的序列组成。

表25：根据SEQ ID NO:485的15PUF蛋白

/>

靶向CAGCAGCAGCAGCAGC(SEQ ID NO:456)的示例性16聚体RNA识别(16PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:486)。在一些方面，SEQ IDNO:486包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R8-R6-R7-R8-R8’。在一些方面，SEQ ID NO:486由表26中详述的序列组成。

表26：根据SEQ ID NO:486的16PUF蛋白

/>

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:487)。在一些方面，SEQ IDNO:487包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R7-R8-R8’。在一些方面，SEQ ID NO:487由表27中详述的序列组成。

表27：根据SEQ ID NO:487的16PUF蛋白

/>

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVRKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:488)。在一些方面，SEQ IDNO:488包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:488由表28中详述的序列组成。

表28：根据SEQ ID NO:488的16PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:549)。在一些方面，SEQ ID NO:549包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:549由表29中详述的序列组成。

表29：根据SEQ ID NO:549的8PUF蛋白

靶向GCAGCAGCAGCAGC(SEQ ID NO:477)的示例性14聚体RNA识别(14PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:550)。在一些方面，SEQ ID NO:550包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R6-R7-R8-R8’。在一些方面，SEQ ID NO:550由表30中详述的序列组成。

表30：根据SEQ ID NO:550的14PUF蛋白

/>

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSHVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSHVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:551)。在一些方面，SEQ IDNO:551包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:551由表31中详述的序列组成。

表31：根据SEQ ID NO:551的14PUF蛋白

靶向GCAGCAGCAGCAGCA(SEQ ID NO:478)的示例性15聚体RNA识别(15PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:552)。在一些方面，SEQ ID NO:552包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R6-R7-R8-R8’。在一些方面，SEQID NO:552由表32中详述的序列组成。

表32：根据SEQ ID NO:552的15PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:553)。在一些方面，SEQ ID NO:553包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R7--R8-R8’。在一些方面，SEQID NO:553由表33中详述的序列组成。

表33：根据SEQ ID NO:553的15PUF蛋白

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSHVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:554)。在一些方面，SEQ ID NO:554包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQID NO:554由表34中详述的序列组成。

表34：根据SEQ ID NO:554的15PUF蛋白

靶向GCAGCAGCAGCAGCAG(SEQ ID NO:479)的示例性16聚体RNA识别(16PUF)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSH VVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:555)。在一些方面，SEQID NO:555包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R1-R2-R3-R4-R5-R6-R7-R8-R6-R7-R8-R8’。在一些方面，SEQ ID NO:555由表35中详述的序列组成。

表35：根据SEQ ID NO:555的16PUF蛋白

/>

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:556)。在一些方面，SEQ IDNO:556包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R1-R2-R3-R4-R5-R6-R7-R8-R7-R8-R8’。在一些方面，SEQ ID NO:556由表36中详述的序列组成。

表36：根据SEQ ID NO:556的16PUF蛋白

/>

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSH VVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:557)。在一些方面，SEQID NO:557包含从N末端至C末端根据以下进行的结构：R1’-R1-R2-R3-R4-R5-R6-R7-R8-R1-R2-R3-R4-R5-R6-R7-R8-R8’。在一些方面，SEQ ID NO:557由表37中详述的序列组成。

表37：根据SEQ ID NO:557的16PUF蛋白

/>

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSHVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:568)。

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:569)。

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:570)。

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIQLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIRKFFEFGSLEQKLALAERIRGHVLSLALQMYGSRVIEKALEFIPSDQQNEMVRELDGHVLKCVKDQNGCHVVQKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIRRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFACNVVQKCVTHASRTERAVLIDEVCTMNDGPHSHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:571)。

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:572)。

GRSRLLEDFRNNRYPNLQLREIAGHIMEFSQDQHGSRFIELKLERATPAERQLVFNEILQAAYQLMVDVFGCYVIQKFFEFGSLEQKLALAERIRGHVLSLALQMYGSYVIRKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVEKCIECVQPQSLQFIIDAFKGQVFALSTHPYGCRVIQRILEHCLPDQTLPILEELHQHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASNVVEKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYACYVVQKMIDVAEPGQRKIVMHKIRPHIMEFSQDQHGSRFIRLKLERATPAERQLVFNEILQAAYQLMVDVFGSYVIEKFFEFGSLEQKLALAERIRGHVLSLALQMYGCRVIQKALEFIPSDQQNEMVRELDGHVLKCVKDQNGSYVVRKCIECVQPQSLQFIIDAFKGQVFALSTHPYGSRVIERILEHCLPDQTLPILEELHQHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGNVLVLSQHKFASYVVRKCVTHASRTERAVLIDEVCTMNDGPHSALYTMMKDQYASYVVEKMIDVAEPGQRKIVMHKIRPHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:573)。

在一些实施方案中，本公开文本的编码PUF蛋白的核酸序列是密码子优化的核酸序列。在一些实施方案中，在人受试者中，编码PUF蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的表达。在一些实施方案中，本公开文本的8PUF蛋白由包含SEQ ID NO:576或581的核酸序列编码。在一些实施方案中，编码靶向CAG的融合蛋白的核苷酸序列从5’至3’包含：flag标签、H2B核定位序列、8PUF和E17核酸酶，如SEQ ID NO:578中所示。在一些实施方案中，编码靶向CAG的融合蛋白的核苷酸序列从5’至3’包含：H2B核定位序列、8PUF、E17核酸酶和PKI NES，如SEQ ID NO:575中所示。在一些实施方案中，编码靶向CAG的融合蛋白的核苷酸序列从5’至3’包含：H2B核定位序列、8PUF和E17核酸酶，如SEQ ID NO:577中所示。在一些实施方案中，编码靶向CAG的融合蛋白的核苷酸序列从5’至3’包含：H2B核定位序列、8PUF和E17核酸酶，如SEQ ID NO:579中所示。在一些实施方案中，编码靶向CAG的融合蛋白的核苷酸序列从5’至3’包含：H2B核定位序列、8PUF、E17核酸酶和PKI核输出序列，如SEQ ID NO:574中所示。在一些实施方案中，编码靶向CAG的融合蛋白的核苷酸序列从5’至3’包含：RB NLS、8PUF和E17核酸酶，如SEQID NO:580或582中所示。

在一些实施方案中，本公开文本的编码PUF蛋白的核酸序列是密码子优化的核酸序列。在一些实施方案中，在人受试者中，编码PUF蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的翻译。

在一些方面，编码PUF蛋白的密码子优化的核酸序列(如SEQ ID NO:574-582中所示的那些)展现出增加的稳定性。在一些方面，编码PUF蛋白的密码子优化的核酸序列通过增加的对水解的抗性展现出增加的稳定性。在一些实施方案中，编码PUF蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的稳定性。在一些实施方案中，在人受试者中，编码PUF蛋白的密码子优化的序列相对于野生型或非密码子优化的核酸序列展现出至少5％、至少10％、至少20％、至少30％、至少50％、至少75％、至少100％、至少200％、至少300％、至少500％或至少1000％增加的对水解的抗性。

在一些方面，编码PUF蛋白的密码子优化的核酸序列(如SEQ ID NO:574-582中所示的那些)可以不包含供体剪接位点。在一些方面，编码PUF蛋白的密码子优化的核酸序列可以包含不超过约一个、或约两个、或约三个、或约四个、或约五个、或约六个、或约七个、或约八个、或约九个、或约十个供体剪接位点。在一些方面，与编码PUF蛋白的非密码子优化的核酸序列相比，编码PUF蛋白的密码子优化的核酸序列包含少至少一个、或至少两个、或至少三个、或至少四个、或至少五个、或至少六个、或至少七个、或至少八个、或至少九个、或至少十个的供体剪接位点。

不希望受理论束缚，在密码子优化的核酸序列中去除供体剪接位点可以出乎意料地且不可预测地增加体内PUF蛋白的表达，因为阻止了隐蔽剪接。此外，隐蔽剪接在不同受试者之间可能变化，这意味着包含供体剪接位点的PUF蛋白的表达水平在不同受试者之间可能不可预测地变化。这种不可预测性在人类疗法的背景下是不可接受的。因此，SEQ IDNO:574-582中所示的缺乏供体剪接位点的密码子优化的核酸序列出乎意料地且令人惊讶地允许人受试者中PUF蛋白的表达增加，并且使不同人受试者中PUF蛋白的表达规范化。

在一些方面，编码PUF蛋白的密码子优化的核酸序列(如SEQ ID NO:574-582中所示的那些)可以具有与编码PUF蛋白的非密码子优化的核酸序列的GC含量不同的GC含量。在一些方面，与编码PUF蛋白的非密码子优化的核酸序列相比，编码PUF蛋白的密码子优化的核酸序列的GC含量更均匀地分布在整个核酸序列上。

在一些方面，与编码PUF蛋白的非密码子优化的核酸序列相比，编码PUF蛋白的密码子优化的核酸序列(如SEQ ID NO:574-582中所示的那些)可以具有更少的抑制性微小RNA靶结合位点。在一些方面，与编码PUF蛋白的非密码子优化的核酸序列相比，编码PUF蛋白的密码子优化的核酸序列可以具有少至少一个、或至少两个、或至少三个、或至少四个、或至少五个、或至少六个、或至少七个、或至少八个、或至少九个、或至少十个、或至少十个的抑制性微小RNA靶结合位点。

不希望受到理论的束缚，通过具有更少的抑制性微小RNA靶结合位点，编码PUF蛋白的密码子优化的核酸序列出乎意料地在人受试者中展现出增加的表达。

在一些实施方案中，8PUF蛋白可以由包含以下的核酸序列编码：

GGACGAAGCCGACTCTTGGAAGACTTCAGAAACAATCGGTATCCGAACCTTCAGCTGAGAGAAATTGCTGGTCACATCATGGAATTTTCTCAAGATCAACATGGAAGCCGGTTTATTGAACTTAAACTCGAACGAGCCACCCCGGCCGAAAGGCAATTGGTGTTCAATGAAATTCTTCAGGCCGCATACCAACTCATGGTTGATGTTTTTGGGAACTATGTTATTCAAAAGTTTTTTGAGTTCGGGTCACTGGAGCAAAAGTTGGCATTGGCAGAGCGAATCCGGGGCCATGTTCTGAGCCTCGCTCTCCAAATGTACGGTAGTTATGTCATTCGCAAAGCACTCGAGTTCATACCATCAGATCAACAGAATGAGATGGTGCGGGAGCTGGATGGGCATGTTTTGAAATGCGTGAAAGACCAAAACGGTAGCTACGTAGTTGAGAAATGCATCGAATGCGTCCAACCACAGTCTCTCCAATTTATTATAGATGCATTTAAGGGTCAGGTTTTCGCGCTTTCTACGCACCCGTATGGGAACCGAGTGATTCAGAGAATCTTGGAGCACTGCCTGCCGGATCAGACACTCCCTATCTTGGAGGAATTGCACCAGCATACCGAACAATTGGTGCAAGATCAATACGGTTCATATGTTATTCGGCACGTTCTTGAGCATGGAAGGCCAGAGGACAAGTCAAAGATCGTCGCTGAGATTAGAGGTAACGTATTGGTGCTCTCACAACACAAATTTGCATCTAATGTGGTGGAGAAATGTGTTACTCATGCTTCTAGAACGGAAAGGGCAGTTCTCATAGACGAAGTTTGCACAATGAATGATGGTCCTCATAGCGCACTTTATACCATGATGAAGGACCAGTATGCAAACTATGTCGTCCAGAAAATGATCGATGTGGCGGAGCCCGGTCAACGGAAAATCGTGATGCACAAAATCCGACCTCACATTGCTACACTCAGAAAATACACGTATGGAAAACATATTCTGGCTAAGCTGGAGAAATATTACATGAAGAATGGAGTGGATCTGGGG(SEQ IDNO:452)。

靶向CAGCAGCAGCAGCA(SEQ ID NO:454)的示例性14聚体RNA识别(14PUMBY)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:548)。在一些方面，SEQ ID NO:548包含从N末端至C末端根据以下进行的结构：R1’-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R8’。在一些方面，SEQ ID NO:548由表38中详述的序列组成。

表38：根据SEQ ID NO:548的14Pumby蛋白

靶向GCAGCAGCAGCAGC(SEQ ID NO:477)的示例性14聚体RNA识别(14PUMBY)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:558)。在一些方面，SEQ ID NO:558包含从N末端至C末端根据以下进行的结构：R1’-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R8’。在一些方面，SEQ ID NO:558由表39中详述的序列组成。

表39：根据SEQ ID NO:558的14Pumby蛋白

靶向AGCAGCAGCAGCAG(SEQ ID NO:473)的示例性14聚体RNA识别(14PUMBY)包含氨基酸序列：

GRSRLLEDFRNNRYPNLQLREIAGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIRHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGSYVIEHVLEHGRPEDKSKIVAEIRGHTEQLVQDQYGCYVIQHVLEHGRPEDKSKIVAEIRGHIATLRKYTYGKHILAKLEKYYMKNGVDLG(SEQ ID NO:547)。在一些方面，SEQ ID NO:547包含从N末端至C末端根据以下进行的结构：R1’-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R6-R8’。在一些方面，SEQ ID NO:547由表40中详述的序列组成。

表40：根据SEQ ID NO:547的14Pumby蛋白

在一些方面，本公开文本的融合蛋白包含根据SEQ ID NO:444-451、461、480-488或549-557的PUF。在一些方面，将本公开文本的融合蛋白从N末端至C末端如表41-49中的任一个所示布置。

表41：示例性8PUF靶向CAG融合蛋白

表42：示例性8PUF靶向CAG融合蛋白

表43：示例性8PUF靶向CAG融合蛋白

表44：示例性14PUF靶向CAG融合蛋白

表45：示例性8PUF靶向CAG融合蛋白

表46：示例性8PUF靶向CAG融合蛋白

表47：示例性8PUF靶向CAG融合蛋白

表48：示例性8PUF靶向CAG融合蛋白

/>

表49：示例性8PUF靶向CAG融合蛋白

含堆叠突变(C结合突变型)的含或不含核酸内切酶的靶向CAGf2的8PUF

/>

以N末端至C末端的顺序的转基因元件的氨基酸序列(用于*切割或阻断)：

载体

在本公开文本的组合物和方法的一些实施方案中，载体包含本公开文本的指导RNA。在一些实施方案中，所述载体包含本公开文本的至少一种指导RNA。在一些实施方案中，所述载体包含本公开文本的一种或多种指导RNA。在一些实施方案中，所述载体包含本公开文本的两种或更多种指导RNA。在一个实施方案中，所述载体包含三种指导RNA。在一个实施方案中，所述载体包含四种指导RNA。在一些实施方案中，所述载体进一步包含本公开文本的指导的或非指导的RNA结合蛋白。在一些实施方案中，所述载体进一步包含本公开文本的RNA结合融合蛋白。在一些实施方案中，所述融合蛋白包含第一RNA结合蛋白和第二RNA结合蛋白。在一些实施方案中，包含RNA结合蛋白和gRNA的RNA指导的RNA结合系统是在单个载体中。在一个具体实施方案中，单个载体包含RNA指导的RNA结合系统，所述RNA指导的RNA结合系统是Cas13d RNA指导的RNA结合系统或催化失活的Cas13d(dCas13d)RNA指导的RNA结合系统。在一个实施方案中，单个载体包含Cas13d RNA指导的RNA结合系统，所述Cas13dRNA指导的RNA结合系统是CasRx或dCasRx RNA指导的RNA结合系统。在另一个实施方案中，单个载体包含非指导的RNA结合系统，所述非指导的RNA结合系统包含与来自ZC3H12A的核酸酶结构域如E17(SEQ ID NO:358)融合的基于PUF或PUMBY的蛋白质。在另一个实施方案中，单个载体包含dCas13d RNA结合系统，所述dCas13d RNA结合系统与来自ZC3H12A的核酸酶结构域如E17(SEQ ID NO:359)融合。

在本公开文本的组合物和方法的一些实施方案中，第一载体包含本公开文本的指导RNA，并且第二载体包含本公开文本的RNA结合蛋白或RNA结合融合蛋白。在一些实施方案中，所述第一载体包含本公开文本的至少一种指导RNA。在一些实施方案中，所述第一载体包含本公开文本的一种或多种指导RNA。在一些实施方案中，所述第一载体包含本公开文本的两种或更多种指导RNA。在一些实施方案中，所述融合蛋白包含第一RNA结合蛋白和第二RNA结合蛋白。在一些实施方案中，所述第一载体和所述第二载体是相同的载体或载体血清型。在一些实施方案中，所述第一载体和所述第二载体不是相同的载体或载体血清型。在本公开文本的组合物和方法的一些实施方案中，能够靶向毒性CAG RNA重复的RNA结合系统是在单个载体中。

一种类型的载体是“质粒”，其是指可以在其中插入(如通过标准分子克隆技术)另外的DNA区段的环状双链DNA环。另一种类型的载体是病毒载体，其中病毒来源的DNA或RNA序列存在于载体中以包装成病毒(例如逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒和腺相关病毒)。病毒载体还包含病毒携带的用于转染至宿主细胞中的多核苷酸。在一些实施方案中，所述载体是慢病毒(如整合缺陷型慢病毒载体)或腺相关病毒(AAV)载体。载体能够在其被引入的宿主细胞中自主复制(例如像具有细菌复制起点的细菌载体和附加体哺乳动物载体以及其他载体，例如像非附加体哺乳动物载体)，在引入宿主细胞后整合到宿主细胞的基因组中，从而与宿主基因组一起复制。

在一些实施方案中，载体(例如像表达载体)能够指导它们可操作连接的基因的表达。常见的表达载体通常呈质粒的形式。在一些实施方案中，重组表达载体包含本文提供的核酸(例如像可从DNA序列表达的指导RNA)和编码Cas 13d蛋白的呈适于在宿主细胞中表达蛋白质的形式的核酸。重组表达载体包含一个或多个调节元件，所述一个或多个调节元件是基于要用于表达的宿主细胞选择的，所述一个或多个调节元件可操作地连接至待表达的核酸序列。在重组表达载体中，“可操作地连接”旨在意指目的核苷酸序列与一个或多个调节元件以允许所述核苷酸序列表达(例如像在体外转录/翻译系统中或将载体引入宿主细胞时在宿主细胞中)的方式连接。载体的某些实施方案取决于这样的因素，如待转化的宿主细胞的选择以及所需的表达水平。可以将载体引入宿主细胞中，从而产生由如本文所述的核酸编码的转录物、蛋白质或肽(包括融合蛋白或肽)，例如像CRISPR转录物、蛋白质、酶、其突变型形式、其融合蛋白等。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的载体是病毒载体。在一些实施方案中，所述病毒载体包含从逆转录病毒分离或衍生的序列。在一些实施方案中，所述病毒载体包含从慢病毒分离或衍生的序列。在一些实施方案中，所述病毒载体包含从腺病毒分离或衍生的序列。在一些实施方案中，所述病毒载体包含从腺相关病毒(AAV)分离或衍生的序列。在一些实施方案中，所述病毒载体无复制能力。在一些实施方案中，所述病毒载体是分离的或重组的。在一些实施方案中，所述病毒载体是自身互补的。

如本文所用的术语“腺相关病毒”或“AAV”是指与此名称相关并且属于细小病毒科(Parvoviridae)依赖细小病毒属(Dependoparvovirus)的一类病毒的成员。腺相关病毒是在细胞中生长的单链DNA病毒，其中某些功能由共同感染的辅助病毒提供。AAV的一般信息和综述可以在例如Carter,1989,Handbook of Parvoviruses,第1卷,第169-228页和Berns,1990,Virology,第1743-1764页,Raven Press,(New York)中找到。完全可以预期，这些综述中描述的相同原则将适用于在综述发表日期之后表征的另外的AAV血清型，因为众所周知，各种血清型在结构和功能上甚至在遗传水平上都非常密切相关。(参见例如，Blacklowe,1988,Parvoviruses and Human Disease,第165-174页,J.R.Pattison编辑；和Rose,Comprehensive Virology 3:1-61(1974))。例如，所有AAV血清型显然都展现出由同源rep基因介导的非常相似的复制特性；并且都带有三种相关的衣壳蛋白，如在AAV2中表达的那些。异源双链分析进一步表明了相关性的程度，所述分析揭示了血清型之间沿基因组长度的广泛的交叉杂交；以及在末端对应于“反向末端重复序列”(ITR)的类似自退火区段的存在。相似的感染性模式也表明每种血清型中的复制功能都是在相似的调节控制之下。已知此病毒的多种血清型适用于基因递送；所有已知的血清型均可以感染来自各种组织类型的细胞。

AAV具有独特的功能，使其具有作为例如在基因疗法中用于将外来DNA递送到细胞的载体的吸引力。培养物中细胞的AAV感染是非致细胞病变的，并且人和其他动物的自然感染是沉默的且无症状的。此外，AAV感染许多哺乳动物细胞，从而有可能在体内靶向许多不同的组织。此外，AAV转导缓慢分裂细胞和非分裂细胞，并且可以在这些细胞的整个生命周期中作为有转录活性的核附加体(染色体外元件)基本上持续存在。将AAV前病毒基因组作为克隆的DNA插入质粒中，这使得重组基因组的构建可行。此外，因为指导AAV复制和基因组衣壳化的信号包含在AAV基因组的ITR内，所以内部约4.3kb的基因组的一些或全部(编码复制和结构衣壳蛋白，rep-cap)可以被外来DNA替代以产生AAV载体。可以提供呈反式的rep和cap蛋白。AAV的另一个重要特征是它是一个极其稳定和强健的病毒。它很容易承受用于灭活腺病毒的条件(56℃至65℃持续数小时)，使得冷藏保存AAV不那么重要。AAV甚至可以被冻干。最后，AAV感染的细胞对重复感染没有抵抗力。

本发明的重组AAV(rAAV)基因组包含编码靶向CAG重复的组合物(例如PUF、PUMBY或RNA指导的蛋白质)的核酸分子和侧接所述核酸分子的一种或多种AAV ITR，基本上由其组成或由其组成。假型化rAAV的生产披露于例如WO 2001083692中。还考虑了其他类型的rAAV变体，例如具有衣壳突变的rAAV。参见例如，Marsic等人,Molecular Therapy,22(11):1900-1909(2014)。各种AAV血清型的基因组的核苷酸序列是本领域已知的。

在本公开文本的组合物和方法的一些实施方案中，所述病毒载体包含从腺相关病毒(AAV)分离或衍生的序列。在一些实施方案中，所述病毒载体包含从血清型AAV1、AAV2、AAV3、AAV4、AAV5、AAV6、AAV7、AAV8、AAV9、AAV10(AAVrh10)、AAV11或AAV12的AAV分离或衍生的反向末端重复序列或衣壳序列。在一些实施方案中，所述AAV血清型是AAVrh.74。在一个实施方案中，所述AAV载体包含经修饰的衣壳。在一个实施方案中，所述AAV载体是AAV2-Tyr突变型载体。在一个实施方案中，所述AAV载体包含在对应于野生型AAV2的位置Tyr252、Tyr272、Tyr275、Tyr281、Tyr508、Tyr612、Tyr704、Tyr720、Tyr730或Tyr673中的表面暴露的酪氨酸残基的位置处具有非酪氨酸氨基酸的衣壳。还参见WO 2008/124724，以其整体并入本文。在一些实施方案中，所述AAV载体包含工程化衣壳。包含工程化衣壳的AAV载体包括但不限于AAV2.7m8、AAV9.7m8、AAV2 2tYF和AAV8 Y733F。在一些实施方案中，所述病毒载体无复制能力。在一些实施方案中，所述病毒载体是分离的或重组的(rAAV)。在一些实施方案中，所述病毒载体是自身互补的(scAAV)。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的载体是非病毒载体。在一些实施方案中，所述载体包含以下项或由以下项组成：纳米颗粒、胶束、脂质体或阳离子脂质体/DNA复合物、聚合物囊泡、多聚复合物或树状聚合物。在一些实施方案中，所述载体是表达载体或重组表达系统。如本文所用，术语“重组表达系统”是指用于表达通过重组形成的某些遗传物质的遗传构建体。

在本公开文本的组合物和方法的一些实施方案中，本文提供的表达载体、病毒载体或非病毒载体包括但不限于表达控制元件。如本文所用的“表达控制元件”是指调节编码序列如基因的表达的任何序列。示例性表达控制元件包括但不限于启动子、增强子、微小RNA、转录后调节元件、多聚腺苷酸化信号序列和内含子。例如，表达控制元件可以是组成型的、诱导型的、阻抑型的或组织特异性的。“启动子”是以下控制序列，其是多核苷酸序列中控制转录起始和速率的区域。它可以含有调节蛋白和分子可以结合的遗传元件，如RNA聚合酶和其他转录因子。在一些实施方案中，启动子对表达的控制是组织特异性的。在一些实施方案中，启动子对表达的控制是组成型的或遍在的。非限制性示例性启动子包括Pol III启动子(例如像U6和H1启动子)和/或Pol II启动子，例如SV40、CMV(任选地包括CMV增强子)、RSV(劳斯肉瘤病毒LTR启动子(任选地包括RSV增强子))、CBA(杂合CMV增强子/鸡β-肌动蛋白)、CAG(与鸡β-肌动蛋白融合的杂合CMV增强子)、截短的CAG、Cbh(杂合CBA)、EF-1a(人延伸因子α-1)或EFS(短的少内含子的EF-1α)、PGK(磷酸甘油激酶)、CEF(鸡胚成纤维细胞)、UBC(泛素C)、GUSB(溶酶体酶β-葡糖醛酸糖苷酶)、UCOE(遍在染色质开放元件)、hAAT(α-1抗胰蛋白酶)、TBG(甲状腺素结合球蛋白)、结蛋白(全长(SEQ ID NO:654)或截短的(SEQ IDNO:655))、MCK(肌肉肌酸激酶)、C5-12(合成的肌肉启动子)、CK8e(肌酸激酶8)、NSE(神经元特异性烯醇化酶)、突触素、突触素-1(SYN-1)、视蛋白、PDGF(血小板源性生长因子)、PDGF-A、MecP2(甲基CpG结合蛋白2)、CaMKII(钙/钙调蛋白依赖性蛋白激酶II)、mGluR2(代谢型谷氨酸受体2)、NFL(神经丝轻链)、NFH(神经丝重链)、nβ2、PPE(大鼠前脑啡肽原)、ENK(前脑啡肽原)、前脑啡肽原-神经丝嵌合启动子、EAAT2(谷氨酸转运蛋白)、GFAP(胶质纤维酸性蛋白)、MBP(髓磷脂碱性蛋白质)、人视紫红质激酶启动子(hGRK1)、β-肌动蛋白启动子、二氢叶酸还原酶启动子、MHCK7(肌肉肌酸激酶和α肌球蛋白重链基因的增强子/启动子区的杂合启动子)及其组合。“增强子”是DNA中可以由激活蛋白结合以增加转录的可能性或频率的区域。非限制性示例性增强子和转录后调节元件包括CMV增强子、MCK增强子、HTLV-1的LTR中的R-U5’区段、SV40增强子、兔β-珠蛋白的外显子2与外显子3之间的内含子序列和土拨鼠肝炎病毒(WHP)转录后调节元件(WPRE)。在一些实施方案中，使用内含子如UBB内含子来增强启动子活性。在一些实施方案中，将UBB内含子与EFS启动子一起使用。

在本公开文本的组合物和方法的一些实施方案中，本文提供的表达载体、病毒载体或非病毒载体包括但不限于用于配置“多顺反子(multicistronic)”或“多顺反子(polycistronic)”或“双顺反子”或“三顺反子”构建体(即，具有双或三或多编码区或外显子)的载体元件(如IRES或2A肽位点)，并且因此将具有从mRNA表达来自单一构建体的两种或更多种蛋白质的能力。多顺反子载体从同一mRNA同时表达两种或更多种单独蛋白质。最广泛用于构建多顺反子配置的两种策略是通过使用IRES或2A自切割位点。“IRES”是指用于多顺反子载体构建体内的病毒、原核或真核来源的内部核糖体进入位点或其部分。在一些实施方案中，IRES是允许以非帽依赖性方式进行翻译起始的RNA元件。术语“自切割肽”或“编码自切割肽的序列”或“2A自切割位点”是指在载体构建体内用于并入位点以促进核糖体跳跃且因此从单一启动子产生两种多肽的连接序列，此类自切割肽包括但不限于T2A和P2A肽或编码自切割肽的其他序列。

在一个实施方案中，示例性载体配置示于图4A-图4C中。示例性载体配置包含驱动编码靶向CAG的PUF-核酸内切酶融合物的核酸表达的启动子或调节序列(启动子/增强子组合)。在另一个实施方案中，载体配置包含驱动RNA指导的Cas RNA酶RNA结合蛋白表达的启动子，或与驱动同源gRNA表达的第二启动子可操作连接的dCas蛋白融合物。在另一个实施方案中，载体配置包含接头和一个或多个标签。

在一些实施方案中，所述载体是病毒载体。在一些实施方案中，所述载体是腺病毒载体、腺相关病毒(AAV)载体或慢病毒载体。在一些实施方案中，所述载体是逆转录病毒载体、腺病毒/逆转录病毒嵌合体载体、单纯疱疹病毒I或II载体、细小病毒载体、网状内皮组织增殖病病毒载体、脊髓灰质炎病毒载体、乳头状瘤病毒载体、痘苗病毒载体或者并入两种或更多种病毒载体的有利方面的任何杂合或嵌合载体。在一些实施方案中，所述载体还包含与多核苷酸可操作地连接的一种或多种表达控制元件。在一些实施方案中，所述载体还包含一种或多种选择标记物。在一些实施方案中，所述AAV载体具有低毒性。在一些实施方案中，所述AAV载体不并入宿主基因组中，从而具有低的引起插入诱变的概率。在一些实施方案中，所述AAV载体可以编码4.5kb至4.75kb的一系列总多核苷酸。在一些实施方案中，可以用于任何本文所述的组合物、系统、方法和试剂盒中的示例性AAV载体可以包括AAV1载体、经修饰的AAV1载体、AAV2载体、经修饰的AAV2载体、AAV2-Tyr突变型载体、AAV3载体、经修饰的AAV3载体、AAV4载体、经修饰的AAV4载体、AAV5载体、经修饰的AAV5载体、AAV6载体、经修饰的AAV6载体、AAV7载体、经修饰的AAV7载体、AAV8载体、AAV9载体、AAV.rh10载体、经修饰的AAV.rh10载体、AAVrh.74、AAV.rh32/33载体、经修饰的AAV.rh32/33载体、AAV.rh43载体、经修饰的AAV.rh43载体、AAV.rh64R1载体和经修饰的AAV.rh64R1载体、AAV-Tyr突变型载体及其任何组合或等效物。在一些实施方案中，所述慢病毒载体是有整合酶能力的慢病毒载体(integrase-competent lentiviral vector，ICLV)。在一些实施方案中，所述慢病毒载体可以是指转基因质粒载体，以及与相关质粒(例如，包装质粒、rev表达质粒、包膜质粒)结合的转基因质粒载体，以及能够通过病毒或病毒样进入机制将外源核酸引入细胞中的基于慢病毒的颗粒。慢病毒载体是本领域中熟知的(参见例如，Trono D.(2002)Lentiviral vectors,New York:Spring-Verlag Berlin Heidelberg和Durand等人(2011)Viruses 3(2):132-159doi:10.3390/v3020132)。在一些实施方案中，可以用于任何本文所述的组合物、系统、方法和试剂盒中的示例性慢病毒载体可以包括人免疫缺陷病毒(HIV)1载体、经修饰的人免疫缺陷病毒(HIV)1载体、人免疫缺陷病毒(HIV)2载体、经修饰的人免疫缺陷病毒(HIV)2载体、白领白眉猴(sooty mangabey)猿猴免疫缺陷病毒(SIV_SM)载体、经修饰的白领白眉猴猿猴免疫缺陷病毒(SIV_SM)载体、非洲绿猴猿猴免疫缺陷病毒(SIV_AGM)载体、经修饰的非洲绿猴猿猴免疫缺陷病毒(SIV_AGM)载体、马传染性贫血病毒(EIAV)载体、经修饰的马传染性贫血病毒(EIAV)载体、猫免疫缺陷病毒(FIV)载体、经修饰的猫免疫缺陷病毒(FIV)载体、维斯纳/梅迪病毒(Visna/maedi virus)(VNV/VMV)载体、经修饰的维斯纳/梅迪病毒(VNV/VMV)载体、羊关节炎-脑炎病毒(CAEV)载体、经修饰的羊关节炎-脑炎病毒(CAEV)载体、牛免疫缺陷病毒(BIV)或经修饰的牛免疫缺陷病毒(BIV)。

核酸

本文提供了编码本文公开的RNA结合CAG重复靶向系统的核酸序列，其用于本文所述的基因转移和表达技术中。虽然没有总是明确陈述，但是应当理解，本文提供的序列可以用于提供表达产物以及产生具有相同生物特性的蛋白质的基本上相同的序列。这些“生物等效的”或“生物活性的”或“等效的”多肽是由如本文所述的等效多核苷酸编码的。当使用在默认条件下运行的序列同一性方法比较时，它们可以具有与参考多肽至少60％、或可替代地至少65％、或可替代地至少70％、或可替代地至少75％、或可替代地至少80％、或可替代地至少85％、或可替代地至少90％、或可替代地至少95％、或可替代地至少98％相同的初级氨基酸序列。提供了特定多肽序列作为具体实施方案的例子。用具有类似电荷的可替代氨基酸对序列中的氨基酸进行修饰。另外，等效多核苷酸是在严格条件下与参考多核苷酸或其互补体杂交的多核苷酸，或者就多肽而言，是由在严格条件下与参考编码多核苷酸或其互补链杂交的多核苷酸编码的多肽。可替代地，等效多肽或蛋白质是从等效多核苷酸表达的多肽或蛋白质。

本文公开的核酸序列(例如，多核苷酸序列)可以是密码子优化的，密码子优化是本领域熟知的技术。在本文公开的一些实施方案中，将示例性Cas序列，例如像编码SEQ IDNO:92(称为CasRx的Cas13d)的核酸序列或编码SEQ ID NO:298(称为CasRx的Cas13d)的核酸序列针对在人细胞中表达进行密码子优化。密码子优化涉及以下事实，即不同细胞在对特定密码子的使用方面有所不同。该密码子偏倚对应于特定tRNA在细胞类型中的相对丰度的偏倚。通过改变序列中的密码子以与相应tRNA的相对丰度匹配，可能增加表达。还可能通过故意选择已知相应tRNA在特定细胞类型中罕见的密码子来减少表达。哺乳动物细胞以及多种其他生物的密码子使用表是本领域中已知的。基于遗传密码，可以产生编码例如Cas蛋白的核酸序列。在一些实施方案中，这样的序列被优化以用于在宿主细胞或靶细胞中表达，所述宿主细胞或靶细胞是如用于表达Cas蛋白的宿主细胞或在其中实践所公开方法的细胞(如在哺乳动物细胞例如人细胞中)。特定物种的密码子偏好和密码子使用表可以用于利用该特定物种的密码子使用偏好，工程化分离的编码Cas蛋白的核酸分子(如编码与其相应野生型蛋白具有至少80％、至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的蛋白质的核酸分子)。例如，本文公开的Cas蛋白可以被设计为具有特定目标生物优先使用的密码子。在一个例子中，Cas核酸序列被优化以用于在人细胞中表达，如与其相应野生型或起源核酸序列具有至少70％、至少80％、至少85％、至少90％、至少92％、至少95％、至少98％或至少99％序列同一性的Cas核酸序列。在一些实施方案中，编码至少一种Cas蛋白(其可能是载体的一部分)的分离的核酸分子包括被密码子优化以用于在真核细胞中表达的至少一个Cas蛋白编码序列或被密码子优化以用于在人细胞中表达的至少一个Cas蛋白编码序列。在一个实施方案中，这样的密码子优化的Cas编码序列与其相应野生型或起源序列具有至少80％、至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性。在另一个实施方案中，真核细胞密码子优化的核酸序列编码与其相应野生型或起源蛋白具有至少85％、至少90％、至少92％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的Cas蛋白。在另一个实施方案中，可以常规地产生含有功能等效核酸的多个克隆，所述功能等效核酸是如序列不同但编码相同Cas蛋白序列的核酸。编码序列中的沉默突变是由于遗传密码的简并性(即，冗余)所致，借此多于一种密码子可以编码相同氨基酸残基。因此，例如，亮氨酸可以由CTT、CTC、CTA、CTG、TTA或TTG编码；丝氨酸可以由TCT、TCC、TCA、TCG、AGT或AGC编码；天冬酰胺可以由AAT或AAC编码；天冬氨酸可以由GAT或GAC编码；半胱氨酸可以由TGT或TGC编码；丙氨酸可以由GCT、GCC、GCA或GCG编码；谷氨酰胺可以由CAA或CAG编码；酪氨酸可以由TAT或TAC编码；并且异亮氨酸可以由ATT、ATC或ATA编码。显示标准遗传密码的表格可以在多个来源(参见例如，Stryer,1988,Biochemistry,第3版,W.H.5Freeman andCo.,NY)发现。

“杂交”是指一种或多种多核苷酸反应形成通过核苷酸残基的碱基之间的氢键合稳定化的复合物的反应。氢键合可以通过Watson-Crick碱基配对、Hoogstein结合或以任何其他序列特异性方式来进行。所述复合物可以包含形成双链体结构的两条链、形成多链复合物的三条或更多条链、单条自杂交链或这些的任何组合。杂交反应可以构成更广泛过程(如PC反应的起始或核酶对多核苷酸的酶促切割)中的步骤。

严格杂交条件的例子包括：约25℃至约37℃的孵育温度；约6x SSC至约10x SSC的杂交缓冲液浓度；约0％至约25％的甲酰胺浓度；以及约4x SSC至约8x SSC的洗涤溶液。中度杂交条件的例子包括：约40℃至约50℃的孵育温度；约9x SSC至约2x SSC的缓冲液浓度；约30％至约50％的甲酰胺浓度；以及约5x SSC至约2x SSC的洗涤溶液。高严格条件的例子包括：约55℃至约68℃的孵育温度；约lx SSC至约0.1x SSC的缓冲液浓度；约55％至约75％的甲酰胺浓度；以及约lx SSC、0.1x SSC的洗涤溶液或去离子水。通常，杂交孵育时间为5分钟至24小时，有1个、2个或更多个洗涤步骤，并且洗涤孵育时间为约1、2或15分钟。SSC是0.15M NaCl和15mM柠檬酸盐缓冲液。应理解，可以采用使用其他缓冲液系统的SSC的等效物。

“同源性”或“同一性”或“相似度”是指两个肽之间或两个核酸分子之间的序列相似度。同源性可以通过比较每个序列中的位置来确定，所述序列可以出于比较目的进行比对。在所比较序列中的位置由相同的碱基或氨基酸占据时，则所述分子在该位置是同源的。序列之间的同源性程度随着序列共有的匹配或同源位置的数量而变。“不相关”或“非同源”序列与本发明的序列之一共享小于40％同一性，或可替代地小于25％同一性。

细胞

在本公开文本的组合物和方法的一些实施方案中，本公开文本的细胞是原核细胞。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的细胞是真核细胞。在一些实施方案中，所述细胞是哺乳动物细胞。在一些实施方案中，所述细胞是牛、鼠、猫、马、猪、犬、猿猴或人细胞。在一些实施方案中，所述细胞是非人哺乳动物细胞，如非人灵长类动物细胞。

在一些实施方案中，本公开文本的细胞是体细胞。在一些实施方案中，本公开文本的细胞是性细胞。在一些实施方案中，本公开文本的性细胞不是人细胞。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的细胞是干细胞。在一些实施方案中，本公开文本的细胞是胚胎干细胞。在一些实施方案中，本公开文本的胚胎干细胞不是人细胞。在一些实施方案中，本公开文本的细胞是多潜能干细胞或多能干细胞。在一些实施方案中，本公开文本的细胞是成体干细胞。在一些实施方案中，本公开文本的细胞是诱导多能干细胞(iPSC)。在一些实施方案中，本公开文本的细胞是造血干细胞(HSC)。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是神经元细胞。在一个实施方案中，用本文公开的组合物治疗的患者的一个或多个细胞包括但不限于中枢神经系统(神经元)、周围神经系统(神经元)、周围运动神经元和/或感觉神经元。在一个实施方案中，神经元细胞是神经胶质细胞。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是成纤维细胞或上皮细胞。在一些实施方案中，本公开文本的上皮细胞形成鳞状细胞上皮、立方细胞上皮、柱状细胞上皮、层状细胞上皮、假复层柱状细胞上皮或移行细胞上皮。在一些实施方案中，本公开文本的上皮细胞形成腺体，包括但不限于松果腺、胸腺、垂体、甲状腺、肾上腺、顶质分泌腺、全质分泌腺、局质分泌腺、浆液腺、粘液腺和皮脂腺。在一些实施方案中，本公开文本的上皮细胞接触器官的外表面，所述器官包括但不限于肺、脾、胃、胰腺、膀胱、肠、肾、胆囊、肝、喉或咽。在一些实施方案中，本公开文本的上皮细胞接触血管或静脉的外表面。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是原代细胞。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是培养的细胞。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是体内的、体外的、离体的或原位的。

在本公开文本的组合物和方法的一些实施方案中，本公开文本的体细胞是自体的或同种异体的。

使用方法

本公开文本提供了修饰本公开文本的RNA分子或由所述RNA分子编码的蛋白质的表达水平的方法，所述方法包括在适合于指导RNA或RNA结合蛋白或RNA结合融合蛋白(或其部分)中的一种或多种与所述RNA分子结合的条件下使本公开文本的组合物与所述RNA分子接触。

本公开文本提供了修饰由RNA分子编码的蛋白质的活性的方法，所述方法包括在适合于指导RNA或RNA结合蛋白或融合蛋白(或其部分)中的一种或多种与所述RNA分子结合的条件下使本公开文本的组合物与所述RNA分子接触。

本公开文本提供了修饰本公开文本的RNA分子或由所述RNA分子编码的蛋白质的表达水平的方法，所述方法包括在适合于所述指导RNA或RNA结合蛋白或融合蛋白(或其部分)中的一种或多种与所述RNA分子结合的条件下使本公开文本的组合物与包含所述RNA分子的细胞接触。在一些实施方案中，所述细胞是体内的、体外的、离体的或原位的。在一些实施方案中，本公开文本的组合物包含载体，所述载体包含本公开文本的指导RNA和本公开文本的RNA结合蛋白或融合蛋白。在一些实施方案中，所述载体是AAV。

本公开文本提供了修饰由RNA分子编码的蛋白质的活性的方法，所述方法包括在适合于指导RNA或RNA结合蛋白或融合蛋白(或其部分)中的一种或多种与所述RNA分子结合的条件下使本公开文本的组合物与包含所述RNA分子的细胞接触。

本公开文本提供了修饰本公开文本的RNA分子或由所述RNA分子编码的蛋白质的表达水平的方法，所述方法包括在适合于RNA核酸酶活性的条件下使本公开文本的组合物与所述RNA分子接触，其中所述RNA结合蛋白或融合蛋白诱导所述RNA分子中的断裂。

本公开文本提供了修饰由RNA分子编码的蛋白质的活性的方法，所述方法包括在适合于RNA核酸酶活性的条件下使本公开文本的组合物与所述RNA分子接触，其中所述RNA结合蛋白或融合蛋白诱导所述RNA分子中的断裂。

本公开文本提供了修饰本公开文本的RNA分子或由所述RNA分子编码的蛋白质的表达水平的方法，所述方法包括在适合于RNA核酸酶活性的条件下使本公开文本的组合物与包含所述RNA分子的细胞接触，其中所述RNA结合蛋白或融合蛋白诱导所述RNA分子中的断裂。在一些实施方案中，所述细胞是体内的、体外的、离体的或原位的。在一些实施方案中，所述组合物包含载体，所述载体包含含有本公开文本的指导RNA和本公开文本的RNA结合融合蛋白的组合物。在一些实施方案中，所述载体是AAV。

本公开文本提供了修饰由RNA分子编码的蛋白质的活性的方法，所述方法包括在适合于RNA核酸酶活性的条件下使所述组合物与包含所述RNA分子的细胞接触，其中所述RNA结合蛋白或融合蛋白诱导所述RNA分子中的断裂。在一些实施方案中，所述细胞是体内的、体外的、离体的或原位的。在一些实施方案中，所述组合物包含载体，所述载体包含含有本公开文本的指导RNA或单一指导RNA和编码本公开文本的RNA结合蛋白或融合蛋白的核酸序列的组合物。在一些实施方案中，所述载体是AAV。

本公开文本提供了治疗疾病或障碍的方法，所述方法包括向受试者施用治疗有效量的本公开文本的组合物。在一个实施方案中，本公开文本提供了治疗CAG重复疾病的方法。在另一个实施方案中，所述CAG重复障碍是HD或SCA1。在另一个实施方案中，所述CAG重复障碍选自HD、SCA1、SCA2、SCA3、SCA6、SCA7、SCA12、SCA17、脊髓延髓性肌萎缩症和齿状核红核苍白球路易体萎缩症。

本公开文本提供了一种治疗需要这种治疗的患者的CAG重复疾病如HD和SCA1的方法，所述方法包括向所述患者施用治疗有效量的本公开文本的组合物，其中所述组合物包含载体，所述载体包含本公开文本的指导RNA和编码本公开文本的RNA结合蛋白或RNA结合蛋白融合蛋白的核酸序列，其中所述组合物修饰、降低、破坏、敲低或消融毒性CAG重复RNA的表达水平(与用非靶向(NT)对照处理的毒性CAG重复RNA的表达水平相比或者与未经处理相比)。在一个实施方案中，将靶毒性CAG重复RNA或由所述靶RAN编码的毒性重复的降低水平与当用基于非RNA酶Cas的系统(例如像RCas9)处理时靶RNA或由所述靶RAN编码的毒性重复的降低水平进行比较。在另一个实施方案中，降低水平为1倍或更大。在另一个实施方案中，降低水平为2倍、3倍、4倍、5倍、6倍。7倍、8倍、9倍或10倍。在另一个实施方案中，降低水平为10倍或更大。在另一个实施方案中，降低水平为在10倍与20倍之间。在另一个实施方案中，降低水平为11倍、12倍、13倍、14倍、15倍、16倍、17倍、18倍、19倍或20倍。在另一个实施方案中，本文公开的基因疗法组合物当施用于患者时导致毒性CAG重复RNA的20％-100％破坏。在一个实施方案中，毒性CAG重复RNA的消除％是20％-99％、25％-99％、50％-99％、80％-99％、90％-99％、95％-99％中的任一种。在一个实施方案中，消除％是90％、91％、92％、93％、94％、95％、96％、97％、98％或99％。在另一个实施方案中，消除％是毒性CAG重复RNA的完全消除或100％消除。

在一些实施方案中，本公开文本的CAG重复RNA靶向组合物改变从含有CAG重复的RNA(如mRNA)翻译的蛋白质的表达。在一些方面，蛋白质表达减少或消除。在一些方面，包含CAG重复的蛋白质是突变的HTT(mHTT)。在一些方面，包含CAG重复的蛋白质是突变的共济失调蛋白-1(mATXN1)。

在本公开文本的组合物和方法的一些实施方案中，待治疗的患者的疾病或障碍包括但不限于与CAG微卫星重复扩增表达相关的疾病或障碍。在一些实施方案中，所述疾病或障碍与HTT基因(HD)或ATXN1基因(SCA1)中的CAG微卫星重复扩增相关。在本公开文本的组合物和方法的一些实施方案中，本公开文本的疾病或障碍是HD或SCA1。

在本公开文本的方法的一些实施方案中，本公开文本的受试者已经被诊断患有CAG重复障碍。在本公开文本的方法的一些实施方案中，本公开文本的受试者已经被诊断患有CAG重复障碍，如HD或SCA1。在一些实施方案中，本公开文本的受试者呈现CAG重复障碍的至少一种体征或症状。在一些实施方案中，本公开文本的受试者呈现HD的至少一种体征或症状。在一些实施方案中，本公开文本的受试者呈现SCA1的至少一种体征或症状。至少一种HD体征或HD症状包括但不限于抑郁症、协调性差(走路、言语、吞咽)、舞蹈症、认知损害(学习、缺乏决断力、推理、思考能力下降)和/或癫痫。至少一种SCA1体征或SCA1症状包括但不限于协调性和平衡问题(共济失调)、言语和吞咽困难、肌肉僵硬(痉挛状态)、控制眼球运动的肌肉无力(眼球震颤)、认知损害(加工、学习、记忆)、感觉神经病变、肌张力障碍、萎缩、肌束震颤、震颤和/或舞蹈症。在一个实施方案中，通过用本文公开的组合物治疗来改善CAG重复疾病如HD或SCA1的至少一种体征或症状。在一些实施方案中，所述受试者具有预测患上CAG重复疾病如HD或SCA1的风险的生物标记物。在一些实施方案中，所述生物标记物是基因突变。

在本公开文本的方法的一些实施方案中，本公开文本的受试者是雌性。在本公开文本的方法的一些实施方案中，本公开文本的受试者是雄性。在一些实施方案中，本公开文本的受试者具有两个XX或XY染色体。在一些实施方案中，本公开文本的受试者具有两个XX或XY染色体和第三染色体(X或Y)。

在本公开文本的方法的一些实施方案中，本公开文本的受试者是新生儿、婴儿、儿童、成人、年长成人或老年人。在本公开文本的方法的一些实施方案中，本公开文本的受试者为至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或31日龄。在本公开文本的方法的一些实施方案中，本公开文本的受试者为至少1、2、3、4、5、6、7、8、9、10、11或12月龄。在本公开文本的方法的一些实施方案中，本公开文本的受试者为至少1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100岁或之间的任何岁数或非整岁数。

在本公开文本的方法的一些实施方案中，本公开文本的受试者是哺乳动物。在一些实施方案中，本公开文本的受试者是非人哺乳动物。

在本公开文本的方法的一些实施方案中，本公开文本的受试者是人。

在本公开文本的方法的一些实施方案中，治疗有效量包含本公开文本的组合物的单个剂量。在一些实施方案中，治疗有效量包含治疗有效量包含本公开文本的组合物的至少一个剂量。在一些实施方案中，治疗有效量包含治疗有效量包含本公开文本的组合物的一个或多个剂量。

在本公开文本的方法的一些实施方案中，治疗有效量消除所述疾病或障碍的体征或症状。在一些实施方案中，治疗有效量降低所述疾病或障碍的体征或症状的严重程度。

在本公开文本的方法的一些实施方案中，治疗有效量消除所述疾病或障碍。

在本公开文本的方法的一些实施方案中，治疗有效量预防疾病或障碍的发作。在一些实施方案中，治疗有效量延迟疾病或障碍的发作。在一些实施方案中，治疗有效量降低所述疾病或障碍的体征或症状的严重程度。在一些实施方案中，治疗有效量改善所述受试者的预后。

在本公开文本的方法的一些实施方案中，经由大脑内施用，将本公开文本的组合物施用至所述受试者。在一些实施方案中，将本公开文本的组合物通过纹状体内途径施用至所述受试者。在一些实施方案中，将本公开文本的组合物通过立体定向注射或输注施用至所述受试者。在一些实施方案中，将所述组合物施用至脑。在本公开文本的方法的一些实施方案中，将本公开文本的组合物局部施用至所述受试者。

在一些实施方案中，将本文公开的组合物配制成药物组合物。简言之，如本文所公开的用于所述用途的药物组合物可以包含与一种或多种药学上或生理上可接受的载体、稀释剂或赋形剂组合的一种或多种蛋白质或编码所述一种或多种蛋白质的多核苷酸，所述一种或多种蛋白质或多核苷酸任选地包含于AAV中，所述AAV任选地也是免疫正交的。所述组合物可包含缓冲液，例如中性缓冲盐水、磷酸盐缓冲盐水等；碳水化合物，例如葡萄糖、甘露糖、蔗糖或葡聚糖、甘露醇；蛋白质；多肽或氨基酸，例如甘氨酸；抗氧化剂；螯合剂，例如EDTA或谷胱甘肽；佐剂(例如氢氧化铝)；和防腐剂。本公开文本的组合物可以配制用于施用途径，例如像口服、肠内、外用、经皮、鼻内和/或吸入；以及用于经由注射或输注的施用途径，例如像静脉内、肌内、软膜下、鞘内、器官实质内、鞘内、纹状体内、皮下、皮内、腹膜内、瘤内、静脉内、眼内和/或肠胃外施用。在某些实施方案中，本公开文本的组合物被配制用于大脑内或纹状体内施用。

实施例

实施例1：Cas13d和PUF系统破坏毒性CAG重复

方法

转染、RNA提取、FISH、qRT-PCR分析

通过以下方式检测在体外CAG重复的切割效率：由CMV启动子驱动外源表达80个CAG重复并且使用内部设计的qRT-PCR测定和或FISH(DAPI染色和荧光CAG探针)评估含有CAG重复的RNA的敲低。使用抗聚Q抗体的免疫荧光指示毒性聚Q蛋白质聚集体的消除。使用与靶向CAG重复的核酸内切酶E17蛋白连接的Cas和CAG间隔子系统或PUF蛋白来评价含CAG重复的RNA的切割。对于所有实验，使用Lipofectamine 3000(Thermo)，使用1ug效应子或效应子和指导物与50ng pCMV-CAG80报告质粒一起转染细胞到CosM6细胞中(根据制造商的方案)。对细胞进行qRT-PCR或FISH以用于分析。(使用PUF-CAG-E17的myc标记形式，并且使用抗myc抗体通过IF(免疫荧光)检测蛋白质表达)。转染后48h收获转染的细胞，并且使用Qiagen RNeasy试剂盒提取qRT-PCR RNA，并且使用Quantabio 1步法qRT-PCR试剂盒、Biorad qPCR机器和以下引物组对CAG重复进行qRT-PCR：CAG正向：CAAAGACCACGACGGAGATT(SEQ ID NO:584)，反向：TCAGCTTCTGCTCCAGATCC(SEQ ID NO:585)。将CAG表达相对于GAPDH参考基因归一化，并且相对于无靶向对照条件进行计算。

在一些方面，使用截短的CAG(tCAG)启动子(SEQ ID NO:389)。在一些方面，使用短EF1-α(EFS)启动子(SEQ ID NO:520)。

对于Cas13d系统，靶向CAG的指导物中使用的间隔子如下：

对于靶向CAG的PUF，使用编码以下8PUF(CAG)的构建体：

实施例2：通过PUF-E17在RNA水平上靶向扩增的CAG重复以治疗CAG重复疾病亨廷顿病

经由病毒方法或非病毒方法，经由纹状体内途径递送编码与核酸内切酶E17(源自人ZC3H112A基因)连接的靶向CAG的PUF的转基因。在本领域承认的亨廷顿病动物模型R6/2小鼠模型中，用于基于AAV的递送的PUF靶向CAG构建体为：

为了靶向与HD相关的扩增的CAG重复，经由双侧立体定向注射递送具有编码靶向CAG的PUF-E17的DNA的AAV载体。通过启动子驱动PUF-E17表达(图3A)。在一些方面，使用截短的CAG(tCAG)启动子(SEQ ID NO:389)。

实施例3：HD小鼠模型中CAG载体的评估

在R6/2小鼠模型中测试靶向CAG的PUF AAVrh10-1684和AAVrh10-1589(包含图6B中的特征)。在注射后的几周内评价了小鼠的体重。

实施例4：非人灵长类动物中靶向CAG重复的RNA递送的优化

评价AAVrh10-1383(LBIO-210)以评估在不同物种中的耐受性。在非人灵长类动物中，根据以下优化了LBIO-210的递送：减小体积和流速；改变套管类型；确定理想的套管位置。

图7是描绘在递送优化之前(图7A)和之后(图7B)，在非人灵长类动物中代表AAVrh10-1383(LBIO-210)递送的钆特醇表达的一系列图像。

实施例5：靶向CAG的RCas9系统降低突变型HTT蛋白且突变型HTT RNA水平无变化

在小鼠中评价靶向CAG重复的RCas9系统以评估靶向CAG重复RNA对HTT蛋白表达的影响。

图9A是描绘图9B和图9C中使用的rCas9构建体的表。将研究HD08组1分为两半(对半)：hemi 1利用AAV9-rCas9-PIN和非靶向(NT)指导RNA(AAV9-1475)，同时另一半(hemi 2)利用AAV9-rCas9-PIN和靶向CAG重复的指导RNA(AAV9-1347)。将研究HD08b分为组2(AAV9-RCas9-PIN+CAG指导物(AAV9-1347)和组3AAV9-RCas9-PIN+NT指导物(AAV9-1475)。

图9B是描绘用RCas9+NT或RCas9+CAG(研究HD08)处理后，小鼠中相对突变型HTT(mHTT)RNA水平和蛋白质(可溶性mHTT)水平的一系列图。*将mHTT RNA水平相对于Atp5b和Eif4a2归一化。

图9C是描绘用RCas9+NT或RCas9+CAG处理后，小鼠中相对突变型HTT(mHTT)RNA水平以及相对Darpp32水平和相对Pde10a水平*的一系列图。(研究HD08b)。*相对于Atp5b和Eif4a2归一化。

治疗后未观察到体重减轻。此外，突变型HTT RNA水平没有变化表明PIN是弱核酸内切酶(图9B)。然而，可溶性突变型HTT蛋白的大量减少[4只动物中的3只显示出显著减少(44％-74％减少)]。

实施例6：建立zQ175P1皮层神经元培养物作为功效和安全性模型

P1皮层神经元源自zQ175敲入(zQ175 KI)等位基因小鼠，其中将小鼠HTT外显子1用具有约190个CAG重复段的人HTT外显子1序列替代。可以使用这些B6J.zQ175 KI小鼠(JaxLab，库存号027410)来研究亨廷顿病的发病机制以及评估潜在的治疗干预。从zQ175小鼠分离和培养P1神经元有助于在相关神经元疾病模型中对基因疗法构建体进行更高通量的评估。

总体方法

使用木瓜蛋白酶解离方法从zQ175小鼠分离P1神经元，并且使培养物成熟10天(在第3天添加AraC)。在第10天将培养物用病毒构建体(即本公开文本的靶向CAG的蛋白质)转导。在转导后将培养物维持7天，并且在适当时间点采样上清液和细胞裂解物以用于功效和安全性评估。

方法

结果

已建立的zQ175 P1皮层神经元培养物含有神经元和星形胶质细胞二者，如通过荧光显微术和免疫组织化学染色测量的(图10A)。

接下来，评估培养的细胞转导AAVrh10载体的能力。易于转导编码绿色荧光蛋白(GFP)的AAVrh10载体，并且易于表达GFP(图10B)。

在将细胞培养物用本公开文本的靶向CAG的AAV构建体处理后评估突变型HTT(mHTT)水平，并且将mHTT水平与未经处理的对照(UTC)进行比较(图10C)。载体A01380(突触素-PUF(CAG)-E17)包含神经元特异性启动子突触素，其MOI为1E4、1E5和1E6。随着A01380载体剂量渐增，观察到mHTT水平的剂量依赖性降低(图10C)。

实施例7：HD患者来源的细胞允许在一系列CAG重复长度上评价等位基因偏好和功效

患者来源的细胞允许在一系列不同CAG重复长度上评价等位基因偏好和功效。图11A是亨廷顿病患者来源的成纤维细胞的一系列图像。图11B是描绘野生型HTT和突变型HTT两者的凝胶的图像。这些成纤维细胞是用于测试本公开文本的靶向CAG的组合物的有用系统。

实施例8：zQ175P1神经元中Cas13d CAG靶向构建体的评估

总体方法

方法

生活中：

第1天：如先前幻灯片(slide)所述，将细胞在24孔板中分离、铺板和维持

第3天：以1uM的最终浓度开始Ara-C施用

第10天：以1E5和1E6 MOI进行AAV转导。在施用转导之前采样基线培养基和细胞裂解物(如果可能，样品允许)

第13天：在转导后3天的时间点收获培养基和细胞裂解物(如果可能，样品允许)

第17天：在转导后7天的时间点收获培养基和细胞裂解物

终点测定：

制备RNA并且运行qRT-PCR以定量构建体和靶转录物的表达水平。

制备蛋白质以用于经由Meso Scale Discovery(MSD)来评估mHTT和WT HT蛋白水平。

LDH-Glo细胞毒性测定。

分析：

将靶转录物表达相对于参考基因组套(GAPDH、EIF4A2和ATP5B)归一化。

将HKG归一化数据针对标准曲线归一化，以说明引物间效率的变化。

减去细胞毒性数据背景并将其绘制为相对于未经处理对照的倍数变化。

材料

AAV：详细信息列于表U中。

RNA制备：Rneasy 96(Qiagen，74182)

qRT-PCR：TaqPath 1步法多重预混液(ThermoFisher，A28522)

引物：HTT-FAM、mGAPDH-HEX、mEIF4A2-Cy5和mATP5B-HEX

细胞健康：细胞毒性(LDH-Glo，J2380，Promega)

表U：研究中使用的载体和研究设计

在源自未经处理的WT和HET幼崽的P1神经元培养物中评估突变型HTT(mHTT)表达，如通过qRT-PCR测量的(图12)。使用原始Ct证明了HET特异性mHTT表达，而在46个野生型样品中的40个中未检测到mHTT。

评估了本公开文本的靶向CAG重复的构建体改变P1神经元培养物中mHTT表达的能力。将P1神经元培养物用本公开文本的载体转导7天，所述载体包含靶向CAG的PUF蛋白和靶向CAG的dCas13d(Seq212)蛋白。使用的载体包括表U中的载体。剂量包括1E5和1E6 MOI。通过qRT-PCR测量mHTT和WT HT表达水平。

用靶向CAG的构建体A01383、A01479和A01553观察mHTT特异性敲低(KD)，如通过增加的ΔCt评估，其中增加的敲低由更高的ΔCt指示(图13A)。野生型HTT水平基本上不受影响(图13B)。

将源自杂合zQ175小鼠幼崽的P1神经元用靶向CAG的PUF和Cas1d Seq212构建体以1E5和1E6 MOI转导7天。通过Meso Scale Discovery免疫测定(MSD)测量mHTT蛋白水平(图14A和图14B)。使用木瓜蛋白酶解离方法，从zQ175杂合幼崽制备P1神经元。成熟10天后，将神经元用靶向CAG的PUF和Cas13d Seq212构建体在1E5和1E6 MOI下转导7天。使用MesoScale Discovery免疫测定(MSD)测量细胞裂解水平和mHTT蛋白水平。用靶向CAG的构建体A01383、A01479和A01922观察mHTT蛋白敲低。

评估靶向CAG重复的cas13d构建体的表达，以测量在靶向CAG的构建体A01383、A01479和A01922的情况下观察到的mHTT蛋白KD中cas13d表达和指导RNA表达两者。

通过qRT-PCR测量dCas13d(Seq212)和指导RNA表达水平。

表达dCas13d的构建体A01479和A01553展现出相似水平的dCas13d表达(较高的表达＝较低的ΔCt)(图15A)。

在表达dCas13d的构建体A01479和A0155的情况下观察到可比较的剂量响应指导RNA水平(图15B)。观察到在“仅指导物”(无Seq212)构建体A01477的情况下的低指导RNA水平。

用靶向CAG的PUF A01383在1E5 MOI下转导7天的P1神经元中评价神经元健康特征。通过qRT-PCR测量神经元和小胶质细胞激活标记物AIF1、PDE10A、PPPIR1B和RBFOX3表达水平。通过qRT-PCR测量神经元和小胶质细胞激活标记物表达水平(图16A和图16B)。观察到靶向CAG重复的PUF构建体A01383特异性神经元健康特征(与dCas13d构建体相比)。较低的表达＝增加的ΔCt。刺激的表达＝较低的ΔCt。此外，评估了每种载体构建体的细胞毒性。将P1神经元用靶向CAG的构建体在1E5 MOI下转导7天(图17)。使用LDH-Glo(Promega)评估细胞毒性。观察到A01383富集的细胞毒性(与dCas13dSeq212构建体相比)。开发了可以预测体内安全性的神经元健康基因特征。

通过引用并入

将在本文中引用的每个文件(包括任何交叉参考或相关的专利或申请)通过引用以其整体特此并入本文，除非明确排除或另有限制。引用任何文件并非承认，它是关于本文公开或具体化的任何发明的现有技术，或者它单独地或与任何其他一个或多个参考文献的任何组合传授、表明或公开任何这种发明。此外，在本文件中术语的任何含义或定义与通过引用并入的文件中相同术语的任何含义或定义矛盾的方面来说，应当以分配给本文件中该术语的含义或定义为准。

其他实施方案

虽然已经说明并描述了本公开文本的具体实施方案，但是可以在不背离本公开文本的精神和范围的情况下做出各种其他变化和修改。所附权利要求的范围包括在本公开文本的范围内的所有此类变化和修改。

Claims

1.一种组合物，所述组合物包含编码RNA结合多肽的核酸序列，所述RNA结合多肽包含能够结合毒性靶CAG重复RNA序列的非指导的RNA结合多肽或指导的RNA结合多肽。

2.根据权利要求1所述的组合物，其中所述RNA结合多肽是融合蛋白。

3.根据权利要求2所述的组合物，其中所述融合蛋白包含所述RNA结合多肽，所述RNA结合多肽与能够切割所述毒性CAG重复RNA序列的核酸内切酶融合。

4.根据前述权利要求中任一项所述的组合物，其中所述非指导的RNA结合多肽是PUF或PUMBY蛋白。

5.根据前述权利要求中任一项所述的组合物，其中所述指导的RNA结合多肽是Cas13d蛋白。

6.根据前述权利要求中任一项所述的组合物，其中所述cas13d蛋白是无催化活性的。

7.根据前述权利要求中任一项所述的组合物，其中所述cas13d蛋白包含SEQ ID NO:587或590-594中任一个所示的氨基酸序列。

8.根据前述权利要求中任一项所述的组合物，其中所述核酸内切酶是ZC3H12A锌指核酸内切酶的核酸酶结构域。

9.根据前述权利要求中任一项所述的组合物，其中所述PUF RNA结合蛋白包含SEQ IDNO:444-451、461、480-488、549-557或656中任一个所示的氨基酸序列。

10.根据前述权利要求中任一项所述的组合物，其中所述PUF RNA结合蛋白包含SEQ IDNO:549或480中所示的氨基酸序列。

11.根据前述权利要求中任一项所述的组合物，其中所述毒性靶CAG RNA重复序列包含SEQ ID NO:453-456或472-479中所示的核酸序列中的任一种。

12.根据前述权利要求中任一项所述的组合物，其中所述毒性靶CAG RNA重复序列包含SEQ ID NO:453或472中任一个所示的核酸序列。

13.根据前述权利要求中任一项所述的组合物，其中所述靶向CAG的PUF蛋白由SEQ IDNO:577、581、614、619、621或622中所示的核酸序列编码。

14.根据前述权利要求中任一项所述的组合物，其中所述PUF或PUMBY蛋白是人PUF或PUMBY蛋白。

15.根据前述权利要求中任一项所述的组合物，其中所述PUF或PUMBY蛋白通过接头序列与所述ZC3H12A核酸内切酶连接。

16.根据前述权利要求中任一项所述的组合物，其中所述接头包含SEQ ID NO:411中所示的氨基酸序列。

17.根据前述权利要求中任一项所述的组合物，其中所述融合蛋白包含选自核定位序列(NLS)和核输出序列(NES)的一个或多个信号序列。

18.根据前述权利要求中任一项所述的组合物，其中所述ZC3H12A锌指核酸酶包含SEQID NO:358或SEQ ID NO:359中所示的氨基酸序列。

19.根据前述权利要求中任一项所述的组合物，其中所述融合蛋白包含SEQ ID NO:460中任一个所示的氨基酸序列。

20.根据前述权利要求中任一项所述的组合物，其中所述融合蛋白由包含SEQ ID NO:574-582的核酸序列编码。

21.根据前述权利要求中任一项所述的组合物，其中编码所述融合蛋白的核酸分子包含启动子。

22.根据权利要求14所述的组合物，其中所述启动子是tCAG启动子、EFS/UBB启动子或突触素启动子。

23.一种载体，所述载体包含根据前述权利要求中任一项所述的组合物。

24.根据权利要求23所述的载体，其中所述载体选自：腺相关病毒(AAV)、逆转录病毒、慢病毒、腺病毒、纳米颗粒、胶束、脂质体、阳离子脂质体/DNA复合物、聚合物囊泡、多聚复合物和树状聚合物。

25.根据权利要求23所述的载体，所述载体是AAV载体。

26.根据前述权利要求中任一项所述的AAV载体，其中所述AAV载体包含：

第一AAV ITR序列；

第一启动子序列；

编码至少一种CAG重复RNA结合多肽的多核苷酸序列；和

第二AAV ITR序列。

27.根据前述权利要求中任一项所述的AAV载体，其中所述CAG重复RNA结合多肽包含PUF或PUMBY蛋白。

28.根据前述权利要求中任一项所述的AAV载体，其中编码所述PUF或PUMBY序列的多核苷酸序列包含SEQ ID NO:577、581、614、619、621或622中所示的核酸序列。

29.根据前述权利要求中任一项所述的AAV载体，其中所述CAG重复RNA结合多肽包含Cas13d蛋白。

30.根据前述权利要求中任一项所述的AAV载体，其中编码所述Cas13d序列的多核苷酸序列包含SEQ ID NO:587或590-594中所示的核酸序列。

31.根据前述权利要求中任一项所述的AAV载体，其中所述第一启动子序列包含SEQ IDNO:389、627或613中所示的核酸序列。

32.根据前述权利要求中任一项所述的AAV载体，其中所述第一AAV ITR序列包含SEQID NO:597或598中所示的核酸序列。

33.根据前述权利要求中任一项所述的AAV载体，其中所述第二AAV ITR序列包含SEQID NO:597或598中所示的核酸序列。

34.根据前述权利要求中任一项所述的AAV载体，其中所述载体进一步包含第二启动子序列。

35.根据前述权利要求中任一项所述的AAV载体，其中所述第二启动子控制指导RNA(gRNA)的表达，其中所述gRNA包含(i)DR序列和(ii)间隔子序列。

36.根据前述权利要求中任一项所述的AAV载体，其中所述第二启动子包含SEQ ID NO:519中所示的核酸序列。

37.根据前述权利要求中任一项所述的AAV载体，其中所述载体进一步包含聚A序列。

38.根据前述权利要求中任一项所述的AAV载体，其中所述载体包含至少一个接头序列。

39.根据前述权利要求中任一项所述的AAV载体，其中所述载体包含至少一个核定位序列。

40.根据前述权利要求中任一项所述的AAV载体，其中所述载体由SEQ ID NO:588、589、624或625中任一个所示的核酸编码。

41.一种药物组合物，所述药物组合物包含：

a)根据权利要求25-40中任一项所述的AAV病毒载体；和

b)至少一种药学上可接受的赋形剂和/或添加剂。

42.一种AAV病毒载体，所述AAV病毒载体包含：

a)根据前述权利要求中任一项所述的AAV载体；和

b)AAV衣壳蛋白。

43.根据权利要求42所述的AAV病毒载体，其中所述AAV衣壳蛋白是AAV1衣壳蛋白、AAV2衣壳蛋白、AAV4衣壳蛋白、AAV5衣壳蛋白、AAV6衣壳蛋白、AAV7衣壳蛋白、AAV8衣壳蛋白、AAV9衣壳蛋白、AAV10衣壳蛋白、AAV11衣壳蛋白、AAV12衣壳蛋白、AAV13衣壳蛋白、AAVPHP.B衣壳蛋白、AAVrh74衣壳蛋白或AAVrh.10衣壳蛋白。

44.根据权利要求43所述的AAV病毒载体，其中所述AAV衣壳蛋白是AAV9或AAVrh10衣壳蛋白。

45.一种细胞，所述细胞包含根据前述权利要求中任一项所述的载体。

46.一种治疗哺乳动物的CAG重复疾病的方法，所述方法包括将根据权利要求1-45中任一项所述的组合物或AAV载体施用至所述哺乳动物的组织中的毒性靶CAG微卫星重复扩增(MRE)RNA序列，从而降低所述毒性靶RNA的表达水平。

47.根据权利要求46所述的方法，其中将所述组合物或AAV载体以如下方式施用于所述受试者：静脉内、鞘内、大脑内、心室内、鼻内、气管内、耳内、眼内或眼周、口服、直肠、透粘膜、吸入、经皮、肠胃外、皮下、皮内、肌内、脑池内、神经内、胸膜内、外用、淋巴内、脑池内或神经内。

48.根据权利要求46所述的方法，其中将所述组合物或AAV载体静脉内施用于所述受试者。

49.根据权利要求46所述的方法，其中所述CAG重复障碍是亨廷顿病(HD)或脊髓小脑性共济失调1型(SCA1)。

50.根据权利要求46所述的方法，其中所述毒性靶RNA的降低的表达水平因此改善了所述哺乳动物中HD或SCA1的症状。

51.根据权利要求46所述的方法，其中与未经处理的毒性靶CAG RNA的表达水平的降低相比，所述毒性靶RNA的表达水平降低。

52.根据权利要求46所述的方法，其中所述毒性CAG重复是CAG³⁶或更多。

53.根据权利要求46所述的方法，其中所述毒性CAG重复是CAG⁸⁰重复。

54.根据权利要求46所述的方法，其中降低的水平在1倍与20倍之间。