CN114945666A

CN114945666A - 用于rna分子高效重组的组合物和方法

Info

Publication number: CN114945666A
Application number: CN202080092659.8A
Authority: CN
Inventors: L·C·巴赫曼; S·L·普法夫
Original assignee: Salk Institute for Biological Studies
Current assignee: Salk Institute for Biological Studies
Priority date: 2019-11-11
Filing date: 2020-09-30
Publication date: 2022-08-26
Also published as: US20220265855A1; KR20220113940A; BR112022009006A2; EP4058571A1; IL292904A; CA3157799A1; JP2023500957A; MX2022005670A; WO2021096605A1; AU2020384996A1

Abstract

本文提供了用于重构RNA分子的组合物和系统，包括使用这些分子的方法。例如，此类分子可用于通过两个或更多个病毒载体(例如AAV)递送蛋白质编码序列，从而在细胞中重构全长蛋白质。此类方法可用于递送治疗性蛋白质，例如以治疗遗传疾病或癌症。

Description

用于RNA分子高效重组的组合物和方法

相关申请的交叉引用

本申请是2020年3月27日提交的PCT/US2020/025430的部分继续申请，该申请要求2019年11月11日提交的美国临时申请第62/933,714号的优先权，通过引用将其全部内容并入本文。

技术领域

本公开提供了能够重组两个或更多个RNA分子从而表达全长蛋白质的系统、试剂盒、组合物和方法。

背景技术

基因疗法是治疗由功能丧失突变引起的遗传疾病有前途的方法。替代基因通常使用AAV等载体重新引入靶细胞中，因为病毒在进入细胞时通常是安全有效的。然而，在使用AAV的情况下，使用常规衣壳很难封装超过约5000个核苷酸。由于编码大型蛋白质的基因长度通常超过AAV的包装限制，因此许多遗传疾病仍然无法治疗。过去曾探索过克服这一限制的策略，但被证明效率低下，导致表达高水平潜在毒性截短蛋白，或两者兼而有之。因此，需要安全、高效的大型蛋白递送策略来治疗疾病。

发明内容

本文提供了用于表达靶蛋白的组合物。在一个实例中，所述组合物包括(a)第一RNA分子，所述RNA分子从5'至3'包含：(i)所述靶蛋白N-端部分的编码序列；(ii)剪接供体；和(iii)第一二聚体化域；和(b)第二RNA分子，所述RNA分子从5'至3'包含：(i)第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；和(v)所述靶蛋白C-端部分的编码序列。

在一些实例中，所述第一和第二二聚体化域通过直接结合、间接结合或两种方式结合。

在一些实例中，所述二聚体化域是吻式环域或低多样性域。

在一些实例中，所述第一和/或第二RNA分子包含至少一个剪接增强子。

本文还提供了用于表达靶蛋白的组合物，包含：(a)第一合成DNA分子，编码权利要求1至16中任一项所述的第一RNA分子，其中所述第一合成DNA分子包含(i)第一启动子，其可操作连接至编码所述第一RNA分子的序列；(b)第二合成DNA分子，编码权利要求1至16中任一项所述的第二RNA分子，其中所述第二合成DNA分子包含(i)第二启动子，其可操作连接至编码所述第二RNA分子的序列。

本文还提供了用于表达靶蛋白的系统，包含所述组合物。

本文还提供了使用所公开的系统或由所述系统编码的RNA在细胞中表达蛋白质的方法。这种方法可以包括将所述系统引入细胞中，并在同一细胞中表达所述合成第一和第二RNA分子。在一些实例中，所述细胞在受试者中，并且所述方法治疗所述受试者的疾病，例如由编码所述靶蛋白基因的突变引起的遗传疾病。在一些实例中，所述遗传病是杜氏肌营养不良症、A型血友病、斯塔加特病或亚瑟综合征。

参照附图，本公开的前述和其他目的及特征通过下列详细描述变得更加明显。

附图说明

专利或申请文件包含至少一幅彩色绘图。专利局将根据请求并经支付必要的费用提供本专利或专利申请出版物的彩色附图副本。

图1A示出了载体设计(左图)和RNA相互作用和剪接(右图)的示意图。左图：5'反式剪接(trsp)DNA载体：空心箭头是两个相反的启动子。RFP编码域和具有多聚腺苷酸化元件的3'UTR从YFP的N-端部分(n-yfp)相对表达，然后是剪接供体序列(SD)、下游内含子剪接增强子(DISE)和两个内含子剪接增强子(2xISE)、结合域(BD，也称为二聚体化域)和稳定的茎环BoxB元件(boxB)、自切割锤头状核酶(HHrz)，以包含多聚腺苷酸化元件的3'UTR结束。所述n-yfp节段插入了小型内含子(n-yfp内的白色节段)。3'trsp DNA载体：空心箭头是两个相反的启动子。BFP编码域和带有多聚腺苷酸化元件的3'UTR从互补结合域(抗-BD，也称为二聚体化域)相反表达，随后是三个内含子剪接增强子序列(3xISE)、分支点(BP)、多嘧啶束(PPT)、剪接受体序列(SA)、所述YFP编码序列的C-端质子，以含有多聚腺苷酸化元件的3'UTR结束。右图：显示了前体mRNA相互作用(5'trsp-RNA+3'trsp-RNA)和反式剪接以生成编码YFP蛋白的mRNA。

图1B示出了仅所述N-端表达质粒的转染不会产生YFP荧光。

图1C示出了仅所述C-端表达质粒的转染不会产生YFP荧光。

图1D示出了，无结合域的N-端片段和C-端片段的表达显示低水平的YFP诱导。

图1E示出了合理设计的环状构型的二聚体化/结合域(由互补序列间隔的所有嘧啶或所有嘌呤组成的低多样性序列，所述互补序列形成双链茎结构)。

图1F示出了“环状”二聚体化域构型的3D渲染。

图1G示出了在所述C-端半段上没有结合域的阴性对照。

图1H示出了在所述N-端半段上没有结合域的阴性对照。

图1I示出了，N-端和C-端半段上环状构型的匹配结合域在90％的细胞中显示出强YFP诱导。

图1J-1N示出了结合域的构型数据(与图1E-1I中数据等效)，从而产生完全开放的构型，所述结合域具有仅含嘧啶(或仅含嘌呤)序列组成的150个核苷酸低多样性序列。

图1J示出了150个核苷酸的低多样性嘧啶序列，从而产生互补碱基配对的完全开放构型。

图1K示出了(1J)的150个核苷酸低多样性嘧啶序列的3D渲染。

图1L示出了对照HEK293T细胞转染，其中所述C-端-YFP编码构建体缺乏互补的低多样性结合域。很少有转染细胞表达YFP。

图1M示出了对照HEK293T细胞转染，其中所述N-端-YFP编码构建体缺乏互补的低多样性结合域。很少有转染细胞表达YFP。

图1N示出了HEK293T细胞转染，其中N-端-YFP和C-端-YFP构建体都具有互补的低多样性二聚体化结合域。许多细胞高水平表达了YFP。

图1O示出了图1G中所示细胞的代表性荧光图像。表达了转染的阳性标志物(RFP+BFP)，但YFP蛋白没有有效重构。

图1P示出了图1L中所示细胞的代表性荧光图像。表达了转染的阳性标志物(RFP+BFP)，并且YFP蛋白在RFP和BFP双阳性细胞中高水平重构。

图1Q示出了图1D、图1G-1I和图1L-1N中所示条件的比较。N：无结合域，Loop：环状低多样性结合域构型，Lin：线性低多样性构型。

图2A示出了载体设计的示意图。黄色荧光蛋白(YFP)的蛋白质编码序列分为N-端、中间片段(m-yfp)和C-端片段。编码所述n和m片段的RNA连接由环状设计结合域(BD1)实现，并且m和c片段之间的连接由环状结合域(BD2)连接。嘧啶(Y)和嘌呤(R)序列的排列方式应避免所述m片段的自环化并避免N-和C-片段的直接重组。N-端片段与作为转染对照的红色荧光蛋白共表达，C-端片段与作为转染对照的蓝色荧光蛋白共表达。启动子序列用空心箭头表示。标明了剪接供体(SD)位点和剪接受体(SA)位点。包括了内含子剪接元件(其包括剪接增强子、多嘧啶束和分支点)，类似于图1A中SA上游(5')和SD下游(3')使用的元件。

图2B示出了质粒I+II+III(参见图2A)的人类细胞系转染，所述质粒在80％的转染细胞中有效重构高水平YFP表达。

图2C示出了，所述n和m片段(质粒I+II，参见图2A)表达的代表性荧光图像显示没有yfp荧光(阴性对照)。

图2D示出了，所述m和c片段(质粒II+III，参见图2A)表达的代表性荧光图像显示没有yfp荧光(阴性对照)。

图2E示出了代表性荧光图像，其显示强YFP荧光由共转染所有三个片段(质粒I+II+III，参见图2A)诱导。

图3A-3D示出了在新生(P3)小鼠幼崽全身施用后，有效重构由两个AAV2/8表达的两个片段(SEQ ID NO:1和2)的黄色荧光蛋白(YFP)。(A)示出了编码YFP的N-端半片段的AAV1，以及编码C-端半片段的AAV 2。AAV 1+AAV 2以等滴度混合并静脉内注射到小鼠体内。注射后3周收集组织样品。(B)示出了处死时幼鼠肝脏中的YFP荧光(绿色)。显示未注射的肝脏用于比较(对照：未检测到YFP)。DRAQ5细胞核染色显示为洋红色作为背景。(C)示出了处死时心肌中的强YFP荧光(绿色)。顶部图像显示宏观视图和用作背景的红色自发荧光(洋红色)。底部图像显示了DRAQ5细胞核染色用作背景(洋红色)的截面。示出缺少YFP的未注射的小鼠心脏用于对照。(D)示出了处死时腿部骨骼肌的强YFP荧光。示出未注射的小鼠腿部用于比较(阴性对照，未检测到YFP)。顶部图像显示带有洋红色自发荧光的宏观视图。底部图像显示了腿部截面的显微图。底部图像显示了洋红色的DRAQ5细胞核染色作为背景。

图4A-4B示出了有效重构在新生(P3)小鼠幼崽中肌肉内注射三种AAV2/8后，小鼠胫骨前肌中三个片段(分别为SEQ ID NO:145、146和2)的黄色荧光蛋白(YFP)。(A)示出了三种AAV2/8颗粒的示意图，它们具有单独的N-、M-和C-端YFP片段(类似于图2A)。(B)在注射了所有三种病毒颗粒的小鼠胫骨前肌的纵向部分，显示出强YFP荧光。DRAQ5细胞核染色显示为洋红色作为背景。

图5A-5F示出了有效重构成年小鼠胫骨前肌中的两个和三个片段的黄色荧光蛋白(YFP)。(A)示出了YFP编码序列的N-端和C-端半段配备有合成RNA二聚体化和重组域。(B)示出了将表达这两个片段的两种AAV转移质粒经皮电穿孔到成年小鼠胫骨前肌(TA)肌肉中，并在电穿孔后5天检测到强荧光。(C)示出在对侧未注射的TA中未检测到荧光。(D)示出了N-端、中间和C-端YFP编码序列配备有合成RNA二聚体化和重组域，将每个片段与其相邻片段连接起来。(E)示出了表达这三个片段的三种AAV转移质粒的经皮电穿孔。检测到强YFP荧光，表明三个片段的YFP有效重构。(F)示出了对侧未注射的TA中的荧光。荧光通道覆盖在灰度照片上以示背景。

图6A是提供用于所公开的RNA重组方法示例性系统的示意图，所述系统使用两个核酸分子110、150，其中所述靶蛋白被分成两部分并且每一部分由不同的核酸分子编码。在一些实例中，所述系统的核酸分子110、150是DNA，并且包括启动子112、152。在一些实例中，所述系统的核酸分子110、150是RNA，因此缺少启动子112、152。未按比例绘制该图。

图6B是提供示例性二聚体化域(例如，图6A的122、154)的示意图，包括散布有可形成茎的序列的低多样性序列，这使得局部RNA环是开放的并在没有假结形成的情况下可用于碱基配对。未按比例绘制该图。

图6C示意图显示了分子110的前体mRNA二聚体化域122(图6A)和分子150的前体mRNA二聚体化域154(图6A)之间的相互作用和杂交(碱基配对)使得剪接体组分重组N-端编码序列114和C-端编码序列164。这使得N-端蛋白质编码序列114的3'末端融合到C-端蛋白质序列164的5'末端，以及实现了N-和C-端部分之间的无缝连接。未按比例绘制该图。

图6D是提供用于所公开的RNA重组方法示例性系统的示意图，所述系统使用三个核酸分子110、200、150，其中所述靶蛋白分为三个部分(N-端、中间、C-端)并且每个部分由不同的核酸分子编码。在转录之前，所述系统的核酸分子110、150、200是DNA，并且包括启动子112、152、202。在转录之后，所述系统的核酸分子110、150、200是RNA，因此缺少启动子112、152、202。未按比例绘制该图。

图6E示意图显示，分子110的二聚体化域122(图6D)和分子200的二聚体化域204(图6D)之间以及分子200的二聚体化域226(图6D)和分子150的二聚体化域154(图6D)之间的相互作用和杂交(碱基配对)使得所述剪接体组分重组N-端编码序列114、中间编码序列216和C-端编码序列164。这使得N-端编码序列114的3'末端与中间蛋白质序列216的5'末端融合，中间编码序列216的3'末端与C-端序列216的5'末端融合，并且实现N-端部分、中间部分和C-端部分之间无缝连接。在一些实例中，例如在转录后，所示元件是RNA。未按比例绘制该图。

图6F示意图提供用于所公开的RNA重组方法的示例性系统，所述系统使用两个核酸分子110、150，其中所述靶蛋白被分成两个部分并且每个部分由不同的核酸分子编码。在这个实例中，所述DNA已被转录成RNA，使得所述系统的核酸分子110、150是RNA，因此缺少DNA中存在的启动子112、152(参见图6A)。未按比例绘制该图。

图7A是提供用于所公开的RNA重组方法示例性系统的示意图，类似于图6A，所述系统使用两个核酸分子500、600，但所述二聚体化域是识别相同的靶分子700的适体512、602。在一些实例中，例如在转录后，所示元件是RNA。未按比例绘制该图。

图7B是提供用于所公开的RNA重组方法示例性系统的示意图，与图7A相关，所述系统使用识别相同靶分子的二聚体化域。在此，所述二聚体化域识别的靶标是特定的RNA分子(而不是图7A中的分子700，例如蛋白质或小分子)。每个域识别仅在靶细胞(即需要靶蛋白表达的细胞)中表达的mRNA分子不同部分，例如癌症特异性转录物。在一些实例中，例如在转录后，所示元件是RNA。未按比例绘制该图。

图7C是提供用于所公开的RNA重组方法示例性系统的示意图，类似于图6A和图7A，所述系统使用两个核酸分子800、900，并显示了与寡核苷酸1000杂交的二聚体化域812、902，该寡核苷酸防止二聚体化域彼此相互作用，因此防止或减少N-端编码序列802和C-端编码序列914的重组。在一些实例中，例如在转录后，所示元件是RNA。未按比例绘制该图。

图8是比较在3'未翻译区中存在(w/)或不存在(w/o)WPRE3序列的情况下YFP蛋白表达重构的条形图。对于每个样品示出了N＝3次重复。

图9A是提供二聚体化域(例如图6A的122、154)用途实例的示意图，所述二聚体化域包括用于高亲和力二聚体化的吻式环相互作用。使用本文提供的教导，人们将理解任何所公开的编码部分(例如，YFP)可以用其他靶蛋白编码序列代替。未按比例绘制该图。

图9B示出了用分裂YFP的两个半段转染的HEK293T细胞中的RFP、BFP和YFP信号。配备遵循低多样性设计原则的线性二聚体化域或设计用于吻式环-环相互作用的结构化二聚体化域。强黄色荧光信号表明有效重构。

图10A-10Z是可以与所述系统和方法一起使用的示例性合成核酸分子。在一些实例中，合成核酸分子与SEQ ID NO:1(图10A-10B)、2(图10C-10E)、7(图10E)、8(图10F)、9(图10G)、10(图10H)、11(图10I)、12(图10J)、13(图10K)、14(图10L)、15(图10M)、16(图10N)、17(图10O)、18(图10P)、19(图10Q)、20(图10R-10U)和21(图10V-10Z)任一项的序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％的序列同一性，但具有不同的靶蛋白编码序列。因此，与本文提供的任何系统或方法一起使用的内含子区域可以与SEQ ID NO:1、2、3、4、7、8、9、10、11、12、13、14、15、16、17、18、19、20或21的任何内含子序列具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％的序列同一性。例如，图10A-D显示可用于表达全长YFP的示例性(A，B)第一(SEQ ID NO:1)和(C，D)第二(SEQ ID NO:2)合成分子，而SEQ ID NO:3和4提供了没有YFP编码部分的相应合成内含子部分。在一些实例中，合成内含子序列与SEQ ID NO:3或4具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％的序列同一性。因此，本文提供的任何合成分子的编码序列部分(例如，SEQ ID NO:1的nt 544至1032和SEQ ID NO:2的nt 905至1141)可以被另一个编码序列部分替换。

图11条形图显示了不同长度随机互补碱基配对结合域(50bp、100bp、150bp、200bp、300bp、400bp和500bp)的重构效率。在RFP和BFP转染水平匹配的细胞之间比较YFP中值荧光强度。对于每个条件n＝3个样品。对于每个条件n＝3个样品。

图12A-12B显示在合成内含子中加入剪接增强子提高重构效率。图12A是所用的5'-N和3'-C-端构建体(SEQ ID NO:1和2)的示意图。(简称参见图1A)。图12B是条形图，示出在将SEQ ID NO:1和2或由△表示的其各种截短转染到细胞中后所产生的YFP荧光。对于每个条件n＝3个样品。

图13A-13D显示了通过从两个片段(SEQ ID NO:147和148)重构全长flp重组酶(Flpo)进行的中线交叉皮层神经元追踪。(A)用于重构flpo的5'-和3'-序列(类似于图12A中的构建体)的示意图。(B)注射有N-和C-flpo编码AAV病毒(分别注射到皮层左侧和右侧区域)的flp-报告基因小鼠系的示意图。(C和D)显示对投射到大脑对侧半球并因此被N-flpo和C-flpo病毒感染的皮层神经元进行神经元细胞体和轴突标记。显示赫斯特染色(细胞核)作为背景。

图14A-14D显示了在细胞培养下和体内超大货物(即，由长RNA编码的蛋白质)在小鼠初级运动皮层中的表达。(A)用于重构YFP的5'和3'序列的示意图，所述序列包括长填充序列(不间断的开放阅读框；分别为SEQ ID NOS:22和23)。(B)HEK 293t细胞中超大YFP构建体重构效率的定量实时PCR分析。对于每个条件N＝3。(C)通过流式细胞术筛选瞬时转染的HEK 293t细胞评估从全长超大YFP表达和分裂REJ表达中的重构YFP蛋白表达。比较不同条件下具有相同转染对照(蓝色和红色)荧光的细胞群之间的中值黄色荧光强度。Y轴显示中值黄色荧光强度[任意单位]。对于每个条件N＝3。(D)注射到小鼠初级运动皮层的示意图，以及注射后10天的脑组织图像，显示体内长(2401aa)YFP蛋白的成功重构。

图15A-15C显示了具有N-端HA标签(取代N-端信号肽)(2317aa)的全长人类凝血因子VIII(FVIII)的有效重构。(A)用于重构FVIII的5'-和3'-序列(分别为SEQ ID NO:24和25)的示意图。(B)连接的PCR扩增。(C)显示FVIII表达的蛋白质印迹。泳道1-3：全长FVIII(290kDa条带显示全长、未加工的FVIII)的表达。泳道4-6：重构FVIII(290kDa处的条带显示成功重构的FVIII)的表达。泳道7和8：N-端的表达仅显示在290kDa处不存在全长FVIII条带。对于所有泳道：观察到预期的蛋白水解加工产物范围从～75kDa到～210kDa。使用小鼠抗-HA一抗探测FVIII。所有泳道均装有5微克澄清的细胞蛋白提取物。GAPDH(兔抗-GAPDH)作为上样对照进行探测。

图16A-16F显示了具有C-端FLAG-标签(2300aa)的全长人类Abca4的有效重构。(A)用于重构Abca4的5'-和3'-序列(分别为SEQ ID NO:20和21)，以及跨连接的桑格(sanger)测序迹线的示意图。(B)所述连接的PCR扩增。(C)用于分析5'-和3'-片段重组的探针示意图。(D)在HEK 293t细胞中表达两天后重构效率的PCR量化。对于每个条件N＝2。(E)显示Abca4表达的蛋白质印迹。泳道1-3：全长Abca4的表达(～260kDa条带显示全长Abca4)。泳道4-6：重构的Abca4的表达(260kDa处的条带显示成功重构的Abca4)。泳道7和8：无转染对照(即仅有HEK 293t裂解物)显示没有任何信号。使用小鼠抗-FLAG一抗探测Abca4。所有泳道均上样有5微克澄清的细胞蛋白提取物。GAPDH(兔抗-GAPDH)作为上样对照进行探测。(F)量化(E)中蛋白质印迹，针对不同BFP浓度进行了归一化。数据显示为归一化成全长表达对照的平均值。

图17A和17B提供(A)基于HIV-1的吻式环二聚体化域(N-片段，SEQ ID NO:139，C-片段SEQ ID NO:140)；(B)基于HIV-2的吻式环二聚体化域(N-片段，SEQ ID NO:141，C-片段SEQ ID NO:142)。

图18A-18C显示了具有C-端FLAG-标签(2019aa)的全长鼠Otof的有效重构。所用5'和3'分子的DNA序列显示在SEQ ID NO:155和156中。(A)显示Otof表达的蛋白质印迹。泳道1-3：全长Otof的表达(～250kDa条带显示全长Otof)。泳道4-6：重构的Otof的表达(～250kDa处的条带显示成功重构的Otof)。泳道7：无转染对照(即仅有HEK 293t裂解物)显示没有任何信号。使用小鼠抗-FLAG一抗探测Otof。所有泳道均上样有5微克澄清的细胞蛋白提取物。GAPDH(兔抗-GAPDH)作为上样对照进行探测。(B)蛋白质印迹的原始量化和(C)对不同BFP浓度进行归一化。数据显示为归一化成全长表达对照的平均值。

图19A-19C显示了具有C-端FLAG-标签(2243aa)的全长人类Myo7a的有效重构。所用5'和3'分子的DNA序列显示在SEQ ID NO:157和158中。(A)显示Myo7a表达的蛋白质印迹。泳道1-3：全长Myo7a的表达(～270kDa条带显示全长Myo7a)。泳道4-6：重构的Myo7a的表达(～270kDa处的条带显示成功重构的Myo7a)。泳道7：无转染对照(即仅有HEK 293t裂解物)显示没有任何信号。使用小鼠抗-FLAG一抗探测Myo7a。所有泳道均上样有5微克澄清的细胞蛋白提取物。GAPDH(兔抗-GAPDH)作为上样对照进行探测。(B)蛋白质印迹的原始量化和(C)对不同BFP浓度进行归一化。数据显示为归一化成全长表达对照的平均值。

图20A-20D显示了全长DCas9-VPR(1951aa)的有效重构。所用5'和3'分子的DNA序列显示在SEQ ID NO:159和160中。(A)显示DCas9-VPR表达的蛋白质印迹。泳道1-3：全长DCas9-VPR的表达(～250kDa条带显示全长DCas9-VPR)。泳道4-6：重构的DCas9-VPR的表达(250kDa处的条带显示成功重构的DCas9-VPR)。泳道7：无转染对照(即仅有HEK 293t裂解物)显示没有任何信号。使用小鼠抗Cas9一抗探测DCas9-VPR。所有泳道均上样有5微克澄清的细胞蛋白提取物。GAPDH(兔抗GAPDH)作为上样对照进行探测。(B)蛋白质印迹的原始量化和(C)对不同BFP浓度进行归一化。数据显示为归一化为全长表达对照的平均值。(D)在HEK293t细胞中表达YFP的质粒的转录激活实例。全长(上图)或双向分裂REJ-双dCas9-VPR(下图)与非靶向引导RNA(左图)或UAS靶向引导RNA(右图)表达质粒一起瞬时转染。所有细胞也用UAS-YFP质粒(在dCas9-VPR靶向最小启动子的上游区域之前无转录活性)转染，从而表达黄色荧光蛋白。红色荧光蛋白(RFP)用dCas9-VPR的N-端片段表达，蓝色荧光蛋白(BFP)分别用全长dCas9-VPR或dCas9-VPR的C-端片段表达。RFP和BFP作为转染对照。在与UAS靶向引导RNA配对的全长和双向分裂dCas9-VPR表达后，观察到黄色荧光蛋白表达，证实了重构全长蛋白的功能。

图21A-21D显示全长人源化先导编辑器(2118aa)的有效重构。所用5'和3'分子的DNA序列显示在SEQ ID NO:161和162中。(A)显示先导编辑器表达的蛋白质印迹。泳道1-3：全长先导编辑器的表达(～260kDa条带显示全长先导编辑器)。泳道4-6：重构的先导编辑器的表达(260k Da处的条带显示成功重构的先导编辑器)。泳道7：无转染对照(即仅有HEK293t裂解物)显示没有任何信号。使用小鼠抗Cas9一抗探测先导编辑器。所有泳道均上样有5微克澄清的细胞蛋白提取物。GAPDH(兔抗-GAPDH)作为上样对照进行探测。(B)蛋白质印迹的原始量化和(C)对不同BFP浓度进行归一化。数据显示为归一化成全长表达对照的平均值。(D)示出先导编辑器诱导的G到T颠换突变，在HEK293t细胞的FANCF和VEGFA3位点中诱导。顶部图像分别显示了FANCF和VEGFA3座位的序列背景。灰色箭头表示先导编辑器向导RNA(pegRNA)靶向的序列。原间隔序列临近基序(PAM)用灰色框表示。以颠换为T为靶标的G在序列中突出显示。在三种条件下使用桑格序列对基因组座位进行测序。顶部图像显示了未经编辑的野生型条件的代表性桑格迹线。顶部图像中的第二个显示了代表全长表达的先导编辑器构建体的代表性桑格迹线。用黑框突出显示的区域显示了桑格序列中出现的T条带，表明在部分细胞中成功引入了基因编辑。最底部的图像显示了用双向分裂重构的先导编辑器编辑的细胞的代表性桑格迹线。T迹线(黑框)的出现证明了从两个片段重构时先导编辑器的功能。

图22A-22C显示全长人源化胞嘧啶碱基编辑器(AncBE4)(1854aa)的有效重构。所用5'和3'分子的DNA序列显示在SEQ ID NO:163和164中。(A)显示AncBE4表达的蛋白质印迹。泳道1-3：全长AncBE4的表达(～230kDa条带显示全长AncBE4)。泳道4-6：重构的AncBE4的表达(230k Da处的条带显示成功重构的AncBE4)。泳道7：无转染对照(即仅有HEK 293t裂解物)显示没有任何信号。AncBE4使用小鼠抗Cas9一抗进行了探测。所有泳道均上样有5微克澄清的细胞蛋白提取物。GAPDH(兔抗-GAPDH)作为上样对照进行探测。(B)蛋白质印迹的原始量化。数据显示为归一化成全长表达对照的平均值。(C)示出AncBE4诱导的C到T转换突变，在HEK293t细胞的EMX1和HEK位点3座位中诱导。顶部图像分别显示了EMX1和HEK位点3座位的序列背景。灰色箭头表示AncBE4向导RNA(sgRNA)靶向的序列。原间隔序列临近基序(PAM)用灰色框表示。以转换成T为靶标的C在序列中突出显示。在三种条件下使用桑格序列对基因组座位进行测序。顶部图像显示了未经编辑的野生型条件的代表性桑格迹线。顶部图像中的第二个显示了代表全长表达的AncBE4构建体的代表性桑格迹线。用黑框突出显示的区域显示了桑格序列中出现的T条带，表明在部分细胞中成功引入了基因编辑。最底部的图像显示了用双向分裂重构AncBE4编辑的细胞的代表性桑格迹线。T迹线(黑框)的出现证明了从两个片段重组时AncBE4的功能。

图23A-23C显示全长人源化腺嘌呤碱基编辑器(Abe8e)(1606aa)的有效重构。使用的5'和3'分子的DNA序列显示在SEQ ID NO:165和166中。(A)显示了Abe8e表达的蛋白质印迹。泳道1-3：全长Abe8e的表达(～230kDa条带显示全长Abe8e)。泳道4-6：重构的Abe8e的表达(230k Da处的条带显示成功重构的Abe8e)。泳道7：无转染对照(即仅有HEK 293t裂解物)显示没有任何信号。使用小鼠抗Cas9一抗对Abe8e进行了探测。所有泳道均上样有5微克澄清的细胞蛋白提取物。GAPDH(兔抗GAPDH)作为上样对照进行探测。(B)原始量化蛋白质印迹。数据显示为归一化成全长表达对照的平均值。(C)显示Abe8e诱导的A到G转换突变，在HEK293t细胞的BCL11 A和HGB1/2座位中诱导。顶部图像分别显示了BCL11 A和HGB1/2座位的序列背景。灰色箭头表示Abe8e向导RNA(sgRNA)靶向的序列。原间隔序列临近基序(PAM)用灰色框表示。以转换为G为靶标的A在序列中突出显示。在三种条件下使用桑格序列对基因组座位进行测序。顶部图像显示了未经编辑的野生型条件的代表性桑格迹线。顶部图像中的第二个显示了代表全长表达的Abe8e构建体的代表性桑格迹线。用黑框突出显示的区域显示了桑格序列中出现的G带，表明在部分细胞中成功引入了基因编辑。最底部的图像显示了用双向分裂重构Abe8e编辑的细胞的代表性桑格痕迹。G迹线(黑框)的出现证明了Abe8e在从两个片段重构时的功能。

图24A-24C下游内含子剪接增强子(DISE)、内含子剪接增强子(ISE)和受体序列对RNA末端连接效率的影响。(A)筛选设置示意图。5'片段是RNA分子，它使用人类CMV启动子和增强子从DNA构建体转录。产生的RNA分子包含长填充序列开放阅读框，以模拟大型货物的大小。该填充序列以2A自切割肽序列结束，其后是黄色荧光蛋白(n-yfp)的5'片段的编码区。yfp的5'片段以剪接供体位点(SD)结束。该剪接供体位点之后是RNA末端连接模块的5'内含子部分。为了确定DISE和ISE序列对RNA末端连接反应效率的影响，将5'内含子部分细分为三个片段：从5'到3'：ds：下游节段；m：中间内含子节段；dd：供体远端节段。5'内含子部分之后是三峰吻式环RNA二聚体化域。该消息以短的多聚腺苷酸化信号终止。这个5'RNA分子的总长度约为～4kb，以模拟大型货物重构情况。3'片段是一个RNA分子，它是使用人类CMV启动子和增强子从DNA构建体转录而来的。3'片段以三峰吻式环RNA二聚体化域开始，该域与编码RNA分子的5'片段上的二聚体化域互补。二聚体化域之后是RNA末端连接模块的3'内含子部分。这个3'内含子部分细分为三个节段：ad：受体远端节段；m：中间内含子节段；ap：受体近端节段。受体近端节段包含分支点和多嘧啶束的变异，两者对于剪接体介导的RNA连接反应都是必不可少的。剪接受体(SA)位点之后是3'yfp编码序列，随后是自切割2A序列，然后是长填充序列开放阅读框。该消息由SV40多聚腺苷酸化信号终止。3'RNA分子的总长度约为～4kb，以模拟大型货物重构情况。两个RNA分子(5'片段和3'片段)的结合由三峰吻式环RNA二聚体化域介导，剪接体的募集和RNA末端连接反应由内含子节段介导。成功的RNA末端连接实现了yfp开放阅读框的重构和YFP的后续翻译。(B)流式细胞术测定的中值YFP荧光强度显示了许多内含子构型。在第一组(柱形1到9)中，选择的潜在下游内含子剪接增强子序列与共有剪接供体位点(DNA构建体中的GTAAGTATT和RNA序列中的GUAAGUAUU)配对，如柱形1-8所示。这些与共有剪接供体进行比较，之后是由所有四个碱基(ds9)的相等部分组成的杂乱序列。在第二组中，m1-m16选择的潜在内含子剪接增强子与杂乱序列(ml6)进行比较。在最后一组中，比较了选择的潜在强分支点、多嘧啶束和剪接受体。参考构建体由所有非可变位置的杂乱序列和共有供体，然后是ds位置的杂乱序列和共有剪接受体序列组成(其中整个多嘧啶束分别由DNA构建体中的T和RNA片段中的U组成)。(C)所用的不同DISE、ISE和剪接受体元件的列表。

序列表

随附序列表中列出的核酸序列和氨基酸序列使用如37C.F.R.1.822限定的核苷酸碱基的标准字母缩写和氨基酸三字母代码表示。仅显示了每个核酸序列的一条链，但是互补链被理解为包含在对所示链的任何引用中。序列表以ASCII文本文件提交，创建于2020年9月30日，157KB，通过引用将其并入本文。在随附的序列表中：

SEQ ID NO:1和2分别是N-端和C-端序列，用于表达全长YFP。在SEQ ID NO:1中，CMV启动子在nt 1至543，YFP编码序列在nt 544至1032，合成内含子在nt 1033至1436，并且未翻译多聚腺苷酸区在nt 1437至1491。在SEQ ID NO:2中，CMV启动子在nt 1至522，合成内含子在nt 523至904，YFP编码序列在nt 905至1141，并且nt1142至1302是未翻译多聚腺苷酸区。

SEQ ID NO:3和4分别是可用于表达所需全长蛋白质的5'-和3'-内含子序列，其中所述全长蛋白质的N-端部分可添加在SEQ ID NO:3的nt 1处，所述全长蛋白质的C-端部分可以添加在SEQ ID NO:4的nt 382处。

SEQ ID NO:5和6分别是N-端和C-端编码序列，用于表达全长YFP。

SEQ ID NO:7是示例性合成内含子二聚体化域(图10E)。

SEQ ID NO:8是示例性合成内含子，没有内含子剪接增强子(图10F)。

SEQ ID NO:9是示例性合成内含子，没有内含子剪接增强子(图10G)。

SEQ ID NO:10是示例性合成内含子，没有内含子剪接增强子(图10H)。

SEQ ID NO:11是示例性合成内含子，没有结合域(图10I)。

SEQ ID NO:12是示例性合成内含子，具有二聚体化域(图10J)。

SEQ ID NO:13是示例性合成内含子，具有二聚体化域(图10K)。

SEQ ID NO:14是示例性合成内含子，没有内含子剪接增强子(图10L)。

SEQ ID NO:15是示例性合成内含子，仅具有DISE(图10M)。

SEQ ID NO:16是示例性合成内含子，不具有HHrz(图10N)。

SEQ ID NO:17是示例性合成内含子，不具有内含子剪接增强子(图10O)。

SEQ ID NO:18是示例性U12依赖性内含子，具有结合域(图10P)。

SEQ ID NO:19是示例性U12依赖性内含子，具有结合域(图10Q)。

SEQ ID NO:20和21分别是N-端和C-端DNA序列，用于表达RNA(前体mRNA)，产生全长Abca4。在SEQ ID NO:20中，对应于N-端Abca4编码区的序列在nt 22至3702处，nt 3703至3912为合成内含子，并且nt 3921至3969为未翻译多聚腺苷酸区。SEQ ID NO:20还包含在nt3703-3711处的剪接供体、在nt 3714-3737处的大鼠FGFR2 DISE、在nt 3747-3770处的cTNT内含子剪接增强子、在nt 3782-3794处的M2内含子剪接增强子和在nt 3801-3975的吻式环二聚体化域。在SEQ ID NO:21中，nt 1至228是合成内含子，nt 229至3366是C-端Abca4编码区，nt 3367至3447是FFAG表位标签，nt 3476至3607是未翻译多聚腺苷酸区(信号)。SEQ IDNO:21还包含nt 3-114处的吻式环二聚体化域、nt 121-133处的M2内含子剪接增强子、nt140-163处的cTNT内含子剪接增强子、nt 175-187处的M2内含子剪接增强子、nt 194-201处有分支点基序、nt 207-226处的多嘧啶束和nt 228处的剪接受体。

SEQ ID NO:22和23分别是N-端和C-端DNA序列，用于表达RNA(前体mRNA)，从而产生长的全长YFP，其中每个都包括剪接增强子。在SEQ ID NO:22中，N-端YFP编码区是nt 22至3702，nt 3703至3912是合成内含子，nt 3921至3969是未翻译多聚腺苷酸区。SEQ ID NO:22还包含nt 3703-3711处的剪接供体、nt 3714-3737处的大鼠FGFR2 DISE、nt 3747-3770处的cTNT内含子剪接增强子、nt 3782-3794处的M2内含子剪接增强子和nt 3801-3975处的吻式环二聚体化域。在SEQ ID NO:23中，nt 1至225是合成内含子，nt 226至3747是C-端YFP编码区，nt 3748至3912是未翻译多聚腺苷酸区。SEQ ID NO:23包含nt 3-114处的吻式环二聚体化域、nt 118-130处的M2内含子剪接增强子、nt 137-160处的cTNT内含子剪接增强子、nt 172-184处的M2内含子剪接增强子、nt 191-198处的分支点基序、nt 204-223处的多嘧啶束和nt 225处的剪接受体。

SEQ ID NO:24和25分别是N-端和C-端序列，用于表达RNA(前体mRNA)，从而产生全长人类因子VIII。在SEQ ID NO:24中，具有N-端HA表位标签nt的N-端FVIII编码区在nt 22至3561处，nt 3562至3771是合成内含子，并且nt 3780至3828是未翻译多聚腺苷酸区。SEQID NO:24还包含nt 3562-3570处的剪接供体、nt 3573-3596处的大鼠FGFR2 DISE、nt3606-3629处的cTNT内含子剪接增强子、nt 3641-3653处的M2内含子剪接增强子和nt3660-3834处的吻式环二聚体化域。在SEQ ID NO:25中，nt 1至225是合成内含子，nt 226至3636是C-端FVIII编码区，nt 3665至3797是未翻译多聚腺苷酸区。SEQ ID NO:25还包含nt3703-3711处的剪接供体、nt 3714-3737处的大鼠FGFR2 DISE、nt 3747-3770处的cTNT内含子剪接增强子、nt 3782-3794处的M2内含子剪接增强子和nt 3801-3975处的吻式环二聚体化域。

SEQ ID NO:26-136是示例性剪接增强子，可与本文提供的系统一起使用(例如，图6A的118、120、156)。

SEQ ID NO:137和138是示例性剪接供体序列。

SEQ ID NO:139和140分别是基于HIV-1的吻式环二聚体化域的N-和C-片段。

SEQ ID NO:141和142分别是基于HIV-2的吻式环二聚体化域的N-和C-片段。

SEQ ID NO:143是示例性隐蔽剪接受体序列。

SEQ ID NO:144是示例性分支点共有序列。

SEQ ID NO:145和146分别是N-序列和中间序列，用于与SEQ ID NO:2(C-端片段)表达全长YFP。在SEQ ID NO:145中，nt 1至543是CMV启动子序列，nt 544至849是N-端YFP编码区，并且nt 850至1305是合成内含子。在SEQ ID NO:146中，nt1至522是CMV启动子序列，nt 523至901是合成内含子，nt 902至1084是中间YFP编码区，并且nt 1085至1543是未翻译多聚腺苷酸区。

SEQ ID NO:147和148分别是5'和3'-合成序列，用于表达全长Flpo。在SEQ ID NO:147中，nt 1至540是CMV启动子序列，nt 541至1112是N-端Flpo编码区，并且nt 1113至1571是合成内含子。在SEQ ID NO:148中，nt 1至522是CMV启动子序列，nt 523至904是合成内含子，nt 905至1604是C-端Flpo编码区，nt 1605至1765是未翻译多聚腺苷酸区。

SEQ ID NO:149和150是示例性低多样性序列。

SEQ ID NO:151和152是示例性剪接供体共有序列。

SEQ ID NO:153是基于HIV-2吻式环二聚体化域的示例性吻式环(SEQ ID NO:141和142，图17B)。

SEQ ID NO:154是示例性Kozak增强起始密码子。

SEQ ID NO:155和156是可用于在体内表达鼠Otof编码序列的示例性构建体。SEQID NO:155用于产生N-端Otof RNA。它包含nt 1-522处的人类CMV增强子和启动子、nt 523处推定转录起始位点以及nt 4263-4311处的多聚腺苷酸化信号。它编码如下N-端Otof RNA元件：5'未翻译区，包括Kozak序列nt 523-546；5'Otoferlin编码序列nt 547-4044；5'合成内含子序列nt 4045-4142；5'三峰吻式环二聚体化域nt 4143-4254；和nt 4255-4262处的接头。SEQ ID NO:155用于产生C-端Otof RNA。它包含nt 1-522处的人类CMV增强子和启动子、nt 523处的推定转录起始位点以及nt 3335-3467处的多聚腺苷酸化信号。它编码如下C-端Otof RNA元件：3'三峰吻式环二聚体化域nt 525-636；3'合成内含子序列nt 637-747；3'Otoferlin编码序列nt 748-3225；C-端3xFlag标签nt 3226-3306；和nt 3307-3334处的接头。

SEQ ID NO:157和158是可用于在体内表达人类肌球蛋白VIIA(Myo7a)编码序列的示例性构建体。SEQ ID NO:157用于产生N-端Myo7a RNA。它包含nt 1-522处的人类CMV增强子和启动子、nt 523处的推定转录起始位点和nt 4344-4392处的多聚腺苷酸化信号。它编码如下N-端Myo7A RNA元件：5'未翻译区，包括Kozak序列nt 523-543；5'Myo7a编码序列nt544-4125；5'合成内含子序列nt 4126-4223；5'三峰吻式环二聚体化域nt 4224-4335；和nt4336-4343处的接头。SEQ ID NO:158用于产生C-端Myo7a RNA。它包含nt 1-522处人类CMV增强子和启动子、nt 523处的推定转录起始位点以及nt 3923-4055处的多聚腺苷酸化信号。它编码如下C-端Myo7a RNA元件：3'三峰吻式环二聚体化域nt 525-636；3'合成内含子序列nt 637-747；3'Myo7a编码序列nt 748-3813；C-端3xFlag标签nt 3814-3894；和nt3895-3922处的接头。

SEQ ID NO:159和160是示例性构建体，可用于在体内表达与VPR转录激活因子域(dCas9-VPR)编码序列融合的全长酶促死亡Cas9。SEQ ID NO:159用于产生N-端DCas9-VPRRNA。它包含nt 1-522处的人类CMV增强子和启动子、nt 523处的推定转录起始位点以及nt4112-4161处的多聚腺苷酸化信号。它编码如下N-端DCas9-VPR RNA元件：5'未翻译区，包括Kozak序列nt 523-543；5'DCas9-VPR编码序列nt 544-3894；5'合成内含子序列nt 3895-3992；5'三峰吻式环二聚体化域nt 3993-4104；和接头nt 4105-4112。SEQ ID NO:160用于产生C-端DCas9-VPR RNA。它包含nt 1-522处的人类CMV增强子和启动子、nt 523处的推定转录起始位点和nt 3278-3410处的多聚腺苷酸化信号。它编码如下C-端DCas9-VPR RNA元件：3'三峰吻式环二聚体化域nt 525-636；3'合成内含子序列nt 637-747；3'DCas9-VPR编码序列nt 748-3249；和nt 3250-3277处的接头。

SEQ ID NO:161和162是可用于在体内表达全长人源化Cas9先导编辑器(先导编辑器)编码序列的示例性构建体。SEQ ID NO:161编码如下N-端先导编辑器序列：人类CMV增强子和启动子nt 1-522；推定转录起始位点nt 523；5'未翻译区，包括Kozak序列nt 523-543；5'先导编辑器编码序列nt 544-3894；5'合成内含子序列nt 3895-3992；5'三峰吻式环二聚体化域nt 3993-4104；接头nt 4105-4112；多聚腺苷酸化信号nt 4112-4161。SEQ ID NO:162编码如下C-端先导编辑器序列：人类CMV增强子和启动子nt 1-522；推定转录起始位点nt 523；3'三峰吻式环二聚体化域nt 525-636；3'合成内含子序列nt 637-747；3'先导编辑器编码序列nt 748-3750；接头nt 3751-3778；多聚腺苷酸化信号nt 3779-3911。

SEQ ID NO:163和164是可用于在体内表达全长人源化胞嘧啶碱基编辑器(AncBE4)编码序列的示例性构建体。SEQ ID NO:163编码如下N-端AncBE4序列：人类CMV增强子和启动子nt 1-522；推定转录起始位点nt 523；5'未翻译区，包括Kozak序列nt 523-540；5’AncBE4编码序列nt 541-2892；5'合成内含子序列nt 2893-2990；5'三峰吻式环二聚体化域nt 2991-3102；接头nt 3103-3110；多聚腺苷酸化信号nt 3111-3159。SEQ ID NO:164编码如下C-端AncBE4：人类CMV增强子和启动子nt 1-522；推定转录起始位点nt 523；3'三峰吻式环二聚体化域nt 525-636；3'合成内含子序列nt 637-747；3'AncBE4编码序列nt748-3957；接头nt 3958-3982；多聚腺苷酸化信号nt 3983-4115。

SEQ ID NO:165和166是可用于在体内表达全长人源化腺嘌呤碱基编辑器(Abe8e)编码序列的示例性构建体。SEQ ID NO:165编码如下N-端Abe8e序列：人类CMV增强子和启动子nt 1-522；推定转录起始位点nt 523；5'未翻译区，包括Kozak序列nt 523-540；5’Abe8e编码序列nt 541-2706；5'合成内含子序列nt 2707-2804；5'三峰吻式环二聚体化域nt2805-2916；接头nt 2917-2924；多聚腺苷酸化信号nt 2925-2973。SEQ ID NO:166编码如下C-端Abe8e序列：人类CMV增强子和启动子nt 1-522；推定转录起始位点nt 523；3'三峰吻式环二聚体化域nt 525-636；3'合成内含子序列nt 637-747；3'Abe8e编码序列nt 748-3399；接头nt 3400-3427；多聚腺苷酸化信号nt 3428-3560。

SEQ ID NO:167是示例性吻式环域(GATTTTTGACCTGCTCGATTGTCCACTGCGAGCAGGTCTTTTGGAGTCGGGCGAGGCGGAAGCCCGACTCCTTTTGGCATGCACGCTAGCCGCGTCGTGCATGCCTTTTATC)。

SEQ ID NO:168是示例性ISE，M2(GGGTTATGGGACC)。

SEQ ID NO:169是示例性ISE，cTNT(GGCTGAGGGAAGGACTGTCCTGGG)。

SEQ ID NO:170是示例性DISE，大鼠FGFR2

(CTCTTTCTTTCCATGGGTTGGCCT)。

SEQ ID NO:171和172是可用于表达全长YFP编码序列的示例性构建体。SEQ IDNO:171编码如下N-端YFP序列：人类CMV增强子和启动子nt 1-522；推定转录起始位点nt523；5'未翻译区，包括Kozak序列nt 523-543；5'填充序列开放阅读框nt 544-3654；自切割2A序列nt 3655-3729；5'黄色荧光蛋白节段nt 3730-4224；5'合成内含子序列(可变)nt4225-4294；5'三峰吻式环二聚体化域(大写)：4295-4406；接头nt 4407-4414；多聚腺苷酸化信号nt 4415-4463。SEQ ID NO:172编码如下C-端YFP序列：名称：3'内含子筛选分裂YFP；人类CMV增强子和启动子nt 1-522；推定转录起始位点nt 523；3'三峰吻式环二聚体化域nt525-636；3'合成内含子序列(可变)nt 637-706；3'yfp编码序列nt 707-940；自切割2A序列nt 941-1006；3'填充序列开放阅读框nt 1007-4228；接头nt 4229-4265；多聚腺苷酸化信号nt 4257-4388。

SEQ ID NO:173-180是示例性内含子剪接增强子序列。

SEQ ID NO:181是杂乱序列。

SEQ ID NO:182-196是示例性内含子剪接增强子序列。

SEQ ID NO:197-198是杂乱序列。

SEQ ID NO:199-203是示例性内含子剪接增强子序列。

SEQ ID NO:204是杂乱序列。

SEQ ID NO:205是示例性分支点序列(TACTAACA)。

SEQ ID NO:206是示例性多聚腺苷酸化信号

AATAAAATATCTTTATTTTCATTACATCTGTGTGTTGGTTTTTTGTGTG。

具体实施方式

除非另有说明，否则按照常规用法使用技术术语。分子生物学中常用术语的定义参见本杰明·勒温(Benjamin Lewin),《基因VII》(Genes VII),牛津大学出版社,1999年出版；肯德鲁(Kendrew)等人(编辑),《分子生物学百科全书》(The Encyclopedia ofMolecular Biology),布莱克威尔科学有限公司(Blackwell Science Ltd.),1994年出版；和罗伯特·A.迈耶斯(Robert A.Meyers)(编辑),《分子生物学和生物技术：综合案头参考资料》(Molecular Biology and Biotechnology:a Comprehensive Desk Reference),VCH出版社公司(VCH Publishers,Inc.),1995年出版；和其他类似的参考资料。

如本文所用，单数形式“一个”(a)、“一个”(an)和“所述”既指单数也指复数，除非上下文另有明确指示。如本文所用，术语“包含”(comprises)是指“包括”(includes)。因此，“包含核酸分子”是指“包括核酸分子”，而不排除其他要素。还应理解，针为核酸给出的任何和所有碱基大小都是近似的，并且旨在描述，除非另有说明。尽管可以使用与本文所述的方法和材料相似或等效的许多方法和材料，但下文描述了特别合适的方法和材料。如有冲突，以本说明书(包括术语解释)为准。此外，材料、方法和实例仅是说明性的而不是限制性的。所有参考文献，包括专利申请和专利，以及GenBank登录号，均通过引用整体并入本文。

为了便于查看本公开的各个实施方案，提供以下对具体术语的解释：

施用：通过任何有效途径提供或给予受试者药剂，例如本文提供的治疗性核酸分子，或其他治疗剂。示例性施用途径包括但不限于注射途径(例如皮下、肌内、皮内、腹膜内、鞘内、瘤内、骨内和静脉内)、经皮途径、鼻内途径和吸入途径。施用可以是全身的或局部的。

适体：以高亲和力和特异性结合特定靶剂或分子的核酸分子(如DNA或RNA)。适体可以在所公开的核酸分子中用作二聚体化域。在一个实例中，两个适体可以例如通过标准碱基配对、非规范碱基对相互作用、非碱基配对相互作用或其组合相互结合，以介导二聚体化。在一个实例中，适体仅在存在被适体识别的一个或更多个靶标时才进行RNA二聚体化(和随后的重组)。适体已经通过称为通过指数富集的配体系统进化(SELEX)的组合选择过程获得(参见例如艾灵顿(Ellington)等人,《自然》(Nature)1990,346,818-822；图尔克(Tuerk)和戈尔德(Gold)《科学》(Science)1990,249,505-510；刘(Liu)等人,《化学评论》(Chem.Rev.)2009,109,1948-1998；沙玛(Shamah)等人,《化学研究报告》(Acc.Chem.Res.)2008,41,130-138；法穆洛克(Famulok)等人,《化学评论》2007,107,3715-3743；马尼马拉(Manimala)等人,《核酸的研究进展》(Recent Dev.Nucleic Acids Res.)2004,1,207-231；法穆洛克等人,《化学研究报告》2000,33,591-599；黑塞尔伯斯(Hesselberth)等人,《生物技术和分子生物学评论》(Rev.Mol.Biotech.)2000,74,15-25；威尔逊(Wilson)等人,《生物化学年鉴》(Annu.Rev.Biochem.)1999,68,611-647；莫里斯(Morris)等人,《美国国家科学院院刊》(Proc.Natl.Acad.Sci.U.S.A.)1998,95,2902-2907)。在此过程中，能够结合所关注靶分子的DNA或RNA分子是通过选择、扩增和突变的迭代步骤从由1014-1015个不同序列组成的核酸文库中选出的。适体对其靶标的亲和力可以与抗体的亲和力相媲美，解离常数低至皮摩尔范围(莫里斯等人,《美国国家科学院院刊》1998,95,2902-2907；格林(Green)等人,《生物化学》(Biochemistry)1996,35,14413-14424)。

已识别对从小型有机分子(如腺苷)到蛋白质(如凝血酶)甚至病毒和细胞的广泛靶标具有特异性的适体(刘等人,《化学评论》2009,109,1948-1998；李(Lee)等人,《核酸研究》(Nucleic Acids Res.)2004,32,D95-D100；纳瓦尼(Navani)和利(Li),《最新化学生物学观点》(Curr.Opin.Chem.Biol.)2006,10,272-281；桑(Song)等人,TraAC,《分析化学趋势》(Trends Anal.Chem.)2008,27,108-117)。例如，可以使用识别以下的适体：金属离子，例如Zn(II)(切西奥尔卡(Ciesiolka)等人,RNA 1:538-550,1995)和Ni(II)(霍夫曼(Hofmann)等人,RNA,3:1289-1300,1997)；核苷酸，例如三磷酸腺苷(ATP)(惠曾加(Huizenga)和绍斯塔克(Szostak),《生物化学》,34:656-665,1995)；和鸟嘌呤(基加(Kiga)等人,《核酸研究》,26:1755-60,1998)；辅因子，例如NAD(基加等人,《核酸研究》,26:1755-60,1998)和黄素(劳洪(Lauhon)和绍斯塔克,《美国化学会杂志》(J.Am.Chem.Soc.),117:1246-57,1995)；抗生素，例如紫霉素(瓦利斯(Wallis)等人,《化学与生物学》(Chem.Biol.)4:357-366,1997)和链霉素(华莱士(Wallace)和施罗德(Schroeder),RNA 4:112-123,1998)；蛋白质，例如HIV逆转录酶(夏洛因(Chaloin)等人,《核酸研究》,30:4001-8,2002)和丙型肝炎病毒RNA依赖性RNA聚合酶(比罗乔(Biroccio)等人,《病毒学杂志》(J.Virol.)76:3688-96,2002)；毒素，例如霍乱全毒素和葡萄球菌肠毒素B(布鲁诺(Bruno)和基尔(Kiel),《生物技术》(BioTechniques),32:第178-180页和第182-183页,2002)；和细菌孢子，例如炭疽(布鲁诺和基尔,《生物传感器和生物电子学》(Biosensors&Bioelectronics),14:457-464,1999)。

结合：两种物质或分子之间的缔合，例如一个核酸分子与另一个(或自身)杂交，例如在两个二聚体化域之间，或适体与其靶标的结合。如果寡核苷酸分子和靶核酸之间存在足够数量的互补碱基对从而能够检测至该结合，则该寡核苷酸分子结合或稳定结合另一个核酸分子。在一些实例中，核酸分子之间的结合可以直接进行。在一些实例中，核酸分子之间的结合可以间接进行，例如通过中间分子。直接结合或间接结合可以通过标准碱基配对、通过非规范碱基对相互作用、通过非碱基对相互作用或其组合进行。非规范碱基对相互作用可以通过本领域技术人员已知的任何稳定化方法进行，包括但不限于胡格斯汀(Hoogsteen)碱基对和摆动碱基对。非碱基对相互作用可以包括通过中间分子结合。在一些实例中，直接结合在吻式环二聚体化域之间。在一些实例中，直接结合在低多样性二聚体化域之间。在一些实例中，直接结合在适体区之间。在一些实例中，适体区之间的直接结合涉及非规范碱基对相互作用。在一些实例中，适体区之间的直接结合涉及标准碱基配对相互作用和非规范碱基对相互作用。在一些实例中，间接结合通过核酸桥进行。在一些实例中，所述核酸桥是mRNA。图7B中示出了核酸桥的非限制性实例。在一些实例中，间接结合通过适体分子进行。图7A中示出了通过适体分子间接结合的非限制性实例。在一些实施方案中，通过适体分子的间接结合涉及所述适体分子和结合区之间的非碱基对相互作用。在一些实施方案中，通过适体分子的间接结合涉及所述适体分子和所述结合区之间的非碱基对相互作用，以及所述结合区之间的碱基配对相互作用。

C-端部分：蛋白质序列的区域，包括连续链段的氨基酸，从蛋白质的C-端残基处或附近开始。所述蛋白质的C-端部分可以由连续链段的氨基酸(例如，多个氨基酸残基)限定。

癌症：以异常或不受控制的细胞生长为特征的恶性肿瘤。通常与癌症相关的其他特征包括转移、干扰邻近细胞的正常功能、释放异常水平的细胞因子或其他分泌产物以及抑制或加重炎症反应或免疫反应、侵袭周围或远处的组织或器官，如淋巴结等。“转移性疾病”是指癌细胞已经离开原肿瘤部位并例如通过血流或淋巴系统迁移到身体的其他部位。

互补性：核酸通过传统的沃森-克里克(Watson-Crick)碱基配对或其他非传统类型与另一个核酸序列形成氢键的能力。互补性百分比表示核酸分子中可与第二核酸序列形成氢键(例如，Watson-Crick碱基配对)的残基百分比(例如，10个残基中的5个、6个、7个、8个、9个、10个为50％、60％、70％、80％、90％和100％互补)。“完全互补”是指核酸序列的所有连续残基将与第二核酸序列中相同数量的连续残基形成氢键。如本文所用，“基本上互补”是指在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸区域内的互补程度为至少60％、65％、70％、75％、80％、85％、90％、95％、97％、98％、99％或100％，或指在严格条件下杂交的两种核酸。因此，在一些实例中，第一二聚体化域和第二二聚体化域彼此完美互补(例如，100％)。在其他实例中，第一二聚体化域和第二二聚体化域基本上彼此互补(例如，至少80％)。

接触：以直接物理缔合的方式放置，包括固体或液体形式。接触可以在体外或离体进行，例如，通过向样品(例如含有细胞的样品)中添加试剂，或通过体内施用于受试者。

下调或敲低：当用于提及分子(例如靶核酸或蛋白质)的表达时，是指使得靶RNA或蛋白质产生减少的任意过程，但在某些实例中，并未完全消除靶RNA产物或靶RNA功能。在一个实例中，下调或敲低不会完全消除可检测的靶核酸/蛋白质表达或活性。在一些实例中，靶核酸的下调或敲低包括降低靶RNA翻译水平并因此可以降低相应蛋白质存在的过程。所公开的系统可用于下调所关注的任何靶核酸/蛋白质。

下调或敲低包括靶核酸/蛋白质任何可检测的降低。在某些实例中，与对照(在相应的未处理细胞或样品中检测到的靶核酸/蛋白质的量)相比，细胞系统或无细胞系统中可检测靶核酸/蛋白质减少至少10％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％(例如减少40％至90％、40％至80％或50％至95％)。在一个实例中，对照是正常细胞(例如，不包括用于本文提供RNA重组的核酸分子的非重组细胞)中的相对表达量。

有效量：足以产生有益或期望结果的药剂(例如提供多个载体的系统，每个载体编码治疗性蛋白质(例如抗肌萎缩蛋白)的不同部分)的量。有效量还可以指足以产生有益或期望结果的正确连接的RNA或产生的治疗性蛋白质的量。

有效量(也称为治疗有效量)可以根据以下一项或更多项而变化：正在治疗的受试者和疾病状况、所述受试者的体重和年龄、所述疾病状况的严重性、施用方式等，这些可以由本领域的普通技术人员确定。有益的治疗效果可以包括能够实现确诊；改善疾病、症状、障碍或病理状况；减少或预防疾病、症状、障碍或病症的发作；以及通常减轻疾病、症状、障碍或病理状况。

在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”足以治疗疾病，例如遗传疾病或癌症。在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以延长受治疗患者存活时间的量，例如延长存活时间至少10％、至少20％、至少25％、至少50％、至少70％、至少75％、至少80％、至少90％、至少95％、至少99％、至少100％、至少200％、至少300％、至少400％、至少500％或至少600％(与未施用本文提供的两种或更多种合成核酸分子相比)。在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以延长受治疗患者的存活时间的量，例如延长至少6个月、至少9个月、至少1年、至少1.5年、至少2年、至少2.5年、至少3年、至少4年、至少5年、至少10年、至少12年、至少15年，或至少20年(与未施用本文提供的两种或更多种合成核酸分子相比)。在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以提升受治疗患者(例如DMD患者)活动能力的量，例如提升至少10％、至少20％、至少25％、至少50％、至少70％、至少75％、至少80％、至少90％、至少95％、至少99％、至少100％、至少200％、至少300％、至少400％、至少500％或至少600％(与未施用本文提供的两种或更多种合成核酸分子相比)。在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以提升受治疗患者(例如DMD患者)活动能力的量，例如提升至少10％、至少20％、至少25％、至少50％、至少70％、至少75％、至少80％、至少90％、至少95％、至少99％、至少100％、至少200％、至少300％、至少400％、至少500％或至少600％(与未施用本文提供的两种或更多种合成核酸分子相比)。在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以提升受治疗患者(例如DMD患者)认知能力的量，例如提升至少10％、至少20％、至少25％、至少50％、至少70％、至少75％、至少80％、至少90％、至少95％、至少99％、至少100％、至少200％、至少300％、至少400％、至少500％或至少600％(与未施用本文提供的两种或更多种合成核酸分子相比)。在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以增强受治疗患者(例如DMD患者)呼吸功能的量，例如增强至少10％、至少20％、至少25％、至少50％、至少70％、至少75％、至少80％、至少90％、至少95％、至少99％、至少100％、至少200％、至少300％、至少400％、至少500％或至少600％(与未施用本文提供的两种或更多种合成核酸分子相比)。在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以促进受治疗患者(例如血友病患者)的血液凝结的量，例如促进至少10％、至少20％、至少25％、至少50％、至少70％、至少75％、至少80％、至少90％、至少95％、至少99％、至少100％、至少200％、至少300％、至少400％、至少500％或至少600％(与未施用本文提供的两种或更多种合成核酸分子相比)。在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以改善受治疗患者(例如亚瑟患者或斯塔加特患者)视力的量，例如改善至少10％、至少20％、至少25％、至少50％、至少70％、至少75％、至少80％、至少90％、至少95％、至少99％、至少100％、至少200％、至少300％、至少400％、至少500％或至少600％(与未施用本文提供的两种或更多种合成核酸分子相比)。在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以提升受治疗患者(例如亚瑟患者)的听力的量，例如提升至少10％、至少20％、至少25％、至少50％、至少70％、至少75％、至少80％、至少90％、至少95％、至少99％、至少100％、至少200％、至少300％、至少400％、至少500％或至少600％(与未施用本文提供的两种或更多种合成核酸分子相比)。

在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以减少受治疗DMD患者小腿肌肉大小的量，例如减少至少10％、至少20％、至少25％、至少50％、至少70％、至少75％、至少80％、至少90％或至少95％(与未施用本文提供的两种或更多种合成核酸分子相比)。在一个实施方案中，本文提供的两种或更多种合成核酸分子的“有效量”是足以减少受治疗DMD患者的心肌病肌肉大小的量，例如减少至少10％、至少20％、至少25％、至少50％、至少70％、至少75％、至少80％、至少90％或至少95％(与未施用本文提供的两种或更多种合成核酸分子相比)。在一些实例中，实现了这些效果的组合。

增加或减少：相对于对照值(例如代表没有治疗剂的值，例如未施用本文提供的两种或更多种合成核酸分子)的量分别在统计学上显著的正或负变化。增加是正变化，例如与对照值相比，增加至少50％、至少100％、至少200％、至少300％、至少400％或至少500％。减少是负变化，例如与对照值相比，减少至少20％、至少25％、至少50％、至少75％、至少80％、至少90％、至少95％、至少98％、至少99％或至少100％。在一些实例中，所述减少小于100％，例如减少不超过90％、不超过95％或不超过99％。

杂交：当两个核酸分子彼此产生一定量的氢键时，就会发生核酸的杂交。杂交的严格程度可以根据所述核酸周围的环境条件、杂交方法的性质以及所用核酸的组成和长度而变化。桑布鲁克(Sambrook)等人,《分子克隆：实验室手册》(Molecular Cloning:ALaboratory Manual)(冷泉港实验室出版社(Cold Spring Harbor Laboratory Press),冷泉港，纽约,2001)；和提森(Tijssen),《使用核酸探针的生物化学和分子生物学杂交的实验室技术》(Laboratory Techniques in Biochemistry and Molecular Biologyhybridization with Nucleic Acid Probes),第I部分,第2章(爱思唯尔，纽约，1993)中讨论了计算有关达到特定严格程度所需的杂交条件。T_m是给定核酸链的50％与其互补链杂交的温度。

分离的：“分离的”生物组分(例如核酸分子或蛋白质)已与所述组分所在生物体的细胞或组织中其他生物组分(例如其他细胞(例如RBC)、染色体和染色体外DNA和RNA以及蛋白质)基本分离、分开产生或纯化。已“分离”的核酸和蛋白质包括通过标准纯化方法纯化的核酸和蛋白质。该术语还包括通过在宿主细胞中重组表达制备的核酸和蛋白质以及化学合成的核酸和蛋白质。

吻式环/吻式茎环：当两个发夹环之间的碱基形成配对相互作用时形成的RNA结构。当一个发夹环中的未配对核苷酸与另一个发夹环中的未配对核苷酸碱基配对形成稳定的相互作用复合物时，就会发生这些分子间的“吻式相互作用”。例如参见图9A。

N-端部分：蛋白质序列的区域，包括从所述蛋白质N-端残基开始的连续氨基酸链段。所述蛋白质N-端部分可以由连续链段的氨基酸(例如，多个氨基酸残基)来限定。

非天然存在的、合成的或工程的：本文中使用的术语可互换使用，并指人工的参与。当提及核酸分子或多肽时，该术语表示所述核酸分子或所述多肽至少基本上不含至少一种与它们在自然界中天然相关并且如在自然界中发现的其他组分。此外，该术语可以表示所述核酸分子或多肽具有自然界中未发现的序列。

核酸分子：脱氧核糖核苷酸(DNA)或核糖核苷酸(RNA)聚合物，可包括天然核苷酸/核糖核苷酸和/或天然核苷酸/核糖核苷酸的类似物，它们以类似于天然存在核苷酸的方式与核酸分子杂交。核酸分子可以是单链(ss)DNA或RNA分子或双链(ds)核酸分子。如本文所用，RNA或mRNA可指前体mRNA分子或成熟RNA转录物。前体mRNA分子包含要通过加工去除的序列，例如在结合本文所述的二聚体化域后通过剪接去除的内含子序列。本文所述的核酸分子可以是DNA分子，例如，在DNA表达载体的情况下，该DNA分子从DNA上的启动子转录RNA。

可操作连接：当第一核酸序列与第二核酸序列存在功能关系时，所述第一核酸序列与所述第二核酸序列可操作连接。例如，如果启动子影响所述核酸序列的表达，例如，启动子影响在剪接时可能使蛋白质表达的前体mRNA(例如DMD、因子8、因子9或ABCA4编码序列的一部分)的转录，则所述启动子序列与所述核酸序列可操作连接。

药学上可接受的载体：可用于本发明的药学上可接受的载体是常规载体。E.W.马丁(E.W.Martin),《雷明顿的药物科学》(Remington’s Pharmaceutical Sciences),麦克出版公司(Mack Publishing Co.),伊斯顿,宾夕法尼亚,第15版(1975)说明了适用于药物递送治疗剂(如本文公开的核酸分子)的组合物和制剂。

一般而言，所述载体的性质将取决于所采用的特定施用方式。例如，肠胃外制剂通常包含作为媒介物的可注射流体，包括药学和生理学可接受的流体，例如水、生理盐水、平衡盐溶液、葡萄糖水溶液、甘油等。除了生物中性载体之外，待施用的药物组合物可包含少量无毒辅助物质，例如润湿剂或乳化剂、防腐剂和pH缓冲剂等，例如乙酸钠或脱水山梨糖醇单月桂酸酯。

多肽、肽和蛋白质：指任何长度的氨基酸聚合物。所述聚合物可以是直链的或支链的，它可以包括修饰的氨基酸，并且它可以被非氨基酸打断。该术语还包括已修饰的氨基酸聚合物；例如，二硫键形成、糖基化、脂化、乙酰化、磷酸化或任何其他处理，例如与标记组分的缀合。如本文所用，术语“氨基酸”包括天然和/或非天然或合成氨基酸，包括甘氨酸和D或L旋光异构体，以及氨基酸类似物和肽模拟物。在一个实例中，蛋白质是一种与疾病，例如遗传疾病(例如，参见表1)相关的蛋白质。在一个实例中，蛋白质是治疗性蛋白质，例如用于治疗疾病(例如癌症)的蛋白质。在一个实例中，蛋白质的长度至少为50aa、至少100aa、至少500aa、至少1000aa、至少1500aa，例如至少2000aa、至少2500aa、至少3000aa或至少5000aa。

多嘧啶束：促进剪接体组装的前信使RNA(mRNA)区域，剪接体是在转录后修饰过程中专门用于进行RNA剪接的蛋白质复合物。该多嘧啶束可以主要是嘧啶核苷酸，例如尿嘧啶，并且在一些实例中长度为15-20个碱基对，位于待剪接的内含子3'末端之前约5-40个碱基对处。

启动子/增强子：引导核酸序列转录的一系列核酸控制序列。启动子包括靠近转录起始位点的必需核酸序列，例如在聚合酶II型启动子的情况下，是TATA元件。启动子还任选地包括远端增强子或阻遏子元件，其可以位于距转录起始位点多达数千个碱基对的位置。在一些实例中，启动子序列+其相应的编码序列大于AAV的容量。在一些实例中，靶蛋白的启动子序列为至少3500nt、至少4000nt、至少5000nt，或者至少6000nt。

“组成型启动子”是持续具有活性且不受外部信号或分子调节的启动子。相反，“诱导型启动子”的活性由外部信号或分子(例如，转录因子)调节。组成型启动子和诱导型启动子均可用于本文提供的方法和系统中(参见例如，比特(Bitter)等人,《酶学方法》(Methodsin Enzymology)153:516-544,1987)。组织特异性启动子可用于本文提供的方法和系统中，例如以引导主要在所需组织或所关注的细胞中表达，例如肌肉、神经元、骨头、皮肤、血液、特定器官(例如肝脏、胰腺)或特定细胞类型(例如淋巴细胞)。在一些实例中，本文使用的启动子对于所表达的靶蛋白是内源性的。在一些实例中，本文使用的启动子对于所表达的靶蛋白是外源性的。

还包括足以使启动子依赖性基因表达对于细胞类型特异性、组织特异性或可被外部信号或药剂诱导可控的启动子元件；这些元件可位于所述基因的5'或3'区域。通过重组DNA或合成技术产生的启动子也可用于转录所述核酸序列。

可以与本文提供的所述方法和系统一起使用的示例性启动子包括但不限于SV40启动子、巨细胞病毒(CMV)启动子(任选地具有CMV增强子)、polⅢ启动子(例如，U6和H1启动子)、pol II启动子(例如，逆转录病毒劳氏肉瘤病毒(RSV)LTR启动子(任选具有RSV增强子)、二氢叶酸还原酶启动子、β-肌动蛋白启动子、磷酸甘油激酶(PGK)启动子和EF1α启动子)。

重组：重组核酸分子或蛋白质序列是具有非天然存在序列或具有通过人工组合两个其他分离的序列节段而产生的序列的核酸分子或蛋白质序列(例如，包括抗肌萎缩蛋白编码序列一部分，例如编码序列的约三分之一、一半或三分之二的病毒载体)。这种人工组合可以通过例如化学合成或人工操作(例如通过基因工程技术)分离的核酸节段来完成。类似地，重组或转基因细胞是包含重组核酸分子的细胞。

序列同一性：氨基酸(或核苷酸)序列之间的相似性以序列之间的相似性表示，也称为序列同一性。序列同一性通常以同一性百分比(或相似性或同源性)来衡量；百分比越高，两个序列越相似。

用于比较的序列比对方法是已知的。各种程序和比对算法在以下文献中有描述：史密斯(Smith)和沃特曼(Waterman),《应用数学进展》(Adv.Appl.Math.)2:482,1981；尼德曼(Needleman)和温施(Wunsch),《分子生物学杂志》(J.Mol.Biol.)48:443,1970；皮尔逊(Pearson)和利普曼(Lipman),《美国国家科学院院刊》85:2444,1988；希金斯(Higgins)和夏普(Sharp),《基因》(Gene)73:237,1988；希金斯和夏普，CABIOS 5:151,1989；科佩特(Corpet)等人,《核酸研究》(Nucleic Acids Research)16:10881,1988；以及皮尔逊和利普曼,《美国国家科学院院刊》85:2444,1988.阿尔舒尔(Altschul)等人,《自然遗传学》(Nature Genet)6:119,1994，详细考虑了序列比对方法和同源性计算。

NCBI基本局部比对搜索工具(BLAST)(阿尔舒尔等人,《分子生物学杂志》215:403,1990)可从多个来源获得，包括美国国家生物技术信息中心(NCBI,贝塞斯达市,马里兰州)和互联网，用于与序列分析程序blastp、blastn、blastx、tblastn和tblastx结合使用。如何使用该程序确定序列同一性的说明可在互联网上的NCBI网站获得。

原生蛋白质或编码序列(例如DMD、因子8、因子9或ABCA4序列)的变体序列通常的特征在于具有至少约80％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％的序列同一性，使用NCBI Blast 2.0在与氨基酸序列的全长比对中计数，将空位的blastp设置为默认参数。对于比较大于约30个氨基酸的氨基酸序列，采用Blast2序列函数，使用设置为默认参数的默认BLOSUM62矩阵(空位存在成本为11，每个残基空位成本为1)。当比对短肽(少于约30个氨基酸)时，应使用Blast 2序列函数进行比对，采用PAM30矩阵，设置为默认参数(产生空位罚分9，延伸空位罚分1)。当通过该方法评估时，与参考序列相似性更高的蛋白质将显示出百分比同一性增加，例如至少95％、至少98％，或至少99％的序列同一性。当比较少于整个序列的序列同一性时，同源序列和变体序列通常在10-20个氨基酸的短窗口内具有至少80％的序列同一性，并且可能具有至少85％或至少90％或95％的序列同一性，取决于它们与参考序列的相似性。在这样的短窗口上确定序列同一性的方法可在互联网上NCBI网站获得。提供这些序列同一性范围仅用于指导；完全有可能获得超出所提供范围的高度显著的同源序列。

所公开的核酸序列(例如合成内含子序列和编码序列)的变体序列通常特征在于具有至少约80％、至少90％、至少95％、至少96％、至少97％、至少98％或至少99％的序列同一性，使用NCBI Blast 2.0在与核酸序列全长比对中计数，将空位的blastp设置为默认参数。本领域技术人员将理解，提供这些序列同一性范围仅用于指导；完全有可能获得超出所提供范围的高度显著的同源序列。

受试者：哺乳动物，例如人类。哺乳动物包括但不限于鼠类、猿猴、人类、农场动物、野外动物和宠物。在一个实施方案中，所述受试者是非人类哺乳动物受试者，例如猴子或其他非人类灵长类动物、小鼠、大鼠、兔、猪、山羊、绵羊、海豚、狗、猫、马或牛。在一些实例中，所述受试者是实验室动物/生物体，例如小鼠、兔子或大鼠。在一些实例中，使用本文公开的方法治疗的受试者是人类。

在一些实例中，所述受试者患有遗传疾病，例如表1中列出的遗传疾病，可以使用本文公开的方法进行治疗。在一些实例中，使用本文公开方法治疗的受试者是患有遗传疾病的人类受试者。在一些实例中，使用本文公开方法治疗的所述受试者是患有癌症的人类受试者。

治疗剂：指一种或更多种分子或化合物，其在施用于受试者时带来一些有益效果。本文提供的所公开合成核酸分子和系统是治疗剂。有益的治疗效果可以包括能够实现确诊；改善疾病、症状、障碍或病理状况；减少或预防疾病、症状、障碍或病症的发作；并且通常减缓疾病、症状、障碍或病理状况。

转导、转化和转染的：病毒或载体在将核酸分子转移到细胞中时“转导”细胞。当核酸通过将其引入细胞基因组或通过游离复制而被细胞稳定复制时，所述细胞被转导到细胞中的核酸“转化”或“转染”。

这些术语涵盖可将核酸分子引入此类细胞的所有技术，包括用病毒载体转染、用质粒载体转化，以及通过电穿孔、脂质转染、粒子枪加速和本领域的其他方法引入裸DNA。在一些实例中，所述方法是化学方法(例如，磷酸钙转染)、物理方法(例如，电穿孔、显微注射、粒子轰击)、融合(例如，脂质体)、受体介导的内吞作用(例如，DNA-蛋白质复合物、病毒包膜/衣壳-DNA复合物)和通过病毒(如重组病毒)的生物感染(沃尔夫(Wolff)J.A.,编辑,《基因疗法》(Gene Therapeutics),伯克豪瑟(Birkhauser),波士顿,USA,1994)。将核酸分子引入细胞的方法是已知的(例如，参见美国专利号6,110,743)。这些方法可用于通过所公开的核酸分子转导细胞。

转基因：外源性基因，例如由载体(如AAV)提供。在一个实例中，转基因编码例如可操作连接至启动子序列的靶蛋白的一部分(例如靶蛋白的约三分之一、一半或三分之二)。在一个实例中，转基因包括例如可操作连接至启动子序列的抗肌萎缩蛋白编码序列的一部分，例如抗肌萎缩蛋白编码序列(或其他治疗性编码序列，例如编码表1中列出蛋白质的序列)的约三分之一、一半或三分之二。

治疗(treating)、治疗(treatment)和疗法：减轻或改善损伤、病理或病况的任何成功或成功迹象，包括任何客观或主观参数，例如减轻、缓解、减少症状或使患者更能耐受病况，减慢退化或衰退的速度，使退货的最终状态不那么虚弱，改善受试者的身体或精神健康，或延长生存时间。治疗可以通过客观或主观参数进行评估；包括身体检查、血液和其他临床测试的结果等。在一些实例中，所公开方法进行的治疗使得与遗传疾病相关症状的数量或严重程度降低，例如延长患有所述遗传疾病受治疗患者的存活时间。

在一些实例中，所公开方法进行的治疗使得与DMD或其他遗传疾病相关症状的数量或严重程度降低，例如提升存活率、增强活动能力(例如，步行、攀爬)、提高认知能力、减少小腿肌肉大小、减轻心肌病、改善视力、改善听力、改善血液凝固，或改善呼吸功能。在一些实例中，实现了这些效果的组合。

肿瘤、瘤形成、恶性肿瘤或癌症：瘤是由过度细胞分裂引起组织或细胞的异常生长。瘤生长会产生肿瘤。个体中肿瘤量是“肿瘤负荷”，可以测量成肿瘤的数量、体积或重量。不转移的肿瘤被称为“良性”。侵入周围组织和/或可以转移的肿瘤被称为“恶性”。“非癌组织”是同一器官的组织，其中形成恶性瘤但不具有瘤的特征性病理。通常，非癌组织在组织学上看起来是正常的。“正常组织”是来自器官的组织，其中所述器官不受该器官的癌症或另一疾病或病症的影响。“未患癌症”的受试者尚未被诊断出患有该器官的癌症并且没有可检测到的癌症。

可以用所公开方法和系统治疗的示例性肿瘤(例如癌症)包括实体肿瘤，例如乳腺癌(例如小叶癌和导管癌)、肉瘤、肺癌(例如，非小细胞癌、大细胞癌、鳞状癌和腺癌)、肺间皮瘤、结直肠腺癌、胃癌、前列腺腺癌、卵巢癌(如浆液性囊腺癌和粘液性囊腺癌)、卵巢生殖细胞肿瘤、睾丸癌和生殖细胞肿瘤、胰腺腺癌、胆管腺癌、肝细胞癌、膀胱癌(包括，例如，移行细胞癌、腺癌和鳞状癌)、肾细胞腺癌、子宫内膜癌(包括，例如，腺癌和混合苗勒氏管肿瘤(癌肉瘤))、宫颈内与外宫颈和阴道的癌(如每种的腺癌和鳞状癌)、皮肤肿瘤(如鳞状细胞癌、基底细胞癌、恶性黑色素瘤、皮肤附属物肿瘤、卡波西肉瘤、皮肤淋巴瘤、皮肤附件肿瘤和各种类型的肉瘤和默克尔细胞癌)、食管癌、鼻咽癌和口咽癌(包括两者的鳞状癌和腺癌)、唾液腺癌、脑和中枢神经系统肿瘤(包括，例如，神经胶质、神经元和脑膜来源的肿瘤)、周围神经肿瘤、软组织肉瘤与骨和软骨的肉瘤，以及淋巴肿瘤(包括B细胞和T细胞恶性淋巴瘤)。在一个实例中，所述肿瘤是腺癌。

所述方法和系统还可用于治疗液体肿瘤，例如淋巴、白细胞或其他类型的白血病。在一个具体实例中，所治疗的肿瘤是血液肿瘤，例如白血病(例如急性淋巴细胞白血病(ALL)、慢性淋巴细胞白血病(CLL)、急性髓性白血病(AML)、慢性髓性白血病(CML)、毛细胞白血病(HCL)、T细胞幼淋巴细胞白血病(T-PLL)、大颗粒淋巴细胞白血病和成人T细胞白血病)、淋巴瘤(例如霍奇金淋巴瘤和非霍奇金淋巴瘤)和骨髓瘤。

上调：当用于提及分子(例如靶核酸/蛋白质)的表达时，是指任何使得靶核酸/蛋白质产生增加的过程。在一些实例中，靶RNA的上调或激活包括增加靶RNA翻译并因此可以增加相应蛋白质存在的过程。

上调包括靶核酸/蛋白质的任何可检测的增加。在某些实例中，与对照(在未用本文提供核酸分子处理的相应样品中检测到这种量的靶核酸/蛋白质)相比，细胞系统或无细胞系统中可检测的靶核酸/蛋白质表达增加至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少90％、至少95％、至少100％、至少200％、至少400％或至少500％。在一个实例中，对照是正常细胞(例如，不包括本文提供系统的非重组细胞)中的相对表达量。

在足以满足以下条件的条件下：用于描述能够实现所需活性任何环境的短语。在一个实例中，所需活性是治疗疾病所需蛋白质表达或活性的增强。在一个实例中，所需活性是例如使用所公开方法和系统，体内治疗遗传疾病例如DMD(或表1中列出的其他遗传疾病)或减缓其进展。

载体：一种核酸分子，其中可以引入外源核酸分子而不破坏载体在宿主细胞中复制和/或整合的能力。载体包括但不限于单链、双链或部分双链的核酸分子；包含一个或更多个自由端、没有自由端(例如，环状)的核酸分子；包含DNA、RNA或两者的核酸分子；和其他种类的多核苷酸。

载体可以包括能够使其在宿主细胞中复制的核酸序列，例如复制起点。载体还可以包括一种或更多种可选择标记基因和其他遗传元件。整合载体能够将自身整合到宿主核酸中。表达载体是包含必要的调节序列以能够转录和翻译插入的一个或更多个基因的载体。

一种类型的载体是“质粒”，它是指一个环状双链DNA环，例如通过标准分子克隆技术可以将另外DNA节段插入其中。另一种类型的载体是病毒载体，其中病毒衍生的DNA或RNA序列存在于所述载体中，用于包装成病毒(例如，逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒和腺相关病毒)。病毒载体还包括由病毒携带的用于转染到宿主细胞中的多核苷酸。在一些实施方案中，所述载体是慢病毒(例如整合缺陷型慢病毒载体)或腺相关病毒(AAV)载体。

在一些实施方案中，所述载体是AAV，例如AAV血清型AAV9或AAVrh.10。在一些实施方案中，所述载体是例如在静脉内施用后可以穿透血脑屏障的载体。所述腺相关病毒血清型rh.10(AAV.rh10)载体部分穿透血脑屏障，从而实现高水平和范围的转基因表达。

Ⅱ.几个实施方案的概述

治疗患有遗传疾病患者的一种方法是基因替代疗法(通常称为基因疗法)。在这种方法中，缺陷基因被其完整的基因替代，通过例如病毒载体递送，从而实现数月至数年的持续表达。尽管腺相关病毒(AAV)已用于临床基因替代疗法，但它们的包装容量有限(例如，约小于5kb)。因此，需要克服这种包装限制的策略来实现基因替代超过约5kb大小限制基因。例如，一些单独的启动子、单独的编码序列或组合的启动子+编码序列超过了AAV的约5kb大小限制。因此，由这种启动子和编码序列编码的此类蛋白质可以使用所公开的系统来表达。

先前克服AAV货物限制的方法似乎无法达到在足够数量细胞中产生足够水平的靶蛋白以治疗疾病所需的效率。例如，由于抗肌萎缩蛋白约为11kb，因此需要以至少三个片段的形式递送，以符合AAV包装限制。

对于一个或两个RNA片段，使用天然存在的内含子序列剪接介导两个RNA分子的重组是低效的。首先，这些天然内含子序列是来自天然存在内含子的序列，由所有四个RNA核苷酸的混合物组成。此类序列倾向于折叠成可以通过形成强分子内碱基对而不是可用于分子间相互作用来阻碍反式相互作用的结构。其次，这些天然存在内含子序列并没有进化到强烈地吸引剪接体组分，因为在高等真核生物中外显子而不是内含子驱动外显子定义。本文通过设计自然界中未发现的合成内含子序列来解决先前策略的这两个限制。这些合成序列包含一方面强烈吸引和刺激剪接体募集的元件，同时最小化阻碍将所述两个RNA片段结合在一起的二级结构(在一些实例中还有其他结构，例如三级结构)。

发明人开发了一种新的基于核酸的元件，可用于从多个连续片段有效地重构大型基因的编码序列。所公开方法和系统不同于现有方法。所公开的高效合成内含子利用RNA元件(或编码这些元件的DNA)的最佳排列，这些元件有效地驱动非共价连接的RNA(前体mRNA)之间的RNA剪接反应。所述方法/系统比以前利用反式剪接的尝试有了显著进步，因为它产生了高水平的功能性蛋白质，这更接近于治疗遗传疾病的蛋白质治疗水平。该创新是基于选择非天然RNA域，该域固有地不能形成强的顺式结合相互作用，其干扰与具有互补链(也具有固有的低顺式结合能力)的第二RNA的反式相互作用。这些优化的二聚体化域和/或合成内含子可以包括与促进RNA剪接的优化基序(包括剪接供体、剪接受体、剪接增强子和剪接分支点序列)结合使用的非天然序列(例如，人类细胞中未发现的序列和/或另一生物系统中未发现的序列)。合成核酸可以是非天然核酸序列，例如在人类细胞中未发现和/或在另一生物系统中未发现的序列)。通过在介导有效剪接的适当RNA基序背景下优化RNA链的反式二聚体化，本文首次证实两个或三个不同的RNA可以在同一细胞中精确有效地共价连接，从而在体内和体外产生高水平的功能性蛋白质。与“混合”方法不同，通过DNA重组在DNA水平进行低效组合，随后最终通过顺式RNA剪接从成熟转录物中切除DNA重组位点，所公开方法/系统促进更有效的反应，其中两个编码蛋白质RNA片段在前体mRNA水平上连接在一起，产生编码非功能性和/或有害产物的重组产物风险较小。

数据表明，通过使用有效的合成RNA二聚体化和重组域(sRdR域，也称为RNA端连接(REJ)域)，所关注的基因可以从同一细胞中表达的两个或三个单独基因片段中有效地重构。这些结果显示了所公开方法和系统使用AAV重构大型基因(如抗肌萎缩蛋白或凝血因子VIII或ATP结合盒亚家族A成员4(Abca4))，以分别治疗杜氏肌营养不良症和A型血友病或斯塔加特病的能力。基于这些观察结果，其他遗传疾病可以进行类似的治疗，例如受益于大型蛋白表达的疾病(例如，参见表1中列出的疾病)。其他应用包括研究应用和生物技术应用。

为了解决现有策略从多重AAV重构片段基因的一些限制，本文提供了一种系统，其在靶细胞中连续比对和重组两个或更多个单独的合成RNA分子。每个单独的合成RNA分子包括合成内含子序列，包含RNA剪接所需的二聚体化域和元件，当二聚体化域以正确的顺序相互结合时，所述合成内含子序列介导单独片段的有效RNA重组。在一个实例中，通过将第一合成内含子(A)附接到N-端编码片段的3'末端并将互补的第二合成域(A')附接到C-端编码片段的5'末端来实现重构两个片段的编码序列。这两个RNA由细胞内在的RNA剪接机制(即剪接体机制)重组。合成内含子域包含两个功能元件：(1)二聚体化域，用于介导要重组两个半段之间的碱基配对；(2)优化的域，可有效募集所述剪接机制，以介导两个RNA分子的有效重构。在一些实例中，合成内含子包括与SEQ ID NO:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、145、146、147、148、155、156、157、158、159、160、161、162、163、164、165和166中提供的任何合成内含子(例如，参见图10A-10Z)具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％的序列同一性。在一些实例中，合成内含子是由以下序列编码的RNA分子：与SEQ ID NO:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、145、146、147、148、155、156、157、158、159、160、161、162、163、164、165和166中提供的任何合成内含子具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％的序列同一性，但没有所提供的启动子序列)。本领域技术人员将理解在SEQ ID NO:1、2、20、21、22、23、24、25、145、146、147、148、155、156、157、158、159、160、161、162、163、164、165和166中提供的任何分子，可以被修饰以用另一所关注的蛋白质编码序列替代所述蛋白质编码序列(例如，图6A的114和164)(例如，SEQ IDNO:1、2、22或23的YFP编码序列可以被治疗性蛋白质编码序列替代)。因此，本文还提供了与SEQ ID NO:1、2、20、21、22、23、24、25、145、146、147、148、155、156、157、158、159、160、161、162、163、164、165和166提供的任何合成内含子部分(例如，SEQ ID NO:22的nt 3703-3975和SEQ ID NO:23的nt 1-225)具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％序列同一性的合成内含子分子。本文还提供了由以下序列编码的合成内含子RNA分子：与SEQ ID NO:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、145、146、147、148、155、156、157、158、159、160、161、162、163、164、165和166中提供的任何合成内含子具有至少50％、至少60％、至少70％、至少75％、至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％的序列同一性，但没有提供的启动子序列)。

示例性二聚体化域在生物信息学方面经选择以最小化/优化其内部二级/三级结构。测试的二聚体化域包含长链段的低多样性核苷酸序列，以避免分子内退火。通过避免分子内退火，这些二聚体化域以开放构型存在，因此可用于与相应的互补二聚体化域序列配对。合成内含子域包含内含子剪接增强元件，可有效募集剪接机制。

所公开的RNA分子被设计为具有至少一个开放且可用的单链区域，该区域可用于结合互补二聚体化域以有效剪接和重组所述RNA。在一些实例中，这通过仅使用嘌呤或仅使用嘧啶作为结合域来实现。由于嘌呤不能与自身配对(并且嘧啶同样如此)，这些RNA链段具有开放的预测结构。

RNA分子在细胞中以单链形式存在。作为单链，它们天生就易于与自身杂交，从而形成强大的二级和三级结构。最稳定的碱基对将是G与C、A与U以及G与U摆动对。在热力学方面，两个碱基的配对优于开放构型。为了设计有效的合成核酸分子，彼此互补的两个二聚体化域以开放构型存在，使得二聚体化域可用于分子间碱基配对。为了避免合成核酸分子其他部分之间的分子内碱基配对，可以包括含有不相容碱基的长链段非多样化序列。例如，合成核酸分子中可存在长链段的嘧啶(即C和T)或嘌呤(即A和G)。嘧啶不能与其他嘧啶形成规范碱基对，嘌呤不能与其他嘌呤形成规范碱基对。此嘌呤或嘧啶链段的范围可以从几个碱基到几百个碱基。由于这些链段不能在分子内结合，它们可用于与互补片段进行分子间碱基配对。例如，合成核酸分子A和A'可以被构型成包含嘧啶链段的A(例如，5'-CCUU(...)CCUU-3')和包含互补嘌呤序列(例如，5'-AAGG(...)AAGG-3')的A'。

所公开的合成核酸分子(例如，RNA或编码该RNA的DNA)被设计成最小化与基因组中不正确位点的任何脱靶结合。可以通过改变所述核酸分子的序列来减少脱靶结合。

相同的设计原则(即，使用低多样性RNA碱基链段来实现开放的合成核酸构型)，可以扩展到使用单碱基链段，例如在二聚体化域中，使用与一系列C碱基配对的一系列G以及与一系列U碱基配对的一系列A。

为了增加两个或更多个合成核酸分子的重组，可以使用以下方法。RNA剪接取决于将剪接体组分募集到内含子的5'末端(所述剪接供体位点)和内含子的3'末端(所述剪接受体位点，及其相关的分支点序列和多嘧啶束)。通过蛋白质相关小核RNA(snRNA)与内含子序列的碱基配对，将不同的核糖核蛋白募集到内含子。通过将完美匹配的共有序列放入RNA二聚体化和重组域，可以促进剪接体成分的募集，进而提高剪接体介导的重组效率。先前表征的内含子剪接增强子序列可以募集另外的剪接促进因子，称为内含子剪接增强子。

在一些实例中，并非使用天然存在RNA序列作为RNA剪接序列，而使用共有序列。例如，共有序列可用于任何参与剪接的序列，包括剪接供体序列、剪接受体序列、剪接增强子序列和剪接分支点序列。通过这些合成核酸分子，两个(或更多个)RNA分子可以在离体、体外或体内的细胞中连续连接在一起。在编码的合成内含子域之外，合成核酸分子可以包括任何启动子和编码序列。例如，两个合成核酸分子可以携带单一基因的两个半段。这通过重构黄色荧光蛋白(YFP)的两个半段在体外和体内进行了测试，并且显示是有效的(参见图3A-3D)。

所述合成核酸分子的模块化性质能够使用优化互补二聚体化域的组合集来测试实现多个RNA片段的连续重组(即>2)的效率(图4A-4B)。一种三向分裂黄色荧光蛋白被有效重构并在>80％的转染细胞中高水平表达。这些结果表明，例如当表达启动子和/或编码序列太长而无法装入单一基因治疗性载体(例如AAV)的致病基因(或治疗性蛋白质)时，单一RNA分子可以由至少三个不同的合成核酸分子重构。

在一些实例中，本发明的组合物、系统、试剂盒和方法的合成核酸分子，例如合成DNA分子，是通过逆转录酶转录RNA病毒基因组产生的。

所公开系统能够实现单个片段之间的有效RNA重组。在一些实例中，使用本公开的组合物、系统或方法实现的重构(即，剪接或重组)效率是使用本领域技术人员已知的任何合适方法确定的。在一些实例中，重构效率由相对于对照RNA的正确连接RNA的量度或相对于对照蛋白质的全长蛋白质或蛋白质活性的量度来表示。在一些实例中，所述对照RNA是未连接的RNA，其中重构效率由相对于未连接RNA的连接RNA的量度来表示。这种测量可以通过检测和比较连接RNA和未连接的3'RNA种类3'(例如，连接RNA：3'RNA)来进行。在连接多于两个RNA的一些实例中，评估在任一或所有连接处的连接。在一些实例中，重构效率由相对于蛋白质片段或非活性蛋白质的全长或活性蛋白质的量度来表示。

在一些实例中，重构、重组或剪接效率(正确连接不同RNA分子上的两个或更多个不同编码序列，和/或产生所需全长蛋白质的量度)为约10％至大约100％。在一些实例中，重构效率为约10％至约15％、约10％至约20％、约10％至约25％、约10％至约30％、约10％至约40％、约10％至约50％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约10％至约100％、约15％至约20％、约15％至约25％、约15％至约30％、约15％至约40％、约15％至约50％、约15％至约60％、约15％至约70％、约15％至约80％、约15％至约90％、约15％至约100％、约20％至约25％、约20％至约30％、约20％至约40％、约20％至约50％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约20％至约100％、约25％至约30％、约25％至约40％、约25％至约50％、约25％至约60％、约25％至约70％、约25％至约80％、约25％至约90％、约25％至约100％、约30％至约40％、约30％至约50％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约30％至约100％、约40％至约50％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约40％至约100％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约50％至约100％、约60％至约70％、约60％至约80％、约60％至约90％、约60％至约100％、约70％至约80％、约70％至约90％、约70％至约100％、约80％至约90％、约80％至约100％，或约90％至约100％。在一些实例中，重构效率为约10％、约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％，或约100％。在一些实例中，重构效率为至少约10％、约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％，或约90％。在一些实例中，重构效率为至多约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％，或约100％。

在一些实例中，重构、重组或剪接效率(在该实例中是对正确连接不同RNA分子上的两个不同编码序列，和/或产生所需全长蛋白质的量度，其中两种不同的编码序列编码约3200nt至9000nt的转录物，例如约4000至9000nt、约4400至9000nt、约3200至4000nt、约3200至3600nt，例如约4500nt、约4000nt、约3800nt、约3600nt或约3200nt)为约10％至约100％。在一些实例中，使用两部分系统的重构效率为约10％至约15％、约10％至约20％、约10％至约25％、约10％至约30％、约10％至约40％、约10％至约50％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约10％至约100％、约15％至约20％、约15％至约25％、约15％至约30％、约15％至约40％、约15％至约50％、约15％至约60％、约15％至约70％、约15％至约80％、约15％至约90％、约15％至约100％、约20％至约25％、约20％至约30％、约20％至约40％、约20％至约50％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约20％至约100％、约25％至约30％、约25％至约40％、约25％至约50％、约25％至约60％、约25％至约70％、约25％至约80％、约25％至约90％、约25％至约100％、约30％至约40％、约30％至约50％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约30％至约100％、约40％至约50％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约40％至约100％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约50％至约100％、约60％至约70％、约60％至约80％、约60％至约90％、约60％至约100％、约70％至约80％、约70％至约90％、约70％至约100％、约80％至约90％、约80％至约100％，或约90％至约100％。在一些实例中，重构效率为约10％、约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％，或约100％。在一些实例中，重构效率为至少约10％、约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％，或约90％。在一些实例中，重构效率为至多约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％，或约100％。

在一些实例中，重构、重组或剪接效率(在该实例中是对正确连接不同RNA分子上的两个不同编码序列和/或产生所需全长蛋白质的量度，其中两个不同编码序列编码约4000nt的转录物)为约40％至约60％，例如约40％至约50％、约42％至约47％，例如约45％。

在一些实例中，重构、重组或剪接效率(在该实例中是对正确连接不同RNA分子上的两个不同编码序列和/或产生所需全长蛋白质的量度，其中两个不同的编码序列编码约3800nt的转录物)为约40％至约60％，例如约40％至约50％、约42％至约47％，例如约45％。

在一些实例中，重构、重组或剪接效率(在该实例中是对正确连接不同RNA分子上的两个不同编码序列和/或产生所需全长蛋白质的量度，其中两个不同的编码序列编码约3600nt的转录物)为约25％至约50％，例如约30％至约40％，例如约35％。

在一些实例中，重构、重组或剪接效率(在该实例中是对正确连接不同RNA分子上的两个不同编码序列和/或产生所需全长蛋白质的量度，其中两个不同的编码序列编码约3200nt的转录物)为约25％至约50％，例如约30％至约40％，例如约35％。

在一些实例中，重构、重组或剪接效率(在该实例中是对正确连接不同RNA分子上的三个不同编码序列，和/或产生所需全长蛋白质的量度，其中三个不同编码序列编码约3200nt至约13,500nt，例如约4000nt至约5,000nt、约4000nt至约13,500nt、约6000nt至约12,000nt、约6000nt至约10,000nt或约8000nt至约12,000nt，例如至多约13,500nt的转录物)为约10％至约100％。在一些实例中，使用三部分系统的重构效率为约10％至约15％、约10％至约20％、约10％至约25％、约10％至约30％、约10％至约40％、约10％至约50％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约10％至约100％、约15％至约20％、约15％至约25％、约15％至约30％、约15％至约40％、约15％至约50％、约15％至约60％、约15％至约70％、约15％至约80％、约15％至约90％、约15％至约100％、约20％至约25％、约20％至约30％、约20％至约40％、约20％至约50％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约20％至约100％、约25％至约30％、约25％至约40％、约25％至约50％、约25％至约60％、约25％至约70％、约25％至约80％、约25％至约90％、约25％至约100％、约30％至约40％、约30％至约50％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约30％至约100％、约40％至约50％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约40％至约100％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约50％至约100％、约60％至约70％、约60％至约80％、约60％至约90％、约60％至约100％、约70％至约80％、约70％至约90％、约70％至约100％、约80％至约90％、约80％至约100％，或约90％至约100％。在一些实例中，重构效率为约10％、约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％，或约100％。在一些实例中，重构效率为至少约10％、约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％，或约90％。在一些实例中，重构效率为至多约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％，或约100％。

在一些实例中，重构、重组或剪接效率(在该实例中是对正确连接不同RNA分子上的四个不同编码序列，和/或产生所需全长蛋白质的量度，其中四个不同编码序列编码约3200nt至约18,000nt，例如约4000nt至约18,000nt、约4000nt至约5,000nt、约10,000nt至约18,000nt、约15,000nt至约18,000nt或约12,000ntnt至约15,000nt，例如至多约18,000nt的转录物)为约10％至约100％。在一些实例中，使用四部分系统的重构效率为约10％至约15％、约10％至约20％、约10％至约25％、约10％至约30％、约10％至约40％、约10％至约50％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约10％至约100％、约15％至约20％、约15％至约25％、约15％至约30％、约15％至约40％、约15％至约50％、约15％至约60％、约15％至约70％、约15％至约80％、约15％至约90％、约15％至约100％、约20％至约25％、约20％至约30％、约20％至约40％、约20％至约50％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约20％至约100％、约25％至约30％、约25％至约40％、约25％至约50％、约25％至约60％、约25％至约70％、约25％至约80％、约25％至约90％、约25％至约100％、约30％至约40％、约30％至约50％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约30％至约100％、约40％至约50％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约40％至约100％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约50％至约100％、约60％至约70％、约60％至约80％、约60％至约90％、约60％至约100％、约70％至约80％、约70％至约90％、约70％至约100％、约80％至约90％、约80％至约100％，或约90％至约100％。在一些实例中，重构效率为约10％、约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％，或约100％。在一些实例中，重构效率为至少约10％、约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％，或约90％。在一些实例中，重构效率为至多约15％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％，或约100％。在一些实例中，本公开的组合物、系统或方法通过使用本领域技术人员已知的任何合适方法确定RNA或蛋白质产生水平来评估。在一些实例中，RNA产生水平由相对于对照RNA的正确连接RNA的量度或相对于对照的全长蛋白质的量度来表示。在一些实例中，所述对照RNA是相应的突变RNA或内源性RNA。例如，将转染细胞中产生的连接RNA量与突变或内源性RNA量的比率与未转染细胞中相同比率进行比较，以确定正确连接RNA的产生水平。在一些实例中，比较正确连接的RNA的量、全长蛋白质的量或蛋白质活性与对照RNA的量或对照蛋白质的量或活性的比率。

在一些实例中，所达到的RNA产生水平为5％至100％。在一些实例中，所达到的RNA产生水平为约5％至约100％。在一些实例中，所达到的RNA产生水平为约5％至约10％、约5％至约20％、约5％至约25％、约5％至约30％、约5％至约40％、约5％至约50％、约5％至约60％、约5％至约70％、约5％至约80％、约5％至约90％、约5％至约100％、约10％至约20％、约10％至约25％、约10％至约30％、约10％至约40％、约10％至约50％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约10％至约100％、约20％至约25％、约20％至约30％、约20％至约40％、约20％至约50％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约20％至约100％、约25％至约30％、约25％至约40％、约25％至约50％、约25％至约60％、约25％至约70％、约25％至约80％、约25％至约90％、约25％至约100％、约30％至约40％、约30％至约50％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约30％至约100％、约40％至约50％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约40％至约100％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约50％至约100％、约60％至约70％、约60％至约80％、约60％至约90％、约60％至约100％、约70％至约80％、约70％至约90％、约70％至约100％、约80％至约90％、约80％至约100％，或约90％至约100％。在一些实例中，所达到的RNA产生水平为约5％、约10％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％，或约100％。在一些实例中，所达到的RNA产生水平为至少约5％、约10％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％，或约90％。在一些实例中，所达到的RNA产生水平为至多约10％、约20％、约25％、约30％、约40％、约50％、约60％、约70％、约80％、约90％，或约100％。

在一些实例中，蛋白质产生水平由相对于对照蛋白质的全长蛋白质的量或蛋白质活性的量度来表示。在一些实例中，所述对照蛋白是相应的突变蛋白或内源性蛋白。例如，将转染细胞中产生全长蛋白质的量或蛋白质活性与突变或内源性蛋白质的量的比率与未转染细胞中相同比率进行比较。在一些实例中，所述对照蛋白是全长蛋白质，产生于在例如经工程改造以表达对照全长蛋白的细胞(其中细胞未用本发明的构建体转染)或正常受试者表达对照全长蛋白质的未转染细胞中。蛋白质产生水平通过测量转染细胞中蛋白质的量或活性并将其与对照蛋白质的量或活性比较来确定。在一些实例中，所述对照蛋白质是蛋白质的突变形式，在用构建体转染或未转染的细胞中产生，并且将全长蛋白质的量或蛋白质活性与对照蛋白质的量或活性进行比较以确定蛋白质产生水平。在一些实例中，将全长蛋白质的量或蛋白质活性与内源性或持家蛋白质的量或活性进行比较以确定蛋白质产生水平。

在一些实例中，所达到的蛋白质产生水平为约1％至约100％。在一些实例中，所达到的蛋白质产生水平为约10％至约100％。在一些实例中，所达到的蛋白质产生水平为约10％至约20％、约10％至约30％、约10％至约40％、约10％至约50％、约10％至约60％、约10％至约70％、约10％至约75％、约10％至约80％、约10％至约85％、约10％至约90％、约10％至约100％、约20％至约30％、约20％至约40％、约20％至约50％、约20％至约60％、约20％至约70％、约20％至约75％、约20％至约80％、约20％至约85％、约20％至约90％、约20％至约100％、约30％至约40％、约30％至约50％、约30％至约60％、约30％至约70％、约30％至约75％、约30％至约80％、约30％至约85％、约30％至约90％、约30％至约100％、约40％至约50％、约40％至约60％、约40％至约70％、约40％至约75％、约40％至约80％、约40％至约85％、约40％至约90％、约40％至约100％、约50％至约60％、约50％至约70％、约50％至约75％、约50％至约80％、约50％至约85％、约50％至约90％、约50％至约100％、约60％至约70％、约60％至约75％、约60％至约80％、约60％至约85％、约60％至约90％、约60％至约100％、约70％至约75％、约70％至约80％、约70％至约85％、约70％至约90％、约70％至约100％、约75％至约80％、约75％至约85％、约75％至约90％、约75％至约100％、约80％至约85％、约80％至约90％、约80％至约100％、约85％至约90％、约85％至约100％，或约90％至约100％。在一些实例中，所达到的蛋白质产生水平为约10％、约20％、约30％、约40％、约50％、约60％、约70％、约75％、约80％、约85％、约90％，或约100％。在一些实例中，所达到的蛋白质产生水平为至少约10％、约20％、约30％、约40％、约50％、约60％、约70％、约75％、约80％、约85％，或约90％。在一些实例中，所达到的蛋白质产生水平为至多约20％、约30％、约40％、约50％、约60％、约70％、约75％、约80％、约85％、约90％，或约100％。

在一些实例中，所达到的蛋白质活性水平为约50％至约100％。在一些实例中，所达到的蛋白质活性水平为约50％至约100％。在一些实例中，所达到的蛋白质活性水平为约50％至约55％、约50％至约60％、约50％至约65％、约50％至约70％、约50％至约75％、约50％至约80％、约50％至约85％、约50％至约90％、约50％至约95％、约50％至约100％、约55％至约60％、约55％至约65％、约55％至约70％、约55％至约75％、约55％至约80％、约55％至约85％、约55％至约90％、约55％至约95％、约55％至约100％、约60％至约65％、约60％至约70％、约60％至约75％、约60％至约80％、约60％至约85％、约60％至约90％、约60％至约95％、约60％至约100％、约65％至约70％、约65％至约75％、约65％至约80％、约65％至约85％、约65％至约90％、约65％至约95％、约65％至约100％、约70％至约75％、约70％至约80％、约70％至约85％、约70％至约90％、约70％至约95％、约70％至约100％、约75％至约80％、约75％至约85％、约75％至约90％、约75％至约95％、约75％至约100％、约80％至约85％、约80％至约90％、约80％至约95％、约80％至约100％、约85％至约90％、约85％至约95％、约85％至约100％、约90％至约95％、约90％至约100％，或约95％至约100％。在一些实例中，所达到的蛋白质活性水平为约50％、约55％、约60％、约65％、约70％、约75％、约80％、约85％、约90％、约95％，或约100％。在一些实例中，所达到的蛋白质活性水平为至少约50％、约55％、约60％、约65％、约70％、约75％、约80％、约85％、约90％或约95％。在一些实例中，所达到的蛋白质活性水平为至多约55％、约60％、约65％、约70％、约75％、约80％、约85％、约90％、约95％或约100％。

在一些实例中，细胞中产生的正确连接RNA或全长蛋白质的量足以改善或治愈受试者的病症或疾病，如本领域技术人员对特定病症或疾病理解的那样。在一些实例中，细胞中产生的正确连接RNA或全长蛋白质的量是有效量。在一些实例中，该量相当于正常细胞中产生的RNA或蛋白质的量约50％至100％。在一些实例中，该量相当于正常细胞中产生的RNA或蛋白质的量约40％至约100％。在一些实例中，该量相当于正常细胞中产生的RNA或蛋白质的量约40％至约45％、约40％至约50％、约40％至约55％、约40％至约60％、约40％至约65％、约40％至约70％、约40％至约75％、约40％至约80％、约40％至约85％、约40％至约90％、约40％至约100％、约45％至约50％、约45％至约55％、约45％至约60％、约45％至约65％、约45％至约70％、约45％至约75％、约45％至约80％、约45％至约85％、约45％至约90％、约45％至约100％、约50％至约55％、约50％至约60％、约50％至约65％、约50％至约70％、约50％至约75％、约50％至约80％、约50％至约85％、约50％至约90％、约50％至约100％、约55％至约60％、约55％至约65％、约55％至约70％、约55％至约75％、约55％至约80％、约55％至约85％、约55％至约90％、约55％至约100％、约60％至约65％、约60％至约70％、约60％至约75％、约60％至约80％、约60％至约85％、约60％至约90％、约60％至约100％、约65％至约70％、约65％至约75％、约65％至约80％、约65％至约85％、约65％至约90％、约65％至约100％、约70％至约75％、约70％至约80％、约70％至约85％、约70％至约90％、约70％至约100％、约75％至约80％、约75％至约85％、约75％至约90％、约75％至约100％、约80％至约85％、约80％至约90％、约80％至约100％、约85％至约90％、约85％至约100％，或约90％至约100％。在一些实例中，该量相当于正常细胞中产生的RNA或蛋白质的量约40％、约45％、约50％、约55％、约60％、约65％、约70％、约75％、约80％、约85％、约90％或约100％。在一些实例中，该量等于正常细胞中产生的RNA或蛋白质的量约至少约40％、约45％、约50％、约55％、约60％、约65％、约70％、约75％、约80％、约85％，或约90％。在一些实例中，该量相当于正常细胞中产生的RNA或蛋白质的量约至多约45％、约50％、约55％、约60％、约65％、约70％、约75％、约80％、约85％、约90％，或约100％。

用于确定重组效率或产生水平对RNA或蛋白质的测量可以通过本领域技术人员已知的任何合适的方法进行。在一些实例中，重组效率或产生水平通过测量表达的功能性蛋白质的量来确定，例如通过蛋白质印迹来测量。在一些实例中，重组效率或产生水平通过测量RNA转录物来确定，例如使用基于两个探针的定量实时PCR。例如，第一测定涵盖了完全包含在3'外显子编码序列(标记为3'探针)中的序列。第二测定涵盖了5'和3'外显子编码序列(标记的连接探针)之间的连接。重构效率可以计算为(连接探针数)/(3'探针数)的比率。“重构效率”、“重组效率”和“剪接效率”在本文中可互换使用。

在一些实例中，二聚体化域为约20至约1000nt，或约50至约160nt，或约50至约500nt，或约50至1000nt，其中重构效率能够产生有效量正确连接的RNA或全长蛋白质。在一些实例中，二聚体化域为约50至约160nt，其中重构效率能够产生有效量正确连接的RNA或全长蛋白质。

实现多个RNA分子之间的有效重组能够将转基因包装和递送到AAV中，这超出了单一AAV的包装限制。AAV包装限制是基因治疗方法用于治疗由大型基因缺失/缺陷引起的疾病的主要障碍。该系统的一个应用是使用包装容量有限的病毒载体表达大型致病基因。疾病和基因包括但不限于(疾病(基因，OMIM基因标识符))：1)杜氏肌营养不良症和贝克尔肌营养不良症(抗肌萎缩蛋白,OMIM:300377)；2)Dysferlinopathies(Dysferlin,OMIM:603009)；3)囊性纤维化(CFTR,OMIM:602421)；4)亚瑟综合征IB(肌球蛋白VIIA,OMIM:276903)；5)斯塔加特病1(ABCA4,OMIM:601691)；6)A型血友病(凝血因子VIII，OMIM:300841)；7)血管性血友病(血管性血友病因子,OMIM:613160)；8)马凡综合征(原纤维蛋白1,OMIM:134797)；9)冯雷克林豪森病(神经纤维瘤病-1,OMIM:162200)和听力损失(OTOF,OMIM:603681)。其他疾病和基因在表1中提供。此外，Cas9蛋白(例如在实施例20-23中举例说明的Cas9蛋白)，可以使用本文提供的所公开系统来表达，例如以治疗基因组点突变或激活或过表达基因。转基因的递送可以通过使用本文提供的方法将其分成多个片段来实现。

所公开方法和系统的其他应用包括用于被靶向基因表达的交叉基因递送。可以利用编码片段基因的两种病毒的差异感染/表达模式。重构的蛋白质将在重叠的细胞群中表达，这代表了两种病毒自身表达的交叉。这种应用的实例可能包括：(1)使用从两个(或更多个)投射靶标逆行运输的病毒载体来递送蛋白质的两个半段(或三个三分之一段，或其他部分)，以标记分叉的双投射神经元，(2)递送在细胞群A中具有活性的启动子控制下的一个片段和细胞群B中具有活性的启动子的第二片段以特异性标记/操纵A∪B细胞群，(3)用对细胞群A具有嗜性的病毒载体递送蛋白质的第一半段，用对细胞群B具有嗜性的病毒载体递送蛋白质的第二半段，以特异性标记/操纵A∪B细胞群。或者，这些方法的组合。

在一个实例中，所述二聚体化域是适体序列，例如在以下存在的情况下促进二聚体化：(a)适配体识别的小分子触发物或(b)细胞中存在与两个半段结合并因此促进二聚体化的蛋白质。

在一些实施方案中，末端连接所必需的RNA-RNA相互作用可以通过诸如以下其他核苷酸正向或负向控制：(a)与两个半段同源的反义寡核苷酸序列(ssDNA触发二聚体化)，在这样的实例中，具有与两个半段互补序列的反义寡核苷酸将两个分子桥接在一起，从而促进剪接体介导所述两个分子的重组，(b)与两个连接-RNA之一同源的反义寡核苷酸序列可以封闭两个分子的RNA二聚体化并用作基因表达的断开开关，或(c)与两个半段同源的内源性细胞RNA(RNA触发二聚体化)。在这样的实例中，具有与两个半段互补序列的细胞RNA(例如，mRNA或逆转录元件)将两个分子桥接在一起，从而促进剪接体介导所述两个分子的重组。

这些分子、蛋白质或RNA介导的相互作用能够使基因表达水平可控/微调：通过滴定与结合域相互作用的分子(例如，反义寡核苷酸、小分子、内源性细胞RNA)，可以调节两个半段之间的二聚体化效率以独立于启动子活性调控表达水平。如果需要窄范围的蛋白质表达水平，可以进行此类设置。

Ⅲ.系统

本文提供了一种系统，该系统可用于，使用含有二聚体化序列的合成内含子重组两个或更多个RNA分子，例如至少两个、至少三个、至少四个或至少五个不同的RNA分子(例如2、3、4、5、6、7、8、9或10个不同的RNA分子)。与在蛋白质水平上片段化和重构两个片段不同，所公开方法不需要大量的蛋白质工程来找到合适的分裂点。RNA水平上的重构能够无缝连接蛋白质的两个片段。所公开方法和系统使得大型基因(和相应的蛋白质)，例如大于约4.5kb、至少5kb、至少5.5kb、至少6kb、至少kb、至少8kb、至少8kb、至少10kb、至少13.5kb或至少18kb，分成两个或更多个片段或部分，每个片段或部分可以通过单独的载体(例如多重AAV)引入细胞或受试者。在一个实例中，所述系统包括用于重组两个RNA分子的两个部分，例如其中所述靶蛋白由至少约4500nt至约9000nt，例如4000nt至5000nt编码。在一个实例中，所述系统包括用于重组三个RNA分子的三个部分，例如其中所述靶蛋白由至多约13,500nt，例如约4500nt至约13,500nt或4000nt至5000nt编码。在一个实例中，所述系统包括用于重组四个RNA分子的四个部分，例如其中所述靶蛋白由至多约18,000nt，例如约4500nt至约18,000nt或4000nt至5000nt编码。这有助于克服载体中可用的有限空间。在一些实例中，内源性启动子长度限制了其相应基因在AAV中表达的能力。在一些实例中，编码序列长度限制了其在AAV中表达的能力。在一些实例中，内源性启动子长度及其编码序列长度限制了它们在AAV中一起表达的能力。所公开系统可用于表达以前难以在AAV中表达的长序列。

在一些实例中，待重构的靶蛋白是与以下疾病相关的蛋白质：例如单基因疾病、隐性遗传疾病、由大型基因(例如，大于约4500nt，例如至少5kb、至少5.5kb、至少6kb、至少kb、至少8kb、至少8kb、至少10kb、至少13.5kb或至少18kb的基因)突变引起的疾病，和/或由超过AAV容量(例如，大于5000nt)的基因(例如启动子+编码序列)引起的疾病。此类疾病的实例包括但不限于A型血友病(由F8基因，7kb编码区突变引起)、B型血友病(由F9基因突变引起)、杜氏肌营养不良症(由抗肌萎缩蛋白基因，11kb编码区突变引起)、镰状细胞性贫血(由血红蛋白的β珠蛋白域突变引起，其启动子约为3.5kb)、斯塔加特病(由ABCA4基因，6.9kb编码区突变引起)、亚瑟综合征(由MYO7A，7kb编码区突变引起，造成听力损失和视力障碍)。

在一个实例中，待重构的靶蛋白是一种可以治疗以下疾病的蛋白质：例如癌症，例如乳腺癌、肺癌、前列腺癌、肝癌、肾癌、脑癌、骨癌、卵巢癌、子宫癌、皮肤癌或结肠癌。在一个实例中，待重构的治疗性靶蛋白是毒素，例如AB毒素，例如白喉毒素A或假单胞菌外毒素A，或缺乏受体结合活性的形式(例如，白喉毒素DAB389、DAB486、DT388、DT390或假单胞菌外毒素A PE38或PE40)。

在一些实例中，编码所述靶蛋白并用于所公开方法和系统中的RNA序列经密码子优化以在靶生物体或细胞中表达，例如经密码子优化以在人类、狗、猪、猫、小鼠或大鼠细胞中表达。因此，在一些实例中，RNA编码序列包括优选的密码子(例如，不包括利用率低的稀有密码子)。可以通过识别靶生物体或细胞中丰富的tRNA水平来进行密码子优化。在一些实例中，编码蛋白质的RNA序列被去富集以获得隐蔽剪接供体和受体位点以最大化RNA重组反应。

在一些实例中，蛋白质被分成两部分，例如大约两个相等的半段(或其他比例，例如部分A表达约1/3，部分B表达约2/3，或部分A表达约1/4和B部分表示约3/4等)。然而，并不要求每个部分具有相同数量的核苷酸(或编码相同数量的氨基酸)。在这样的实例中，所述方法可以使用两种合成核酸分子(例如，RNA或编码这种RNA的DNA)，一种分子包括蛋白质N-端部分的编码序列，另一种分子包括蛋白质C-端部分的编码序列。以此为基础，本领域技术人员将理解除了将蛋白质分成两个片段或部分之外，所关注的蛋白质可以被分成或分裂成两个以上的片段，例如三个片段。三个RNA分子内含子序列的设计原则与这两个分子的内含子序列的设计原则相似，但针对两个连接之一使用了一对不同的二聚体化域。因此，例如，N-端蛋白质编码序列之后是具有特异性结合域的内含子序列(例如，第一二聚体化序列)，中间编码序列包括具有与所述第一二聚体化序列互补序列的内含子序列(第二二聚体化序列)。中间编码片段之后是具有另一二聚体化序列(第三二聚体化序列，不同于所述第二二聚体化序列)的另一内含子片段。第三片段包括蛋白质C-端编码序列，并且包括具有与所述第三二聚体化序列互补的二聚体化序列(第四二聚体化序列)的内含子区。在使用多于一个中间部分时，两个中间部分可以以理解为区分各个部分的方式，称为中间部分和第一中间部分，或者称为第一中间部分和第二中间部分，或者称为第一中间部分、第二中间部分和第三中间部分等。

在一个实例中，将所需蛋白质分成N-端部分和C-端部分(例如，大致分成一半，或不等分，例如1/3和2/3或1/4和3/4)，可以使用所公开系统和方法对其进行重构。参考图6A，在这样的实例中，所述系统包括至少两个合成核酸分子110、150。每个核酸分子110、150可以由DNA或RNA组成(如果是RNA，则启动子112、152不存在)。在一些实例中，110、150中每一个的长度约为至少100个核苷酸/核糖核苷酸(nt)，例如至少200、至少300、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000、至少8000nt、至少10,000nt，例如200至10,000nt、200至8000nt、500至5000nt，或200至1000nt。分子110、150可以包括天然和/或非天然核苷酸或核糖核苷酸。

分子110是所述系统位于5'的分子，因为它包括剪接供体116。在分子110是DNA的实施方案中，它包括与编码RNA分子的序列可操作连接的启动子112，所述RNA分子从5'至3'包含：靶蛋白N-端部分的编码序列114(其中所述靶蛋白N-端部分的编码序列114包括在靶蛋白编码序列3'末端的剪接点)、SD 116、可选的DISE 118、可选的ISE120、二聚体化域122和可选的多聚腺苷酸化序列124。可以使用任意启动子112(或增强子)，例如利用RNA聚合酶Ⅱ的启动子，例如组成型或诱导型启动子。在一些实例中，启动子112是组织特异性启动子，例如在肌肉组织(例如骨骼肌肉组织或心脏肌肉组织)、光学组织(例如视网膜组织)、内耳组织、肝组织、胰腺组织、肺组织、皮肤组织、骨骼或肾脏组织中具有组成型活性的启动子。在一些实例中，启动子112是细胞特异性启动子，例如在癌细胞或正常细胞中具有组成型活性的启动子。在一些实例中，启动子112是所表达靶蛋白的内源性启动子，并且在一些实例中是长型的(例如，至少2500nt、至少3000nt、至少4000nt、至少5000nt或至少7500nt)。在一些实例中，启动子112的长度为至少约50个核苷酸(nt)，例如至少100、至少200、至少300、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000、至少8000nt、至少9000nt，或至少10,000nt，例如50至10,000nt、100至5000nt、500至5000nt，或50至1000nt。在一些实例中，分子110是DNA，并且长度是至少200、至少300、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000，或至少8000nt，例如200至10,000nt、200至8000nt、500至5000nt，或200至1000nt。如图6F所示，在分子110是RNA的实施方案中，例如在DNA转录成RNA之后，分子110不包括启动子112，并且114是由靶蛋白N-端部分的编码序列编码的RNA。在一些实例中，分子110是RNA，不包括启动子112，并且长度为至少200、至少300、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000或至少8000nt，例如200至10,000nt、200至8000nt、500至5000nt或200至1000nt。分子110(具有或不具有启动子112)可以包括天然和/或非天然核苷酸或核糖核苷酸。

N-端编码序列(或由其编码的RNA序列)114的3'末端周围的剪接点可以匹配在引入分子110、150的靶细胞或生物体中发现的共有序列。在人体中，对于U2依赖性内含子，剪接点序列是AG(腺嘌呤-鸟嘌呤)或UG(尿嘧啶-鸟嘌呤)，位于5'剪接位点的-1和-2位或对于U12依赖内含子，是AG、UG、CU(胞嘧啶-尿嘧啶)，或UU，位于5'剪接位点的-1和-2位。因此，在一些实例中，剪接点的长度为2nt，并且N-端编码部分114的3'末端是AG、UG、CU或UU。在一些实例中，编码靶蛋白一部分的DNA分子包含编码多个剪接点部分的序列，例如，在编码靶蛋白N-端部分的DNA分子3'末端处和在编码靶蛋白C-端部分的DNA分子5'末端处的序列。

分子110的余下3'-端部分是内含子130。在一些实例中，内含子序列130的长度约至少10nt，例如至少20nt、至少50nt、至少100nt、至少250nt、至少250nt、至少300nt、至少400nt或至少500nt，例如20至500、20至250、20至100、50至100或50至200nt。紧跟N-端编码序列(或由其编码的RNA)114是剪接供体(SD)116(例如SD共有序列，例如SD人类共有序列)。因此，内含子序列130的SD 116是3'至N-端编码序列114。SD 116形成了剪接体组分与RNA分子结合的识别序列。SD 116的序列可以是在其中引入了分子110、150的靶细胞或生物体中发现的SD共有序列。在一些实例中，SD 116的长度为至少2nt，例如至少5nt，或至少10nt，例如2至10、2至8、2至5或5至10nt。SD 116可用于募集U2或U12依赖性剪接机制。在一个实例中，U2依赖性剪接用于人类细胞，并且SD 116序列包括或者是GUAAGUAUU。在一个实例中，U12依赖性剪接用于人类细胞，并且SD 116序列包括或者是AUAUCCUUUUUA(SEQ ID NO:137)或GUAUCCUUUUUA(SEQ ID NO:138)。通篇应理解，RNA序列可以使用核苷酸A、G、T和C来描述，而DNA序列可以使用核苷酸A、G、U和C来描述。

内含子序列130任选地包括一组剪接增强子序列中的一个或两个，称为下游内含子剪接增强子(DISE)118和内含子剪接增强子(ISE)120，它们促进剪接体的作用(例如，增强活性)。在一些实例中，内含子序列130包括至少两个剪接增强子序列，例如至少3个、至少4个或至少5个剪接增强子序列。示例性剪接增强子序列包括DISE 118和ISE 120。在一些实例中，在内含子序列130中包含一个或更多个剪接增强子序列118、120将剪接效率提高至少20％、至少30％、至少40％、至少50％，至少75％、至少80％、至少90％或至少95％。可以使用的示例性剪接增强子序列在SEQ ID NO:26-136、151和152以及GGGTTT、GGTGGT、TTTGGG、GAGGGG、GGTATT、GTAACG、GGGGGTAGG、GGAGGGTTT、GGGTGGTGT TTCAT、CCATTT、TTTTAAA、TGCAT、TGCATG、TGTGTT、CTAAC、TCTCT、TCTGT、TCTTT、TGCATG、CTAAC、CTGCT、TAACC、AGCTT、TTCATTA、GTTAG、TTTTGC、ACTAAT、ATGTTT、CTCTG、GGG、GGG(N)2-4GGG、TGGG、YCAY、UGCAUG，或3x(G_3-6N_1-7)提供。在一些实例中，如果DISE 118存在，则长度可以是至少3nt、至少4nt、至少5nt、至少10nt、至少25nt、至少50nt、至少75nt，或至少100nt，如3至10、3至11、4至11、5至11、10至50、5至100、10至25、10至20或20至75nt，DISE 118的序列是或包括CUCUUUCUUUTCCAUGGGUUGGCU(SEQ ID NO:134)、TGCATG、CTAAC、CTGCT、TAACC、AGCTT、TTCATTA、GTTAG、TTTTGC、ACTAAT、ATGTTT或CTCTG。在一些实例中，如果存在ISE 120，长度可以是约至少3nt、至少4nt、至少5nt、至少10nt，例如至少20nt、至少25nt、至少30nt、至少40nt，或至少50nt，例如3至10、3至11、4至11、5至11、10至50、20至25、10至25、10至20，或20至40nt。在一个实例中，ISE 120的序列是或包含GGCUGAGGGAAGGACUGUCCUGGG(SEQ ID NO:135)、GGGUUAUGGGACC(SEQ ID NO:136)、TTCAT、CCATTT、TTTTAAA、TGCAT、TGCATG、TGTGTT、CTAAC、TCTCT、TCTGT或TCTTT。在一些实例中，内含子序列130包括至少两个、至少3个或至少4个ISE 120。在一些实例中，ISE 120是或包括至少一个与SEQ ID NO:173、174、175、176、177、178、179、180、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、199、200、201、202或203具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％的序列同一性的序列，例如至少2、至少3个此类序列，例如1、2、3、4或5个此类序列。在一些实例中，DISE 118是或包含至少一个与SEQ ID NO:173、174、175、176、177、178、179、180、182、183、184、185、186、187、188、189、190、191、192、193、194、195、196、199、200、201、202或203具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100的序列同一性的序列，例如至少2、至少3个此类序列，例如1、2、3、4或5个此类序列。

SD 116(以及如果存在的话，还有增强子序列118、120)的3'之后是二聚体化域122，该二聚体化域122用于将N-端编码序列(或由其编码的RNA)114和C-端编码序列154结合在一起。分子110内含子序列130部分可以任选地在3'-末端包括多聚腺苷酸化位点124，其终止该片段的转录。在一些实例中，多聚腺苷酸化序列124是至少15个A(例如15至30或15至20个A)的多聚腺苷酸序列。

在一些实例中，第一二聚体化域122(和分子150第二二聚体化域154)包括多个未配对的核苷酸(即，在分子110本身的结构内未配对)。在二聚体化域中具有未配对的核苷酸能够使5'(或第一)二聚体化域122和3'(或第二)二聚体化域154通过碱基配对相互作用。通过这种相互作用，分子110和150保持接近，这促使剪接体通过连接N-端编码区(或由其编码的RNA)114和C-端编码区(或由其编码的RNA)164重组两个分子。

在一个实例中，二聚体化域122(和154)包括“低多样性序列”，其包含有限多样性的核苷酸，因此在每个分子110、150的二级结构中它们自身不可能形成茎环。此类低多样性二聚体化域122(和154)可以是相对开放的构型，独立于编码蛋白质N-和C-端的DNA(或由其编码的RNA)序列114、164。这能够使第一二聚体化域122的核苷酸可用于与分子150的相应第二二聚体化域154形成碱基对，从而能够随后连接N-端编码序列(或由其编码的RNA)114和C-端编码序列(或由其编码的RNA)164。在一些实例中，第一和第二二聚体化域122、154包括散布着可以形成茎的序列的低多样性序列，这使得在没有假结形成的情况下，产生开放并且可用于碱基配对的局部RNA环(图6B)。示例性低多样性序列包括重复的一系列U(例如30到500U)、重复的一系列A(如30至500A)、重复的一系列G(如30至500G)、重复的一系列C(如30至500C)、仅含有A和G的混合物(如30至500个A和G，例如AAAGAAGGAA(...)(SEQ IDNO:149)，可重复)、仅包含C和U的混合物(例如30至500个C和U，例如CUUUCUUUUCUU(...)(SEQ ID NO:150)，可重复)。其他示例性低多样性序列包括互补序列，其形成侧翼为低多样性序列的螺旋。

在一些实例中，第一和第二二聚体化域122、154仅包括嘌呤或仅包括嘧啶。在一个实例中，第一二聚体化域122仅包括嘌呤，而第二二聚体化域154仅包括嘧啶。在另一个实例中，第一二聚体化域122仅包括嘧啶，而第二二聚体化域154仅包括嘌呤。由于嘌呤不能与自身配对(嘧啶同样如此)，因此这些RNA链段具有开放的预测结构。

在一些实例中，第一和第二二聚体化域122、154不包括可能与RNA重组竞争的隐蔽剪接受体，例如与剪接供体共有序列NNNAGGUNNNN(SEQ ID NO:151)或NNNUGGUNNNN(SEQ IDNO:152)(其中N指任何核苷酸)相似的序列。在一些实例中，第一二聚体化域122不超过1000nt，例如不超过750nt，或超过500nt，例如6至1000nt、10至1000nt、20至1000nt、30至1000nt、30至750nt、30至500nt、50至500nt、50至100nt，或100至250nt。在一些实例中，第一二聚体化域122大于50nt，例如至少51nt、至少100nt、至少150nt、至少161nt，或至少170nt，例如51至159nt、51至150nt、51至120nt、51至100nt或51至70nt。在一些实例中，第一二聚体化域122大于160nt，例如至少161nt、至少170nt、至少180nt、至少200nt、至少300nt、至少400nt、至少500nt、至少600nt、至少700nt、至少800nt、至少900nt或至少1000nt，例如161至100nt、161至500nt、161至300nt、161至200nt，或161至170nt。在一些实例中，第一二聚体化域122小于50nt，例如6至49nt、6至45nt、6至40nt、6至30nt、6至20nt或6至10nt。

在一些实例中，二聚体化域为20至160nt、50-500nt或500-1000nt。在一些实例中，二聚体化域为约20nt至约160nt。在一些实例中，二聚体化域为约20nt至约40nt、约20nt至约50nt、约20nt至约70nt、约20nt至约90nt、约20nt至约100nt、约20nt至约110nt、约20nt至约120nt、约20nt至约130nt、约20nt至约140nt、约20nt至约150nt、约20nt至约160nt、约40nt至约50nt、约40nt至约70nt、约40nt至约90nt、约40nt至约100nt、约40nt至约110nt、约40nt至约120nt、约40nt至约130nt、约40nt至约140nt、约40nt至约150nt、约40nt至约160nt、约50nt至约70nt、约50nt至约90nt、约50nt至约100nt、约50nt至约110nt、约50nt至约120nt、约50nt至约130nt、约50nt至约140nt、约50nt至约150nt、约50nt至约160nt、约70nt至约90nt、约70nt至约100nt、约70nt至约110nt、约70nt至约120nt、约70nt至约130nt、约70nt至约140nt、约70nt至约150nt、约70nt至约160nt、约90nt至约100nt、约90nt至约110nt、约90nt至约120nt、约90nt至约130nt、约90nt至约140nt、约90nt至约150nt、约90nt至约160nt、约100nt至约110nt、约100nt至约120nt、约100nt至约130nt、约100nt至约140nt、约100nt至约150nt、约100nt至约160nt、约110nt至约120nt、约110nt至约130nt、约110nt至约140nt、约110nt至约150nt、约110nt至约160nt、约120nt至约130nt、约120nt至约140nt、约120nt至约150nt、约120nt至约160nt、约130nt至约140nt、约130nt至约150nt、约130nt至约160nt、约140nt至约150nt、约140nt至约160nt，或约150nt至约160nt。在一些实例中，二聚体化域为约20nt、约40nt、约50nt、约70nt、约90nt、约100nt、约110nt、约120nt、约130nt、约140nt、约150nt，或约160nt。在一些实例中，二聚体化域为至少约20nt、约40nt、约50nt、约70nt、约90nt、约100nt、约110nt、约120nt、约130nt、约140nt，或约150nt。在一些实例中，二聚体化域为至多约40nt、约50nt、约70nt、约90nt、约100nt、约110nt、约120nt、约130nt、约140nt、约150nt或约160nt。

在一些实例中，二聚体化域为约50nt至约500nt。在一些实例中，二聚体化域为约50nt至约100nt、约50nt至约150nt、约50nt至约200nt、约50nt至约250nt、约50nt至约300nt、约50nt至约350nt、约50nt至约400nt、约50nt至约500nt、约100nt至约150nt、约100nt至约200nt、约100nt至约250nt、约100nt至约300nt、约100nt至约350nt、约100nt至约400nt、约100nt至约500nt、约150nt至约200nt、约150nt至约250nt、约150nt至约300nt、约150nt至约350nt、约150nt至约400nt、约150nt至约500nt、约200nt至约250nt、约200nt至约300nt、约200nt至约350nt、约200nt至约400nt、约200nt至约500nt、约250nt至约300nt、约250nt至约350nt、约250nt至约400nt、约250nt至约500nt、约300nt至约350nt、约300nt至约400nt、约300nt至约500nt、约350nt至约400nt、约350nt至约500nt，或约400nt至约500nt。在一些实例中，二聚体化域为约50nt、约100nt、约150nt、约200nt、约250nt、约300nt、约350nt、约400nt或约500nt。在一些实例中，二聚体化域为至少约50nt、约100nt、约150nt、约200nt、约250nt、约300nt、约350nt或约400nt。在一些实例中，二聚体化域为至多约100nt、约150nt、约200nt、约250nt、约300nt、约350nt、约400nt或约500nt。

在一些实例中，第一和第二二聚体化域122和154的序列通过以下确定：计算机结构预测筛选(例如，RNA折叠结构预测用于筛选可能的二聚体化域序列的文库；选择在二聚体化域和相应的抗二聚体化域中均有大部分未配对核苷酸的序列)、低多样性核苷酸设计(例如，二聚体化域设计为包括低多样性序列的链段，例如只有U、只有A、只有C、只有G、只有R(G和A)，或只有Y(U和C)的重复序列，序列不能折叠到自身)，或经验筛选(例如，合成二聚体化域和相应抗二聚体化域的文库并筛选出最大重组效率)。

在一些实例中，第一和第二二聚体化域122、154的序列被设计成包含互补的RNA发夹结构(也称为茎环)，这些结构可以与其对应部分形成强吻式环相互作用。在一些实例中，当三个或更多个二聚体化域用于连接编码序列的三个或更多个部分，例如四个或更多个或五个或更多个二聚体化域，例如3、4、5、6、7、8、9或10个二聚体化域时，使用吻式环(例如，图6E)。吻式环的每个发夹环(或茎环)由至少两个互补序列(例如，形成茎)组成，所述序列由非互补序列区域(例如，形成环)隔开。在一些实例中，二聚体化域可以由1个或更多个(例如至少2个、至少3个、至少4个或至少5个，例如2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20个)环。在多个环的一些实例中，可以重复所述环的全部或一些。在多个环的一些实例中，所有或一些环可以不同。在一些实例中，每个互补序列为约4至100nt，它们被约3至20nt的环隔开。两个互补序列之间的碱基配对产生螺旋(或茎)，例如至少4bp、至少5bp、至少10bp、至少20bp、至少30bp、至少40bp、至少50bp、至少75bp、至少90bp或至少100bp，例如4至100bp、5至75bp或10至50bp的螺旋(或茎)。在一些实例中，环部分为至少3nt、至少5nt、至少10nt、至少15nt或至少20nt，例如3至20nt、5至15nt或5至10nt，其中所述环不是碱基配对的。两个发夹环之间的互补序列产生碱基配对，并生成吻式环/吻式茎环相互作用。在一些实例中，两个发夹环之间的互补序列出现在一个环的至少3个核苷酸与第二环的至少3个核苷酸之间，例如出现在所述第一环的至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少19或至少20nt(例如3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20nt)和所述第二环的至少4、至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少19，或至少20nt(例如3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20nt)之间。在一些实例中，两个发夹环之间的互补序列出现在总环序列的至少15％、至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少80％、至少90％、至少95％或100％之间。

在某些情况下，选择吻式环的茎在两个RNA分子之间进行反式碱基配对。在这样的实例中，在一个分子上的一个发夹环与第二分子上的另一个发夹环形成吻式环相互作用后，初始发夹环的相应茎(或螺旋)区域可以在两个RNA分子之间通过链置换/侵入和形成延长的双链体进行反式碱基配对。在一些实例中，在初始环序列中，多达约85％的核苷酸在延伸的双链体形成后可保持未配对(例如，约15％的nt在两个环之间配对)。在一些实例中，吻式环基于HIV-1DIS环(SEQ ID NO:139和140，图17A)，并且在互补序列的6个核苷酸的5'侧包括两个A核苷酸，之后是3'侧的一个A核苷酸(例如，AANNNNNNA，其中N可以是A、U、G或C中的任一种)。在一些实例中，吻式环基于HIV-2吻式环二聚体化域(SEQ ID NO:141和142，图17B)，并且在互补的六个核苷酸的5'侧包括G和A核苷酸序列，然后是在3'侧的三个A核苷酸(例如GANNNNNNAAA(SEQ ID NO:153)，其中N可以是A、U、G或C)。

在一种构型中，通过在初始茎中包含错配而有利于延长的双链体形成，所述错配使延长的双链体中匹配的百分比更高。因此，在一些实例中，发夹环的螺旋或茎区可包含多达30％的碱基对，这些碱基对最初未配对(例如，不超过30％、不超过20％、不超过15％、不超过10％、不超过5％或不超过1％，例如1至30％、5至30％、10至30％或25至30％的碱基对最初未配对)。这些非配对区域会形成凸起、错配或内环。

除了两个发夹环的相互作用(吻式环相互作用)之外，其他形式的环相互作用可以用于第一和第二二聚体化域122、154。在一个实例中，所述环是凸起，其中碱基配对螺旋的一条链含有一个或更多个从茎结构中凸起的核苷酸。示例性凸起是至少1nt、至少2nt、至少3nt、至少4nt、至少5nt、至少10nt或至少20nt，例如1至20nt、1至15nt、1至10nt，或5至10nt，或1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20nt。在一个实例中，所述环是内环，例如，其中螺旋中的1个或更多个核苷酸错配，使得螺旋在错配位置被内环中断。在一些实例中，所述螺旋在每条链上有至少4nt(例如，至少5nt、至少10nt、至少20nt、至少30nt、至少40nt、至少50nt、至少75nt、至少90nt，或至少100nt，例如4至100nt、5至75nt，或10至50nt，例如4至100nt)，位于至少1nt内环的任一侧(例如，在每条链上有至少2nt、至少3nt、至少4nt、至少5nt、至少10nt或至少20nt，例如1至20nt、1至15nt、1至10nt，或5至10nt，或1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19或20nt)。在一个实例中，所述环是多分支环，其中三个螺旋或茎形成三角形，其中一个或更多个未配对的核苷酸连接所述三个螺旋。在一些实例中，每个所述螺旋为至少4bp(例如，至少5bp、至少10bp、至少20bp、至少30bp、至少40bp、至少50bp、至少75bp、至少90bp，或至少100bp，例如4至100bp、5至75bp或10至50bp)，并且形成所述三角形的未配对核苷酸为至少3nt(例如，至少4nt、至少5nt、至少10nt、至少20、至少15、至少30、至少40、至少50，或至少60nt，例如3至60nt、3至30nt、3至25nt，或5至20nt，例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、2、25、30、35、40、45、50、55或60个核苷酸)。吻式相互作用可以发生在任何两种这些类型环之间(例如，在两个或更多个结合域之间，每个结合域都包括一个或更多个螺旋)。在一些实例中，一个二聚体化域(例如，第一二聚体化域122)内的螺旋在另一个结合域(例如，第二二聚体化域154)中具有直接对应物以使得在初始环吻式相互作用后形成延长的双链体。在一些实例中，包含产生环的螺旋的二聚体化域在两个或更多个二聚体化域(例如图6A的122、154)之间相互作用时形成单个吻式茎环。在一些实例中，包含螺旋的二聚体化域形成多个环，用于在两个或更多个二聚体化域(例如，图6A的122、154)之间相互作用时进行吻式环相互作用。在一些实例中，一个或更多个二聚体化域(例如，图6A的122)包含螺旋(因包括凸起、单碱基凸起、错配或内环或G-U摆动对而不稳定)，但与其他结合域(例如，图6A的154)匹配，以有利于在初始吻式作用/配对后形成延长的双链体。在一些实例中，一个或更多个二聚体化域(例如图6A的122)含有不稳定的螺旋，当稳定时(例如，茶碱开关吻式环)暴露出可以通过环-环相互作用(例如，吻式作用/配对)与第二二聚体化结构域(例如，图6A的122)相互作用的环。

在一些实例中，这些茎环的长度包含至少10nt，例如至少20nt、至少25nt、至少50nt、至少75nt或至少100nt，例如10至50、20至25、10至100、10至20或20至40nt。每个二聚体化域可包含至少1个单独的茎环，例如至少2个、至少5个、至少10个、至少15个或至少20个，例如1至20个、2至5个或1至10个单独的茎环。

在一些实例中，编码序列的3至10个部分通过2至9个吻式环连接，例如，3个部分通过2个吻式环连接，4个部分通过3个吻式环连接等，其中2至9个吻式环中每一个是不同的。在一些实例中，吻式环包括多个茎环，例如2至20个茎环。在一些实例中，吻式环的多个茎环中的每一个都是相同的。在一些实例中，吻式环的多个茎环中的每一个都不同。在一些实例中，二聚体化域包含1至20个茎环。在一些实例中，二聚体化域包含1个茎环至20个茎环。在一些实例中，二聚体化域包含1个茎环至2个茎环、1个茎环至3个茎环、1个茎环至4个茎环、1个茎环至5个茎环、1个茎环至6个茎环、1个茎环至7个茎环、1个茎环至8个茎环、1个茎环至9个茎环、1个茎环至10个茎环、1个茎环至15个茎环、1个茎环至20个茎环、2个茎环至3个茎环、2个茎环至4个茎环、2个茎环至5个茎环、2个茎环至6个茎环、2个茎环至7个茎环、2个茎环至8个茎环、2个茎环至9个茎环、2个茎环至10个茎环、2个茎环至15个茎环、2个茎环至20个茎环、3个茎环至4个茎环、3个茎环至5个茎环、3个茎环至6个茎环、3个茎环至7个茎环、3个茎环至8个茎环、3个茎环至9个茎环、3个茎环至10个茎环、3个茎环至15个茎环、3个茎环至20个茎环、4个茎环到5个茎环、4个茎环到6个茎环、4个茎环至7个茎环、4个茎环至8个茎环、4个茎环至9个茎环、4个茎环至10个茎环、4个茎环至15个茎环、4个茎环至20个茎环、5个茎环至6个茎环、5个茎环至7个茎环、5个茎环至8个茎环、5个茎环至9个茎环、5个茎环至10个茎环、5个茎环至15个茎环、5个茎环到20个茎环、6个茎环至7个茎环、6个茎环至8个茎环、6个茎环至9个茎环、6个茎环至10个茎环、6个茎环至15个茎环、6个茎环至20个茎环、7个茎环至8个茎环、7个茎环至9个茎环、7个茎环至10个茎环、7个茎环至15个茎环、7个茎环至20个茎环、8个茎环至9个茎环、8个茎环至10个茎环、8个茎环至15个茎环、8个茎环至20个茎环、9个茎环至10个茎环、9个茎环至15个茎环、9个茎环至20个茎环、10个茎环至15个茎环、10个茎环至20个茎环，或15个茎环至20个茎环。在一些实例中，二聚体化域包含1个茎环、2个茎环、3个茎环、4个茎环、5个茎环、6个茎环、7个茎环、8个茎环、9个茎环、10个茎环、15个茎环，或20个茎环。在一些实例中，二聚体化域包含至少1个茎环、2个茎环、3个茎环、4个茎环、5个茎环、6个茎环、7个茎环、8个茎环、9个茎环、10个茎环，或15个茎环。在一些实例中，二聚体化域包含至多2个茎环、3个茎环、4个茎环、5个茎环、6个茎环、7个茎环、8个茎环、9个茎环、10个茎环、15个茎环，或20个茎环。

可以使用其他机制使得两个或更多个二聚体化域(例如图6A的122、154)彼此结合或相互作用，足以使编码序列进行重组。在一些实例中，所述两个或更多个二聚体化域(例如，图6A的122、154)是核酸适体(例如RNA适体)，它们可以例如通过非碱基配对相互作用彼此相互作用，或者可以结合到共同的分子(例如，蛋白质、ATP、金属离子、辅因子或合成配体)。在一些实例中，两个或更多个二聚体化域(例如图6A的122、154)不彼此杂交，但可以两者(或全部)与相同的桥核酸分子杂交。在一些实例中，这种桥核酸分子可以外源地提供给细胞、组织或生物体。在一些实例中，这样的桥核酸分子可以是细胞内的DNA或RNA序列，例如转录物或基因组座位。在一些实例中，所述两个或更多个二聚体化域(例如，图6A的122、154)是可以例如通过非碱基配对相互作用彼此相互作用的序列。

分子150是位于3'的分子，并且包括剪接受体(SA)162和第二二聚体化域154。在分子150是DNA的实施方案中，它包括第二启动子152，其后是内含子序列170。启动子152可以可操作连接至内含子序列170。可以使用任何启动子152，例如组成型或诱导型启动子。在一些实例中，启动子152是组织特异性启动子，例如在肌肉组织(例如骨骼肌肉组织或心脏肌肉组织)、光学组织(例如视网膜组织)、内耳组织、肝组织、胰腺组织、肺组织、皮肤组织、骨骼或肾脏组织中具有组成型活性的启动子。在一些实例中，启动子112是细胞特异性启动子，例如在癌细胞或正常细胞中具有组成型活性的启动子。在一些实例中，启动子112是所表达靶蛋白的内源性启动子，并且在一些实例中是长型的(例如，至少2500nt、至少3000nt、至少4000nt、至少5000nt或至少7500nt)。在一些实例中，启动子112的长度为至少约50个核苷酸(nt)，例如至少100、至少200、至少300、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000、至少8000nt、至少9000nt，或至少10,000nt，例如50至10,000nt、100至5000nt、500至5000nt，或50至长度为1000nt。在一些实例中，启动子112和启动子152是相同的启动子。在其他实例中，启动子112和启动子152是不同启动子。在一些实例中，分子150是DNA，并且是至少200、至少300、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000，或至少8000nt，例如200至10,000nt、200至8000nt、500至5000nt，或200至1000nt。如图6F所示，在分子150是RNA的实施方案中，例如在将DNA表达成RNA之后，分子150不再包括启动子152，并且164是由靶蛋白C-端部分的编码序列编码的RNA。在一些实例中，分子150是RNA，不包括启动子152，并且长度是至少200、至少300、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000或至少8000nt，例如200至10,000nt、200至8000nt、500至5000nt或200至1000nt。分子150(有或没有启动子152)可以包括天然和/或非天然核苷酸或核糖核苷酸。

内含子序列170包括第二二聚体化域154、任选的ISE 156、分支点158、多嘧啶束160，随后是剪接受体序列162。在一些实例中，内含子序列130的长度约为至少10nt，例如至少20nt、至少30nt、至少50nt、至少100nt、至少250nt、至少250nt、至少300nt、至少400nt或至少500nt，例如20至500、20至250、20至100、50至100、30至500或50至200nt。

第二二聚体化域154具有与分子110第一二聚体化域122序列反向互补的序列。因此，上述第一二聚体化域122的相同设计特征和考虑因素也适用于第二二聚体化域154。例如，在一些实例中，第二二聚体化域154包含可以形成与第一二聚体化域122相互作用的吻式环的茎环。在一些实例中，第二二聚体化域154不包括可以与RNA重组竞争的隐蔽剪接受体(例如，NNNAGGUNNN；SEQ ID NO:143)。在一些实例中，第二二聚体化域154具有低多样性序列。在一些实例中，第二二聚体化域154不超过1000nt，例如不超过750nt，或超过500nt，例如30至1000nt、30至750nt、30至500nt、50至500nt、50至100nt，或100至250nt。在一些实例中，第二二聚体化域154大于50nt，例如至少51nt、至少100nt、至少150nt、至少161nt，或至少170nt，例如51至159nt、51至150nt、51至120nt、51至100nt或51至70nt。在一些实例中，第二二聚体化域154大于160nt，例如至少161nt、至少170nt、至少180nt、至少200nt、至少300nt、至少400nt、至少500nt、至少600nt、至少700nt、至少800nt、至少900nt，或至少1000nt，例如161至100nt、161至500nt、161至300nt、161至200nt，或161至170nt。在一些实例中，第二二聚体化域154小于50nt，例如6至49nt、6至45nt、6至40nt、6至30nt、6至20nt或6至10nt。

3'-至第二二聚体化域154是任选的ISE 156、分支点序列158(例如分支点共有序列)、多嘧啶束160，随后是剪接受体序列162。ISE 156，如分子110的ISE 120和DISE118，促进剪接体催化重组反应。在一些实例中，内含子序列150包括至少两个ISE 156，例如至少3个、至少4个或至少5个ISE 156。示例性剪接增强子序列包括ISE 156。在一些实例中，内含子序列150中包含一个或更多个剪接增强子序列156将重组效率或剪接效率提高至少10％、至少20％、至少30％、至少40％或至少50％。可以使用的示例性剪接增强子序列在SEQ IDNO:26-136、151和152以及GGGTTT、GGTGGT、TTTGGG、GAGGGG、GGTATT、GTAACG、GGGGGTAGG、GGAGGGGTTT、GGGTGGTGT TTCAT、CCATTT、TTTTAAA、TGCAT、TGCATG、TGTGTT、CTAAC、TCTCT、TCTGT、TCTTT、TGCATG、CTAAC、CTGCT、TAACC、AGCTT、TTCATTA、GTTAG、TTTTGC、ACTAAT、ATGTTT、CTCTG、GGG、GGG(N)2-4GGG、TGGG、YCAY、UGCAUG或3x(G_3-6N_1-7)中提供。在一些实例中，如果ISE 156存在，它的长度可以是大约至少3nt、至少4nt、至少5nt、至少10nt，例如至少20nt、至少25nt、至少30nt、至少40nt或至少50nt，例如3至10、3至11、4至11、5至11、10至50、20至25、10至25、10至20或20至40nt。在一个实例中，ISE 156的序列是或包含GGCUGAGGGAAGGACUGUCCUGGG(SEQ ID NO:135)、GGGUUAUGGGACC(SEQ ID NO:136)、TTCAT、CCATTT、TTTTAAA、TGCAT、TGCATG、TGTGTT、CTAAC、TCTCT、TCTGT，或TCTTT。在一些实例中，ISE120和ISE 156是相同的序列。在其他实例中，ISE 120和ISE 156是不同的序列。

3'-至第二二聚体化域154(和ISE 156，如果存在的话)是分支点序列158(例如分支点共有序列)、多嘧啶束160，然后是剪接受体序列162(例如剪接受体共有序列)。分支点158的序列基于靶细胞或生物体物种的共有序列。例如，对于人类剪接，共有序列可以包括或为YUNAY。因此，它使用的序列对于U2依赖性内含子可以是CUAAC，或对于U12依赖性内含子可是以UUUUCCUUAACU(SEQ ID NO:144)。

多嘧啶束160包括C、U或C和U核苷酸两者，例如CnUy，其中n+y大于或等于10个核苷酸，并且可以包括相对于3'-剪接点的核苷酸-3至-22。在一些实例中，多嘧啶束160包括至少80％的Y核苷酸(即，U、C或U和C两者)。在一些实例中，多嘧啶束160是polyC或polyU序列。在一些实例中，多嘧啶束160是至少15个U的polyU序列，例如15至30个或15至20个U。分支点158和多嘧啶束160是必不可少的剪接组分。SA 162的序列可以基于靶细胞或靶生物物种的共有序列。例如，在人体中，对于U2依赖性内含子，SA序列可以是AG，在相对于3'-剪接位点的-1和-2位；对于U12依赖性内含子，可以是AC或AG，在相对于3'-剪接位点的-1和-2位。因此，在一些实例中，SA 162的长度可以是2nt，例如AG或AC。

紧跟SA 162的是外显子序列，包括编码靶蛋白C-端部分的DNA序列164，该DNA序列在其5'末端具有剪接点。在编码靶蛋白C-端部分DNA序列164的5'末端处的剪接点，可以匹配在引入分子110、150的靶细胞或生物体中发现的共有序列。在一些实例中，对于U2依赖性内含子，剪接点可以是GA或GU，在3'剪接位点的+1和+2位；或者对于U12依赖性内含子，剪接点可以是GU或AU，在3'剪接位点的+1和+2位。因此，在一些实例中，所述剪接点的长度为2nt，并且C-端编码部分164的5'末端是GA、GU或AU。

分子150内含子部分170之后的外显子序列包括靶蛋白第二编码部分(例如半段)，例如C-端片段164，和任选的多聚腺苷酸化序列166。因此，分子150包括编码靶蛋白C-端部分的序列164。分子150的3'末端任选地包括多聚腺苷酸化序列166，其促进剪接体的组装。在一些实例中，多聚腺苷酸化序列166是至少15个A(例如15至30或15至20个A)的多聚腺苷酸序列。在一些实例中，多聚腺苷酸化序列166和多聚腺苷酸化序列124是相同的序列。在其他实例中，多聚腺苷酸化序列166和多聚腺苷酸化序列124是不同的序列。

在一些实例中，N-端编码区域114和/或C-端编码区164是原生编码序列。例如，编码序列是在引入所公开系统的细胞或生物体中发现的序列(例如，当引入人类细胞或受试者时是人类编码序列)。在一些实例中，N-端编码区114和/或C-端编码区164相对于原生编码序列进行密码子优化，例如以使tRNA可用性最大化，或去富集以获得隐蔽剪接位点(例如，减少或避免不正确剪接并促进形成正确连接)。在一些实例中，N-端编码区114和/或C-端编码区164的一部分相对于原生编码序列进行密码子优化，例如与每个连接相邻的约200nt(例如，114的3'-末端和164的5'末端)可以进行密码子优化或改变以包含外显子剪接增强子位点(ESE)(它将结合SR蛋白)。例如，编码序列可以是在引入所公开系统的细胞或生物体中未发现的编码序列(例如，当引入小鼠细胞或受试者时是人类编码序列)。

在一些实例中，N-端编码区114和/或C-端编码区164包括天然或合成性质的并且包含剪接供体和受体位点的内含子。例如，嵌入在待表达编码序列内的内含子可以包括在序列116的上游(例如上游约200nt)并在N-端编码区114内，嵌入在待表达编码序列内的内含子可以包括在序列162的下游(例如，下游约200nt)并在C-端编码区164内，或两者情况均存在。包含此类内含子可用于刺激剪接机制连接至反式剪接内含子供体和受体。在一些实例中，这种(刺激性)内含子可以来源于表达110和150的宿主。在一些实例中，这种(刺激性)内含子可以源自其他生物体，或源自病毒，或源自合成。

在一些实例中，包含稳定分子150的序列(例如，放置在图6A中150的3'未翻译区中的164和166之间)可以将重组产物的表达效率提高至少25％、至少30％、至少40％、至少50％、至少60％，或至少75％，例如25至95％、25至75％、25至60％、25至50％、40至95％、40至60％或50至60％。在一些实例中，土拨鼠转录后调控元件(WPRE)或其截短物(例如WPRE3)作为稳定元件包含在3'-UTR中，以提高重组产物的表达效率。在一些实例中，WPRE序列与GenBank登录号J04514的nt 1093至1684或WPRE3的247bp序列具有至少80％、至少85％、至少90％、至少95％或100％的序列同一性。

如图6C所示，分子110第一二聚体化域122和分子150第二二聚体化域154之间的相互作用和杂交(碱基配对)使得剪接体组分重组N-端编码序列114和C-端编码序列164。具体地，N端蛋白质编码序列114的3'末端与C端蛋白质序列164的5'末端融合，作为两部分之间的无缝连接。

图6D显示了系统的示意图，其中靶蛋白被分成三个部分，N-端部分、中间部分和C-端部分(其中每个部分的大小可以相似或不同)。本领域技术人员将理解，因此使用本文提供信息可以将蛋白质分为任意数量的所需节段或部分，以及设计的适当数量的分子。在此类实例中，所述系统包括至少三个合成核酸分子110、200和150，其中分子110包括编码蛋白质N-端部分的分子114，分子200包括编码蛋白质中间部分的分子216，并且分子150包括编码蛋白质C-端部分的分子164。每个核酸分子110、200、150可以由DNA组成，并且在翻译后可以是不存在启动子112、202、152的RNA。在一些实例中，分子110、200、150(有或没有启动子112、202、152)每一个的长度为至少约100个核苷酸/核糖核苷酸(nt)，例如至少200、至少300、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000或至少8000nt，例如200至10,000nt、200至8000nt、500至5000nt，或200至1000nt。分子110、150、200(具有或不具有启动子112、202、152)可以包括天然和/或非天然核苷酸或核糖核苷酸。除了使用两个(或更多个)正交二聚体化域外，所述两个内含子之一可以是U2型内含子，并且第二内含子可以是U12型内含子。U2和U12依赖性内含子的剪接供体和受体显示出的交叉反应性最弱，因为两种类型的内含子之间的共有识别序列不同。两种策略(即正交二聚体化域和U2与U12型内含子)促进三个片段以正确顺序重组(例如，避免第一片段直接连接至最后一个片段并避免中间片段循环到自身)。

图6D的分子110包括上文针对图1A公开的相同特征，即与编码RNA分子的序列可操作连接的启动子112，所述RNA分子从5'到3'包含：靶蛋白N-端部分的编码序列114(其中靶蛋白N-端部分的编码序列114包含在靶蛋白编码序列3'末端的剪接点)、SD 116、任选的DISE 118、任选的ISE 120、二聚体化域122，和任选的多聚腺苷酸化序列124，但其中第一二聚体化域122与分子200第三二聚体化域204反向互补。如图6F所示，在分子110是RNA的实施方案中，例如在DNA表达成RNA之后，分子110不包括启动子112，并且114是由靶蛋白N-端部分的编码序列编码的RNA。分子110(具有或不具有启动子112)可以包括天然和/或非天然核苷酸或核糖核苷酸。

图6D的分子150包括上文针对图1A公开的相同特征，即与编码RNA分子的序列可操作连接的启动子152，所述RNA分子从5'到3'包含：第二二聚体化域154、任选的ISE 156、分支点序列158、多嘧啶束160、剪接受体(SA)162；和靶蛋白C-端部分的编码序列164(其中靶蛋白C-端部分的编码序列包含在靶蛋白编码序列的5'端处的剪接点)，以及任选地多聚腺苷酸化序列166。第二二聚体化域154与分子200第四二聚体化域226反向互补。分子150(具有或不具有启动子152)可以包括天然和/或非天然核苷酸或核糖核苷酸。

通过提供分别与分子110和分子150的二聚体化域122、154反向互补的二聚体化域，分子200能够连接N-和C-端编码区114、164。分子200包括分子110和分子150两者的特征，包括两个内含子序列230、240。具体地，在分子200是DNA的实施方案中，分子220包括与编码RNA分子的序列可操作连接的启动子210(其可以与启动子112和/或152相同或不同)，所述RNA分子从5'到3'包含：第三二聚体化域204(其是图6D中分子110第一二聚体化域122的反向互补物)、任选的ISE 206、分支点208、多嘧啶束210、SA 212、靶蛋白中间部分的编码序列216(其中靶蛋白中间部分的编码序列216包括在靶蛋白质编码序列5'末端的剪接点和所述靶蛋白编码序列3'-末端的剪接点)、SD220、可选的DISE 222、可选的ISE 224、第四二聚体化域226(是图6D中分子150第四二聚体化域154的反向互补物)和任选的多聚腺苷酸化序列228。在一些实例中，分子220是DNA，并且长度是至少200、至少300、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000或至少8000nt，例如200至10,000nt、200至8000nt、500至5000nt或200至1000nt。在分子200是RNA的实施方案中，例如在DNA表达成RNA之后，分子200不再包括启动子202，并且216是由靶蛋白中间部分的编码序列编码的RNA。在一些实例中，分子200是RNA，不包括启动子202，并且长度是至少200、至少300、至少500、至少1000、至少2000、至少3000、至少4000、至少5000、至少6000、至少7000或至少8000nt，例如200至10,000nt、200至8000nt、500至5000nt或200至1000nt。分子200(具有或不具有启动子202)可以包括天然和/或非天然核苷酸或核糖核苷酸。

如图6E所示，分子110第一二聚体化域122和分子200第三二聚体化域204之间的相互作用和杂交(碱基配对)，以及分子200第四二聚体化域226和分子150第二二聚体化域154之间的相互作用和杂交(碱基配对)使得剪接体组分重组N-端编码序列114、中间编码序列216和C-端编码序列164。具体地，N-端蛋白质编码序列114的3'末端与中间蛋白质序列216的5'末端融合，并且中间蛋白质序列216的3'末端与C末端蛋白质序列164的5'末端融合，作为三个部分之间的无缝连接。

替代的二聚体化域显示在图7A-7B和图9A中。即，作为使用彼此杂交(例如，112至204、226至154，图6D、图6E)的二聚体化域的替代方案，在一个实例中使用适体序列。如图7A所示，在两种合成核酸分子500、600中，使用适体序列512、602代替二聚体化域，并且所述适体通过它们与靶标(例如腺苷、多巴胺或咖啡因)的相互作用聚集在一起。在这样的实例中，每个分子500、600的适体序列512、602可以是相同的，或者甚至是不同的序列。图7A的分子500包括上文针对图6A分子110公开的相同特征，当DNA包括与编码RNA分子的序列可操作连接的启动子时，该RNA分子从5'到3'包含：靶蛋白N-端部分的编码序列502(其中靶蛋白N-端部分的编码序列502包含在靶蛋白编码序列3'末端的剪接点)、SD 506、任选的DISE 508、任选的ISE 510、代替第一二聚体化域的第一适体512和任选的多聚腺苷酸化序列。在分子500是RNA(例如当从DNA分子转录时)的实施方案中，分子500不包括启动子(例如，如图7A所示)。类似地，图7A分子600包括上文针对图6A分子150公开的相同特征，当DNA包括与编码RNA分子的序列可操作连接的启动子时，所述RNA分子从5'到3'包含：适体602(而不是第二二聚体化域154)、任选的ISE 604、分支点606、多嘧啶束608、SA 610、编码靶蛋白C-端部分的DNA614(在其5'末端具有剪接点)，和任选的多聚腺苷酸化序列616。在分子600是RNA(例如当从DNA分子转录时)的实施方案中，分子500不包括启动子(例如，如图7A所示)。两个适体512、602彼此或与分子700的相互作用使得剪接体组分重组N-端编码序列502和C-端编码序列614。具体地，N-端蛋白质编码序列502的3'末端融合到C-端蛋白质序列614的5'末端作为两个部分之间的无缝连接。分子500和600可以包括天然和/或非天然核苷酸或核糖核苷酸。

在一些实例中，适体序列512、602识别(例如，特异性结合)相同的靶标700(图7A)，或者甚至可以识别不同的靶标(其中合成分子也与本文提供的系统一起施用，所述系统包括被每个适体特异性识别的每个分子，或被适体识别的分子部分，例如咖啡因/多巴胺杂合分子)。适体识别的示例性靶标包括细胞蛋白、小分子、外源性蛋白或RNA分子。

图7B示出了类似于图7A的实例。二聚体化域(图7A的512、602)识别RNA分子。在图7B所示的实例中，每个域识别仅在靶细胞(需要靶蛋白表达的细胞)中表达的mRNA分子的不同部分，例如癌症特异性转录物。在这样的实例中，RNA所包含的编码序列(图7A的502、614)仅在被二聚体化域识别的特定RNA分子存在的情况下重组。在这里，靶蛋白只会在癌细胞中表达，而不是在正常细胞中表达。这种系统能够控制癌细胞中靶蛋白表达(例如，癌症治疗性蛋白，例如毒素或细胞毒性酶，例如胸苷激酶和更昔洛韦；因此在一些实例中，靶蛋白是毒素或胸苷激酶)，从而减少在正常非癌细胞中表达靶蛋白的不良副作用。

图7C提供了示例性“断开开关”实例。在此，合成核酸分子800、900的二聚体化域812、902(它们是彼此的反向互补物)的杂交/结合可以通过提供竞争结合/杂交的抗结合域寡核苷酸(例如，RNA或DNA)1000(可以是两个不同的抗结合域寡核苷酸1000，一个是812的反向互补物，一个是912的反向互补物)而减少。因此，抗结合域寡核苷酸1000可以充当重构分别由N-端和C-端编码部分802和914编码蛋白质的“断开开关”。图7C分子800包括上文针对作为RNA分子(因此缺少启动子)的图6A分子110公开的相同特征。所述RNA分子从5'到3'包含：靶蛋白N-端部分的编码序列802(其中靶蛋白N-端部分的编码序列802包含在靶蛋白编码序列3'末端的剪接点)、SD 806、任选的DISE 808、任选的ISE 810、二聚体化域812和任选的多聚腺苷酸化序列814。类似地，图7C分子900包括上文针对作为RNA分子(因此缺少启动子)的图6A分子150公开的相同特征，所述RNA分子从5'到3'包含：抗二聚体化域902、任选的ISE 904、分支点906、多嘧啶束908、SA 910、编码靶蛋白C-端部分的RNA914和任选的多聚腺苷酸化序列916。两个二聚体化域812、902在抗结合域寡核苷酸1000的存在下不能彼此相互作用/杂交，因此防止或减少N-端编码序列802和C-端编码序列914的重组。这样的应用可用于减少或消除由所述系统编码蛋白质的表达。分子800和900可以包括天然和/或非天然核苷酸或核糖核苷酸。

图9A提供了使用吻式环相互作用而不是二聚体化的反向互补序列杂交的示例性二聚体化域。当两个RNA发夹环中的碱基在两个RNA分子之间形成相互作用对时，就会形成吻式环相互作用。左侧标有n-yfp的分子代表编码yfp的n-端片段的RNA分子，与包含剪接供体位点、下游内含子剪接增强子元件和两个内含子剪接增强子元件的合成内含子相连。该分子的二聚体化域包含三个RNA发夹环，每个环由茎(RNA与自身杂交)和环(RNA不与自身杂交)组成。在这个实例中，二聚体化域包含三个茎和环元件(也称为发夹环)并被称为三峰吻式环二聚体化域。右侧标有c-yfp的分子代表编码yfp的c-端部分的RNA分子。从5'到3'，该分子由三峰吻式环二聚体化域组成，该域包含一组三个发夹环。环部分可以与互补n-yfp分子上的相应环形成吻式环相互作用。三峰吻式环二聚体化域之后是合成内含子序列，该序列包含三个内含子剪接增强子序列、分支点序列、多嘧啶束和剪接受体位点。合成内含子序列之后是c-端yfp编码序列，其后是包含多聚腺苷酸化信号的3'未翻译区。在图的顶部，显示了吻式环相互作用的代表性3-维渲染。此渲染说明了发夹环的扭结形式如何将环残基暴露在外部，从而使它们可用于吻式环相互作用。

在两个分子缔合后，剪接体介导反式剪接反应，使得n-端和c-端ypf编码序列连接，然后表达全长荧光蛋白质。

虽然图6A-7C和图9A显示了使用两个合成核酸分子的系统的实施方案(即，靶蛋白编码序列在两个合成核酸分子之间分裂)，本领域技术人员将理解使用本文教导，这样的实施方案可以类似地与多于两个合成核酸分子一起使用，例如三个、四个、五个、六个、七个、八个、九个或10个合成核酸分子。

在一些实例中，所述系统包括抑制未组装/未重组片段表达的核酸分子。在这样的实例中，如果全长编码序列的两个或更多个部分(例如，分别为图6A的110的114、150的164)没有重组，所述核酸分子将抑制未重组为全长蛋白质的全长编码序列每个部分的表达。例如，这种抑制性核酸分子一旦在细胞核外就可以使RNA不稳定、阻止翻译、从移位的起始密码子刺激翻译、包含微RNA靶位点或包含蛋白质降解决定子或去稳定域(当翻译时抑制蛋白质活性或将其标记为降解)。

在一个实例中，未重组RNA分子的去稳定化是通过将自切割RNA序列(例如，锤头状核酶或HDV核酶)包括在合成内含子中，例如在图6A或图6F的内含子序列130内的任何位置处来实现的。在一个实例中，切割RNA分子导致RNA稳定多聚腺苷酸尾的丢失，这可以抑制图6A或图6F开放阅读框114的未重组蛋白质的表达。在一个实例中，自切割RNA序列被包括在图6A或图6F的内含子序列170内的任何位置处，以切割5'末端CAP，在一个实施方案中，这可导致包括图6A或图6F编码序列164部分或全部的开放阅读框的表达减少。在一个实例中，自切割RNA序列被RNA切割酶靶位点(例如Csy4靶位点)取代。

在一些实例中，抑制性核酸分子在图6A或6F的内含子序列170内的任何位置包括起始密码子(ATG)或Kozak增强起始密码子(GCCGCCACCATG(SEQ ID NO:154)或GCCACCATG或ACCATG)，其引导开放阅读框的翻译，所述开放阅读框相对于图6A或图6F的开放阅读框序列164移位-1、-2、+1或+2个核苷酸。在一个实例中，通过使用这种诱饵起始密码子策略来引导远离图6A或图6F序列164被抑制的开放阅读框的翻译，减少或抑制未组装的片段表达。

在一些实例中，抑制性核酸分子在图6A或图6F内含子序列130内的任何位置和/或在图6A或图6F内含子序列170内的任何位置处包括一个或更多个微RNA靶位点。如果特定分子(例如，图6A或图6F中的110或150)从细胞核中输出，它会受到微RNA/小发夹RNA依赖性降解，这可以通过降解/抑制从细胞核输出的未连接RNA来抑制非预期的未连接片段表达。在一个实例中，此类微RNA靶序列可以与已知在细胞、组织或动物中表达的微RNA互补，图6A或图6F的分子110和150被引入所述细胞、组织或动物中。在一个实例中，该微RNA靶序列与引入所述细胞，或组织或动物中的序列互补。在一个实例中，此类微RNA可以从RNA聚合酶III依赖性启动子以小发夹RNA的形式表达。在一个实例中，此类微RNA可以从RNA聚合酶II依赖性启动子表达并嵌入微RNA加工环(例如mir30支架)中。

在一些实例中，开放阅读框(例如，图6中的114)的未重组蛋白质产物的去稳定化可以通过减少图6A或图6F的内含子序列130中终止密码子出现，以及另外包含编码框内蛋白质信号(可以标记蛋白质以进行降解)的RNA序列(例如，降解决定子序列)来实现，所述序列位于图6A或图6F的内含子序列130内的任何位置，与从图6A或图6F的序列114延伸出的开放阅读框同框。在一个实例中，降解决定子序列可以是PEST序列的序列，或CL1降解决定子序列的序列。使用的降解决定子序列可以采用蛋白酶体依赖性、蛋白酶体非依赖性、泛素依赖性或泛素非依赖性途径。在一个实例中，未重组蛋白质去稳定化通过包含若干相同或不同的降解决定子序列而得以增强。

在一些实例中，在图6A中开放阅读框序列164的未重组蛋白质产物的去稳定化通过在图6A中内含子序列170内任何位置引入起始密码子(ATG)后跟降解决定子序列来实现，所述降解决定子序列与图6中序列164内的开放阅读框同框。在本实例中，所述降解决定子序列将在N-端连接至未重组蛋白质片段，该片段将被标记为降解而被抑制。

IV.组合物和试剂盒

本发明提供了包含两种或更多种本文提供合成核酸分子的组合物和试剂盒，其中所述合成核酸分子在重组时编码全长蛋白质。在一些实例中，本文提供的两种或更多种合成核酸分子是DNA。在一些实例中，本文提供的两种或更多种合成核酸分子是RNA，并且不包括启动子序列。在一个实例中，所述组合物或试剂盒包括本文提供的两种合成核酸分子，其中所述两种合成核酸分子的每一种编码靶蛋白的不同部分(即，N-端和C-端，其中当两种分子之间发生重组时，就会产生整个编码序列)，例如表1中列出的蛋白质(或治疗性蛋白质，例如毒素或胸苷激酶)。在一个实例中，所述组合物或试剂盒包括本文提供的三种合成核酸分子，其中所述三种合成核酸分子的每一种编码靶蛋白的不同部分(即，N-端、中间部分和C-端，其中当三种分子之间发生重组时，就会产生整个编码序列)，例如表1中列出的蛋白质(或治疗性蛋白质，例如毒素或胸苷激酶)。在一个实例中，所述组合物或试剂盒包括本文提供的四种或更多种合成核酸分子，其中所述四种或更多种合成核酸分子的每一种编码靶蛋白的不同部分(即，N-端、第一中间部分、第二中间部分(和任选地另外的中间部分)和C-端，其中当所述四种或更多种合成核酸分子之间发生重组时，产生整个编码序列)，例如表1中列出的蛋白质(或治疗性蛋白质，例如毒素或胸苷激酶)。在一个实例中，所述组合物或试剂盒包括两组或更多组的两种或更多种本文提供的合成核酸分子，其中每组合成核酸分子编码不同的靶蛋白，例如表1中列出的两种或更多种蛋白质(和/或治疗性蛋白质，例如毒素或胸苷激酶)。

在一个实例中，所述组合物或试剂盒中的每种合成核酸分子是载体(例如AAV或其他基因治疗性载体)的一部分。在一个实例中，所述组合物或试剂盒包括细胞(例如细菌细胞或真核细胞)，其包括两种或更多种所公开的合成核酸分子，其中所述合成核酸分子在重组时编码全长靶蛋白。

此类组合物可以包括药学上可接受的载体(例如盐水、水、甘油、DMSO或PBS)。在一些实例中，所述组合物是液体、冻干粉末或冷冻保存的组合物。

在一些实例中，所述试剂盒包括递送系统(例如，脂质体、颗粒、外来体或微泡)以引导细胞类型特异性摄取/增强内体逃逸/实现血脑屏障穿越等。在一些实例中，所述试剂盒还包括细胞培养基或生长培养基，例如适合于培养细菌、植物、昆虫或哺乳动物细胞的培养基。在一些实例中，试剂盒的这些部分在单独的容器中。示例性容器包括塑料或玻璃小瓶或管。

在一些实例中，本文提供两种或更多种合成核酸分子的每一种都在单独的容器中。在一些实例中，本文提供两组或多组的两种或更多种合成核酸分子中的每一组在单独的容器中。

V.治疗方法

所公开方法和系统可用于表达任何所关注的蛋白质，例如当蛋白质太大而不能被治疗性病毒(例如，AAV)表达时或当完整的基因序列(例如，内源性启动子+编码序列)时太大而无法由治疗性病毒(例如AAV)表达时。在这种情况下，可以使用所公开系统将靶蛋白的编码序列分成两个或更多个部分，并以正确的顺序重组，从而能够在需要的时间和位点表达蛋白质。

待治疗的受试者可以是任何哺乳动物，例如患有单基因疾病(例如表1中列出的疾病)的哺乳动物。在一个实例中，受试者患有癌症。因此，人类、猫、猪、大鼠、小鼠、牛、山羊和狗可以用所公开的方法进行治疗。在一些实例中，受试者是小于6个月大的人类婴儿。在一些实例中，受试者是小于1岁的人类婴儿。在一些实例中，受试者是未成年人。在一些实例中，受试者是至少18岁的成年人。在一些实例中，受试者是女性。在一些实例中，受试者是男性。

本文提供用于治疗受试者的两种或更多种合成核酸分子可以与治疗的受试者相匹配。因此，例如，如果要治疗的受试者是狗，可以使用靶蛋白的狗编码序列并且可以优化内含子序列以在狗细胞中表达，并且如果要治疗的受试者是人类，可以使用靶蛋白的人类编码序列，并且可以优化内含子序列以在人类细胞中表达。

本文提供的所述两种或更多种合成核酸分子可以作为载体的一部分施用，例如腺相关载体(AAV)，例如AAV血清型rh.10。在一些实例中，包括本文提供的两种或更多种合成核酸分子一种的载体(例如，AAV)被全身施用，例如静脉内施用。因此，如果编码序列在本文提供的两种合成核酸分子之间划分，则施用两种AAV，每种AAV包括本文提供的两种合成核酸分子的一种。

施用治疗有效量的两种或更多种本文提供的合成核酸分子，例如在AAV中。在一些实例中，本文提供的两种或更多种合成核酸分子作为病毒载体(例如，AAV)部分时以以下剂量施用：每位受试者至少1×10¹¹个基因组拷贝(gc)、至少1×10¹²gc、至少2×10¹²gc、至少1×10¹³gc、至少2×10¹³gc，或至少1×10¹⁴gc，例如每位受试者2×10¹¹gc、每位受试者2×10¹²gc、每位受试者2×10¹³gc，或每位受试者2×10¹⁴gc。在一些实例中，本文提供的两种或更多种合成核酸分子当作为病毒载体(例如AAV)的一部分时以以下剂量施用：至少1×10¹¹gc/kg、至少5×10¹¹gc/kg、至少1×10¹²gc/kg、至少5×10¹²gc/kg、至少1×10¹³gc/kg，或至少4×10¹³gc/kg，例如4×l0¹¹ gc/kg、4×10¹²gc/kg或4×10¹³gc/kg。

如果出现不良症状，例如血液中出现AAV衣壳特异性T细胞，可以施用皮质类固醇(例如，参见纳塔尼(Nathwani)等人,《新英格兰医学杂志》(N Engl J Med.)365(25):2357-65,2011)。

可以用所公开方法治疗的疾病包括血液的任何遗传疾病(例如镰状细胞病、原发性免疫缺陷疾病)、HIV(例如HIV-1)和血液系统恶性肿瘤或癌症。原发性免疫缺陷疾病及其相应突变的实例包括阿尔赫茨(Al-Herz)等人.(《免疫学前沿》(Frontiers inImmunology),第5卷,第162条,2014年4月22日，通过引用整体并入本文)中列出的疾病。血液系统恶性肿瘤或癌症是影响血液、骨髓和淋巴结的那些肿瘤。实例包括白血病(例如，急性淋巴细胞白血病、急性髓细胞白血病、慢性淋巴细胞白血病、慢性髓细胞白血病、急性单核细胞白血病)、淋巴瘤(例如，霍奇金淋巴瘤和非霍奇金淋巴瘤)和骨髓瘤。在一些实例中，该疾病是单基因疾病。表1提供了可以被所公开系统和方法靶向的示例性病症和基因的列表。本文提供了其他实例：rarediseases.info.nih.gov/diseases/diseases-by-category/5/congenital-and-genetic-diseases(以引用方式并入本文的列表)。由缺少蛋白质(例如，隐性突变)或蛋白质不足引起的任何遗传疾病都可以受益于所公开系统和方法。在基因的编码区相对较小的情况下，所公开系统和方法可用于添加调节序列，例如组织特异性启动子或特异性非编码RNA节段，以在适当水平将基因表达引导至适当细胞类型。

表1：示例性疾病和相应的突变

使用所公开方法和系统可用于治疗表1中列出的任何疾病，或其他已知的遗传疾病。所公开方法还可以用于治疗其他疾病，例如癌症，可以受益于癌细胞中治疗性蛋白质(例如毒素或胸苷激酶)的表达。如果向受试者施用两种或更多种本文提供的表达全长胸苷激酶的合成分子，则还向所述受试者施用更昔洛韦。治疗不需要100％消除疾病的所有特征，但可以减少这些特征。尽管下面提供了具体的实例，但根据这一教导，人们将理解其他疾病的症状也会受到类似的影响。例如，所公开方法可用于增强受试者不表达或表达减少的蛋白质的表达，或减少受试者不希望表达或表达减少的蛋白质的表达。例如，所公开方法可用于治疗或减少遗传疾病的不良影响。

例如，所公开方法和系统可以通过表达血红蛋白的全长野生型β-珠蛋白链来治疗或减少镰状细胞病的不良影响。在一个实例中，所公开方法减轻受体受试者镰状细胞病的症状(例如，血液中存在镰状细胞、疼痛、缺血、坏死、贫血、血管闭塞性危象、再生障碍性危象、脾脏阻断危象和溶血危象中的一种或更多种)，例如减轻至少10％、至少20％、至少50％、至少70％或至少90％(与未施用治疗性核酸分子相比)。在一个实例中，所公开方法减少受体受试者镰状细胞的数量，例如减少至少10％、至少20％、至少50％、至少70％、至少90％或至少95％(与未施用治疗性核酸分子相比)。

例如，所公开方法和系统可以通过表达全长的野生型莱顿因子V或凝血酶原基因来治疗或减少血栓形成倾向的不良影响。在一个实例中，所公开方法减轻受体受试者血栓形成倾向的症状(例如血栓形成(例如深静脉血栓形成)、肺栓塞、静脉血栓栓塞、肿胀、胸痛、心悸中的一种或更多种)，例如减轻至少10％、至少20％、至少50％、至少70％或至少90％(与未施用治疗性核酸分子相比)。在一个实例中，所公开方法降低受体受试者凝血因子的活性，例如降低至少10％、至少20％、至少50％、至少70％、至少90％或至少95％(与未施用治疗性核酸分子相比)。

例如，所公开方法和系统可以通过表达全长野生型CD40配体基因来治疗或减少CD40配体缺乏的不良影响。在一个实例中，所公开方法减轻受体受试者中CD40配体缺乏的症状(例如血清IgM升高、低血清水平的其他免疫球蛋白、机会性感染、自身免疫性疾病和恶性肿瘤中的一种或更多种)，例如减轻至少10％、至少20％、至少50％、至少70％或至少90％(与未施用治疗性核酸分子相比)。在一个实例中，所公开的方法增强受体受试者CD40配体缺乏的量或活性，例如增强至少10％、至少20％、至少50％、至少70％、至少90％、至少100％、至少200％或至少500％(与未施用治疗性核酸分子相比)。

例如，所公开方法可用于治疗或减少由遗传缺陷引起的原发性免疫缺陷疾病的不良影响。例如，所公开方法和系统(可以使用两种或更多种合成核酸分子来表达受试者缺失或有缺陷的功能性蛋白质，例如使用AAV)可以治疗或减少原发性免疫缺陷疾病的不良影响。在一个实例中，所公开方法减轻受体受试者原发性免疫缺陷疾病的症状(例如细菌感染、真菌感染、病毒感染、寄生虫感染、淋巴腺肿胀、脾脏肿大、伤口和体重减轻中的一种或更多种)，例如减轻至少10％、至少20％、至少50％、至少70％或至少90％(与未施用治疗性核酸分子相比)。在一个实例中，所公开方法增加了患有原发性免疫缺陷疾病受体受试者中的免疫细胞(例如T细胞，例如CD8细胞)的数量，例如增加至少10％、至少20％、至少50％、至少70％、至少90％、至少95％、至少100％、至少200％、至少300％、至少400％或至少500％(与未施用治疗性核酸分子相比)。在一个实例中，所公开方法减少了原发性免疫缺陷疾病的受体受试者在一定时间段内(例如超过1年)中感染(例如细菌感染、病毒感染、真菌感染或其组合)次数，例如降低至少10％、至少20％、至少50％、至少70％、至少90％或至少95％(未不施用治疗性核酸分子相比)。

例如，所公开方法可用于治疗或减轻单基因疾病的不良影响。例如，所公开方法(可以使用两种或更多种合成核酸分子来表达受试者缺失或有缺陷的功能性蛋白质，例如使用AAV)可以治疗或减轻单基因疾病的不良影响。在一个实例中，所公开的方法减轻了受体受试者单基因疾病的症状，例如减轻至少10％、至少20％、至少50％、至少70％或至少90％(与未施用治疗性核酸分子相比)。在一个实例中，所公开方法增加了患有单基因疾病受体受试者不正常表达的正常蛋白质的量，例如增加至少10％、至少20％、至少50％、至少70％、至少90％、至少95％、至少100％、至少200％、至少300％、至少400％或至少500％(与未施用治疗性核酸分子相比)。

例如，所公开方法可用于治疗或减轻受体受试者血液恶性肿瘤的不良影响。在一个实例中，所公开方法减少受体受试者(例如患有白血病的受试者)异常白细胞(例如B细胞)的数量，例如减少至少10％、至少20％、至少50％、至少70％或至少90％(与未施用所公开的疗法相比)。在一个实例中，施用所公开的疗法可用于治疗或减少淋巴瘤的不良影响，例如减小淋巴瘤的大小、降低淋巴瘤的体积、减缓淋巴瘤的生长速率、减缓淋巴瘤的转移，例如减少至少10％、至少20％、至少50％、至少70％或至少90％(与未施用所公开的疗法相比)。在一个实例中，施用所公开疗法可用于治疗或减少多发性骨髓瘤的不良影响，例如减少受体受试者异常浆细胞的数量，例如减少至少10％、至少20％、至少50％、至少70％或至少90％(与未施用所公开的疗法相比)。

例如，所公开方法可用于治疗或减少恶性肿瘤的不良影响，例如由受体受试者遗传缺陷引起的不良影响。在一个实例中，所公开方法减少受体受试者(例如患有本文所列癌症的受试者)的癌细胞数量、肿瘤大小、肿瘤体积或转移灶数量，例如减少至少10％、至少20％、至少50％、至少70％或至少90％(与未施用所公开的疗法相比)。在一个实例中，施用所公开疗法可用于治疗或减少淋巴瘤的不良影响，例如减小肿瘤的大小、降低肿瘤的体积、减缓癌症的生长速率、减慢癌症的转移，例如减少至少10％、至少20％、至少50％、至少70％或至少90％(与未施用所公开的疗法相比)。

例如，所公开方法可用于治疗或减轻由受体受试者遗传缺陷引起的神经疾病的不良影响。在一个实例中，所公开方法增强受体受试者(例如患有上述神经疾病的受试者)的神经功能，例如增强至少10％、至少20％、至少50％、至少70％、至少90％、至少100％、至少200％、至少300％、至少400％或至少500％(与未施用所公开的疗法相比)。杜氏肌营养不良症(DMD)的治疗

杜氏肌营养不良症(DMD,MIM:310200)是一种致命的遗传性疾病，其特征是进行性肌肉无力和退化。随着疾病的进展，退化的肌肉纤维被脂肪和纤维化组织所取代。DMD根源于抗肌萎缩蛋白基因(MIM:300377)的缺乏。抗肌萎缩蛋白基因涵盖22kbp的区域，并且容易发生突变。因此，在某些情况下，即使没有致病突变家族史的患者，DMD也可能偶尔出现。DMD是称为抗肌萎缩蛋白病的四种病症之一。属于该组的其他三种疾病是贝克尔肌营养不良症(BMD，DMD的轻度形式)；介于DMD和BMD之间的中间临床表现；和几乎没有或没有临床骨骼或随意性肌肉疾病的DMD相关的扩张型心肌病(心脏病)。因此，在一些实例中，使用所公开系统和方法治疗患有DMD、BMD、介于DMD和BMD之间的中间临床表现；或几乎没有或没有临床骨骼或随意性肌肉疾病的DMD相关扩张型心肌病(心脏病)的患者。

所公开方法和系统可用于通过表达抗肌萎缩蛋白来治疗DMD的单基因病因。抗肌萎缩蛋白具有长编码区，例如抗肌萎缩蛋白。目前从单个AAV表达抗肌萎缩蛋白的方法利用缩短/截短版本的抗肌萎缩蛋白(微抗肌萎缩蛋白和“迷你”抗肌萎缩蛋白)。这些截短的抗肌萎缩蛋白递送疗法中有几种正在Ⅰ/Ⅱ期临床试验中进行测试(NCT03362502、NCT00428935、NCT03368742、NCT03375164)。尽管这些截短版本的抗肌萎缩蛋白可能会改善DMD抗肌萎缩蛋白缺乏的最严重后果，但与全长抗肌萎缩蛋白相比，它们预计不会具有完整的功能，因为截短版本缺少全长蛋白质的杆和铰链区中的关键域。所公开方法和系统通过使用“多重复用”AAV组合减小了AAV转基因有效载荷的大小限制，因为当以高感染复数(MOI，即高滴度)引入时，多重AAV病毒可以有效地感染同一细胞。

因此，在一些实例中，将包含两种或更多种AAV的组合物以治疗有效量施用(例如，静脉施用)至DMD受试者，每一种AAV包含一组所公开合成分子中的一种，例如包括两种、三种、四种或五种不同的合成RNA分子(每种在不同的AAV中)的组，当所述合成RNA分子重组时，会产生全长的抗肌萎缩蛋白编码序列。

VI.示例性实施方案

1.一种用于表达靶蛋白的系统，包括(a)第一合成核酸分子，包含与编码RNA分子的序列可操作连接的第一启动子，所述RNA分子从5'至3'包含：所述靶蛋白N-端部分的编码序列；剪接供体；和第一二聚体化域；和(b)第二合成核酸分子，包含与编码RNA分子的序列可操作连接的第二启动子，所述RNA分子从5'至3'包含：第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；分支点序列；多嘧啶束；剪接受体；以及所述靶蛋白C-端部分的编码序列。

2.一种用于表达靶蛋白的系统，包括：(a)第一合成核酸分子，包含与编码RNA分子的序列可操作连接的第一启动子，所述RNA分子从5'到3'包含：所述靶蛋白N-端部分的编码序列；剪接供体；和第一二聚体化域；和(b)第二合成核酸分子，包含与编码RNA分子的序列可操作连接的第二启动子，所述RNA分子从5'至3'包含：第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；分支点序列；多嘧啶束；剪接受体；以及所述靶蛋白中间部分的编码序列；第二剪接供体；和第三二聚体化域；和(c)第三合成核酸分子，包含与编码RNA分子的序列可操作连接的第三启动子，所述RNA分子从5'至3'包含：第四二聚体化域，其中所述第四二聚体化域与所述第三二聚体化域结合；分支点序列；多嘧啶束；剪接受体；以及所述靶蛋白C-端部分的编码序列。

3.一种用于表达靶蛋白的系统，包括(a)第一合成核酸分子，包含与编码RNA分子的序列可操作连接的第一启动子，所述RNA分子从5'至3'包含：所述靶蛋白N-端部分的编码序列、剪接供体和第一二聚体化域；和(b)第二合成核酸分子，包含与编码RNA分子的序列可操作连接的第二启动子，所述RNA分子从5'至3'包含：第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；分支点序列；多嘧啶束；剪接受体；和所述靶蛋白中间部分的编码序列；第二剪接供体；和第三二聚体化域；和(c)第三合成核酸分子，包含与编码RNA分子的序列可操作连接的第三启动子，所述RNA分子从5'至3'包含：第四二聚体化域，其中所述第四二聚体化域与所述第三二聚体化域结合；分支点序列；多嘧啶束；剪接受体；以及所述靶蛋白第一中间部分的编码序列；第二剪接供体；和第五二聚体化域；(d)第四合成核酸分子，包含与编码RNA分子的序列可操作连接的第四启动子，所述RNA分子从5'至3'包含：第六二聚体化域，其中所述第六二聚体化域与所述第五二聚体化域结合；分支点序列；多嘧啶束；剪接受体；以及所述靶蛋白C-端部分的编码序列。

4.根据实施方案1至3中任一项所述的系统，其中每个启动子是独立选择的。

5.根据实施方案1至4中任一项所述的系统，其中：

所述第一和第二启动子是相同启动子；

所述第一和第二启动子是不同启动子；

所述第一、第二、第三启动子是相同启动子；

所述第一、第二、第三启动子是不同启动子；

所述第一、第二、第三和第四启动子是相同启动子；或者

所述第一、第二、第三和第四启动子是不同启动子。

6.根据实施方案1至5中任一项所述的系统，其中所述第一、第二、第三和第四启动子中的每一个独立地选自：组成型启动子；组织特异性启动子；和所述靶蛋白内源性启动子。

7.根据实施方案1至6中任一项所述的系统，其中所述第一和第二二聚体化域、第三和第四二聚体化域，和/或所述第五和第六二聚体化域通过直接结合、间接结合或其组合而结合。

8.根据权利要求7所述的组合物，其中直接结合或间接结合包括碱基配对相互作用、非规范碱基配对相互作用、非碱基配对相互作用或其组合。

9.根据权利要求7或8所述的组合物，其中直接结合包括吻式环之间或低多样性区域之间的碱基配对相互作用。

10.根据权利要求7或8所述的组合物，其中直接结合包括适体区之间的非规范碱基配对相互作用、非规范碱基配对相互作用、非碱基配对相互作用或其组合。

11.根据权利要求7或8所述的组合物，其中间接结合包括通过核酸桥的碱基配对相互作用。

12.根据权利要求7或8所述的组合物，其中间接结合包括适体与适体靶标之间或两个适体之间的非碱基配对相互作用。

13.根据实施方案1至12中任一项所述的系统，其中所述第一、第二、第三、第四、第五和/或第六二聚体化域不包含隐蔽剪接受体。

14.根据实施方案1至13中任一项所述的系统，包含至少一对直接结合或间接结合的适体序列二聚体化域。

15.根据实施方案1至14中任一项所述的系统，包括至少一对吻式环相互作用二聚体化域。

16.根据实施方案1至15中任一项所述的系统，其中所述靶蛋白是与疾病相关的蛋白质或治疗性蛋白质。

17.根据实施方案16所述的系统，其中所述疾病是单基因疾病。

18.根据实施方案17所述的系统，其中所述治疗性蛋白质是毒素。

19.根据实施方案16至18中任一项所述的系统，其中所述疾病和所述靶蛋白是表1中列出的疾病和靶蛋白。

20.根据实施方案1至19中任一项所述的系统，其中所述第一、第二、第三和/或第四合成核酸分子还包含在所述第一、第二、第三或第四合成核酸分子3'-末端处的多聚腺苷酸化序列。

21.根据实施方案1或4至20中任一项所述的系统，其中

所述第一合成核酸分子还包含3'至所述剪接供体和5'至所述第一二聚体化域的下游内含子剪接增强子(DISE)、3'至所述剪接供体和5'至所述第一二聚体化域的内含子剪接增强子(ISE)的一种或两种；和/或

所述第二合成核酸分子还包含3'至所述第二二聚体化域和5'至所述分支点序列的ISE，以及3'至所述剪接供体和5'至所述二聚体化域的DISE的一种或两种；

及它们的任何组合。

22.根据实施方案2或4至20中任一项所述的系统，其中

所述第一合成核酸分子还包含3'至所述第一剪接供体和5'至所述第一二聚体化域的DISE、3'至所述第一剪接供体和5'至所述第一二聚体化域的ISE，或DISE和ISE两者；

所述第二合成核酸分子还包含3'至所述第二二聚体化域和5'至所述第一分支点序列的ISE、3'至所述第二剪接供体和5'至所述第二二聚体化域的DISE、3'至所述第二剪接供体和5'至所述第三二聚体化域的ISE，或其组合；和/或

所述第三合成核酸分子还包含3'至所述第四二聚体化域和5'至所述第二分支点序列的ISE；

及它们的任何组合。

23.根据实施方案3至20中任一项所述的系统，其中

所述第二合成核酸分子还包含3'至所述第二二聚体化域和5'至所述第一分支点序列的ISE、3'至所述第二剪接供体和5'至所述第二二聚体化域的DISE、3'至所述第二剪接供体和5'至所述第三二聚体化域的ISE，或其组合；

所述第三合成核酸分子还包含3'至所述第四二聚体化域和5'至所述第二分支点序列的ISE；和/或

所述第四合成核酸分子还包含3'至所述第五二聚体化域和5'至所述第三分支点序列的ISE、3'至所述第三剪接供体和5'至所述第五二聚体化域的DISE、3'至所述第三剪接供体和5'至所述第六二聚体化域的ISE，或其组合；

及它们的任何组合。

24.根据实施方案1至23中任一项所述的系统，其中当将所述系统引入细胞中时，产生RNA分子并以适当的顺序重组，从而产生所述靶蛋白的全长编码序列。

25.根据实施方案1至24中任一项所述的系统，其中所述合成第一、第二、第三和第四核酸分子中的每一个是单独病毒载体的一部分。

26.根据实施方案25所述的系统，其中所述病毒载体是AAV。

27.根据实施方案1至26中任一项所述的系统，其中

所述第一和/或第三合成核酸分子还包含位于3'至所述剪接供体任何位置的自切割RNA序列或RNA切割酶靶序列，使得其切割位于3'的多聚腺苷酸化尾以减少或抑制从非重组RNA分子的蛋白质片段表达；

所述第二和/或第四合成核酸分子还包含位于5'至所述分支点序列任何位置的自切割RNA序列或RNA切割酶靶序列，使得其切割位于5'的RNA帽以减少或抑制从非重组RNA分子的蛋白质片段表达；

所述第二和/或第四合成核酸分子还包含5'至所述分支点序列任何位置的起始密码子，其相对于所述剪接受体的开放阅读框3'移位以减少或抑制从非重组RNA分子翻译靶蛋白片段；

所述第一和/或第三合成核酸分子还包含3'至所述剪接供体任何位置的微RNA靶位点，使得未连接的RNA片段一旦在细胞核外就进行微RNA依赖性降解；

所述第二和/或第四合成核酸分子还包含微RNA靶位点，其位于3'至所述编码序列的任何位置，使得未连接的RNA片段一旦在细胞核外就进行微RNA依赖性降解；

所述第一和/或第三合成核酸分子还包含在3'至所述剪接供体任何位置的编码降解决定子蛋白质降解标签的序列，使得它与所述剪接供体位点的靶蛋白开放阅读框5'同框，因此未连接的蛋白质片段被标记为降解；

所述第二和/或第四合成核酸分子还包含起始密码子和5'至所述分支点序列任何位置的框内降解决定子蛋白降解标签，使得所述标签与所述剪接受体位点的靶蛋白开放阅读框3'同框，因此未连接的蛋白质片段被标记为降解；

或其组合。

28.根据实施方案1至27中任一项所述的系统，其中所述系统的任何一个、两个、三个或四个合成核酸分子各自的大小独立地选自：约2500nt至约5000nt、2,500nt至约2,750nt、约2,500nt至约3,000nt、约2,500nt至约3,250nt、约2,500nt至约3,500nt、约2,500nt至约3,750nt、约2,500nt至约4,000nt、约2,500nt至约4,250nt、约2,500nt至约4,500nt、约2,500nt至约4,750nt、约2,500nt至约5,000nt、约2,750nt至约3,000nt、约2,750nt至约3,250nt、约2,750nt至约3,500nt、约2,750nt至约3,750nt、约2,750nt至约4,000nt、约2,750nt至约4,250nt、约2,750nt至约4,500nt、约2,750nt至约4,750nt、约2,750nt至约5,000nt、约3,000nt至约3,250nt、约3,000nt至约3,500nt、约3,00nt至约3,750nt、约3,000nt至约4,000nt、约3,000nt至约4,250nt、约3,000nt至约4,500nt、约3,000nt至约4,750nt、约3,000nt至约5,000nt、约3,250nt至约3,500nt、约3,250nt至约3,750nt、约3,250nt至约4,000nt、约3,250nt至约4,250nt、约3,250nt至约4,500nt、约3,250nt至约4,750nt、约3,250nt至约5,00nt、约3,500nt至约3,750nt、约3,500nt至约4,000nt、约3,500nt至约4,250nt、约3,500nt至约4,500nt、约3,500nt至约4,750nt、约3,500nt至约5,000nt、约3,750nt至约4,000nt、约3,750nt至约4,250nt、约3,750nt至约4,500nt、约3,750nt至约4,750nt、约3,750nt至约5,000nt、约4,000nt至约4,250nt、约4,000nt至约4,500nt、约4,000nt至约4,750nt、约4,000nt至约5,000nt、约4,250nt至约4,500nt、约4,250nt至约4,750nt、约4,250nt至约5,000nt、约4,500nt至约4,750nt、约4,500nt至约5,000nt、约4,750nt至约5,000nt、约2,500nt、约2,750nt、约3,000nt、约3,250nt、约3,500nt、约3,750nt、约4,000nt、约4,250nt、约4,500nt、约4,750nt和约5,000nt。

29.根据实施方案1至28中任一项所述的系统，其中由所述系统合成核酸分子编码的所述靶蛋白N-端部分、所述靶蛋白中间部分或所述靶蛋白C-端部分的编码序列各自的大小独立地选自：约1000nt至约4000nt、约1,000nt至约1,500nt、约1,000nt至约2,000nt、约1,000nt至约2,500nt、约1,000nt至约3,000nt、约1,000nt至约3,500nt、约1,000nt至约4,000nt、约1,500nt至约2,000nt、约1,500nt至约2,500nt、约1,500nt至约3,000nt、约1,500nt至约3,500nt、约1,500nt至约4,000nt、约2,000nt至约2,500nt、约2,000nt至约3,000nt、约2,000nt至约3,500nt、约2,000nt至约4,000nt、约2,500nt至约3,000nt、约2,500nt至约3,500nt、约2,500nt至约4,000nt、约3,000nt至约3,500nt、约3,000nt至约4,000nt、约3,500nt至约4,000nt、约1,000nt、约1,500nt、约2,000nt、约2,500nt、约3,000nt、约3,500nt和约4,000nt。

30.根据实施方案1至29中任一项所述的系统，其中分别由所述系统的一个、两个、三个或四个合成核酸分子中任一种编码的任一个、两个、三个或四个RNA各自的大小独立地选自：约2500至4500nt、约2,500nt至约2,750nt、约2,500nt至约3,000nt、约2,500nt至约3,250nt、约2,500nt至约3,500nt、约2,500nt至约3,750nt、约2,500nt至约4,000nt、约2,500nt至约4,250nt、约2,500nt至约4,500nt、约2,750nt至约3,000nt、约2,750nt至约3,250nt、约2,750nt至约3,500nt、约2,750nt至约3,750nt、约2,750nt至约4,000nt、约2,750nt至约4,250nt、约2,750nt至约4,500nt、约3,000nt至约3,250nt、约3,000nt至约3,500nt、约3,000nt至约3,750nt、约3,000nt至约4,000nt、约3,000nt至约4,250nt、约3,000nt至约4,500nt、约3,250nt至约3,500nt、约3,250nt至约3,750nt、约3,250nt至约4,000nt、约3,250nt至约4,250nt、约3,250nt至约4,500nt、约3,500nt至约3,750nt、约3,500nt至约4,000nt、约3,500nt至约4,250nt、约3,500nt至约4,500nt、约3,750nt至约4,000nt、约3,750nt至约4,250nt、约3,750nt至约4,500nt、约4,000nt至约4,250nt、约4,000nt至约4,500nt、约4,250nt至约4,500nt、约2,500nt、约2,750nt、约3,000nt、约3,250nt、约3,500nt、约3,750nt、约4,000nt、约4,250nt和约4,500nt。

31.根据实施方案1和4至30中任一项所述的系统，其中：

所述合成核酸分子的总大小选自约5000nt至约10,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,000nt至约8,500nt、约5,000nt至约9,000nt、约5,000nt至约9,500nt、约5,000nt至约10,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500ntt，约5,500nt至约8,000nt、约5,500nt至约8,500nt、约5,500nt至约9,000nt、约5,500nt至约9,500nt、约5,500nt至约10,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,000nt至约8,500nt、约6,000nt至约9,000nt、约6,000nt至约9,500nt、约6,00nt至约10,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约6,500nt至约8,500nt、约6,500nt至约9,000nt、约6,500nt至约9,500nt、约6,500nt至约10,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,000nt至约8,500nt、约7,000nt至约9,000nt、约7,000nt至约9,500nt、约7,000nt至约10,000nt、约7,500nt至约8,000nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约7,500nt至约9,500nt、约7,500nt至约10,000nt、约8,000nt至约8,500nt、约8,000nt至约9,000nt、约8,000nt至约9,500nt、约8,000nt至约10,000nt、约8,500nt至约9,000nt、约8,500nt至约9,500nt、约8,500nt至约10,000nt、约9,000nt至约9,500nt、约9,000nt至约10,000nt、约9,500nt至约10,000nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt、约8,000nt、约8,500nt、约9,000nt、约9,500nt和约10,000nt；

所述总靶蛋白编码序列选自约2000nt至约8000nt、约2,000nt至约3,000nt、约2,000nt至约3,500nt、约2,000nt至约4,000nt、约2,000nt至约4,500nt、约2,000nt至约5,000nt、约2,000nt至约5,500nt、约2,000nt至约6,000nt、约2,000nt至约6,500nt、约2,000nt至约7,000nt、约2,000nt至约7,500nt、约2,000nt至约8,000nt、约3,000nt至约3,500nt、约3,000nt至约4,000nt、约3,000nt至约4,500nt、约3,000nt至约5,000nt、约3,000nt至约5,500nt、约3,000nt至约6,000nt、约3,000nt至约6,500nt、约3,000nt至约7,000nt、约3,000nt至约7,500nt、约3,000nt至约8,000nt、约3,500nt至约4,000nt、约3,500nt至约4,500nt、约3,500nt至约5,000nt、约3,500nt至约5,500nt、约3,500nt至约6,000nt、约3,500nt至约6,500nt、约3,500nt至约7,000nt、约3,500nt至约7,500nt、约3,500nt至约8,000nt、约4,000nt至约4,500nt、约4,000nt至约5,000nt、约4,000nt至约5,500nt、约4,000nt至约6,000nt、约4,000nt至约6,500nt、约4,000nt至约7,000nt、约4,000nt至约7,500nt、约4,000nt至约8,000nt、约4,500nt至约5,000nt、约4,500nt至约5,500nt、约4,500nt至约6,000nt、约4,500nt至约6,500nt、约4,500nt至约7,000nt、约4,500nt至约7,500nt、约4,500nt至约8,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt，或约7,500nt至约8,000nt。所述总靶蛋白编码序列为约2,000nt、约3,000nt、约3,500nt、约4,000nt、约4,500nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt、约8,000nt；和/或

由所述两个合成核酸分子编码RNA的总大小选自约5,000nt至约9,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,000nt至约8,500nt、约5,000nt至约9,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约5,500nt至约8,500nt、约5,500nt至约9,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,000nt至约8,500nt、约6,000nt至约9,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约6,500nt至约8,500nt、约6,500nt至约9,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,000nt至约8,500nt、约7,000nt至约9,000nt、约7,500nt至约8,000nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约8,000nt至约8,500nt、约8,000nt至约9,000nt，或约8,500nt至约9,000nt。由所述两个合成核酸分子编码RNA的总大小为约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt、约8,000nt、约8,500nt和约9,000nt。

32.根据实施方案2和4至30中任一项所述的系统，其中：

所述合成核酸分子的总大小选自约7500nt至约15,000nt、约7,500nt至约8,500nt、约7,500nt至约9,500nt、约7,500nt至约10,000nt、约7,500nt至约10,500nt、约7,500nt至约11,000nt、约7,500nt至约11,500nt、约7,500nt至约12,000nt、约7,500nt至约12,500nt、约7,500nt至约13,000nt、约7,500nt至约14,000nt、7,500nt至约15,000nt、约8,500nt至约9,500nt、约8,500nt至约10,000nt、约8,500nt至约10,500nt、约8,500nt至约11,000nt、约8,500nt至约11,500nt、约8,500nt至约12,000nt、约8,500nt至约12,500nt、约8,500nt至约13,000nt、约8,500nt至约14,000nt、约8,500nt至约15,000nt、约9,500nt至约10,000nt、约9,500nt至约10,500nt、约9,500nt至约11,000nt、约9,500nt至约11,500nt、约9,500nt至约12,000nt、约9,500nt至约12,500nt、约9,500nt至约13,000nt、约9,500nt至约14,000nt、约9,500nt至约15,000nt、约10,000nt至约10,500nt、约10,000nt至约11,000nt、约10,000nt至约11,500nt、约10,000nt至约12,000nt、约10,000nt至约12,500nt、约10,000nt至约13,000nt、约10,000nt至约14,000nt、约10,000nt至约15,000nt、约10,500nt至约11,000nt、约10,500nt至约11,500nt、约10,500nt至约12,000nt、约10,500nt至约12,500nt、约10,500nt至约13,000nt、约10,500nt至约14,00nt、约10,500nt至约15,000nt、约11,000nt至约11,500nt、约11,000nt至约12,000nt、约11,000nt至约12,500nt、约11,000nt至约13,000nt、约11,000nt至约14,000nt、约11,000nt至约15,000nt、约11,500nt至约12,000nt、约11,500nt至约12,500nt、约11,500nt至约13,000nt、约11,500nt至约14,000nt、约11,500nt至约15,000nt、约12,000nt至约12,500nt、约12,000nt至约13,000nt、约12,000nt至约14,000nt、12,000nt至约15,000nt、约12,500nt至约13,000nt、约12,500nt至约14,000nt、约12,500nt至约15,000nt、约13,000nt至约14,000nt、约13,000nt至约15,000nt，或约14,000nt至约15,000nt。所述合成核酸分子的总大小为约7,500nt、约8,500nt、约9,500nt、约10,000nt、约10,500nt、约11,000nt、约11,500nt、约12,000nt、约12,500nt、约13,000nt、约14,000nt和约15,000nt；

所述总靶蛋白编码序列选自约3,000nt至约12,000nt、约3,000nt至约4,000nt、约3,000nt至约5,000nt、约3,000nt至约6,000nt、约3,000nt至约7,000nt、约3,000nt至约7,500nt、约3,000nt至约8,000nt、约3,000nt至约8,500nt、约3,000nt至约9,000nt、约3,000nt至约10,000nt、约3,000nt至约11,000nt、约3,000nt至约12,000nt、约4,000nt至约5,000nt、约4,000nt至约6,000nt、约4,000nt至约7,000nt、约4,000nt至约7,500nt、约4,000nt至约8,000nt、约4,000nt至约8,500nt、约4,000nt至约9,000nt、约4,000nt至约10,000nt、约4,000nt至约11,000nt、约4,000nt至约12,000nt、约5,000nt至约6,000nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,000nt至约8,500nt、约5,000nt至约9,000nt、约5,000nt至约10,000nt、约5,000nt至约11,000nt、约5,000nt至约12,000nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,000nt至约8,500nt、约6,000nt至约9,000nt、约6,000nt至约10,000nt、约6,000nt至约11,000nt、约6,000nt至约12,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,000nt至约8,500nt、约7,000nt至约9,000nt、约7,000nt至约10,000nt、约7,000nt至约11,000nt、约7,000nt至约12,000nt、约7,500nt至约8,000nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约7,500nt至约10,000nt、约7,500nt至约11,000nt、约7,500nt至约12,000nt、约8,000nt至约8,500nt、约8,000nt至约9,000nt、约8,000nt至约10,000nt、约8,000nt至约11,000nt、约8,000nt至约12,000nt、约8,500nt至约9,000nt、约8,500nt至约10,000nt、约8,500nt至约11,000nt、约8,500nt至约12,000nt、约9,000nt至约10,000nt、约9,000nt至约11,000nt、约9,000nt至约12,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt，或约11,000nt至约12,000nt。所述总靶蛋白编码序列为约3,000nt、约4,000nt、约5,000nt、约6,000nt、约7,000nt、约7,500nt、约8,000nt、约8,500nt、约9,000nt、约10,000nt、约11,000nt和约12,000nt；和/或

由所述三种合成核酸分子编码RNA的总大小选自约7,500nt至约13,500nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约7,500nt至约9,500nt、约7,500nt至约10,000nt、约7,500nt至约10,500nt、约7,500nt至约11,000nt、约7,500nt至约11,500nt、约7,500nt至约12,000nt、约7,500nt至约12,500nt、约7,50nt至约13,000nt、约7,500nt至约13,500nt、约8,500nt至约9,000nt、约8,500nt至约9,500nt、约8,500nt至约10,000nt、约8,500nt至约10,500nt、约8,500nt至约11,000nt、约8,500nt至约11,500nt、约8,500nt至约12,000nt、约8,500nt至约12,500nt、约8,500nt至约13,000nt、约8,500nt至约13,500nt、约9,000nt至约9,500nt、约9,000nt至约10,000nt、约9,000nt至约10,500nt、约9,000nt至约11,000nt、约9,000nt至约11,500nt、约9,000nt至约12,000nt、约9,000nt至约12,500nt、约9,000nt至约13,000nt、约9,000nt至约13,500nt、约9,500nt至约10,000nt、约9,500nt至约10,500nt、约9,500nt至约11,000nt、约9,500nt至约11,500nt、约9,500nt至约12,000nt、约9,500nt至约12,500nt、约9,500nt至约13,000nt、约9,500nt至约13,500nt、约10,000nt至约10,500nt、约10,000nt至约11,000nt、约10,000nt至约11,500nt、约10,000nt至约12,000nt、约10,000nt至约12,500nt、约10,000nt至约13,000nt、约10,000nt至约13,500nt、约10,500nt至约11,000nt、约10,500nt至约11,500nt、约10,500nt至约12,000nt、约10,500nt至约12,500nt、约10,500nt至约13,000nt、约10,500nt至约13,500nt、约11,000nt至约11,500nt、约11,000nt至约12,000nt、约11,000nt至约12,500nt、约11,000nt至约13,000nt、约11,000nt至约13,500nt、约11,500nt至约12,000nt、约11,500nt至约12,500nt、约11,500nt至约13,000nt、约11,500nt至约13,500nt、约12,000nt至约12,500nt、约12,000nt至约13,000nt、约12,000nt至约13,500nt、约12,500nt至约13,000nt、约12,500nt至约13,500nt，或约13,000nt至约13,500nt。由所述两个合成核酸分子编码RNA的总大小约为7,500nt、约8,500nt、约9,000nt、约9,500nt、约10,000nt、约10,500nt、约11,000nt、约11,500nt、约12,000nt、约12,500nt、约13,000nt和约13,500nt。

33.根据实施方案3和4至30中任一项所述的系统，其中：

所述合成核酸分子的总大小选自约10,000nt至约20,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt、约10,000nt至约13,000nt、约10,000nt至约14,000nt、约10,000nt至约15,000nt、约10,000nt至约16,000nt、约10,000nt至约17,000nt、约10,000nt至约18,000nt、约10,000nt至约19,000nt、约10,000nt至约20,000、约11,000nt至约12,000nt、约11,000nt至约13,000nt、约11,000nt至约14,000nt、约11,000nt至约15,000nt、约11,000nt至约16,000nt、约11,000nt至约17,000nt、约11,000nt至约18,000nt、约11,000nt至约19,000nt、约11,000nt至约20,000nt、约12,000nt至约13,000nt、约12,000nt至约14,000nt、约12,000nt至约15,000nt、约12,000nt至约16,000nt、约12,000nt至约17,000nt、约12,000nt至约18,000nt、约12,000nt至约19,000nt、约12,000nt至约20,000nt、约13,000nt至约14,000nt、约13,000nt至约15,000nt、约13,000nt至约16,000nt、约13,000nt至约17,000nt、约13,000nt至约18,000nt、约13,000nt至约19,000nt、约13,000nt至约20,000nt、约14,000nt至约15,000nt、约14,000nt至约16,000nt、约14,000nt至约17,000nt、约14,000nt至约18,000nt、约14,000至约19,000nt、约14,000nt至约20,000nt、约15,000nt至约16,000nt、约15,000nt至约17,000nt、约15,000nt至约18,000nt、约15,000nt至约19,000nt、约15,000nt至约20,000nt、约16,000nt至约17,000nt、约16,000nt至约18,000nt、约16,000nt至约19,000nt、约16,000nt至约20,000nt、约17,000nt至约18,000nt、约17,000nt至约19,000nt、约17,000nt至约20,000nt、约18,000nt至约19,000nt、约18,000nt至约20,000nt，或约19,000nt至约20,000nt。所述合成核酸分子的总大小为约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt、约15,000nt、约16,000nt、约17,000nt、约18,000nt、约19,000nt和约20,000nt；

所述总靶蛋白编码序列选自约4000nt至约16,000nt、约5,000nt至约6,000nt、约5,000nt至约7,000nt、约5,000nt至约8,000nt、约5,000nt至约9,000nt、约5,000nt至约10,000nt、约5,000nt至约11,000nt、约5,000nt至约12,000nt、约5,000nt至约13,000nt、约5,000nt至约14,000nt、约5,000nt至约15,000nt、约5,000nt至约16,000nt、约6,000nt至约7,000nt、约6,000nt至约8,000nt、约6,000nt至约9,000nt、约6,000nt至约10,000nt、约6,000nt至约11,000nt、约6,000nt至约12,000nt、约6,000nt至约13,000nt、约6,000nt至约14,000nt、约6,000nt至约15,000nt、约6,000nt至约16,000nt、约7,000nt至约8,000nt、约7,000nt至约9,000nt、约7,000nt至约10,000nt、约7,000nt至约11,000nt、约7,000nt至约12,000nt、约7,000nt至约13,000nt、约7,000nt至约14,000nt、约7,000nt至约15,000nt、约7,000nt至约16,000nt、约8,000nt至约9,000nt、约8,000nt至约10,000nt、约8,000nt至约11,000nt、约8,000nt至约12,000nt、约8,000nt至约13,000nt、约8,000nt至约14,000nt、约8,000nt至约15,000nt、约8,000nt至约16,000nt、约9,000nt至约10,000nt、约9,000nt至约11,000nt、约9,000nt至约12,000nt、约9,000nt至约13,000nt、约9,000nt至约14,000nt、约9,000nt至约15,000nt、约9,000nt至约16,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt、约10,000nt至约13,000nt、约10,000nt至约14,000nt、约10,000nt至约15,000nt、约10,000nt至约16,000nt、约11,000nt至约12,000nt、约11,000nt至约13,000nt、约11,000nt至约14,000nt、约11,000nt至约15,000nt、约11,000nt至约16,000nt、约12,000nt至约13,000nt、约12,000nt至约14,000nt、约12,000nt至约15,000nt、约12,000nt至约16,000nt、约13,000nt至约14,000nt、约13,000nt至约15,000nt、约13,000nt至约16,000nt、约14,000nt至约15,000nt、约14,000nt至约16,000nt，或约15,000nt至约16,000nt。所述总靶蛋白编码序列为约5,000nt、约6,000nt、约7,000nt、约8,000nt、约9,000nt、约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt、约15,000nt，或约16,000nt。所述总靶蛋白编码序列为至少约5,000nt、约6,000nt、约7,000nt、约8,000nt、约9,000nt、约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt，和约15,000nt；和/或

由所述两个合成核酸分子编码RNA的总大小选自约10,000nt至约18,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt、约10,000nt至约13,000nt、约10,000nt至约14,000nt、约10,000nt至约15,000nt、约10,000nt至约16,000nt、约10,000nt至约17,000nt、约10,000nt至约18,000nt、约11,000nt至约12,000nt、约11,000nt至约13,000nt、约11,000nt至约14,000nt、约11,000nt至约15,000nt、约11,000nt至约16,000nt、约11,000nt至约17,000nt、约11,000nt至约18,000nt、约12,000nt至约13,000nt、约12,000nt至约14,000nt、约12,000nt至约15,000nt、约12,000nt至约16,000nt、约12,000nt至约17,000nt、约12,000nt至约18,000nt、约13,000nt至约14,000nt、约13,000nt至约15,000nt、约13,000nt至约16,000nt、约13,000nt至约17,000nt、约13,000nt至约18,000nt、约14,000nt至约15,000nt、约14,000nt至约16,000nt、约14,000nt至约17,000nt、约14,000nt至约18,000nt、约15,000nt至约16,000nt、约15,000nt至约17,000nt、约15,000nt至约18,000nt、约16,000nt至约17,000nt、约16,000nt至约18,000nt，或约17,000nt至约18,000nt。由所述两个合成核酸分子编码RNA的总大小为约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt、约15,000nt、约16,000nt、约17,000nt和约18,000nt。

34.根据实施方案1至33中任一项所述的系统，其中所述RNA重组效率为约10％至约95％、约10％至约20％、约10％至约30％、约10％至约35％、约10％至约40％、约10％至约45％、约10％至约50％、约10％至约55％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约20％至约30％、约20％至约35％、约20％至约40％、约20％至约45％、约20％至约50％、约20％至约55％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约30％至约35％、约30％至约40％、约30％至约45％、约30％至约50％、约30％至约55％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约35％至约40％、约35％至约45％、约35％至约50％、约35％至约55％、约35％至约60％、约35％至约70％、约35％至约80％、约35％至约90％、约40％至约45％、约40％至约50％、约40％至约55％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约45％至约50％、约45％至约55％、约45％至约60％、约45％至约70％、约45％至约80％、约45％至约90％、约50％至约55％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约55％至约60％、约55％至约70％、约55％至约80％、约55％至约90％、约60％至约70％、约60％至约80％、约60％至约90％、约70％至约80％、约70％至约90％、约80％至约90％、约10％、约20％、约30％、约35％、约40％、约45％、约50％、约55％、约60％、约70％、约80％，或约90％，或约95％。

35.根据实施方案1至34中任一项所述的系统，其中所述第一二聚体化域和所述第二二聚体化域、所述第三二聚体化域和所述第四二聚体化域，和/或所述第五二聚体化域和所述第六二聚体化域各自没有超过1000nt，例如至少50nt、至少100nt、至少150nt、至少200nt、至少300nt、至少400nt、至少500nt、50至1000nt、50至500nt、50至150nt、50、100、150、200、250、300、400或500nt；并且所述系统的重组效率为至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％或至少约95％。

36.根据实施方案1至35中任一项所述的系统，其中每个二聚体化域不超过1000nt，例如至少50nt、至少100nt、至少150nt、至少200nt、至少300nt、至少400nt、至少500nt、50至1000nt、50至500nt、50至150nt、50、100、150、200、250、300、400或500nt；并且所述系统的重组效率为至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％或至少90％。

37.一种组合物，包含根据实施方案1至36中任一项所述的系统。

38.一种组合物，包含根据实施方案1至37中任一项的RNA分子。

39.一种组合物，包含根据实施方案1至37中任一项的一个、两个、三个或四个RNA分子。

40.根据实施方案37至39中任一项所述的组合物，其中所述组合物包含第一、第二、第三和任选的第四合成核酸或RNA分子，各自编码抗肌萎缩蛋白、因子8、ABCA4或MYO7A的至少一部分。

41.一种根据实施方案1至36中任一项的RNA分子。

42.一种试剂盒，包含根据实施方案1至41中任一项所述的系统或实施方案37至40中任一项的组合物，其中所述合成第一、第二、第三和第四核酸分子的任一种可以在单独的容器中，并且任选地还包含缓冲剂，例如药学上的可接受的载体。

43.一种在细胞中表达靶蛋白的方法，包括：

将实施方案1至36中任一项所述的系统或实施方案35至37中任一项所述的组合物引入细胞中，并在所述细胞中表达所述合成第一和第二，第一、第二和第三，或第一、第二、第三和第四RNA分子，其中所述靶蛋白在所述细胞中产生。

44.根据实施方案43所述的方法，其中所述细胞在受试者中，并且引入包括向所述受试者施用治疗有效量的所述系统。

45.根据实施方案44所述的方法，其中所述方法治疗由所述受试者编码所述靶蛋白的基因突变引起的遗传疾病，其中所述方法能够表达所述受试者的功能性靶蛋白。

46.根据实施方案45所述的方法，其中

所述遗传疾病为杜氏肌营养不良症，所述靶蛋白为抗肌萎缩蛋白；

所述遗传疾病为A型血友病，所述靶蛋白为F8；

所述遗传疾病为斯塔加特病，所述靶蛋白为ABCA4；或者

所述遗传疾病是亚瑟综合征，所述靶蛋白是MYO7A。

47.一种核酸分子，包含与SEQ ID NO:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、145、146、147、148、155、156、157、158、159、160、161、162、163、164、165和166任一项中提供的合成内含子具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％的序列同一性。

48.根据实施方案47所述的核酸分子，其中所述合成内含子是SEQ ID NO:20的nt3703至3975、SEQ ID NO:21的nt 1至228、SEQ ID NO:22的nt 3703至3975、SEQ ID NO:23的nt 1至225、SEQ ID NO:24的nt 3560至3828，或SEQ ID NO:25的nt 1-225。

49.根据实施方案47或48所述的合成核酸分子，还包含蛋白质编码序列的一部分。

50.根据实施方案49所述的合成核酸分子，其中所述蛋白质编码序列的所述部分包含所述蛋白质编码序列的N-端半段、N-端三分之一段、中间部分、C-端半段或C-端三分之一段。

51.根据实施方案1至36中任一项的系统或根据实施方案37至40中任一项的组合物，其中至少一种合成核酸分子包含合成内含子，所述合成内含子包含如实施方案47至50中任一项的核酸分子。

52.根据任何前述实施方案所述的组合物、系统、方法或试剂盒，其中所述合成核酸是通过逆转录酶转录RNA病毒基因组产生的DNA。

Ⅶ.另外的示例性实施方案

1.一种用于表达靶蛋白的组合物，包含(a)第一RNA分子，所述RNA分子从5'至3'包含：(i)所述靶蛋白N-端部分的编码序列；(ii)剪接供体；(iii)第一二聚体化域；和(b)第二RNA分子，所述RNA分子从5'至3'包含：(i)第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；(v)所述靶蛋白C-端部分的编码序列。

2.一种用于表达靶蛋白的组合物，包含：(a)第一RNA分子，所述RNA分子从5'至3'包含：(i)所述靶蛋白N-端部分的编码序列；(ii)剪接供体；(iii)第一二聚体化域；和(b)第二RNA分子，所述RNA分子从5'至3'包含：(i)第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；(v)所述靶蛋白中间部分的编码序列；(vi)第二剪接供体；和(vii)第三二聚体化域；(c)第三RNA分子，所述RNA分子从5'至3'包含：(i)第四二聚体化域，其中所述第四二聚体化域与所述第三二聚体化域结合；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；(v)所述靶蛋白C-端部分的编码序列。

3.一种用于表达靶蛋白的组合物，包含(a)第一RNA分子，所述RNA分子从5'至3'包含：(i)所述靶蛋白N-端部分的编码序列，(ii)剪接供体；(iii)第一二聚体化域；和(b)第二RNA分子，所述RNA分子从5'至3'包含：(i)第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；(v)所述靶蛋白中间部分的编码序列；(vi)第二剪接供体；(vii)第三二聚体化域；以及(c)第三RNA分子，所述RNA分子从5'至3'包含：(i)第四二聚体化域，其中所述第四二聚体化域与所述第三二聚体化域结合；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；(v)所述靶蛋白第一中间部分的编码序列；(vi)第二剪接供体；(vii)第五二聚体化域；和(d)第四RNA分子，所述RNA分子从5'至3'包含：(i)第六二聚体化域，其中所述第六二聚体化域与所述第五二聚体化域结合；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；(v)所述靶蛋白C-端部分的编码序列。

4.根据实施方案1至3中任一项所述的组合物，其中所述第一和第二二聚体化域、第三和第四二聚体化域，和/或第五和第六二聚体化域通过直接结合、间接结合或其组合而结合。

5.根据权利要求4所述的组合物，其中直接结合或间接结合包括碱基配对相互作用、非规范碱基配对相互作用、非碱基配对相互作用或其组合。

6.根据权利要求4或5所述的组合物，其中直接结合包括吻式环之间或低多样性区域之间的碱基配对相互作用。

7.根据权利要求4或5所述的组合物，其中直接结合包括适体区域之间的非规范碱基配对相互作用、非规范碱基配对相互作用、非碱基配对相互作用或其组合。

8.根据权利要求4或5所述的组合物，其中间接结合包括通过核酸桥的碱基配对相互作用。

9.根据权利要求4或5所述的组合物，其中间接结合包括适体与适体靶试剂之间或两个适体之间的非碱基配对相互作用。

10.根据实施方案1至9中任一项所述的组合物，其中所述第一、第二、第三、第四、第五和/或第六二聚体化域不包含隐蔽剪接受体。

11.根据实施方案1至10中任一项所述的组合物，包含至少一对直接结合或间接结合的适体序列二聚体化域。

12.根据实施方案1至11中任一项所述的组合物，包含至少一对吻式环相互作用二聚体化域。

13.根据实施方案1至12中任一项所述的组合物，其中所述靶蛋白是与疾病相关的蛋白质或治疗性蛋白质。

14.根据实施方案13所述的组合物，其中所述疾病是单基因疾病。

15.根据实施方案14所述的组合物，其中所述治疗性蛋白质是毒素。

16.根据实施方案13至15中任一项所述的组合物，其中所述疾病和所述靶蛋白是表1中列出的疾病和靶蛋白。

17.根据实施方案1至16中任一项所述的组合物，其中所述第一、第二、第三和/或第四RNA分子还包括在所述第一、第二、第三或第四RNA分子的3'-末端处的多聚腺苷酸尾。

18.根据实施方案1或4至17中任一项所述的组合物，其中所述第一RNA分子还包含3'至所述剪接供体和5'至所述第一二聚体化域的下游内含子剪接增强子(DISE)、3'至所述剪接供体和5'至所述第一二聚体化域的内含子剪接增强子(ISE)的一种或两种；和/或

所述第二RNA分子还包含3'至所述第二二聚体化域和5'至所述分支点序列的ISE，以及3'至所述剪接供体和5'至所述二聚体化域的DISE中的一种或两种；

或它们的任何组合。

19.根据实施方案2或4至17中任一项所述的组合物，其中

所述第一RNA分子还包含3'至所述第一剪接供体和5'至所述第一二聚体化域的DISE、3'至所述第一剪接供体和5'至所述第一二聚体化域的ISE，或两者；

所述RNA分子还包含3'至所述第二二聚体化域和5'至所述第一分支点序列的ISE、3'至所述第二剪接供体和5'至所述第二二聚体化域的DISE、3'至所述第二剪接供体和5'至所述第三二聚体化域的ISE，或它们的任何组合；和/或

所述第三RNA分子还包含3'至所述第四二聚体化域和5'至所述第二分支点序列的ISE；

或它们的任何组合。

20.根据实施方案3至17中任一项所述的组合物，其中

所述第一RNA分子还包含3'至所述第一剪接供体和5'至所述第一二聚体化域DISE、3'至所述第一剪接供体和5'至所述第一二聚体化域的ISE，或两者；

所述第二RNA分子还包含3'至所述第二二聚体化域和5'至所述第一分支点序列的ISE、3'至所述第二剪接供体和5'至所述第二二聚体化域的DISE、3'至所述第二剪接供体和5'至所述第三二聚体化域的ISE，或它们的任何组合；

所述第三RNA分子还包含3'至所述第四二聚体化域和5'至所述第二分支点序列的ISE；和/或

所述第四RNA分子还包含3'至所述第五二聚体化域和5'至所述第三分支点序列的ISE、3'至所述第三剪接供体和5'至所述第五二聚体化域的DISE、3'至所述第三剪接供体和5'至所述第六二聚体化域的ISE，或它们的任何组合；

或它们的任何组合。

24.根据实施方案1至23中任一项所述的组合物，其中

所述第一和/或第三RNA分子还包含位于3'至所述剪接所述供体任何位置的自切割RNA序列或RNA切割酶靶序列，使得其切割位于3'的多聚腺苷酸化尾以降低或抑制从非重组RNA分子的蛋白质片段表达；

所述第二和/或第四RNA分子还包含位于5'至所述分支点序列任何位置的自切割RNA序列或RNA切割酶靶序列，使得其切割位于5'的RNA帽以减少或抑制从非重组RNA分子的蛋白质片段表达；

所述第二和/或第四RNA分子还包含5'至所述分支点序列任何位置的起始密码子，其相对于所述剪接受体的开放阅读框3'移位以减少或抑制从非重组RNA分子翻译靶蛋白片段；

所述第一和/或第三RNA分子还包含3'至所述剪接供体任何位置的微RNA靶位点，使得未连接的RNA片段一旦在细胞核外就进行微RNA依赖性降解；

所述第二和/或第四RNA分子还包含3'至所述编码序列任何位置的微RNA靶位点，使得未连接的RNA片段一旦在细胞核外就进行微RNA依赖性降解；

所述第一和/或第三RNA分子还包含在3'至所述剪接供体任何位置的编码降解决定子蛋白质降解标签的序列，使得其与所述剪接供体位点的靶蛋白开放阅读框5'同框，因此未连接的蛋白质片段被标记为降解；

所述第二和/或第四RNA分子还包含起始密码子和5'至所述分支点序列任何位置的框内降解决定子蛋白降解标签，使得所述标签与所述剪接受体位点的靶蛋白开放阅读框3'同框，因此未连接的蛋白质片段被标记为降解；

或它们的任何组合。

25.一种用于表达靶蛋白的组合物，包含：(a)第一合成DNA分子，编码实施方案1和4至24中任一项所述的第一RNA分子，其中所述第一合成DNA分子包含(i)与编码所述第一RNA分子的序列可操作连接的第一启动子；和(b)第二合成DNA分子，编码实施方案1和4至24中任一项所述的第二RNA分子，其中所述第二合成DNA分子包含(i)与编码所述第二RNA分子的序列可操作连接的第二启动子。

26.一种用于表达靶蛋白的组合物，包含：(a)第一合成DNA分子，编码实施方案2和4至24中任一项所述的第一RNA分子，其中所述第一合成DNA分子包含(i)与编码所述第一RNA分子的序列可操作连接的第一启动子；(b)第二合成DNA分子，编码实施方案2和4至24中任一项所述的第二RNA分子，其中所述第二合成DNA分子包含(i)与编码所述第二RNA分子的序列可操作连接的第二启动子；以及(c)第三合成DNA分子，编码实施方案2和4至24中任一项所述的第三RNA分子，其中所述第三合成DNA分子包含(i)与编码所述第三RNA分子的序列可操作连接的第三启动子。

27.一种用于表达靶蛋白的组合物，包含：(a)第一合成DNA分子，编码实施方案3和4至24中任一项所述的第一RNA分子，其中所述第一合成DNA分子包含(i)与编码所述第一RNA分子的序列可操作连接的第一启动子；(b)第二合成DNA分子，编码实施方案3和4至24中任一项所述的第二RNA分子，其中所述第二合成DNA分子包含(i)与编码所述第二RNA分子的序列可操作连接的第二启动子；(c)第三合成DNA分子，编码实施方案3和4至24中任一项所述的第三RNA分子，其中所述第三合成DNA分子包含(i)与编码所述第三RNA分子的序列可操作连接的第三启动子；以及(d)第四合成DNA分子，编码实施方案3和4至24中任一项所述的第四RNA分子，其中所述第四合成DNA分子包含(i)与编码所述第四RNA分子的序列可操作连接的第四启动子。

28.根据实施方案25至27中任一项所述的组合物，其中每个启动子是独立选择的。

29.根据实施方案25至28中任一项所述的组合物，其中：

所述第一和第二启动子是相同启动子；

所述第一和第二启动子是不同启动子；

所述第一、第二、第三启动子是相同启动子；

所述第一、第二、第三启动子是不同启动子；

所述第一、第二、第三、第四启动子是相同启动子；或者

所述第一、第二、第三和第四启动子是不同启动子。

30.根据实施方案25至29中任一项所述的组合物，其中所述第一、第二、第三和第四启动子中的每一个独立地选自：组成型启动子、组织特异性启动子，和所述靶蛋白内源性的启动子。

31.一种用于表达靶蛋白的系统，包含实施方案25至30中任一项的组合物。

32.根据实施方案31所述的系统，其中当将所述系统引入细胞中时，产生所述RNA分子并以适当的顺序重组，从而产生所述靶蛋白的全长编码序列。

33.根据实施方案31或32所述的系统，其中所述第一和第二RNA分子(在两部分系统中)中的每一个，所述第一、第二和第三RNA分子(在三部分系统中)中的每一个，或所述第一、第二、第三和第四RNA分子(在四部分系统中)中的每一个从单独的病毒载体转录。

34.根据实施方案31至33中任一项所述的系统，其中所述病毒载体是AAV。

35.根据实施方案31至34中任一项所述的系统，其中所述系统的第一、第二、第三或第四合成DNA分子的大小各自独立地选自：约2500nt至约5000nt、2,500nt至约2,750nt、约2,500nt至约3,000nt、约2,500nt至约3,250nt、约2,500nt至约3,500nt、约2,500nt至约3,750nt、约2,500nt至约4,000nt、约2,500nt至约4,250nt、约2,500nt至约4,500nt、约2,500nt至约4,750nt、约2,500nt至约5,000nt、约2,750nt至约3,000nt、约2,750nt至约3,250nt、约2,750nt至约3,500nt、约2,750nt至约3,750nt、约2,750nt至约4,000nt、约2,750nt至约4,250nt、约2,750nt至约4,500nt、约2,750nt至约4,750nt、约2,750nt至约5,000nt、约3,000nt至约3,250nt、约3,000nt至约3,500nt、约3,000nt至约3,750nt、约3,000nt至约4,000nt、约3,000nt至约4,250nt、约3,000nt至约4,500nt、约3,000nt至约4,750nt、约3,000nt至约5,000nt、约3,250nt至约3,500nt、约3,250nt至约3,750nt、约3,250nt至约4,000nt，约3,250nt至约4,250nt、约3,250nt至约4,500nt、约3,250nt至约4,750nt、约3,250nt至约5,000nt、约3,500nt至约3,750nt、约3,500nt至约4,000nt、约3,500nt至约4,250nt、约3,500nt至约4,500nt、约3,500nt至约4,750nt、约3,500nt至约5,000nt、约3,750nt至约4,000nt、约3,750nt至约4,250nt、约3,750nt至约4,500nt、约3,750nt至约4,750nt、约3,750nt至约5,000nt、约4,000nt至约4,250nt、约4,000nt至约4,500nt、约4,000nt至约4,750nt、约4,000nt至约5,000nt、约4,250nt至约4,500nt、约4,250nt至约4,750nt、约4,250nt至约5,000nt、约4,500nt至约4,750nt、约4,500nt至约5,000nt、约4,750nt至约5,000nt、约2,500nt、约2,750nt、约3,000nt、约3,250nt、约3,500nt、约3,750nt、约4,000nt、约4,250nt、约4,500nt、约4,750nt和约5,000nt。

36.根据实施方案31至35中任一项所述的系统，其中由所述系统合成DNA分子编码的所述靶蛋白的N-端部分(在两、三或四部分系统中)、所述靶蛋白的中间部分(在三部分系统)、所述靶蛋白的第一中间部分(在四部分系统中)，或所述靶蛋白的C-端部分(在两、三或四部分系统中)的编码序列的大小各自独立地选自：每个的大小独立地选自以下：约1,000nt至约4,500nt。每个的大小具有独立地选自：约1,000nt至约1,500nt、约1,000nt至约2,000nt、约1,000nt至约2,500nt、约1,000nt至约3,000nt、约1,000nt至约3,500nt、约1,000nt至约4,000nt、约1,000nt至约4,500nt、约1,500nt至约2,000nt、约1,500nt至约2,500nt、约1,500nt至约3,000nt、约1,500nt至约3,500nt、约1,500nt至约4,000nt、约1,500nt至约4,500nt、约2,000nt至约2,500nt、约2,000nt至约3,000nt、约2,000nt至约3,500nt、约2,000nt至约4,000nt、约2,000nt至约4,500nt、约2,500nt至约3,000nt、约2,500nt至约3,500nt、约2,500nt至约4,000nt、约2,500nt至约4,500nt、约3,000nt至约3,500nt、约3,000nt至约4,000nt、约3,000nt至约4,500nt、约3,500nt至约4,000nt、约3,500nt至约4,500nt、约4,000nt至约4,500nt、约1,000nt、约1,500nt、约2,000nt、约2,500nt、约3,000nt、约3,500nt、约4,000nt，或约4,500nt。

37.根据实施方案31至36中任一项所述的系统，其中分别由所述系统的一个、两个、三个或四个合成DNA分子中的任一种编码的任一个、两个、三个或四个RNA分子的大小各自独立地选自：约2500至4500nt、约2,500nt至约2,750nt、约2,500nt至约3,000nt、约2,500nt至约3,250nt、约2,500nt至约3,500nt、约2,500nt至约3,750nt、约2,500nt至约4,000nt、约2,500nt至约4,250nt、约2,500nt至约4,500nt、约2,750nt至约3,000nt、约2,750nt至约3,250nt、约2,750nt至约3,500nt、约2,750nt至约3,750nt、约2,750nt至约4,000nt、约2,750nt至约4,250nt、约2,750nt至约4,500nt、约3,000nt至约3,250nt、约3,000nt至约3,500nt、约3,000nt至约3,750nt、约3,000nt至约4,000nt、约3,000nt至约4,250nt、约3,000nt至约4,500nt、约3,250nt至约3,500nt、约3,250nt至约3,750nt、约3,250nt至约4,000nt、约3,250nt至约4,250nt、约3,250nt至约4,500nt、约3,500nt至约3,750nt、约3,500nt至约4,000nt、约3,500nt至约4,250nt、约3,500nt至约4,500nt、约3,750nt至约4,000nt、约3,750nt至约4,250nt、约3,750nt至约4,500nt、约4,000nt至约4,250nt、约4,000nt至约4,500nt、约4,250nt至约4,500nt、约2,500nt、约2,750nt、约3,000nt、约3,250nt、约3,500nt、约3,750nt、约4,000nt、约4,250nt，和约4,500nt。

38.根据实施方案31至37中任一项所述的系统，所述系统包含实施方案25和28至30中的组合物，其中：

所述第一和第二合成DNA分子的总大小选自约5000nt至约10,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,000nt至约8,500nt、约5,000nt至约9,000nt、约5,000nt至约9,500nt、约5,000nt至约10,000、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约5,500nt至约8,500nt、约5,500nt至约9,000nt、约5,500nt至约9,500nt、约5,500nt至约10,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,000nt至约8,500nt、约6,000nt至约9,000nt、约6,000nt至约9,500nt、约6,000nt至约10,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约6,500nt至约8,500nt、约6,500nt至约9,000nt、约6,500nt至约9,500nt、约6,500nt至约10,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,000nt至约8,500nt、约7,000nt至约9,000nt、约7,000nt至约9,500nt、约7,000nt至约10,000nt、约7,500nt至约8,000nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约7,500nt至约9,500nt、约7,500nt至约10,000nt、约8,000nt至约8,500nt、约8,000nt至约9,000nt、约8,000nt至约9,500nt、约8,000nt至约10,000nt、约8,500nt至约9,000nt、约8,500nt至约9,500nt、约8,500nt至约10,000nt、约9,000nt至约9,500nt、约9,000nt至约10,000nt、约9,500nt至约10,000nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt、约8,000nt、约8,500nt、约9,000nt、约9,500和约10,000nt；

所述总靶蛋白编码序列的大小选自约2000nt至约8000nt、约2,000nt至约3,000nt、约2,000nt至约3,500nt、约2,000nt至约4,000nt、约2,000nt至约4,500nt、约2,000nt至约5,000nt、约2,000nt至约5,500nt、约2,000nt至约6,000nt、约2,000nt至约6,500nt、约2,000nt至约7,000nt、约2,000nt至约7,500nt、约2,000nt至约8,000nt、约3,000nt至约3,500nt、约3,000nt至约4,000nt、约3,000nt至约4,500nt、约3,000nt至约5,000nt、约3,000nt至约5,500nt、约3,000nt至约6,000nt、约3,000nt至约6,500nt、约3,000nt至约7,000nt、约3,000nt至约7,500nt、约3,000nt至约8,000nt、约3,500nt至约4,000nt、约3,500nt至约4,500nt、约3,500nt至约5,000nt、约3,500nt至约5,500nt、约3,500nt至约6,000nt、约3,500nt至约6,500nt、约3,500nt至约7,000nt、约3,500nt至约7,500nt、约3,500nt至约8,000nt、约4,000nt至约4,500nt、约4,000nt至约5,000nt、约4,000nt至约5,000nt、约4,000nt至约6,000nt、约4,000nt至约6,500nt、约4,000nt至约7,000nt、约4,000nt至约7,500nt、约4,000nt至约8,000nt、约4,500nt至约5,000nt、约4,500nt至约5,500nt、约4,500nt至约6,000nt、约4,500nt至约6,500nt、约4,500nt至约7,000nt、约4,500nt至约7,500nt、约4,500nt至约8,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt，或约7,500nt至约8,000nt。所述总靶蛋白编码序列为约2,000nt、约3,000nt、约3,500nt、约4,000nt、约4,500nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt、约8,000nt；和/或

由所述两个合成DNA分子编码RNA分子的总大小为约5,000nt至约9,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,000nt至约8,500nt、约5,000nt至约9,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约5,500nt至约8,500nt、约5,500nt至约9,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,000nt至约8,500nt、约6,000nt至约9,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约6,500nt至约8,500nt、约6,500nt至约9,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,000nt至约8,500nt、约7,000nt至约9,000nt、约7,500nt至约8,000nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约8,000nt至约8,500nt、约8,000nt至约9,000nt、约8,500nt至约9,000nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt、约8,000nt、约8,500nt，或约9,000nt。

39.根据实施方案31至36中任一项所述的系统，所述系统包含根据实施方案26和28至30中任一项所述的组合物，其中：

所述第一、第二和第三合成DNA分子的总大小为约7500nt至约15,000nt、约7,500nt至约8,500nt、约7,500nt至约9,500nt、约7,500nt至约10,000nt、约7,500nt至约10,500nt、约7,500nt至约11,000nt、约7,500nt至约11,500nt、约7,500nt至约12,000nt、约7,500nt至约12,500nt、约7,500nt至约13,000nt、约7,500nt至约14,000nt、约7,500nt至约15,000nt、约8,500nt至约9,500nt、约8,500nt至约10,000nt、约8,500nt至约10,500nt、约8,500nt至约11,000nt、约8,500nt至约11,500nt、约8,500nt至约12,000nt、约8,500nt至约12,500nt、约8,500nt至约13,000nt、约8,500nt至约14,000nt、约8,500nt至约15,000nt、约9,500nt至约10,000nt、9,500nt至约10,500nt、约9,500nt至约11,000nt、约9,500nt至约11,500nt、约9,500nt至约12,000nt、约9,500nt至约12,500nt、约9,500nt至约13,000nt、约9,500nt至约14,000nt、约9,500nt至约15,000nt、约10,000nt至约10,500nt、约10,000nt至约11,000nt、约10,000nt至约11,500nt、约10,000nt至约12,000nt、约10,000nt至约12,500nt、约10,000nt至约13,000nt、约10,000nt至约14,000nt、约10,000nt至约15,000nt、约10,500nt至约11,000nt、约10,500nt至约11,500nt、约10,500nt至约12,000nt、约10,500nt至约12,500nt、约10,500nt至约13,000nt、约10,500nt至约14,000nt、约10,500nt至约15,000nt、约11,000nt至约11,500nt、约11,000nt至约12,000nt、约11,000nt至约12,500nt、约11,000nt至约13,000nt、约11,000nt至约14,000nt、约11,000nt至约15,000nt、约11,500nt至约12,000nt、约11,500nt至约12,500nt、约11,500nt至约13,000nt、约11,500nt至约14,000nt、约11,500nt至约15,000nt、约12,000nt至约12,500nt、约12,000nt至约13,000nt、约12,000nt至约14,000nt、约12,000nt至约15,000nt、约12,500nt至约13,000nt、约12,500nt至约14,000nt、约12,500nt至约15,000nt、约13,000nt至约14,000nt、约13,000nt至约15,000nt，或约14,000nt至约15,000nt、约7,500nt、约8,500nt、约9,500nt、约10,000nt、约10,500nt、约11,000nt、约11,500nt、约12,000nt、约12,500nt、约13,000nt、约14,000nt，或约15,000nt；

所述总靶蛋白编码序列为约3,000nt至约12,000nt、约3,000nt至约4,000nt、约3,000nt至约5,000nt、约3,000nt至约6,000nt、约3,000nt至约7,000nt、约3,000nt至约7,500nt、约3,000nt至约8,000nt、约3,000nt至约8,500nt、约3,000nt至约9,000nt、约3,000nt至约10,000nt、约3,000nt至约11,000nt、约3,000nt至约12,000nt、约4,000nt至约5,000nt、约4,000nt至约6,000nt、约4,000nt至约7,000nt、约4,000nt至约7,500nt、约4,000nt至约8,000nt、约4,000nt至约8,500nt、约4,000nt至约9,000nt、约4,000nt至约10,000nt、约4,000nt至约11,000nt、约4,000nt至约12,000nt、约5,000nt至约6,000nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,000nt至约8,500nt、约5,000nt至约9,000nt、约5,000nt至约10,000nt、约5,000nt至约11,000nt、约5,000nt至约12,000nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,000nt至约8,500nt、约6,000nt至约9,000nt、约6,000nt至约10,000nt、约6,000nt至约11,000nt、约6,000nt至约12,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,000nt至约8,500nt、约7,000nt至约9,000nt、约7,000nt至约10,000nt、约7,000nt至约11,000nt、约7,000nt至约12,000nt、约7,500nt至约8,000nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约7,500nt至约10,000nt、约7,500nt至约11,000nt、约7,500nt至约12,000nt、约8,000nt至约8,500nt、约8,000nt至约9,000nt、约8,000nt至约10,000nt、约8,000nt至约11,000nt、约8,000nt至约12,000nt、约8,500nt至约9,000nt、约8,500nt至约10,000nt、约8,500nt至约11,000nt、约8,500nt至约12,000nt、约9,000nt至约10,000nt、约9,000nt至约11,000nt、约9,000nt至约12,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt、约11,000nt至约12,000nt、约3,000nt、约4,000nt、约5,000nt、约6,000nt、约7,000nt、约7,500nt、约8,000nt、约8,500nt、约9,000nt、约10,000nt、约11,000nt或约12,000nt；和/或

由所述三个合成DNA分子编码RNA分子的总大小为约7500nt至约13,500nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约7,500nt至约9,500nt、约7,500nt至约10,000nt、约7,500nt至约10,500nt、约7,500nt至约11,000nt、约7,500nt至约11,500nt、约7,500nt至约12,000nt、约7,500nt至约12,500nt、约7,500nt至13,000nt、约7,500nt至约13,500nt、约8,500nt至约9,000nt、约8,500nt至约9,500nt、约8,500nt至约10,000nt、约8,500nt至约10,500nt、约8,500nt至约10,000nt、约8,500nt至约11,500nt、约8,500nt至约12,000nt、约8,500nt至约12,500nt、约8,500nt至约13,000nt、约8,500nt至约13,500nt、约9,000nt至约9,500nt、约9,000nt至约10,000nt、约9,000nt至约10,500nt、约9,000nt至约11,000nt、约9,000nt至约11,500nt、约9,000nt至约12,000nt、约9,000nt至约12,500nt、约9,000nt至约13,000nt、约9,000nt至约13,500nt、约9,500nt至约10,000nt、约9,500nt至约10,500nt、约9,500nt至约11,000nt、约9,500nt至约11,500nt、约9,500nt至约12,000nt、约9,500nt至约12,500nt、约9,500nt至约13,000nt、约9,500nt至约13,500nt、约10,000nt至约10,500nt、约10,000nt至约11,000nt、约10,000nt至约11,500nt、约10,000nt至约12,000nt、约10,000nt至约12,500nt、约10,000nt至约13,000nt、约10,000nt至约13,500nt、约10,500nt至约11,000nt、约10,500nt至约11,500nt、约10,500nt至约12,000nt、约10,500nt至约12,500nt、约10,500nt至约13,000nt、约10,500nt至约13,500nt、约11,000nt至约11,500nt、约11,000nt至约12,000nt、约11,000nt至约12,500nt、约11,000nt至约13,000nt、约11,000nt至约13,500nt、约11,500nt至约12,000nt、约11,500nt至约12,500nt、约11,500nt至约13,500nt、约12,000nt至约12,500nt、约12,000nt至约13,000nt、约12,000nt至约13,500nt、约12,500nt至约13,000nt、约12,500nt至约13,500nt、约13,000nt至约13,500nt、约7,500nt、约8,500nt、约9,000nt、约9,500nt、约10,000nt、约10,500nt、约11,000nt、约11,500nt、约12,000nt、约12,500nt、约13,000nt，或约13,500nt。

40.根据实施方案31至36中任一项所述的系统，所述系统包含根据实施方案27和28至30中任一项所述的组合物，其中：

所述第一、第二、第三和第四合成DNA分子的总大小为约10,000nt至约20,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt、约10,000nt至约13,000nt、约10,000约14,000nt、约10,000nt至约15,000nt、约10,000nt至约16,000nt、约10,000nt至约17,000nt、约10,000nt至约18,000nt、约10,000nt至约19,000nt、约10,000nt至约20,000nt、约11,000nt至约12,000nt、约11,000nt至约13,000nt、约11,000nt至约14,000nt、约11,000nt至约15,000nt、约11,000nt至约16,000nt、约11,000nt至约17,000nt、约11,000nt至约18,000nt、约11,000nt至约19,000nt、约11,000nt至约20,000nt、约12,000nt至约13,000nt、约12,000nt至约14,000nt、约12,000nt至约15,000nt、约12,000nt至约16,000nt、约12,000nt至约17,000nt、约12,000nt至约18,000nt、约12,000nt至约19,000nt、约12,000nt至约20,000nt、约13,000nt至约14,000nt、约13,000nt至约15,000nt、约13,000nt至约16,000nt、约13,000nt至约17,000nt、约13,000nt至约18,000nt、约13,000nt至约19,000nt、约13,000nt至约20,000nt、约14,000nt至约15,000nt、约14,000nt至约16,000nt、约14,000nt至约17,000nt、约14,000nt至约18,000nt、约14,000nt至约19,000nt、约14,000nt至约20,000nt、约15,000nt至约16,000nt、约15,000nt至约17,000nt、约15,000nt至约18,000nt、约15,000nt至约19,000nt、约15,000nt至约20,000nt、约16,000nt至约17,000nt、约16,000nt至18,000nt、约16,000nt至约19,000nt、约16,000nt至约20,000nt、约17,000nt至约18,000nt、约17,000nt至约19,000nt、约17,000nt至约20,000nt、约18,000nt至约19,000nt、约18,000nt至约20,000nt、约19,000nt至约20,000nt、约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt、约15,000nt、约16,000nt、约17,000nt、约18,000nt、约19,000nt，或约20,000nt；

所述总靶蛋白编码序列为约4000nt至约16,000nt、约5,000nt至约6,000nt、约5,000nt至约7,000nt、约5,000nt至约8,000nt、约5,000nt至约9,000nt、约5,000nt至约10,000nt、约5,000nt至约11,000nt、约5,000nt至约12,000nt、约5,000nt至约13,000nt、约5,000nt至约14,000nt、约5,000nt至约15,000nt、约5,000nt至约16,000nt、约6,000nt至约7,000nt、约6,000nt至约8,000nt、约6,000nt至约9,000nt、约6,000nt至约10,000nt、约6,000nt至约11,000nt、约6,000nt至约12,000nt、约6,000nt至约13,000nt、约6,000nt至约14,000nt、约6,000nt至约15,000nt、约6,000nt至约16,000nt、约7,000nt至约8,000nt、约7,000nt至约9,000nt、7,000nt至约10,000nt、约7,000nt至约11,000nt、约7,000nt至约12,000nt、约7,000nt至约13,000nt、约7,000nt至约14,000nt、约7,000nt至约15,000nt、约7,000nt至约16,000nt、约8,000nt至约9,000nt、约8,000nt至约10,000nt、约8,000nt至约11,000nt、约8,000nt至约12,000nt、约8,000nt至约13,000nt、约8,000nt至约14,000nt、约8,000nt至约15,000nt、约8,000nt至约16,000nt、约9,000nt至约10,000nt、约9,000nt至约11,000nt、约9,000nt至约12,000nt、约9,000nt至约13,000nt、约9,000nt至约14,000nt、约9,000nt至约15,000nt、约9,000nt至约16,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt、约10,000nt至约13,000nt、约10,000nt至约14,000nt、约10,000nt至约15,000nt、约10,000nt至约16,000nt、约11,000nt至约12,000nt、约11,000nt至约13,000nt、约11,000nt至约14,000nt、约11,000nt至约15,000nt，约11,000nt至约16,000nt、约12,000nt至约13,000nt、约12,000nt至约14,000nt、约12,000nt至约15,000nt、约12,000nt至约16,000nt、约13,000nt至约14,000nt、约13,000nt至约15,000nt、约13,000nt至约16,000nt、约14,000nt至约15,000nt、约14,000nt至约16,000nt，或约15,000nt至约16,000nt。所述总靶蛋白编码序列为约5,000nt、约6,000nt、约7,000nt、约8,000nt、约9,000nt、约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt、约15,000nt、约16,000nt、约5,000nt、约6,000nt、约7,000nt、约8,000nt、约9,000nt、约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt，或约15,000nt；和/或

由所述四个合成DNA编码RNA分子的总大小为约10,000nt至约18,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt、约10,000nt至约13,000nt、约10,000nt至约14,000nt、约10,000nt至约15,000nt、约10,000nt至约16,000nt、约10,000nt至约17,000nt、约10,000nt至约18,000nt、约11,000nt至约12,000nt、约11,000nt至约13,000nt、约11,000nt至约14,000nt、约11,000nt至约15,000nt、约11,000nt至约16,000nt、约11,000nt至约17,000nt、约11,000nt至约18,000nt、约12,000nt至约13,000nt、约12,000nt至约14,000nt、约12,000nt至约15,000nt、约12,000nt至约16,000nt、约12,000nt至约17,000nt、约12,000nt至约18,000nt、约13,000nt至约14,000nt、约13,000nt至约15,000nt、约13,000nt至约16,000nt、约13,000nt至约17,000nt、约13,000nt至约18,000nt、约14,000nt至约15,000nt、约14,000nt至约16,000nt、约14,000nt至约17,000nt、约14,000nt至约18,000nt、约15,000nt至约16,000nt、约15,000nt至约17,000nt、约15,000nt至约18,000nt、约16,000nt至约17,000nt、约16,000nt至约18,000nt、约17,000nt至约18,000nt、约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt、约15,000nt、约16,000nt、约17,000nt或约18,000nt。

41.根据实施方案31至40中任一项所述的系统，其中所述第一二聚体化域和所述第二二聚体化域、所述第三二聚体化域和所述第四二聚体化域，和/或所述第五二聚体化域和所述第六二聚体化域各自没有超过1000nt，例如至少50nt、至少100nt、至少150nt、至少200nt、至少300nt、至少400nt、至少500nt、50至1000nt、50至500nt、50至150nt、50、100、150、200、250、300、400或500nt；并且所述系统的重构效率为至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％，或约100％。

42.根据实施方案31至41中任一项所述的系统，其中每个二聚体化域不超过1000nt，例如至少50nt、至少100nt、至少150nt、至少200nt、至少300nt、至少400nt、至少500nt、50至1000nt、50至500nt、50至150nt、50、100、150、200、250、300、400或500nt；并且所述系统的重组效率为至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少90％，或约100％。

43.根据实施方案31至42中任一项所述的系统，其中所述RNA重组效率为约10％至约100％、约10％至约20％、约10％至约30％、约10％至约35％、约10％至约40％、约10％至约45％、约10％至约50％、约10％至约55％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约20％至约30％、约20％至约35％、约20％至约40％、约20％至约45％、约20％至约50％、约20％至约55％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约30％至约35％、约30％至约40％、约30％至约45％、约30％至约50％、约30％至约55％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约35％至约40％、约35％至约45％、约35％至约50％、约35％至约55％、约35％至约60％、约35％至约70％、约35％至约80％、约35％至约90％、约40％至约45％、约40％至约50％、约40％至约55％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约45％至约50％、约45％至约55％、约45％至约60％、约45％至约70％、约45％至约80％、约45％至约90％、约50％至约55％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约55％至约60％、约55％至约70％、约55％至约80％、约55％至约90％、约60％至约70％、约60％至约80％、约60％至约90％、约70％至约80％、约70％至约90％、约80％至约90％、约10％、约20％、约30％、约35％、约40％、约45％、约50％、约55％、约60％、约70％、约80％、约90％、约95％或约100％。

44.一种组合物，包含实施方案31至43中任一项的系统。

45.根据实施方案44所述的组合物，其中所述组合物包含第一、第二、第三和任选的第四RNA分子，各自编码抗肌萎缩蛋白、因子8、ABCA4或MYO7A的至少一部分。

46.一种试剂盒，包含实施方案31至43中任一项所述的系统或实施方案44和45中任一项所述的组合物，其中所述合成第一、第二、第三和第四核酸分子中的任一种可以在单独的容器中，并且任选地还包含缓冲剂，例如药学上可接受的载体。

47.一种在细胞中表达靶蛋白的方法，包括：

将实施方案31至43中任一项所述的系统或实施方案44和45中任一项所述的组合物引入细胞中，并在所述细胞中表达所述第一和第二，第一、第二和第三，或第一、第二、第三和第四RNA分子，其中所述靶蛋白在所述细胞中产生。

48.根据实施方案47所述的方法，其中所述细胞在受试者中，并且引入包括向所述受试者施用治疗有效量的所述系统。

49.根据实施方案48所述的方法，其中所述方法治疗由编码所述靶蛋白的所述受试者基因突变引起的遗传疾病，其中所述方法能够使功能性靶蛋白在所述受试者中表达。

50.根据实施方案49所述的方法，其中

所述遗传疾病为A型血友病，所述靶蛋白为F8；

所述遗传疾病为斯塔加特病，所述靶蛋白为ABCA4；或者

所述遗传疾病是亚瑟综合征，所述靶蛋白是MYO7A。

51.根据实施方案31至43中任一项的系统，实施方案1至24、44和45中任一项的组合物，实施方案46的试剂盒或实施方案47至50中任一项的方法，其中一个、两个、三个或四个RNA分子包含与SEQ ID NO:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、145、146、147、148、155、156、157、158、159、160、161、162、163、164、165和166中任一项中提供合成内含子的至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％的序列同一性。

52.根据实施方案31至43和51中任一项的系统，实施方案1-24、44和45中任一项的组合物，实施方案46的试剂盒或实施方案47至50中任一项的方法，其中一个、两个、三个或四个RNA分子包含选自以下的合成内含子：SEQ ID NO:20的nt 3703至3975、SEQ ID NO:21的nt 1至228、SEQ ID NO:22的nt 3703至3975、SEQ ID NO:23的nt 1至225、SEQ ID NO:24的nt 3560至3828和SEQ ID NO:25的nt 1-225。

53.根据实施方案31至43、51和52中任一项的系统，实施方案1至24、44和45中任一项的组合物，或实施方案47至50中任一项的方法，其中所述一个、两个、三个或四个RNA分子还包含蛋白质编码序列的一部分。

54.根据实施方案31至43和51至53中任一项的系统，实施方案1至24、44和45中任一项的组合物，或实施方案47至50中任一项的方法，其中所述蛋白质编码序列的部分包含所述蛋白质编码序列的N-端半段、N-端三分之一段、中间部分、第一中间部分、C-端半段或C-端三分之一段。

55.根据实施方案31至43和51至54中任一项的系统，实施方案1至24、44和45中任一项的组合物，或实施方案47至50中任一项的方法，包括：(a)第一RNA分子，所述RNA分子从5'到3'包含：(i)所述靶蛋白N-端部分的编码序列；(ii)剪接供体；(ii-2)DISE、ISE，或两者兼有；以及(iii)第一二聚体化域；和(b)第二RNA分子，所述RNA分子从5'至3'包含：(i)第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；(i-2)至少一个ISE序列；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；以及(v)所述靶蛋白C-端部分的编码序列。

56.根据实施方案31至43和51至55中任一项的系统，实施方案1至24、44和45中任一项的组合物或实施方案47至50中任一项的方法，包括：(a)第一RNA分子，所述RNA分子从5'到3'包含：(i)所述靶蛋白N-端部分的编码序列；(ii)剪接供体；(ii-2)DISE、ISE和ISE；(iii)第一二聚体化域；和(b)第二RNA分子，所述RNA分子从5'至3'包含：(i)第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；(i-2)三个ISE序列；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；(v)所述靶蛋白C-端部分的编码序列。

57.根据实施方案1和4-24中任一项所述的组合物，其中所述两种RNA分子中的任一个或两个，或实施方案2和4-24中任一项所述的组合物，其中所述三个RNA分子中的任一个、两个或三个，或实施方案3和4-24中任一项所述的组合物，其中所述四个RNA分子中的任一个、两个、三个或四个，各自的大小独立地选自：约2500至4500nt、约2,500nt至约2,750nt、约2,500nt至约3,000nt、约2,500nt至约3,250nt、约2,500nt至约3,500nt、约2,500nt至约3,750nt、约2,500nt至约4,000nt、约2,500nt至约4,250nt、约2,500nt至约4,500nt、约2,750nt至约3,000nt、约2,750nt至约3,250nt、约2,750nt至约3,500nt、约2,750nt至约3,750nt、约2,750nt至约4,000nt、约2,750nt至约4,250nt、约2,750nt至约4,500nt、约3,000nt至约3,250nt、约3,000nt至约3,500nt、约3,000nt至约3,750nt、约3,000nt至约4,000nt、约3,000nt至约4,250nt、约3,000nt至约4,500nt、约3,250nt至约3,500nt、约3,250nt至约3,750nt、约3,250nt至约4,000nt、约3,250nt至约4,250nt、约3,250nt至约4,500nt、约3,500nt至约3,750nt、约3,500nt至约4,000nt、约3,500nt至约4,250nt、约3,500nt至约4,500nt、约3,750nt至约4,000nt、约3,750nt至约4,250nt、约3,750nt至约4,500nt、约4,000nt至约4,250nt、约4,000nt至约4,500nt、约4,250nt至约4,500nt、约2,500nt、约2,750nt、约3,000nt、约3,250nt、约3,500nt、约3,750nt、约4,000nt、约4,250nt和约4,500nt。

58.根据实施方案1和4-24中任一项所述的组合物，其中：

所述总靶蛋白编码序列为约2000nt至约8000nt、约2,000nt至约3,000nt、约2,000nt至约3,500nt、约2,000nt至约4,000nt、约2,000nt至约4,500nt、约2,000nt至约5,000nt、约2,000nt至约5,500nt、约2,000nt至约6,000nt、约2,000nt至约6,500nt、约2,000nt至约7,000nt、约2,000nt至约7,500nt、约2,000nt至约8,000nt、约3,000nt至约3,500nt、约3,000nt至约4,000nt、约3,000nt至约4,500nt、约3,000nt至约5,000nt、约3,000nt至约5,500nt、约3,000nt至约6,000nt、约3,000nt至约6,500nt、约3,000nt至约7,000nt、约3,000nt至约7,500nt、约3,000nt至约8,000nt、约3,500nt至约4,000nt、约3,500nt至约4,500nt、约3,500nt至约5,000nt、约3,500nt至约5,500nt、约3,500nt至约6,000nt、约3,500nt至约6,500nt、约3,500nt至约7,000nt、约3,500nt至约7,500nt、约3,500nt至约8,000nt、约4,000nt至约4,500nt、约4,000nt至约5,000nt、约4,000nt至约5,500nt、约4,000nt至约6,000nt、约4,000nt至约6,500nt、约4,000nt至约7,000nt、约4,000nt至约7,500nt、约4,000nt至约8,000nt、约4,500nt至约5,000nt、约4,500nt至约5,500nt、约4,500nt至约6,000nt、约4,500nt至约6,500nt、约4,500nt至约7,000nt、约4,500nt至约7,500nt、约4,500nt至约8,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt，或约7,500nt至约8,000nt。所述总靶蛋白编码序列为约2,000nt、约3,000nt、约3,500nt、约4,000nt、约4,500nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt，或约8,000nt；和/或

所述两个RNA分子的总大小为约5,000nt至约9,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,000nt至约8,500nt、约5,000nt至约9,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约5,500nt至约8,500nt、约5,500nt至约9,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,000nt至约8,500nt、约6,000nt至约9,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约6,500nt至约8,500nt、约6,500nt至约9,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,000nt至约8,500nt、约7,000nt至约9,000nt、约7,500nt至约8,000nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约8,000nt至约8,500nt、约8,000nt至约9,000nt、约8,500nt至约9,000nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt、约8,000nt、约8,500nt，或约9,000nt。

59.根据实施方案2和4-24中任一项所述的组合物，其中：

所述总靶蛋白编码序列大小为约3000nt至约12,000nt、约3,000nt至约4,000nt、约3,000nt至约5,000nt、约3,000nt至约6,000nt、约3,000nt至约7,000nt、约3,000nt至约7,500nt、约3,000nt至约8,000nt、约3,000nt至约8,500nt、约3,000nt至约9,000nt、约3,000nt至约10,000nt、约3,000nt至约11,000nt、约3,000nt至约12,000nt、约4,000nt至约5,000nt、约4,000nt至约6,000nt、约4,000nt至约7,000nt、约4,000nt至约7,500nt、约4,000nt至约8,000nt、约4,000nt至约8,500nt、约4,000nt至约9,000nt、约4,000nt至约10,000nt、约4,000nt至约11,000nt、约4,000nt至约12,000nt、约5,000nt至约6,000nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,000nt至约8,500nt、约5,000nt至约9,000nt、约5,000nt至约10,000nt、约5,000nt至约11,000nt、约5,000nt至约12,000nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,000nt至约8,500nt、约6,000nt至约9,000nt、约6,000nt至约10,000nt、约6,000nt至约11,000nt、约6,000nt至约12,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,000nt至约8,500nt、约7,000nt至约9,000nt、约7,000nt至约10,000nt、约7,000nt至约11,000nt、约7,000nt至约12,000nt、约7,500nt至约8,000nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约7,500nt至约10,000nt、约7,500nt至约11,000nt、约7,500nt至约12,000nt、约8,000nt至约8,500nt、约8,000nt至约9,000nt、约8,000nt至约10,000nt、约8,000nt至约11,000nt、约8,000nt至约12,000nt、约8,500nt至约9,000nt、约8,500nt至约10,000nt、约8,500nt至约11,000nt、约8,500nt至约12,000nt、约9,000nt至约10,000nt、约9,000nt至约11,000nt、约9,000nt至约12,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt、约11,000nt至约12,000nt、约3,000nt、约4,000nt、约5,000nt、约6,000nt、约7,000nt、约7,500nt、约8,000nt、约8,500nt、约9,000nt、约10,000nt、约11,000nt，或约12,000nt；和/或

所述三个RNA分子的总大小为约7500nt至约13,500nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约7,500nt至约9,500nt、约7,500nt至约10,000nt、约7,500nt至约10,500nt、约7,500nt至约11,000nt、约7,500nt至约11,500nt、约7,500nt至约12,000nt、约7,500nt至约12,500nt、约7,500nt至约13,000nt、约7,500nt至约13,500nt、约8,500nt至约9,000nt、约8,500nt至约9,500nt、约8,500nt至约10,000nt、约8,500nt至约10,500nt、约8,500nt至约11,000nt、约8,500nt至约11,500nt、约8,500nt至约12,000nt、约8,500nt至约12,500nt、约8,500nt至约13,000nt、约8,500nt至约13,500nt、约9,000nt至约9,500nt、约9,000nt至约10,000nt、约9,000nt至约10,500nt、约9,000nt至约11,000nt、约9,000nt至约11,500nt、约9,000nt至约12,000nt、约9,000nt至约12,500nt、约9,000nt至约13,000nt、约9,000nt至约13,500nt、约9,500nt至约10,000nt、约9,500nt至约10,500nt、约9,500nt至约11,000nt、约9,500nt至约11,500nt、约9,500nt至约12,000nt、约9,500nt至约12,500nt、约9,500nt至约13,000nt、约9,500nt至约13,500nt、约10,000nt至约10,500nt、约10,000nt至约11,000nt、约10,000nt至约11,500nt、约10,000nt至约12,000nt、约10,000nt至约12,500nt、约10,000nt至约13,000nt、约10,500nt至约13,500nt、约10,500nt至约11,000nt、约10,500nt至约11,500nt、约10,500nt至约12,000nt、约10,500nt至约12,500nt、约10,500nt至约13,000nt、约10,500nt至约13,500nt、约11,000nt至约11,500nt、约11,000nt至约12,000nt、约11,000nt至约12,500nt、约11,000nt至约13,000nt、约11,000nt至约13,500nt、约11,500nt至约12,000nt、约11,500nt至约12,500nt、约11,500nt至约13,000nt、约11,500nt至约13,500nt、约12,000nt至约12,500nt、约12,000nt至约13,000nt、约12,000nt至约13,500nt、约12,500nt至约13,000nt、约12,500nt至约13,500nt、约13,000nt至约13,500nt、约7,500nt、约8,000nt、约9,000nt、约9,500nt、约10,000nt、约10,500nt、约11,000nt、约11,500nt、约12,000nt、约12,500nt、约13,000nt，或约13,500nt。

60.根据实施方案3和4-24中任一项所述的组合物，其中：

所述总靶蛋白编码序列大小为约4000nt至约16,000nt、约5,000nt至约6,000nt、约5,000nt至约7,000nt、约5,000nt至约8,000nt、约5,000nt至约9,000nt、约5,000nt至约10,000nt、约5,000nt至约11,000nt、约5,000nt至约12,000nt、约5,000nt至约13,000nt、约5,000nt至约14,000nt、约5,000nt至约15,000nt、约5,000nt至约16,000nt、约6,000nt至约7,000nt、约6,000nt至约8,000nt、约6,000nt至约9,000nt、约6,000nt至约10,000nt、约6,000nt至约11,000nt、约6,000nt至约12,000nt、约6,000nt至约13,000nt、约6,000nt至约14,000nt、约6,000nt至约15,000nt、约6,000nt至约16,000nt、约7,000nt至约8,000nt、约7,000nt至约9,000nt、约7,000nt至约10,000nt、约7,000nt至约11,000nt、约7,000nt至约12,000nt、约7,000nt至约13,000nt、约7,000nt至约14,000nt、约7,000nt至约15,000nt、约7,000nt至约16,000nt、约8,000nt至约9,000nt、约8,000nt至约10,000nt、约8,000nt至约11,000nt、约8,000nt至约12,000nt、约8,000nt至约13,000nt、约8,000nt至约14,000nt、约8,000nt至约15,000nt、约8,000nt至约16,000nt、约9,000nt至约10,000nt、约9,000nt至约11,000nt、约9,000nt至约12,000nt、约9,000nt至约13,000nt、约9,000nt至约14,000nt、约9,000nt至约15,000nt、约9,000nt至约16,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt、约10,000nt至约13,000nt、约10,000nt至约14,000nt、约10,000nt至约15,000nt、约10,000nt至约16,000nt、约11,000nt至约12,000nt、约11,000nt至约13,000nt、约11,000nt至约14,000nt、约11,000nt至约15,000nt、约11,000nt至约16,000nt、约12,000nt至约13,000nt、约12,000nt至约14,000nt、约12,000nt至约15,000nt、约12,000nt至约16,000nt、约13,000nt至约14,000nt、约13,000nt至约15,000nt、约13,000nt至约16,000nt、约14,000nt至约15,000nt、约14,000nt至约16,000nt，或约15,000nt至约16,000nt。所述总靶蛋白编码序列为约5,000nt、约6,000nt、约7,000nt、约8,000nt、约9,000nt、约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt、约15,000nt、约16,000nt、约5,000nt、约6,000nt、约7,000nt、约8,000nt、约9,000nt、约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt，或约15,000nt；和/或

由所述四个合成DNA分子编码RNA分子的总大小为约10,000nt至约18,000nt、约10,000nt至约11,000nt、约10,000nt至约12,000nt、约10,000nt至约13,000nt、约10,000nt至约14,000nt、约10,000nt至约15,000nt、约10,000nt至约16,000nt、约10,000nt至约17,000nt、约10,000nt至约18,000nt、约11,000nt至约12,000nt、约11,000nt至约13,000nt、约11,000nt至约14,000nt、约11,000nt至约15,000nt、约11,000nt至约16,000nt、约11,000nt至约17,000nt、约11,000nt至约18,000nt、约12,000nt至约13,000nt、约12,000nt至约14,000nt、约12,000nt至约15,000nt、约12,000nt至约16,000nt、约12,000nt至约17,000nt、约12,000nt至约18,000nt、约13,000nt至约14,000nt、约13,000nt至约15,000nt、约13,000nt至约16,000nt、约13,000nt至约17,000nt、约13,000nt至约18,000nt、约14,000nt至约15,000nt、约14,000nt至约16,000nt、约14,000nt至约17,000nt、约14,000nt至约18,000nt、约15,000nt至约16,000nt、约15,000nt至约17,000nt、约15,000nt至约18,000nt、约16,000nt至约17,000nt、约16,000nt至约18,000nt、约17,000nt至约18,000nt、约10,000nt、约11,000nt、约12,000nt、约13,000nt、约14,000nt、约15,000nt、约16,000nt、约17,000nt，或约18,000nt。

61.根据实施方案1至24和57至60中任一项所述的系统，其中所述第一二聚体化域和所述第二二聚体化域、所述第三二聚体化域和所述第四二聚体化域，和/或所述第五二聚体化域和所述第六二聚体化域各自不超过1000nt，例如至少50nt、至少100nt、至少150nt、至少200nt、至少300nt、至少400nt、至少500nt、50至1000nt、50至500nt、50至150nt、50、100、150、200、250、300、400或500nt；并且所述系统的重组效率为至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％或至少约95％。

62.根据实施方案1至24和57至61中任一项所述的系统，其中每个二聚体化域不超过1000nt，例如至少50nt、至少100nt、至少150nt、至少200nt、至少300nt、至少400nt、至少500nt、50至1000nt、50至500nt、50至150nt、50、100、150、200、250、300、400或500nt；并且所述系统的重组效率为至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％或至少90％。

63.根据实施方案1至24和57至62中任一项所述的组合物，其中所述RNA重组效率为约10％至约100％、约10％至约20％、约10％至约30％、约10％至约35％、约10％至约40％、约10％至约45％、约10％至约50％、约10％至约55％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约20％至约30％、约20％至约35％、约20％至约40％、约20％至约45％、约20％至约50％、约20％至约55％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约30％至约35％、约30％至约40％、约30％至约45％、约30％至约50％、约30％至约55％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约35％至约40％、约35％至约45％、约35％至约50％、约35％至约55％、约35％至约60％、约35％至约70％、约35％至约80％、约35％至约90％、约40％至约45％、约40％至约50％、约40％至约55％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约45％至约50％、约45％至约55％、约45％至约60％、约45％至约70％、约45％至约80％、约45％至约90％、约50％至约55％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约55％至约60％、约55％至约70％、约55％至约80％、约55％至约90％、约60％至约70％、约60％至约80％、约60％至约90％、约70％至约80％、约70％至约90％、约80％至约90％、约10％、约20％、约30％、约35％、约40％、约45％、约50％、约55％、约60％、约70％、约80％、约90％、约95％或约100％。

64.根据实施方案25至30和44至45中任一项所述的组合物、实施方案31至43中任一项所述的系统或实施方案47至50中任一项所述的方法，其中所述合成DNA是通过逆转录酶转录RNA病毒基因组而产生的。

实施例

实施例1

合成RNA二聚体化和重组域

图1A示出了载体设计(左图)和RNA相互作用和剪接(右图)的示意图。左图：5'反式剪接(trsp)DNA载体：空心箭头是两个相反的启动子。RFP编码域和具有多聚腺苷酸化元件的3'UTR从YFP的N-端部分(n-yfp)相反表达，然后是剪接供体序列(SD)、下游内含子剪接增强子(DISE)和两个内含子剪接增强子(2xISE)、结合域(BD，也称为二聚体化域)和稳定的茎环BoxB元件(boxB)、自切割锤头状核酶(HHrz)，以包含多聚腺苷酸化元件的3'UTR结束。所述n-yfp节段插入了小型内含子(n-yfp内的白色节段)。3'trsp DNA载体：空心箭头是两个相反的启动子。BFP编码域和具有多聚腺苷酸化元件的3'UTR从互补结合域(抗-BD，也称为二聚体化域)相反表达，随后是三个内含子剪接增强子序列(3xISE)、分支点(BP)、多嘧啶束(PPT)、剪接受体序列(SA)、所述YFP编码序列的c-端质子，以包含多聚腺苷酸化元件的3'UTR结束。右图：显示了前体-mRNA相互作用(5'trsp-RNA+3'trsp-RNA)和反式剪接以生成编码YFP蛋白的mRNA。

图1B示出了仅所述N-端表达质粒的转染不会产生YFP荧光。流式细胞仪显示20kRFP+细胞。

图1C示出了仅所述C-端表达质粒的转染不会产生YFP荧光。流式细胞仪显示20kBFP+细胞。

图1D示出了没有结合域的N-端和C-端片段的表达显示低水平的YFP诱导。流式细胞仪显示20k BFP+细胞的红色和绿色荧光值。

图1E示出了合理设计的环状构型二聚体化/结合域。低多样性的仅含嘧啶或仅含嘌呤的序列节段与稳定的茎序列间隔。RNA折叠预测显示6链段的开放序列(编号1-6)可用于结合域与其互补序列之间的碱基配对。

图1F示出了“环状”二聚体化域构型的3D渲染，显示了6链段的开放序列(编号1-6)。

图1G示出了在所述C-端半段上没有结合域的阴性对照。流式细胞仪显示20k BFP+细胞的红色和绿色荧光值。

图1H示出了在所述N-端半段上没有结合域的阴性对照。流式细胞仪显示20k BFP+细胞的红色和绿色荧光值。

图1I示出了，N-和C-端半段上匹配结合域在90％的细胞中显示出强YFP诱导。流式细胞仪显示20k BFP+细胞的红色和绿色荧光值。

图1J-1N示出了结合域的构型数据(与图1E-1I中数据等效)，从而产生完全开放的构型，所述结合域具有150低多样性仅含嘧啶或仅含嘌呤序列的链段。

图1O示出了图1G中所示细胞的代表性荧光图像。

图1P示出了图1L中所示细胞的代表性荧光图像。

图1Q描述了图1D、图1G-1I和图1L-1N中所示条件的比较。计算YFP诱导系数：(#R+Y+÷#R+Y-)×100×med.Y-fluor(R+Y+)。为了比较，示出了N-端原生内含子(小鼠小白蛋白基因的内含子I)和C-端片段上该内含子的优化结合域(白色柱形)的重组效率。这说明了优化的合成RNA二聚体化和重组域的好处。

实施例2

从三个合成片段重构蛋白质

图2A示出了载体设计的示例性示意图。YFP的蛋白质编码序列分为N-端片段、中间片段(m-yfp)和C-端片段。n片段和m片段的连接由环状设计结合域(BD1)连接，m片段和c片段之间的连接由环状结合域(BD2)连接。排列嘧啶(Y)和嘌呤(R)序列以避免m片段的自环化并避免N和C-片段的直接重组。N-端片段与作为转染对照的红色荧光蛋白共表达，C-端片段与作为转染对照的蓝色荧光蛋白共表达。

图2B示出了，所有三个片段上匹配结合域在80％所述细胞中显示强YFP诱导。流式细胞仪显示20k BFP+细胞的红色和绿色荧光值。

图2C示出了，仅n和m片段表达的代表性荧光图像显示没有YFP荧光(阴性对照)。

图2D示出了，仅m和c片段表达的代表性荧光图像显示没有YFP荧光(阴性对照)。

图2E示出了，显示强YFP荧光由所有三个片段的共转染诱导的代表性荧光图像。

实施例3

体内递送分为两部分的重构全长YFP

通过使用两个合成RNA序列实现从两个片段重构YFP编码序列，其中一个包括YFP的N-端编码半个片段，一个包括C-端编码半个片段(图3A)(SEQ ID NO:1和2)。每个片段在新生(P3)小鼠幼崽全身(静脉)施用后从AAV2/8表达。针对这两个片段的每一个对每只小鼠都施用了总共1.88E11病毒基因组。3周后，使用荧光显微镜在肝脏、心肌和骨骼肌中检测到YFP的表达。

如图3B所示，在幼鼠的肝脏中检测到全长YFP的表达，而未注射的肝脏没有显示YFP表达。

如图3C所示，在幼鼠的心肌中检测到全长YFP的表达，而未注射的心肌没有显示YFP表达。

如图3D所示，在腿部骨骼肌中检测到全长YFP表达，而未注射的腿部骨骼肌未显示YFP表达。

因此，所公开的系统可用于从两个或更多个单独的合成RNA分子体内表达全长蛋白质。

实施例4

体内递送分为三部分的重构全长YFP

通过使用三个合成RNA序列实现由三个片段重构YFP编码序列，其中一个包括YFP的N-端片段，一个包括YFP的中间片段，一个包括C-端片段(图4A)(分别为SEQ ID NO:145、146和2)。

每个片段在肌肉注射到新生(P3)小鼠幼崽的胫骨前肌后由AAV2/8表达。对于每个所述片段肌肉内施用总共1E11病毒基因组。3周后，使用荧光显微镜在骨骼肌中检测到YFP的表达。

如图4B所示，在胫骨前肌中观察到全长YFP荧光的表达。

因此，所公开的系统可用于从三个或更多个单独的合成RNA分子体内表达全长蛋白质。

实施例5

体内递送重构全长蛋白

为了证实三部分sRdR系统在体内的可行性，将含有YFP片段的两个或三个AAV转移质粒(AAV的DNA前体质粒)的组合经皮电穿孔到成年小鼠的胫骨前肌(TA)后肢肌肉。在肌内电穿孔后五天观察到两部分分裂-YFP系统以及三部分分裂-YFP系统的有效重构(图5A-5F)。

图5A-5F示出了从成年小鼠胫骨前肌中由两个和三个片段有效重构YFP。图5A示出了YFP编码序列的N-端和C-端半段配备有合成RNA二聚体化和重组域。图5B示出了将表达这两个片段的两个AAV转移质粒经皮电穿孔到成年小鼠胫骨前(TA)肌中，并且在电穿孔后5天检测到强荧光。图5C显示在对侧未注射的TA中未检测到荧光。图5D示出了N-端、中间和C-端YFP编码序列配备有将每个片段与其相邻片段连接的合成RNA-二聚体化和重组域。图5E示出了经皮电穿孔表达这三个片段的三个AAV转移质粒。检测到强YFP荧光，表明YFP从三个片段有效重构。图5F示出了对侧未注射TA中的荧光。荧光通道覆盖在以示背景的灰度照片上。

使用两个或三个载体在肝脏、心肌和骨骼肌(两个AAV载体)和骨骼肌(三个AAV载体)中成功表达YFP。

因此，本文提供的合成RNA二聚体化和重组系统可以部置在肌肉中。基于这些结果，可以用抗肌萎缩蛋白(或其他基因)编码序列替代YFP编码序列，以实现从AAV到所需受试者和/或组织中的治疗性全长抗肌萎缩蛋白(或其他基因)表达。

实施例6

递送重构的全长抗肌萎缩蛋白以治疗DMD

使用全长抗肌萎缩蛋白对患有杜氏肌营养不良症(DMD)的患者进行有效的基因治疗仍然具有挑战性，因为这种大型蛋白的编码序列超过了大多数病毒载体的容量。腺相关病毒(AAV)是基因替代疗法中常见且首选的基因递送方法。AAV是无毒的、耐受性良好的，并且会长期表达替代基因，而不会随机整合到基因组中。然而，抗肌萎缩蛋白基因太大而无法由单一病毒递送。如果分成片段，全长抗肌萎缩蛋白只能使用最少三个病毒来递送。称为“微抗肌萎缩蛋白”或“迷你抗肌萎缩蛋白”较小版本的抗肌萎缩蛋白目前正在测试用于抗肌萎缩蛋白基因替代疗法，但这些截短版本的抗肌萎缩蛋白预计不会具有全部功能，因为它们缺少所述蛋白质杆和铰链部分中的关键域。迄今为止，先前克服这一限制的尝试并未达到治疗DMD所需的效果。

本文提供了一种新技术，该技术可用于从多个连续片段有效地重构包括抗肌萎缩蛋白在内的大型基因的编码序列。将该技术与用作递送载体的AAV结合，全长抗肌萎缩蛋白将在DMD的鼠模型(以及猪和狗模型)中表达。在一个实例中，受试者是患有DMD的成年人、青少年或婴儿。例如，所公开的方法和系统可用于通过两个或三个AAV(例如，每个AAV递送全长编码序列的半段或三分之一段)递送编码全长抗肌萎缩蛋白的合成RNA二聚体化和重组域。在一个实例中，AAV是影响肌肉的AAV(例如，优先感染肌肉的AAV)。这种方法可用于改善或预防DMD的小鼠或狗模型以及人类受试者的营养不良症状的发作。

第1部分：构建有效重构的三向分裂抗肌萎缩蛋白表达盒。构建了三个表达盒，它们在体外有效地重构全长抗肌萎缩蛋白编码序列，而每个单独的表达盒都在常规AAV载体的包装限制内。为了达到抗肌萎缩蛋白的治疗有效水平，可以优化表达系统以达到抗肌萎缩蛋白的大致生理水平或适度的超生理水平。可耐受高达50倍的抗肌萎缩蛋白过表达而无副作用。抗肌萎缩蛋白编码序列可以沿其长度在许多不同的点处分裂。然而，重构效率受局部RNA微环境的影响，通过比较几个可能分裂点的效率，凭经验实现重构效率的最大化。天然抗肌萎缩蛋白编码序列可以进行密码子优化以实现最佳表达，并对其进行修饰以有利于获得最大的重构效率。预期可以使用本文公开的合成RNA-二聚体化和重组方法从三向分裂前体重构全长抗肌萎缩蛋白编码序列。在筛选不同构型时，选择最有效重构抗肌萎缩蛋白(例如，大概生理或中等超生理水平)的三个表达盒组。可以在HEK293T或人体骨骼肌细胞(HSkMC，初级或转分化细胞)中进行实验。使用内源性与外源性特异性定量RT-PCR探针，并通过外源性抗肌萎缩蛋白中的表位标签检测和蛋白质印迹分析，将确定分裂/重构抗肌萎缩蛋白的不同构型的重构效率。

第2部分：通过非重构片段使全长抗肌萎缩蛋白的表达最大化。可以通过修饰所述合成RNA二聚体化和重组域来实现抑制非重构抗肌萎缩蛋白的片段化背景表达。由RNA重组效率低下引起的非重构片段表达可能产生抗肌萎缩蛋白片段的背景表达。此外，可以通过修饰所述合成RNA二聚体化和重组域来实现抑制这种片段化的背景表达。使用所公开的方法，抗肌萎缩蛋白的每个片段被单独转录。重构在RNA水平进行。因此，每个单独的片段都可以潜在地被翻译而无需被重构。在蛋白质印迹中，全长抗肌萎缩蛋白以大约430kDa进行电泳，这些片段将以大约3/4(～290kDa)和1/2(～140kDa)的大小进行电泳。可以优化合成RNA二聚体化和重组域以避免非重构片段表达并有利于抗肌萎缩蛋白的全长表达。例如，这可以通过策略性地放置降解决定子序列、破坏非重组片段的RNA核输出和引入诱饵翻译起始点来实现。实验在HEK293T和HSkMC中进行。所述抗肌萎缩蛋白编码序列可以用表位标签来结束，所述表位标签能够使用蛋白质印迹分析识别和量化未完全重构的抗肌萎缩蛋白片段。这些抗肌萎缩蛋白片段的细胞分布将使用人体骨骼肌细胞的免疫组织化学进行评估。此外，片段抑制的量化评估将使用常规分子生物学技术进行，包括跨重组连接的定量RTPCR，将用于确定RNA水平上重构的效率。预期将观察到低水平的片段化抗肌萎缩蛋白表达。通过修饰合成RNA二聚体化和重组域，可以抑制这些片段。

第3部分。配制用于体外和体内表达的全长抗肌萎缩蛋白模块的高滴度AAV备用液。表达抗肌萎缩蛋白的AAV将以高纯度产生，病毒基因组计数高于3E13 GC/ml。将产生三种影响肌肉的AAV血清型：AAV2/8、AAV2/9和AAV2/rh10。将产生三部分分裂荧光蛋白、以表位标签结束的三部分分裂的全长抗肌萎缩蛋白(参见上面的第2部分)和无标签三部分分裂的全长抗肌萎缩蛋白，从而产生27高滴度AAV制剂。全身递送治疗性AAV颗粒需要高浓度的大病毒制剂。为了实现抗肌萎缩蛋白从三种单独病毒重构表达，可以进行病毒的重复施用。HEK293T细胞中的AAV产生。碘克沙醇或CsCl纯化。所有批次都将在HEK293T和人体骨骼肌细胞中进行体外测试。如第1部分和第2部分所述，将评估重构效率和不需要的片段表达。

第4部分。测量FLD-AAV模块在体内的表达/重构水平和全长抗肌萎缩蛋白表达AAV模块的体内组织分布。三部分分裂荧光蛋白进行了同样的评估，作为替代指标。对于体内递送，将比较新生小鼠和幼年小鼠的直接肌内(心脏和骨骼肌)递送和全身静脉内递送。FLD-AAV的直接肌肉注射可有效表达全长抗肌萎缩蛋白，如以上实施例所示。将使用免疫组织化学和蛋白质印迹分析检查FLD-AAV的全身递送。将比较新生小鼠和幼年小鼠的不同施用途径，包括直接肌内递送和全身静脉内递送。分析将侧重于：(1)骨骼肌(主要的前肢肌肉、后肢肌肉、肩部肌肉、腹部肌肉和面部肌肉)和快速与慢速收缩肌肉的差异感染性，将通过比较胫骨前肌和比目鱼肌来评估，(2)心肌表达，和(3)肝脏表达。将监测这组动物的高滴度AAV注射可能产生的不利影响。

尽管直接肌肉注射AAV是一种递送所述FLD-AAV模块的方法(根据图5A-5F中的结果，这可能是成功的)，但从临床角度来看，还是希望使用全身静脉递送病毒实现全长抗肌萎缩蛋白。体外FLD-AAV测试将用于确定AAV拷贝数和重构抗肌萎缩蛋白水平之间是如何相关联的。将在体内评估组织分布和重构效率，并检查不同的递送模式(例如，血清型、病毒滴度、应用途径、重复应用的次数)以实现最佳组织分布。将评估组织覆盖率和表达水平。即使只有一部分肌纤维表达抗肌萎缩蛋白(例如，心脏功能正常，在非应激条件下只有约50％的心肌细胞缺乏抗肌萎缩蛋白)，也可以获得有益的结果。抗肌萎缩蛋白的生理和超生理水平都具有治疗价值。定量评估将按照第1部分和第2部分中的概述进行。将在无菌条件下对新生小鼠或幼年小鼠进行体内肌肉和全身病毒应用。

第5部分。用FLD-AAV处理DMD小鼠模型(mdx)并评估疾病发作/进展。新生mdx小鼠的FLD-AAV递送可预防肌病和心肌病的发作和进展。在优化重构的全长抗肌萎缩蛋白的病毒递送(第1-4部分)后，将对DMD小鼠模型进行FLD-AAV治疗。这些小鼠，根据它们繁殖的遗传背景，出现的肌病特别不如人类DMD明显。更严重表型(D2.B10-Dmdmdx)的遗传背景的小鼠表现出后肢无力加深、肌肉重量降低、肌纤维减少以及脂肪增多和纤维化加重。这些参数可以在野生型对照、处理过的mdx和未处理过的mdx小鼠之间进行比较。所期望的结果是改善或预防疾病发作/进展。

使用了两种小鼠系，C57BL/10ScSn-Dmdmdx/J和D2.B10-Dmdmdx/J，它们在抗肌萎缩蛋白基因中携带突变。FLD-AAV根据第4部分所述确立的参数进行递送。动物在出生后第一周注射，在mdx小鼠发生肌坏死前的时间窗口内。评估野生型小鼠、处理过的mdx小鼠和媒介物/假处理过的mdx小鼠的骨骼肌和心肌病的行为和解剖学体征。使用运动学和肌电图测试设备，评估这些小鼠在各种运动任务中的表现，例如平衡木、握力大小、水平梯、跑步机速度挑战、地上运动运动学评估和游泳运动学评估(环境温度和冷水挑战)。将确定FLD-AAV疗法是否可以预防mdx小鼠在化学挑战后出现心肌病。

这些实验的预期结果将会改善或预防疾病的发作/进展。

实施例7

递送重构的全长MYO7A治疗亚瑟综合征

MYO7A编码序列的第一半段附加有合成RNA二聚体化和重组域，并从第一载体/质粒表达。MYO7A的第二半段附加到互补RNA二聚体化和重组域，并从第二载体/质粒表达。如果在同一细胞中一起表达，则MYO7A的两个半段会重组形成全长MYO7A转录物，然后翻译成蛋白质。

实施例8

转录/表达逻辑门

将靶基因分成两个非功能性的半段，从两个不同启动子或使用两种不同的递送媒介物表达，可能会导致交叉表达模式。

例如，本文提供的第一合成核酸分子的启动子1可以驱动编码序列N-端半段在例如细胞类型A、B和C中表达，而本文提供的第二合成核酸分子的启动子2驱动C-端半段在细胞A、D、E和F的子集中表达。在这样的实例中，编码所述靶蛋白的效应基因仅在重叠区域中表达(在这个实例中，在细胞群A中表达)。

通过使两个半段有条件地表达，例如在重组酶存在的条件下，可以应用类似的交叉性。可以实现交叉性的另一个级别是通过向性不同的两种病毒递送两个半段。

实施例9

互补作用

所公开方法和系统可用于将任何基因(和相应的靶蛋白)制成互补部分(类似于LacZ的α互补原理)，方法是在单独的质粒上编码两个非功能性半段，只有当两个质粒都存在时才变得有活性。

实施例10

触发RNA

所公开系统和方法可以被配置成使得所述靶蛋白编码序列的两个或更多个部分的重构取决于特异性“触发”RNA分子的存在。如图7B所示，在这个实施例中，每个合成核酸分子的二聚体化域不是彼此反向互补的，而是与第三RNA分子的相邻区域特异性杂交，“触发RNA”充当桥梁，将两个合成核酸分子结合在一起。在此实施例中，系统可以“报告”特异性RNA分子的存在，这能够“细胞类型特异性触发”报告/效应蛋白。

实施例11

在3'-UTR中包含稳定元件

本实施例描述了在3'-UTR中存在稳定RNA的序列的情况下，用于评估分裂编码序列重组的方法。土拨鼠肝炎转录后调控元件3(WPRE3)用作示例性稳定序列。本领域技术人员将理解可以使用其他RNA序列稳定剂代替WPRE3。

使用所公开的合成RNA二聚体化和重组方法通过流式细胞术测量重构的双向分裂YFP的YFP荧光中值。C-端YFP编码片段后仅跟多聚腺苷酸化信号(w/o WPRE3)或土拨鼠肝炎转录后调节元件WPRE3的截短版本，后跟多聚腺苷酸化信号(标记为w/WPRE3)。N-端YFP编码片段与来自双向启动子用于转染对照的红色荧光蛋白共表达。C-端片段与来自双向启动子作为转染对照的蓝色荧光蛋白共表达。对多种条件之间红色和蓝色荧光对照值相同的细胞进行比较。

如图8所示，在3'-UTR中包含稳定元件将重组全长YFP的表达效率提高了约50-60％。即使WPRE序列促进细胞核输出包含它们的RNA分子，这可能通过在剪接体介导的RNA连接发生之前使图6A的分子150穿梭到细胞核外使其无功能而对RNA连接反应(以及因此基因表达)产生负面影响，也观察到这种增强效果。

因此，所公开合成分子(例如SEQ ID NO:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、145、146、147、148、155、156、157、158、159,160、161、162、163、164、165和166的任一种)可以修饰成还包括RNA序列稳定剂。

实施例12

结合域长度对重构效率的影响

结合域长度评估如下。YFP被分裂成两个非荧光半段(SEQ ID NO:1和2，但结合域长度不同)。评估了培养的HEK 293t细胞中不同长度结合域(范围从50到500个核苷酸)的重构效率。N-端YFP从双向CMV启动子表达，红色荧光蛋白(RFP)作为转染对照。C-端YFP从双向CMV启动子表达，蓝色荧光蛋白(BFP)作为转染对照。对于不同的结合域长度，比较了YFP中值荧光强度。在多种条件之间对RFP和BFP转染水平匹配的细胞进行比较。

如图11所示，所有分子都实现了全长YFP某种水平的表达，重构效率的程度不同。尽管在结合域长度为150bp及以下(例如50-150bp)观察到最佳性能，但高达500bp的结合域长度仍然能够重组和表达全长YFP。

实施例13

剪接增强子序列的效果

本实施例描述了用于评估在所公开合成内含子中包括一个或更多个内含子剪接增强子序列(例如，图6A中的118、120、156)效果的方法。

YFP被分裂成两个非荧光半段(图12A)。评估了培养的HEK 293t细胞中不同内含子构型的重构效率。N-端YFP从双向CMV启动子表达，红色荧光蛋白(RFP)作为转染对照。C-端YFP从双向CMV启动子表达，蓝色荧光蛋白(BFP)作为转染对照。对于不同的内含子构型，比较YFP中值荧光强度。在多种条件之间对RFP和BFP转染水平匹配的细胞进行比较。

如图12A所示，5'分子(SEQ ID NO:1)包括YFP的N-端部分编码区(n-yfp)，其后是剪接供体序列(SD)、下游内含子剪接增强子(DISE)，和两个内含子剪接增强子(2xISE)、结合域(BD)、自切割锤头状核酶(HHrz)，以多聚腺苷酸化信号(pA)结束。3'分子(SEQ ID NO:2)包括互补结合域(抗-BD)，随后是三个内含子剪接增强子序列(3xISE)、分支点(BP)、多嘧啶束(PPT)、剪接受体序列(SA)、YFP编码序列的C-端质子，以多聚腺苷酸化信号(pA)结束。

如图12B所示，在5'和3'分子中均加入剪接增强子可提高全长YFP的重构效率。去除剪接增强子使两个编码序列的重构效率降低了约50-90％。在第一柱条中，YFP是使用参考构型(SEQ ID NO:1和2)重构的，第二柱条显示了5'片段中ISE元件缺失的重构效率，第三柱条显示了5'片段缺失ISE和DISE后的重构效率。第四柱条显示了5'片段中缺失HHrz后的重构效率。第五柱条显示了使用参考构型的重构效率。第六柱条显示3'片段中缺失ISE元件后的重构效率。第七柱条显示5'和3'片段中均缺失ISE与5'片段中缺失DISE后的重构效率。

实施例14

双投影追踪

本实施例描述的方法用于通过从两个片段(SEQ ID NO:147和148)重构全长flp重组酶(Flpo)进行双投影追踪。如图13A所示，Flp重组酶基因分裂成两个无功能的半段。Flpo基因N-端半段在其3'末端与合成内含子序列连接，然后是二聚体化域序列(RNA末端连接模块，REJ)。Flpo基因的C末端半段在其5'末端与合成内含子和二聚体化域(REJ模块)连接。在用两种构建体感染细胞并从每个构建体表达前体mRNA后，前体mRNA在二聚体化域(由图13A中的黑色双杠显示)处结合，并且所得到的复合物被剪接以产生全长Flpo重组酶mRNA转录物。因此，功能性重组酶蛋白是通过重构这两个片段而产生的。图13B显示了携带flpo依赖性红色荧光蛋白(tdTomato)(Rosa-CAG-frt-STOP-frt-tdTomato)的flp活性报告小鼠的示意图。将两种合成核酸(DNA)构建体包装成单独的腺相关病毒(逆行转运血清型AAV2/retro)。将携带第一构建体的病毒AAV2/retro-n-flpo注射到小鼠的左侧初级运动皮层，并将携带第二构建体的病毒AAV2/retro-c-flpo注射到小鼠的右侧初级运动皮层。

如图13C-13D中，轴突穿越中线的初级运动皮层细胞用红色荧光蛋白标记(并且在图13C和13D中显示为白色)。显示赫斯特染色(细胞核)作为背景。

实施例15

长蛋白的体内表达

本实例描述的方法用于在细胞培养下和体内超大货物在小鼠初级运动皮层中有效表达。

为了模拟大型致病基因，其填充了两种病毒的腺相关病毒(AAV)货物容量(即，它超过了单个AAV包装容量)，将分裂的YFP编码序列嵌入到大型不间断开放阅读框内。在N-端(即5'侧)，YFP编码序列第一部分的两侧是长填充序列(即不间断的开放阅读框)，然后是编码2A自切割肽的序列。在C-端(即3'侧)，YFP编码序列第二部分之后是2A自切割肽编码序列，然后是长填充序列(即，不间断的开放阅读框)(图14A)。编码前体mRNA分子的第一和第二合成DNA分子显示在SEQ ID NO:22和23中，不包括启动子序列。所表达的所得RNA分子在SEQ ID NO:22位置1处的转录起始位点和SEQ ID NO:23位置1处的转录起始位点与polyA尾之间各约4000nt。所得转录的前体mRNA分子(5'片段；从SEQ ID NO:22转录)包含填充序列开放阅读框，其后是自切割2A肽编码序列，之后是编码YFP的N-端部分的序列，然后是合成内含子和二聚体化域(具有吻式环构造)和polyA尾。C-端前体mRNA分子(3'片段；从SEQ IDNO:23转录)由互补吻式环二聚体化域、合成内含子序列，随后是C-端YFP编码序列和自身切割2A肽编码序列，然后是填充序列开放阅读框，然后是polyA尾组成。

在产生前体mRNA分子之后，二聚体化域结合，并且剪接连接前体mRNA以产生全长mRNA。在翻译过程中，YFP两侧的2A切割序列切割N-和C-端填充序列并产生功能性YFP蛋白。

为了确定RNA水平上的重构效率，使用了两个基于探针的(5'-水解)定量实时PCR测定。第一测定涵盖完全包含在3'外显子YFP序列中的序列(标记为3'探针)。第二测定涵盖在5'和3'外显子YFP序列之间的连接(标记的连接探针)。重构效率计算为(连接探针计数)/(3'探针计数)的比率。

对HEK 293t细胞中超大YFP构建体的重构效率进行了定量实时PCR分析。全长超大YFP用作参考。全长超大YFP比率设置为1(图14B)。重构的比率表示为全长的分数(标记为分裂-REJ(分裂RNA末端连接))。重构效率计算如下：连接/3'引物。如图14B所示，大约60％的RNA在分裂-REJ系统中连接。

通过流式细胞术筛选瞬时转染的HEK 293t细胞评估从全长超大YFP表达和分裂-REJ表达重构的YFP蛋白表达。如图14C所示，分离REJ系统实现了约45％的连接效率，即使是大型货物，也同样如此。

大型YFP蛋白重组的体内分析按如下进行。将含有3E9 vg/注射剂/片段的60nl腺相关病毒2/8注射到小鼠的初级运动皮层中。注射后10天收获组织。如图14D所示，在大块组织中很容易检测到YFP荧光(左上图、中上图，小鼠大脑肉眼可见的俯视图，示出了YFP荧光和自体荧光作为背景)。在运动皮层第5层的病毒注射部位及其周围检测到强YFP信号(右图，皮质层编号为1至6，大概注射深度由灰色条表示，比例尺＝100微米)。因此，所公开系统可用于在体内表达大型蛋白质。

实施例16

因子VIII的表达

本实施例描述的方法用于实现全长人类凝血因子VIII(FVIII)有效重构。

用于实验的5'和3'核酸分子的示意图如图15A所示(编码前体RNA分子的DNA分别在SEQ ID NO:24和25中列出)。每个半段包括约3.8kb的FVIII编码序列。所得到的含有FVIII编码序列N-端半段(例如，如图6A的110中示意性所示)的RNA 5'序列之后是有效的合成内含子和二聚体化域(吻式环构造)，以及多聚腺苷酸尾。包含FVIII编码序列的C-端半段(例如图6A的150)的3'序列之前是互补吻式环二聚体化域和有效的合成内含子序列。为了确定RNA水平上的重构效率，使用了两个基于探针的(5'-水解)定量实时PCR测定。第一测定涵盖完全包含在3'外显子FVIII序列中的序列(标记为3'探针)。第二测定涵盖5'和3'外显子FVIII序列之间的连接(标记的连接探针)。重构效率计算为(连接探针计数)/(3'探针计数)的比率。

在HEK 293t细胞中表达两天后，对重构效率进行PCR量化。全长FVIII用作参考。全长FVIII比率设置为1。重构的FVIII测定比率表示为全长的分数(标记为分裂-REJ)。如图15B所示，实现了约40-60％的重构效率(即在分裂-REJ系统中连接的两个RNA的约40-60％)。

为了证实FVIII在体外的表达，使用了蛋白质印迹法。FVIII在N-端用HA标签标记。构建体在HEK 293t细胞中表达2天。如图15C所示，所公开分裂REJ系统在体外成功地表达了全长FVIII。

基于这些观察结果，可以实现全长FVIII蛋白在体内的表达，例如用于治疗A型血友病。例如，FVIII编码序列的第一半段附加有合成RNA二聚体化和重组域并从第一载体/质粒表达。FVIII的第二半段附加到互补RNA二聚体化和重组域并从第二载体/质粒表达。如果在同一细胞中一起表达，则FVIII的两个半段会重组形成全长FVIII转录物，然后被翻译成蛋白质。例如，与包括N-端FVIII编码序列的SEQ ID NO:24和包括C-端FVIII编码序列的SEQID NO:25具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列可用于体内表达。

实施例17

Abca4的表达

本实施例描述的方法用于实现全长人类ATP结合盒亚家族A成员4(Abca4)的有效重构。

所用5'和3'分子的示意图如图16A所示(编码前体RNA分子的DNA分别在SEQ IDNO:20和21中列出)。5'半段包括大约3.6kb的Abca4编码序列，3'半段大约3.2kb的Abca4编码区加上C-端3xFLAG标签。5'序列包含编码序列的N-端半段，然后是有效的合成内含子序列和第一二聚体化域(吻式环)。包含编码序列C-端半段的3'序列之前是互补(吻式环)二聚体化域和有效的合成内含子序列。显示了跨连接的桑格测序迹线。

如图16B所示，连接的PCR扩增证实了两个编码序列的可靠连接。为了确定RNA水平上的重构效率，使用了两种基于探针的(5'-水解)定量实时PCR测定(图16C)。第一测定涵盖完全包含在3'外显子Abca4序列中的序列(标记为3'探针)。第二测定涵盖5'和3'外显子Abca4序列之间的连接(标记的连接探针)。重构效率计算为(连接探针计数)/(3'探针计数)的比率。在HEK 293t细胞中表达两天后，重构效率的PCR量化显示在图16D。全长Abca4用作参考。平均全长Abca4比率设置为1。重构Abca4测定比率表示为全长的分数(标记为分裂-REJ)。如图16D所示，实现了约35％的重构效率(即在分裂-REJ系统中连接的两个RNA的约30-40％)。

为了证实Abca4在体外的表达，使用了蛋白质印迹法。Abca4在C-端用3xFLAG-标签标记。构建体在HEK 293t细胞中表达2天。如图16E所示，所公开的分裂REJ系统在体外成功地表达了全长Abca4。

蛋白质印迹的量化显示在图16F中。为了归一化多种条件之间的差异转染效率，全长质粒和C-端质粒共同表达用于转染对照的蓝色荧光蛋白。通过斑点印迹测定每个样品中的BFP浓度，并用于在多种条件之间进行归一化。如图16F所示，与直接全长表达相比，重构Abca4的表达水平约为40％。因此，蛋白质印迹测定的蛋白质水平与qPCR测定的RNA重构效率很好地吻合。

基于这些观察结果，可以实现体内全长ABCA4蛋白的表达，例如治疗斯塔加特病。例如，ABCA4编码序列的第一半段附加有合成RNA二聚体化和重组域并从第一载体/质粒表达。ABCA4的第二半段附加到互补RNA二聚体化和重组域，并从第二载体/质粒中表达。如果在同一细胞中一起表达，则ABCA4的两个半段重组形成全长ABCA4转录物，然后被翻译成蛋白质。例如，与包括N-端Abca4编码序列的SEQ ID NO:20(图10R-10U)和包括C-端Abca4编码序列的SEQ ID NO:21(图10V-10Z)具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列可用于体内表达。

实施例18

Otof的表达

本实施例描述的方法用于实现全长鼠耳畸蛋白(Otof)的有效重构。

所用的5'和3'DNA分子的序列分别显示在SEQ ID NO:155和156中。5'半段包括约3.5kb的Otof编码序列，3'半段包括约2.5kb的Otof编码区加上C-端3xFLAG标签。包含C-端半段的3'-序列(例如，图6A的150)之前是互补结合域和有效的合成内含子序列。本领域技术人员将理解，人类OTOF编码序列(例如，GenBank登录号NM_001287489.2或NM_194248.3)可以替代SEQ ID NO:155和156中的小鼠编码序列。

为了证实Otof在体外的表达，使用了蛋白质印迹法。Otof在C-端用3xFLAG-标签标记，用于蛋白质印迹检测。构建体在HEK 293t细胞中表达2天。如图18A所示，所公开的分裂-REJ系统在体外成功地表达了全长Otof。

蛋白质印迹的量化显示在图18B-C中。原始量化显示在左侧条形图(图18B)中，作为全长对照的分数。为了归一化多种条件之间的差异转染效率，全长质粒和C-端质粒共表达用于转染对照的蓝色荧光蛋白。在收获细胞之前通过共聚焦荧光显微镜测定每个样品中的BFP浓度，并用于在多种条件之间进行归一化。归一化的量化显示在右侧条形图(图18C)中，作为全长对照的归一化分数。如图18C所示，与直接全长表达相比，重构Otof的表达水平约为30％。

基于这些观察结果，可以实现全长OTOF蛋白在体内的表达，例如用于治疗常染色体隐性耳聋9。例如，OTOF编码序列的第一半段附加有合成RNA二聚体化和重组域(它是内含子和结合域)并从第一载体/质粒表达。OTOF的第二半段附加到互补RNA二聚体化和重组域，并从第二载体/质粒中表达。如果在同一细胞中一起表达，则两个RNA分子在靶细胞中表达，并且OTOF编码转录物的两个半段重组形成全长OTOF转录物，然后被翻译成蛋白质。例如，与包括N-端Otof编码序列的SEQ ID NO:155和包括C-端Otof编码序列的SEQ ID NO:156具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列可用于体内表达，例如治疗听力损失。

实施例19

Myo7a的表达

本实例描述的方法用于实现全长人类肌球蛋白VIIA(Myo7a)的有效重构。

所用的5'和3'DNA分子的序列分别显示在SEQ ID NO:157和158中。5'的半段包括约3.6kb的Myo7a编码序列，3'的半段包括约3.1kb的Myo7a编码区加上C-端3xFLAG标签。包含C-端半段的3'-序列(例如，图6A的150)之前是互补结合域和有效的合成内含子序列。

为了证实Myo7a在体外的表达，使用了蛋白质印迹法。Myo7a在C-端用3xFLAG-标签标记，用于蛋白质印迹检测。构建体在HEK 293t细胞中表达2天。如图19A所示，所公开的分裂REJ系统在体外成功地表达了全长Myo7a。

蛋白质印迹的量化显示在图19B-19C中。原始量化显示在左侧条形图(图19B)中，作为全长对照的分数。为了归一化多种条件之间的差异转染效率，全长质粒和C-端质粒共表达用于转染对照的蓝色荧光蛋白。在收获细胞之前通过共聚焦荧光显微镜测定每个样品中的BFP浓度，并用于在多种条件之间进行归一化。归一化量化显示在右侧条形图(图19C)中，作为全长对照的归一化分数。如图19C所示，与直接全长表达相比，重构Myo7a的表达水平约为60％。

基于这些观察结果，可以实现体内全长MYO7A蛋白的表达，例如治疗1B型亚瑟综合征。例如，MYO7A编码序列的第一半段附加有合成RNA二聚体化和重组域(即内含子和结合域)并从第一载体/质粒中表达。MYO7A的第二半段附加到互补RNA二聚体化和重组域，并从第二载体/质粒中表达。如果在同一细胞中一起表达，则两个RNA分子在靶细胞中表达，并且MYO7A编码转录物的两个半段重组形成全长MYO7A转录物，然后被翻译成蛋白质。例如，与包括N-端Myo7a编码序列的SEQ ID NO:157和包括C-端Myo7a编码序列的SEQ ID NO:158具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列可用于体内表达。

实施例20

dCas9-VPR的表达

本实施例描述的方法用于实现与VPR转录激活域(dCas9-VPR)融合的全长酶促死亡Cas9的有效重构。

所用的5'和3'DNA分子的序列分别显示在SEQ ID NO:159和160中。5'半段包括约3.3kb的DCas9-VPR编码序列，3'半段包括约2.5kb的DCas9-VPR编码区。包含C-端半段的3'序列(例如，图6A的150)之前是互补结合域和有效的合成内含子序列。

为了证实DCas9-VPR在体外的表达，使用了蛋白质印迹法。构建体在HEK 293t细胞中表达2天。如图20A所示，所公开的分裂-REJ系统在体外成功地表达了全长DCas9-VPR。

蛋白质印迹的量化显示在图20B-20C中。原始量化显示在左侧条形图(图20B)中，作为全长对照的分数。为了归一化多种条件之间的差异转染效率，全长质粒和C-端质粒共表达用于转染对照的蓝色荧光蛋白。在收获细胞之前通过共聚焦荧光显微镜测定每个样品中的BFP浓度，并用于在多种条件之间进行归一化。归一化的量化显示在右侧条形图(图20C)中，作为全长对照的归一化分数。如图20C所示，与直接全长表达相比，重构DCas9-VPR的表达水平约为35％。当在HEK 293t细胞中与UAS靶向向导RNA一起表达时(图20D)，全长和双向分裂重构dCas9-VPR均诱导UAS-YFP质粒表达黄色荧光蛋白，证实了重构dCas9-VPR的功能。

基于这些观察结果，可以实现体内全长DCAS9-VPR蛋白的表达，例如激活或过表达基因。例如，DCAS9-VPR编码序列的第一半段附加有合成RNA二聚体化和重组域(即内含子和结合域)并从第一载体/质粒中表达。DCAS9-VPR的第二半段附加到互补RNA二聚体化和重组域，并从第二载体/质粒中表达。如果在同一细胞中一起表达，则两个RNA分子在靶细胞中表达，并且DCAS9-VPR编码转录物的两个半段重组形成全长DCAS9-VPR转录物，然后被翻译成蛋白质。例如，与包括N-端DCas9-VPR编码序列的SEQ ID NO:159和包括C-端DCas9-VPR编码序列的SEQ ID NO:160具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列可用于体内表达。

实施例21

先导编辑器的表达

本实施例描述的方法用于实现全长人源化Cas9先导编辑器(先导编辑器，PrimeEditor)的有效重构。

所用5'和3'DNA分子的序列分别显示在SEQ ID NO:161和162中。5'半段包括大约3.3kb的先导编辑器编码序列，3'半段包括大约3.0kb的先导编辑器编码区。包含C-端半段的3'-序列(例如，图6A的150)之前是互补结合域和有效的合成内含子序列。

为了证明先导编辑器在体外的表达，使用了蛋白质印迹法。构建体在HEK 293t细胞中表达2天。如图21A所示，所公开的分裂-REJ系统在体外成功地表达了全长先导编辑器。

蛋白质印迹的量化显示在图21B-21C中。原始量化显示在左侧条形图(图21B)中，作为全长对照的分数。为了归一化多种条件之间的差异转染效率，全长质粒和C-端质粒共表达用于转染对照的蓝色荧光蛋白。在收获细胞之前通过共聚焦荧光显微镜测定每个样品中的BFP浓度，并用于在多种条件之间进行归一化。归一化的量化显示在右侧条形图(图21C)中，作为全长对照的归一化分数。如图21C所示，与直接全长表达相比，重构先导编辑器的表达水平约为60％。图21D显示靶向的G到T颠换突变可以使用全长和双向分裂先导编辑器引入，证实了双向分裂先导编辑器构建体的功能。

基于这些观察结果，可以实现全长先导编辑器蛋白在体内的表达，例如用于治疗基因组点突变。例如，先导编辑器编码序列的第一半段附加了合成RNA二聚体化和重组域(即内含子和结合域)，并从第一载体/质粒中表达。先导编辑器的第二半段附加到互补RNA二聚体化和重组域，并从第二载体/质粒中表达。如果在同一细胞中一起表达，则两个RNA分子在靶细胞中表达，并且先导编辑器编码转录物的两个半段重组形成全长先导编辑器转录物，然后被翻译成蛋白质。例如，与包括N-端先导编辑器编码序列的SEQ ID NO:161和包括C-端先导编辑器编码序列的SEQ ID NO:162具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列可用于体内表达。

实施例22

AncBE4的表达

本实施例描述的方法用于实现全长人源化Cas9胞嘧啶碱基编辑器(AncBE4)的有效重组。

所用的5'和3'DNA分子的序列分别显示在SEQ ID NO:163和164中。5'半段包括约2.4kb的AncBE4编码序列，3'半段分包括约3.2kb的AncBE4编码区。包含C-端半段的3'-序列(例如，图6A的150)之前是互补结合域和有效的合成内含子序列。

为了证实AncBE4在体外的表达，使用了蛋白质印迹法。构建体在HEK 293t细胞中表达2天。如图22A所示，所公开的分裂-REJ系统在体外成功地表达了全长AncBE4。

蛋白质印迹的量化显示在图22B中。原始量化显示在左侧条形图(图22B)中，作为全长对照的分数。如图22B所示，与直接全长表达相比，重构的AncBE4以大约40-50％的水平表达。图22C显示靶向的C到T转换突变可以使用全长和双向分裂AncBE4引入，证实了双向分裂AncBE4构建体的功能。

基于这些观察结果，可以实现全长ANCBE4蛋白在体内的表达，例如用于治疗基因组点突变。例如，ANCBE4编码序列的第一半段附加有合成RNA二聚体化和重组域(即内含子和结合域)并从第一载体/质粒表达。ANCBE4的第二半段附加到互补RNA二聚体化和重组域，并从第二载体/质粒中表达。如果在同一细胞中一起表达，则两个RNA分子在靶细胞中表达，并且ANCBE4编码转录物的两个半段重组形成全长ANCBE4转录物，然后被翻译成蛋白质。例如，与包括N-端AncBE4编码序列的SEQ ID NO:163和包括C-端AncBE4编码序列的SEQ IDNO:164具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列用于体内表达。

实施例23

Abe8e的表达

本实例描述的方法用于实现全长人源化Cas9腺苷碱基编辑器(Abe8e)的有效重构。

所用的5'和3'DNA分子的序列分别显示在SEQ ID NO:165和166中。5'半段包括约2.4kb的Abe8e编码序列，3'半段包括约3.2kb的Abe8e编码区。包含C-端半段的3'-序列(例如，图6A的150)之前是互补结合域和有效的合成内含子序列。

为了证实Abe8e在体外的表达，使用了蛋白质印迹法。构建体在HEK 293t细胞中表达2天。如图23A所示，所公开的分裂REJ系统在体外成功地表达了全长Abe8e。

蛋白质印迹的量化显示在图23B中。原始量化显示在左侧条形图(图23B)中，作为全长对照的分数。如图23B所示，与直接全长表达相比，重组的Abe8e以大约70％的水平表达。图23C显示靶向的C到T转换突变可以使用全长和双向分裂Abe8e引入，证实双向分裂Abe8e构建体的功能。

基于这些观察结果，可以实现全长ABE8E蛋白在体内的表达，例如用于治疗基因组点突变。例如，ABE8E编码序列的第一半段附加有合成RNA二聚体化和重组域(即内含子和结合域)并从第一载体/质粒中表达。ABE8E的第二半段附加到互补RNA二聚体化和重组域，并从第二载体/质粒中表达。如果在同一细胞中一起表达，则两个RNA分子在靶细胞中表达，并且ABE8E编码转录物的两个半段重组形成全长ABE8E转录物，然后被翻译成蛋白质。例如，与包括N-端Abe8e编码序列的SEQ ID NO:165和包括C-端Abe8e编码序列的SEQ ID NO:166具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的序列可用于体内表达。

实施例24

增加RNA片段长度会减少双向分裂基因重组

评估了5'片段编码RNA分子和3'片段编码RNA分子长度的影响。

黄色荧光蛋白(YFP)编码序列被分成两个片段。为了延长RNA编码分子，在5'片段的5'末端和3'片段的3'末端分别设置了填充序列开放阅读框。5'yfp编码序列通过自切割2A序列融合到延长的填充序列开放阅读框。yfp的3'yfp编码序列通过自切割2A序列连接至延长的填充序列开放阅读框。在yfp的5'片段和yfp的3'片段的分裂点，设置了RNA末端连接模块(合成内含子和结合域)。自切割2A序列能够使得YFP蛋白在翻译后与各自的填充序列开放阅读框分离。通过结合不同长度的填充序列开放阅读框，组装了四个5'片段编码构建体和四个3'片段编码构建体。从这些构建体转录的RNA(蛋白质编码序列与合成内含子和结合域)的长度为：对于5'片段，1000nt、2000nt、3000nt和4000nt，对于3'片段，1000nt、2000nt、3000nt和4000nt。

在所有16个5'至3'片段对之间比较了YFP重构的效率。在此类比较中，当最短的构建体(即5'-l000 nt和3'-1000nt)配对时，YFP的重构效率最高。当填充序列较长的片段配对时，观察到重构效率下降。作为最短配对(5'-1000nt与3'-1000nt)的百分比，观察到以下YFP重构效率：

5'-1000nt与3'-1000nt：100％

5'-1000nt与3'-2000nt：～40％

5'-1000nt与3'-3000nt：～20％

5'-1000nt与3'-4000nt：～16％

5'-2000nt与3'-1000nt：～55％

5'-2000nt与3'-2000nt：～30％

5'-2000nt与3'-3000nt：～20％

5'-2000nt与3'-4000nt：～15％

5'-3000nt与3'-1000nt：～60％

5'-3000nt与3'-2000nt：～40％

5'-3000nt与3'-3000nt：～25％

5'-3000nt与3'-4000nt：～20％

5'-4000nt与3'-1000nt：～40％

5'-4000nt与3'-2000nt：～35％

5'-4000nt与3'-3000nt：～20％

5'-4000nt与3'-4000nt：～15％。

这些数据说明增加编码分裂基因5'和3'编码序列的片段长度会逐渐降低分裂基因重构的效率。

实施例25

用下游内含子剪接增强子和内含子剪接增强子序列增强RNA末端连接反应。

本实例描述的方法用于通过加入特定的剪接增强子序列来实现两个RNA分子可操作连接。

使用筛选平台研究了优选的内含子剪接增强子序列的特定有效性，其中使用由三峰吻式环RNA二聚体化域和内含子节段可变文库组成的RNA末端连接模块重构了分裂的黄色荧光蛋白(YFP)。所用的5'和3'DNA分子的序列分别显示在SEQ ID NO:171和172(序列中的N串表示内含子文库放置位点，如表2中至少一个序列，例如这些序列中的1、2、3、4或5个序列)。

为了证实体外重构yfp的表达，使用流式细胞术来确定用5'和3'DNA分子转染的HEK293t细胞中的yfp荧光强度。如图24A所示，所公开分裂-REJ系统的内含子部分被细分为单独的节段以筛选促进RNA连接反应的有效内含子剪接增强子序列。在所述构建体的5'内含子部分三个位置和3'内含子部分三个位置中使用的序列在SEQ ID NO:173至204(表2)中给出，并列于图24C中。

表2：示例性内含子剪接增强子序列

流式细胞术的量化显示在图24B中。加入内含子序列以刺激5'剪接位点选择促进剪接因子TIA-1(T细胞限制性细胞内抗原1)的募集可以增加RNA末端连接。在一些实施例中，含有WGGG基序的序列增加了RNA末端连接。

基于这些观察结果，可以通过将特定的内含子剪接增强子序列加入RNA末端连接模块的内含子部分来增强体内全长分裂蛋白的表达。例如，与SEQ ID NO:173至180、182-196或199至203中任一个具有至少80％、至少90％、至少95％、至少96％、至少97％、至少98％、至少99％或100％序列同一性的一个或更多个序列(例如1、2或3个序列)，可用于RNA末端连接反应产物(例如对于本文提供的任何实施方案可用作ISE)的体内表达。

鉴于存在可以应用本公开原理许多可能的实施方案，应该认识到所示实施方案仅是本发明的实施例并且不应被视为限制本发明的范围。相反，本发明的范围由以下权利要求限定。因此，我们将所有落入这些权利要求范围和精神内的内容作为我们的发明。

序列表

<110> 萨克生物研究学院

<120> 用于RNA分子高效重组的组合物和方法

<130> 7158-102574-07

<150> 62/933,714

<151> 2019-11-11

<150> PCT/US2020/025430

<151> 2020-03-27

<160> 206

<170> PatentIn version 3.5

<210> 1

<211> 1491

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 1

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccgcc 540

accatggtga gcaagggcga ggagctgttc accggggtgg tgcccatcct ggtcgagctg 600

gacggcgacg taaacggcca caagttcagc gtgtccggcg agggcgaggg cgatgccacc 660

tacggcaagc tgaccctgaa gttcatctgc accaccggca agctgcccgt gccctggccc 720

accctcgtga ccaccttcgg ctacggcctg atgtgcttcg cccgctaccc cgaccacatg 780

aagcagcacg acttcttcaa gtccgccatg cccgaaggct acgtccagga gcgcaccatc 840

ttcttcaagg acgacggcaa ctacaagacc cgcgccgagg tgaagttcga gggcgacacc 900

ctggtgaacc gcatcgagct gaagggcatc gacttcaagg aggacggcaa catcctgggg 960

cacaagctgg agtacaacta caacagccac aacgtctata tcatggccga caagcagaag 1020

aacggcatca aggtaagtat tagctctttc tttccatggg ttggcctcgc cgcgtgggct 1080

gagggaagga ctgtcctggg actggacagg cgggttatgg gacctgaaaa gcggccctga 1140

aaaagggccg cgatgaaaac gaagcgagct aaagcctcct ctctcttctt cagaactcct 1200

ctcttttctc tcctccagga gttcttcctc tctcccttct tctcaaatgc tttctccctc 1260

tctcctgcat ttgagctcct tctttcctct ctcgacaatc cccttttctc cctcttgatt 1320

gtcgactagc tcgcaatcat cgcggtatca aaaagcggtc aggcagctaa accaaaaggt 1380

ttagcaattg cctctgatga gtcgctgaaa tgcgacgaaa accgcttttt ggtaccaata 1440

aaatatcttt attttcatta catctgtgtg ttggtttttt gtgtgactag t 1491

<210> 2

<211> 1302

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 2

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccgcg 540

gaaaaccgcg ggataccgcg atgattgcga gctagtcgac aatcaagagg gagaaaaggg 600

gattgtcgag agaggaaaga aggagctcaa atgcaggaga gagggagaaa gcatttgaga 660

agaagggaga gaggaacaac tcgtggagga gagaaaagag acgagttgtg aagaagagag 720

aggaggcttt agctcgcttc gttttcatca ttattgcggc cctgaaaaag ggccgcttat 780

aacgttgctc gaattcgggt tatgggacca gtgaaggctg agggaaggac tgtcctggga 840

ctggacaggc gggttatggg acctgaaaat actaacaatc gatttttttt cccttttttt 900

ccaggtgaac ttcaagatcc gccacaacat cgaggacggc agcgtgcagc tcgccgacca 960

ctaccagcag aacaccccca tcggcgacgg ccccgtgctg ctgcccgaca accactacct 1020

gagctaccag tccgccctga gcaaagaccc caacgagaag cgcgatcaca tggtcctgct 1080

ggagttcgtg accgccgccg ggatcactct cggcatggac gagctgtaca aggacctttg 1140

agaattcctc acctgcgatc tcgatgcttt atttgtgaaa tttgtgatgc tattgcttta 1200

tttgtaacca ttataagctg caataaacaa gttaacaaca acaattgcat tcattttatg 1260

tttcaggttc agggggaggt gtgggaggtt ttttaaacta gt 1302

<210> 3

<211> 404

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 3

gtaagtatta gctctttctt tccatgggtt ggcctcgccg cgtgggctga gggaaggact 60

gtcctgggac tggacaggcg ggttatggga cctgaaaagc ggccctgaaa aagggccgcg 120

atgaaaacga agcgagctaa agcctcctct ctcttcttca gaactcctct cttttctctc 180

ctccaggagt tcttcctctc tcccttcttc tcaaatgctt tctccctctc tcctgcattt 240

gagctccttc tttcctctct cgacaatccc cttttctccc tcttgattgt cgactagctc 300

gcaatcatcg cggtatcaaa aagcggtcag gcagctaaac caaaaggttt agcaattgcc 360

tctgatgagt cgctgaaatg cgacgaaaac cgctttttgg tacc 404

<210> 4

<211> 382

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 4

acttctaggc gcgccgcgga aaaccgcggg ataccgcgat gattgcgagc tagtcgacaa 60

tcaagaggga gaaaagggga ttgtcgagag aggaaagaag gagctcaaat gcaggagaga 120

gggagaaagc atttgagaag aagggagaga ggaacaactc gtggaggaga gaaaagagac 180

gagttgtgaa gaagagagag gaggctttag ctcgcttcgt tttcatcatt attgcggccc 240

tgaaaaaggg ccgcttataa cgttgctcga attcgggtta tgggaccagt gaaggctgag 300

ggaaggactg tcctgggact ggacaggcgg gttatgggac ctgaaaatac taacaatcga 360

ttttttttcc ctttttttcc ag 382

<210> 5

<211> 489

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 5

atggtgagca agggcgagga gctgttcacc ggggtggtgc ccatcctggt cgagctggac 60

ggcgacgtaa acggccacaa gttcagcgtg tccggcgagg gcgagggcga tgccacctac 120

ggcaagctga ccctgaagtt catctgcacc accggcaagc tgcccgtgcc ctggcccacc 180

ctcgtgacca ccttcggcta cggcctgatg tgcttcgccc gctaccccga ccacatgaag 240

cagcacgact tcttcaagtc cgccatgccc gaaggctacg tccaggagcg caccatcttc 300

ttcaaggacg acggcaacta caagacccgc gccgaggtga agttcgaggg cgacaccctg 360

gtgaaccgca tcgagctgaa gggcatcgac ttcaaggagg acggcaacat cctggggcac 420

aagctggagt acaactacaa cagccacaac gtctatatca tggccgacaa gcagaagaac 480

ggcatcaag 489

<210> 6

<211> 237

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 6

gtgaacttca agatccgcca caacatcgag gacggcagcg tgcagctcgc cgaccactac 60

cagcagaaca cccccatcgg cgacggcccc gtgctgctgc ccgacaacca ctacctgagc 120

taccagtccg ccctgagcaa agaccccaac gagaagcgcg atcacatggt cctgctggag 180

ttcgtgaccg ccgccgggat cactctcggc atggacgagc tgtacaagga cctttga 237

<210> 7

<211> 382

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 7

acttctaggc gcgccgcgga aaaccgcggg ataccgcgat gattgcgagc tagggagaga 60

gaggggaaag aaaagagaaa gaggaggagg aaagagggga gagaggggag ggaaaggaga 120

gaagggagga agggaagaaa gaaagaagag gaaaagaggg gaggaggagg agaaaggaga 180

aaaaaagaag ggaagggaga aaggctttag ctcgcttcgt tttcatcatt attgcggccc 240

tgaaaaaggg ccgcttataa cgttgctcga attcgggtta tgggaccagt gaaggctgag 300

ggaaggactg tcctgggact ggacaggcgg gttatgggac ctgaaaatac taacaatcga 360

ttttttttcc ctttttttcc ag 382

<210> 8

<211> 301

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 8

gtaagtgtcc cgcggaacat tattataacg ttgctcgaag atatcagatg gtgcgctcct 60

ggacgtagcc ttcgggcatg gcggacttga agaagtcgtg ctgcttcatg tggtcggggt 120

agcggctgaa gcactgcacg ccgtaggtca gggtggtcac gagggtgggc cagggcacgg 180

gcagcttgcc ggtggtgcag atgaacttca gggtcagctt gccgtaggtg gcatcgccct 240

cgccctcgcc ggacacgctg aacttgtggc cgtttacgtc gccgtccagc tcgactctag 300

a 301

<210> 9

<211> 326

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 9

gctagcgtcg agctggacgg cgacgtaaac ggccacaagt tcagcgtgtc cggcgagggc 60

gagggcgatg ccacctacgg caagctgacc ctgaagttca tctgcaccac cggcaagctg 120

cccgtgccct ggcccaccct cgtgaccacc ctgacctacg gcgtgcagtg cttcagccgc 180

taccccgacc acatgaagca gcacgacttc ttcaagtccg ccatgcccga aggctacgtc 240

caggagcgca ccatctccgc ggaacattat tataacgttg ctcgaatact aactggtacc 300

tcttcttttt tttttgatat ctgcag 326

<210> 10

<211> 278

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 10

gttgccttta cttctggcgc gccaaaaggc gtgccagaag taccgggcta ataatgtttc 60

gcggtcctct taaatctgcc taaatacgta taaatttgat cgccctgaaa aagggcgatc 120

aaagccctga aaaagggcat acgtagccct gaaaaagggc aggcagagcc ctgaaaaagg 180

gcaagaggac cgcggaacat tattagccgc caccatggac aggcgggtta tgggacctga 240

aaatactaac aatcgatttt ttttcccttt ttttccag 278

<210> 11

<211> 190

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 11

acttctaggc gcgccgcgga aaaccgcggg atatcattat tgcggccctg aaaaagggcc 60

gcttataacg ttgctcgaat tcgggttatg ggaccagtga aggctgaggg aaggactgtc 120

ctgggactgg acaggcgggt tatgggacct gaaaatacta acaatcgatt ttttttccct 180

ttttttccag 190

<210> 12

<211> 459

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 12

gtaagtatta gctctttctt tccatgggtt ggcctcgccg cgtgggctga gggaaggact 60

gtcctgggac tggacaggcg ggttatggga cctgaaaagc ggccctgaaa aagggccgcg 120

atgaaaacga agcgagctaa agcctcctct ctcttcttca gaactcctct cttttctctc 180

ctccaggagt tcttcctctc tcccttcttc tcaaatgctt tctccctctc tcctgcattt 240

gagctccttc tttcctctct cgacaatccc cttttctccc tcttgattgt cgactagctc 300

gcaatcatcg cggtatcaaa aagcggtcag gcagctaaac caaaaggttt agcaattgcc 360

tctgatgagt cgctgaaatg cgacgaaaac cgctttttgg taccaataaa atatctttat 420

tttcattaca tctgtgtgtt ggttttttgt gtgactagt 459

<210> 13

<211> 382

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 13

acttctaggc gcgccgcgga aaaccgcggg ataccgcgat gattgcgagc tagtcgacaa 60

tcaagaggga gaaaagggga ttgtcgagag aggaaagaag gagctcaaat gcaggagaga 120

gggagaaagc atttgagaag aagggagaga ggaagaactc ctggaggaga gaaaagagag 180

gagttctgaa gaagagagag gaggctttag ctcgcttcgt tttcatcatt attgcggccc 240

tgaaaaaggg ccgcttataa cgttgctcga attcgggtta tgggaccagt gaaggctgag 300

ggaaggactg tcctgggact ggacaggcgg gttatgggac ctgaaaatac taacaatcga 360

ttttttttcc ctttttttcc ag 382

<210> 14

<211> 372

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 14

gtaagtatta agcggccctg aaaaagggcc gcgatgaaaa cgaagcgagc taaagcctcc 60

tctctcttct tcagaactcc tctcttttct ctcctccagg agttcttcct ctctcccttc 120

ttctcaaatg ctttctccct ctctcctgca tttgagctcc ttctttcctc tctcgacaat 180

ccccttttct ccctcttgat tgtcgactag ctcgcaatca tcgcggtatc aaaaagcggt 240

caggcagcta aaccaaaagg tttagcaatt gcctctgatg agtcgctgaa atgcgacgaa 300

aaccgctttt tggtaccaat aaaatatctt tattttcatt acatctgtgt gttggttttt 360

tgtgtgacta gt 372

<210> 15

<211> 407

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 15

gtaagtatta gctctttctt tccatgggtt ggcctcgccg cgtgaagcgg ccctgaaaaa 60

gggccgcgat gaaaacgaag cgagctaaag cctcctctct cttcttcaga actcctctct 120

tttctctcct ccaggagttc ttcctctctc ccttcttctc aaatgctttc tccctctctc 180

ctgcatttga gctccttctt tcctctctcg acaatcccct tttctccctc ttgattgtcg 240

actagctcgc aatcatcgcg gtatcaaaaa gcggtcaggc agctaaacca aaaggtttag 300

caattgcctc tgatgagtcg ctgaaatgcg acgaaaaccg ctttttggta ccaataaaat 360

atctttattt tcattacatc tgtgtgttgg ttttttgtgt gactagt 407

<210> 16

<211> 378

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 16

gtaagtatta gctctttctt tccatgggtt ggcctcgccg cgtgggctga gggaaggact 60

gtcctgggac tggacaggcg ggttatggga cctgaaaagc ggccctgaaa aagggccgcg 120

atgaaaacga agcgagctaa agcctcctct ctcttcttca gaactcctct cttttctctc 180

ctccaggagt tcttcctctc tcccttcttc tcaaatgctt tctccctctc tcctgcattt 240

gagctccttc tttcctctct cgacaatccc cttttctccc tcttgattgt cgactagctc 300

gcaatcatcg cggtatcggt accaataaaa tatctttatt ttcattacat ctgtgtgttg 360

gttttttgtg tgactagt 378

<210> 17

<211> 309

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 17

acttctaggc gcgccgcgga aaaccgcggg ataccgcgat gattgcgagc tagtcgacaa 60

tcaagaggga gaaaagggga ttgtcgagag aggaaagaag gagctcaaat gcaggagaga 120

gggagaaagc atttgagaag aagggagaga ggaagaactc ctggaggaga gaaaagagag 180

gagttctgaa gaagagagag gaggctttag ctcgcttcgt tttcatcatt attgcggccc 240

tgaaaaaggg ccgcttataa cgttgctcga attctactaa caatcgattt tttttccctt 300

tttttccag 309

<210> 18

<211> 419

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 18

atatcctttt agggcagagt gaagagttag gaggaaggtg gttgggagag ggatttccag 60

gccttaggac atcatgacag atgaaaacga agcgagctaa agcctcctct ctcttcttca 120

gaactcctct cttttctctc ctccaggagt tcttcctctc tcccttcttc tcaaatgctt 180

tctccctctc tcctgcattt gagctccttc tttcctctct cgacaatccc cttttctccc 240

tcttgattgt cgactagctc gcaatcatcg cggtatcaaa aagcggtcag gcagctaaac 300

caaaaggttt agcaattgcc tctgatgagt cgctgaaatg cgacgaaaac cgctttttgg 360

taccaataaa atatctttat tttcattaca tctgtgtgtt ggttttttgt gtgactagt 419

<210> 19

<211> 275

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 19

acttctaggc gcgccgcgga aaaccgcggg ataccgcgat gattgcgagc tagtcgacaa 60

tcaagaggga gaaaagggga ttgtcgagag aggaaagaag gagctcaaat gcaggagaga 120

gggagaaagc atttgagaag aagggagaga ggaacaactc gtggaggaga gaaaagagac 180

gagttgtgaa gaagagagag gaggctttag ctcgcttcgt tttcatcatt tccaggcctt 240

aggacatcat gacatttttc cttaactttg ctcac 275

<210> 20

<211> 3975

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 20

acttctaggc gcgccgccac catgggattc gtgcggcaga ttcagctgct gctgtggaag 60

aactggaccc tgcggaagcg gcagaaaatc agattcgtgg tggaactcgt gtggcccctg 120

agcctgtttc tggtgctgat ctggctgcgg aacgccaatc ctctgtacag ccaccacgag 180

tgtcacttcc ccaacaaggc catgccttct gccggaatgc tgccttggct gcagggcatc 240

ttctgcaacg tgaacaaccc ctgctttcaa agccccacac ctggcgaaag ccctggcatc 300

gtgtccaact acaacaacag catcctggcc agagtgtacc gggacttcca agagctgctg 360

atgaacgccc ctgagtctca gcacctgggc agaatctgga ccgagctgca catcctgagc 420

cagttcatgg acaccctgag aacacacccc gagagaatcg ccggcagggg catcagaatc 480

cgggacatcc tgaaggacga ggaaaccctg acactgttcc tcatcaagaa catcggcctg 540

agcgacagcg tggtgtacct gctgatcaac agccaagtgc ggcccgagca gtttgctcat 600

ggcgtgccag atctcgccct gaaggatatc gcctgttctg aggccctgct ggaacggttc 660

atcatcttca gccagcggag aggcgccaag accgtcagat atgccctgtg cagtctgagc 720

cagggaaccc tgcagtggat cgaggatacc ctgtacgcca acgtggactt cttcaagctg 780

ttccgggtgc tgcccacact gctggattct cggtcccaag gcatcaacct gagaagctgg 840

ggcggcatcc tgtccgacat gagcccaaga atccaagagt tcatccaccg gcctagcatg 900

caggacctgc tgtgggttac cagacctctg atgcagaacg gcggacccga gacattcacc 960

aagctgatgg gcattctgag cgatctgctg tgcggctacc ctgaaggcgg aggatctaga 1020

gtgctgagct tcaattggta cgaggacaac aactacaagg ccttcctggg catcgactcc 1080

accagaaagg accccatcta cagctacgac cggcggacaa ccagcttctg caatgccctg 1140

atccagagcc tggaaagcaa ccctctgacc aagatcgctt ggagggccgc caaacctctg 1200

ctgatgggaa agatcctgta cacccctgac agccctgccg ccagaagaat cctgaagaac 1260

gccaacagca ccttcgagga actggaacac gtgcgcaagc tggtcaaggc ctgggaagaa 1320

gtgggacctc agatctggta cttcttcgac aatagcaccc agatgaacat gatcagagac 1380

accctgggca accctaccgt gaaggacttc ctgaacagac agctgggcga agagggcatt 1440

accgccgagg ccatcctgaa ctttctgtac aagggcccca gagagtccca ggccgacgac 1500

atggccaact tcgattggcg ggacatcttc aacatcaccg acagaaccct gcggctggtc 1560

aaccagtacc tggaatgcct ggtgctggac aagttcgaga gctacaacga cgagacacag 1620

ctgacccaga gagccctgtc tctgctggaa gagaatatgt tctgggctgg cgtggtgttc 1680

cccgacatgt acccttggac aagcagcctg cctcctcacg tgaagtacaa gatccggatg 1740

gacatcgacg tggtcgaaaa gaccaacaag atcaaggacc ggtactggga cagcggccct 1800

agagctgatc ccgtggaaga ttttcgctac atctggggcg gattcgcata cctgcaggac 1860

atggtggaac agggaatcac acggtcccag gtgcaggctg aagctcctgt gggaatctac 1920

ctgcagcaga tgccttatcc ttgcttcgtg gacgacagct tcatgatcat cctgaatcgg 1980

tgcttcccca tcttcatggt gctggcctgg atctactccg tgtctatgac cgtgaagtcc 2040

atcgtgctgg aaaaagagct gcggctgaaa gagacactga agaaccaggg cgtgtccaat 2100

gccgtgatct ggtgcacctg gtttctggac agcttctcca ttatgagcat gagcatcttt 2160

ctgctgacga tcttcatcat gcacggccgg atcctgcact acagcgaccc ctttatcctc 2220

ttcctgttcc tgctggcctt ctccaccgct acaatcatgc tgtgttttct gctgtccacc 2280

ttcttctcca aagcctctct ggccgctgct tgtagcggcg tgatctactt caccctgtac 2340

ctgcctcaca tcctgtgctt cgcatggcag gacagaatga ccgccgagct gaagaaagct 2400

gtgtccctgc tgagccctgt ggcctttggc tttggcaccg agtacctcgt cagatttgag 2460

gaacaaggac tgggactgca gtggtccaac atcggcaata gccctacaga gggcgacgag 2520

ttcagcttcc tgctgtctat gcaaatgatg ctgctggacg ccgccgtgta tggactgctg 2580

gcttggtatc tggaccaggt gttccctgcc gattacggca ctcctctgcc ttggtatttc 2640

ctgctgcaag agagctactg gctcggcggc gagggatgta gcaccagaga agaaagagcc 2700

ctggaaaaga ccgagcctct gaccgaggaa acagaggacc ctgaacaccc agagggcatc 2760

cacgatagct ttttcgagag agaacacccc ggctgggtgc caggcgtgtg tgtgaagaat 2820

ctggtcaaga tcttcgagcc ctgcggcaga cctgccgtgg acagactgaa catcaccttc 2880

tacgagaacc agattaccgc ctttctgggc cacaacggcg ctggcaagac aaccacactg 2940

agcatcctca ccggcctgct gcctccaaca agcggcacag ttctcgttgg cggcagagac 3000

atcgagacaa gcctggatgc cgtcagacag tccctgggca tgtgccctca gcacaacatc 3060

ctgtttcacc acctgaccgt ggccgagcac atgctgtttt atgcccagct gaagggcaag 3120

agccaagaag aggctcagct ggaaatggaa gccatgctcg aggacaccgg cctgcaccac 3180

aagagaaatg aggaagccca ggatctgagc ggcggcatgc agagaaaact gagcgtggcc 3240

attgccttcg tgggcgacgc caaggttgtg atcctggatg agcctacaag cggcgtggac 3300

ccttacagca gaagatccat ctgggatctg ctgctgaagt acagaagcgg ccggaccatc 3360

atcatgagca cccaccacat ggacgaggcc gatctgctcg gagacagaat cgccatcatt 3420

gctcagggca gactgtactg cagcggcacc ccactgtttc tgaagaactg tttcggcacc 3480

ggactgtatc tgaccctcgt gcggaagatg aagaacatcc agtctcagcg gaagggcagc 3540

gagggcacct gtagctgttc tagcaagggc tttagcacca cctgtccagc tcacgtggac 3600

gatctgaccc ctgaacaggt gctggatggc gacgtgaacg agctgatgga cgtggtgctg 3660

caccatgtgc ctgaggccaa gctggtggaa tgcatcggcc aggtaagtat tagctctttc 3720

tttccatggg ttggcctcgc cgcgtgggct gagggaagga ctgtcctggg actggacagg 3780

cgggttatgg gacctgaagc gataaaaggc atgcacgttt gcggctacgt gcatgccaaa 3840

aggagtcggg cttgcctccg tgcccgactc caaaagacct gctcgaggag gtggacgagc 3900

aggtcaaaaa tccgggtacc aataaaatat ctttattttc attacatctg tgtgttggtt 3960

ttttgtgtga ctagt 3975

<210> 21

<211> 3611

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 21

aggatttttg acctgctcga ttgtccactg cgagcaggtc ttttggagtc gggcgaggcg 60

gaagcccgac tccttttggc atgcacgcta gccgcgtcgt gcatgccttt tatcgaattc 120

gggttatggg accagtgaag gctgagggaa ggactgtcct gggactggac aggcgggtta 180

tgggacctga aaatactaac aatcgatttt ttttcccttt ttttccagga actgattttt 240

ctgctcccga acaagaactt caagcaccgg gcctacgcca gcctgttcag agagctggaa 300

gaaaccctgg ccgacctggg cctgtctagc tttggcatca gcgacacccc tctcgaagag 360

atcttcctga aagtgacaga ggacagcgat agcggccctc tgtttgctgg cggagcacag 420

caaaagcgcg agaacgtgaa ccctagacac ccctgtctgg gcccaagaga gaaagccgga 480

cagacccctc aggacagcaa tgtgtgctct cctggtgctc ctgccgctca tcctgaggga 540

caacctccac ctgaacctga gtgtcctgga cctcagctga acaccggaac acagctggtt 600

ctgcagcacg tgcaggctct gctcgtgaag agattccagc acaccatcag aagccacaag 660

gactttctgg cccagatcgt gctgcccgcc acctttgttt ttctggctct gatgctgagc 720

atcgtgatcc ctccattcgg cgagtacccc gctctgacac tgcacccttg gatctacggc 780

cagcagtaca cctttttctc catggacgaa cccggcagcg agcagttcac agtgctggct 840

gatgtcctgc tgaacaagcc cggcttcggc aaccggtgtc tgaaagaagg atggctgcct 900

gagtaccctt gcggcaacag cacaccttgg aaaaccccta gcgtgtcccc taacatcacc 960

cagctgttcc aaaagcagaa atggacccaa gtgaacccct ctccatcctg ccggtgctcc 1020

acaagggaaa agctgaccat gctgcccgag tgtccagaag gcgctggcgg acttcctcca 1080

cctcagagaa cacagagatc caccgagatt ctccaggacc tgaccgaccg gaatatcagc 1140

gacttcctgg ttaagacata ccccgcactg atccggtcca gcctgaagtc caagttctgg 1200

gtcaacgaac agagatacgg cggcatcagc atcggcggaa aactgcctgt ggtgcctatc 1260

acaggcgagg cccttgtggg ctttctgtcc gatctgggga gaatcatgaa cgtgtccggc 1320

ggacctatca ccagggaagc cagcaaagag atccccgatt tcctgaagca cctggaaacc 1380

gaggacaata tcaaagtgtg gttcaacaac aaaggatggc acgccctcgt gtcttttctg 1440

aacgtggccc acaatgccat cctgcgggct agcctgccta aggacagaag ccctgaggaa 1500

tacggcatca ccgtgatctc ccagcctctg aatctgacca aagagcagct gagcgagatc 1560

accgtgctga ccacctctgt ggatgctgtg gtggccatct gcgtgatctt cagcatgagc 1620

ttcgtgcccg cctccttcgt gctgtacctg attcaagaga gagtgaacaa gagcaagcac 1680

ctccagttca tctccggggt gtccccaacc acctactggg tcaccaattt tctgtgggac 1740

atcatgaact acagcgtgtc agccggcctg gtcgtgggca tctttatcgg ctttcaaaag 1800

aaggcctaca cgagccccga gaacctgcct gctttggttg ctctgctgct cctgtatggc 1860

tgggccgtga ttcccatgat gtaccccgcc agctttctgt ttgacgtgcc cagcacagcc 1920

tacgtggccc tgtcttgcgc caatctgttc atcggcatca acagcagcgc catcacattc 1980

atcctggaac tgttcgagaa caacaggacc ctgctgcggt tcaacgccgt gctgcggaaa 2040

ctgctgatcg tgttccctca cttctgtctc ggccggggcc tgatcgacct ggctctgtct 2100

caagccgtga ccgatgtgta cgccagattt ggcgaggaac actccgccaa tccattccac 2160

tgggacctga tcggcaagaa cctgttcgcc atggtggtgg aaggcgtcgt gtacttcctg 2220

ctcactctgc tggtgcagag acactttttt ctgtcccaat ggatcgccga gcctaccaaa 2280

gaacccattg tggacgagga cgacgatgtg gccgaggaaa gacagagaat catcaccggc 2340

ggcaacaaga ccgatatcct gagactgcac gagctgacaa agatctaccc cggcacaagc 2400

tccccagccg tggataggct ttgtgtggga gttagacccg gcgagtgctt tggcctgctg 2460

ggagttaatg gcgccggaaa gaccaccacc ttcaagatgc tgaccggcga caccacagtg 2520

acaagcggag atgctacagt ggccggcaag agcatcctga ccaacatcag cgaagtgcat 2580

cagaacatgg gctactgccc tcagttcgac gccatcgacg aactgctgac aggccgcgaa 2640

cacctgtatc tgtatgccag actgagaggc gtgcccgctg aagagatcga gaaggtggcc 2700

aactggtcca tcaagtctct gggcctgaca gtgtacgccg actgtctggc cggaacatac 2760

agcggaggaa acaagcggaa gctgagcacc gccattgctc tgatcggatg cccacctctg 2820

gtcctgctgg atgaacccac caccggaatg gatccccagg ctagaagaat gctctggaac 2880

gtgatcgtgt ctatcatccg cgagggcaga gctgtggtgc tgacctctca ctccatggaa 2940

gagtgcgagg ctctgtgtac ccggctggcc attatggtca agggcgcctt cagatgcatg 3000

ggcaccattc agcatctgaa aagcaagttc ggcgacggct acatcgtgac aatgaagatc 3060

aagagcccca aggacgacct cctgcctgat ctgaaccccg tggaacagtt ttttcagggc 3120

aacttccccg gctccgtgca gcgggaaaga cactataaca tgctgcagtt tcaggtgtcc 3180

tcctccagcc tggctcggat ctttcaactg ctgctctctc acaaggacag cctgctgatt 3240

gaagagtaca gcgtgacaca gaccacactc gaccaggttt tcgtgaactt cgccaagcag 3300

cagaccgaga gccacgacct gcctctgcat cctcgggccg ctggtgcctc tagacaagct 3360

caggacggcg ctcgggctga ctacaaagac catgacggtg attataaaga tcatgacatc 3420

gactataagg atgacgatga caaatgaggt accaattcct cacctgcgat ctcgagcttt 3480

atttgtgaaa tttgtgatgc tattgcttta tttgtaacca ttataagctg caataaacaa 3540

gttaacaaca acaattgcat tcattttatg tttcaggttc agggggaggt gtgggaggtt 3600

ttttaaacta g 3611

<210> 22

<211> 3975

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 22

acttctaggc gcgccgccac catggcccca aagaagaagc ggaaggtcgg tatccacgga 60

gtcccagcag ccaagcggaa ctacatcctg ggcctggaca tcggcatcac cagcgtgggc 120

tacggcatca tcgactacga gacacgggac gtgatcgatg ccggcgtgcg gctgttcaaa 180

gaggccaacg tggaaaacaa cgagggcagg cggagcaaga gaggcgccag aaggctgaag 240

cggcggaggc ggcatagaat ccagagagtg aagaagctgc tgttcgacta caacctgctg 300

accgaccaca gcgagctgag cggcatcaac ccctacgagg ccagagtgaa gggcctgagc 360

cagaagctga gcgaggaaga gttctctgcc gccctgctgc acctggccaa gagaagaggc 420

gtgcacaacg tgaacgaggt ggaagaggac accggcaacg agctgtccac caaagagcag 480

atcagccgga acagcaaggc cctggaagag aaatacgtgg ccgaactgca gctggaacgg 540

ctgaagaaag acggcgaagt gcggggcagc atcaacagat tcaagaccag cgactacgtg 600

aaagaagcca aacagctgct gaaggtgcag aaggcctacc accagctgga ccagagcttc 660

atcgacacct acatcgacct gctggaaacc cggcggacct actatgaggg acctggcgag 720

ggcagcccct tcggctggaa ggacatcaaa gaatggtacg agatgctgat gggccactgc 780

acctacttcc ccgaggaact gcggagcgtg aagtacgcct acaacgccga cctgtacaac 840

gccctgaacg acctgaacaa tctcgtgatc accagggacg agaacgagaa gctggaatat 900

tacgagaagt tccagatcat cgagaacgtg ttcaagcaga agaagaagcc caccctgaag 960

cagatcgcca aagaaatcct cgtgaacgaa gaggatatta agggctacag agtgaccagc 1020

accggcaagc ccgagttcac caacctgaag gtgtaccacg acatcaagga cattaccgcc 1080

cggaaagaga ttattgagaa cgccgagctg ctggatcaga ttgccaagat cctgaccatc 1140

taccagagca gcgaggacat ccaggaagaa ctgaccaatc tgaactccga gctgacccag 1200

gaagagatcg agcagatctc taatctgaag ggctataccg gcacccacaa cctgagcctg 1260

aaggccatca acctgatcct ggacgagctg tggcacacca acgacaacca gatcgctatc 1320

ttcaaccggc tgaagctggt gcccaagaag gtggacctgt cccagcagaa agagatcccc 1380

accaccctgg tggacgactt catcctgagc cccgtcgtga agagaagctt catccagagc 1440

atcaaagtga tcaacgccat catcaagaag tacggcctgc ccaacgacat cattatcgag 1500

ctggcccgcg agaagaactc caaggacgcc cagaaaatga tcaacgagat gcagaagcgg 1560

aaccggcaga ccaacgagcg gatcgaggaa atcatccgga ccaccggcaa agagaacgcc 1620

aagtacctga tcgagaagat caagctgcac gacatgcagg aaggcaagtg cctgtacagc 1680

ctggaagcca tccctctgga agatctgctg aacaacccct tcaactatga ggtggaccac 1740

atcatcccca gaagcgtgtc cttcgacaac agcttcaaca acaaggtgct cgtgaagcag 1800

gaagaaaaca gcaagaaggg caaccggacc ccattccagt acctgagcag cagcgacagc 1860

aagatcagct acgaaacctt caagaagcac atcctgaatc tggccaaggg caagggcaga 1920

atcagcaaga ccaagaaaga gtatctgctg gaagaacggg acatcaacag gttctccgtg 1980

cagaaagact tcatcaaccg gaacctggtg gataccagat acgccaccag aggcctgatg 2040

aacctgctgc ggagctactt cagagtgaac aacctggacg tgaaagtgaa gtccatcaat 2100

ggcggcttca ccagctttct gcggcggaag tggaagttta agaaagagcg gaacaagggg 2160

tacaagcacc acgccgagga cgccctgatc attgccaacg ccgatttcat cttcaaagag 2220

tggaagaaac tggacaaggc caaaaaagtg atggaaaacc agatgttcga ggaaaagcag 2280

gccgagagca tgcccgagat cgaaaccgag caggagtaca aagagatctt catcaccccc 2340

caccagatca agcacattaa ggacttcaag gactacaagt acagccaccg ggtggacaag 2400

aagcctaata gagagctgat taacgacacc ctgtactcca cccggaagga cgacaagggc 2460

aacaccctga tcgtgaacaa tctgaacggc ctgtacgaca aggacaatga caagctgaaa 2520

aagctgatca acaagagccc cgaaaagctg ctgatgtacc accacgaccc ccagacctac 2580

cagaaactga agctgattat ggaacagtac ggcgacgaga agaatcccct gtacaagtac 2640

tacgaggaaa ccgggaacta cctgaccaag tactccaaaa aggacaacgg ccccgtgatc 2700

aagaagatta agtattacgg caacaaactg aacgcccatc tggacatcac cgacgactac 2760

cccaacagca gaaacaaggt cgtgaagctg tccctgaagc cctacagatt cgacgtgtac 2820

ctggacaatg gcgtgtacaa gttcgtgacc gtgaagaatc tggatgtgat caaaaaagaa 2880

aactactacg aagtgaatag caagtgctat gaggaagcta agaagctgaa gaagatcagc 2940

aaccaggccg agtttatcgc ctccttctac aacaacgatc tgatcaagat caacggcgag 3000

ctgtatagag tgatcggcgt gaacaacgac ctgctgaacc ggatcgaagt gaacatgatc 3060

gacatcacct accgcgagta cctggaaaac atgaacgaca agaggccccc caggatcatt 3120

aagacaatcg ccggaagcgg agctactaac ttcagcctgc tgaagcaggc tggagacgtg 3180

gaggagaacc ctggacctag gcgcgccgcc accatggtga gcaagggcga ggagctgttc 3240

accggggtgg tgcccatcct ggtcgagctg gacggcgacg taaacggcca caagttcagc 3300

gtgtccggcg agggcgaggg cgatgccacc tacggcaagc tgaccctgaa gttcatctgc 3360

accaccggca agctgcccgt gccctggccc accctcgtga ccaccttcgg ctacggcctg 3420

atgtgcttcg cccgctaccc cgaccacatg aagcagcacg acttcttcaa gtccgccatg 3480

cccgaaggct acgtccagga gcgcaccatc ttcttcaagg acgacggcaa ctacaagacc 3540

cgcgccgagg tgaagttcga gggcgacacc ctggtgaacc gcatcgagct gaagggcatc 3600

gacttcaagg aggacggcaa catcctgggg cacaagctgg agtacaacta caacagccac 3660

aacgtctata tcatggccga caagcagaag aacggcatca aggtaagtat tagctctttc 3720

tttccatggg ttggcctcgc cgcgtgggct gagggaagga ctgtcctggg actggacagg 3780

cgggttatgg gacctgaagc gataaaaggc atgcacgttt gcggctacgt gcatgccaaa 3840

aggagtcggg cttgcctccg tgcccgactc caaaagacct gctcgaggag gtggacgagc 3900

aggtcaaaaa tccgggtacc aataaaatat ctttattttc attacatctg tgtgttggtt 3960

ttttgtgtga ctagt 3975

<210> 23

<211> 3912

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 23

aggatttttg acctgctcga ttgtccactg cgagcaggtc ttttggagtc gggcgaggcg 60

gaagcccgac tccttttggc atgcacgcta gccgcgtcgt gcatgccttt tatcttcggg 120

ttatgggacc agtgaaggct gagggaagga ctgtcctggg actggacagg cgggttatgg 180

gacctgaaaa tactaacaat cgattttttt tccctttttt tccaggtgaa cttcaagatc 240

cgccacaaca tcgaggacgg cagcgtgcag ctcgccgacc actaccagca gaacaccccc 300

atcggcgacg gccccgtgct gctgcccgac aaccactacc tgagctacca gtccgccctg 360

agcaaagacc ccaacgagaa gcgcgatcac atggtcctgc tggagttcgt gaccgccgcc 420

gggatcactc tcggcatgga cgagctgtac aaggaccttg gaagcggagc tactaacttc 480

agcctgctga agcaggctgg agacgtggag gagaaccctg gacctatcac aaagaagcac 540

acagcccact tctccaagaa gggcgaagag gaaaacctgg aaggcctggg caatcagacc 600

aagcagatcg tcgagaagta cgcctgcacc accagaatca gccccaacac aagccagcag 660

aacttcgtga cccagcggag caaaagagcc ctgaagcagt ttcggctgcc cctggaagaa 720

accgagctgg aaaagcggat catcgtggac gacaccagca cacagtggtc caagaacatg 780

aagcacttga cccctagcac actgacccag atcgactaca acgagaaaga gaagggcgct 840

atcacacaga gcccactgag cgactgtctg accagaagcc acagcatccc tcaggccaac 900

agatcccctc tgccaatcgc caaagtgtct agcttcccca gcatcagacc catctacctg 960

accagagtgc tgttccagga caacagcagc catctgccag ccgccagcta ccggaagaaa 1020

gatagcggcg tgcaagagtc cagccacttt ctgcaaggcg ctaagaagaa caatctgagc 1080

ctggctattc tgaccctgga aatgaccggc gatcagagag aagtcggctc tctgggcacc 1140

agcgccacaa atagcgtgac ctacaaaaag gtggaaaaca ccgtgctgcc taagcctgac 1200

ctgccaaaga caagcggcaa ggtggaactg ctgccaaagg tgcacatcta ccagaaggac 1260

ctgtttccta ccgagacaag caacggctct cccggccatc tggatctggt ggaaggatct 1320

ctgctgcagg gaaccgaggg cgccatcaag tggaacgagg ccaatagacc tggcaaggtg 1380

cccttcctga gagtggccac agagtctagc gccaagacac cctccaaact gctggatccc 1440

ctggcctggg ataaccacta cggcactcag atccccaaag aggaatggaa gtcccaagag 1500

aagtcccctg aaaagaccgc cttcaagaag aaggacacca ttctgtccct gaatgcctgc 1560

gagagcaacc acgccattgc cgccatcaat gagggccaga acaagcccga gatcgaagtg 1620

acctgggcca agcagggaag aaccgagaga ctgtgctccc agaatcctcc tgtgctgaag 1680

cggcaccaga gagaaatcac ccggaccaca ctgcagagcg accaagaaga gatcgattac 1740

gacgatacca tcagcgtcga gatgaagaaa gaagatttcg acatctacga cgaggacgag 1800

aatcagagcc ctcggagctt ccagaagaaa accaggcact actttattgc cgccgtcgag 1860

cggctgtggg actacggaat gtctagctct cctcacgtgc tgcggaatag agcccagtct 1920

ggtagcgtgc cccagttcaa aaaggtcgtg ttccaagagt tcaccgacgg cagcttcacc 1980

cagccactgt atagaggcga gctgaacgag catctgggcc tgctgggccc ttatatcaga 2040

gccgaagtgg aagataacat catggtcacc ttccggaatc aggcctctcg gccctacagc 2100

ttctacagct ccctgatctc ctacgaagag gaccagagac agggcgcaga gccccggaag 2160

aatttcgtga agcccaacga gactaagacc tacttttgga aggtgcagca ccatatggcc 2220

cctacaaagg acgagttcga ctgcaaagcc tgggcctact tctccgatgt ggacctcgag 2280

aaggatgtgc acagcggact catcggccca ctgcttgtgt gccacaccaa cacactgaac 2340

cccgctcacg gcagacaagt gacagtgcaa gaattcgccc tgtttttcac catcttcgac 2400

gaaacgaagt cctggtactt caccgaaaac atggaaagaa actgcagggc cccttgcaac 2460

attcagatgg aagatcccac cttcaaagag aactaccggt tccacgccat caacggctac 2520

atcatggaca cactgcccgg cctggttatg gctcaggatc agagaatccg gtggtatctg 2580

ctgtccatgg gctccaacga gaatatccac tccatccact tctccggcca cgtgttcacc 2640

gtgcggaaaa aagaagagta caaaatggcc ctgtacaatc tgtaccctgg ggtgttcgaa 2700

accgttgaga tgctgcctag caaggccgga atttggagag tggaatgtct gattggagag 2760

cacctccacg ccgggatgag caccctgttt ctggtgtact ccaacaagtg tcagacccct 2820

ctcggcatgg cctctggcca cattagagac ttccagatca ccgccagcgg acagtatgga 2880

cagtgggccc ctaaactggc cagactgcac tactccggca gcatcaatgc ctggtccacc 2940

aaagagcctt tcagctggat caaagtggac ctgctggctc ccatgatcat ccacggaatc 3000

aagacccagg gcgccagaca aaagttcagc agcctgtaca tcagccagtt catcatcatg 3060

tacagcctgg acggaaagaa gtggcagacc taccggggca atagcaccgg cacactgatg 3120

gtgttcttcg gcaacgtgga ctccagcggc attaagcaca acatcttcaa ccctccaatc 3180

attgcccgat acatccggct gcaccccaca cactacagca tcaggtctac cctgagaatg 3240

gaactgatgg gctgcgacct gaacagctgc agcatgcccc tcggaatgga aagcaaggcc 3300

atcagcgacg cccagatcac agcctctagc tacttcacca acatgttcgc cacttggagc 3360

ccctctaagg cccggcttca tctgcaaggc agaagcaacg cttggaggcc ccaagtgaac 3420

aaccccaaag aatggctgca ggtcgacttt cagaaaacca tgaaagtgac aggcgtgacc 3480

acacagggcg tcaagtccct gctgacctct atgtacgtga aagagtttct gatcagctcc 3540

agccaggacg gccaccagtg gaccctgttc ttccaaaacg gcaaagtgaa agtgttccag 3600

ggaaatcagg acagcttcac acccgtggtc aactccctgg atcctccact gctgacaaga 3660

tacctgcgga ttcaccctca gtcttgggtg caccagattg ccctgcggat ggaagtgctg 3720

ggctgtgaag ctcaggacct ctactgaggt accaattcct cacctgcgat ctcgatgctt 3780

tatttgtgaa atttgtgatg ctattgcttt atttgtaacc attataagct gcaataaaca 3840

agttaacaac aacaattgca ttcattttat gtttcaggtt cagggggagg tgtgggaggt 3900

tttttaaact ag 3912

<210> 24

<211> 3828

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 24

acttctaggc gcgccgccac catgtaccca tacgatgttc cagattacgc ttatccttat 60

gacgtgcctg actacgccta tccctacgac gtccccgact atgcagtgta caagaaaacc 120

ctgttcgtgg aattcaccga ccacctgttc aatatcgcca agcctcggcc tccttggatg 180

ggactgctgg gacctacaat tcaggccgag gtgtacgaca ccgtggtcat caccctgaag 240

aacatggcca gccatcctgt gtctctgcac gccgtgggag tgtcttactg gaaggcttct 300

gagggcgccg agtacgacga tcagacaagc cagagagaga aagaggacga caaggttttc 360

cctggcggca gccacaccta tgtctggcaa gtcctgaaag aaaacggccc tatggcctcc 420

gatcctctgt gcctgacata cagctacctg agccacgtgg acctggtcaa ggacctgaat 480

tctggcctga tcggagccct gctcgtgtgt agagaaggca gcctggccaa agagaaaacc 540

cagacactgc acaagttcat cctgctgttc gccgtgttcg acgagggcaa gagctggcac 600

agcgagacaa agaacagcct gatgcaggac agggatgccg cctctgctcg ggcttggcct 660

aagatgcaca ccgtgaacgg ctacgtgaac agaagcctgc ctggactgat cggctgccac 720

agaaagtccg tgtactggca cgtgatcggc atgggcacaa cacctgaggt gcacagcatc 780

tttctggaag gacacacctt cctcgtgcgg aaccatagac aggccagcct ggaaatcagc 840

cctatcacct tcctgaccgc tcagaccctg ctgatggatc tgggccagtt tctgctgttc 900

tgccacatca gctcccacca gcacgatggc atggaagcct acgtgaaggt ggacagctgc 960

cccgaagaac cccagctgcg gatgaagaac aacgaggaag ccgaggacta cgacgacgac 1020

ctgaccgact ctgagatgga cgtcgtcaga ttcgacgacg ataacagccc cagcttcatc 1080

caaatcagaa gcgtggccaa gaagcacccc aagacctggg tgcactatat cgccgccgag 1140

gaagaggact gggattacgc tcctctggtg ctggcccctg acgacagaag ctacaagagc 1200

cagtacctga acaacggccc tcagcggatc ggccggaagt ataagaaagt gcggttcatg 1260

gcctacaccg acgagacatt caagaccaga gaggccatcc agcacgagag cggaattctg 1320

ggccctctgc tgtatggcga agtgggcgat acactgctga tcatcttcaa gaaccaggcc 1380

agcagaccct acaacatcta ccctcacggc atcaccgatg tgcggcccct gtattctaga 1440

aggctgccca agggcgtgaa gcacctgaag gacttcccta tcctgcctgg cgagatcttc 1500

aagtacaagt ggaccgtgac cgtggaagat ggccccacca agagcgaccc tagatgtctg 1560

acacggtact acagcagctt cgtgaacatg gaacgcgacc tggccagcgg cctgattgga 1620

cctctgctga tctgctacaa agaaagcgtg gaccagcggg gcaaccagat catgagcgac 1680

aagcggaacg tgatcctgtt tagcgtgttc gatgagaacc ggtcctggta tctgaccgag 1740

aacatccagc ggtttctgcc caatcctgct ggcgtgcagc tggaagatcc tgagttccag 1800

gcctccaaca tcatgcactc catcaatggc tatgtgttcg acagcctgca gctgagcgtg 1860

tgcctgcacg aagtggccta ctggtacatc ctgagcattg gcgcccagac cgacttcctg 1920

tccgtgttct tttccggcta caccttcaag cacaagatgg tgtacgagga taccctgaca 1980

ctgttcccat tctccggcga gacagtgttc atgagcatgg aaaaccccgg cctgtggatc 2040

ctgggctgtc acaacagcga cttccggaac agaggcatga cagccctgct gaaggtgtcc 2100

agctgcgaca agaacaccgg cgactactac gaggacagct atgaggacat cagcgcctac 2160

ctgctgagca agaacaatgc catcgagccc agaagcttca gccagaatag cagacacccc 2220

tccaccagac agaagcagtt caacgccaca acaatccccg agaacgacat cgagaaaacc 2280

gatccttggt ttgcccaccg gacccctatg cctaagatcc agaacgtgtc ctccagcgat 2340

ctgctgatgc tcctgagaca gagccctaca cctcacggac tgagcctgtc cgatctgcaa 2400

gaggccaaat acgaaacctt cagcgacgac ccttctcctg gcgccatcga cagcaacaat 2460

agcctgagcg agatgaccca cttcagacca cagctgcacc acagcggcga catggtgttt 2520

acacctgaga gcggcctcca gctgagactg aatgagaagc tgggaaccac cgccgccacc 2580

gagctgaaga aactggactt caaggtgtcc tctaccagca acaacctgat cagcacaatc 2640

ccctccgaca acctggctgc cggcaccgac aacacatctt ctctgggccc acctagcatg 2700

cccgtgcact acgatagcca gctggatacc acactgttcg gcaagaagtc tagccctctg 2760

acagagtctg gcggccctct gtctctgagc gaggaaaaca acgacagcaa gctgctggaa 2820

tccggcctga tgaacagcca agagtcctcc tggggcaaga atgtgtccag caccgagtcc 2880

ggcagactgt tcaagggaaa gagagcccac ggacctgctc tgctgaccaa ggataacgcc 2940

ctgttcaaag tgtccatcag cctgctcaag accaacaaga cctccaacaa ctccgccacc 3000

aacagaaaga cccacatcga cggccctagc ctgctgatcg agaatagccc tagcgtctgg 3060

cagaatatcc tggaaagcga caccgagttc aagaaagtga cccctctgat ccacgaccgg 3120

atgctcatgg acaagaacgc caccgctctg cggctgaacc acatgagcaa caagacaacc 3180

agcagcaaga atatggaaat ggtgcagcag aagaaagagg gccccattcc tccagacgct 3240

cagaaccccg atatgagctt cttcaagatg ctctttctgc ccgagagcgc ccggtggatc 3300

cagagaacac acggcaagaa ctccctgaac tccggccagg gaccttctcc aaagcagctg 3360

gtttccctgg gacctgagaa gtccgtggaa ggccagaact tcctgagcga aaagaacaaa 3420

gtggtcgtcg gcaagggcga gttcaccaag gatgtgggcc tgaaagagat ggtctttccc 3480

agcagccgga acctgttcct gaccaacctg gacaacctgc acgagaacaa cacccacaat 3540

caagagaaga agatccaaga ggtaagtatt agctctttct ttccatgggt tggcctcgcc 3600

gcgtgggctg agggaaggac tgtcctggga ctggacaggc gggttatggg acctgaagcg 3660

ataaaaggca tgcacgtttg cggctacgtg catgccaaaa ggagtcgggc ttgcctccgt 3720

gcccgactcc aaaagacctg ctcgaggagg tggacgagca ggtcaaaaat ccgggtacca 3780

ataaaatatc tttattttca ttacatctgt gtgttggttt tttgtgtg 3828

<210> 25

<211> 3802

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 25

aggatttttg acctgctcga ttgtccactg cgagcaggtc ttttggagtc gggcgaggcg 60

gaagcccgac tccttttggc atgcacgcta gccgcgtcgt gcatgccttt tatcttcggg 120

ttatgggacc agtgaaggct gagggaagga ctgtcctggg actggacagg cgggttatgg 180

gacctgaaaa tactaacaat cgattttttt tccctttttt tccaggaaat cgaaaagaaa 240

gagacactca tccaagagaa cgtggtgctg cctcagatcc acacagtgac cggcaccaag 300

aactttatga agaatctgtt cctgctgagt acccggcaga atgtggaagg cagctacgac 360

ggcgcttatg cccctgtgct gcaagacttc agatccctga acgactccac caatcggaca 420

aagaagcaca cagcccactt ctccaagaag ggcgaagagg aaaacctgga aggcctgggc 480

aatcagacca agcagatcgt cgagaagtac gcctgcacca ccagaatcag ccccaacaca 540

agccagcaga acttcgtgac ccagcggagc aaaagagccc tgaagcagtt tcggctgccc 600

ctggaagaaa ccgagctgga aaagcggatc atcgtggacg acaccagcac acagtggtcc 660

aagaacatga agcacttgac ccctagcaca ctgacccaga tcgactacaa cgagaaagag 720

aagggcgcta tcacacagag cccactgagc gactgtctga ccagaagcca cagcatccct 780

caggccaaca gatcccctct gccaatcgcc aaagtgtcta gcttccccag catcagaccc 840

atctacctga ccagagtgct gttccaggac aacagcagcc atctgccagc cgccagctac 900

cggaagaaag atagcggcgt gcaagagtcc agccactttc tgcaaggcgc taagaagaac 960

aatctgagcc tggctattct gaccctggaa atgaccggcg atcagagaga agtcggctct 1020

ctgggcacca gcgccacaaa tagcgtgacc tacaaaaagg tggaaaacac cgtgctgcct 1080

aagcctgacc tgccaaagac aagcggcaag gtggaactgc tgccaaaggt gcacatctac 1140

cagaaggacc tgtttcctac cgagacaagc aacggctctc ccggccatct ggatctggtg 1200

gaaggatctc tgctgcaggg aaccgagggc gccatcaagt ggaacgaggc caatagacct 1260

ggcaaggtgc ccttcctgag agtggccaca gagtctagcg ccaagacacc ctccaaactg 1320

ctggatcccc tggcctggga taaccactac ggcactcaga tccccaaaga ggaatggaag 1380

tcccaagaga agtcccctga aaagaccgcc ttcaagaaga aggacaccat tctgtccctg 1440

aatgcctgcg agagcaacca cgccattgcc gccatcaatg agggccagaa caagcccgag 1500

atcgaagtga cctgggccaa gcagggaaga accgagagac tgtgctccca gaatcctcct 1560

gtgctgaagc ggcaccagag agaaatcacc cggaccacac tgcagagcga ccaagaagag 1620

atcgattacg acgataccat cagcgtcgag atgaagaaag aagatttcga catctacgac 1680

gaggacgaga atcagagccc tcggagcttc cagaagaaaa ccaggcacta ctttattgcc 1740

gccgtcgagc ggctgtggga ctacggaatg tctagctctc ctcacgtgct gcggaataga 1800

gcccagtctg gtagcgtgcc ccagttcaaa aaggtcgtgt tccaagagtt caccgacggc 1860

agcttcaccc agccactgta tagaggcgag ctgaacgagc atctgggcct gctgggccct 1920

tatatcagag ccgaagtgga agataacatc atggtcacct tccggaatca ggcctctcgg 1980

ccctacagct tctacagctc cctgatctcc tacgaagagg accagagaca gggcgcagag 2040

ccccggaaga atttcgtgaa gcccaacgag actaagacct acttttggaa ggtgcagcac 2100

catatggccc ctacaaagga cgagttcgac tgcaaagcct gggcctactt ctccgatgtg 2160

gacctcgaga aggatgtgca cagcggactc atcggcccac tgcttgtgtg ccacaccaac 2220

acactgaacc ccgctcacgg cagacaagtg acagtgcaag aattcgccct gtttttcacc 2280

atcttcgacg aaacgaagtc ctggtacttc accgaaaaca tggaaagaaa ctgcagggcc 2340

ccttgcaaca ttcagatgga agatcccacc ttcaaagaga actaccggtt ccacgccatc 2400

aacggctaca tcatggacac actgcccggc ctggttatgg ctcaggatca gagaatccgg 2460

tggtatctgc tgtccatggg ctccaacgag aatatccact ccatccactt ctccggccac 2520

gtgttcaccg tgcggaaaaa agaagagtac aaaatggccc tgtacaatct gtaccctggg 2580

gtgttcgaaa ccgttgagat gctgcctagc aaggccggaa tttggagagt ggaatgtctg 2640

attggagagc acctccacgc cgggatgagc accctgtttc tggtgtactc caacaagtgt 2700

cagacccctc tcggcatggc ctctggccac attagagact tccagatcac cgccagcgga 2760

cagtatggac agtgggcccc taaactggcc agactgcact actccggcag catcaatgcc 2820

tggtccacca aagagccttt cagctggatc aaagtggacc tgctggctcc catgatcatc 2880

cacggaatca agacccaggg cgccagacaa aagttcagca gcctgtacat cagccagttc 2940

atcatcatgt acagcctgga cggaaagaag tggcagacct accggggcaa tagcaccggc 3000

acactgatgg tgttcttcgg caacgtggac tccagcggca ttaagcacaa catcttcaac 3060

cctccaatca ttgcccgata catccggctg caccccacac actacagcat caggtctacc 3120

ctgagaatgg aactgatggg ctgcgacctg aacagctgca gcatgcccct cggaatggaa 3180

agcaaggcca tcagcgacgc ccagatcaca gcctctagct acttcaccaa catgttcgcc 3240

acttggagcc cctctaaggc ccggcttcat ctgcaaggca gaagcaacgc ttggaggccc 3300

caagtgaaca accccaaaga atggctgcag gtcgactttc agaaaaccat gaaagtgaca 3360

ggcgtgacca cacagggcgt caagtccctg ctgacctcta tgtacgtgaa agagtttctg 3420

atcagctcca gccaggacgg ccaccagtgg accctgttct tccaaaacgg caaagtgaaa 3480

gtgttccagg gaaatcagga cagcttcaca cccgtggtca actccctgga tcctccactg 3540

ctgacaagat acctgcggat tcaccctcag tcttgggtgc accagattgc cctgcggatg 3600

gaagtgctgg gctgtgaagc tcaggacctc tactgaggta ccaattcctc acctgcgatc 3660

tcgatgcttt atttgtgaaa tttgtgatgc tattgcttta tttgtaacca ttataagctg 3720

caataaacaa gttaacaaca acaattgcat tcattttatg tttcaggttc agggggaggt 3780

gtgggaggtt ttttaaacta gt 3802

<210> 26

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 26

tggggggagg 10

<210> 27

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 27

gtagtgaggg 10

<210> 28

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 28

gttggtggtt 10

<210> 29

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 29

agttgtggtt 10

<210> 30

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 30

gtattgggtc 10

<210> 31

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 31

agtgtgaggg 10

<210> 32

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 32

gggtaatggg 10

<210> 33

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 33

tcattggggt 10

<210> 34

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 34

ggtgggggtc 10

<210> 35

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 35

ggttttgttg 10

<210> 36

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 36

tatactcccg 10

<210> 37

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 37

gtattcgatc 10

<210> 38

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 38

gtagttccct 10

<210> 39

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 39

gttaatagta 10

<210> 40

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 40

tgctggttag 10

<210> 41

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 41

ataggtaacg 10

<210> 42

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 42

tctgaattgc 10

<210> 43

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 43

tctgggtttg 10

<210> 44

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 44

cattctcttt 10

<210> 45

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 45

gtattggtgt 10

<210> 46

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 46

tttagatttg 10

<210> 47

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 47

ataagtactg 10

<210> 48

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 48

tagtctatta 10

<210> 49

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 49

aggtattgca 10

<210> 50

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 50

gtagattacg 10

<210> 51

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 51

gggcgggtgc 10

<210> 52

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 52

cgtttacaat 10

<210> 53

<211> 11

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 53

gtacagggat g 11

<210> 54

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 54

aatcagggga 10

<210> 55

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 55

ggaggttttg 10

<210> 56

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 56

gtattccctg 10

<210> 57

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 57

tggtaagatc 10

<210> 58

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 58

gtagttaagt 10

<210> 59

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 59

gttggtttgg 10

<210> 60

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 60

gtatttactt 10

<210> 61

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 61

gtaacggggt 10

<210> 62

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 62

tttttttctg 10

<210> 63

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 63

ggggaaggga 10

<210> 64

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 64

ttaccccggt 10

<210> 65

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 65

gtattctatg 10

<210> 66

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 66

aggtattgtg 10

<210> 67

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 67

tttggggggg 10

<210> 68

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 68

gttgttagcg 10

<210> 69

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 69

ggtagttggg 10

<210> 70

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 70

ctaagtactg 10

<210> 71

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 71

aaccatcttc 10

<210> 72

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 72

gtacctgggt 10

<210> 73

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 73

gtatctcatt 10

<210> 74

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 74

aaataaaatt 10

<210> 75

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 75

ggtgggttat 10

<210> 76

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 76

taagggaggg 10

<210> 77

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 77

tatgggaggg 10

<210> 78

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 78

gatgggaggg 10

<210> 79

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 79

tggggggggt 10

<210> 80

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 80

ggggaagggg 10

<210> 81

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 81

tggtaagagg 10

<210> 82

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 82

gggttagggt 10

<210> 83

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 83

gtatcggggg 10

<210> 84

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 84

ggttttgctg 10

<210> 85

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 85

tgggggtgga 10

<210> 86

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 86

acttttagag 10

<210> 87

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 87

gtaacgggtt 10

<210> 88

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 88

gtttggggga 10

<210> 89

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 89

atttttagag 10

<210> 90

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 90

ttaaagtagg 10

<210> 91

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 91

gtattaatat 10

<210> 92

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 92

ggtttgggtg 10

<210> 93

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 93

tatgggaaag 10

<210> 94

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 94

ggttgggagg 10

<210> 95

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 95

gtatttagtg 10

<210> 96

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 96

gagttaaatg 10

<210> 97

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 97

ttgtaagttg 10

<210> 98

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 98

tgggggtagg 10

<210> 99

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 99

gttcttaggg 10

<210> 100

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 100

gtattctaag 10

<210> 101

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 101

ggaggttttg 10

<210> 102

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 102

agaatatgta 10

<210> 103

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 103

atctttcggg 10

<210> 104

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 104

ttgcattgaa 10

<210> 105

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 105

ggtgggattt 10

<210> 106

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 106

tttatctaat 10

<210> 107

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 107

gcgggtggtg 10

<210> 108

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 108

ggtttagata 10

<210> 109

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 109

tttatgcgtt 10

<210> 110

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 110

tgggtaaggc 10

<210> 111

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 111

gggggtggtc 10

<210> 112

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 112

gtagtatatt 10

<210> 113

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 113

ggaggtattt 10

<210> 114

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 114

gtattgtaag 10

<210> 115

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 115

tttacgggag 10

<210> 116

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 116

tagttctggg 10

<210> 117

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 117

ccacgtctat 10

<210> 118

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 118

agtgggtagg 10

<210> 119

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 119

caatttttac 10

<210> 120

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 120

ggtctggggg 10

<210> 121

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 121

atcaagattg 10

<210> 122

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 122

gttagctaaa 10

<210> 123

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 123

agtgtggggt 10

<210> 124

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 124

ggtatgtggg 10

<210> 125

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 125

gtagtgtggg 10

<210> 126

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 126

aggaggtgtt 10

<210> 127

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 127

gttggtaggt 10

<210> 128

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 128

gtaggtggtt 10

<210> 129

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 129

aggtgttggt 10

<210> 130

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 130

tatggttgtg 10

<210> 131

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 131

ttaggttagt 10

<210> 132

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 132

gattggagtt 10

<210> 133

<211> 10

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 133

gtagagtgga 10

<210> 134

<211> 24

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 134

cucuuucuuu uccauggguu ggcu 24

<210> 135

<211> 24

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 135

ggcugaggga aggacugucc uggg 24

<210> 136

<211> 13

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 136

ggguuauggg acc 13

<210> 137

<211> 12

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 137

auauccuuuu ua 12

<210> 138

<211> 12

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 138

guauccuuuu ua 12

<210> 139

<211> 33

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 139

aggcuucgga gcaaggaggc agcuccgaag ccu 33

<210> 140

<211> 33

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 140

aggcuucgga gcaagccucc agcuccgaag ccu 33

<210> 141

<211> 29

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 141

gucgaggccg agcgggcaaa ggccucgac 29

<210> 142

<211> 29

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 142

gucgaggccg agcccgcaaa ggccucgac 29

<210> 143

<211> 10

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<220>

<221> misc_feature

<222> (1)..(3)

<223> n是a、c、g或u

<220>

<221> misc_feature

<222> (8)..(10)

<223> n是a、c、g或u

<400> 143

nnnaggunnn 10

<210> 144

<211> 12

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 144

uuuuccuuaa cu 12

<210> 145

<211> 1305

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 145

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccgcc 540

accatggtga gcaagggcga ggagctgttc accggggtgg tgcccatcct ggtcgagctg 600

gacggcgacg taaacggcca caagttcagc gtgtccggcg agggcgaggg cgatgccacc 660

tacggcaagc tgaccctgaa gttcatctgc accaccggca agctgcccgt gccctggccc 720

accctcgtga ccaccttcgg ctacggcctg atgtgcttcg cccgctaccc cgaccacatg 780

aagcagcacg acttcttcaa gtccgccatg cccgaaggct acgtccagga gcgcaccatc 840

ttcttcaagg taagtattag ctctttcttt ccatgggttg gcctcgccgc gtgggctgag 900

ggaaggactg tcctgggact ggacaggcgg gttatgggac ctgaaaagcg gccctgaaaa 960

agggccgcga tctgtagaaa gcgagctagt gccggacagt tagaggaaaa ggggaagaac 1020

tgtccgaaaa aaggggggga agacagtgac tagaaaggga agggagaagt cactgtagag 1080

gggaaggaaa aggctagcta gaggagaagg aaagaggcta gctagcagag gagaaggaaa 1140

ggcgccagca gttcggtgct atcaaaaagc ggtcaggcag ctaaaccaaa aggtttagca 1200

attgcctctg atgagtcgct gaaatgcgac gaaaaccgct ttttggtacc aataaaatat 1260

ctttattttc attacatctg tgtgttggtt ttttgtgtga ctagt 1305

<210> 146

<211> 1543

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 146

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccgcg 540

gaaaaccgcg ggatagcacc gaactgctgg cgcctttcct tctcctctgc tagctagcct 600

ctttccttct cctctagcta gccttttcct tcccctctac agtgacttct cccttccctt 660

tctagtcact gtcttccccc ccttttttcg gacagttctt ccccttttcc tctaactgtc 720

cggcactagc tcgctttcta cagatcatta ttgcggccct gaaaaagggc cgcttataac 780

gttgctcgaa ttcgggttat gggaccagtg aaggctgagg gaaggactgt cctgggactg 840

gacaggcggg ttatgggacc tgaaaatact aacaatcgat tttttttccc tttttttcca 900

ggacgacggc aactacaaga cccgcgccga ggtgaagttc gagggcgaca ccctggtgaa 960

ccgcatcgag ctgaagggca tcgacttcaa ggaggacggc aacatcctgg ggcacaagct 1020

ggagtacaac tacaacagcc acaacgtcta tatcatggcc gacaagcaga agaacggcat 1080

caaggtaagt attagctctt tctttccatg ggttggcctc gccgcgtggg ctgagggaag 1140

gactgtcctg ggactggaca ggcgggttat gggacctgaa aagcggccct gaaaaagggc 1200

cgcagcgaaa acgaagcgag ctaaagcctc ctctctcttc ttcagaactc ctctcttttc 1260

tctcctccag gagttcttcc tctctccctt cttctcaaat gctttctccc tctctcctgc 1320

atttgagctc cttctttcct ctctcgacaa tccccttttc tccctcttga ttgtcgacta 1380

gctcgcaatc atcgcggtgc taaaaagcgg tcaggcagct aaaccaaaag gtttagcaat 1440

tgcctctgat gagtcgctga aatgcgacga aaaccgcttt ttggtaccaa taaaatatct 1500

ttattttcat tacatctgtg tgttggtttt ttgtgtgact agt 1543

<210> 147

<211> 1571

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 147

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccacc 540

atgagccagt tcgacatcct gtgcaagacc ccccccaagg tgctggtgcg gcagttcgtg 600

gagagattcg agaggcccag cggcgagaag atcgccagct gtgccgccga gctgacctac 660

ctgtgctgga tgatcaccca caacggcacc gccatcaaga gggccacctt catgagctac 720

aacaccatca tcagcaacag cctgagcttc gacatcgtga acaagagcct gcagttcaag 780

tacaagaccc agaaggccac catcctggag gccagcctga agaagctgat ccccgcctgg 840

gagttcacca tcatccctta caacggccag aagcaccaga gcgacatcac cgacatcgtg 900

tccagcctgc agctgcagtt cgagagcagc gaggaggccg acaagggcaa cagccacagc 960

aagaagatgc tgaaggccct gctgtccgag ggcgagagca tctgggagat caccgagaag 1020

atcctgaaca gcttcgagta caccagcagg ttcaccaaga ccaagaccct gtaccagttc 1080

ctgttcctgg ccacattcat caactgcggc aggtaagtat tagctctttc tttccatggg 1140

ttggcctcgc cgcgtgggct gagggaagga ctgtcctggg actggacagg cgggttatgg 1200

gacctgaaaa gcggccctga aaaagggccg cgatgaaaac gaagcgagct aaagcctcct 1260

ctctcttctt cagaactcct ctcttttctc tcctccagga gttcttcctc tctcccttct 1320

tctcaaatgc tttctccctc tctcctgcat ttgagctcct tctttcctct ctcgacaatc 1380

cccttttctc cctcttgatt gtcgactagc tcgcaatcat cgcggtatca aaaagcggtc 1440

aggcagctaa accaaaaggt ttagcaattg cctctgatga gtcgctgaaa tgcgacgaaa 1500

accgcttttt ggtaccaata aaatatcttt attttcatta catctgtgtg ttggtttttt 1560

gtgtgactag t 1571

<210> 148

<211> 1765

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 148

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccgcg 540

gaaaaccgcg ggataccgcg atgattgcga gctagtcgac aatcaagagg gagaaaaggg 600

gattgtcgag agaggaaaga aggagctcaa atgcaggaga gagggagaaa gcatttgaga 660

agaagggaga gaggaagaac tcctggagga gagaaaagag aggagttctg aagaagagag 720

aggaggcttt agctcgcttc gttttcatca ttattgcggc cctgaaaaag ggccgcttat 780

aacgttgctc gaattcgggt tatgggacca gtgaaggctg agggaaggac tgtcctggga 840

ctggacaggc gggttatggg acctgaaaat actaacaatc gatttttttt cccttttttt 900

ccaggttcag cgacatcaag aacgtggacc ccaagagctt caagctggtg cagaacaagt 960

acctgggcgt gatcattcag tgcctggtga ccgagaccaa gacaagcgtg tccaggcaca 1020

tctacttttt cagcgccaga ggcaggatcg accccctggt gtacctggac gagttcctga 1080

ggaacagcga gcccgtgctg aagagagtga acaggaccgg caacagcagc agcaacaagc 1140

aggagtacca gctgctgaag gacaacctgg tgcgcagcta caacaaggcc ctgaagaaga 1200

acgcccccta ccccatcttc gctatcaaga acggccctaa gagccacatc ggcaggcacc 1260

tgatgaccag ctttctgagc atgaagggcc tgaccgagct gacaaacgtg gtgggcaact 1320

ggagcgacaa gagggcctcc gccgtggcca ggaccaccta cacccaccag atcaccgcca 1380

tccccgacca ctacttcgcc ctggtgtcca ggtactacgc ctacgacccc atcagcaagg 1440

agatgatcgc cctgaaggac gagaccaacc ccatcgagga gtggcagcac atcgagcagc 1500

tgaagggcag cgccgagggc agcatcagat accccgcctg gaacggcatc atcagccagg 1560

aggtgctgga ctacctgagc agctacatca acaggcggat ctgagaattc ctcacctgcg 1620

atctcgatgc tttatttgtg aaatttgtga tgctattgct ttatttgtaa ccattataag 1680

ctgcaataaa caagttaaca acaacaattg cattcatttt atgtttcagg ttcaggggga 1740

ggtgtgggag gttttttaaa ctagt 1765

<210> 149

<211> 10

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 149

aaagaaggaa 10

<210> 150

<211> 12

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 150

cuuucuuuuc uu 12

<210> 151

<211> 11

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<220>

<221> misc_feature

<222> (1)..(3)

<223> n是a、c、g或u

<220>

<221> misc_feature

<222> (8)..(11)

<223> n是a、c、g或u

<400> 151

nnnaggunnn n 11

<210> 152

<211> 11

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<220>

<221> misc_feature

<222> (1)..(3)

<223> n是a、c、g或u

<220>

<221> misc_feature

<222> (8)..(11)

<223> n是a、c、g或u

<400> 152

nnnuggunnn n 11

<210> 153

<211> 11

<212> RNA

<213> 人工序列

<220>

<223> 合成核酸序列

<220>

<221> misc_feature

<222> (3)..(8)

<223> n是a、c、g或u

<400> 153

gannnnnnaa a 11

<210> 154

<211> 12

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 154

gccgccacca tg 12

<210> 155

<211> 4311

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 155

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccgcc 540

gccaccatgg ctctgatcgt gcacctgaaa accgtgtccg agctgagagg caagggcgac 600

agaatcgcca aagtgacctt cagaggccag agcttctaca gcagagtgct ggaaaactgc 660

gaaggcgtgg ccgacttcga cgagacattc agatggcctg tggccagcag catcgacaga 720

aacgaggtgc tcgagatcca gatcttcaac tacagcaagg tgttcagcaa caagctgatc 780

gggaccttct gcatggtgct gcagaaagtg gtggaagaga accgcgtgga agtgaccgac 840

acactgatgg acgacagcaa cgccatcatc aagaccagcc tgagcatgga agtgcgctac 900

caggccacag atggcacagt cggaccttgg gacgatggcg atttcctggg agatgagagc 960

ctgcaagagg aaaaggacag ccaagagaca gacggcctgc tgcctggctc tcggcctagc 1020

acaagaatca gcggcgagaa gtccttcaga agcaagggca gagaaaagac caaaggcggc 1080

agagatggcg agcacaaggc tggcagatct gtgttcagcg ccatgaagct gggcaagacc 1140

agaagccaca aagaggaacc ccagagacag gacgagccag ccgttctgga aatggaagat 1200

ctcgaccatc tggccatcca gctcggcgac ggacttgacc ctgattctgt gtctctggcc 1260

agcgtgacag ccctgacaag caacgtgtcc aacaagagaa gcaagcccga catcaagatg 1320

gaacccagcg ccggcagacc catggattac caggtgtcca tcaccgtgat cgaggccaga 1380

cagctcgtgg gcctgaacat ggatcctgtc gtgtgtgtgg aagtgggcga cgacaaaaag 1440

tacaccagca tgaaggaaag caccaactgt ccctactaca acgagtactt cgtgttcgac 1500

ttccacgtgt ccccagacgt gatgttcgac aagatcatta agatcagcgt gatccacagc 1560

aagaacctgc tgagaagcgg cacactcgtg ggcagcttta agatggacgt gggcaccgtg 1620

tacagccagc cagagcacca gtttcaccac aagtgggcca tcctgagcga ccccgatgat 1680

atctctgctg gcctgaaggg ctacgtgaag tgtgatgtgg ctgtcgtcgg caaaggcgac 1740

aacatcaaga caccccacaa ggccaacgag actgacgagg acgatatcga gggcaacctg 1800

ctgctgccag aaggcgtgcc accagaaaga cagtgggcca gattctatgt gaagatctac 1860

agagccgagg gcctgcctag aatgaacaca agcctgatgg ccaacgtgaa gaaggctttc 1920

atcggcgaga acaaggacct ggtggacccc tacgtccagg tgttcttcgc tggacagaaa 1980

ggcaagacct ccgtgcagaa gtccagctac gagcccctgt ggaacgaaca ggtggtgttc 2040

accgatctgt tccctccact gtgcaagaga atgaaggtgc agatccggga cagcgacaaa 2100

gtgaacgatg tggccatcgg cacccacttc atcgacctga gaaagatcag caacgacggc 2160

gacaagggct tcctgcctac acttggacct gcctgggtca acatgtacgg cagcaccaga 2220

aactacaccc tgctggacga gcaccaggac ctgaacgaag gactcggaga gggcgtgtcc 2280

ttccgggcta gactgatgct gggactcgcc gtggaaatcc tggacacaag caaccctgag 2340

ctgaccagca gcacagaggt gcaggttgaa caggccacac ctgtgtctga gagctgcacc 2400

ggcagaatgg aagagttctt cctgttcggc gccttcctgg aagcctccat gatcgataga 2460

aagaacggcg ataagcccat caccttcgaa gtgaccatcg gcaactacgg caacgaggtg 2520

gacggcatgt ctagacccct ccggcctaga ccaagaaaag agcccggcga cgaggaagag 2580

gtggacctga tccagaacag cagcgacgat gagggcgacg aagctggcga tctggcaagc 2640

gttagcagca cccctcctat gaggccccag atcaccgacc ggaactactt tcatctgccc 2700

tacctggaaa gaaagccctg catctacatc aagagctggt ggcctgacca gagaaggcgg 2760

ctgtacaacg ctaacatcat ggaccatatc gccgacaagc tggaagaggg actgaacgac 2820

gtccaagaga tgatcaagac cgagaagtct taccccgaga gaaggctgag gggcgtgctc 2880

gaggaactga gctgtggatg ccacagattt ctgagcctgt ccgacaagga ccagggcaga 2940

agcagcagaa ccagactgga tagagagcgg ctgaagtcct gcatgcgcga gctggaatct 3000

atgggccagc aggccaagag cctgagagcc caagtgaaga gacacaccgt gcgggacaag 3060

ctgagatcct gccagaactt cctgcagaag ctgcggttcc tggccgatga gcctcagcac 3120

tctatccccg acgtgttcat ctggatgatg agcaacaaca agaggatcgc ctacgccaga 3180

gtgcccagca aggatctgct gtttagcatc gtggaagagg aactcggcaa ggactgcgcc 3240

aaagtcaaga ccctgttcct gaagctgcca ggcaagagag gcttcggctc tgctggatgg 3300

acagtgcagg ctaagctgga actgtacctg tggctgggcc tgagcaagca gagaaaggac 3360

ttcctgtgcg gcctgccttg cggcttcgaa gaagtgaagg ctgctcaagg cctgggcctg 3420

cacagcttcc ctccaatctc tctggtgtac acaaagaagc aggccttcca gctgagggcc 3480

cacatgtacc aggctagatc tctgttcgcc gccgactcta gcggcctgtc tgatcctttc 3540

gctcgggtgt tcttcatcaa ccagagccag tgcaccgagg tgctgaacga gacactgtgt 3600

cctacctggg accagatgct ggtctttgac aacctcgagc tgtacggcga ggctcacgaa 3660

ctgagagatg accctcctat catcgtcatc gagatctacg accaggacag catgggcaaa 3720

gccgacttca tgggcagaac cttcgccaag cctctggtca agatggccga cgaggcttac 3780

tgccctcctc ggttcccacc tcagctcgag tactaccaga tctaccgggg ctctgctaca 3840

gccggcgatc tgctggctgc ttttgagctg ctgcaaatcg gccctagcgg caaggctgat 3900

ctgcctccaa tcaacggccc tgtggacatg gacagaggcc ccattatgcc tgtgcctgtg 3960

ggcatcagac ccgtgctgag caagtacaga gtggaagtgc tgttttgggg cctgcgcgac 4020

ctgaagagag tgaacctggc tcaggtaagt attagctctt tctttccatg ggttggcctc 4080

gccgcgtggg ctgagggaag gactgtcctg ggactggaca ggcgggttat gggacctgaa 4140

gcgataaaag gcatgcacgt ttgcggctac gtgcatgcca aaaggagtcg ggcttgcctc 4200

cgtgcccgac tccaaaagac ctgctcgagg aggtggacga gcaggtcaaa aatccgggta 4260

ccaataaaat atctttattt tcattacatc tgtgtgttgg ttttttgtgt g 4311

<210> 156

<211> 3467

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 156

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttaggatttt tgacctgctc 540

gattgtccac tgcgagcagg tcttttggag tcgggcgagg cggaagcccg actccttttg 600

gcatgcacgc tagccgcgtc gtgcatgcct tttatcttcg ggttatggga ccagtgaagg 660

ctgagggaag gactgtcctg ggactggaca ggcgggttat gggacctgaa aatactaaca 720

atcgattttt tttccctttt tttccaggtg gacagaccca gagtggatat cgagtgtgct 780

ggcaaagggg tgcagagcag cctgatccat aactacaaga agaaccccaa cttcaacacc 840

ctggtcaagt ggttcgaagt ggatctgccc gagaacgaac tgctgcaccc acctctgaac 900

atcagagtgg tggactgcag agccttcggc agatacaccc tcgtgggatc tcacgccgtg 960

tctagcctga gaagattcat ctacagacct ccagacagaa gcgcccctaa ctggaacaca 1020

acaggcgagg tggtggtgtc catggaaccc gaggaacccg tgaagaaact ggaaaccatg 1080

gtcaagctgg acgccacctc cgatgctgtc gtgaaagtgg acgtggccga ggacgagaaa 1140

gagcgcaaga agaagaaaaa gaagggcccc agcgaggaac ctgaagagga agaacctgac 1200

gagagcatgc tggactggtg gtccaagtac ttcgcctcca tcgacacaat gaaggaacag 1260

ctgagacagc acgagacaag cggcaccgac ctcgaagaga aagaagagat ggaatccgcc 1320

gaaggactga agggccctat gaagtccaaa gagaagtcta gggccgccaa agaagagaaa 1380

aaaaagaaga accagtctcc tggaccaggc cagggatctg aggctcccga aaagaaaaag 1440

gccaagatcg acgagctgaa ggtgtacccc aaagagctgg aaagcgagtt cgacagcttc 1500

gaggactggc tgcacacctt caatctgctg agaggaaaga caggcgacga cgaggatggc 1560

agcactgaag aagagagaat cgtcggcaga ttcaagggca gcctgtgcgt gtacaaggtg 1620

ccactgcctg aggacgtgtc cagagaggct ggctacgatc ctacctacgg catgttccaa 1680

ggcatcccta gcaacgaccc catcaatgtg ctcgtgcgga tctatgtcgt gcgggccact 1740

gatctgcatc ccgccgatat caacggcaag gcagacccct atatcgctat caagctgggg 1800

aaaaccgaca tcagggacaa agagaactac atcagcaagc agctgaaccc cgtgttcggc 1860

aagagcttcg acatcgaggc tagcttcccc atggaatcca tgctgaccgt ggccgtgtac 1920

gactgggatc tcgtgggaac agacgacctg atcggagaga caaagattga cctggaaaac 1980

cggttctact ccaagcaccg ggccacctgt ggaatcgccc agacctactc tatccacggc 2040

tacaacatct ggcgggaccc catgaagcct agccagatcc tgaccaggct gtgcaaagaa 2100

ggcaaggtcg acggccctca ctttggacct cacggccggg tcagagtggc caacagagtg 2160

ttcacaggcc cctccgagat cgaggatgag aacggccaga gaaagcccac cgatgagcat 2220

gtggctctga gcgctctgag acactgggaa gatatcccta gagtgggctg cagactggtg 2280

cccgagcacg tggaaacaag acccctgctg aacccagaca agcccggaat cgaacagggc 2340

agactcgaac tgtgggtcga catgttccct atggacatgc ccgcacctgg cacaccactg 2400

gacatcagcc ctaggaagcc caagaaatac gagctgcgcg tgatcgtgtg gaacaccgac 2460

gaagtggtgc tggaagatga cgacttcttc accggcgaaa agtccagcga catcttcgtc 2520

agaggatggc tgaagggaca gcaagaggat aagcaggaca ccgacgtgca ctaccacagc 2580

cttacaggcg aaggcaactt taactggcgc tacctgtttc ctttcgacta cctggccgcc 2640

gaagagaaga tcgtgatgtc caagaaagaa tctatgttca gctgggacga gacagagtac 2700

aagatccccg ccagactgac cctgcagatc tgggatgccg atcacttcag cgccgacgac 2760

tttctgggag ccatcgagct ggacctgaat agattcccca gaggcgccaa gaccgccaag 2820

cagtgcacaa tggaaatggc cactggcgag gtcgacgtgc cactggtgtc tatcttcaag 2880

cagaagcgcg tcaaaggctg gtggcccctg ctggctagaa acgagaacga cgagttcgag 2940

ctgaccggaa aggtggaagc cgagctgcat ctgctgacag ctgaagaggc cgagaagaat 3000

cctgtgggcc tcgctaggaa tgagcccgat cctctggaaa agcccaacag acccgatacc 3060

gccttcgtgt ggtttctgaa cccactgaag tccatcaagt acctgatctg tacccggtac 3120

aagtggctga ttatcaagat cgtgctggcc ctgctggggc tgctgatgct tgctctgttc 3180

ctgtactccc tgcctggcta tatggtcaag aagctgctgg gcgccggcgc tcgggctgac 3240

tacaaagacc atgacggtga ttataaagat catgacatcg actataagga tgacgatgac 3300

aaatgaggta ccaattcctc acctgcgatc tcgatgcttt atttgtgaaa tttgtgatgc 3360

tattgcttta tttgtaacca ttataagctg caataaacaa gttaacaaca acaattgcat 3420

tcattttatg tttcaggttc agggggaggt gtgggaggtt ttttaaa 3467

<210> 157

<211> 4392

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 157

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccgcc 540

accatggtca ttctgcagca gggcgaccac gtgtggatgg atctgagact gggccaagag 600

ttcgacgtgc caatcggcgc cgtggtcaag ctgtgtgatt ctggccaggt gcaagtcgtg 660

gacgacgagg ataatgagca ctggatcagc cctcagaacg ccacacacat caagcctatg 720

caccccacat ctgtgcacgg cgtggaagat atgatccggc tgggcgatct gaacgaggcc 780

ggcatcctga gaaacctgct gatcagatac cgggaccacc tgatctacac ctacaccggc 840

tctatcctgg tggccgtgaa tccctaccag ctgctgagca tctacagccc cgagcacatc 900

cggcagtaca ccaacaagaa aatcggcgag atgcctcctc acatcttcgc cattgccgac 960

aactgctact tcaacatgaa gcggaacagc cgggaccagt gctgcatcat ctctggcgaa 1020

tctggcgccg gaaagaccga gagcacaaag ctgatcctgc agttcctggc cgccatcagc 1080

ggacagcact cttggattga gcagcaggtc ctggaagcca cacctattct ggaagccttc 1140

ggcaacgcca agaccatccg gaacgacaac agcagcagat tcggcaaata catcgacatc 1200

cacttcaaca agagaggcgc cattgagggc gccaagatcg agcagtacct gctggaaaag 1260

tccagagtgt gcagacaggc cctggacgag agaaactacc acgtgttcta ctgcatgctg 1320

gaaggcatga gcgaggacca gaagaagaag ctcggactcg gccaggccag cgactacaat 1380

tatctggcca tgggcaactg catcacatgc gagggcagag tggacagcca agagtacgcc 1440

aacatccgca gcgccatgaa ggtgctgatg ttcaccgaca ccgagaactg ggagatcagc 1500

aaactgctgg ccgctatcct gcatctgggc aacctgcagt acgaggccag aaccttcgag 1560

aacctggatg cctgcgaggt gctgttctct ccttccctgg ctaccgccgc ctctctgctg 1620

gaagtgaacc ctcctgatct gatgagctgc ctgaccagca gaaccctgat caccagaggc 1680

gagacagtgt ctacccctct gagcagagaa caggctctgg atgtgcggga cgccttcgtg 1740

aagggcatct acggcagact gttcgtgtgg atcgtggaca agatcaacgc cgccatctac 1800

aagcctccaa gccaggacgt gaagaacagc agaagatcca tcggcctgct ggacatcttc 1860

ggcttcgaga atttcgccgt gaacagcttc gagcagctgt gcatcaactt cgccaacgag 1920

cacctccagc agttcttcgt gcggcacgtg ttcaagctgg aacaagagga atacgacctg 1980

gaatccatcg actggctgca catcgagttc accgataacc aggacgccct ggacatgatc 2040

gccaacaagc ccatgaacat catcagcctg atcgacgagg aaagcaagtt ccccaagggc 2100

accgatacca ccatgctgca caagctgaac agccagcaca aactgaatgc caactacatc 2160

ccgcctaaga acaaccacga gacacagttc ggcatcaacc acttcgccgg catcgtgtac 2220

tacgaaaccc agggctttct ggaaaagaac cgggacaccc tgcacggcga catcattcag 2280

ctggtgcaca gcagccggaa caagttcatc aagcagatct tccaggccga cgtcgccatg 2340

ggagccgaga caagaaagag aagccccaca ctgagcagcc agttcaagcg gagtctggaa 2400

ctgctgatga gaaccctggg agcctgccag cctttctttg tgcggtgcat caagcccaac 2460

gagttcaaga aacccatgct gttcgaccgg cacctgtgtg tgcggcagct gagatacagc 2520

ggcatgatgg aaaccatcag gattcggaga gccggctatc ccatccggta cagcttcgtg 2580

gaattcgtcg agcggtacag agtgctgctg cctggcgtga agcctgccta caaacagggc 2640

gatctcagag gcacctgtca gagaatggcc gaagccgtgc tgggcaccca tgacgattgg 2700

cagatcggaa agacaaagat cttcctgaag gaccaccacg acatgctgct cgaggtggaa 2760

agagacaagg ccatcaccga cagagtgatc ctgctccaga aagtgatccg gggcttcaag 2820

gacagaagca atttcctgaa gctgaagaat gccgccactc tgatccagag acactggcgg 2880

ggacacaact gccggaagaa ctacggcctg atgaggctgg gcttcctgag actgcaggcc 2940

ctgcacagaa gcagaaagct gcaccagcag tacagactgg cccggcagcg gatcatccag 3000

tttcaagcca gatgtcgggc ctacctcgtg cgcaaggcct tcagacatag actgtgggcc 3060

gtgctgaccg tgcaggccta tgccagagga atgattgccc gcagactgca ccagagactg 3120

agagccgagt atctgtggcg gctggaagcc gagaaaatgc ggctggccga ggaagagaag 3180

ctgcggaaag agatgagcgc caagaaggcc aaagaagagg ccgagcggaa gcaccaagag 3240

agactggctc aactggccag agaggacgcc gagagagagc tgaaagagaa agaggccgcc 3300

agacggaaga aagaactcct ggaacagatg gaacgggcca gacacgagcc cgtgaaccac 3360

agcgatatgg tggataagat gttcggcttc ctgggcacct ctggcggact gcctggacaa 3420

gaaggacagg cccctagcgg ctttgaggac ctggaacgtg ggagaagaga aatggtggaa 3480

gaggatctgg acgccgctct gcctctgcct gacgaggatg aagaagatct gagcgagtac 3540

aagttcgcca agtttgccgc cacctacttt caaggcacca ccacacacag ctacaccaga 3600

aggcctctga agcagcccct gctgtaccac gatgatgagg gcgatcaact ggcagccctg 3660

gccgtgtgga ttaccatcct cagattcatg ggcgacctgc ctgagcctaa gtaccacacc 3720

gccatgtctg acggctccga gaagatcccc gtgatgacca agatctacga gactctgggc 3780

aagaaaacct acaagcgcga gctgcaggct ctccaaggcg aaggcgaagc tcaactgcct 3840

gagggccaga aaaagtcctc tgtgcgccac aaactggtgc acctgacact gaagaagaaa 3900

agcaagctga cagaggaagt gaccaagcgg ctgcacgatg gcgagtctac agtgcagggc 3960

aacagcatgc tcgaggacag acccaccagc aacctggaaa aactgcactt catcatcggc 4020

aacggaatcc tgcggcctgc tctgagggat gagatctact gccagatctc caagcagctg 4080

acacacaacc ccagcaagag cagctacgcc agaggctgga ttctggtaag tattagctct 4140

ttctttccat gggttggcct cgccgcgtgg gctgagggaa ggactgtcct gggactggac 4200

aggcgggtta tgggacctga agcgataaaa ggcatgcacg tttgcggcta cgtgcatgcc 4260

aaaaggagtc gggcttgcct ccgtgcccga ctccaaaaga cctgctcgag gaggtggacg 4320

agcaggtcaa aaatccgggt accaataaaa tatctttatt ttcattacat ctgtgtgttg 4380

gttttttgtg tg 4392

<210> 158

<211> 4055

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 158

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttaggatttt tgacctgctc 540

gattgtccac tgcgagcagg tcttttggag tcgggcgagg cggaagcccg actccttttg 600

gcatgcacgc tagccgcgtc gtgcatgcct tttatcttcg ggttatggga ccagtgaagg 660

ctgagggaag gactgtcctg ggactggaca ggcgggttat gggacctgaa aatactaaca 720

atcgattttt tttccctttt tttccaggtg tctctgtgcg tgggctgttt cgccccaagc 780

gagaagttcg tgaagtacct gaggaacttc atccacggcg gacctccagg ctacgcccct 840

tactgtgaag agaggctgag aaggaccttt gtgaacggca cccggacaca gcctccatcc 900

tggctggaac tccaggccac caagagcaaa aagcccatca tgctgcccgt gacctttatg 960

gatggcacca caaagaccct gctgaccgat agcgccacca ccgccaaaga gctgtgtaac 1020

gccctggctg acaagattag cctgaaggat agattcggct tcagcctgta cattgccctg 1080

ttcgacaagg tgtccagcct cggctctggc tctgaccatg tgatggatgc catcagccag 1140

tgcgagcagt atgccaaaga acagggcgcc caagagagga acgctccttg gcggctgttc 1200

tttcggaaag aggtgttcac cccttggcac agccccagcg aagataacgt ggccaccaat 1260

ctgatctacc agcaagttgt gcggggcgtg aagttcggcg agtacagatg cgaaaaagag 1320

gacgatctgg ccgagctggc ctctcagcag tactttgtgg actacggcag cgagatgatc 1380

ctggaacggc tgctgaatct ggtgcccacc tacattcccg atcgggagat caccccactg 1440

aaaaccctcg agaagtgggc ccagctggcc attgctgccc acaagaaagg catctatgcc 1500

cagcggagaa cagacgccca gaaagtcaaa gaggatgtcg ttagctacgc ccggttcaag 1560

tggcctctgc tgtttagccg gttctacgag gcctacaagt tcagcggccc cagtctgccc 1620

aagaacgatg tgatcgtggc tgtgaactgg accggcgtgt acttcgtgga tgagcaagaa 1680

caagtgctgc ttgagctgag cttccccgag atcatggccg tgtccagctc cagagaatgc 1740

agagtgtggc tgagcctggg ctgtagcgat ctgggatgtg ccgctcctca ttctggatgg 1800

gctggactga caccagccgg accttgtagc ccttgttggt cttgccgggg ggccaagaca 1860

acagccccta gctttaccct ggccaccatt aagggcgacg agtacacctt caccagcagc 1920

aacgccgagg acatcagaga tctggtcgtg accttcctgg aaggcctgcg gaagcggagc 1980

aaatatgtgg tggccctgca ggacaacccc aatcctgctg gcgaggaatc cggctttctg 2040

agctttgcca aaggcgacct gatcatcctg gaccacgaca ccggcgagca agtgatgaat 2100

agcggctggg ccaacggcat caatgagcgg acaaagcagc ggggcgactt ccctaccgat 2160

agcgtgtacg tgatgcccac cgtgaccatg cctccaaggg aaatcgtggc cctggtcacc 2220

atgacacccg accagagaca ggatgttgtg cggctgctgc agctgaggac agccgaacca 2280

gaagtgcggg ccaagcctta cacactggaa gagttcagct acgactactt ccggcctcct 2340

ccaaagcaca ccctgtctag agtgatggtg tccaaggcca gaggcaagga taggctgtgg 2400

tcccacacaa gagagcccct gaaacaggca ctgctgaaaa agctgctggg cagcgaggaa 2460

ctgagccaag aagcctgtct ggcctttatc gccgtgctga agtacatggg cgattacccc 2520

tccaagcgga ccagatccgt gaacgaactg accgaccaga ttttcgaggg cccactgaag 2580

gccgagcctc tgaaagatga ggcctacgtg cagattctga aacagctgac cgacaaccac 2640

atccgctaca gcgaggaacg cggatgggaa ctgctgtggc tgtgtaccgg actgttccca 2700

cctagcaaca ttctgctgcc ccacgtgcag cggtttctgc agtctagaaa gcactgccct 2760

ctggccatcg attgcctgca gaggctgcaa aaggccctga gaaatggctc ccggaagtac 2820

cctcctcacc tggtggaagt ggaagccatc cagcacaaga ccacacagat ctttcacaag 2880

gtctacttcc ccgacgacac agacgaggcc tttgaggtgg aatcctctac caaggccaag 2940

gacttctgcc agaatatcgc caccaggctg ctgctgaagt ccagcgaagg ctttagcctg 3000

tttgtgaaga tcgccgacaa agtgctgagc gtgcccgaga acgacttctt tttcgatttt 3060

gtgcgccatc tgaccgactg gattaagaag gctagaccca tcaaggatgg catcgtgccc 3120

agcctgacct atcaggtgtt ctttatgaag aagctgtgga cgaccaccgt gcctggcaag 3180

gatcctatgg ccgacagcat cttccactac taccaagagc tgcccaagta cctgcggggc 3240

taccacaagt gtaccagaga agaggtcctg cagctgggag ccctgatcta tagagtgaag 3300

tttgaagagg acaagagcta cttccctagc atccccaagc tgctgcgcga actggttccc 3360

caggatctga tccggcaagt gtcccctgat gactggaagc ggtctatcgt ggcctacttt 3420

aacaagcacg ccggcaagag taaagaggaa gccaagctgg cctttctgaa gctcatcttt 3480

aagtggccta ccttcggctc cgccttcttc gaagtgaagc agaccaccga gcctaacttc 3540

cctgagattc tgctgatcgc catcaacaaa tacggcgtgt ccctgatcga tcccaagaca 3600

aaggacatcc tgacaacaca ccccttcacc aaaatcagca actggtccag cggcaacacc 3660

tacttccaca tcaccatcgg caatctcgtg cggggctcta agctgctgtg tgaaaccagc 3720

ctgggataca agatggacga cctgctgaca agctacatct cccagatgct gaccgccatg 3780

agcaaacaga gaggctctcg gagcggcaag tggggcgctc gggctgacta caaagaccat 3840

gacggtgatt ataaagatca tgacatcgac tataaggatg acgatgacaa atgaggtacc 3900

aattcctcac ctgcgatctc gatgctttat ttgtgaaatt tgtgatgcta ttgctttatt 3960

tgtaaccatt ataagctgca ataaacaagt taacaacaac aattgcattc attttatgtt 4020

tcaggttcag ggggaggtgt gggaggtttt ttaaa 4055

<210> 159

<211> 4161

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 159

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccgcc 540

accatgaaga gaaccgccga cggcagcgag ttcgagagcc ctaagaaaaa gcggaaggtg 600

gacaagaagt acagcatcgg cctggctatc ggcaccaatt ctgttggctg ggccgtgatc 660

accgacgagt acaaggtgcc cagcaagaaa ttcaaggtgc tgggcaacac cgaccggcac 720

agcatcaaga agaatctgat cggcgccctg ctgttcgact ctggcgaaac agccgaagcc 780

accagactga agaggacagc cagacggcgg tacaccagaa gaaagaaccg gatctgctac 840

ctgcaagaga tcttcagcaa cgagatggcc aaggtggacg acagcttctt ccaccggctg 900

gaagagtcct tcctggtgga agaggataag aagcacgagc ggcaccccat cttcggcaac 960

atcgtggatg aggtggccta ccacgagaag taccccacca tctaccacct gagaaagaaa 1020

ctggtggaca gcaccgacaa ggccgacctg agactgatct atctggccct ggctcacatg 1080

atcaagttcc ggggccactt cctgatcgag ggcgacctga atcctgacaa cagcgacgtg 1140

gacaagctgt tcatccagct ggtgcagacc tacaaccagc tgttcgagga aaaccccatc 1200

aacgccagcg gagtggatgc caaggccatc ctgtctgccc ggctgagcaa gagcagacgg 1260

ctggaaaacc tgatcgctca gctgcccggc gagaagaaga atggcctgtt cggcaacctg 1320

attgccctga gcctgggcct gacacctaac ttcaagagca acttcgacct ggccgaggac 1380

gccaaactgc agctgtccaa ggacacctac gacgacgacc tggacaatct gctggcccag 1440

atcggcgatc agtacgccga cttgtttctg gccgccaaga acctgtccga cgccatcctg 1500

ctgagcgaca tcctgagagt gaacaccgag atcacaaagg cccctctgag cgcctctatg 1560

atcaagagat acgacgagca ccaccaggat ctgaccctgc tgaaggccct cgttagacag 1620

cagctgcctg agaagtacaa agagattttc ttcgaccaga gcaagaacgg ctacgccggc 1680

tacattgatg gcggagccag ccaagaggaa ttctacaagt tcatcaagcc catcctcgag 1740

aagatggacg gcaccgagga actgctggtc aagctgaaca gagaggacct gctgcggaag 1800

cagcggacct tcgacaatgg ctctatccct caccaaatcc acctgggaga gctgcacgcc 1860

attctgcgga gacaagagga cttttaccca ttcctgaagg acaaccggga aaagattgag 1920

aagatcctga ccttcaggat cccctactac gtgggaccac tggccagagg caatagcaga 1980

ttcgcctgga tgaccagaaa gagcgaggaa accatcacac cctggaactt cgaggaagtg 2040

gtggataagg gcgccagcgc tcagtccttc atcgagcgga tgaccaactt cgataagaac 2100

ctgcctaacg agaaggtgct gcccaagcac agcctgctgt acgagtactt caccgtgtac 2160

aacgagctga ccaaagtgaa atacgtgacc gagggaatga gaaagcccgc ctttctgagc 2220

ggcgagcaga aaaaggccat tgtggatctg ctgttcaaga ccaaccggaa agtgaccgtg 2280

aagcagctga aagaggacta cttcaagaaa atcgagtgct tcgacagcgt ggaaatcagc 2340

ggcgtggaag atcggttcaa tgccagcctg ggcacatacc acgacctgct gaaaattatc 2400

aaggacaagg acttcctgga caacgaagag aacgaggaca tcctggaaga tatcgtgctg 2460

accctgacac tgtttgagga cagagagatg atcgaggaac ggctgaaaac atacgcccac 2520

ctgttcgacg acaaagtgat gaagcaactg aagcggcgga gatacaccgg ctggggcaga 2580

ctgtctcgga agctgatcaa cggcatccgg gataagcagt ccggcaagac catcctggac 2640

tttctgaagt ccgacggctt cgccaatcgg aacttcatgc agctgatcca cgacgacagc 2700

ctgaccttta aagaggatat ccagaaagcc caggtgtccg gccagggcga ttctctgcat 2760

gagcacattg ccaacctggc cggctctccc gccattaaga agggcattct gcagacagtg 2820

aaggtggtgg acgagctggt caaagtcatg ggcagacaca agcccgagaa catcgtgatc 2880

gaaatggcca gagagaacca gaccacacag aagggccaga agaacagccg cgagagaatg 2940

aagcggatcg aagagggcat caaagagctg ggcagccaga tcctgaaaga acaccccgtg 3000

gaaaacaccc agctgcagaa cgagaagctg tacctgtact acctccaaaa cggccgggat 3060

atgtatgtgg accaagagct ggacatcaac cggctgtccg actacgatgt ggacgctatc 3120

gtgccccagt cttttctgaa agacgactcc atcgacaaca aggtcctgac cagaagcgac 3180

aagaaccggg gcaagagcga taacgtgccc tccgaagagg tcgtgaagaa gatgaagaac 3240

tactggcgac agctgctgaa cgccaagctg attacccagc ggaagttcga taacctgacc 3300

aaggccgaga gaggcggcct gtctgaactg gataaggccg gcttcatcaa gagacagctg 3360

gtggaaaccc ggcagatcac caaacacgtg gcacagattc tggactcccg gatgaacact 3420

aagtacgacg agaatgacaa gctgatccgg gaagtgaaag tgatcaccct gaagtccaag 3480

ctggtgtccg atttccggaa ggatttccag ttctacaaag tgcgcgagat caacaactac 3540

catcacgccc acgacgccta cctgaatgcc gttgttggaa cagccctgat caagaagtat 3600

cccaagctgg aatccgagtt cgtgtacggc gactacaagg tgtacgacgt gcggaagatg 3660

atcgccaaga gcgagcaaga gattggcaag gctaccgcca agtacttctt ctacagcaac 3720

atcatgaact ttttcaagac cgagattacc ctggccaacg gcgagatcag aaagcggcct 3780

ctgatcgaga caaacggcga aaccggcgag attgtgtggg acaagggcag agattttgcc 3840

accgtgcgga aagtgctgag catgccccaa gtgaatatcg tgaaaaagac cgaggtaagt 3900

attagctctt tctttccatg ggttggcctc gccgcgtggg ctgagggaag gactgtcctg 3960

ggactggaca ggcgggttat gggacctgaa gcgataaaag gcatgcacgt ttgcggctac 4020

gtgcatgcca aaaggagtcg ggcttgcctc cgtgcccgac tccaaaagac ctgctcgagg 4080

aggtggacga gcaggtcaaa aatccgggta ccaataaaat atctttattt tcattacatc 4140

tgtgtgttgg ttttttgtgt g 4161

<210> 160

<211> 3410

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 160

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttaggatttt tgacctgctc 540

gattgtccac tgcgagcagg tcttttggag tcgggcgagg cggaagcccg actccttttg 600

gcatgcacgc tagccgcgtc gtgcatgcct tttatcttcg ggttatggga ccagtgaagg 660

ctgagggaag gactgtcctg ggactggaca ggcgggttat gggacctgaa aatactaaca 720

atcgattttt tttccctttt tttccaggtg cagacaggcg gcttcagcaa agagtccatt 780

ctgcccaaga gaaacagcga taagctgatc gcccggaaga aggactggga ccctaagaag 840

tacggcggct tcgatagccc taccgtggcc tattctgtgc tggtggtggc caaagtggaa 900

aagggcaagt ccaagaaact caagagcgtg aaagagctgc tggggatcac catcatggaa 960

agaagcagct tcgagaagaa tcctatcgat ttcctcgagg ccaagggcta caaagaagtg 1020

aaaaaggacc tgatcatcaa gctccccaag tactccctgt tcgagctgga aaatggccgg 1080

aagcggatgc tggcttctgc tggcgaactg cagaagggaa acgaactggc cctgcctagc 1140

aaatatgtga acttcctgta cctggccagc cactatgaga agctgaaggg cagccccgag 1200

gacaatgagc aaaagcagct gtttgtggaa cagcacaagc actacctgga cgagatcatc 1260

gagcagatct ccgagttctc caagagagtg atcctggccg acgctaatct ggacaaagtg 1320

ctgtccgcct acaacaagca ccgggacaag cctatcagag agcaggccga gaatatcatc 1380

cacctgttta ccctgaccaa tctgggagcc cctgccgcct tcaagtactt tgacaccacc 1440

atcgaccgga agcgctacac cagcaccaaa gaggtgctgg acgccacact gatccaccag 1500

tctatcaccg gcctgtacga gacacggatc gacctgtctc agctcggagg cgatagcagg 1560

gctgacccca agaagaagag gaaggtgtcg ccagggatcc gtcgacttga cgcgttgata 1620

tcaacaagtt tgtacaaaaa agcaggctac aaagaggcca gcggttccgg acgggctgac 1680

gcattggacg attttgatct ggatatgctg ggaagtgacg ccctcgatga ttttgacctt 1740

gacatgcttg gttcggatgc ccttgatgac tttgacctcg acatgctcgg cagtgacgcc 1800

cttgatgatt tcgacctgga catgctgatt aactctagaa gttccggatc tccgaaaaag 1860

aaacgcaaag ttggtagcca gtacctgccc gacaccgacg accggcaccg gatcgaggaa 1920

aagcggaagc ggacctacga gacattcaag agcatcatga agaagtcccc cttcagcggc 1980

cccaccgacc ctagacctcc acctagaaga atcgccgtgc ccagcagatc cagcgccagc 2040

gtgccaaaac ctgcccccca gccttacccc ttcaccagca gcctgagcac catcaactac 2100

gacgagttcc ctaccatggt gttccccagc ggccagatct ctcaggcctc tgctctggct 2160

ccagcccctc ctcaggtgct gcctcaggct cctgctcctg caccagctcc agccatggtg 2220

tctgcactgg ctcaggcacc agcacccgtg cctgtgctgg ctcctggacc tccacaggct 2280

gtggctccac cagcccctaa acctacacag gccggcgagg gcacactgtc tgaagctctg 2340

ctgcagctgc agttcgacga cgaggatctg ggagccctgc tgggaaacag caccgatcct 2400

gccgtgttca ccgacctggc cagcgtggac aacagcgagt tccagcagct gctgaaccag 2460

ggcatccctg tggcccctca caccaccgag cccatgctga tggaataccc cgaggccatc 2520

acccggctcg tgacaggcgc tcagaggcct cctgatccag ctcctgcccc tctgggagca 2580

ccaggcctgc ctaatggact gctgtctggc gacgaggact tcagctctat cgccgatatg 2640

gatttctcag ccttgctggg ctctggcagc ggcagccggg attccaggga agggatgttt 2700

ttgccgaagc ctgaggccgg ctccgctatt agtgacgtgt ttgagggccg cgaggtgtgc 2760

cagccaaaac gaatccggcc atttcatcct ccaggaagtc catgggccaa ccgcccactc 2820

cccgccagcc tcgcaccaac accaaccggt ccagtacatg agccagtcgg gtcactgacc 2880

ccggcaccag tccctcagcc actggatcca gcgcccgcag tgactcccga ggccagtcac 2940

ctgttggagg atcccgatga agagacgagc caggctgtca aagcccttcg ggagatggcc 3000

gatactgtga ttccccagaa ggaagaggct gcaatctgtg gccaaatgga cctttcccat 3060

ccgcccccaa ggggccatct ggatgagctg acaaccacac ttgagtccat gaccgaggat 3120

ctgaacctgg actcacccct gaccccggaa ttgaacgaga ttctggatac cttcctgaac 3180

gacgagtgcc tcttgcatgc catgcatatc agcacaggac tgtccatctt cgacacatct 3240

ctgttttgag gtaccaattc ctcacctgcg atctcgatgc tttatttgtg aaatttgtga 3300

tgctattgct ttatttgtaa ccattataag ctgcaataaa caagttaaca acaacaattg 3360

cattcatttt atgtttcagg ttcaggggga ggtgtgggag gttttttaaa 3410

<210> 161

<211> 4161

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 161

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccgcc 540

accatgaaga gaaccgccga cggcagcgag ttcgagagcc ctaagaaaaa gcggaaggtg 600

gacaagaagt acagcatcgg cctggacatc ggcaccaatt ctgttggctg ggccgtgatc 660

accgacgagt acaaggtgcc cagcaagaaa ttcaaggtgc tgggcaacac cgaccggcac 720

agcatcaaga agaatctgat cggcgccctg ctgttcgact ctggcgaaac agccgaagcc 780

accagactga agaggacagc cagacggcgg tacaccagaa gaaagaaccg gatctgctac 840

ctgcaagaga tcttcagcaa cgagatggcc aaggtggacg acagcttctt ccaccggctg 900

gaagagtcct tcctggtgga agaggataag aagcacgagc ggcaccccat cttcggcaac 960

atcgtggatg aggtggccta ccacgagaag taccccacca tctaccacct gagaaagaaa 1020

ctggtggaca gcaccgacaa ggccgacctg agactgatct atctggccct ggctcacatg 1080

atcaagttcc ggggccactt cctgatcgag ggcgacctga atcctgacaa cagcgacgtg 1140

gacaagctgt tcatccagct ggtgcagacc tacaaccagc tgttcgagga aaaccccatc 1200

aacgccagcg gagtggatgc caaggccatc ctgtctgccc ggctgagcaa gagcagacgg 1260

ctggaaaacc tgatcgctca gctgcccggc gagaagaaga atggcctgtt cggcaacctg 1320

attgccctga gcctgggcct gacacctaac ttcaagagca acttcgacct ggccgaggac 1380

gccaaactgc agctgtccaa ggacacctac gacgacgacc tggacaatct gctggcccag 1440

atcggcgatc agtacgccga cttgtttctg gccgccaaga acctgtccga cgccatcctg 1500

ctgagcgaca tcctgagagt gaacaccgag atcacaaagg cccctctgag cgcctctatg 1560

atcaagagat acgacgagca ccaccaggat ctgaccctgc tgaaggccct cgttagacag 1620

cagctgcctg agaagtacaa agagattttc ttcgaccaga gcaagaacgg ctacgccggc 1680

tacattgatg gcggagccag ccaagaggaa ttctacaagt tcatcaagcc catcctcgag 1740

aagatggacg gcaccgagga actgctggtc aagctgaaca gagaggacct gctgcggaag 1800

cagcggacct tcgacaatgg ctctatccct caccaaatcc acctgggaga gctgcacgcc 1860

attctgcgga gacaagagga cttttaccca ttcctgaagg acaaccggga aaagattgag 1920

aagatcctga ccttcaggat cccctactac gtgggaccac tggccagagg caatagcaga 1980

ttcgcctgga tgaccagaaa gagcgaggaa accatcacac cctggaactt cgaggaagtg 2040

gtggataagg gcgccagcgc tcagtccttc atcgagcgga tgaccaactt cgataagaac 2100

ctgcctaacg agaaggtgct gcccaagcac agcctgctgt acgagtactt caccgtgtac 2160

aacgagctga ccaaagtgaa atacgtgacc gagggaatga gaaagcccgc ctttctgagc 2220

ggcgagcaga aaaaggccat tgtggatctg ctgttcaaga ccaaccggaa agtgaccgtg 2280

aagcagctga aagaggacta cttcaagaaa atcgagtgct tcgacagcgt ggaaatcagc 2340

ggcgtggaag atcggttcaa tgccagcctg ggcacatacc acgacctgct gaaaattatc 2400

aaggacaagg acttcctgga caacgaagag aacgaggaca tcctggaaga tatcgtgctg 2460

accctgacac tgtttgagga cagagagatg atcgaggaac ggctgaaaac atacgcccac 2520

ctgttcgacg acaaagtgat gaagcaactg aagcggcgga gatacaccgg ctggggcaga 2580

ctgtctcgga agctgatcaa cggcatccgg gataagcagt ccggcaagac catcctggac 2640

tttctgaagt ccgacggctt cgccaatcgg aacttcatgc agctgatcca cgacgacagc 2700

ctgaccttta aagaggatat ccagaaagcc caggtgtccg gccagggcga ttctctgcat 2760

gagcacattg ccaacctggc cggctctccc gccattaaga agggcattct gcagacagtg 2820

aaggtggtgg acgagctggt caaagtcatg ggcagacaca agcccgagaa catcgtgatc 2880

gaaatggcca gagagaacca gaccacacag aagggccaga agaacagccg cgagagaatg 2940

aagcggatcg aagagggcat caaagagctg ggcagccaga tcctgaaaga acaccccgtg 3000

gaaaacaccc agctgcagaa cgagaagctg tacctgtact acctccaaaa cggccgggat 3060

atgtatgtgg accaagagct ggacatcaac cggctgtccg actacgatgt ggacgctatc 3120

gtgccccagt cttttctgaa agacgactcc atcgacaaca aggtcctgac cagaagcgac 3180

aagaaccggg gcaagagcga taacgtgccc tccgaagagg tcgtgaagaa gatgaagaac 3240

tactggcgac agctgctgaa cgccaagctg attacccagc ggaagttcga taacctgacc 3300

aaggccgaga gaggcggcct gtctgaactg gataaggccg gcttcatcaa gagacagctg 3360

gtggaaaccc ggcagatcac caaacacgtg gcacagattc tggactcccg gatgaacact 3420

aagtacgacg agaatgacaa gctgatccgg gaagtgaaag tgatcaccct gaagtccaag 3480

ctggtgtccg atttccggaa ggatttccag ttctacaaag tgcgcgagat caacaactac 3540

catcacgccc acgacgccta cctgaatgcc gttgttggaa cagccctgat caagaagtat 3600

cccaagctgg aatccgagtt cgtgtacggc gactacaagg tgtacgacgt gcggaagatg 3660

atcgccaaga gcgagcaaga gattggcaag gctaccgcca agtacttctt ctacagcaac 3720

atcatgaact ttttcaagac cgagattacc ctggccaacg gcgagatcag aaagcggcct 3780

ctgatcgaga caaacggcga aaccggcgag attgtgtggg acaagggcag agattttgcc 3840

accgtgcgga aagtgctgag catgccccaa gtgaatatcg tgaaaaagac cgaggtaagt 3900

attagctctt tctttccatg ggttggcctc gccgcgtggg ctgagggaag gactgtcctg 3960

ggactggaca ggcgggttat gggacctgaa gcgataaaag gcatgcacgt ttgcggctac 4020

gtgcatgcca aaaggagtcg ggcttgcctc cgtgcccgac tccaaaagac ctgctcgagg 4080

aggtggacga gcaggtcaaa aatccgggta ccaataaaat atctttattt tcattacatc 4140

tgtgtgttgg ttttttgtgt g 4161

<210> 162

<211> 3911

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 162

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttaggatttt tgacctgctc 540

gattgtccac tgcgagcagg tcttttggag tcgggcgagg cggaagcccg actccttttg 600

gcatgcacgc tagccgcgtc gtgcatgcct tttatcttcg ggttatggga ccagtgaagg 660

ctgagggaag gactgtcctg ggactggaca ggcgggttat gggacctgaa aatactaaca 720

atcgattttt tttccctttt tttccaggtg cagacaggcg gcttcagcaa agagtccatt 780

ctgcccaaga gaaacagcga taagctgatc gcccggaaga aggactggga ccctaagaag 840

tacggcggct tcgatagccc taccgtggcc tattctgtgc tggtggtggc caaagtggaa 900

aagggcaagt ccaagaaact caagagcgtg aaagagctgc tggggatcac catcatggaa 960

agaagcagct tcgagaagaa tcctatcgat ttcctcgagg ccaagggcta caaagaagtg 1020

aaaaaggacc tgatcatcaa gctccccaag tactccctgt tcgagctgga aaatggccgg 1080

aagcggatgc tggcttctgc tggcgaactg cagaagggaa acgaactggc cctgcctagc 1140

aaatatgtga acttcctgta cctggccagc cactatgaga agctgaaggg cagccccgag 1200

gacaatgagc aaaagcagct gtttgtggaa cagcacaagc actacctgga cgagatcatc 1260

gagcagatct ccgagttctc caagagagtg atcctggccg acgctaatct ggacaaagtg 1320

ctgtccgcct acaacaagca ccgggacaag cctatcagag agcaggccga gaatatcatc 1380

cacctgttta ccctgaccaa tctgggagcc cctgccgcct tcaagtactt tgacaccacc 1440

atcgaccgga agcgctacac cagcaccaaa gaggtgctgg acgccacact gatccaccag 1500

tctatcaccg gcctgtacga gacacggatc gacctgtctc agctcggagg cgattctggc 1560

ggatctagcg gtggaagctc tggctctgag acacctggca caagcgagtc tgccacacct 1620

gagtctagcg gcggatcttc aggcggcagc agcaccctga atatcgagga tgagtacaga 1680

ctgcacgaga caagcaaaga acccgacgtg tccctgggct ctacctggct gtctgatttt 1740

cctcaagcct gggccgaaac aggcggaatg ggacttgctg ttagacaggc tcccctgatc 1800

attcccctga aggccacaag cacccctgtg tccatcaagc agtaccccat gtctcaagag 1860

gcccggctgg gaatcaagcc ccacattcag agactgctgg accagggcat cctggtgcct 1920

tgtcaaagcc cttggaatac ccctctgctg cctgtgaaga agcccggcac caacgactac 1980

agacccgtgc aggatctgcg cgaagtgaac aagagagtcg aggacattca ccccaccgtg 2040

cctaatcctt acaacctgct gtctggcctg cctccttccc accaatggta cacagtgctg 2100

gacctgaagg atgccttctt ctgcctgcgg ctgcacccta caagccagcc tctgtttgcc 2160

ttcgagtggc gggatccaga gatgggcatt agcggacagc tgacctggac cagactgccc 2220

cagggcttca agaatagccc cacactgttc aacgaggccc tgcacaggga cctcgccgac 2280

tttagaattc agcaccccga cctgattctg ctgcagtatg tggatgatct gctgctggcc 2340

gctaccagcg agctggattg tcagcaggga acaagagccc tgctgcagac cctgggcaat 2400

ctgggctata gagcctctgc caagaaggcc cagatttgcc agaagcaagt taagtacctg 2460

ggctacctgc tcaaagaagg ccagcgttgg ctgaccgagg ccagaaaaga aaccgtgatg 2520

ggccagccta cacctaagac acccagacag ctgagagagt tcctgggcaa agccggattc 2580

tgcaggctgt ttatccctgg cttcgccgag atggctgccc ctctgtatcc tctgacaaag 2640

cccggaactc tgttcaactg gggcccagac cagcagaaag cctaccaaga gatcaagcag 2700

gctctgctga cagcccctgc tctgggactg cctgatctga ccaagccttt cgagctgttc 2760

gtggacgaga agcagggcta tgccaagggc gtgctgacac agaaactcgg cccttggaga 2820

aggcccgtgg cttacctgag caaaaagctg gatcctgtgg ccgctggctg gcctccttgt 2880

ctgagaatgg tggccgctat cgccgtgctg actaaggatg ccggcaagct gacaatggga 2940

cagcctctgg ttattctggc ccctcatgcc gtggaagccc tcgtgaaaca gcctcctgat 3000

cggtggctga gcaacgccag aatgacccac taccaggcac tgctgctcga caccgacaga 3060

gtgcaatttg gccctgtggt ggccctgaat ccagccacat tgctgcctct gcctgaggag 3120

ggactgcagc acaactgcct cgatatcctg gctgaggccc acggcacaag acccgatctg 3180

acagatcagc cactgcctga cgccgaccac acctggtata cagatggcag ctctctgctg 3240

caagagggcc agagaaaagc tggcgccgct gtgaccacag agacagaagt gatttgggcc 3300

aaagctctgc ctgccggcac atctgcccaa agagccgaac tgatcgcact gacacaggcc 3360

ctgaagatgg ccgagggcaa gaaactgaac gtgtacaccg actccagata cgccttcgcc 3420

accgctcaca tccacggcga aatctacaga cgcagaggat ggctgaccag cgagggaaaa 3480

gagattaaga acaaggacga gattctcgcc ctcctcaagg ccctgttcct gcctaagcgg 3540

ctgagcatca tccactgtcc tggccaccag aagggacact ctgccgaggc tagaggcaac 3600

agaatggccg atcaggctgc cagaaaggcc gccattaccg agacacccga taccagcaca 3660

ctgctgattg agaacagcag cccttccggc ggctccaaaa gaacagctga cggctccgag 3720

tttgagccca aaaagaaacg gaaagtgtga ggtaccaatt cctcacctgc gatctcgatg 3780

ctttatttgt gaaatttgtg atgctattgc tttatttgta accattataa gctgcaataa 3840

acaagttaac aacaacaatt gcattcattt tatgtttcag gttcaggggg aggtgtggga 3900

ggttttttaa a 3911

<210> 163

<211> 3159

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 163

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccacc 540

atgaaacgga cagccgacgg aagcgagttc gagtcaccaa agaagaagcg gaaagtcagc 600

agtgaaaccg gaccagtggc agtggaccca accctgagga gacggattga gccccatgaa 660

tttgaagtgt tctttgaccc aagggagctg aggaaggaga catgcctgct gtacgagatc 720

aagtggggca caagccacaa gatctggcgc cacagctcca agaacaccac aaagcacgtg 780

gaagtgaatt tcatcgagaa gtttacctcc gagcggcact tctgcccctc taccagctgt 840

tccatcacat ggtttctgtc ttggagccct tgcggcgagt gttccaaggc catcaccgag 900

ttcctgtctc agcaccctaa cgtgaccctg gtcatctacg tggcccggct gtatcaccac 960

atggaccagc agaacaggca gggcctgcgc gatctggtga attctggcgt gaccatccag 1020

atcatgacag ccccagagta cgactattgc tggcggaact tcgtgaatta tccacctggc 1080

aaggaggcac actggccaag atacccaccc ctgtggatga agctgtatgc actggagctg 1140

cacgcaggaa tcctgggcct gcctccatgt ctgaatatcc tgcggagaaa gcagccccag 1200

ctgacatttt tcaccattgc tctgcaatct tgtcactatc agcggctgcc tcctcatatt 1260

ctgtgggcta ccggcctgaa gtctggagga tctagcggag gatcctctgg cagcgagaca 1320

ccaggaacaa gcgagtcagc aacaccagag agcagtggcg gcagcagcgg cggcagcgac 1380

aagaagtaca gcatcggcct ggccatcggc accaattctg ttggctgggc cgtgatcacc 1440

gacgagtaca aggtgcccag caagaaattc aaggtgctgg gcaacaccga ccggcacagc 1500

atcaagaaga atctgatcgg cgccctgctg ttcgactctg gcgaaacagc cgaagccacc 1560

agactgaaga ggacagccag acggcggtac accagaagaa agaaccggat ctgctacctg 1620

caagagatct tcagcaacga gatggccaag gtggacgaca gcttcttcca ccggctggaa 1680

gagtccttcc tggtggaaga ggataagaag cacgagcggc accccatctt cggcaacatc 1740

gtggatgagg tggcctacca cgagaagtac cccaccatct accacctgag aaagaaactg 1800

gtggacagca ccgacaaggc cgacctgaga ctgatctatc tggccctggc tcacatgatc 1860

aagttccggg gccacttcct gatcgagggc gacctgaatc ctgacaacag cgacgtggac 1920

aagctgttca tccagctggt gcagacctac aaccagctgt tcgaggaaaa ccccatcaac 1980

gccagcggag tggatgccaa ggccatcctg tctgcccggc tgagcaagag cagacggctg 2040

gaaaacctga tcgctcagct gcccggcgag aagaagaatg gcctgttcgg caacctgatt 2100

gccctgagcc tgggcctgac acctaacttc aagagcaact tcgacctggc cgaggacgcc 2160

aaactgcagc tgtccaagga cacctacgac gacgacctgg acaatctgct ggcccagatc 2220

ggcgatcagt acgccgactt gtttctggcc gccaagaacc tgtccgacgc catcctgctg 2280

agcgacatcc tgagagtgaa caccgagatc acaaaggccc ctctgagcgc ctctatgatc 2340

aagagatacg acgagcacca ccaggatctg accctgctga aggccctcgt tagacagcag 2400

ctgcctgaga agtacaaaga gattttcttc gaccagagca agaacggcta cgccggctac 2460

attgatggcg gagccagcca agaggaattc tacaagttca tcaagcccat cctcgagaag 2520

atggacggca ccgaggaact gctggtcaag ctgaacagag aggacctgct gcggaagcag 2580

cggaccttcg acaatggctc tatccctcac caaatccacc tgggagagct gcacgccatt 2640

ctgcggagac aagaggactt ttacccattc ctgaaggaca accgggaaaa gattgagaag 2700

atcctgacct tcaggatccc ctactacgtg ggaccactgg ccagaggcaa tagcagattc 2760

gcctggatga ccagaaagag cgaggaaacc atcacaccct ggaacttcga ggaagtggtg 2820

gataagggcg ccagcgctca gtccttcatc gagcggatga ccaacttcga taagaacctg 2880

cctaacgaga aggtaagtat tagctctttc tttccatggg ttggcctcgc cgcgtgggct 2940

gagggaagga ctgtcctggg actggacagg cgggttatgg gacctgaagc gataaaaggc 3000

atgcacgttt gcggctacgt gcatgccaaa aggagtcggg cttgcctccg tgcccgactc 3060

caaaagacct gctcgaggag gtggacgagc aggtcaaaaa tccgggtacc aataaaatat 3120

ctttattttc attacatctg tgtgttggtt ttttgtgtg 3159

<210> 164

<211> 4115

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 164

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttaggatttt tgacctgctc 540

gattgtccac tgcgagcagg tcttttggag tcgggcgagg cggaagcccg actccttttg 600

gcatgcacgc tagccgcgtc gtgcatgcct tttatcttcg ggttatggga ccagtgaagg 660

ctgagggaag gactgtcctg ggactggaca ggcgggttat gggacctgaa aatactaaca 720

atcgattttt tttccctttt tttccaggtg ctgcccaagc acagcctgct gtacgagtac 780

ttcaccgtgt acaacgagct gaccaaagtg aaatacgtga ccgagggaat gagaaagccc 840

gcctttctga gcggcgagca gaaaaaggcc attgtggatc tgctgttcaa gaccaaccgg 900

aaagtgaccg tgaagcagct gaaagaggac tacttcaaga aaatcgagtg cttcgacagc 960

gtggaaatca gcggcgtgga agatcggttc aatgccagcc tgggcacata ccacgacctg 1020

ctgaaaatta tcaaggacaa ggacttcctg gacaacgaag agaacgagga catcctggaa 1080

gatatcgtgc tgaccctgac actgtttgag gacagagaga tgatcgagga acggctgaaa 1140

acatacgccc acctgttcga cgacaaagtg atgaagcaac tgaagcggcg gagatacacc 1200

ggctggggca gactgtctcg gaagctgatc aacggcatcc gggataagca gtccggcaag 1260

accatcctgg actttctgaa gtccgacggc ttcgccaatc ggaacttcat gcagctgatc 1320

cacgacgaca gcctgacctt taaagaggat atccagaaag cccaggtgtc cggccagggc 1380

gattctctgc atgagcacat tgccaacctg gccggctctc ccgccattaa gaagggcatt 1440

ctgcagacag tgaaggtggt ggacgagctg gtcaaagtca tgggcagaca caagcccgag 1500

aacatcgtga tcgaaatggc cagagagaac cagaccacac agaagggcca gaagaacagc 1560

cgcgagagaa tgaagcggat cgaagagggc atcaaagagc tgggcagcca gatcctgaaa 1620

gaacaccccg tggaaaacac ccagctgcag aacgagaagc tgtacctgta ctacctccaa 1680

aacggccggg atatgtatgt ggaccaagag ctggacatca accggctgtc cgactacgat 1740

gtggaccata tcgtgcccca gtcttttctg aaagacgact ccatcgacaa caaggtcctg 1800

accagaagcg acaagaaccg gggcaagagc gataacgtgc cctccgaaga ggtcgtgaag 1860

aagatgaaga actactggcg acagctgctg aacgccaagc tgattaccca gcggaagttc 1920

gataacctga ccaaggccga gagaggcggc ctgtctgaac tggataaggc cggcttcatc 1980

aagagacagc tggtggaaac ccggcagatc accaaacacg tggcacagat tctggactcc 2040

cggatgaaca ctaagtacga cgagaatgac aagctgatcc gggaagtgaa agtgatcacc 2100

ctgaagtcca agctggtgtc cgatttccgg aaggatttcc agttctacaa agtgcgcgag 2160

atcaacaact accatcacgc ccacgacgcc tacctgaatg ccgttgttgg aacagccctg 2220

atcaagaagt atcccaagct ggaatccgag ttcgtgtacg gcgactacaa ggtgtacgac 2280

gtgcggaaga tgatcgccaa gagcgagcaa gagattggca aggctaccgc caagtacttc 2340

ttctacagca acatcatgaa ctttttcaag accgagatta ccctggccaa cggcgagatc 2400

agaaagcggc ctctgatcga gacaaacggc gaaaccggcg agattgtgtg ggacaagggc 2460

agagattttg ccaccgtgcg gaaagtgctg agcatgcccc aagtgaatat cgtgaaaaag 2520

accgaggtgc agacaggcgg cttcagcaaa gagtccattc tgcccaagag aaacagcgat 2580

aagctgatcg cccggaagaa ggactgggac cctaagaagt acggcggctt cgatagccct 2640

accgtggcct attctgtgct ggtggtggcc aaagtggaaa agggcaagtc caagaaactc 2700

aagagcgtga aagagctgct ggggatcacc atcatggaaa gaagcagctt cgagaagaat 2760

cctatcgatt tcctcgaggc caagggctac aaagaagtga aaaaggacct gatcatcaag 2820

ctccccaagt actccctgtt cgagctggaa aatggccgga agcggatgct ggcttctgct 2880

ggcgaactgc agaagggaaa cgaactggcc ctgcctagca aatatgtgaa cttcctgtac 2940

ctggccagcc actatgagaa gctgaagggc agccccgagg acaatgagca aaagcagctg 3000

tttgtggaac agcacaagca ctacctggac gagatcatcg agcagatctc cgagttctcc 3060

aagagagtga tcctggccga cgctaatctg gacaaagtgc tgtccgccta caacaagcac 3120

cgggacaagc ctatcagaga gcaggccgag aatatcatcc acctgtttac cctgaccaat 3180

ctgggagccc ctgccgcctt caagtacttt gacaccacca tcgaccggaa gcgctacacc 3240

agcaccaaag aggtgctgga cgccacactg atccaccagt ctatcaccgg cctgtacgag 3300

acacggatcg acctgtctca gctcggaggc gatagcggcg ggagcggcgg gagcgggggg 3360

agcactaatc tgagcgacat cattgagaag gagactggga aacagctggt cattcaggag 3420

tccatcctga tgctgcctga ggaggtggag gaagtgatcg gcaacaagcc agagtctgac 3480

atcctggtgc acaccgccta cgacgagtcc acagatgaga atgtgatgct gctgacctct 3540

gacgcccccg agtataagcc ttgggccctg gtcatccagg attctaacgg cgagaataag 3600

atcaagatgc tgagcggagg atccggagga tctggaggca gcaccaacct gtctgacatc 3660

atcgagaagg agacaggcaa gcagctggtc atccaggaga gcatcctgat gctgcccgaa 3720

gaagtcgaag aagtgatcgg aaacaagcct gagagcgata tcctggtcca taccgcctac 3780

gacgagagta ccgacgaaaa tgtgatgctg ctgacatccg acgccccaga gtataagccc 3840

tgggctctgg tcatccagga ttccaacgga gagaacaaaa tcaaaatgct gtctggcggc 3900

tcaaaaagaa ccgccgacgg cagcgaattc gagcccaaga agaagaggaa agtctaaacc 3960

aattcctcac ctgcgatctc gatgctttat ttgtgaaatt tgtgatgcta ttgctttatt 4020

tgtaaccatt ataagctgca ataaacaagt taacaacaac aattgcattc attttatgtt 4080

tcaggttcag ggggaggtgt gggaggtttt ttaaa 4115

<210> 165

<211> 2973

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 165

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccacc 540

atgaaacgga cagccgacgg aagcgagttc gagtcaccaa agaagaagcg gaaagtctct 600

gaggtggagt tttcccacga gtactggatg agacatgccc tgaccctggc caagagggca 660

cgggatgaga gggaggtgcc tgtgggagcc gtgctggtgc tgaacaatag agtgatcggc 720

gagggctgga acagagccat cggcctgcac gacccaacag cccatgccga aattatggcc 780

ctgagacagg gcggcctggt catgcagaac tacagactga ttgacgccac cctgtacgtg 840

acattcgagc cttgcgtgat gtgcgccggc gccatgatcc actctaggat cggccgcgtg 900

gtgtttggcg tgaggaactc aaaaagaggc gccgcaggct ccctgatgaa cgtgctgaac 960

taccccggca tgaatcaccg cgtcgaaatt accgagggaa tcctggcaga tgaatgtgcc 1020

gccctgctgt gcgatttcta tcggatgcct agacaggtgt tcaatgctca gaagaaggcc 1080

cagagctcca tcaactccgg aggatctagc ggaggctcct ctggctctga gacacctggc 1140

acaagcgaga gcgcaacacc tgaaagcagc gggggcagca gcggggggtc agacaagaag 1200

tacagcatcg gcctggccat cggcaccaat tctgttggct gggccgtgat caccgacgag 1260

tacaaggtgc ccagcaagaa attcaaggtg ctgggcaaca ccgaccggca cagcatcaag 1320

aagaatctga tcggcgccct gctgttcgac tctggcgaaa cagccgaagc caccagactg 1380

aagaggacag ccagacggcg gtacaccaga agaaagaacc ggatctgcta cctgcaagag 1440

atcttcagca acgagatggc caaggtggac gacagcttct tccaccggct ggaagagtcc 1500

ttcctggtgg aagaggataa gaagcacgag cggcacccca tcttcggcaa catcgtggat 1560

gaggtggcct accacgagaa gtaccccacc atctaccacc tgagaaagaa actggtggac 1620

agcaccgaca aggccgacct gagactgatc tatctggccc tggctcacat gatcaagttc 1680

cggggccact tcctgatcga gggcgacctg aatcctgaca acagcgacgt ggacaagctg 1740

ttcatccagc tggtgcagac ctacaaccag ctgttcgagg aaaaccccat caacgccagc 1800

ggagtggatg ccaaggccat cctgtctgcc cggctgagca agagcagacg gctggaaaac 1860

ctgatcgctc agctgcccgg cgagaagaag aatggcctgt tcggcaacct gattgccctg 1920

agcctgggcc tgacacctaa cttcaagagc aacttcgacc tggccgagga cgccaaactg 1980

cagctgtcca aggacaccta cgacgacgac ctggacaatc tgctggccca gatcggcgat 2040

cagtacgccg acttgtttct ggccgccaag aacctgtccg acgccatcct gctgagcgac 2100

atcctgagag tgaacaccga gatcacaaag gcccctctga gcgcctctat gatcaagaga 2160

tacgacgagc accaccagga tctgaccctg ctgaaggccc tcgttagaca gcagctgcct 2220

gagaagtaca aagagatttt cttcgaccag agcaagaacg gctacgccgg ctacattgat 2280

ggcggagcca gccaagagga attctacaag ttcatcaagc ccatcctcga gaagatggac 2340

ggcaccgagg aactgctggt caagctgaac agagaggacc tgctgcggaa gcagcggacc 2400

ttcgacaatg gctctatccc tcaccaaatc cacctgggag agctgcacgc cattctgcgg 2460

agacaagagg acttttaccc attcctgaag gacaaccggg aaaagattga gaagatcctg 2520

accttcagga tcccctacta cgtgggacca ctggccagag gcaatagcag attcgcctgg 2580

atgaccagaa agagcgagga aaccatcaca ccctggaact tcgaggaagt ggtggataag 2640

ggcgccagcg ctcagtcctt catcgagcgg atgaccaact tcgataagaa cctgcctaac 2700

gagaaggtaa gtattagctc tttctttcca tgggttggcc tcgccgcgtg ggctgaggga 2760

aggactgtcc tgggactgga caggcgggtt atgggacctg aagcgataaa aggcatgcac 2820

gtttgcggct acgtgcatgc caaaaggagt cgggcttgcc tccgtgcccg actccaaaag 2880

acctgctcga ggaggtggac gagcaggtca aaaatccggg taccaataaa atatctttat 2940

tttcattaca tctgtgtgtt ggttttttgt gtg 2973

<210> 166

<211> 3560

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 166

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttaggatttt tgacctgctc 540

gattgtccac tgcgagcagg tcttttggag tcgggcgagg cggaagcccg actccttttg 600

gcatgcacgc tagccgcgtc gtgcatgcct tttatcttcg ggttatggga ccagtgaagg 660

ctgagggaag gactgtcctg ggactggaca ggcgggttat gggacctgaa aatactaaca 720

atcgattttt tttccctttt tttccaggtg ctgcccaagc acagcctgct gtacgagtac 780

ttcaccgtgt acaacgagct gaccaaagtg aaatacgtga ccgagggaat gagaaagccc 840

gcctttctga gcggcgagca gaaaaaggcc attgtggatc tgctgttcaa gaccaaccgg 900

aaagtgaccg tgaagcagct gaaagaggac tacttcaaga aaatcgagtg cttcgacagc 960

gtggaaatca gcggcgtgga agatcggttc aatgccagcc tgggcacata ccacgacctg 1020

ctgaaaatta tcaaggacaa ggacttcctg gacaacgaag agaacgagga catcctggaa 1080

gatatcgtgc tgaccctgac actgtttgag gacagagaga tgatcgagga acggctgaaa 1140

acatacgccc acctgttcga cgacaaagtg atgaagcaac tgaagcggcg gagatacacc 1200

ggctggggca gactgtctcg gaagctgatc aacggcatcc gggataagca gtccggcaag 1260

accatcctgg actttctgaa gtccgacggc ttcgccaatc ggaacttcat gcagctgatc 1320

cacgacgaca gcctgacctt taaagaggat atccagaaag cccaggtgtc cggccagggc 1380

gattctctgc atgagcacat tgccaacctg gccggctctc ccgccattaa gaagggcatt 1440

ctgcagacag tgaaggtggt ggacgagctg gtcaaagtca tgggcagaca caagcccgag 1500

aacatcgtga tcgaaatggc cagagagaac cagaccacac agaagggcca gaagaacagc 1560

cgcgagagaa tgaagcggat cgaagagggc atcaaagagc tgggcagcca gatcctgaaa 1620

gaacaccccg tggaaaacac ccagctgcag aacgagaagc tgtacctgta ctacctccaa 1680

aacggccggg atatgtatgt ggaccaagag ctggacatca accggctgtc cgactacgat 1740

gtggaccata tcgtgcccca gtcttttctg aaagacgact ccatcgacaa caaggtcctg 1800

accagaagcg acaagaaccg gggcaagagc gataacgtgc cctccgaaga ggtcgtgaag 1860

aagatgaaga actactggcg acagctgctg aacgccaagc tgattaccca gcggaagttc 1920

gataacctga ccaaggccga gagaggcggc ctgtctgaac tggataaggc cggcttcatc 1980

aagagacagc tggtggaaac ccggcagatc accaaacacg tggcacagat tctggactcc 2040

cggatgaaca ctaagtacga cgagaatgac aagctgatcc gggaagtgaa agtgatcacc 2100

ctgaagtcca agctggtgtc cgatttccgg aaggatttcc agttctacaa agtgcgcgag 2160

atcaacaact accatcacgc ccacgacgcc tacctgaatg ccgttgttgg aacagccctg 2220

atcaagaagt atcccaagct ggaatccgag ttcgtgtacg gcgactacaa ggtgtacgac 2280

gtgcggaaga tgatcgccaa gagcgagcaa gagattggca aggctaccgc caagtacttc 2340

ttctacagca acatcatgaa ctttttcaag accgagatta ccctggccaa cggcgagatc 2400

agaaagcggc ctctgatcga gacaaacggc gaaaccggcg agattgtgtg ggacaagggc 2460

agagattttg ccaccgtgcg gaaagtgctg agcatgcccc aagtgaatat cgtgaaaaag 2520

accgaggtgc agacaggcgg cttcagcaaa gagtccattc tgcccaagag aaacagcgat 2580

aagctgatcg cccggaagaa ggactgggac cctaagaagt acggcggctt cgatagccct 2640

accgtggcct attctgtgct ggtggtggcc aaagtggaaa agggcaagtc caagaaactc 2700

aagagcgtga aagagctgct ggggatcacc atcatggaaa gaagcagctt cgagaagaat 2760

cctatcgatt tcctcgaggc caagggctac aaagaagtga aaaaggacct gatcatcaag 2820

ctccccaagt actccctgtt cgagctggaa aatggccgga agcggatgct ggcttctgct 2880

ggcgaactgc agaagggaaa cgaactggcc ctgcctagca aatatgtgaa cttcctgtac 2940

ctggccagcc actatgagaa gctgaagggc agccccgagg acaatgagca aaagcagctg 3000

tttgtggaac agcacaagca ctacctggac gagatcatcg agcagatctc cgagttctcc 3060

aagagagtga tcctggccga cgctaatctg gacaaagtgc tgtccgccta caacaagcac 3120

cgggacaagc ctatcagaga gcaggccgag aatatcatcc acctgtttac cctgaccaat 3180

ctgggagccc ctgccgcctt caagtacttt gacaccacca tcgaccggaa gcgctacacc 3240

agcaccaaag aggtgctgga cgccacactg atccaccagt ctatcaccgg cctgtacgag 3300

acacggatcg acctgtctca gctcggaggc gattctggcg gctcaaaaag aaccgccgac 3360

ggcagcgaat tcgagcccaa gaagaagagg aaagtctaag gtaccaattc ctcacctgcg 3420

atctcgatgc tttatttgtg aaatttgtga tgctattgct ttatttgtaa ccattataag 3480

ctgcaataaa caagttaaca acaacaattg cattcatttt atgtttcagg ttcaggggga 3540

ggtgtgggag gttttttaaa 3560

<210> 167

<211> 112

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 167

gatttttgac ctgctcgatt gtccactgcg agcaggtctt ttggagtcgg gcgaggcgga 60

agcccgactc cttttggcat gcacgctagc cgcgtcgtgc atgcctttta tc 112

<210> 168

<211> 13

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 168

gggttatggg acc 13

<210> 169

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 169

ggctgaggga aggactgtcc tggg 24

<210> 170

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 170

ctctttcttt ccatgggttg gcct 24

<210> 171

<211> 4463

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<220>

<221> misc_feature

<222> (4225)..(4294)

<223> n是a、c、g或t

<400> 171

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttacttctag gcgcgccgcc 540

accatggccc caaagaagaa gcggaaggtc ggtatccacg gagtcccagc agccaagcgg 600

aactacatcc tgggcctgga catcggcatc accagcgtgg gctacggcat catcgactac 660

gagacacggg acgtgatcga tgccggcgtg cggctgttca aagaggccaa cgtggaaaac 720

aacgagggca ggcggagcaa gagaggcgcc agaaggctga agcggcggag gcggcataga 780

atccagagag tgaagaagct gctgttcgac tacaacctgc tgaccgacca cagcgagctg 840

agcggcatca acccctacga ggccagagtg aagggcctga gccagaagct gagcgaggaa 900

gagttctctg ccgccctgct gcacctggcc aagagaagag gcgtgcacaa cgtgaacgag 960

gtggaagagg acaccggcaa cgagctgtcc accaaagagc agatcagccg gaacagcaag 1020

gccctggaag agaaatacgt ggccgaactg cagctggaac ggctgaagaa agacggcgaa 1080

gtgcggggca gcatcaacag attcaagacc agcgactacg tgaaagaagc caaacagctg 1140

ctgaaggtgc agaaggccta ccaccagctg gaccagagct tcatcgacac ctacatcgac 1200

ctgctggaaa cccggcggac ctactatgag ggacctggcg agggcagccc cttcggctgg 1260

aaggacatca aagaatggta cgagatgctg atgggccact gcacctactt ccccgaggaa 1320

ctgcggagcg tgaagtacgc ctacaacgcc gacctgtaca acgccctgaa cgacctgaac 1380

aatctcgtga tcaccaggga cgagaacgag aagctggaat attacgagaa gttccagatc 1440

atcgagaacg tgttcaagca gaagaagaag cccaccctga agcagatcgc caaagaaatc 1500

ctcgtgaacg aagaggatat taagggctac agagtgacca gcaccggcaa gcccgagttc 1560

accaacctga aggtgtacca cgacatcaag gacattaccg cccggaaaga gattattgag 1620

aacgccgagc tgctggatca gattgccaag atcctgacca tctaccagag cagcgaggac 1680

atccaggaag aactgaccaa tctgaactcc gagctgaccc aggaagagat cgagcagatc 1740

tctaatctga agggctatac cggcacccac aacctgagcc tgaaggccat caacctgatc 1800

ctggacgagc tgtggcacac caacgacaac cagatcgcta tcttcaaccg gctgaagctg 1860

gtgcccaaga aggtggacct gtcccagcag aaagagatcc ccaccaccct ggtggacgac 1920

ttcatcctga gccccgtcgt gaagagaagc ttcatccaga gcatcaaagt gatcaacgcc 1980

atcatcaaga agtacggcct gcccaacgac atcattatcg agctggcccg cgagaagaac 2040

tccaaggacg cccagaaaat gatcaacgag atgcagaagc ggaaccggca gaccaacgag 2100

cggatcgagg aaatcatccg gaccaccggc aaagagaacg ccaagtacct gatcgagaag 2160

atcaagctgc acgacatgca ggaaggcaag tgcctgtaca gcctggaagc catccctctg 2220

gaagatctgc tgaacaaccc cttcaactat gaggtggacc acatcatccc cagaagcgtg 2280

tccttcgaca acagcttcaa caacaaggtg ctcgtgaagc aggaagaaaa cagcaagaag 2340

ggcaaccgga ccccattcca gtacctgagc agcagcgaca gcaagatcag ctacgaaacc 2400

ttcaagaagc acatcctgaa tctggccaag ggcaagggca gaatcagcaa gaccaagaaa 2460

gagtatctgc tggaagaacg ggacatcaac aggttctccg tgcagaaaga cttcatcaac 2520

cggaacctgg tggataccag atacgccacc agaggcctga tgaacctgct gcggagctac 2580

ttcagagtga acaacctgga cgtgaaagtg aagtccatca atggcggctt caccagcttt 2640

ctgcggcgga agtggaagtt taagaaagag cggaacaagg ggtacaagca ccacgccgag 2700

gacgccctga tcattgccaa cgccgatttc atcttcaaag agtggaagaa actggacaag 2760

gccaaaaaag tgatggaaaa ccagatgttc gaggaaaagc aggccgagag catgcccgag 2820

atcgaaaccg agcaggagta caaagagatc ttcatcaccc cccaccagat caagcacatt 2880

aaggacttca aggactacaa gtacagccac cgggtggaca agaagcctaa tagagagctg 2940

attaacgaca ccctgtactc cacccggaag gacgacaagg gcaacaccct gatcgtgaac 3000

aatctgaacg gcctgtacga caaggacaat gacaagctga aaaagctgat caacaagagc 3060

cccgaaaagc tgctgatgta ccaccacgac ccccagacct accagaaact gaagctgatt 3120

atggaacagt acggcgacga gaagaatccc ctgtacaagt actacgagga aaccgggaac 3180

tacctgacca agtactccaa aaaggacaac ggccccgtga tcaagaagat taagtattac 3240

ggcaacaaac tgaacgccca tctggacatc accgacgact accccaacag cagaaacaag 3300

gtcgtgaagc tgtccctgaa gccctacaga ttcgacgtgt acctggacaa tggcgtgtac 3360

aagttcgtga ccgtgaagaa tctggatgtg atcaaaaaag aaaactacta cgaagtgaat 3420

agcaagtgct atgaggaagc taagaagctg aagaagatca gcaaccaggc cgagtttatc 3480

gcctccttct acaacaacga tctgatcaag atcaacggcg agctgtatag agtgatcggc 3540

gtgaacaacg acctgctgaa ccggatcgaa gtgaacatga tcgacatcac ctaccgcgag 3600

tacctggaaa acatgaacga caagaggccc cccaggatca ttaagacaat cgccggaagc 3660

ggagctacta acttcagcct gctgaagcag gctggagacg tggaggagaa ccctggacct 3720

aggcgcgccg ccaccatggt gagcaagggc gaggagctgt tcaccggggt ggtgcccatc 3780

ctggtcgagc tggacggcga cgtaaacggc cacaagttca gcgtgtccgg cgagggcgag 3840

ggcgatgcca cctacggcaa gctgaccctg aagttcatct gcaccaccgg caagctgccc 3900

gtgccctggc ccaccctcgt gaccaccttc ggctacggcc tgatgtgctt cgcccgctac 3960

cccgaccaca tgaagcagca cgacttcttc aagtccgcca tgcccgaagg ctacgtccag 4020

gagcgcacca tcttcttcaa ggacgacggc aactacaaga cccgcgccga ggtgaagttc 4080

gagggcgaca ccctggtgaa ccgcatcgag ctgaagggca tcgacttcaa ggaggacggc 4140

aacatcctgg ggcacaagct ggagtacaac tacaacagcc acaacgtcta tatcatggcc 4200

gacaagcaga agaacggcat caagnnnnnn nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn 4260

nnnnnnnnnn nnnnnnnnnn nnnnnnnnnn nnnngataaa aggcatgcac gtttgcggct 4320

acgtgcatgc caaaaggagt cgggcttgcc tccgtgcccg actccaaaag acctgctcga 4380

ggaggtggac gagcaggtca aaaatccggg taccaataaa atatctttat tttcattaca 4440

tctgtgtgtt ggttttttgt gtg 4463

<210> 172

<211> 3467

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 172

cgttacataa cttacggtaa atggcccgcc tggctgaccg cccaacgacc cccgcccatt 60

gacgtcaata atgacgtatg ttcccatagt aacgccaata gggactttcc attgacgtca 120

atgggtggag tatttacggt aaactgccca cttggcagta catcaagtgt atcatatgcc 180

aagtacgccc cctattgacg tcaatgacgg taaatggccc gcctggcatt atgcccagta 240

catgacctta tgggactttc ctacttggca gtacatctac gtattagtca tcgctattac 300

catggtgatg cggttttggc agtacatcaa tgggcgtgga tagcggtttg actcacgggg 360

atttccaagt ctccacccca ttgacgtcaa tgggagtttg ttttggcacc aaaatcaacg 420

ggactttcca aaatgtcgta acaactccgc cccattgacg caaatgggcg gtaggcgtgt 480

acggtgggag gtctatataa gcagagcttg gatgttgcct ttaggatttt tgacctgctc 540

gattgtccac tgcgagcagg tcttttggag tcgggcgagg cggaagcccg actccttttg 600

gcatgcacgc tagccgcgtc gtgcatgcct tttatcttcg ggttatggga ccagtgaagg 660

ctgagggaag gactgtcctg ggactggaca ggcgggttat gggacctgaa aatactaaca 720

atcgattttt tttccctttt tttccaggtg gacagaccca gagtggatat cgagtgtgct 780

ggcaaagggg tgcagagcag cctgatccat aactacaaga agaaccccaa cttcaacacc 840

ctggtcaagt ggttcgaagt ggatctgccc gagaacgaac tgctgcaccc acctctgaac 900

atcagagtgg tggactgcag agccttcggc agatacaccc tcgtgggatc tcacgccgtg 960

tctagcctga gaagattcat ctacagacct ccagacagaa gcgcccctaa ctggaacaca 1020

acaggcgagg tggtggtgtc catggaaccc gaggaacccg tgaagaaact ggaaaccatg 1080

gtcaagctgg acgccacctc cgatgctgtc gtgaaagtgg acgtggccga ggacgagaaa 1140

gagcgcaaga agaagaaaaa gaagggcccc agcgaggaac ctgaagagga agaacctgac 1200

gagagcatgc tggactggtg gtccaagtac ttcgcctcca tcgacacaat gaaggaacag 1260

ctgagacagc acgagacaag cggcaccgac ctcgaagaga aagaagagat ggaatccgcc 1320

gaaggactga agggccctat gaagtccaaa gagaagtcta gggccgccaa agaagagaaa 1380

aaaaagaaga accagtctcc tggaccaggc cagggatctg aggctcccga aaagaaaaag 1440

gccaagatcg acgagctgaa ggtgtacccc aaagagctgg aaagcgagtt cgacagcttc 1500

gaggactggc tgcacacctt caatctgctg agaggaaaga caggcgacga cgaggatggc 1560

agcactgaag aagagagaat cgtcggcaga ttcaagggca gcctgtgcgt gtacaaggtg 1620

ccactgcctg aggacgtgtc cagagaggct ggctacgatc ctacctacgg catgttccaa 1680

ggcatcccta gcaacgaccc catcaatgtg ctcgtgcgga tctatgtcgt gcgggccact 1740

gatctgcatc ccgccgatat caacggcaag gcagacccct atatcgctat caagctgggg 1800

aaaaccgaca tcagggacaa agagaactac atcagcaagc agctgaaccc cgtgttcggc 1860

aagagcttcg acatcgaggc tagcttcccc atggaatcca tgctgaccgt ggccgtgtac 1920

gactgggatc tcgtgggaac agacgacctg atcggagaga caaagattga cctggaaaac 1980

cggttctact ccaagcaccg ggccacctgt ggaatcgccc agacctactc tatccacggc 2040

tacaacatct ggcgggaccc catgaagcct agccagatcc tgaccaggct gtgcaaagaa 2100

ggcaaggtcg acggccctca ctttggacct cacggccggg tcagagtggc caacagagtg 2160

ttcacaggcc cctccgagat cgaggatgag aacggccaga gaaagcccac cgatgagcat 2220

gtggctctga gcgctctgag acactgggaa gatatcccta gagtgggctg cagactggtg 2280

cccgagcacg tggaaacaag acccctgctg aacccagaca agcccggaat cgaacagggc 2340

agactcgaac tgtgggtcga catgttccct atggacatgc ccgcacctgg cacaccactg 2400

gacatcagcc ctaggaagcc caagaaatac gagctgcgcg tgatcgtgtg gaacaccgac 2460

gaagtggtgc tggaagatga cgacttcttc accggcgaaa agtccagcga catcttcgtc 2520

agaggatggc tgaagggaca gcaagaggat aagcaggaca ccgacgtgca ctaccacagc 2580

cttacaggcg aaggcaactt taactggcgc tacctgtttc ctttcgacta cctggccgcc 2640

gaagagaaga tcgtgatgtc caagaaagaa tctatgttca gctgggacga gacagagtac 2700

aagatccccg ccagactgac cctgcagatc tgggatgccg atcacttcag cgccgacgac 2760

tttctgggag ccatcgagct ggacctgaat agattcccca gaggcgccaa gaccgccaag 2820

cagtgcacaa tggaaatggc cactggcgag gtcgacgtgc cactggtgtc tatcttcaag 2880

cagaagcgcg tcaaaggctg gtggcccctg ctggctagaa acgagaacga cgagttcgag 2940

ctgaccggaa aggtggaagc cgagctgcat ctgctgacag ctgaagaggc cgagaagaat 3000

cctgtgggcc tcgctaggaa tgagcccgat cctctggaaa agcccaacag acccgatacc 3060

gccttcgtgt ggtttctgaa cccactgaag tccatcaagt acctgatctg tacccggtac 3120

aagtggctga ttatcaagat cgtgctggcc ctgctggggc tgctgatgct tgctctgttc 3180

ctgtactccc tgcctggcta tatggtcaag aagctgctgg gcgccggcgc tcgggctgac 3240

tacaaagacc atgacggtga ttataaagat catgacatcg actataagga tgacgatgac 3300

aaatgaggta ccaattcctc acctgcgatc tcgatgcttt atttgtgaaa tttgtgatgc 3360

tattgcttta tttgtaacca ttataagctg caataaacaa gttaacaaca acaattgcat 3420

tcattttatg tttcaggttc agggggaggt gtgggaggtt ttttaaa 3467

<210> 173

<211> 33

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 173

gtaagtattg ctttcatttt tgtctttttt taa 33

<210> 174

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 174

gtaagttctt gctttgttca aactgtctat 30

<210> 175

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 175

gtaagtattc ttttgttctt cactcat 27

<210> 176

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 176

gtaagtattt ttttactcct catttttact cc 32

<210> 177

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 177

gtaagtattt ttttacggtt atattctcct ttcccc 36

<210> 178

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 178

gtaagtattt tctgttgttt attttcag 28

<210> 179

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 179

gtaagtattg gggttgatta tgtgtgggac ggtgtaagg 39

<210> 180

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 180

gtaagtattt cctctttctt tccatgggtt ggcct 35

<210> 181

<211> 35

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 181

gtaagtatta ccagagattc gtagacctgc ttgac 35

<210> 182

<211> 39

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 182

tggggctggg cagagggttg aggggagagg gtcctgggg 39

<210> 183

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 183

tcatgggtgg gttcattggg tgggttca 28

<210> 184

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 184

tagggcgcag tagtccaggg ttt 23

<210> 185

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 185

ttctctgtgg ggtggcattc tctgctctct 30

<210> 186

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 186

gggttatggg acctcaggga taagggacc 29

<210> 187

<211> 15

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 187

cggggatggg ggtca 15

<210> 188

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 188

tggggggagg tcatgggggg agg 23

<210> 189

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 189

gttggtggtt tcatgttggt ggtt 24

<210> 190

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 190

gggtttcggg ttttcaggtg gtcgttggt 29

<210> 191

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 191

ggtggtcgtt ggttcatttg ggctattgg 29

<210> 192

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 192

tttgggctat tggtcaaggg ggcgagggg 29

<210> 193

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 193

agggggcgag gggtcaggta ttcggtatt 29

<210> 194

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 194

ggtattcggt atttcaaggt aacaggtaa 29

<210> 195

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 195

aggtaacagg taatcagggt ttcgggttt 29

<210> 196

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 196

tcttactttt gtaaacttta tggtttgtg 29

<210> 197

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 197

cacgtattct cggtacggac gttacaga 28

<210> 198

<211> 13

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 198

taagctggta tcc 13

<210> 199

<211> 34

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 199

cactaactct ttttcccccc tttttttttt acag 34

<210> 200

<211> 36

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 200

tactaactct ttcttttttc ctttccttct tcacag 36

<210> 201

<211> 43

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 201

cactaactct gtcatactta tcctgtccct tttttttcca cag 43

<210> 202

<211> 45

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 202

cactaactct ctttcttttt cttccctcct ctcccccaac tgcag 45

<210> 203

<211> 38

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 203

cactaactct tttttttttt tttttttttt tacagcag 38

<210> 204

<211> 13

<212> DNA

<213> 人工序列

<220>

<223> 合成核酸序列

<400> 204

taagctggta tcc 13

<210> 205

<211> 8

<212> DNA

<213> 人工序列

<220>

<223> 分支点序列

<400> 205

tactaaca 8

<210> 206

<211> 49

<212> DNA

<213> 人工序列

<220>

<223> 多聚腺苷酸化信号

<400> 206

aataaaatat ctttattttc attacatctg tgtgttggtt ttttgtgtg 49

Claims

1.一种用于表达靶蛋白的组合物，包含(a)第一RNA分子，所述RNA分子从5'至3'包含：(i)所述靶蛋白N-端部分的编码序列；(ii)剪接供体；和(iii)第一二聚体化域；和(b)第二RNA分子，所述RNA分子从5'至3'包含：(i)第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；(v)所述靶蛋白C-端部分的编码序列。

2.根据权利要求1所述的组合物，其中所述第一和第二二聚体化域通过直接结合、间接结合或其组合而结合。

3.根据权利要求2所述的组合物，其中直接结合或间接结合包括碱基配对相互作用、非规范碱基配对相互作用、非碱基配对相互作用或其组合。

4.根据权利要求2或3所述的组合物，其中直接结合包括吻式环或低多样性区域之间的碱基配对相互作用。

5.根据权利要求2或3所述的组合物，其中直接结合包括适体区域之间的非规范碱基配对相互作用、非规范碱基配对相互作用、非碱基配对相互作用或其组合。

6.根据权利要求2或3所述的组合物，其中间接结合包括通过核酸桥的碱基配对相互作用。

7.根据权利要求2所述的组合物，其中间接结合包括适体与适体靶标之间或两个适体之间的非碱基配对相互作用。

8.根据权利要求1至7中任一项所述的组合物，其中所述第一或第二二聚体化域不包含隐蔽剪接受体。

9.根据权利要求1至8中任一项所述的组合物，其中所述二聚体化域是直接结合或间接结合的适体序列二聚体化域。

10.根据权利要求1至9中任一项所述的组合物，其中所述二聚体化域是吻式环相互作用域。

11.根据权利要求1至10中任一项所述的组合物，其中，所述靶蛋白是与疾病相关的蛋白质或治疗性蛋白质。

12.根据权利要求11所述的组合物，其中所述疾病是单基因疾病。

13.根据权利要求12所述的组合物，其中所述治疗性蛋白质是毒素。

14.根据权利要求11至13中任一项所述的组合物，其中所述疾病和所述靶蛋白是表1中列出的疾病和靶蛋白。

15.根据权利要求1至14中任一项所述的组合物，其中所述第一RNA分子还包含3'至所述剪接供体和5'至所述第一二聚体化域的下游内含子剪接增强子(DISE)、3'至所述剪接供体和5'至所述第一二聚体化域的内含子剪接增强子(ISE)中的一种或两种；和/或

或它们的任何组合。

16.根据权利要求1至15中任一项所述的组合物，其中

所述第一RNA分子还包含位于3'至所述剪接供体任何位置的自切割RNA序列或RNA切割酶靶序列，因此其切割位于3'的多聚腺苷酸化尾以减少或抑制非重组RNA分子的蛋白质片段表达；

所述第二RNA分子还包含位于5'至所述分支点序列任何位置的自切割RNA序列或RNA切割酶靶序列，因此其切割位于5'的RNA帽以减少或抑制非重组RNA分子的蛋白质片段表达；

所述第二RNA分子还包含5'至所述分支点序列任何位置的起始密码子，其相对于所述剪接受体的开放阅读框3'移位以减少或抑制从非重组RNA分子翻译靶蛋白片段；

所述第一RNA分子还包含3'至所述剪接供体任何位置的微RNA靶位点，使得未连接的RNA片段一旦在细胞核外就进行微RNA依赖性降解；

所述第二RNA分子还包含3'至所述编码序列任何位置的微RNA靶位点，使得未连接的RNA片段一旦在细胞核外就进行微RNA依赖性降解；

所述第一RNA分子还包含3'至所述剪接供体任何位置的编码降解决定子蛋白降解标签的序列，使其与所述剪接供体位点的靶蛋白开放阅读框5'同框，从而使未连接的蛋白质片段标记为降解；

所述第二RNA分子还包含起始密码子和5'至所述分支点序列任何位置的框内降解决定子蛋白降解标签，使得所述标签与所述剪接受体位点的靶蛋白开放阅读框3'同框，因此未连接的蛋白质片段标记为降解；

或它们的任何组合。

17.一种用于表达靶蛋白的组合物，包含：(a)第一合成DNA分子，编码权利要求1至16中任一项所述的第一RNA分子，其中所述第一合成DNA分子包含(i)第一启动子，其可操作连接至编码所述第一RNA分子的序列；和(b)第二合成DNA分子，编码权利要求1至16中任一项所述的第二RNA分子，其中所述第二合成DNA分子包含(i)第二启动子，其可操作连接至编码所述第二RNA分子的序列。

18.根据权利要求17所述的组合物，其中每个启动子是独立选择的。

19.根据权利要求18或19所述的组合物，其中：

所述第一和第二启动子是相同启动子；或者

所述第一和第二启动子是不同启动子。

20.根据权利要求17至19中任一项所述的组合物，其中所述第一和第二启动子中的每一个独立地选自：组成型启动子；组织特异性启动子；和所述靶蛋白内源性的启动子。

21.一种用于表达靶蛋白的系统，包含权利要求17至20中任一项的组合物。

22.根据权利要求21所述的系统，其中当将所述系统引入细胞中时，产生所述RNA分子并以适当的顺序重组，从而产生所述靶蛋白的全长编码序列。

23.根据权利要求21或22所述的系统，其中所述合成第一和第二RNA分子中的每一个从单独的病毒载体转录。

24.根据权利要求21至23中任一项所述的系统，其中所述病毒载体是AAV。

25.根据权利要求21至24中任一项所述的系统，其中所述合成DNA分子每一个的大小独立地选自：约2500nt至约5000nt、2,500nt至约2,750nt、约2,500nt至约3,000nt、约2,500nt至约3,250nt、约2,500nt至约3,500nt、约2,500nt至约3,750nt、约2,500nt至约4,000nt、约2,500nt至约4,250nt、约2,500nt至约4,500nt、约2,500nt至约4,750nt、约2,500nt至约5,000nt、约2,750nt至约3,000nt、约2,750nt至约3,250nt、约2,750nt至约3,500nt、约2,750nt至约3,750nt、约2,750nt至约4,000nt、约2,750nt至约4,250nt、约2,750nt至约4,500nt、约2,750nt至约4,750nt、约2,750nt至约5,000nt、约3,000nt至约3,250nt、约3,000nt至约3,500nt、约3,000nt至约3,750nt、约3,000nt至约4,000nt、约3,000nt至约4,250nt、约3,000nt至约4,500nt、约3,000nt至约4,750nt、约3,000nt至约5,000nt、约3,250nt至约3,500nt、约3,250nt至约3,750nt、约3,250nt至约4,000nt、约3,250nt至约4,250nt、约3,250nt至约4,500nt、约3,250nt至约4,750nt、约3,250nt至约5,000nt、约3,500nt至约3,750nt、约3,500nt至约4,000nt、约3,500nt至约4,250nt、约3,500nt至约4,500nt、约3,500nt至约4,750nt、约3,500nt至约5,000nt、约3,750nt至约4,000nt、约3,750nt至约4,250nt、约3,750nt至约4,500nt、约3,750nt至约4,750nt、约3,750nt至约5,000nt、约4,000nt至约4,250nt、约4,000nt至约4,500nt、约4,000nt至约4,750nt、约4,000nt至约5,000nt、约4,250nt至约4,500nt、约4,250nt至约4,750nt、约4,250nt至约5,000nt、约4,500nt至约4,750nt、约4,500nt至约5,000nt、约4,750nt至约5,000nt、约2,500nt、约2,750nt、约3,000nt、约3,250nt、约3,500nt、约3,750nt、约4,000nt、约4,250nt、约4,500nt、约4,750nt和约5,000nt。

26.根据权利要求21至25中任一项所述的系统，其中由所述系统的合成DNA分子编码的所述靶蛋白N-端部分或所述靶蛋白C-端部分的编码序列的大小各自独立地选自：约2500至4500nt、约2,500nt至约2,750nt、约2,500nt至约3,000nt、约2,500nt至约3,250nt、约2,500nt至约3,500nt、约2,500nt至约3,750nt、约2,500nt至约4,000nt、约2,500nt至约4,250nt、约2,500nt至约4,500nt、约2,750nt至约3,000nt、约2,750nt至约3,250nt、约2,750nt至约3,500nt、约2,750nt至约3,750nt、约2,750nt至约4,000nt、约2,750nt至约4,250nt、约2,750nt至约4,500nt、约3,000nt至约3,250nt、约3,000nt至约3,500nt、约3,000nt至约3,750nt、约3,000nt至约4,000nt、约3,000nt至约4,250nt、约3,000nt至约4,500nt、约3,250nt至约3,500nt、约3,250nt至约3,750nt、约3,250nt至约4,000nt、约3,250nt至约4,250nt、约3,250nt至约4,500nt、约3,500nt至约3,750nt、约3,500nt至约4,000nt、约3,500nt至约4,250nt、约3,500nt至约4,500nt、约3,750nt至约4,000nt、约3,750nt至约4,250nt、约3,750nt至约4,500nt、约4,000nt至约4,250nt、约4,000nt至约4,500nt、约4,250nt至约4,500nt、约2,500nt、约2,750nt、约3,000nt、约3,250nt、约3,500nt、约3,750nt、约4,000nt、约4,250nt和约4,500nt。

27.根据权利要求21至26中任一项所述的系统，其中由所述系统的合成DNA分子编码的任一个或两个RNA分子的大小分别独立地选自：约2500至4500nt、约2,500nt至约2,750nt、约2,500nt至约3,000nt、约2,500nt至约3,250nt、约2,500nt至约3,500nt、约2,500nt至约3,750nt、约2,500nt至约4,000nt、约2,500nt至约4,250nt、约2,500nt至约4,500nt、约2,750nt至约3,000nt、约2,750nt至约3,250nt、约2,750nt至约3,500nt、约2,750nt至约3,750nt、约2,750nt至约4,000nt、约2,750nt至约4,250nt、约2,750nt至约4,500nt、约3,000nt至约3,250nt、约3,000nt至约3,500nt、约3,000nt至约3,750nt、约3,000nt至约4,000nt、约3,000nt至约4,250nt、约3,000nt至约4,500nt、约3,250nt至约3,500nt、约3,250nt至约3,750nt、约3,250nt至约4,000nt、约3,250nt至约4,250nt、约3,250nt至约4,500nt、约3,500nt至约3,750nt、约3,500nt至约4,000nt、约3,500nt至约4,250nt、约3,500nt至约4,500nt、约3,750nt至约4,000nt、约3,750nt至约4,250nt、约3,750nt至约4,500nt、约4,000nt至约4,250nt、约4,000nt至约4,500nt、约4,250nt至约4,500nt、约2,500nt、约2,750nt、约3,000nt、约3,250nt、约3,500nt、约3,750nt、约4,000nt、约4,250nt和约4,500nt。

28.根据权利要求21至27中任一项所述的系统，其中所述系统包含权利要求17至20中任一项所述的组合物：

所述合成DNA分子的总大小选自约5000nt至约10,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,000nt至约8,500nt、约5,000nt至约9,000nt、约5,000nt至约9,500nt、约5,000nt至约10,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约5,500nt至约8,500nt、约5,500nt至约9,000nt、约5,500nt至约9,500nt、约5,500nt至约10,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,000nt至约8,500nt、约6,000nt至约9,000nt、约6,000nt至约9,500nt、约6,000nt至约10,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约6,500nt至约8,500nt、约6,500nt至约9,000nt、约6,500nt至约9,500nt、约6,500nt至约10,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,000nt至约8,500nt、约7,000nt至约9,000nt、约7,000nt至约9,500nt、约7,000nt至约10,000nt、约7,500nt至约8,000nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约7,500nt至约9,500nt、约7,500nt至约10,000nt、约8,000nt至约8,500nt、约8,000nt至约9,000nt、约8,000nt至约9,500nt、约8,000nt至约10,000nt、约8,500nt至约9,000nt、约8,500nt至约9,500nt、约8,500nt至约10,000nt、约9,000nt至约9,500nt、约9,000nt至约10,000nt、约9,500nt至约10,000nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt、约8,000nt、约8,500nt、约9,000nt、约9,500nt和约10,000nt；

所述总靶蛋白编码序列选自约2000nt至约8000nt、约2,000nt至约3,000nt、约2,000nt至约3,500nt、约2,000nt至约4,000nt、约2,000nt至约4,500nt、约2,000nt至约5,000nt、约2,000nt至约5,500nt、约2,000nt至约6,000nt、约2,000nt至约6,500nt、约2,000nt至约7,000nt、约2,000nt至约7,500nt、约2,000nt至约8,000nt、约3,000nt至约3,500nt、约3,000nt至约4,000nt、约3,000nt至约4,500nt、约3,000nt至约5,000nt、约3,000nt至约5,500nt、约3,000nt至约6,000nt、约3,000nt至约6,500nt、约3,000nt至约7,000nt、约3,000nt至约7,500nt、约3,000nt至约8,000nt、约3,500nt至约4,000nt、约3,500nt至约4,500nt、约3,500nt至约5,000nt、约3,500nt至约5,500nt、约3,500nt至约6,000nt、约3,500nt至约6,500nt、约3,500nt至约7,000nt、约3,500nt至约7,500nt、约3,500nt至约8,000nt、约4,000nt至约4,500nt、约4,000nt至约5,000nt、约4,000nt至约5,500nt、约4,000nt至约6,000nt、约4,000nt至约6,500nt、约4,000nt至约7,000nt、约4,000nt至约7,500nt、约4,000nt至约8,000nt、约4,500nt至约5,000nt、约4,500nt至约5,500nt、约4,500nt至约6,000nt、约4,500nt至约6,500nt、约4,500nt至约7,000nt、约4,500nt至约7,500nt、约4,500nt至约8,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt，或约7,500nt至约8,000nt，所述总靶蛋白编码序列为约2,000nt、约3,000nt、约3,500nt、约4,000nt、约4,500nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt和约8,000nt；和/或

由所述两个合成DNA分子编码的所述RNA分子的总大小选自约5,000nt至约9,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,000nt至约8,500nt、约5,000nt至约9,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约5,500nt至约8,500nt、约5,500nt至约9,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,000nt至约8,500nt、约6,000nt至约9,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约6,500nt至约8,500nt、约6,500nt至约9,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,000nt至约8,500nt、约7,000nt至约9,000nt、约7,500nt至约8,000nt、约7,500nt至约8,500nt、约7,500nt至约9,000nt、约8,000nt至约8,500nt、约8,000nt至约9,000nt、约8,500nt至约9,000nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt、约8,000nt、约8,500nt和约9,000nt。

29.根据权利要求21至28中任一项所述的系统，其中所述第一二聚体化域和所述第二二聚体化域各自不超过1000nt，例如至少50nt、至少100nt、至少150nt、至少200nt、至少300nt、至少400nt、至少500nt、50至1000nt、50至500nt、50至150nt、50、100、150、200、250、300、400或500nt；并且所述系统的重组效率为至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％、至少约95％，或约100％。

30.根据权利要求21至29中任一项所述的系统，其中每个二聚体化域不超过1000nt，例如至少50nt、至少100nt、至少150nt、至少200nt、至少300nt、至少400nt、至少500nt、50至1000nt、50至500nt、50至150nt、50、100、150、200、250、300、400或500nt；并且所述系统的重组效率为至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％、至少90％，或约100％。

31.根据权利要求21至30中任一项所述的系统，其中所述RNA重组效率为约10％至约100％、约10％至约20％、约10％至约30％、约10％至约35％、约10％至约40％、约10％至约45％、约10％至约50％、约10％至约55％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约20％至约30％、约20％至约35％、约20％至约40％、约20％至约45％、约20％至约50％、约20％至约55％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约30％至约35％、约30％至约40％、约30％至约45％、约30％至约50％、约30％至约55％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约35％至约40％、约35％至约45％、约35％至约50％、约35％至约55％、约35％至约60％、约35％至约70％、约35％至约80％、约35％至约90％、约40％至约45％、约40％至约50％、约40％至约55％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约45％至约50％、约45％至约55％、约45％至约60％、约45％至约70％、约45％至约80％、约45％至约90％、约50％至约55％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约55％至约60％、约55％至约70％、约55％至约80％、约55％至约90％、约60％至约70％、约60％至约80％、约60％至约90％、约70％至约80％、约70％至约90％、约80％至约90％、约10％、约20％、约30％、约35％、约40％、约45％、约50％、约55％、约60％、约70％、约80％、约90％、约95％或约100％。

32.一种组合物，包含权利要求21至31中任一项的系统。

33.根据权利要求32所述的组合物，其中所述组合物包含第一、第二、第三和任选的第四RNA分子，每个RNA分子编码抗肌萎缩蛋白、因子8、ABCA4或MYO7A的至少一部分。

34.一种试剂盒，包含权利要求21至31中任一项所述的系统或权利要求44和45中任一项所述的组合物，其中所述合成第一、第二、第三和第四核酸分子中的任一种可以在单独的容器中，并且所述试剂盒任选地还包含缓冲剂，例如药学上可接受的载体。

35.一种在细胞中表达靶蛋白的方法，包括：

将权利要求21至31中任一项所述的系统或权利要求32或33所述的组合物引入细胞中，并在所述细胞中表达所述第一和第二RNA分子，其中所述靶蛋白在所述细胞中产生。

36.根据权利要求35所述的方法，其中所述细胞在受试者中，并且引入包括向所述受试者施用治疗有效量的所述系统。

37.根据权利要求36所述的方法，其中所述方法治疗所述受试者由编码所述靶蛋白的基因突变引起的遗传疾病，其中所述方法使得功能性靶蛋白在所述受试者表达。

38.根据权利要求37所述的方法，其中

所述遗传疾病为杜氏肌营养不良症，并且所述靶蛋白为抗肌萎缩蛋白；

所述遗传疾病为A型血友病，并且所述靶蛋白为F8；

所述遗传疾病为斯塔加特病，并且所述靶蛋白为ABCA4；或者

所述遗传疾病是亚瑟综合征，并且所述靶蛋白是MYO7A。

39.根据权利要求21至31中任一项的系统，根据权利要求1至16、32和33中任一项的组合物，或根据权利要求35至38中任一项的方法，其中所述第一和第二RNA分子中的一种或两种与SEQ ID NO:1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、145、146、147、148、155、156、157、158、159、160、161、162、163、164、165和166中任一项中提供的合成内含子具有至少80％、至少85％、至少90％、至少95％、至少98％、至少99％或100％的序列同一性。

40.根据权利要求21至31和39中任一项的系统，根据权利要求1至16、32和33中任一项的组合物，或根据权利要求35至38中任一项的方法，或根据权利要求35至38中任一项的方法，其中所述第一和第二RNA分子的一种或两种包含选自以下合成内含子：SEQ ID NO:20的nt 3703至3975、SEQ ID NO:21的nt 1至228、SEQ ID NO:22的nt 3703至3975、SEQ ID NO:23的nt 1至225、SEQ ID NO:24的nt 3560至3828，和SEQ ID NO:25的nt 1-225。

41.根据权利要求21至31、39和40中任一项的系统，根据权利要求1至16、32和33中任一项的组合物，或根据权利要求35至38中任一项的方法，或根据权利要求35至38中任一项的方法，其中所述第一和第二RNA分子中的一种或两种还包含蛋白质编码序列的一部分。

42.根据权利要求21至31和39至41中任一项的系统，根据权利要求1至16、32和33中任一项的组合物，或根据权利要求35至38中任一项的方法，或根据权利要求35至38中任一项的方法，其中所述蛋白质编码序列的部分包含所述蛋白质编码序列的N-端半段、N-端部分、C-端半段或C-端部分。

43.根据权利要求21至31和39至42中任一项的系统，根据权利要求1至16、32和33中任一项的组合物，或根据权利要求35至38中任一项的方法，包括：(a)第一RNA分子，所述RNA分子从5'到3'包含：(i)所述靶蛋白N-端部分的编码序列；(ii)剪接供体；(ii-2)DISE、ISE，或两者；以及(iii)第一二聚体化域；和(b)第二RNA分子，所述RNA分子从5'至3'包含：(i)第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；(i-2)至少一个ISE序列；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；和(v)所述靶蛋白C-端部分的编码序列。

44.根据权利要求21至31和39至43中任一项的系统，根据权利要求1至16、32和33中任一项的组合物，或根据权利要求35至38中任一项的方法，包括：(a)第一RNA分子，所述RNA分子从5'到3'包含：(i)所述靶蛋白N-端部分的编码序列；(ii)剪接供体；(ii-2)DISE、ISE和ISE；和(iii)第一二聚体化域；和(b)第二RNA分子，所述RNA分子从5'至3'包含：(i)第二二聚体化域，其中所述第二二聚体化域与所述第一二聚体化域结合；(i-2)三个ISE序列；(ii)分支点序列；(iii)多嘧啶束；(iv)剪接受体；(v)所述靶蛋白C-端部分的编码序列。

45.根据权利要求1至16中任一项所述的组合物，其中所述第一和第二RNA分子中的任一种或两种的大小各自独立地选自：约2500至4500nt、约2,500nt至约2,750nt、约2,500nt至约3,000nt、约2,500nt至约3,250nt、约2,500nt至约3,500nt、约2,500nt至约3,750nt、约2,500nt至约4,000nt、约2,500nt至约4,250nt、约2,500nt至约4,500nt、约2,750nt至约3,000nt、约2,750nt至约3,250nt、约2,750nt至约3,500nt、约2,750nt至约3,750nt、约2,750nt至约4,000nt、约2,750nt至约4,250nt、约2,750nt至约4,500nt、约3,000nt至约3,250nt、约3,000nt至约3,500nt、约3,000nt至约3,750nt、约3,000nt至约4,000nt、约3,000nt至约4,250nt、约3,000nt至约4,500nt、约3,250nt至约3,500nt、约3,250nt至约3,750nt、约3,250nt至约4,000nt、约3,250nt至约4,250nt、约3,250nt至约4,500nt、约3,500nt至约3,750nt、约3,500nt至约4,000nt、约3,500nt至约4,250nt、约3,500nt至约4,500nt、约3,750nt至约4,000nt、约3,750nt至约4,250nt、约3,750nt至约4,500nt、约4,000nt至约4,250nt、约4,000nt至约4,500nt、约4,250nt至约4,500nt、约2,500nt、约2,750nt、约3,000nt、约3,250nt、约3,500nt、约3,750nt、约4,000nt、约4,250nt和约4,500nt。

46.根据权利要求1至16中任一项所述的组合物，其中：

所述总靶蛋白编码序列大小为约2000nt至约8000nt、约2,000nt至约3,000nt、约2,000nt至约3,500nt、约2,000nt至约4,000nt、约2,000nt至约4,500nt、约2,000nt至约5,000nt、约2,000nt至约5,500nt、约2,000nt至约6,000nt、约2,000nt至约6,500nt、约2,000nt至约7,000nt、约2,000nt至约7,500nt、约2,000nt至约8,000nt、约3,000nt至约3,500nt、约3,000nt至约4,000nt、约3,000nt至约4,500nt、约3,000nt至约5,000nt、约3,000nt至约5,500nt、约3,000nt至约6,000nt、约3,000nt至约6,500nt、约3,000nt至约7,000nt、约3,000nt至约7,500nt、约3,000nt至约8,000nt、约3,500nt至约4,000nt、约3,500nt至约4,500nt、约3,500nt至约5,000nt、约3,500nt至约5,500nt、约3,500nt至约6,000nt、约3,500nt至约6,500nt、约3,500nt至约7,000nt、约3,500nt至约7,500nt、约3,500nt至约8,000nt、约4,000nt至约4,500nt、约4,000nt至约5,000nt、约4,000nt至约5,500nt、约4,000nt至约6,000nt、约4,000nt至约6,500nt、约4,000nt至约7,000nt、约4,000nt至约7,500nt、约4,000nt至约8,000nt、约4,500nt至约5,000nt、约4,500nt至约5,500nt、约4,500nt至约6,000nt、约4,500nt至约6,500nt、约4,500nt至约7,000nt、约4,500nt至约7,500nt、约4,500nt至约8,000nt、约5,000nt至约5,500nt、约5,000nt至约6,000nt、约5,000nt至约6,500nt、约5,000nt至约7,000nt、约5,000nt至约7,500nt、约5,000nt至约8,000nt、约5,500nt至约6,000nt、约5,500nt至约6,500nt、约5,500nt至约7,000nt、约5,500nt至约7,500nt、约5,500nt至约8,000nt、约6,000nt至约6,500nt、约6,000nt至约7,000nt、约6,000nt至约7,500nt、约6,000nt至约8,000nt、约6,500nt至约7,000nt、约6,500nt至约7,500nt、约6,500nt至约8,000nt、约7,000nt至约7,500nt、约7,000nt至约8,000nt、约7,500nt至约8,000nt、约2,000nt、约3,000nt、约3,500nt、约4,000nt、约4,500nt、约5,000nt、约5,500nt、约6,000nt、约6,500nt、约7,000nt、约7,500nt，或约8,000nt；和/或

47.根据权利要求1至16中任一项所述的组合物，其中所述第一二聚体化域和所述第二二聚体化域各自不超过1000nt，例如至少50nt、至少100nt、至少150nt、至少200nt、至少300nt、至少400nt、至少500nt、50至1000nt、50至500nt、50至150nt、50、100、150、200、250、300、400或500nt；并且所述系统的重组效率为至少约20％、至少约25％、至少约30％、至少约35％、至少约40％、至少约45％、至少约50％、至少约55％、至少约60％、至少约65％、至少约70％、至少约75％、至少约80％、至少约85％、至少约90％或至少约95％。

48.根据权利要求1至16中任一项所述的组合物，其中每个二聚体化域不超过1000nt，例如至少50nt、至少100nt、至少150nt、至少200nt、至少300nt、至少400nt、至少500nt、50至1000nt、50至500nt、50至150nt、50、100、150、200、250、300、400或500nt；并且所述系统的重组效率为至少20％、至少30％、至少40％、至少50％、至少60％、至少70％、至少75％、至少80％或至少90％。

49.根据权利要求1至16中任一项所述的组合物，其中所述RNA重组效率为约10％至约100％、约10％至约20％、约10％至约30％、约10％至约35％、约10％至约40％、约10％至约45％、约10％至约50％、约10％至约55％、约10％至约60％、约10％至约70％、约10％至约80％、约10％至约90％、约20％至约30％、约20％至约35％、约20％至约40％、约20％至约45％、约20％至约50％、约20％至约55％、约20％至约60％、约20％至约70％、约20％至约80％、约20％至约90％、约30％至约35％、约30％至约40％、约30％至约45％、约30％至约50％、约30％至约55％、约30％至约60％、约30％至约70％、约30％至约80％、约30％至约90％、约35％至约40％、约35％至约45％、约35％至约50％、约35％至约55％、约35％至约60％、约35％至约70％、约35％至约80％、约35％至约90％、约40％至约45％、约40％至约50％、约40％至约55％、约40％至约60％、约40％至约70％、约40％至约80％、约40％至约90％、约45％至约50％、约45％至约55％、约45％至约60％、约45％至约70％、约45％至约80％、约45％至约90％、约50％至约55％、约50％至约60％、约50％至约70％、约50％至约80％、约50％至约90％、约55％至约60％、约55％至约70％、约55％至约80％、约55％至约90％、约60％至约70％、约60％至约80％、约60％至约90％、约70％至约80％、约70％至约90％、约80％至约90％、约10％、约20％、约30％、约35％、约40％、约45％、约50％、约55％、约60％、约70％、约80％、约90％、约95％或约100％。

50.根据权利要求1至16中任一项所述的组合物，其中：

(a)所述第一和第二RNA分子各自为约2500nt至4500nt；

(b)所述总靶蛋白编码序列大小为约2000nt至约8000nt；和/或

(c)所述两个RNA分子的总大小为约5,000nt至约9000nt；

并且所述RNA重组效率为约10％至约100％。