CN117965543A

CN117965543A - 一种重组核酸分子及其在制备环状rna中的应用

Info

Publication number: CN117965543A
Application number: CN202410311947.8A
Authority: CN
Inventors: 仇宗浩; 赵阳; 左炽健
Original assignee: Suzhou Kerui Maide Biomedical Technology Co ltd
Current assignee: Suzhou Kerui Maide Biomedical Technology Co ltd
Priority date: 2022-03-02
Filing date: 2022-03-02
Publication date: 2024-05-03
Also published as: CN114438127B; US20230279389A1; EP4239073A1; CN114438127A

Abstract

本公开涉及一种重组核酸分子及其在制备环状RNA中的应用，具体涉及用于制备环状RNA的重组核酸分子、重组表达载体、环状RNA、组合物、制备环状RNA的方法、在细胞内表达目标多肽的方法，筛选目标编码区序列的方法、用于筛选目标编码区序列的系统，以及筛选核酶识别位点序列的方法。本公开提供的重组核酸分子，为环状RNA的体外制备提供了一种结构新颖的Clean PIE系统，能够避免在环状RNA中引入额外的外显子序列，提高环状RNA分子的序列精确度，减小环状RNA的二级结构的改变，进而降低环状RNA的免疫原性，在核酸疫苗、表达治疗性蛋白、基因治疗等领域具有良好的应用前景。

Description

一种重组核酸分子及其在制备环状RNA中的应用

本申请是申请日2022年3月2日、申请号为202210200112.6的专利申请“一种重组核酸分子及其在制备环状RNA中的应用”的分案申请。

技术领域

本公开属于分子生物学和生物工程技术领域，具体来说，本公开涉及一种用于制备环状RNA的重组核酸分子、重组表达载体、环状RNA、组合物、制备环状RNA的方法、在细胞内表达目标多肽的方法、预防或治疗疾病的方法，筛选目标编码区序列的方法、用于筛选目标编码区序列的系统，以及筛选核酶识别位点序列的方法。

背景技术

美国国立卫生研究院的一项临床实验观察到通过将正常的腺苷脱氨酶(ADA)转移入患有ADA(腺苷脱氨酶)缺乏性重度联合免疫缺陷症(ADA-SCID)的儿童体内，ADA-SCID的症状被显著改善^[1-2]。这项研究极大促进了基因治疗临床研究的开展，基因治疗技术的出现有望从根本上治愈一些现有的常规疗法不能解决的疾病，弥补传统治疗方法的不足。但是，由于早期基因治疗研究中多采用逆转录病毒作为目的基因的递送载体，而逆转录病毒将目的片段通过随机插入的方式整合到目的细胞基因组上的特性决定了这种方式存在极大的不确定性以及危险性。近年来，随着病毒载体的改进(慢病毒载体，腺病毒载体，重组腺病毒相关载体等)以及非病毒载体的发展(脂质体技术，脂质纳米粒技术，微球技术，树枝状大分子技术，外泌体等)，基因治疗又再次回到人们的视线。

信使核糖核酸(messenger Ribonucleic Acid，mRNA)是由DNA转录而来，并为下一步蛋白质的翻译提供所需的遗传信息，在蛋白生产、作为核酸疫苗等基因治疗手段等方面具有重要的应用价值。与传统疫苗相比核酸疫苗具有免疫应答持久、制造工艺简单以及能够用于肿瘤预防等多种优势，在急性传染病、HIV和癌症预防等领域前景广阔。特别地，自新型冠状病毒感染(Corona Virus Disease 2019，COVID-19)爆发以来，核酸疫苗的研发进程显著加快。

虽然由核糖体内部序列(Internal ribosome entry sites，IRES)介导的环状RNA被证明在体外通过非帽依赖(cap-independent)的方式合成蛋白^[15]，但过去较长时间内，多数研究者仍然认为真核生物的核糖体在体内不能翻译环状RNA(Circular RNA，circRNA)。随着RNA测序技术(RNA-seq)的兴起，越来越多的环状RNA被鉴定出来^[3-8]，环状RNA的研究得以重视。同时伴随着研究的深入，研究者发现在真核生物内，环状RNA不仅广泛存在，而且表现出高度的保守特性^[9]。环状RNA由于其5’及3’端首尾相连形成封闭的环形，表现出相较于线性mRNA对RNase更高的耐受性(Resistance)；因此，相较于线性mRNA，环状RNA能够更长效、持久的表达^[10]。另外，相较于线性mRNA制备过程中繁琐的加帽、加尾以及核苷酸修饰，环状RNA的生产制备表现出更加高效、快速以及成本低廉等特性。由于这些特性，虽然环状RNA是一种全新的基因治疗手段，但是已经被作为一种基因治疗的载体用于商业开发。

RNA的成环是环状RNA生产加工过程中的关键步骤。目前常见的成环方法主要分为体内成环和体外成环。在真核生物体内，剪接体(Spliceosome)通过两步法从未成熟的mRNA上将内含子剪切下来。具体如下：首先，内含子中特定腺苷酸(branch point Adenosine，bpA)上的2’-羟基将攻击5’端的剪切位点，从而在5’端的外显子末端形成3’-羟基基团；然后，新形成的3’-羟基末端在剪切体的辅助下进一步进攻3’端的剪切位点继而形成两个外显子相连的线性RNA和一个套索结构(lariat)。天然的环状RNA在这个过程中通过向后剪切(Back-splicing)或者外显子跳跃(Exon skipping)的方式产生^[3,10-11]。虽然体内成环的方式可以保证成环后环状RNA序列的准确性，但是需要将质粒作为治疗药物导入体内，这大大提高了向基因组内整合的风险。

RNA的体外成环主要是依赖磷酸二酯键的形成，最常见的RNA的体外成环主要分成化学法、酶催化法。其中，化学成环法中天然磷酸二酯键的形成主要通过溴化氰(CyanogenBromide)或者乙基-3-3’二甲氨基丙基碳二亚胺(ethyl-3-(3’-dimethylaminopropyl)-carbodiimide)催化RNA 5’-单磷酸以及3’-羟基的缩合反应成环。但是，化学法成环的连接效率低、仅适合连接小片段的环状RNA^[12]，并且化学基团在基因治疗过程中也存在较大的安全隐患。因此，化学成环法难以获得广泛的应用。

酶催化法可进一步分为蛋白酶催化以及核酶催化，其中，蛋白酶催化主要通过T4DNA连接酶(T4 DNA ligase)、T4 RNA连接酶1(T4 RNAligase 1)、T4 RNA连接酶2(T4 RNAligase 2)以及RtcB通过夹板链催化磷酸二酯键的形成^[13]。但是，目前蛋白酶催化连接的方法存在对大片段环状RNA的连接效率低，并且也难以得到具有精确核酸序列的环状信使核糖核苷酸。

核酶(ribozyme)是一种可以起到类似蛋白酶催化作用的一种RNA。通过核酶在体外制备环状RNA通常有三种方法，Group I Intron自剪切，Group II intron自剪切以及通过一些亚病毒基因组进行环化。其中Group II intron通常通过2‘5’二磷酸连接环状，这种连接方式是否会影响环状RNA的表达还需要进一步的探讨。通过亚病毒的基因组连接环状RNA的方式通常需要引入亚病毒基因组中的核酶，体内的一些RNA通常会成为这些核酶潜在的剪切对象。Group I intron催化环状核糖核苷酸成环是目前工业界常用的成环策略，其中鱼腥藻(Anabaena)PIE(premuted intron exon)以及T4td(Thymidylate Synthase ofT4)PIE是目前应用最为广泛的核酶催化的自剪切成环系统。在鸟嘌呤及二价阳离子存在的条件下，鱼腥藻PIE以及T4td PIE的内含子序列会形成特定的结构并且通过自我催化的方式剪切下来，从而将内含子中间的核糖核苷酸序列形成环状。

目前，环状RNA在基因治疗载体、体内表达治疗性蛋白、作为核酸疫苗等领域表现在重要的应用前景，但其自身仍然存在很多尚未解决或尚未发现的问题。其中，环状RNA序列的准确性是其应用于临床治疗的关键，是后续治疗效果和安全性的重要保障。研究比较了T4 ligase与T4 td PIE系统、鱼腥藻PIE系统连接形成环状RNA对RNA二级结构的影响，如图1所示，与T4 ligase连接成环的方法相比，通过T4 td PIE系统、鱼腥藻PIE系统自剪切成环会导致在环状RNA中引入额外的外显子序列(E1、E2)，使成环后的RNA结构构象发生巨大改变。并且，利用T4 td PIE、鱼腥藻PIE得到的环状RNA，由于额外引入E1、E2序列，会引发细胞内的免疫反应，导致环状RNA分子在细胞内降解^[14]。

中国专利文献CN 112399860 A中公开了一种用于制备环状RNA的载体，所述载体包含彼此可操作连接的并按以下顺序排列的以下元件：a.)5’同源臂，b.)3’I组内含子片段，其包含3’剪接位点二核苷酸，c.)可选地，5’间隔子序列，d.)蛋白质编码或非编码区，e.)可选地，3’间隔子序列，f.)5’I组内含子片段，其包含5’剪接位点二核苷酸，和g.)3’同源臂，所述载体允许在真核细胞内部产生可翻译的或具有生物学活性的环状RNA。该载体虽然能够通过PIE系统的自剪切特性制备得到环状RNA，但是载体中需要插入特定的外显子序列以引导内含子片段的剪切作用，并且，在最终得到的环状RNA中会引入额外的外显子序列，降低了环状RNA的序列准确性，导致了成环后的RNA结构构象发生巨大改变，引发细胞免疫反应，诱导环状RNA分子在细胞内降解，使环状RNA作为核酸疫苗以及在基因治疗中存在潜在的安全隐患，限制了环状RNA在临床疾病治疗中的应用。

引用文献：

[1]Kantoff P W,Kohn D B,Mitsuya H,et al.Correction of adenosinedeaminase deficiency in cultured human T and B cells by retrovirus-mediatedgene transfer[J].Proceedings of the National Academy of Sciences,1986,83(17):6563-6567.

[2]Kohn D B,Mitsuya H,Ballow M,et al.Establishment andcharacterization of adenosine deaminase-deficient human T cell lines[J].TheJournal of Immunology,1989,142(11):3971-3977.

[3]Kelly S,Greenman C,Cook P R,et al.Exon skipping is correlated withexon circularization[J].Journal of molecular biology,2015,427(15):2414-2417.

[4]Djebali S,Davis C A,Merkel A,et al.Landscape of transcription inhuman cells[J].Nature,2012,489(7414):101-108.

[5]Guttman M,Garber M,Levin J Z,et al.Ab initio reconstruction ofcell type–specific transcriptomes in mouse reveals the conserved multi-exonicstructure of lincRNAs[J].Nature biotechnology,2010,28(5):503-510.

[6]Mortazavi A,Williams B A,McCue K,et al.Mapping and quantifyingmammalian transcriptomes by RNA-Seq[J].Nature methods,2008,5(7):621-628.

[7]Wang E T,Sandberg R,Luo S,et al.Alternative isoform regulation inhuman tissue transcriptomes[J].Nature,2008,456(7221):470-476.

[8]Wilusz J E,Sunwoo H,Spector D L.Long noncoding RNAs:functionalsurprises from the RNA world[J].Genes&development,2009,23(13):1494-1504.

[9]Wilusz J E.A 360view of circular RNAs:from biogenesis to functions[J].Wiley Interdisciplinary Reviews:RNA,2018,9(4):e1478.

[10]Jeck W R,Sharpless N E.Detecting and characterizing circular RNAs[J].Nature biotechnology,2014,32(5):453-461.

[11]Wang Y,Wang Z.Efficient backsplicing produces translatablecircular mRNAs[J].RNA,2015,21(2):172-179.

[12]Gaglione M,Di Fabio G,Messere A.Current Methods in Synthesis ofCyclic Oligonucleotides and Analogues[J].Current Organic Chemistry,2012,16(11):1371-1389.

[13]Obi P,Chen Y G.The Design and Synthesis of Circular RNAs[J].Methods,2021.

[14]Liu C X,Guo S K,Nan F,et al.RNA circles with minimizedimmunogenicity as potent PKR inhibitors[J].Molecular Cell,2021.

[15]Chen C,Sarnow P.Initiation of protein synthesis by the eukaryotictranslational apparatus on circular RNAs[J].Science,1995,268(5209):415-417.

发明内容

发明要解决的问题

鉴于现有技术中存在的问题，例如，目前应用PIE系统体外制备环状RNA的方法会导致环状RNA中包含额外的外显子序列，导致环状RNA的结构构象改变，引起细胞免疫反应，环状RNA分子易发生体内降低，在作为核酸疫苗、基因治疗等方面存在安全隐患的问题。为此，本公开提供了一种重组核酸分子，能够用于环状RNA的体外制备；并且应用其制备的环状RNA能够避免引入额外的外显子序列，提高环状RNA分子的序列精确度，减小环状RNA的二级结构的改变，进而降低环状RNA的免疫原性，提高了环状RNA在细胞内的稳定性，降低环状RNA在临床应用中的安全风险，在mRNA传染病疫苗、治疗性mRNA肿瘤疫苗、基于mRNA的树突状细胞(Dendritic cell，DC)肿瘤疫苗、基于mRNA的基因治疗(Gene therapy)、蛋白质补充疗法等领域具有广阔的应用前景。

用于解决问题的方案

(1)一种用于制备环状RNA的重组核酸分子，所述重组核酸分子选自如下(i)-(ii)中的任一项：

(i)沿5’向3’的方向，所述重组核酸分子包括按如下顺序排列的元件：

内含子片段II，编码元件截断片段II，翻译起始元件，编码元件截断片段I，内含子片段I；

其中，所述编码元件截断片段I的3’末端包含核酶识别位点I，所述核酶识别位点I由位于所述编码元件截断片段I的3’端的第一预设数量的核苷酸组成；

所述编码元件截断片段II的5’末端包含核酶识别位点II，所述核酶识别位点II由位于所述编码元件截断片段II的5’端的第二预设数量的核苷酸组成；

所述编码元件截断片段I的核苷酸序列与所述编码元件截断片段II的核苷酸序列沿5’向3’的方向用于形成编码至少一个目标多肽的编码元件序列；所述编码元件截断片段I的核苷酸序列对应所述编码元件序列中靠近5’方向的部分序列，所述编码元件截断片段II的核苷酸序列对应所述编码元件序列中靠近3’方向的其余部分序列；

所述内含子片段I的核苷酸序列与所述内含子片段II的核苷酸序列沿5’向3’的方向用于形成内含子序列；所述内含子片段I的核苷酸序列包含所述内含子序列中靠近5’方向的部分序列，所述内含子片段II的核苷酸序列包含所述内含子序列中靠近3’方向的其余部分序列；

或者，(ii)沿5’向3’的方向，所述重组核酸分子包含按如下顺序排列的元件：

内含子片段III，编码元件截断片段IV，翻译起始元件，编码元件截断片段III，内含子片段IV；

其中，所述编码元件截断片段III的3’末端包含核酶识别位点IV，所述核酶识别位点IV由位于所述编码元件截断片段III的3’端的第二预设数量的核苷酸组成；

所述编码元件截断片段IV的5’末端包含核酶识别位点III，所述核酶识别位点III由位于所述编码元件截断片段IV的5’端的第一预设数量的核苷酸组成；

所述编码元件截断片段III的核苷酸序列与所述编码元件截断片段IV的核苷酸序列沿5’向3’的方向用于形成编码至少一个目标多肽的编码元件序列；所述编码元件截断片段III的核苷酸序列对应所述编码元件序列中靠近5’方向的部分序列，所述编码元件截断片段IV的核苷酸序列对应所述编码元件序列中靠近3’方向的其余部分序列；

其中，所述内含子片段III的序列为所述内含子片段I的核苷酸序列的反向序列或反向互补序列，所述内含子片段IV的序列为所述内含子片段II的核苷酸序列的反向序列或反向互补序列；所述核酶识别位点III的序列为所述核酶识别位点I的核苷酸序列的反向序列，所述核酶识别位点IV的序列为所述核酶识别位点II的核苷酸序列的反向序列。

(2)根据(1)所述的重组核酸分子，其中，所述内含子片段I和所述内含子片段II来源于I类内含子(Group I Intron)，所述核酶识别位点I来源于与所述内含子片段I的5’端连接的天然外显子序列，所述核酶识别位点II来源于所述内含子片段II的3’端连接的天然外显子序列；

可选地，所述I类内含子来源于如下任意一种的I类内含子：T4噬菌体td基因、鱼腥藻属tRNA^Leu、TpaCOX2、Ptu。

(3)根据(1)或(2)所述的重组核酸分子，其中，所述第一预设数量的核苷酸选自3-100个核苷酸，优选3-50个核苷酸，更优选3-10个核苷酸。

(4)根据(1)-(3)任一项所述的重组核酸分子，其中，所述第二预设数量的核苷酸选自1-100个核苷酸，优选1-50个核苷酸，更优选1-10个核苷酸。

(5)根据(1)-(4)任一项所述的重组核酸分子，其中，所述第一预设数量与所述第二预设数量的和不等于3y，y≥1且y为整数。

(6)根据(1)-(5)任一项所述的重组核酸分子，其中，所述翻译起始元件包含具有起始编辑区翻译的活性的序列；

可选地，所述具有起始编辑区翻译的活性的序列选自如下的一项或两项以上的组合：由IRES序列、5’UTR序列、Kozak序列、包含m⁶A修饰的序列、核糖体18S rRNA的互补序列。

(7)根据(1)-(6)任一项所述的重组核酸分子，所述重组核酸分子用于制备包含编码元件的环状RNA；其中，所述环状RNA中的编码元件包含编码区1，任选存在的(a)至少一个编码区2，和任选存在的(b)至少一个编码区3；

所述编码元件截断片段I和所述编码元件截断片段II用于形成编码区1，任选存在的(a)至少一个编码区2，和任选存在的(b)至少一个编码区3；沿5’向3’的方向，所述重组核酸分子包括按如下(i)-(iv)任一项所示顺序排列的元件：

(i)内含子片段II，编码区1截断片段II，至少一个编码区2，翻译起始元件，编码区1截断片段I，内含子片段I；

(ii)内含子片段II，编码区1截断片段II，翻译起始元件，至少一个编码区3，编码区1截断片段I，内含子片段I；

(iii)内含子片段II，编码区1截断片段II，至少一个编码区2，翻译起始元件，至少一个编码区3，编码区1截断片段I，内含子片段I；

(iv)内含子片段II，编码区1截断片段II，翻译起始元件，编码区1截断片段I，内含子片段I；

或者，所述编码元件截断片段III和所述编码元件截断片段IV用于形成编码区1，任选存在的(a)至少一个编码区2，和任选存在的(b)至少一个编码区3；沿5’向3’的方向，所述重组核酸分子包括按如下(v)-(viii)任一项所示顺序排列的元件：

(v)内含子片段III，编码区1截断片段IV，至少一个编码区2，翻译起始元件，编码区1截断片段III，内含子片段IV；

(vi)内含子片段III，编码区1截断片段IV，翻译起始元件，至少一个编码区3，编码区1截断片段III，内含子片段IV；

(vii)内含子片段III，编码区1截断片段IV，至少一个编码区2，翻译起始元件，至少一个编码区3，编码区1截断片段III，内含子片段IV；

(viii)内含子片段III，编码区1截断片段IV，翻译起始元件，编码区1截断片段III，内含子片段IV；

其中，编码区1、每个编码区2和每个编码区3彼此独立地编码任意类型的目标多肽。

(8)根据(7)所述的重组核酸分子，其中，所述重组核酸分子包括如下(i)-(ii)中一种或两种的元件：

(i)位于所述编码区1截断片段II与所述编码区2之间的连接子；

(ii)位于所述编码区3与所述编码区1截断片段I之间的连接子；

或者，所述重组核酸分子包括如下(iii)-(iv)中一种或两种的元件：

(iii)位于所述编码区1截断片段IV与所述编码区2之间的连接子；

(iv)位于所述编码区3与所述编码区1截断片段III之间的连接子；

可选地，所述编码区2的数量为至少2个，所述重组核酸分子包括位于任意两个编码区2之间的连接子；

可选地，所述编码区3的数量为至少2个，所述重组核酸分子包括位于任意两个编码区3之间的连接子；

优选地，所述连接子为编码2A肽的多核苷酸。

(9)根据(1)-(6)任一项所述的重组核酸分子，其中，所述重组核酸分子用于制备包含编码元件的环状RNA；其中，所述环状RNA中的编码元件包含编码区1，至少一个编码区4，和位于任意相邻的两个编码区之间的翻译起始元件；

所述编码元件截断片段I和所述编码元件截断片段II用于形成编码区1，至少一个编码区4，和位于任意相邻的两个编码区之间的翻译起始元件；或者，

所述编码元件截断片段III和所述编码元件截断片段IV用于形成编码区1，至少一个编码区4，和位于任意相邻的两个编码区之间的翻译起始元件。

(10)根据(1)-(9)任一项所述的重组核酸分子，其中，所述目标多肽为人源蛋白或非人源蛋白；

可选地，所述目标多肽选自如下的一种或两种以上的组合：抗原、抗体、抗原结合片段、荧光蛋白、具有疾病治疗活性的蛋白、具有基因编辑活性的蛋白。

(11)根据(1)-(10)任一项所述的重组核酸分子，其中，所述重组核酸分子还包括位于所述截断片段II与所述翻译起始元件之间的插入元件，或者位于所述截断片段IV与所述翻译起始元件之间的插入元件；所述插入元件选自如下(i)-(iii)组成组中的至少一项：

(i)转录水平调控元件，(ii)翻译水平调控元件，(iii)纯化元件；

优选地，所述插入元件连接于任意的翻译起始元件的5’末端；

可选地，所述插入元件包含如下的一种或两种以上的组合的序列：

非翻译区序列，polyA序列，适配体序列，核糖开关序列，结合转录调控因子的序列。

(12)根据(1)-(11)任一项所述的重组核酸分子，其中，所述重组核酸分子还包括5’同源臂和3’同源臂，所述5’同源臂的核苷酸序列与所述3’同源臂的核苷酸序列杂交；

所述5’同源臂连接于所述内含子片段II的5’端，所述3’同源臂连接于所述内含子片段I的3’端；或者，所述5’同源臂连接于所述内含子片段III的5’端，所述3’同源臂连接于所述3’内含子片段IV的3’端。

(13)根据(1)-(12)任一项所述的重组核酸分子，其中，所述内含子片段I、所述翻译起始元件和所述内含子片段II中的任意一个元件内，或所述内含子片段I、所述编码元件截断片段II、所述翻译起始元件、所述编码元件截断片段I和所述内含子片段II中任意两个元件之间不包含来源于外显子的核苷酸序列；或者，

所述内含子片段III、所述翻译起始元件和所述内含子片段IV中的任意一个元件内，或所述内含子片段III、所述编码元件截断片段IV、所述翻译起始元件、所述编码元件截断片段III和所述内含子片段IV中任意两个元件之间不包含来源于外显子的核苷酸序列的反向序列或反向互补序列。

(14)一种重组表达载体，其中，所述重组表达载体包含如(1)-(13)任一项所述的重组核酸分子。

(15)根据(1)-(13)任一项所述的重组核酸分子，或根据(14)所述的重组表达载体在体外制备环状RNA的用途。

(16)一种在体外制备环状RNA的方法，其包括如下步骤：

转录步骤：如(1)-(13)任一项所述的重组核酸分子或根据(14)所述的重组表达载体转录形成环化前体核酸分子；

环化步骤：所述环化前体核酸发生环化反应，得到环状RNA；

可选地，所述方法还包括，纯化所述环状RNA的步骤。

(17)根据(1)-(13)任一项所述的重组核酸分子、根据(14)所述的重组表达载体，或根据(16)所述方法制备的环状RNA。

(18)一种环状RNA，沿5’向3’方向，其包含按如下顺序排列的元件：

翻译起始元件，用于编码至少一个目标多肽的编码元件；

可选地，所述环状RNA包含位于所述翻译起始元件的5’端与所述编码元件的3’端之间的插入元件；

可选地，所述翻译起始元件、所述目标多肽或所述插入元件如(6)、(10)-(11)任一项所定义。

(19)根据(18)所述的环状RNA，其中，所述环状RNA的编码元件包括编码区1，和如下(i)-(ii)组成的组中的至少一种：

(i)至少一个编码区2，(ii)至少一个编码区3；每个编码区彼此独立地编码任意类型的目标多肽；

优选地，任意相邻的两个编码区由连接子相连。

(20)根据(18)所述的环状RNA，其中，所述环状RNA的编码元件包括编码区1和至少一个编码区4，并且，任意一个编码区的5’端连接有翻译起始元件。

(21)根据(18)-(20)任一项所述的环状RNA，其中，所述插入元件连接于任意的翻译起始元件的5’末端。

(22)一种组合物，其中，所述组合物包含如(1)-(13)任一项所述的重组核酸分子、根据(14)所述的重组表达载体，或如(17)-(21)任一项所述的环状RNA；优选包含如(17)-(21)任一项所述的环状RNA；

可选地，所述组合物还包含一种或两种以上的药学上可接受的载体；

可选地，所述药学上可接受的载体选自脂质、聚合物或脂质-聚合物的复合物。

(23)一种在细胞内表达目标多肽的方法，其中，所述方法包括将根据(17)-(21)任一项所述的环状RNA，或根据(18)所述的组合物转入细胞内的步骤。

(24)一种预防或治疗疾病的方法，其中，所述方法包括向受试者施用根据(17)-(21)任一项所述的环状RNA，或根据(22)所述的组合物。

(25)一种筛选包含核酶识别位点的目标编码区序列的方法，其中，所述编码区序列为目标多肽的编码序列；所述方法包括如下步骤：

S1，在所述包含q个氨基酸的目标多肽中，沿N端向C端方向提取m组氨基酸单元，每组所述氨基酸单元中包含个数为n的氨基酸；其中任意相邻的两个氨基酸单元之间包含至少一个重复的氨基酸，n为整数且n≥2，m为整数且m≥1；优选地，m＝q+1-n；

S2，确定m组的密码子序列集，每组所述密码子序列集中包括每组所述氨基酸单元对应的密码子序列；

S3，遍历所述m组的密码子序列集，得到每组密码子序列集中的每个密码子序列与目标基序的匹配值；

S4，根据所述匹配值确定所述密码子序列集中的目标密码子序列，所述目标密码子序列对应所述编码区序列的位置为所述核酶识别位点的植入位置，在所述植入位置处包含所述目标密码子序列的编码区序列为包含核酶识别位点的目标编码区序列。

(26)根据(25)所述的方法，其中，所述目标基序包含核酶识别位点序列，所述核酶识别位点序列由核酶识别位点I的核苷酸序列和核酶识别位点II的核苷酸序列连接组成；或者由核酶识别位点III的核苷酸序列和核酶识别位点IV的核苷酸序列连接组成；

所述核酶识别位点序列的5’端和3’端中至少一端的位置上连接个数为x的核苷酸，得到核苷酸个数为3n的目标基序；其中，每个x彼此独立地为≥0的整数，每个连接的核苷酸彼此独立地选自任意类型的核苷酸。

(27)根据(25)或(26)所述的方法，其中，所述目标基序中包含有效碱基对，所述有效碱基对包括核酶识别位点I与核酶识别位点II的连接位置处的两个碱基；所述得到每组密码子序列集中的每个密码子序列与目标基序的匹配值的步骤包括：

判断所述密码子序列中对应所述有效碱基对位置处的碱基是否为有效碱基，若所述密码子序列中不包含所述有效碱基对，则不输出所述密码子序列的比对值；

若所述密码子序列中包含所述有效碱基对，确定由5’向3’的方向，每个密码子序列中的每个碱基与目标基序中的对应碱基的比对值；

根据所述每个密码子序列中的每个碱基的比对值，得到所述密码子序列与目标基序的匹配值。

(28)根据(27)所述的方法，其中，所述得到每组密码子序列集中的每个密码子序列与目标基序的匹配值的步骤还包括：

判断每组密码子序列集中的每个密码子序列是否与内含子序列杂交，得到所述每组密码子序列集中的每个密码子序列的互补值；

根据所述比对值与所述互补值确定每组密码子序列集中的每个密码子序列与目标基序的匹配值。

(29)一种用于筛选包含核酶识别位点的目标编码区序列的筛选系统，其中，所述编码区序列为编码目标多肽的核苷酸序列；

所述筛选系统包括：

目标基序建立模块：用于在所述核酶识别位点序列的5’端和3’端中至少一端的位置上连接个数为x的核苷酸，得到核苷酸个数为3n的目标基序；其中，每个x彼此独立地为≥0的整数，每个连接的核苷酸彼此独立地选自任意类型的核苷酸；

氨基酸单元提取模块：用于在所述包含q个氨基酸的目标多肽中，沿N端向C端方向提取m组氨基酸单元，每组所述氨基酸单元中包含个数为n的氨基酸；其中任意相邻的两个氨基酸单元之间包含至少一个重复的氨基酸，n为整数且n≥2，m为整数且m≥1；优选地，m＝q+1-n；

密码子序列集提取模块：用于确定m组的密码子序列集，每组所述密码子序列集中包括每组所述氨基酸单元对应的密码子序列；

匹配值计算模块：用于遍历所述m组的密码子序列集，得到每组密码子序列集中的每个密码子序列与目标基序的匹配值；

目标密码子序列筛选模块：用于根据所述匹配值确定所述密码子序列集中的目标密码子序列，所述目标密码子序列对应所述编码区序列的位置为所述核酶识别位点的植入位置，在所述植入位置处包含所述目标密码子序列的编码区序列为包含核酶识别位点的目标编码区序列；

优选地，所述目标基序包含核酶识别位点序列，所述核酶识别位点序列由核酶识别位点I的核苷酸序列和核酶识别位点II的核苷酸序列连接组成；或者由核酶识别位点III的核苷酸序列和核酶识别位点IV的核苷酸序列连接组成；

(30)根据(29)所述的筛选系统，其中，所述目标基序中包含有效碱基对，所述有效碱基对对应核酶识别位点I与核酶识别位点II的连接位置处的两个碱基；其中，所述匹配值计算模块包括：

有效碱基对判断单元：用于判断所述密码子序列中对应所述有效碱基对位置处的碱基是否为有效碱基，若所述密码子序列中不包含所述有效碱基对，则不输出所述密码子序列的比对值；

比对值判断单元：用于按照由5’向3’的方向，确定每个密码子序列中的每个碱基与目标基序中的对应碱基的比对值；

匹配值输出单元：用于根据所述每个密码子序列中的每个碱基的比对值，得到所述密码子序列与目标基序的匹配值。

(31)根据(30)所述的筛选系统，其中，所述匹配值计算模块还包括：

互补值计算模块：用于判断每组密码子序列集中的每个密码子序列是否与内含子序列杂交，得到所述每组密码子序列集中的每个密码子序列的互补值；

所述匹配值输出单元包括：用于根据所述比对值与所述互补值确定每组密码子序列集中的每个密码子序列与目标基序的匹配值。

(32)一种筛选核酶识别位点序列的方法，其中，所述方法包括：

确定待筛选序列，所述待筛选序列包含来源于I类内含子的内含子序列，以及连接于所述内含子序列的5’端的第一外显子序列，和连接于所述内含子序列的3’端的第二外显子序列；

根据所述待筛选序列，得到预测的RNA二级结构；

根据所述预测的RNA二级结构，得到所述第一外显子序列中具有核酶识别活性的核酶识别位点I，以及所述第二外显子序列中具有核酶识别活性的核酶识别位点II；

根据所述核酶识别位点I的核苷酸序列，与所述核酶识别位点II的核苷酸序列，确定核酶识别位点序列；

可选地，所述核酶识别位点序列包含如下(i)-(iv)组成的组中的至少一项：

(i)核酶识别位点I的核苷酸序列，

(ii)核酶识别位点II的核苷酸序列，

(iii)具有核酶识别活性的核酶识别位点I的突变体序列，

(iv)具有核酶识别活性的核酶识别位点II的突变体序列；

优选地，所述核酶识别位点序列由(i)和(iii)中的任一项，与(ii)和(iv)中的任一项连接组成。

(33)根据(32)所述的方法，其中，所述核酶识别位点I的核苷酸序列与所述内含子序列中的引导序列杂交，或者，所述核酶识别位点II的核苷酸序列与所述内含子序列中的引导序列杂交。

(34)根据(32)或(33)所述的方法，其中，所述方法包括：

依次对所述核酶识别位点I的碱基进行替换，得到具有核酶识别活性的核酶识别位点I的突变体序列；或者，

依次对所述核酶识别位点II的碱基进行替换，得到具有核酶识别活性的核酶识别位点II的突变体序列。

发明的效果

在一些实施方式中，本发明提供的用于制备环状RNA的重组核酸分子，其包含内含子片段II，编码元件截断片段II，翻译起始元件，编码元件截断片段I和内含子片段I。重组核酸分子在体外制备环状RNA，在内含子序列的引导下，位于编码元件截断片段I的3’末端的剪切位点以及位于编码元件截断片段II的5’末端的剪切位点依次发生断裂，使线状的核酸分子连接形成环状RNA，编码元件截断片段I和编码元件截断片段II连接形成用于编码至少一个目标多肽的编码元件。并且，由于核酶识别位点I和核酶识别位点II形成于编码元件截断片段的内部，在重组核酸分子中不需要引入额外的外显子序列，进而在环状RNA中排除了额外的外显子序列，提高了环状RNA分子的序列精确度。

本公开中的重组核酸分子为环状RNA的体外制备提供了一种结构新型的CleanPIE系统，与经典PIE系统相比，本公开中Clean PIE系统能够提高环状RNA的序列精确度，减小了环状RNA的二级结构的改变，进而降低环状RNA的免疫原性，提高了环状RNA在细胞内的稳定性，降低环状RNA在临床应用中的安全风险，适合环状RNA的体外大规模生产，在mRNA传染病疫苗、治疗性mRNA肿瘤疫苗、基于mRNA的树突状细胞(Dendritic cell，DC)肿瘤疫苗、基于mRNA的基因治疗(Gene therapy)、蛋白质补充疗法等领域具有广阔的应用前景。

在一些实施方式中，本公开提供的用于制备环状RNA的重组核酸分子，其包含内含子片段III，编码元件截断片段IV，翻译起始元件，编码元件截断片段III和内含子片段IV。重组核酸分子用于环状RNA的体外制备时，在内含子序列的引导下，位于编码元件截断片段IV的5’末端的剪切位点以及位于编码元件截断片段III的3’末端的剪切位点依次发生断裂，使线状的核酸分子连接形成环状RNA，编码元件截断片段III和编码元件截断片段IV连接形成用于编码至少一个目标多肽的编码元件。并且，在环状RNA中避免引入额外的外显子序列，环状RNA的序列精确度提高、免疫原性降低、稳定性提高，临床应用的安全风险降低，适合环状RNA的体外大规模制备，在核酸疫苗、基因治疗等领域具有良好的应用前景。

在一些实施方式中，本公开提供的用于制备环状RNA的重组核酸分子，无需引入间隔区、同源臂、外显子等片段，重组核酸分子的结构简单、制备得到的环状RNA的安全性好，适合环状RNA体外的大规模工业化制备。

在一些实施方式中，本公开提供的用于制备环状RNA的重组核酸分子，其翻译起始元件具有多种序列选择，均能实现环状RNA中编码区的高效率翻译，为环状RNA的制备提供了多种序列选择。

在一些实施方式中，本公开提供的用于制备环状RNA的重组核酸分子，通过引入插入元件，可在环状RNA中进一步引入转录水平调控元件、翻译水平调控元件或纯化元件等不同功能型的插入元件，实现对环状RNA表达目标多肽的特异性调节，以及对环状RNA的体外纯化可以对目标多肽的表达丰度的特异性调节，进而提高环状RNA的疾病治疗效果。

在一些实施方式中，本公开提供的环状RNA，应用上述的重组核酸分子制备得到，环状RNA中不包含额外引入的外显子序列，其序列精确度高，二级结构的改变小，具有高的生物安全性和结构稳定性，以及低的免疫原性，适用于临床疾病治疗领域。

在一些实施方式中，本公开提供的筛选目标编码区序列的方法，通过对目标多肽的氨基酸简并密码子序列进行划分、与目标基序比对、打分，得到包含核酶识别位点的目标编码区序列。将目标编码区序列在核酶识别位点的位置处截断，可用于得到编码元件截断片段I、编码元件截断片段II，或编码元件截断片段III、编码元件截断片段IV；核酶识别位点内置于上述的编码元件截断片段中，避免了环状RNA中引入额外的外显子序列。本公开中筛选目标编码区序列的方法适合将任意类型的PIE系统中的核酶识别位点融合到编码区序列中，具有广泛的应用前景。

附图说明

图1示出了来源于引用文献^[14]中T4 ligase、T4 td PIE系统、鱼腥藻PIE系统连接形成的环状RNA的二级结构示意图。

图2-A示出了本公开中用于制备环状RNA的重组核酸分子(Clean PIE系统)的结构示意图；

图2-B示出了本公开中用于制备环状RNA的重组核酸分子(Clean PIE系统)的结构示意图；

图3示出了本公开中用于制备环状RNA的重组核酸分子(Clean PIE系统)的结构示意图；

图4示出了本公开中用于制备环状RNA的重组核酸分子(Clean PIE系统)的结构示意图；

图5示出了本公开中用于制备环状RNA的重组核酸分子(Clean PIE系统)的结构示意图；

图6示出了本公开中用于制备环状RNA的重组核酸分子(Clean PIE系统)的结构示意图；

图7-A示出了本公开中用于制备环状RNA的重组核酸分子(Clean PIE系统)的结构示意图；

图7-B示出了本公开中用于制备环状RNA的重组核酸分子(Clean PIE系统)的结构示意图；

图8示出了环状RNA结构，其中A示出了应用本公开中Clean PIE系统制备的环状RNA的结构，B中出了应用传统PIE系统制备的环状RNA结构。

图9示出了应用本公开中的Clean PIE系统制备的环状RNA结构；

图10示出了应用本公开中的Clean PIE系统制备的环状RNA结构；

图11示出了应用本公开中的Clean PIE系统制备的环状RNA结构；

图12示出了经典PIE系统环化形成环状RNA的过程示意图；

图13示出了来源于T4td intron的二级结构预测图；

图14示出了来源于TpaCOX2 intron的二级结构预测图；

图15示出了来源于Ptu intron的二级结构预测图；

图16示出了以T4td PIE为例，筛选包含核酶识别位点的目标编码区序列的评分标准；

图17示出了利用筛选系统确定包含核酶识别位点的目标的自动化流程图；

图18示出了示出了利用经典PIE系统，与本公开中Clean PIE系统用于制备环状mRNA的质粒酶切产物(A)与成环后产物(B)的琼脂糖凝胶电泳检测结果；

图19示出了利用经典PIE系统，与本公开中Clean系统制备环状mRNA的体外表达水平的检测结果；

图20示出了Clean PIE成环制备的表达不同蛋白的环状mRNA的琼脂糖凝胶检测结果；

图21显示了对大肠杆菌基因组大于1000bp以及500bp的基因进行匹配值打分的评估结果；

图22示出了RNaseR消化不同PIE系统产生的线性及环状mRNA；

图23示出了毛细管电泳分析结果；

图24示出了Fluc及IL12反转录后cDNA的PCR测序分析结果；

图25示出了经典PIE系统与本公开中Clean PIE系统用于制备环状mRNA的未成环线性mRNA，与成环后环状mRNA的表达检测结果；A示出了经典PIE系统与Clean PIE系统未成环的线性mRNA的结构，B示出了western blot检测的线性mRNA的蛋白表达结果

图26示出了插入翻译调控元件(polyAC)后，利用Clean PIE系统制备的环状mRNA的表达检测结果；

图27示出了翻译调控元件调控Clean PIE系统成环的环状mRNA的组织特异性表达，其中A为注射带有miR122位点环状mRNA在小鼠中的表达情况，B为带有miR122位点的Clean PIE系统的框架结构；

图28示出了通过S1m RNA适配体纯化环状mRNA的凝胶电泳检测结果；

图29示出了利用Clean PIE系统(图中对应clean PIE)，以及利用鱼腥藻PIE系统(图中对应ana-PIE)制备环状mRNA诱导免疫因子的表达情况；

图30示出了添加同源臂以及不添加同源臂的Clean PIE系统制备环状mRNA的凝胶电泳检测结果；

图31示出了利用不同评分的编码区截断序列构建环状mRNA的琼脂糖凝胶电泳分析结果；

图32示出了包含以T2A串联不同编码区的环状mRNA表达eGFP和fireflyLuciferase的蛋白表达检测结果；

图33示出了以IRES串联不同编码区的环状mRNA表达eGFP和firefly Luciferase的蛋白表达检测结果；

图34示出了I类内含子的结构特征。

具体实施方式

定义

当在权利要求和/或说明书中与术语“包含”联用时，词语“一(a)”或“一(an)”可以指“一个”，但也可以指“一个或多个”、“至少一个”以及“一个或多于一个”。

如在权利要求和说明书中所使用的，词语“包含”、“具有”、“包括”或“含有”是指包括在内的或开放式的，并不排除额外的、未引述的元件或方法步骤。

在整个申请文件中，术语“约”表示：一个值包括测定该值所使用的装置或方法的误差的标准偏差。

虽然所公开的内容支持术语“或”的定义仅为替代物以及“和/或”，但除非明确表示仅为替代物或替代物之间相互排斥外，权利要求中的术语“或”是指“和/或”。

术语“多肽”、“肽”和“蛋白质”在本文中互换地使用并且为任意长度的氨基酸聚合物。该聚合物可以是线形或分支的，它可以包含修饰的氨基酸，并且它可以由非氨基酸隔断。该术语也包括已经被修饰(例如，二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任何其他操作，如以标记组分缀合)的氨基酸聚合物。

如本公开所使用的，“PIE系统”又称permuted introns and exons，是利用I类内含子(Group I Intron)的自我剪切系统，连接形成环状RNA的方法。

如本公开所使用的，I类内含子是指“Group I Intron”，其具有在GTP和Mg²⁺存在的条件下进行自我剪切成环的系统(self-splicing system)。

I类内含子是一类超大的可以发生自身剪切反应的核酶，通常广泛的存在于很多物种中，主要参与催化切除mRNA，tRNA，rRNA的前体。其核心二级结构通常包括九个配对区域(P1-P9)以及相应的loop区域(L1-L9)(图34)，Group I Intron的剪接通过两个连续的酯交换反应进行。外源鸟苷或鸟苷核苷酸(G)首先停靠在位于P7的活性G结合位点上，其3'-OH对齐以攻击位于P1的5'剪接位点的磷酸二酯键，从而产生一个游离的3'-OH基团位于上游外显子，外源的G连接到内含子的5'端。然后内含子的末端G(omega G)交换外援G，占据G结合位点，组织第二次酯转移反应：P1上游外显子的3'-OH基团对齐攻击3'剪接P10位点，导致相邻的上游和下游外显子连接并释放催化内含子。进一步的，p6和p7的连接部分的序列为J6/7序列，p8和p7的连接部分的序列为J8/7序列。Group I内含子通常包括如图34所示的结构特征(来源于Burke J M,Belfort M,Cech T R,et al.Structural conventions forgroup I introns[J].Nucleic acids research,1987,15(18):7217-7221)。

如本公开所使用的，内部引导序列(Internal guide sequence)通常指group Iintron中的一段通过Watson-Crick配对或者wobble配对与对应外显子序列相互配对的核苷酸序列，通常group I intron中P1 stem中。

如本公开所使用的，“核酶”又称ribozyme，用于描述具有催化活性的RNA。在一些实施方式中，本公开中的核酶识别位点是指当RNA形成具有催化功能的核酶分子时，能够被核酶识别，内部发生磷酸二酯键断裂的多核苷酸序列。

如本公开所使用的，术语“环状核酸分子”是指呈封闭环形的核酸分子。在一些具体的实施方式中，环状核酸分子为环状RNA分子。更具体地，环状核酸分子为环状mRNA分子。

如本公开所使用的，术语“线状RNA”是指能够通过环化反应形成环状RNA的环状RNA前体，其一般由线状的DNA分子(例如，包含重组核酸分子的载体等)转录形成。

如本公开所使用的，术语“IRES”(Internal ribosome entry site，IRES)又称内部核糖体进入位点，“内部核糖体进入位点”(IRES)属于翻译控制序列，通常位于所关注基因的5’端，并使得以帽非依赖性方式翻译RNA。经转录的IRES可直接结合核糖体亚单位，以使得mRNA起始密码子在核糖体中适当地取向以进行翻译。IRES序列通常位于mRNA的5’UTR中(起始密码子的正上游)。IRES在功能上取代对各种与真核生物翻译机制相互作用的蛋白因子的需求。

如本公开所使用的，术语“翻译起始元件”是指能够招募核糖体，起始RNA分子的翻译过程的任意的序列元件。示例性的，翻译起始元件为IRES元件、m⁶A修饰序列，或滚环翻译的起始序列等等。

在本公开中，术语“编码区”与“蛋白编码区”“开放阅读框(Open Reading Frame，ORF)”可以互换地使用。编码区从起始密码子开始，具有编码蛋白质潜能的连续的核苷酸序列。在一些实施方式中，编码区结束于终止密码子；在另外一些实施方式中，编码区中也可以不包含终止密码子。

在本公开中，术语“编码元件”形成于应用本公开中Clean PIE系统(例如，重组核酸分子、重组表达载体等)制备的环状RNA中，编码元件用于编码至少一个目标多肽，因此，编码元件包括至少一个编码区。示例性的，编码元件包括1、2、3、4、5、10、15、20、25、30、35、40、45、50以上数量(包含任意两者之间的任意整数值)的编码区。并且，在任意一个或多个编码区的内部设置有核酶识别位点。

在本公开中，核酶识别位点由核酶识别位点I和核酶识别位点II组成。需要说明的是，核酶识别位点设置于编码元件包含的编码区内部，因此，核酶识别位点I和核酶识别位点II仅形成于编码元件所包含的编码区的内部。或者，核酶识别位点由核酶识别位点III和核酶识别位点IV组成。需要说明的是，核酶识别位点设置于编码元件包含的编码区内部，因此，核酶识别位点III和核酶识别位点IV仅形成于编码元件所包含的编码区的内部。

本公开中的编码元件截断片段I、编码元件截断片段II由编码元件序列截断后形成，所述编码元件截断片段I的核苷酸序列对应所述编码元件序列中靠近5’方向的部分序列，所述编码元件截断片段II的核苷酸序列对应所述编码元件序列中靠近3’方向的其余部分序列；并且，所述核酶识别位点I与所述核酶识别位点II位于所述编码元件包含的任意编码区的内部；或者，

本公开中的编码元件截断片段III、编码元件截断片段IV由编码元件序列截断后形成，所述编码元件截断片段III的核苷酸序列对应所述编码元件序列中靠近5’方向的部分序列，所述编码元件截断片段IV的核苷酸序列对应所述编码元件序列中靠近3’方向的其余部分序列；并且，所述核酶识别位点III与所述核酶识别位点IV位于所述编码元件包含的任意编码区的内部。

进一步的，当编码元件中包含2个或2个以上的编码区时，相邻的2个编码区可以由可连接子或翻译起始元件进行连接。相应地，在至少一个编码元件截断片段内部进一步包含连接相连的编码区序列的连接子，或连接相邻的编码区序列的翻译起始元件。

示例性的：编码元件由1个编码区1组成，编码区1内部包含核酶识别位点；相应地，编码元件截断片段I为编码区1截断片段I，编码元件截断片段II为编码区1截断片段II；或者，编码元件截断片段III为编码区1截断片段III，编码元件截断片段IV为编码区1截断片段IV。

示例性的，编码元件包括由5’向3’方向顺次排列的编码区1和编码区2，在编码区1的内部设置有核酶识别位点。对编码区1进行截断，得到编码元件截断片段I、编码元件截断片段II，或者得到编码元件截断片段III、编码元件截断片段IV。其中，编码元件截断片段I为编码区1截断片段I；编码元件截断片段II包括编码区1截断片段II和编码区2；或者，编码元件截断片段III为编码区1截断片段III；编码元件截断片段IV包括编码区1截断片段IV和编码区2。

在一些可选的实施方式中，编码元件截断片段II进一步包括位于编码区1截断片段II和编码区2之间的连接子；或者，编码元件截断片段IV进一步包括位于编码区1截断片段IV和编码区2之间的连接子。

示例性的，编码元件包括由5’向3’方向顺次排列的编码区3和编码区1，在编码区1的内部设置有核酶识别位点。对编码区1进行截断，得到编码元件截断片段I、编码元件截断片段II，或者得到编码元件截断片段III、编码元件截断片段IV。其中，编码元件截断片段I包括编码区3和编码区1截断片段I；编码元件截断片段II为编码区1截断片段II；或者，编码元件截断片段III包括编码区3和编码区1截断片段III；编码元件截断片段IV为编码区1截断片段IV。

在一些可选的实施方式中，编码元件截断片段进一步包括位于编码区3和编码区1截断片段I之间的连接子；或者，编码元件截断片段III进一步包括位于编码区3和编码区1截断片段III之间的连接子。

示例性的，编码元件包括由5’向3’方向顺次排列的编码区3、编码区1和编码区2，在编码区1的内部设置有核酶识别位点。对编码区1进行截断，得到编码元件截断片段I、编码元件截断片段II，或者得到编码元件截断片段III、编码元件截断片段IV。其中，编码元件截断片段I包括编码区3和编码区1截断片段I，编码元件截断片段II包括编码区1截断片段II和编码区2；或者，编码元件截断片段III包括编码区3和编码区1截断片段III，编码元件截断片段IV包括编码区1截断片段IV和编码区2。

在一些可选的实施方式中，编码元件截断片段I进一步包括位于编码区3和编码区1截断片段I之间的连接子；或者，编码元件截断片段III进一步包括位于编码区3和编码区1截断片段III之间的连接子。在一些可选的实施方式中，编码元件截断片段II进一步包括位于编码区1截断片段II和编码区2之间的连接子；或者，编码元件截断片段IV进一步包括位于编码区1截断片段IV和编码区2之间的连接子。

示例性的，编码元件包括由5’向3’方向顺次排列的编码区1、翻译起始元件和编码区4，在编码区1的内部设置有核酶识别位点。对编码区1进行截断，得到编码元件截断片段I、编码元件截断片段II，或者得到编码元件截断片段III、编码元件截断片段IV。其中，编码元件截断片段I包括编码区1截断片段I，编码元件截断片段II包括编码区1截断片段II、翻译起始元件和编码区4。编码元件截断片段III包括编码区1截断片段III，编码元件截断片段IV包括编码区1截断片段IV、翻译起始元件和编码区4。

示例性的，编码元件包括由5’向3’方向顺次排列的编码区4、翻译起始元件和编码区1，在编码区1的内部设置有核酶识别位点。对编码区1进行截断，得到编码元件截断片段I、编码元件截断片段II，或者得到编码元件截断片段III、编码元件截断片段IV。其中，编码元件截断片段I包括编码区4、翻译起始元件和编码区1截断片段I，编码元件截断片段II为编码区1截断片段II。编码元件截断片段III包括编码区4、翻译起始元件和编码区1截断片段III，编码元件截断片段IV为编码区1截断片段IV。

需要说明的是，编码区2、编码区3或编码区4的数量可以是1个或2个以上，本公开对此不进行穷举。

术语“表达”包括涉及多肽产生的任何步骤，包括但不限于：转录、转录后修饰、翻译、翻译后修饰、和分泌。

术语“抗体”在本文中以最广意义使用，指包含抗原结合位点的蛋白质，涵盖各种结构的天然抗体和人工抗体，包括但不限于多克隆、单克隆、单特异性的、多特异性的、非特异性的、人源化、单链的、嵌合的、合成的、重组的、杂合的、突变的、嫁接的抗体。术语“抗体”还包括抗体片段例如Fab、F(ab’)₂、FV、scFv、Fd、dAb和其它保留抗原结合功能的抗体片段。通常情况下，这样的片段将包括抗原结合片段。

如本公开所使用的，术语“杂交”指一条核酸链上的碱基通过碱基配对与另一条核酸链上的互补碱基结合的过程。杂交反应可以是选择性的，使得特定目的序列以低浓度存在时也能从样品中选择该序列。杂交条件的严紧性(例如高度严紧、中度严紧、严紧)可以由例如预杂交溶液和杂交溶液中盐或甲酰胺的浓度、或杂交温度等来调整，例如，可以通过降低盐浓度、增加甲酰胺浓度或升高杂交温度增加严紧性。一般而言，严紧条件包括在约25℃至约42℃的温度，在至少约0％到至少约15％v/v甲酰胺和至少约1M到至少约2M盐中杂交，和至少约1M到至少约2M盐中洗涤；中度严紧条件包括在约25℃至约65℃的温度，在至少约16％到至少约30％v/v甲酰胺和至少约0.5M盐到至少约0.9M盐中杂交，和至少约0.5M到至少约0.9M盐中洗涤；高度严紧条件包括在约至少65℃的温度，在至少约31％到至少约50％v/v甲酰胺和至少约0.01M到至少约0.15M盐中杂交，和至少约0.01M到至少约0.15M盐中洗涤；甲酰胺在这些杂交条件中是可任选的。其它合适的杂交缓冲液和条件是本领域技术人员众所周知的，并且描述于例如Sambrook et al.,Molecular Cloning:A LaboratoryManual,2nd ed.Cold Spring Harbor Press,Plainview,N.Y.(1989)；和Ausubel et al.,Short Protocols in Molecular Biology,4thed.,John Wiley&Sons(1999).

本公开上下文中使用的术语“药学上可接受的载体”是指在药物生产领域中广泛采用的辅助物料。使用载体的主要目的在于提供一种使用安全、性质稳定和/或具有特定功能性的药物组合物，还在于提供一种方法，以便在为受试者施用药物之后，活性成分能够以所期望的速率溶出，或者促进活性成分在接受给药的受试者体内得到有效吸收。药学上可接受的载体可以是具有惰性的填充剂，也可以是为药用组合物提供某种功能(例如稳定组合物的整体pH值或防止组合物中活性成分的降解)的功效成分。药学上可接受的载体的非限制性实例包括但不限于粘合剂、助悬剂、乳化剂、稀释剂(或填充剂)、成粒剂、胶粘剂、崩解剂、润滑剂、抗粘着剂、助流剂、润湿剂、胶凝剂、吸收延迟剂、溶解抑制剂、增强剂、吸附剂、缓冲剂、螯合剂、防腐剂、着色剂、矫味剂、甜味剂等。

如本公开所使用的，术语“互补的”或“杂交的”用于指与碱基配对规则相关的“多核苷酸”和“寡核苷酸”(它们是可互换的术语，指的是核苷酸序列)。例如，序列“CAGT”与序列“GTCA”互补。互补或杂交可以是“部分的”或“全部的”。“部分”互补或杂交是指一个或多个核酸碱基根据碱基配对规则错配，核酸之间的“全部”或“完全”互补或杂交是指每个核酸碱基在碱基配对下均与另一个碱基匹配规则。核酸链之间的互补或杂交程度对核酸链之间的杂交效率和强度具有重要影响。这在扩增反应以及取决于核酸之间结合的检测方法中特别重要。

术语“重组核酸分子”指具有在自然界中不连接在一起的序列的多核苷酸。重组多核苷酸可包括在合适的载体中，且该载体可用于转化至合适的宿主细胞。然后多核苷酸在重组宿主细胞中表达以产生例如“重组多肽”“重组蛋白”“融合蛋白”等。

术语“重组表达载体”指用于表达例如编码所需多肽的多核苷酸的DNA结构。重组表达载体可包括，例如包含i)对基因表达具有调控作用的遗传元素的集合，例如启动子和增强子；ii)转录成mRNA并翻译成蛋白质的结构或编码序列；以及iii)适当的转录和翻译起始和终止序列的转录亚单位。重组表达载体以任何合适的方式构建。载体的性质并不重要，并可以使用任何载体，包括质粒、病毒、噬菌体和转座子。用于本公开的可能载体包括但不限于染色体、非染色体和合成DNA序列，例如病毒质粒、细菌质粒、噬菌体DNA、酵母质粒以及从质粒和噬菌体DNA的组合中衍生的载体，来自如慢病毒、逆转录病毒、牛痘、腺病毒、鸡痘、杆状病毒、SV40和伪狂犬病等病毒的DNA。

术语“宿主细胞”指已经向其中引入外源多核苷酸的细胞，包括这类细胞的子代。宿主细胞包括“转化体”和“转化的细胞”，这包括原代转化的细胞和从其衍生的子代。宿主细胞是可以用来产生本发明抗体分子的任何类型的细胞系统，包括真核细胞，例如，哺乳动物细胞、昆虫细胞、酵母细胞；和原核细胞，例如，大肠杆菌细胞。宿主细胞包括培养的细胞，也包括转基因动物、转基因植物或培养的植物组织或动物组织内部的细胞。术语“重组宿主细胞”涵盖导入重组核酸分子、重组表达载体、环状RNA后不同于亲本细胞的宿主细胞，重组宿主细胞具体通过转化来实现。本公开的宿主细胞可以是原核细胞或真核细胞，只要是能够导入本公开的重组核酸分子、重组表达载体、环状RNA等的细胞即可。

如本公开所使用的，术语“个体”、“患者”或“受试者”包括哺乳动物。哺乳动物包括但不限于，家养动物(例如，牛，羊，猫，狗和马)，灵长类动物(例如，人和非人灵长类动物如猴)，兔，以及啮齿类动物(例如，小鼠和大鼠)。

如本公开所使用的，术语“转化、转染、转导”具有本领域技术人员普遍理解的意思，即将外源性的DNA导入宿主的过程。所述转化、转染、转导的方法包括任何将核酸导入细胞的方法，这些方法包括但不限于电穿孔法、磷酸钙(CaPO₄)沉淀法、氯化钙(CaCl₂)沉淀法、微注射法、聚乙二醇(PEG)法、DEAE-葡聚糖法、阳离子脂质体法以及乙酸锂-DMSO法。

如本公开所使用的，“治疗”是指：在罹患疾病之后，使受试者接触(例如给药)本发明的环状RNA、环化前体RNA、组合物等，从而与不接触时相比使该疾病的症状减轻，并不意味着必需完全抑制疾病的症状。罹患疾病是指：身体出现了疾病症状。

如本公开所使用的，“预防”是指：在罹患疾病之前，通过使受试者接触(例如给药)本发明的环状RNA、组合物等，从而与不接触时相比减轻罹患疾病后的症状，并不意味着必需完全抑制患病。

如本公开所使用的，术语“有效量”指本发明的重组核酸分子、重组表达载体、环化前体RNA、环状RNA、疫苗或组合物的这样的量或剂量，其以单一或多次剂量施用患者后，在需要治疗或预防的患者中产生预期效果。有效量可以由作为本领域技术人员的主治医师通过考虑以下多种因素来容易地确定：诸如哺乳动物的物种；它的大小、年龄和一般健康；涉及的具体疾病；疾病的程度或严重性；个体患者的应答；施用的具体抗体；施用模式；施用制剂的生物利用率特征；选择的给药方案；和任何伴随疗法的使用。

除非另外定义或由背景清楚指示，否则在本公开中的全部技术与科学术语具有如本公开所属领域的普通技术人员通常理解的相同含义。

Clean PIE系统

传统PIE系统连接形成环状RNA的过程如图5所示，其中线状RNA包括顺次连接的如下元件：3’内含子(3’intron)、第二外显子E2(Exon2)、外源片段、第一外显子E1(Exon2)和5’内含子(5’intron)。当环境中存在GTP和Mg²⁺，GTP攻击E1与5’内含子的连接位置，产生5’剪切位点(5’splicing site，5ss)断裂，释放5’内含子；然后E1的3’-OH端攻击3’内含子与E2的连接位置，产生3’剪切位点(3’splicing site，3ss)断裂，释放3’内含子；最后连接形成目标的环状RNA。

但是，应用传统PIE系统会导致环状RNA中存在额外的E1、E2的外显子序列，降低环状RNA的序列精确度，导致环状RNA的天然免疫原性增加，在细胞内易发生降解。

为解决上述问题，本公开提供了一种结构新颖的Clean PIE系统，Clean PIE系统可以通过在不改变蛋白表达序列的基础上，利用PIE系统的自我剪切制备环状RNA，具有高的成环效率；并且成环后的环状RNA中无需引入额外的E1、E2序列，不仅简化了环状RNA的结构，降低各种可能发生的安全隐患；还提高了环状RNA的序列精确度，降低环状RNA天然的免疫原性，提高其在细胞内的稳定性，适合作为基因治疗载体、表达治疗性蛋白、作为核酸疫苗等临床应用领域，具有广阔的应用前景。

在本公开中，Clean PIE系统包括但不限于用于制备环状RNA的DNA构建体、包括DNA构建体的重组表达载体、利用重组表达载体外转录得到的环化前体RNA分子等等。

在一些实施方式中，本公开提供了一种用于制备环状RNA的重组核酸分子。示例性的，重组核酸分子可以是上述用于制备环状RNA的DNA构建体、环化前体RNA分子等。

在一些实施方式中，重组核酸分子的结构如图2-A中的A所示，沿5’向3’的方向，包括按如下顺序排列的元件：内含子片段II，编码元件截断片段II，翻译起始元件，编码元件截断片段I，内含子片段I。

其中，所述编码元件截断片段I的3’末端包含核酶识别位点I，所述核酶识别位点I由位于所述编码元件截断片段I的3’末端的第一预设数量的核苷酸组成；所述编码元件截断片段II的5’末端包含核酶识别位点II，所述核酶识别位点II由位于所述编码元件截断片段II的5’末端的第二预设数量的核苷酸组成。

所述编码元件截断片段I的核苷酸序列与所述编码元件截断片段II的核苷酸序列沿5’向3’的方向用于形成编码至少一个目标多肽的编码元件序列；所述编码元件截断片段I的核苷酸序列对应所述编码元件序列中靠近5’方向的部分序列，所述编码元件截断片段II的核苷酸序列对应所述编码元件序列中靠近3’方向的其余部分序列。

需要说明的是，编码元件形成于由重组核酸分子制备得到的环状RNA中。并且，编码元件中包含1个或2个以上的编码目标多肽的编码区。当编码元件中包含2个以上的编码区时，在编码元件中还可以包含位于相邻两个编码区之间的连接子，位于相邻两个编码区之间的翻译起始元件，或其他所需类型的序列。

所述内含子片段I的核苷酸序列与所述内含子片段II的核苷酸序列沿5’向3’的方向形成内含子序列；所述内含子片段I的核苷酸序列包含所述内含子序列中靠近5’方向的部分序列，所述内含子片段II的核苷酸序列包含所述内含子序列中靠近3’方向的其余部分序列。

也即，编码元件截断片段I的核苷酸序列与编码元件截断片段II的核苷酸序列连接可以得到用于编码至少一个目标多肽的编码元件序列，内含子片段I的核苷酸序列与内含子片段II的核苷酸序列连接可以得到内含子序列。当具有上述结构的重组核酸分子在制备环状RNA时，核酶识别位点I与内含子片段I连接位置首先产生断裂，释放内含子片段I；然后核酶识别位点II与内含子片段II连接位置产生断裂，释放内含子片段II。编码元件截断片段I的3’末端与编码元件截断片段II的5’末端连接成环状分子。本公开中在不改变编码元件编码的目标多肽序列、且无需额外引入E1、E2序列的基础上，实现自剪切得到编码目标蛋白的环状RNA，具有高的序列精确度、稳定性，以及低的免疫原性。

在另外一些实施方式中，如图2-B中的A所示，沿5’向3’的方向，所述重组核酸分子包含按如下顺序排列的元件：内含子片段III，编码元件截断片段IV，翻译起始元件，编码元件截断片段III，内含子片段IV。

其中，所述编码元件截断片段III的3’末端包含核酶识别位点IV，所述核酶识别位点IV由位于所述编码元件截断片段III的3’末端的第二预设数量的核苷酸组成；所述编码元件截断片段IV的5’末端包含核酶识别位点III，所述核酶识别位点III由位于所述编码元件截断片段IV的5’末端的第一预设数量的核苷酸组成。

所述编码元件截断片段III的核苷酸序列与所述编码元件截断片段IV的核苷酸序列沿5’向3’的方向形成编码至少一个目标多肽的编码元件序列；所述编码元件截断片段III的核苷酸序列对应所述编码元件序列中靠近5’方向的部分序列，所述编码元件截断片段IV的核苷酸序列对应所述编码元件序列中靠近3’方向的其余部分序列；所述内含子片段III的序列为所述内含子片段I的核苷酸序列的反向序列或反向互补序列，所述内含子片段IV的序列为所述内含子片段II的核苷酸序列的反向序列或反向互补序列；所述核酶识别位点III的序列为所述核酶识别位点I的核苷酸序列的反向序列，所述核酶识别位点IV的序列为所述核酶识别位点II的核苷酸序列的反向序列。

本公开发现，利用内含子序列的反向序列或反向互补序列同样能够用于构建clean PIE系统。本公开中以内含子5’部分的反向序列或反向互补序列作为内含子片段III，以内含子3’部分的反向序列或反向互补序列作为内含子片段IV。内含子片段III连接于编码元件截断片段IV的5’末端，对应内含子片段III，编码元件截断片段IV的5’端的第一预设数量的核苷酸组成核酶识别位点III，核酶识别位点III的序列与核酶识别位点I的核苷酸序列的反向序列或反向互补序列；内含子片段IV连接于编码元件截断片段III的3’末端，对应内含子片段IV，编码元件截断片段III的3’端的第二预设数量的核苷酸组成核酶识别位点IV，核酶识别位点IV的序列与核酶识别位点II的核苷酸序列的反向序列或反向互补序列。

包含上述元件的重组核酸分子在体外制备环状RNA时，核酶识别位点III和核酶识别位点IV的位置处先后发生断裂，释放内含子片段III与内含子片段IV，编码元件截断片段III的3’端与编码元件截断片段IV的5’端连接形成环状RNA分子。由于核酶识别位点III和核酶识别位点IV设置于编码元件截断片段的内部，体外成环后的环状RNA中未引入额外的E1、E2序列，具有序列精准、结构简单、免疫原性低等优势，适合大规模的体外生产制备、在核酸疫苗、表达治疗性蛋白、临床免疫治疗等领域具有应用优势。

翻译起始元件

在本公开中，翻译起始元件可以是能够起始目标多肽翻译的任意类型的元件。在一些实施方式中，翻译起始元件是包括如下任意的一种或两种以上所示序列的元件：IRES序列、5’UTR序列、Kozak序列、包含m⁶A修饰(N(6)甲基腺苷修饰)的序列、核糖体18S rRNA的互补序列。在另外一些实施方式中，翻译起始元件还可以是其他任意类型的具有非帽依赖的翻译起始元件(cap-independent translation)。

在一些实施方式中，翻译起始元件为IRES元件，IRES元件的来源包括但不限于病毒、哺乳动物、果蝇等。在一些可选的实施方式中，IRES元件来源于病毒。示例性的，IRES元件包含来自于小RNA病毒的IRES序列。进一步地，IRES元件包括但不限于来源于Echovirus、Human poliovirus、Human Enterovirus、Coxsackievirus、Human rhinovirus、Caninepicornavirus、Turdivirus 3、Hepatovirus、Passerivirus、Picornaviridae、TremovirusA、Feline kobuvirus、Murine kobuvirus、Kobuvirus sewage Kathmandu、Ferretkobuvirus、Marmot kobuvirus、Human parechovirus、Chicken picornavirus、Falconpicornavirus、Feline picornavirus、French Guiana picornavirus等等的IRES序列。

在一些可选的实施方式中，本公开提供的重组核酸分子，沿5’向3’的方向，由如下所示元件组成：内含子片段II，编码元件截断片段II，翻译起始元件，编码元件截断片段I，内含子片段I。在另外一些可选的实施方式中，重组核酸分子中还可以包括其他任意的一种或两种以上的元件。例如，用于调控转录水平的转录调控元件，用于调控翻译水平的翻译调控元件，用于纯化制备环状RNA的纯化元件等等。

在一些可选的实施方式中，本公开提供的重组核酸分子，沿5’向3’的方向，由如下所示元件组成：内含子片段III，编码元件截断片段IV，翻译起始元件，编码元件截断片段III，内含子片段IV。在另外一些可选的实施方式中，重组核酸分子中还可以包括其他任意的一种或两种以上的元件。例如，用于调控转录水平的转录调控元件，用于调控翻译水平的翻译调控元件，用于纯化制备环状RNA的纯化元件等等。

内含子片段

本公开中的内含子片段来源于I类内含子，I类内含子具有发生自剪切反应的核酶活性，广泛存在于各类物种中。示例性的，I类内含子包括但不限于T4噬菌体td基因、鱼腥藻属tRNALeu、TpaCOX2、Ptu等等。

在一些实施方式中，内含子片段I和内含子片段II来源于I类内含子，并分别包含组成I类内含子的靠近5’方向的部分序列，和靠近3’方向的部分序列。核酶识别位点I来源于I类内含子5’端连接的外显子序列(Exon 1，E1)，核酶识别位点II来源于I类内含子3’端连接的外显子序列(Exon 2，E2)。内含子片段I连接核酶识别位点I，内含子片段II连接核酶识别位点II，构成能够自我剪切的PIE系统。

在另外一些实施方式中，内含子片段III和内含子片段IV来源于I类内含子，并分别包含组成I类内含子的靠近5’方向的部分序列的反向序列，和靠近3’方向的部分序列的反向序列。核酶识别位点III来源于I类内含子5’端连接的外显子序列(Exon 1，E1)的反向序列，核酶识别位点IV来源于I类内含子3’端连接的外显子序列(Exon 2，E2)的反向序列。内含子片段III连接核酶识别位点III，内含子片段IV连接核酶识别位点IV，构成能够自我剪切的PIE系统。

在一些可选的实施方式中，核酶识别位点I由3-100个核苷酸组成，优选3-50个核苷酸，更优选3-10个核苷酸。也即，位于编码元件截断片段I的3’末端的第一预设数量的核苷酸为3-100个核苷酸，优选3-50个核苷酸，更优选3-10个核苷酸。示例性的，第一预设数量为3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300，以及它们任意两者之间的任意整数值。

在一些可选的实施方式中，核酶识别位点II由1-100个核苷酸组成，优选1-50个核苷酸，更优选1-10个核苷酸。也即，位于编码元件截断片段II的5’末端的第二预设数量的核苷酸为1-100个核苷酸，优选1-50个核苷酸，更优选1-10个核苷酸。示例性的，第一预设数量为1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100，以及它们任意两者之间的任意整数值。

在另外一些可选的实施方式中，核酶识别位点III由3-100个核苷酸组成，优选3-50个核苷酸，更优选3-10个核苷酸。也即，位于编码元件截断片段IV的5’末端的第一预设数量的核苷酸为3-100个核苷酸，优选3-50个核苷酸，更优选3-10个核苷酸。示例性的，第一预设数量为3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300，以及它们任意两者之间的任意整数值。

在另外一些可选的实施方式中，核酶识别位点IV由1-100个核苷酸组成，优选1-50个核苷酸，更优选1-10个核苷酸。也即，位于编码元件截断片段III的3’末端的第二预设数量的核苷酸为1-100个核苷酸，优选1-50个核苷酸，更优选1-10个核苷酸。示例性的，第一预设数量为1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100，以及它们任意两者之间的任意整数值。

在一些优选的实施方式中，第一预设数量与第二预设数量的和不等于3y，y≥1且y为整数。也即，第一预设数量与第二预设数量的和不等于3的整数。当两者的和不为3的整数值，能够增加在编码区内部设置核酶识别位点的自由度，实现环状RNA的有效成环。

在一些可选的实施方式中，I类内含子是来源于T4噬菌体td基因的T4 td intron，其intron二级结构如图13所示。T4 td intron中用于成环的核酶识别位点的核苷酸序列为“5’-TTGGGTCT-3’”，其中成环位置位于T与C之间。因此，核酶识别位点I的核苷酸序列为“5’-TTGGGT-3’”，核酶识别位点II的核苷酸序列为“5’-CT-3’”；或者，核酶识别位点III的核苷酸序列为“5’-TGGGTT-3’”，核酶识别位点IV的核苷酸序列为“5’-TC-3’”；或者，核酶识别位点III的核苷酸序列为“5’-ACCCAA-3’”，核酶识别位点IV的核苷酸序列为“5’-AG-3’”。

需要说明的是，在保证成环位置的碱基不变的条件下，存在少量碱基突变的核酶识别位点同样能够用于环状RNA的体外。示例性的，本公开发现“5’-TTGGGTCT-3’”中存在如下的一种或两种以上突变时，核酶识别位点及其连接的内含子片段保留有成环活性：第2位的碱基T突变为C，第三位的碱基G突变为A，第8位的碱基T突变为A。

在一些可选的实施方式中，来源于T4 td intron的内含子片段I的核苷酸序列如SEQ ID NO:7所示，或与SEQ ID NO:7所示的核苷酸序列具有80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％序列同一性的序列。

在一些可选的实施方式中，来源于T4 td intron的内含子片段II的核苷酸序列如SEQ ID NO:6所示，或与SEQ ID NO:6所示的核苷酸序列具有80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％序列同一性的序列。

在一些可选的实施方式中，I类内含子为TpaCOX2 intron，TpaCOX2 intron为T.papilionaceus粒体细胞色素氧化酶亚基(cytochrome xoidase)cox2基因的内含子序列，其intron二级结构如图14所示。TpaCOX2 intron中用于成环的核酶识别位点的核苷酸序列为“5’-ACGTCTTAACCAA-3’”(SEQ ID NO:80)，其中成环位置位于T与A之间。因此，核酶识别位点I的核苷酸序列为“5’-ACGTCTT-3’”，核酶识别位点II的核苷酸序列为“5’-AACCAA-3’”；或者，核酶识别位点III的核苷酸序列为“5’-TTCTGCA-3’”，核酶识别位点IV的核苷酸序列为“5’-AACCAA-3’”；或者，核酶识别位点III的核苷酸序列为“5’-AAGACGT-3’”，核酶识别位点IV的核苷酸序列为“5’-TTGGTT-3’”。

在一些可选的实施方式中，I类内含子为Ptu intron，其intron二级结构如图15所示。Ptu为pedinomonas tuberculata中叶绿体核糖体大亚基RNA(rrnL)的前体RNA.pedinomonas tuberculata是假单胞菌科(Pseudomonadaceae)中的一种绿藻(greenalgae)。Ptu intron中用于成环的核酶识别位点的核苷酸序列为“5’-AGGGATCA-3’”，其中成环位置位于T与C之间。因此，核酶识别位点I的核苷酸序列为“5’-AGGGAT-3’”，核酶识别位点II的核苷酸序列为“5’-CA-3’”；或者，核酶识别位点III的核苷酸序列为“5’-TAGGGA-3’”，核酶识别位点IV的核苷酸序列为“5’-AC-3’”；或者，核酶识别位点III的核苷酸序列为“5’-ATCCCT-3’”，核酶识别位点IV的核苷酸序列为“5’-TG-3’”。

需要说明的是，本公开对核酶识别位点、内含子片段的序列不进行限制性限定，只要其来源于I类内含子，能够有效成环，在体外制备得到环状RNA即可。

包含插入元件的重组核酸分子

在一些实施方式中，重组核酸分子包括插入元件，插入元件可以用于调控重组核酸分子的转录，用于调控环状RNA的翻译，实现环状RNA在不同组织之间的特异性表达，或者用于纯化环状RNA等等。示例性的，如图2-A中的B所示，插入元件位于编码元件截断片段II和翻译起始元件之间；或者，如图2-B中的B所示，插入元件位于编码元件截断片段IV和翻译起始元件之间。具体来说，插入元件连接于翻译起始元件连接于翻译起始元件的5’端。

在一些实施方式，插入元件选自如下(i)-(iii)组成组中的至少一项：(i)转录水平调控元件，(ii)翻译水平调控元件，(iii)纯化元件。示例性的，插入元件包含如下的一种或任意两种以上的组合的序列：非翻译区(untranslated region，UTR)序列，polyN序列，适配体序列，核糖开关序列，结合转录调控因子的序列；所述polyN序列中，N选自A、T、G、C中的至少一种。

在一些可选的实施方式中，翻译调控元件包含非翻译区序列，非翻译区序列可用于调控环状RNA的稳定性、免疫原性，以及环状RNA表达目标多肽的效率等性能。本公开对于非翻译区序列不进行具体限定，其可以选自本领域中具有调控环状RNA转录、翻译、细胞内稳定性、免疫原性等性能的任意类型的序列。进一步的，非翻译区序列也不限制于5’UTR序列或3’UTR序列。

在一些可选的实施方式中，非翻译区序列中包含一个或多个的miRNA识别序列，例如，1个、2个、3个、4个、5个、6个、7个等等。通过加入一个或多个miRNA识别序列，可实现环状RNA在不同组织、细胞之中的特异性表达，实现环状RNA分子的靶向递送。

在一些可选的实施方式中，翻译调控元件包含polyN序列，其中的N可以是A、T、G、C中的至少一种。通过增加包含polyN序列的翻译调控元件，以改善环状RNA表达目标多肽的效率、改善免疫原性、稳定性等，或用于环状RNA的纯化。本公开对于polyN序列的长度，polyN序列中N的选择种类以及组成方式不进行具体限定，只要其有利于实现对环状RNA性能的改善即可。示例性的，polyN序列为polyA序列，polyAC序列等等。

在一些可选的实施方式中，翻译调控元件包含核糖开关序列。核糖开关(Riboswitch)序列是一类对RNA的转录、翻译具有调控功能的非翻译序列。本公开中，核糖开关序列可以影响环状RNA的表达，包括但不限于转录终止、翻译起始抑制、mRNA自裂解、以及在真核生物中剪接途径的改变。此外，核糖开关序列还可以通过触发分子的结合或去除来控制环状RNA的表达。示例性的，核糖开关序列为钴胺素核糖开关(也称B₁₂-元件)、FMN核糖开关(也称RFN元件)、glmS核糖开关、SAM核糖开关、SAH核糖开关、四氢叶酸核糖开关、Moco核糖开关等等，本公开对于核糖开关序列的类型和序列不进行限制性限定，只要其能实现对环状RNA表达目标多肽的转录、翻译水平的调控即可。

在一些可选的实施方式中，翻译调控元件包含适配体序列。在本公开中，适配体序列可用于调控环状RNA的转录、翻译，或用于环状RNA的体外纯化制备。在一个示例性的实施方式，适配体序列为如SEQ ID NO:37所示的序列，或与SEQ ID NO:37所示的序列具有80％、81％、82％、83％、84％、85％、86％、87％、88％、89％、90％、91％、92％、93％、94％、95％、96％、97％、98％、99％序列同一性的序列。

包含同源臂的重组核酸分子

在一些实施方式中，重组核酸分子中包括同源臂，具体的，同源臂包括位于重组核酸分子的5’末端的5’同源臂，以及位于重组核酸分子的3’末端的3’同源臂，5’同源臂的核酸序列与3’同源臂的核苷酸序列杂交。

在一些实施方式中，如图2-A中的C所示，在重组核酸分子中，5’同源臂连接于所述内含子片段II的5’端，3’同源臂连接于所述内含子片段I的3’端。5’同源臂与3’同源臂的序列杂交，使内含子片段I、内含子片段II相互靠近，在核酶识别位点I与内含子片段I的连接位置断裂后，有利于核酶识别位点I的3’-OH进一步攻击核酶识别位点II与内含子片段II的连接的磷酸二酯键，释放内含子片段II。

在一些实施方式中，如图2-B中的C所示，在重组核酸分子中，5’同源臂连接于所述内含子片段III的5’端，3’同源臂连接于所述内含子片段IV的3’端。5’同源臂与3’同源臂的序列杂交，使内含子片段III、内含子片段IV相互靠近，在核酶识别位点III与内含子片段III的连接位置断裂后，有利于核酶识别位点III的3’-OH进一步攻击核酶识别位点IV与内含子片段IV的连接的磷酸二酯键，释放内含子片段IV。

在一些实施方式中，本公开比较了添加同源臂与未添加同源臂对环状RNA的体外成环的影响。本公开发现，对于未添加同源臂的重组核酸分子，同样能保持与添加同源臂后重组核酸分子的有效成环率。因此，为进一步简化重组核酸分子的结构，在一些实施方式中，重组核酸分子中不包括5’同源臂和3’同源臂。其原因是由于在本公开框架下成环位点(核酶识别位点)总是会将编码基因分成两部分，编码区通常不会存在很复杂的二级结构，这种良性的序列间隔开启动元件与自剪切内含子序列，从而形成一种独特的二级结构，更有利于内含子序列的正确折叠及靠近，所以在本公开框架下不需要同源臂的存在就可以有效的成环。

目标多肽

本公开对于目标多肽的种类不进行限制性限定，其可以是人源蛋白或非人源蛋白。示例性的，目标多肽包含但不限于抗原、抗体、抗原结合片段、荧光蛋白、具有疾病治疗活性的蛋白、具有基因编辑活性的蛋白等。

在本公开中，术语“抗体”以最广意义使用，指包含抗原结合位点的蛋白质，涵盖各种结构的天然抗体和人工抗体，包括但不限于单克隆抗体、多克隆抗体、多特异性抗体(例如，双特异性抗体)、单链抗体、完整抗体和抗体片段。

在本公开中，术语“抗原结合片段”是比完整或完全抗体的氨基酸残基数要少的完整或完全抗体的一部分或一段，其能结合抗原或与完整抗体(即与抗原结合片段所来源的完整抗体)竞争结合抗原。可以通过重组DNA技术、或通过酶或化学切割完整的抗体制备抗原结合片段。抗原结合片段包括但不限于Fv，Fab，Fab’，Fab’-SH，F(ab’)₂；双抗体；线性抗体；单链抗体(例如scFv)；单域抗体；双价或双特异性抗体或其片段；骆驼科抗体(重链抗体)；和由抗体片段形成的双特异性抗体或多特异性抗体。

在本公开中，具有疾病治疗活性的蛋白可以包括但不限于酶替代蛋白质、用于补充的蛋白质、蛋白疫苗、抗原(例如肿瘤抗原、病毒、细菌)、激素、细胞因子、抗体、免疫疗法(例如癌症)、细胞重编程/转分化因子、转录因子、嵌合抗原受体、转座酶或核酸酶、免疫效应子(例如，影响对免疫反应/信号的易感性)、经调控的死亡效应子蛋白(例如，细胞凋亡或坏死的诱导物)、肿瘤的非溶解性抑制剂(例如癌蛋白抑制剂)、表观遗传修饰剂、表观遗传酶、转录因子、DNA或蛋白质修饰酶、DNA嵌入剂、外排泵抑制剂、核受体活化剂或抑制剂、蛋白酶体抑制剂、酶竞争性抑制剂、蛋白质合成效应剂或抑制剂、核酸酶、蛋白质片段或结构域、配体或受体、以及CRISPR系统或其组分等。

用于形成一个或两个以上编码区的编码元件

在一些实施方式中，重组核酸分子用于制备包含编码元件的环状RNA，其中，所述环状RNA中的编码元件包含编码区1，任选存在的(a)至少一个编码区2，和任选存在的(b)至少一个编码区3。

在本公开中，重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区1，任选存在的(a)至少一个编码区2，和任选存在的(b)至少一个编码区3。示例性的，在一些实施方式中，如图3的A所示，编码元件截断片段I和编码元件截断片段II用于形成编码区1。对应地，编码元件截断片段I为编码区1截断片段I，编码元件截断片段II为编码区1截断片段II。因此，在编码区1截断片段I的3’末端包含核酶识别位点I，核酶识别位点I由位于所述编码区1截断片段I的3’端的第一预设数量的核苷酸组成；在编码区1截断片段II的5’末端包含核酶识别位点II，核酶识别位点II由位于所述编码区1截断片段II的5’端的第二预设数量的核苷酸组成。重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区1，以在体外或体内表达目标多肽。

在另外一些实施方式中，重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区1和至少一个编码区2。重组核酸分子制备的环状RNA能够实现对至少2个目标多肽的串联表达。示例性的，如图4的A-B所示，重组核酸分子包括按如下顺序排列的元件：(i)内含子片段II，编码区1截断片段II，至少一个编码区2，翻译起始元件，编码区1截断片段I，内含子片段I。

在一些可选的实施方式中，编码区2的数量为1个，如图4的A所示，重组核酸分子包括按如下顺序排列的元件：内含子片段II，编码区1截断片段II，编码区2，翻译起始元件，编码区1截断片段I，内含子片段I。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些可选的实施方式中，编码区2的数量为至少2个，如图4的B所示，重组核酸分子包括按如下顺序排列的元件：内含子片段II，编码区1截断片段II，至少两个编码区2，翻译起始元件，编码区1截断片段I，内含子片段I。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些优选的实施方式中，重组核酸分子还包括位于编码区1截断片段II与编码区2之间的连接子，和/或位于任意相邻的两个编码区2之间的连接子。利用连接子将编码区2与编码区1、及任意相邻的两个编码区2间隔开，使重组核酸分子制备的环状RNA能够表达2个或2个以上的目标多肽。

在另外一些实施方式中，重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区1和至少一个编码区3。重组核酸分子制备的环状RNA能够实现对至少2个目标多肽的串联表达。示例性的，如图5的A-B所示，重组核酸分子包括按如下顺序排列的元件：(ii)内含子片段II，编码区1截断片段II，翻译起始元件，至少一个编码区3，编码区1截断片段I，内含子片段I。

在一些可选的实施方式中，编码区3的数量为1个，如图5的A所示，重组核酸分子包括按如下顺序排列的元件：内含子片段II，编码区1截断片段II，翻译起始元件，编码区3，编码区1截断片段I，内含子片段I。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些可选的实施方式中，编码区3的数量为至少2个，如图5的B所示，重组核酸分子包括按如下顺序排列的元件：内含子片段II，编码区1截断片段II，翻译起始元件，至少两个编码区3，编码区1截断片段I，内含子片段I。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些优选的实施方式中，重组核酸分子还包括位于编码区1截断片段I与编码区3之间的连接子，和/或位于任意相邻的两个编码区3之间的连接子。利用连接子将编码区3与编码区1、及任意相邻的两个编码区3间隔开，使重组核酸分子制备的环状RNA能够表达2个或2个以上的目标多肽。

在另外一些实施方式中，重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区1、至少一个编码区2和至少一个编码区3。重组核酸分子制备的环状RNA能够实现对至少3个目标多肽的串联表达。示例性的，如图6的A-B所示，重组核酸分子包括按如下顺序排列的元件：(iii)内含子片段II，编码区1截断片段II，至少一个编码区2，翻译起始元件，至少一个编码区3，编码区1截断片段I，内含子片段I。

在一些可选的实施方式中，如图6的A所示，编码区2、编码区3的数量为1个，重组核酸分子包括按如下顺序排列的元件：内含子片段II，编码区1截断片段II，编码区2，翻译起始元件，编码区3，编码区1截断片段I，内含子片段I。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些可选的实施方式中，编码区2的数量为至少2个，编码区3的数量为至少2个，如图6的B所示，重组核酸分子包括按如下顺序排列的元件：内含子片段II，编码区1截断片段II，至少两个编码区2，翻译起始元件，至少两个编码区3，编码区1截断片段I，内含子片段I。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些优选的实施方式中，重组核酸分子还包括位于编码区1截断片段II与编码区2之间的连接子，位于编码区1截断片段I与编码区3之间的连接子，位于任意相邻的两个编码区2之间的连接子和/或位于任意相邻的两个编码区3之间的连接子。利用连接子将编码区2与编码区1、编码区3与编码区1、任意相邻的两个编码区2及任意相邻的两个编码区3间隔开，使重组核酸分子制备的环状RNA能够表达3个或3个以上的目标多肽。

在一些实施方式中，如图3的B所示，编码元件截断片段III和编码元件截断片段IV用于形成编码区1，对应地，编码元件截断片段III为编码区1截断片段III，编码元件截断片段IV为编码区1截断片段IV。因此，在编码区1截断片段III的3’末端包含核酶识别位点IV，核酶识别位点IV由位于所述编码区1截断片段III的3’端的第一预设数量的核苷酸组成；在编码区1截断片段IV的5’末端包含核酶识别位点III，核酶识别位点III由位于所述编码区1截断片段IV的5’端的第二预设数量的核苷酸组成。重组核酸分子中的编码元件截断片段III和编码元件截断片段IV用于形成编码区1，以在体外或体内表达目标多肽。

在另外一些实施方式中，重组核酸分子中的编码元件截断片段III和编码元件截断片段IV用于形成编码区1和至少一个编码区2。重组核酸分子制备的环状RNA能够实现对至少2个目标多肽的串联表达。示例性的，如图4的C-D所示，重组核酸分子包括按如下顺序排列的元件：(v)内含子片段III，编码区1截断片段IV，至少一个编码区2，翻译起始元件，编码区1截断片段III，内含子片段IV。

在一些可选的实施方式中，编码区2的数量为1个，如图4的C所示，重组核酸分子包括按如下顺序排列的元件：内含子片段III，编码区1截断片段IV，编码区2，翻译起始元件，编码区1截断片段III，内含子片段IV。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些可选的实施方式中，编码区2的数量为至少2个，如图4的D所示，重组核酸分子包括按如下顺序排列的元件：内含子片段III，编码区1截断片段IV，至少两个编码区2，翻译起始元件，编码区1截断片段III，内含子片段IV。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些优选的实施方式中，重组核酸分子还包括位于编码区1截断片段IV与编码区2之间的连接子，和/或位于任意相邻的两个编码区2之间的连接子。利用连接子将编码区2与编码区1、及任意相邻的两个编码区2间隔开，使重组核酸分子制备的环状RNA能够表达2个或2个以上的目标多肽。

在另外一些实施方式中，重组核酸分子中的编码元件截断片段III和编码元件截断片段IV用于形成编码区1和至少一个编码区3。重组核酸分子制备的环状RNA能够实现对至少2个目标多肽的串联表达。示例性的，如图5的C-D所示，重组核酸分子包括按如下顺序排列的元件：(vi)内含子片段III，编码区1截断片段IV，翻译起始元件，至少一个编码区3，编码区1截断片段III，内含子片段IV。

在一些可选的实施方式中，编码区3的数量为1个，如图5的C所示，重组核酸分子包括按如下顺序排列的元件：内含子片段III，编码区1截断片段IV，翻译起始元件，编码区3，编码区1截断片段III，内含子片段IV。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些可选的实施方式中，编码区3的数量为至少2个，如图5的D所示，重组核酸分子包括按如下顺序排列的元件：内含子片段III，编码区1截断片段IV，翻译起始元件，至少两个编码区3，编码区1截断片段III，内含子片段IV。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些优选的实施方式中，重组核酸分子还包括位于编码区1截断片段III与编码区3之间的连接子，和/或位于任意相邻的两个编码区3之间的连接子。利用连接子将编码区3与编码区1、及任意相邻的两个编码区3间隔开，使重组核酸分子制备的环状RNA能够表达2个或2个以上的目标多肽。

在另外一些实施方式中，重组核酸分子中的编码元件截断片段III和编码元件截断片段IV用于形成编码区1、至少一个编码区2和至少一个编码区3。重组核酸分子制备的环状RNA能够实现对至少3个目标多肽的串联表达。示例性的，如图6的C-D所示，重组核酸分子包括按如下顺序排列的元件：(vii)内含子片段III，编码区1截断片段IV，至少一个编码区2，翻译起始元件，至少一个编码区3，编码区1截断片段III，内含子片段IV。

在一些可选的实施方式中，编码区2的数量为1个，编码区3的数量为1个，如图6的C所示，重组核酸分子包括按如下顺序排列的元件：内含子片段III，编码区1截断片段IV，编码区2，翻译起始元件，编码区3，编码区1截断片段III，内含子片段IV。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些可选的实施方式中，编码区2的数量为至少2个，编码区3的数量为至少2个，如图6的D所示，重组核酸分子包括按如下顺序排列的元件：内含子片段III，编码区1截断片段IV，至少两个编码区2，翻译起始元件，至少两个编码区3，编码区1截断片段III，内含子片段IV。在另外一些可选的实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些优选的实施方式中，重组核酸分子还包括位于编码区1截断片段IV与编码区2之间的连接子，编码区1截断片段III与编码区3之间的连接子，任意相邻的两个编码区2之间的连接子和/或位于任意相邻的两个编码区3之间的连接子。利用连接子将编码区2与编码区1、编码区3与编码区1，任意相邻的两个编码区2及任意相邻的两个编码区3间隔开，使重组核酸分子制备的环状RNA能够表达2个或2个以上的目标多肽。

在本公开中，连接子可以是编码2A肽的多核苷酸，或是其他类型的用于编码间隔目标多肽的连接肽的多核苷酸。其中，2A肽是来源于病毒的短肽(～18-25个氨基酸)，它们通常被称为“自我剪切”肽，能使一条转录产物产生多种蛋白。示例性的，2A肽为P2A、T2A、E2A、F2A等等。

在本公开中，编码区1、每个编码区2、每个编码区3彼此独立的编码任意类型的目标多肽。其中，编码区1与任意一个编码区2编码的目标多肽可以是相同或不同，编码区1与任意一个编码区3编码的目标多肽可以是相同或不同，任意两个编码区2编码的目标多肽可以是相同或不同，任意两个编码区3编码的目标多肽可以是相同或不同，任意一个编码区2与任意一个编码区3编码的目标多肽可以是相同或不同。

在本公开中，通过对编码区的数字编号(例如，编码区1、编码区2、编码区3等)以区分位于不同位置处的编码区。示例性的，编码区1代表设置有核酶识别位点的编码区；编码区2代表位于编码区1截断片段II与翻译起始元件之间的编码区，或者编码区2代表位于编码区1截断片段IV与翻译起始元件之间的编码区；编码区3代表位于位于编码区1截断片段I与翻译起始元件之间的编码区，或者编码区2代表位于编码区1截断片段III与翻译起始元件之间的编码区。

包含至少2个翻译起始元件的重组核酸分子

在一些实施方式中，所述重组核酸分子用于制备包含编码元件的环状RNA；其中，所述环状RNA中的编码元件包含编码区1，至少一个编码区4，和位于任意相邻的两个编码区之间的翻译起始元件。

在一些实施方式中，重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区I、至少一个编码区4，和位于任意相邻的两个编码区之间的翻译起始元件。其中，在编码区1截断片段I的3’末端包含核酶识别位点I，核酶识别位点I由位于所述编码区1截断片段I的3’端的第一预设数量的核苷酸组成；在编码区1截断片段II的5’末端包含核酶识别位点II，核酶识别位点II由位于所述编码区1截断片段II的5’端的第二预设数量的核苷酸组成。重组核酸分子在体外制备得到环状RNA后，每个编码区均对应一个翻译起始元件，以实现对至少2个目标多肽的串联表达。

在一些可选地实施方式中，如图7-A中A所示，编码区4的数量为1个，重组核酸分子包括按如下顺序排列的元件：内含子片段II、编码区1截断片段II、翻译起始元件、编码区4、翻译起始元件、编码区1截断片段I、内含子片段I。在另外一些实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些可选地实施方式中，如图7-A中B所示，编码区4的数量为2个，重组核酸分子包括按如下顺序排列的元件：内含子片段II、编码区1截断片段II、翻译起始元件、编码区4、翻译起始元件、编码区4、翻译起始元件、编码区1截断片段I、内含子片段I。在另外一些实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些可选地实施方式中，如图7-A中C所示，编码区4的数量为至少2个，重组核酸分子包括按如下顺序排列的元件：内含子片段II、编码区1截断片段II、翻译起始元件、至少1个编码区4、翻译起始元件、至少1个编码区4、翻译起始元件、编码区1截断片段I、内含子片段I；其中，任意两个相邻的编码区4之间包括一个翻译起始元件。在另外一些实施方式中，重组核酸分子由上述顺序排列的元件组成。

在另外一些实施方式中，重组核酸分子中的编码元件截断片段III和编码元件截断片段IV用于形成编码区I、至少一个编码区4，和位于任意相邻的两个编码区之间的翻译起始元件。其中，在编码区1截断片段III的3’末端包含核酶识别位点IV，核酶识别位点IV由位于所述编码区1截断片段III的3’端的第一预设数量的核苷酸组成；在编码区1截断片段IV的5’末端包含核酶识别位点III，核酶识别位点III由位于所述编码区1截断片段IV的5’端的第二预设数量的核苷酸组成。重组核酸分子在体外制备得到环状RNA后，每个编码区均对应一个翻译起始元件，以实现对至少2个目标多肽的串联表达。

在一些可选地实施方式中，如图7-B中A所示，编码区4的数量为1个，重组核酸分子包括按如下顺序排列的元件：内含子片段III、编码区1截断片段IV、翻译起始元件、编码区4、翻译起始元件、编码区1截断片段III、内含子片段IV。在另外一些实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些可选地实施方式中，如图7-B中B所示，编码区4的数量为2个，重组核酸分子包括按如下顺序排列的元件：内含子片段III、编码区1截断片段IV、翻译起始元件、编码区4、翻译起始元件、编码区4、翻译起始元件、编码区1截断片段III、内含子片段IV。在另外一些实施方式中，重组核酸分子由上述顺序排列的元件组成。

在一些可选地实施方式中，如图7-B中C所示，编码区4的数量为至少2个，重组核酸分子包括按如下顺序排列的元件：内含子片段III、编码区1截断片段IV、翻译起始元件、至少1个编码区4、翻译起始元件、至少1个编码区4、翻译起始元件、编码区1截断片段III、内含子片段IV；其中，任意两个相邻的编码区4之间包括一个翻译起始元件。在另外一些实施方式中，重组核酸分子由上述顺序排列的元件组成。

在本公开中，编码区1、每个编码区4彼此独立的编码任意类型的目标多肽。其中，编码区1与任意一个编码区4编码的目标多肽可以是相同或不同，任意两个编码区4编码的目标多肽可以是相同或不同。

利用上述的重组核酸分子制备的环状RNA中，每个编码区的5’端对应连接一个翻译起始元件，通过多个翻译起始元件串联编码区1和至少一个编码区4，实现对至少2个目标多肽的表达。

在本公开中，通过对编码区的数字编号(例如，编码区1、编码区4等)以区分位于不同位置处的编码区。示例性的，编码区1代表设置有核酶识别位点的编码区；编码区4代表位于编码区1截断片段I与编码区2截断片段II之间的编码区；或者，编码区4代表位于编码区1截断片段III与编码区2截断片段IV之间的编码区。

包含重组核酸分子的重组表达载体

在一些实施方式中，重组核酸分子作为用于制备环状RNA的重组表达载体的一部分存在。在体外经过转录、环化过程中，可制备得到表达目标多肽的环状RNA。

在另外一些实施方式中，重组核酸分子还可以作为重组表达载体在线性化处理、转录反应后得到的环化前体RNA分子或其一部分存在。也即，重组核酸分子仅需要经过环化反应，即可得到表达目标多肽的环状RNA。

在一些实施方式中，体外制备环状RNA的步骤包括：

转录步骤：如前述任一项所述的重组核酸分子或根据前述重组表达载体转录形成环化前体核酸分子；

环化步骤：所述环化前体核酸发生环化反应，得到环状RNA。

在一些可选的实施方式中，所述方法还包括，纯化所述环状RNA的步骤。

环状RNA

在一些实施方式中，本公开中的环状RNA应用本公开提供的clean PIE系统制备得到，沿5’向3’方向，其包含按如下顺序排列的元件：翻译起始元件，用于编码至少一个目标多肽的编码元件。

与图8的B所示的传统PIE系统制备的环状RNA相比，通过采用本公开中的CleanPIE系统制备环状RNA，在保证蛋白编码序列的完整性的条件下，不引入额外的E1、E2序列(图8的A)，以保证环状RNA序列及二级结构的准确性，降低环状RNA天然的免疫原性，提高其在细胞内的稳定性，适合作为基因治疗载体、表达治疗性蛋白、作为核酸疫苗等临床应用领域，具有广阔的应用前景。

在一些实施方式中，环状RNA的编码元件包括编码区1和如下(i)-(ii)组成的组中的至少一种：(i)至少一个编码区2，(ii)至少一个编码区3；每个编码区彼此独立地编码任意类型的目标多肽，环状RNA能够串联地编码一个或多个目标多肽。示例性的，环状RNA表达1个、2个、3个、4个、5个、10个、15个、20个、25个等等数量的目标多肽。

作为优选的实施方式，任意相邻的两个编码区由连接子相连，利用连接子编码连接肽将相邻的编码区编码的目标多肽间隔开，使同一环状RNA能够编码2个或2个以上的目标多肽。

在一些可选的实施方式中，如图9的A所示，沿5’向3’方向，环状RNA中包含翻译起始元件、编码区1和编码区2，以及位于编码区1与编码区2之间的连接子。连接子将编码区1和编码区2间隔开，使环状RNA可以在细胞内可以串联地表达至少2个目标多肽。在另外一些可选的实施方式中，环状RNA由按上述顺序排列的元件组成。

在一些可选的实施方式中，编码区2的数量可以是2个或2个以上。示例性的，如图10的A所示，沿5’向3’方向，环状RNA中包含翻译起始元件、编码区1、2个编码区2(为便于描述，沿5’向3’方向，依次命名为第一编码区2和第二编码区2)，以及位于编码区1和第一编码区2之间的连接子，位于第一编码区2和第二编码区2之间的连接子。利用上述的环状RNA可以在细胞内实现对3个或3个以上目标多肽的串联表达。在另外一些可选的实施方式中，环状RNA由按上述顺序排列的元件组成。

在一些可选的实施方式中，如图9的B所示，沿5’向3’方向，环状RNA中包含翻译起始元件、编码区3和编码区1，以及位于编码区3与编码区1之间的连接子。连接子将编码区1和编码区3间隔开，使环状RNA可以在细胞内可以串联地表达至少2个目标多肽。在另外一些可选的实施方式中，环状RNA由按上述顺序排列的元件组成。

在一些可选的实施方式中，编码区3的数量可以是2个或2个以上。示例性的，如图10的C所示，沿5’向3’方向，环状RNA中包含翻译起始元件、2个编码区3(为便于描述，沿5’向3’方向，依次命名为第一编码区3和第二编码区3)、编码区1，以及位于编码区1和第二编码区3之间的连接子，位于第一编码区3和第二编码区3之间的连接子。利用上述的环状RNA可以在细胞内实现对3个或3个以上目标多肽的串联表达。在另外一些可选的实施方式中，环状RNA由按上述顺序排列的元件组成。

在一些可选的实施方式中，环状RNA中同时包含编码区2和编码区3。示例性的，如图10的B所示，沿5’向3’方向，环状RNA中包含翻译起始元件、编码区3、编码区1、编码区2，以及位于编码区1和编码区3之间的连接子，位于编码区1和编码区3之间的连接子。利用上述的环状RNA可以在细胞内实现对3个或3个以上目标多肽的串联表达。在另外一些可选的实施方式中，环状RNA由按上述顺序排列的元件组成。

在一些实施方式中，环状RNA的编码区包括一个编码区1和至少一个编码区4，并且，任意一个编码区的5’端连接有翻译起始元件。示例性的，编码区4的个数为1、2、3、4、5、10、15、20、25等等。利用每个编码区5’端连接的翻译起始元件，起始不同编码区的转录，使同一环状RNA能够用于能够编码2个或2个以上的目标多肽。

在一些可选的实施方式中，编码区4的数量为1个，如图11的A所示，沿5’向3’方向，环状RNA中包含翻译起始元件、编码区1、翻译起始元件、编码区4。利用上述的环状RNA可以在细胞内实现对2个目标多肽的串联表达。在另外一些可选的实施方式中，环状RNA由按上述顺序排列的元件组成。

在一些可选的实施方式中，编码区4的数量为至少2个。示例性的，如图11的B所示，沿5’向3’方向，环状RNA中包含翻译起始元件、编码区1、翻译起始元件、至少2个编码区4，以及位于至少2个编码区4之间的翻译起始元件。利用上述的环状RNA可以在细胞内实现对2个目标多肽的串联表达。在另外一些可选的实施方式中，环状RNA由按上述顺序排列的元件组成。

在本公开中，编码区1、每个编码区4彼此独立的编码任意类型的目标多肽。其中，编码区1与任意一个编码区4编码的目标多肽可以是相同或不同，4任意两个编码区4编码的目标多肽可以是相同或不同。

在一些可选的实施方式中，环状RNA中包括插入元件。其中，所述插入元件连接于任意的翻译起始元件的5’末端。

筛选包含核酶识别位点的目标编码区序列的方法

在一些实施方式中，本公开提供了筛选包含核酶识别位点的目标编码区序列的方法，其包含如下步骤：

S1，在所述包含q个氨基酸的目标多肽中，沿N端向C端方向提取m组氨基酸单元，每组所述氨基酸单元中包含个数为n的氨基酸；其中任意相邻的两个氨基酸单元之间包含至少一个重复的氨基酸，n为整数且n≥2，m为整数且m≥1。

具体的，沿N端向C端方向，将提取得到的m组氨基酸单元依次命名为第R₁～R_m组的氨基酸单元。其中，R₁～R_m组的每组氨基酸单元中氨基酸的个数均为n，任意相邻的两个氨基酸单元之间包含重组的氨基酸，其重复个数选自1～(n-1)中的任一整数。作为优选的实施方式，相邻两个氨基酸单元之间重复的氨基酸个数为n-1。

示例性的，沿N端向C端方向，目标多肽依次由AA₁～AA_q的氨基酸组成。在对目标多肽的氨基酸进行提起时，以AA₁作为起始氨基酸，提取包含AA₁在内的总个数为n的氨基酸作为R₁组的氨基酸单元。

进一步的，在提取R₂组的氨基酸单元时，R₂组氨基酸单元进行提取的起始位置可以是R₁组氨基酸单元中第[2]位～第[n]位的任意位置。例如，当n为2时，R₂组氨基酸单元的起始氨基酸为R₁组氨基酸单元中第[2]位的氨基酸；当n为3时，R₂组氨基酸单元的起始氨基酸为R₁组氨基酸单元中第[2]位或第[3]位的氨基酸(AA₂或AA₃)；当n为4时，R₂组氨基酸单元的起始氨基酸为R₁组氨基酸单元中第[2]位、第[3]位或第[4]位的氨基酸(AA₂、AA₃或AA₄)。当n的数值增加时，可以此方式进行类推，本公开不进行穷举。

作为优选的实施方式，R₂组的氨基酸单元起始氨基酸为R₁组氨基酸单元中第[2]位的氨基酸。例如，当n为2以上的任意整数时，R₂组氨基酸单元的起始氨基酸均为AA₂。

进一步的，在提取R₃组的氨基酸单元时，R₃组氨基酸单元进行提取的起始位置可以是R₂组氨基酸单元中第[2]位～第[n]位的任意位置。例如，当n为2时，R₃组氨基酸单元的起始氨基酸为R₂组氨基酸单元中第[2]位的氨基酸；当n为3时，R₃组氨基酸单元的起始氨基酸为R₂组氨基酸单元中第[2]位或第[3]位的氨基酸；当n为4时，R₃组氨基酸单元的起始氨基酸为R₂组氨基酸单元中第[2]位、第[3]位或第[4]位的氨基酸。当n的数值增加时，可以此方式进行类推，本公开不进行穷举。

作为优选的实施方式，R₃组的氨基酸单元起始氨基酸为R₂组氨基酸单元中第[2]位的氨基酸。例如，当n为2以上的任意整数时，R₃组氨基酸单元的起始氨基酸均为AA₃。

进一步的，在提取R₄组的氨基酸单元时，R₄组氨基酸单元进行提取的起始位置可以是R₃组氨基酸单元中第[2]位～第[n]位的任意位置。例如，当n为2时，R₄组氨基酸单元的起始氨基酸为R₃组氨基酸单元中第[2]位的氨基酸；当n为3时，R₄组氨基酸单元的起始氨基酸为R₃组氨基酸单元中第[2]位或第[3]位的氨基酸；当n为4时，R₄组氨基酸单元的起始氨基酸为R₃组氨基酸单元中第[2]位、第[3]位或第[4]位的氨基酸。当n的数值增加时，可以此方式进行类推，本公开不进行穷举。

作为优选的实施方式，R₄组的氨基酸单元起始氨基酸为R₃组氨基酸单元中第[2]位的氨基酸。例如，当n为2以上的任意整数时，R₄组氨基酸单元的起始氨基酸均为AA₄。

按照上述方式进行氨基酸单元的提取，直至提取到第R_m组的氨基酸单元。

在一个优选的实施方式中，本公开以步长为1，窗口长度为n对由q个氨基酸组成的目标多肽序列进行滑动切片，得到m组氨基酸单元。其中，m＝q+1-n，n为整数且n≥2，m为整数且m≥1。

S2，确定m组的密码子序列集，每组所述密码子序列集中包括每组所述氨基酸单元对应的密码子序列。

具体的，依据氨基酸密码子的简并性原则，得到每组氨基酸单元对应的密码子序列的集合。对应R₁～R_m组的氨基酸单元，得到C₁-C_m组的密码子序列集。

S3，遍历所述m组的密码子序列集，得到每组密码子序列集中的每个密码子序列与目标基序的匹配值。

具体的，目标基序包含核酶识别位点序列，其中，核酶识别位点序列由核酶识别位点I的核苷酸序列和核酶识别位点II的核苷酸序列连接组成，或者由核酶识别位点III的核苷酸序列和核酶识别位点IV的核苷酸序列连接组成。示例性的，核酶识别位点序列包括但不限于“5’-TTGGGTCT-3’”、“5’-ACGTCTTAACCAA-3’”、“5’-AGGGATCA-3’”等等。

进一步的，目标基序还包含在核酶识别位点序列的5’端和3’端中至少一端的位置上连接个数为x的核苷酸，使组成目标基序的核苷酸数量为3n。其中，每个x彼此独立地为≥0的整数，每个连接的核苷酸彼此独立地选自任意类型的核苷酸。例如，当核酶识别位点序列为“5’-TTGGGTCT-3’”时，目标基序对应的可以是选自如下的(a1)-(a6)至少一种，其中X＝A，T，C，G：

(a1)TTGGGTCTX；

(a2)XTTGGGTCT；

(a3)XTCTGGGTT；

(a4)TCTGGGTTX；

(a5)XXTTGGGTCTXX；

(a6)XXTCTGGGTTXX。

在一些实施方式中，遍历m组的密码子序列集，得到每组密码子序列集中的每个密码子序列与目标基序的匹配值的步骤包括：将C₁-C_m组的密码子序列集的每个密码子序列依次与目标基序进行比对，计算每个密码子子序列的匹配值。

进一步的，目标基序中包含有效碱基对，其对应核酶识别位点I与核酶识别位点II的连接位置处的两个碱基；也即，有效碱基对是指核酶识别位点中用于成环的两个碱基。例如，核酶识别位点的序列为“5’-TTGGGTCT-3’”时，有效碱基对是指其中的TC；核酶识别位点的序列为“5’-ACGTCTTAACCAA-3’”时，有效碱基对是指其中的TA；核酶识别位点的序列为“5’-AGGGATCA-3’”时，有效碱基对是指其中的TC。

在比对每个密码子序列依次与目标基序时，首先判断所述密码子序列中对应所述有效碱基对位置处的碱基是否为有效碱基，若所述密码子序列中不包含所述有效碱基对，则不输出所述密码子序列的比对值。

若所述密码子序列中包含所述有效碱基对，由5’向3’的方向，确定每个密码子序列中的每个碱基与目标基序中的对应碱基的比对值；

示例性的，当目标基序对应的可以是选自如下的(a1)-(a6)至少一种，其中X＝A，T，C，G：(a1)TTGGGTCTX；(a2)XTTGGGTCT；(a3)XTCTGGGTT；(a4)TCTGGGTTX；(a5)XXTTGGGTCTXX；(a6)XXTCTGGGTTXX。遍历m组的密码子序列集，得到每组密码子序列集中的每个密码子序列与目标基序的匹配值的步骤包括：

S31，以(a1)TTGGGTCTX为目标基序，遍历C₁-C_m组的密码子序列集的每个密码子序列，计算每个密码子序列与目标基序的匹配值。对于一个密码子序列，其序列第6位必须为碱基”T”，第7位必须为碱基“C”，否则不输出匹配值。当密码子序列包含有效碱基对时，依次比对第1位的碱基到第9位的碱基，根据比对结果积累具体的分数。

S32，以(a2)XTTGGGTCT为目标基序，遍历C₁-C_m组的密码子序列集的每个密码子序列，计算每个密码子序列与目标基序的匹配值。对于一个密码子序列，其序列第7位必须为碱基”T”，第8位必须为碱基“C”，否则不输出匹配值。当密码子序列包含有效碱基对时，依次比对第1位的碱基到第9位的碱基，根据比对结果积累具体的分数。

S33，以(a3)XTCTGGGTT为目标基序，遍历C₁-C_m组的密码子序列集的每个密码子序列，计算每个密码子序列与目标基序的匹配值。对于一个密码子序列，其序列第3位必须为碱基”C”，第4位必须为碱基“T”，否则不输出匹配值。当密码子序列包含有效碱基对时，依次比对第1位的碱基到第9位的碱基，根据比对结果积累具体的分数。

S34，以(a4)TCTGGGTTX为目标基序，遍历C₁-C_m组的密码子序列集的每个密码子序列，计算每个密码子序列与目标基序的匹配值。对于一个密码子序列，其序列第3位必须为碱基”T”，第2位必须为碱基“C”，否则不输出匹配值。当密码子序列包含有效碱基对时，依次比对第1位的碱基到第9位的碱基，根据比对结果积累具体的分数。

S35，以(a5)XXTTGGGTCTXX为目标基序，遍历C₁-C_m组的密码子序列集的每个密码子序列，计算每个密码子序列与目标基序的匹配值。对于一个密码子序列，其序列第7位必须为碱基”T”，第8位必须为碱基“C”，否则不输出匹配值。当密码子序列包含有效碱基对时，依次比对第1位的碱基到第9位的碱基，根据比对结果积累具体的分数。

S36，以(a6)XXTCTGGGTTXX为目标基序，遍历C₁-C_m组的密码子序列集的每个密码子序列，计算每个密码子序列与目标基序的匹配值。对于一个密码子序列，其序列第4位必须为碱基”C”，第5位必须为碱基“T”，否则不输出匹配值。当密码子序列包含有效碱基对时，依次比对第1位的碱基到第9位的碱基，根据比对结果积累具体的分数。

在一些实施方式中，得到每组密码子序列集中的每个密码子序列与目标基序的匹配值的步骤还包括：判断每组密码子序列集中的每个密码子序列是否与内含子序列杂交，得到所述每组密码子序列集中的每个密码子序列的互补值。

示例性的，遍历C₁-C_m组的密码子序列集的每个密码子序列，根据每个密码子序列是否与内含子序列杂交，得到每个密码子序列的互补值；结合互补值与比对值，得到最终每个密码子序列的匹配值。

具体的，在得到密码子序列集的每个密码子序列与目标基序的匹配值后，选择匹配值高于第一阈值的密码子序列，为目标密码子序列。目标密码子序列对应编码区序列的位置为核酶识别位点位点的植入位置，对于目标编码区序列而言，其在植入位置处的核苷酸序列为目标密码子序列。

进一步的，在目标密码子序列中有效碱基对的位置将目标编码区序列进行截断，可用于得到能够应用于Clean PIE系统成环的编码元件截断片段I与编码元件截断片段II，或者编码元件截断片段III与编码元件截断片段IV。

在本公开中，“第一阈值”是指当密码子序列与目标基序的匹配值在高于这一数值时，编码元件截断片段可应用于Clean PIE系统以实现有效成环。

在本公开中，由于核酶识别位点序列中在存在有限数量的碱基突变时，不影响核酶识别位点的有效成环。因此，对于目标密码子序列而言，其允许在一定位置上存在与目标基序不匹配的突变碱基。

筛选核酶识别位点序列的方法

在一些实施方式中，本公开提供的筛选核酶识别位点序列的方法，包括如下步骤：

(1)确定待筛选序列，所述待筛选序列包含来源于I类内含子的内含子序列，以及连接于所述内含子序列的5’端的第一外显子序列，和连接于所述内含子序列的3’端的第二外显子序列；

具体的，待筛选序列可以是任意类型的具有I类内含子的自剪切活性的序列。

(2)根据所述待筛选序列，得到预测的RNA二级结构；

具体的，获取待筛选序列的RNA二级结构的步骤如下：

由序列比对软件(例如，ClustalW)接收输入的待筛选序列，通过序列比对确定来源于Group I intron的待筛选序列中高度保守序列P7以及P7’，并确定J6/7以及J8/7序列，得到第一配对信息；

确定P3，并确定P7后是否存在P3’序列，如不存在添加P3’序列，得到第二配对信息；

根据第一配对信息和第二配对信息，进一步依据Group I intron典型结构(图34)，确认如下的一个或多个序列：P2、P4、P5、P6、P8、P9；

通过过5’端第一外显子序列以及3’端第二外显子序列确认P1’以及P10，同时确认核酶识别位点。并将所得配对信息通过Mfold或者RNAstructure中最小自由能的方法进行预测，得到预测的RNA二级结构。

(3)根据所述预测的RNA二级结构，得到所述第一外显子序列中具有核酶识别活性的核酶识别位点I，以及所述第二外显子序列中具有核酶识别活性的核酶识别位点II。

在一些实施方式中，核酶识别位点I的核苷酸序列与所述内含子序列中的引导序列杂交；在一些实施方式中，核酶识别位点II的核苷酸序列与所述内含子序列中的引导序列杂交。核酶识别位点I和/或核酶识别位点II的核苷酸序列与内含子序列的引导序列杂交，可以使Clean PIE系统在自剪切形成环状RNA的过程中的两端相互靠近，有利于核酶识别位点I和核酶识别位点II的位置处先后断裂、连接成环状RNA。

由于核酶识别位点中有限数量的碱基突变不影响在核酶识别位点处的有效成环。在一些实施方式中，依次对所述核酶识别位点I的碱基进行替换，得到具有核酶识别活性的核酶识别位点I的突变体序列。在一些实施方式中，依次对所述核酶识别位点II的碱基进行替换，得到具有核酶识别活性的核酶识别位点II的突变体序列。

(4)根据所述核酶识别位点I的核苷酸序列，与所述核酶识别位点II的核苷酸序列，确定核酶识别位点序列；具体的，核酶识别位点序列包含如下(i)-(iv)组成的组中的至少一项：

(i)核酶识别位点I的核苷酸序列，

(ii)核酶识别位点II的核苷酸序列，

(iii)具有核酶识别活性的核酶识别位点I的突变体序列，

(iv)具有核酶识别活性的核酶识别位点II的突变体序列。

在一些实施方式中，核酶识别位点序列包括(i)核酶识别位点I的核苷酸序列，和(ii)核酶识别位点II的核苷酸序列；在另外一些实施方式，核酶识别位点序列由(i)核酶识别位点I的核苷酸序列，和(ii)核酶识别位点II的核苷酸序列组成。

在一些实施方式中，核酶识别位点序列包括(iii)具有核酶识别活性的核酶识别位点I的突变体序列，和(iv)具有核酶识别活性的核酶识别位点II的突变体序列；在另外一些实施方式，核酶识别位点序列由(iii)具有核酶识别活性的核酶识别位点I的突变体序列，和(iv)具有核酶识别活性的核酶识别位点II的突变体序列组成。

在一些实施方式中，核酶识别位点序列包括(i)核酶识别位点I的核苷酸序列，和(iv)具有核酶识别活性的核酶识别位点II的突变体序列；在另外一些实施方式，核酶识别位点序列由(i)核酶识别位点I的核苷酸序列，和(iv)具有核酶识别活性的核酶识别位点II的突变体序列组成。

在一些实施方式中，核酶识别位点序列包括(iii)具有核酶识别活性的核酶识别位点I的突变体序列，和(ii)核酶识别位点II的核苷酸序列；在另外一些实施方式，核酶识别位点序列由(iii)具有核酶识别活性的核酶识别位点I的突变体序列，和(ii)核酶识别位点II的核苷酸序列组成。

用于筛选包含核酶识别位点的目标编码区序列的筛选系统

在一些实施方式中，本公开提供了用于筛选包含核酶识别位点的目标编码区序列的筛选系统，其对应包含：

目标密码子序列筛选模块：用于根据所述匹配值确定所述密码子序列集中的目标密码子序列，所述目标密码子序列对应所述编码区序列的位置为所述核酶识别位点的植入位置，在所述植入位置处包含所述目标密码子序列的编码区序列为包含核酶识别位点的目标编码区序列。

在一些实施方式中，匹配值计算模块包括：

在一些实施方式中，匹配值计算模块还包括：

此外，本公开还公开了一种用于筛选包含核酶识别位点的目标编码区序列的处理装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行计算机程序以实现如前述的筛选包含核酶识别位点的目标编码区序列的方法。

另外，本公开还公开了一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现如前述的用于筛选包含核酶识别位点的目标编码区序列的方法。

本领域人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

实施例

本公开的其他目的、特征和优点将从以下详细描述中变得明显。但是，应当理解的是，详细描述和具体实施例(虽然表示本公开的具体实施方式)仅为解释性目的而给出，因为在阅读该详细说明后，在本公开的精神和范围内所作出的各种改变和修饰，对于本领域技术人员来说将变得显而易见。

本实施例中所用到的实验技术与实验方法，如无特殊说明均为常规技术方法，例如下列实施例中未注明具体条件的实验方法，通常按照常规条件如Sambrook等人，分子克隆：实验室手册(New York:Cold Spring Harbor Laboratory Press，1989)中所述的条件，或按照制造厂商所建议的条件。实施例中所使用的材料、试剂等，如无特殊说明，均可通过正规商业渠道获得。

实施例1：匹配值计算模块

本实例阐述了目标编码区序列的筛选系统中匹配值计算模块的评分标准。匹配值计算模块的评分原则是通过编码氨基酸的简并性原则在成环基因的ORF(开放阅读框)中寻找与Group I intron PIE E1E2最相近的目标密码子序列，从而确定编码区中的核酶识别位点。

其中，如果编码区中没有与Group I intron E1E2完全匹配的目标密码子序列，则按以下原则进行评分：

1、以完全匹配的序列为基准，设定为100分。以T4td PIE为例，评分标准如图16所示：

序列第1位为“T”时分值为17.6，否则为0；序列第2位为“T”时累加17.6，为“C”时累加5.8，否则累加0；序列第3位为“G”时累加17.6，为“A”时累加5.8，否则累加0；序列第4位为“G”时累加17.6，否则累加0；序列第5位为“G”时累加17.6，否则累加0；序列第8位为“T”时累加12，为“A”时累加5.8,否则累加0，最后所得总分为该序列的评分。

2、统计E1E2序列，去除成环位点处碱基(有效碱基对)不参与评分(例如T4td PIE)E1E2序列为TTGGGTCT，TC为成环位点，则TC不参与评分)。按以下四种情况进行加权平均：

a)如果编码区中序列与E1E2序列完全匹配，且编码区成环位置序列与内含子中IG序列(引导序列)可以碱基互补则加权平均为3；

b)如果编码区中序列与E1E2序列完全匹配，但编码区成环位置序列不能与内含子中IG序列(引导序列)互补配对则加权平均为2；

c)如果编码区中序列与E1E2序列不能匹配，但编码区成环位置序列与内含子中IG序列(引导序列)可以碱基互补则加权平均为1；

d)如果编码区中序列与E1E2序列不能匹配，并且编码区成环位置序列不能与内含子中IG序列(引导序列)互补配对则加权平均为0；

通过以上原则可以对成环序列进行评分。

本成环序列打分系统可以应用于实施例2中获得与Group I intron PIE E1E2序列相同或相近的目标密码子序列。

实施例2：筛选包含核酶识别位点的目标编码区序列

图17示出了利用筛选系统确定包含核酶识别位点的目标的自动化流程图，实施过程如下：

(1)将完整的基因序列的编码区转换成氨基酸序列

(2)氨基酸单元提取模块中，对氨基酸序列滑窗切片，将编码区氨基酸序列以步长为1(step＝1)，窗口大小为3或者4(win＝3，4)进行切片，得到长度为3或者4的氨基酸短序列。

(3)密码子序列集提取模块中，将(2)得到的氨基酸短序列根据(1)密码子表翻译成核苷酸序列，得到密码子序列集。

(4)匹配值计算模块中，对密码子序列打分，作为核酶识别位点的E1E2序列为TGGGTCT，以如下所示序列作为目标基序，依次计算密码子序列集中的密码子序列与目标基序的匹配值。其中，X＝A，T，C，G。

TTGGGTCTX；

XTTGGGTCT；

XTCTGGGTT；

TCTGGGTTX；

XXTTGGGTCTXX；

XXTCTGGGTTXX。

①遍历(3)得到的序列(win＝3，序列长度为9bp)的序列以TTGGGTCTX(X＝A，T，C，G)为基准进行打分，序列第6位必须为碱基”T”，第7位必须为碱基“C”；序列第1位为“T”时分值为17.6，否则为0；序列第2位为“T”时累加17.6，为“C”时累加5.8，否则累加0；序列第3位为“G”时累加17.6，为“A”时累加5.8，否则累加0；序列第4位为“G”时累加17.6，否则累加0；序列第5位为“G”时累加17.6，否则累加0；序列第8位为“T”时累加12，为“A”时累加5.8,否则累加0。

②遍历(3)得到的序列(win＝3，序列长度为9bp)的序列以XTTGGGTCT(A，T，C，G)为基准进行打分，序列第7位必须为碱基”T”，第8位必须为碱基“C”；序列第2位为“T”时分值为17.6，否则为0；序列第3位为“T”时累加17.6，为“C”时累加5.8，否则累加0；序列第4位为“G”时累加17.6，为“A”时累加5.8，否则累加0；序列第5位为“G”时累加17.6，否则累加0；序列第6位为“G”时累加17.6，否则累加0；序列第9位为“T”时累加12，为“A”时累加5.8,否则累加0。

③遍历(3)得到的序列(win＝3，序列长度为9bp)的序列以XTCTGGGTT(A，T，C，G)为基准进行打分，序列第3位必须为碱基”C”，第4位必须为碱基“T”；序列第9位为“T”时分值为17.6，否则为0；序列第8位为“T”时累加17.6，为“C”时累加5.8，否则累加0；序列第7位为“G”时累加17.6，为“A”时累加5.8，否则累加0；序列第6位为“G”时累加17.6，否则累加0；序列第5位为“G”时累加17.6，否则累加0；序列第2位为“T”时累加12，为“A”时累加5.8,否则累加0。

④遍历(3)得到的序列(win＝3，序列长度为9bp)的序列以TCTGGGTTX(X＝A，T，C，G)为基准进行打分，序列第3位必须为碱基”T”，第2位必须为碱基“C”；序列第8位为“T”时分值为17.6，否则为0；序列第7位为“T”时累加17.6，为“C”时累加5.8，否则累加0；序列第6位为“G”时累加17.6，为“A”时累加5.8，否则累加0；序列第5位为“G”时累加17.6，否则累加0；序列第4位为“G”时累加17.6，否则累加0；序列第1位为“T”时累加12，为“A”时累加5.8,否则累加0。

⑤遍历(3)得到的序列(win＝4，序列长度为12bp)的序列以XXTTGGGTCTXX(X＝A，T，C，G)为基准进行打分，序列第7位必须为碱基”T”，第8位必须为碱基“C”；序列第1位为“T”时分值为17.6，否则为0；序列第3位为“T”时累加17.6，为“C”时累加5.8，否则累加0；序列第4位为“G”时累加17.6，为“A”时累加5.8，否则累加0；序列第5位为“G”时累加17.6，否则累加0；序列第6位为“G”时累加17.6，否则累加0；序列第9位为“T”时累加12，为“A”时累加5.8,否则累加0。

⑥遍历(3)得到的序列(win＝4，序列长度为12bp)的序列以XXTCTGGGTTXX(A，T，C，G)为基准进行打分，序列第4位必须为碱基”C”，第5位必须为碱基“T”；序列第10位为“T”时分值为17.6，否则为0；序列第9位为“T”时累加17.6，为“C”时累加5.8，否则累加0；序列第8位为“G”时累加17.6，为“A”时累加5.8，否则累加0；序列第7位为“G”时累加17.6，否则累加0；序列第6位为“G”时累加17.6，否则累加0；序列第3位为“T”时累加12，为“A”时累加5.8,否则累加0。

(4)排序，按序列分数从高到低排序。

以EGFP蛋白为例，在编码EGFP蛋白的核苷酸序列中确定核酸酶识别位点的过程如下：

(1)将EGFP核苷酸序列seq1(SEQ ID NO:1)翻译为氨基酸序列seq2(SEQ ID NO:2)；

(2)滑窗切片，(a)将seq2序列以步长为1(step＝1)，窗口大小为3进行切片，得到3个氨基酸长度的氨基酸片段，将每个氨基酸片段对应的不同密码子通过随机重组，穷举得到所有氨基酸片段对应的可能的碱基序列，并构建成一个密码子序列集；(b)将seq2序列以步长为1(step＝1)，窗口大小为4进行切片，得到长度为4个氨基酸的氨基酸片段，将每个氨基酸片段对应不同密码子通过随机重组，穷举得到所有氨基酸片段对应的可能的碱基序列，并将相应碱基序列添加进入之前构建的密码子序列集中；

示例性的，对seq2序列以步长为1、窗口大小为3个氨基酸长度进行切片，得到如下所示的氨基酸片段：

MVS，

VSK，

SKG，

KGE，

GEE，

……

LYK，

YK*；

其中，上述的“……”表示对seq2序列以步长为1、窗口大小为3个氨基酸长度依次切片得到的位于GEE与LYK之间的氨基酸片段。“*”代表终止密码子。

对seq2序列以步长为1、窗口大小为4个氨基酸长度进行切片，得到如下所示的氨基酸片段：

MVSK(SEQ ID NO:60)，

VSKG(SEQ ID NO:61)，

SKGE(SEQ ID NO:62)，

……

ELYK(SEQ ID NO:63)，

LYK*；

其中，上述的“……”表示对seq2序列以步长为1、窗口大小为4个氨基酸长度依次切片得到的位于SKGE与ELYK之间的氨基酸片段。“*”代表终止密码子。

(3)遍历(2)中所构建的密码子序列集，并以TTGGGTCTX、XTTGGGTCT、XXTTGGGTCTXX、TCTGGGTTX、XTCTGGGTT与XXTCTGGGTTXX为目标基序打分，作为密码子序列与目标基序的匹配值；序列分数从高到低排序，如表1(部分，其中“……”表示密码子序列集中遍历的密码子序列，及其所对应的匹配值)；

表1

(4)根据步骤(3)中匹配值的计算结果，得到目标密码子序列，包含目标密码子序列的编码区序列为目标编码区序列。

实施例3：体外合成编码eGFP的环状mRNA

本实施例提供了通过本公开中筛选的包含核酶识别位点的eGFP的编码区序列制备能够表达eGFP的环状mRNA的方法

(1)eGFP基因截断位点的筛选及质粒构建

通过实施例1-2中提供的方法，获得待优化的氨基酸单元为DGS，通过密码子优化为GAT GGA TCA(核酶识别位点序列)并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-eGFP截断片段II-ev29-eGFP截断片段I-T4td内含子片段I的结构形式，本实施例涉及的氨基酸及核苷酸序列如下表2所示：

表2

	SEQ ID NO:
		eGFP蛋白序列	SEQ ID NO:3
内含子片段II	SEQ ID NO:4
		内含子片段I	SEQ ID NO:5
Ev29序列	SEQ ID NO:10
		未截断eGFP序列	SEQ ID NO:11
eGFP截断片段I序列	SEQ ID NO:12
		eGFP截断片段II序列	SEQ ID NO:13

通过该架构委托苏州金唯智生物科技有限公司进行质粒的合成与克隆。所得基因片段连接到pUC57载体。得到如下质粒：pUC57-EV29-eGFP(SEQ ID NO:14)

(2)线性质粒模板制备

1)质粒抽提

①将外部合成的穿刺菌活化，条件37℃/220rpm/3～4h

②取活化菌液扩大培养，培养条件：37℃/220rpm/过夜

③质粒抽提(天根无内毒素小量中提试剂盒)，测定OD值

2)质粒酶切

采取XbaI单酶切的方法酶切上述步骤1)中制备的质粒，酶切体系如下表所示：

表3

试剂	体积
		质粒	10μg
酶(1000units)	5μl
		10x cutsmart buffer	50μl
Nuclease free，H₂O	Total 500μl

37℃酶切过夜。采用通用型DNA胶回收试剂盒(天根生化科技有限公司)回收酶切产物，测定OD值并采用1％琼脂糖凝胶电泳鉴定酶切产物。纯化的线性质粒模板用于体外转录。

(3)体外转录制备线性mRNA

1)体外转录

采用T7体外转录试剂盒(APExBIO T7 High Yield RNA Synthesis Kit)合成mRNA，转录体系如下表所示：

表4

试剂	体积
		10xReaction Buffer	2μl
ATP(20mM)	2μl
		CTP(20mM)	2μl
UTP(20mM)	2μl
		GTP(20mM)	2μl
线性化DNA模板	1μg
		T7 RNA Polymerase Mix	2μl
RNA Nuclease free，H2O	Total 20μl

37℃孵育2.5h，然后用DNase I消化线性DNA模板。消化条件：37℃消化15min。

2)线性mRNA纯化

将上述1)所得转录产物，使用硅膜离心柱法纯化(Thermo,GeneJET RNAPurification Kit)，测定OD值及1％变性琼脂糖凝胶电泳鉴定RNA大小。

3)线性mRNA纯化

1％变性琼脂糖凝胶配制方法如下：

1)称取1g琼脂糖，至72ml nuclease-free,H2O中，微波炉加热溶解；

2)上述琼脂糖冷却至55～60℃时，在通风橱加0.1％的gel red，10ml 10xMOPS,18ml甲醛，灌胶；

3)变性琼脂糖凝胶电泳流程如下：取等体积样本RNA与2×Loading buffer，65～70℃变性5～10min。上样，采用100V/30min条件进行电泳，其后采用凝胶成像系统拍照。

(4)mRNA环化

1)环化试剂：

GTP Buffer：50mM Tris-HCl，10mM MgCl₂，1mM DTT，pH 7.5左右。

2)环化体系与条件：

表5

溶液	体积
		mRNA	25μg mRNA
GTP solution(20mM)	50μl
		GTP buffer	补足至500μl

将上述溶液于55℃加热15min，之后置于冰上，环化RNA产物使用硅膜离心柱法纯化(Thermo，GeneJET RNA Purification Kit)，测定OD值及1％变性琼脂糖凝胶电泳鉴定RNA大小。

3)环状RNA 1％变性琼脂糖凝胶鉴定

试剂配制：1g琼脂糖粉加入72ml无核酸酶水中，加热将琼脂塘融化，加入10ml10×MOPS缓冲液。然后在通风柜中加入18ml新鲜37％甲醛，充分混合，将凝胶倒入槽中。

mRNA检测：取500ng左右mRNA溶液，加入等体积的2×RNA loading buffer混匀，65℃加热5min，进行琼脂糖凝胶检测。

实验结果：

表6

图18示出了示出了利用经典PIE系统，与本公开中Clean PIE系统用于制备环状mRNA的质粒酶切产物(A)与成环后产物(B)的琼脂糖凝胶电泳检测结果。

上述结果显示：与经典PIE系统对比，本公开中利用Clean PIE系统制备环状RNA的成环过程及工艺不需要任何额外的改动，成环效果明显。通过琼脂糖凝胶电泳检测发现成环效率与经典PIE系统相似，未发现明显差异。

实施例4：通过本公开方法体外合成的环状mRNA在体外表达的验证

本实施例将实施例3中制备的环状mRNA转染至293T细胞中，检测通过本公开方法体外合成的环状mRNA在293T细胞中表达的情况，具体过程如下：

(1)细胞培养：

293T接种于含有10％胎牛血清，1％双抗的DMEM高糖培养基中，于37℃，5％ CO₂培养箱中培养。细胞每隔2-3天进行传代培养。

(2)细胞转染：

转染前将293T细胞以1×10⁵个/孔接种于24孔板中，于37℃，5％ CO₂培养箱中培养。待细胞达到70-90％融合度后，使用Lipofectamine MessengerMax(Invitrogen)转染试剂将mRNA以500ng/孔量转染293T细胞，具体操作如下：

1)稀释Messenger MAX^TM Reagent，稀释配比如下表所示：

表7

试剂	体积/孔
		MEM无血清培养基	25μl
MessengerMAX^TM Reagent	0.75μl

稀释混合后，室温静置孵育10min；

2)稀释mRNA，稀释配比如下表所示：

表8

试剂	体积/孔
		mRNA	1μg
MEM无血清培养基	补足至25μl

3)如下表所示，取混合稀释后的Messenger MAX^TM Reagent和mRNA(1：1)：

表9

试剂	体积/孔
		稀释的MessengerMAX^TM Reagent	25μl
稀释的mRNA	25μl

稀释混合后，室温静置孵育5min；

4)吸取上述混合液50μl贴壁缓缓加入24孔板中，37℃、5％ CO₂培养箱中孵育培养。

(3)蛋白表达检测：

1)细胞荧光观察：将转染后24小时293T细胞于200×荧光显微镜下观察EGFP的表达情况。

2)流式细胞术检测细胞平均荧光强度：将转染后24小时293T细胞用流式细胞仪检测细胞平均荧光强度。

图19示出了利用经典PIE系统，与本公开中Clean系统制备环状mRNA的体外表达水平的检测结果。其中，A：荧光显微镜观测结果，B:流式细胞仪检测结果。

图19结果显示：

本公开意外发现，与经典PIE成环方法制备的环状mRNA相比，本公开中Clean PIE制备的环状mRNA在293T转染细胞中细胞荧光强增强，说明本公开中Clean PIE制备环状mRNA由于未引入额外的外显子序列，从而未引起较强的免疫原性，使环状mRNA在细胞中的稳定性提高。同时流式细胞检测数据也显示本公开中Clean PIE制备的环状mRNA在体外表达较经典PIE制备的环状mRNA出现这种意想不到的表达水平的提高。综合以上结果表明本公开中Clean PIE系统在获得更精确的环状mRNA的基础上，会使环状mRNA的表达水平提升。

实施例5：Clean PIE系统在不同蛋白上的应用

本实施例利用Clean PIE系统制备了多种在多种其他不同蛋白上的成环应用。本公开涉及的编码区序列包括spCas9，firefly Luciferase，IL12以及FLAG-con1-SPOP167-274，具体如下：

1)通过实施例1-2中提供的方法，获得spCas9的待优化的氨基酸单元为LGS，通过密码子优化为CTT GGG TCT(核酶识别位点序列)，并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-spCas9截断片段II-ev29-spCas9截断片段I-T4td内含子片段I的结构形式；

2)通过实施例1-2提供的方法，获得firefly Luciferase的待优化的氨基酸单元为LRS，通过密码子优化为CTT AGG TCT(核酶识别位点序列)，并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-fLUC截断片段II-ev29-fLUC截断片段I-T4td内含子片段I的结构形式；

3)通过实施例1-2提供的方法，获得IL12的待优化的氨基酸单元为LGS，通过密码子优化为CTT GGG TCT(核酶识别位点序列)并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-IL12截断片段II-ev29-IL12截断片段I-T4td内含子片段I的结构形式

4)通过实施例1-2提供的方法，获得FLAG-con1-SPOP167-274的待优化的氨基酸单元为LGP，通过密码子优化为TTG GGT CCT(核酶识别位点序列)并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-FLAG-con1-SPOP167-274截断片段II-ev29-FLAG-con1-SPOP167-274S截断片段I-T4td内含子片段I的结构形式。

通过实施例3的实验方法分别制备表达spCas9，firefly Luciferase，IL12以及FLAG-con1-SPOP167-274的环状mRNA，本实施例涉及的序列如下表所示：

表10

	SEQ ID NO:
		spCas9截断片段I	SEQ ID NO:15
spCas9截断片段II	SEQ ID NO:16
		fLUC截断片段I	SEQ ID NO:17
fLUC截断片段II	SEQ ID NO:18
		IL12截断片段I	SEQ ID NO:19
IL12截断片段II	SEQ ID NO:20
		FLAG-con1-SPOP167-274截断片段I	SEQ ID NO:21
FLAG-con1-SPOP167-274截断片段II	SEQ ID NO:22

图20示出了Clean PIE成环制备的表达不同蛋白的环状mRNA的琼脂糖凝胶检测结果。实验结果显示：通过对不同蛋白(spCas9，firefly Luciferase，IL12以及FLAG-con1-SPOP167-274)的成环发现，在不同的蛋白内优化得到核酶识别位点序列后，利用本公开中Clean PIE成环系统在成环反应后均出现在琼脂糖凝胶中迁移速率的差异。从而证明所有的蛋白的编码序列均可以有效的成环。综合以上结果证明本公开提供的方法可以在不同的序列的蛋白之间有效应用，具有较好的通用性和兼容性，可以作为一种新型的大分子(>1000bp)成环方式。

实施例6：分析Clean系统的适用性

本实施例通过生物信息方式验证了本专利Clean PIE系统在大肠杆菌基因组基因中可利用情况进行了分析，并且说明了本公开寻找目标成环序列(包含核酶识别位点的序列)的方法有普遍适应性。

以T4td PIE系统为例：通过对大肠杆菌基因组序列中大于1000bp以及500bp的基因进行生物信息学评估，从而筛选出有效的成环序列(>70分)。

图21显示了对大肠杆菌基因组大于1000bp以及500bp的基因进行匹配值打分的评估结果。结果显示：

通过对大肠杆菌基因组大于1000bp以及500bp的基因放入筛选系统中，利用匹配值计算模块进行评价，发现在大于500bp以上的基因中能找到评分在82分以上的目标成环序列的概率已经可以达到100％。另外编码基因也可以通过组合不同Group I intron的E1E2序列进一步提高这种概率。即通过匹配值计算模块筛选最合适的内含子以及其对应的E1E2序列作为环状mRNA的成环位点(核酶识别位点)。

实施例7：RNaseR成环验证

本实施例通过对线性以及环状mRNA进行消化，验证了本公开中成环方法的可行性。具体地：由于相对于线性RNA，环状RNA对RNaseR有更好的耐受性，可以通过对比线性mRNA及Clean PIE成环的环状mRNA对RNaseR的耐受来验证序列的成环。

在实施例3的基础上，将其产生的经典PIE系统及Clean PIE系统的线性及环状mRNA通过RNaseR消化，RNase购于MClab货号RNASR-100，RNase R消化体系：

表11


		mRNA	1μg
RNase R	1U
		10x Reaction buffer	2μl
H₂O	up to 20μl

37℃孵育5分钟，之后通过70℃孵育5分钟进行失活

图22示出了RNaseR消化不同PIE系统产生的线性及环状mRNA。实验结果：不管是经典PIE还是Clean PIE系统，环化后的环状mRNA都对RNaseR表现出了较好的耐受性。说明Clean PIE系统的可以有效的形成环状mRNA。

实施例8：毛细管电泳对Clean PIE系统成环方法的验证

本实施例通过毛细管电泳的方法对制备的环状mRNA进行检测

通过实施例7环化得到的环状RNA粗产物经显微分光光度法(Nano-DropTechnologies，Thermo)测定浓度后，由RNA6000assay kit(Agilent 5067-1511)处理后通过安捷伦2100自动核酸分析仪检测分析.试剂盒及上机步骤请参见安捷伦官方网站。

图23示出了毛细管电泳分析结果。其中上图(A)为未经RNaseR处理及HPLC纯化的环状RNA产物毛细管电泳检测图谱，中图(B)为上图的局部放大，下图(C)为分子量标品。结果显示：

通过毛细管电泳检测，成环后的RNA成单峰，且有218，243两个内含子峰以及349的内含子双聚体峰。环状mRNA总占比为89.6％(未纯化前)进一步说明本公开中方法可以有效完成环状信使核糖核苷酸的成环。

实施例9：成环位点(核酶识别位点)处序列完整性及序列准确性验证

本实施例通过反转录后测序，鉴定本公开成环方式下环状mRNA成环位点处序列完整及准确性。本实施例中使用的引物序列如下所示：

Fluc-R：TACTTGTCGATCAGGGTGCT(SEQ ID NO:23)

Fluc-F：TGGACAGCAAGACCGACTAC(SEQ ID NO:24)

IL12-R：CTGCATCAGCTCGTCGATGG(SEQ ID NO:25)

IL12-F:TACTACAACAGCAGCTGCAGCA(SEQ ID NO:26)

通过Takara公司的反转录试剂盒(RR037B，Takara)将实施例5中fireflyLuciferase(Fluc)以及IL12的线性和环状mRNA反转录成第一链cDNA；以cDNA作为模板，采用特异性引物进行PCR扩增获得扩增片段；通过测序比对实际合成的环状mRNA与设计的环状mRNA的序列。

图24示出了Fluc及IL12反转录后cDNA的PCR测序分析结果。其中A示出了线性和环状mRNA反转录后PCR扩增片段的琼脂糖凝胶电泳检测结果，B为表达Fluc与IL12的环状mRNA反转录后的测序结果。红色箭头代表环状mRNA特异性扩增条带，红色方框所框序列为fluc和IL12的成环位点。

实验结果显示，线性mRNA组未见特异性扩增条带，环状mRNA组可见特异性扩增条带。通过对该特异性条带进行切胶回收，纯化后进行Sanger测序。测序结果显示，PCR条带与所期望条带一致，成环位点附近未出现多余碱基插入或缺失。由此可见，Luciferase以及IL12已准确成环。

实施例10：未成环线性部分的表达分析验证

本实施例验证了本公开中Clean PIE系统产生的线性RNA无法表达出任何蛋白，说明了在本公开中的线性mRNA在成环前不会产生任何非特异性翻译蛋白。

本实例按照实施例5的方法将经典PIE系统下的FLAG-con1-SPOP的线性及环状mRNA以及Clean PIE系统下的线性及环状mRNA转染至293T细胞，并在24小时后收集细胞进行裂解，并进行western blot检测。由于在启动子后存在FLAG标签，表达的蛋白可以通过anti-FLAG的抗体进行检测。

图25示出了经典PIE系统与本公开中Clean PIE系统用于制备环状mRNA的未成环线性mRNA，与成环后环状mRNA的表达检测结果。其中，A示出了经典PIE系统与Clean PIE系统未成环的线性mRNA的结构，B示出了western blot检测的线性mRNA的蛋白表达结果。结果显示：

经典PIE架构下，未成环线性mRNA依然可以表达，而Clean PIE架构下未成环线性mRNA未出现任何表达产物。在不同成环系统下成环的环状RNA都能够表达，其中不同系统下环状mRNA表达量的不同是由于系统中元件的不同造成的。本实施例证明了本公开中CleanPIE系统用于制备环状mRNA具有较高的生物安全性。

实施例11：翻译调控元件增强Clean PIE成环的环状mRNA的表达

本实施例在实施例3中提供的Clean PIE成环系统中连接插入元件，插入元件具体为翻译调控元件，其连接于ev29的5’端。通过增加翻译调控元件，可以增强本公开成环方法产生的环状mRNA的表达。并且通过筛选，得出了利于编码蛋白表达的最优polyAC长度。

连接翻译调控元件的Clean PIE成环系统包含如下所示结构：

T4td内含子片段II-eGFP截断片段II-翻译调控元件(PolyAC)-ev29-eGFP截断片段I-T4td内含子片段I。

其中，PolyAC的核苷酸序列如SEQ ID NO:1所示，添加PolyAC的成环后序列如SEQID NO:2所示。

将带有翻译调控表达元件的线性eGFP信使核糖核苷酸，通过实施例3的方法制备环状mRNA，并通过实施例4的方法将环状mRNA转染至293T细胞并通过流式细胞仪对eGFP表达情况进行测定。

图26示出了插入翻译调控元件(polyAC)后，利用Clean PIE系统制备的环状mRNA的表达检测结果；结果显示：

在一定范围内，随着插入的翻译调控元件的数量增加，可以显著提高环状mRNA表达eGFP的表达。其中，添加六段polyAC可以得到最大的表达效率提高效果，而进一步增加长度对编码蛋白的表达并没有显著的提高(10×polyAC数据)。

实施例12：翻译调控元件调控Clean PIE成环的环状mRNA的组织特异性表达

本实施例Clean PIE成环系统中连接插入元件，插入元件具体为调控环状mRNA在器官中特异性表达的翻译调控元件，其连接于IRES元件的5’端。Clean PIE系统包含如下所示结构，各元件序列可参考实施例3-5：

T4td内含子片段II-LUC截断片段II-翻译调控元件-ev29-LUC截断片段I-T4td内含子片段I。

按照实施例3-4的方法制备环状mRNA：EV29-LUC-3UTR(SEQ ID NO:56所示序列)、EV29-LUC+1×miR-122(SEQ ID NO:57所示序列)、EV29-LUC+3×miR-122(SEQ ID NO:58所示序列)，进行DLin-MC3-DMA LNP递送系统的包载，通过微流控设备制备，将水相中的mRNA活性成分与有机相中的四种脂质充分混合后形成纳米尺寸的高包封率的环状mRNA-脂质纳米粒复合物。具体过程如下：

(1)首先将环状mRNA原液用pH4.0的柠檬酸溶液稀释至0.4mg/mL，称取4种脂质溶解到乙醇溶液中，脂质总浓度为24.4mg/mL。

(2)使用微流控设备将两相快速混合，其中总流速设为12mL/min，水相(环状mRNA)/有机相(脂质)(v/v)＝3:1。

(3)制备结束后，使用透析或切向流的方式除掉乙醇，同时将溶液置换成pH 7.4的PBS溶液，即得到环状mRNA-脂质纳米粒复合物。

(4)使用动态光散射器(DLS)检测环状mRNA-脂质纳米粒复合物的粒径及多分散系数(PDI)，使用Ribogreen检测复合物中环状mRNA的包封率。

采用尾静脉注射方式对小鼠给药，6小时后测定Luciferase在小鼠的表达情况。具体方法为：取pUC-EV29-LUC、pUC-EV29-LUC+1×miR-122、pUC-EV29-LUC+3×miR-122免疫后的小鼠，腹腔注射0.3ml的luciferase底物VivoGlo luciferin(In Vivo Grade，Promega)，8分钟后进行成像，观测体内分布和荧光表达强度。

图27示出了翻译调控元件调控Clean PIE系统成环的环状mRNA的组织特异性表达，其中A为注射带有miR122位点环状mRNA在小鼠中的表达情况，B为带有miR122位点的Clean PIE系统的框架结构。实验结果显示：

对照组(EV29-luc-3UTR)小鼠的荧光素酶主要在肌肉注射部位以及肝脏表达；而加入单个miR-122作用位点的环状mRNA(EV29-luc-+1×miR-122)主要在尾静脉注射部位表达，个别小鼠出现少量肝脏表达；而加入三个miR-122作用位点的环状mRNA(EV29-luc+3×miR-122)，其mRNA仅在肌肉注射部位表达，未检测到肝脏表达。由此可见，在本公开CleanPIE系统中引入miR-122结合位点作为翻译调控元件，能有效避免环状mRNA在肝脏表达，且引入的miR-122位点越多，其肝脏表达抑制效应越显著。

实施例13：翻译调控元件在环状mRNA纯化上的作用

本实施例通过在翻译调控元件中添加适配体(aptamer)，实现对环状mRNA的纯化，具体的，根据文献(Leppek K,Stoecklin G.An optimized streptavidin-binding RNAaptamer for purification of ribonucleoprotein complexes identifies novel ARE-binding proteins[J].Nucleic acids research,2014,42(2):e13-e13.)所述将4个S1m适配体序列，添加入本公开Clean PIE系统的翻译调控元件中，按照实施例3的方法成环。结构如下所示：

T4td内含子片段II-eGFP截断片段II-翻译调控元件(添加S1m适配体)-ev29-eGFP截断片段I-T4td内含子片段I；

S1m序列(SEQ ID NO:37)：

AUGCGGCCGCCGACCAGAAUCAUGCAAGUGCGUAAGAUAGUCGCGGGUCGGCGGCCGCAU；

成环后环状RNA序列如SEQ ID NO:59所示。

在LoBind tube(Eppendorf)离心管中，用Wash Buffer(20mM Tris-HCl(pH 7.5),150mM NaCl,1.5mM MgCl2,2mM DTT,2mM vanadylribonucleosid complex RNaseinhibitor(NEB),1tablet/10ml Mini Complete Protease Inhibitors,EDTA-free(Roche))清洗Streptavidin Sepharose High Performance(GEHealthcare)琼脂糖凝胶磁珠。30μg环状RNA粗产物(Input)在37℃孵育10分钟后，与之前洗过的100ul琼脂糖凝胶磁珠以及3ulRNase inhibitor 4℃旋转混合孵育2-3小时，离心，去上清(unbound)，在50ul添加了10mM biotin的lysis buffer中继续4℃孵育1小时，离心取上清，上清为纯化后产物(biotin elution)。

图28示出了通过S1m RNA适配体纯化环状mRNA的凝胶电泳检测结果。通过链霉素亲和层析可以将带有该适配体的环状mRNA从成环反应体系中分离出来，从而去除自剪切后的内含子片段及其他小片段核苷酸杂质。Input表示经实施例7的方法成环后的环状RNA粗产物，Biotin elution为经过后纯化产物，unbound为未结合链霉素琼脂糖凝胶磁珠产物。

实施例14：成环后eGFP免疫原性的检测

本实施例对鱼腥藻PIE系统及本公开中Clean PIE系统制备的环状mRNA在A549细胞中诱导免疫相应因子的表达情况。具体如下：

通过实施例3提供的，将鱼腥藻PIE以及通过本公开中Clean PIE成环后环状mRNA的经过RNaseR消化后HPLC纯化，所得纯化后的环状mRNA通过Lipofectamine MessengerMax(Invitrogen)转染至A549细胞中，具体实施过程如下：

A549接种于含有10％胎牛血清，1％双抗的DMEM高糖培养基中，于37℃，5％ CO2培养箱中培养。细胞每隔2-3天进行传代培养。

(1)细胞转染：

转染前将A549细胞以1×10⁵个/孔接种于24孔板中，于37℃，5％ CO₂培养箱中培养。待细胞达到70-90％融合度后，使用Lipofectamine MessengerMax(Invitrogen)转染试剂将mRNA以500ng/孔量转染293T细胞，具体操作如下：

1)稀释Messenger MAX^TM Reagent，稀释体系如下表所示：

表12

试剂	体积/孔
		MEM无血清培养基	25μl
Messenger MAX^TM Reagent	0.75μl

稀释混合后，室温静置孵育10min。

2)稀释mRNA，稀释体系如下表所示：

表13

试剂	体积/孔
		mRNA	1μg
MEM无血清培养基	补足至25μl

3)取混合稀释后的Messenger MAX^TM Reagent和mRNA(1：1)

表14

试剂	体积/孔
		稀释的Messenger MAX^TM Reagent	25μl
稀释的mRNA	25μl

稀释混合后，室温静置孵育5min。

(2)吸取上述混合液50μl贴壁缓缓加入24孔板中，37℃、5％ CO₂培养箱中孵育培养。

(3)裂解表达8小时后的细胞，通过荧光定量PCR验证免疫响应蛋白表达水平。

荧光定量PCR使用的引物序列如下所示：

IFNb-F：TGGGAGGATTCTGCATTACC(SEQ ID NO:42)

IFNb-R：CAGCATCGCTGGTTGAGA(SEQ ID NO:43)

RIG-1-F：CTCCCGGCACAGAAGTGTAT(SEQ ID NO:44)

RIG-1-R：CTTCCTCTGCCTCTGGTTTG(SEQ ID NO:45)

IFNa-F：CCATCTCTGTCCTCCATGAG(SEQ ID NO:46)

IFNa-R：ATTTCTGCTCTGACAACCTC(SEQ ID NO:47)

PKR-F：TGCAAAATGGGACAGAAAGA(SEQ ID NO:48)

PKR-R：TGATTCAGAAGCGAGTGTGC(SEQ ID NO:49)

MDA5-F：ACCAAATACAGGAGCCATGC(SEQ ID NO:50)

MDA5-R：GCGATTTCCTTCTTTTGCAG(SEQ ID NO:51)

TNFa-F：CGTCTCCTACCAGACCAAGG(SEQ ID NO:52)

TNFa-R：CCAAAGTAGACCTGCCCAGA(SEQ ID NO:53)

IL-6-F：TACCCCCAGGAGAAGATTCC(SEQ ID NO:54)

IL-6-R：GCCATCTTTGGAAGGTTCAG(SEQ ID NO:55)

下表中示出了通过两种PIE系统制备的环状mRNA的序列：

表15

图29示出了利用Clean PIE系统(图中对应clean PIE)，以及利用鱼腥藻PIE系统(图中对应ana-PIE)制备环状mRNA诱导免疫因子的表达情况。结果显示：

ana-PIE经过RNase R消化及HPLC纯化后虽然INFb依然可以引起免疫反应，而通过本公开中成环系统制备环状mRNA相较于ana-PIE有明显的下降，从而证明具有更精确序列的环状mRNA可以减少免疫原性的诱发。

实施例15：同源臂的缺失不影响环状mRNA的体外成环

本实施例检测在本公开的Clean PIE系统中添加同源臂，对成环效率的影响。具体地：通过实施例1-2中所提到的方法，获得待优化的氨基酸单元为DGS，通过密码子优化为GAT GGA TCA(核酶识别位点序列)并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-eGFP截断片段II-ev29-eGFP截断截断片段I-T4td内含子片段I的结构形式，同时构建包含或者不包含同源臂的内含子序列，具体结构如下：

本实施例中涉及到的序列信息：

表16

	SEQ ID NO:
		eGFP蛋白序列	SEQ ID NO:3
内含子片段II(包含同源臂)	SEQ ID NO:4
		内含子片段I(包含同源臂)	SEQ ID NO:5
内含子片段II(不包含同源臂)	SEQ ID NO:6
		内含子片段I(包含同源臂)	SEQ ID NO:7
Ev29序列	SEQ ID NO:10

通过实施例3的实验方法分别转录，环化这两种构建体从而得到他们的环状mRNA。通过变性的琼脂糖凝胶电泳分析检测环化结果。图30示出了添加同源臂以及不添加同源臂的Clean PIE系统制备环状mRNA的凝胶电泳检测结果。结果显示：

本公开Clean PIE系统框架中不论是否包含同源臂，环状mRNA都可以有效成环。该结果证明了同源臂在本公开成环系统中是可以省略的。其原因是由于在本公开框架下成环位点(核酶识别位点)总是会将编码基因分成两部分，编码区通常不会存在很复杂的二级结构，这种良性的序列间隔开启动元件与自剪切内含子序列，从而形成一种独特的二级结构，更有利于内含子序列的正确折叠及靠近，所以在本公开框架下不需要同源臂的存在就可以有效的成环。

实施例16：不同评分的成环位点成环的验证

本实施例比较了，通过筛选系统得到的同一蛋白序列(IL12 human)中不同评分及不同位置的成环位点(核酶识别位点)的成环效率。具体地：

通过实施例1-2中所提到的方法，分别获得待优化的氨基酸单元DRVF(866，score93.8)，IWS(377，score88)，SGS(1021，score 88)，GGS(1285，score88)以及LGS(211，score 100)通过密码子优化分别优化为如下核酶识别位点序列：GAT CGG GTC TTT，ATTTGG TCT，TCT GGG TCT，GGT GGG TCT，CTT GGG TCT并通过TC位点截断并且形成如下结构：

T4td内含子片段II-IL12human截断片段II-ev29-IL 12human截断片段I-T4td内含子片段I；

表17

通过实施例3的实验方法分别转录、环化这两种构建体，从而得到相应的环状mRNA。通过变性的琼脂糖凝胶电泳分析得到图31所示结构，结果显示：

通过不同评分的成环位点截断的IL12human都可以成环，但是成环效率有差异。成环效率的差异可能是由于不同开环位置处二级结构的不同造成的。由此可以推断成环位点评分小幅度的差异并不能很好的反应成环效率，需要结合序列内二级结构进行进一步评估。

实施例17：最低可成环分数的探索

本实施例通过验证不同分数截断片段的成环情况确定最低成环分数。

以T4td为例通过比较更改成环部位(核酶识别位点)的序列(TTGGGTCT)，将实施例6,7中eGFP序列成环位点的序列更改为如下不同分数的碱基序列验证成环情况：

100分(TTGGGTCT)，94.2分(TCGGGTCT)，82.4分(TAGGGTCT，ATGGGTCT)，64.8分(AAGGGTCT,ATGGCTCT)，47.2分(AACGGTCT,TTCATTCT)，29.6分序列(AACGCTCT，AAACCGTCT，TACCCTCT)。

经过实施例7所述方法进行成环验证，其中80分以上序列全部可以成环且成环效率在50％以上，47.2分及64.8分序列经过成环测试发现不是所有序列可以出现成环现象，也有部分序列可以成环但整体成环效率不高，29.6分序列已经很难成环。

实施例18：通过连接子T2A串联的多肽表达

本实施例通过将eGFP和firefly Luciferase的编码区通过连接子编码的2A肽(T2A)串联后，验证各蛋白的表达情况。具体地：

根据实施例3提供的方法，利用包含如下结构的Clean PIE系统构建环状mRNA，得到能够以T2A串联的表达eGFP和firefly Luciferase的环状mRNA：

内含子片段II-eGFP截断片段II-EV29-Luciferase编码区-连接子-eGFP截断片段I-内含子片段I，其中eGFP截断片段II-EV29-Luciferase编码区-连接子-eGFP截断片段I的序列如SEQ ID NO:40所示。

通过实施例4提供的方法将得到的环状mRNA转染至293T细胞中，通过荧光显微镜以及Luciferase Reporter Assay Kit(abcam)检测eGFP以及firefly Luciferase的表达情况

图32示出了包含以T2A串联不同编码区的环状mRNA表达eGFP和fireflyLuciferase的蛋白表达检测结果。其中A示出了细胞免疫荧光检测结果，B示出了eGFP以及firefly Luciferase的蛋白表达检测结果，C示出了Clean PIE系统的结构；结果显示：

通过荧光显微镜及Luciferase Reporter Assay Kit验证发现，eGFP以及Luciferase表达正常，证明通过连接子(T2A)对不同编码区进行串联的方法可行。通过这种方法可以在同一条环状mRNA上同时编码两个以及两个以上的蛋白。

实施例19：通过IRES串联不同目标多肽的表达

本实施例将eGFP和firefly Luciferase的编码区通过IRES串联后进行表达验证。

根据通过实施例3的方法，利用包含如下结构的Clean PIE系统构建环状mRNA，得到能够以IRES串联的表达eGFP和firefly Luciferase的环状mRNA：

内含子片段II-eGFP截断片段II-EV29-Luciferase编码区-IRES-eGFP截断片段I-内含子片段I，其中eGFP截断片段II-EV29-Luciferase编码区-IRES-eGFP截断片段I的序列如SEQ ID NO:41所示。

图33示出了以IRES串联不同编码区的环状mRNA表达eGFP和firefly Luciferase的蛋白表达检测结果。其中A示出了细胞免疫荧光检测结果，B示出了eGFP以及fireflyLuciferase的蛋白表达检测结果，C示出了Clean PIE系统的结构；结果显示：

不同IRES将eGFP和Luciferase串联在同一条环状mRNA中，可以有效成环，并且通过荧光显微镜及Luciferase Reporter Assay Kit验证发现，GFP以及Luciferase表达正常，证明通过IRES串联的方式对不同编码区进行表达的方法可行。通过这种方法可以在同一条环状mRNA上同时编码两个以及两个以上的蛋白。

本公开的上述实施例仅是为清楚地说明本公开所作的举例，而并非是对本公开的实施方式的限定。对于所属领域的普通技术人员来说，在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本公开的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本公开权利要求的保护范围之内。

Claims

1.一种环状RNA，沿5’向3’方向，其包含按如下顺序排列的元件：

翻译起始元件，用于编码至少一个目标多肽的编码元件，和翻译调控元件。

2.根据权利要求1所述的环状RNA，其中，所述环状RNA的编码元件包括编码区1，和如下(i)-(ii)组成的组中的至少一种：

优选地，任意相邻的两个编码区由连接子相连。

3.根据权利要求1所述的环状RNA，其中，所述环状RNA的编码元件包括编码区1和至少一个编码区4，并且，任意一个编码区的5’端连接有翻译起始元件。

4.根据权利要求2所述的环状RNA，其中，所述环状RNA由重组核酸分子制备，

沿5’向3’的方向，所述重组核酸分子包括按如下(i)-(iv)任一项所示顺序排列的元件：

(i)内含子片段II，编码区1截断片段II，至少一个编码区2，翻译调控元件，翻译起始元件，编码区1截断片段I，内含子片段I；

(ii)内含子片段II，编码区1截断片段II，翻译调控元件，翻译起始元件，至少一个编码区3，编码区1截断片段I，内含子片段I；

(iii)内含子片段II，编码区1截断片段II，至少一个编码区2，翻译调控元件，翻译起始元件，至少一个编码区3，编码区1截断片段I，内含子片段I；

(iv)内含子片段II，编码区1截断片段II，翻译调控元件，翻译起始元件，编码区1截断片段I，内含子片段I；

5.根据权利要求4所述的环状RNA，其中，所述重组核酸分子包括如下(i)-(ii)中一种或两种的元件：

(i)位于所述编码区1截断片段II与所述编码区2之间的连接子；

(ii)位于所述编码区3与所述编码区1截断片段I之间的连接子；

优选地，所述连接子为编码2A肽的多核苷酸。

6.根据权利要求3所述的环状RNA，其中，所述环状RNA由重组核酸分子制备，

内含子片段II，编码区1截断片段II，翻译起始元件，至少一个编码区4，翻译调控元件，翻译起始元件，编码区1截断片段I，内含子片段I；

其中，编码区1和每个编码区4彼此独立地编码任意类型的目标多肽。

7.根据权利要求4-6任一项所述的环状RNA，其中，

所述编码区1截断片段I的3’末端包含核酶识别位点I，所述核酶识别位点I由位于所述编码区1截断片段I的3’端的第一预设数量的核苷酸组成；

所述编码区1截断片段II的5’末端包含核酶识别位点II，所述核酶识别位点II由位于所述编码区1截断片段II的5’端的第二预设数量的核苷酸组成；

所述核酶识别位点I与所述核酶识别位点II通过密码子优化编码区内的核苷酸序列所得，

所述核酶识别位点I和核酶识别位点II与所述内含子片段I和内含子片段II共同形成I类内含子二级结构中的P1,P10，

所述编码区1截断片段II不包含终止密码子，

所述环状RNA翻译表达目标多肽。

8.根据权利要求1-7任一项所述的环状RNA，其中，所述翻译调控元件为polyAC。

9.根据权利要求7所述的环状RNA，其中，所述内含子片段I和所述内含子片段II来源于I类内含子(Group I Intron)，所述核酶识别位点I来源于与所述内含子片段I的5’端连接的天然外显子序列，所述核酶识别位点II来源于所述内含子片段II的3’端连接的天然外显子序列；

10.根据权利要求7所述的环状RNA，其中，所述第一预设数量的核苷酸选自3-100个核苷酸，优选3-50个核苷酸，更优选3-10个核苷酸；或者

所述第二预设数量的核苷酸选自1-100个核苷酸，优选1-50个核苷酸，更优选1-10个核苷酸；或者

所述第一预设数量与所述第二预设数量的和不等于3y，y≥1且y为整数。

11.根据权利要求1-10任一项所述的环状RNA，其中，所述翻译起始元件包含具有起始编辑区翻译的活性的序列；

12.根据权利要求1-11任一项所述的环状RNA，其中，所述目标多肽为人源蛋白或非人源蛋白；