具体实施方式
定义
当在权利要求和/或说明书中与术语“包含”联用时,词语“一(a)”或“一(an)”可以指“一个”,但也可以指“一个或多个”、“至少一个”以及“一个或多于一个”。
如在权利要求和说明书中所使用的,词语“包含”、“具有”、“包括”或“含有”是指包括在内的或开放式的,并不排除额外的、未引述的元件或方法步骤。
在整个申请文件中,术语“约”表示:一个值包括测定该值所使用的装置或方法的误差的标准偏差。
虽然所公开的内容支持术语“或”的定义仅为替代物以及“和/或”,但除非明确表示仅为替代物或替代物之间相互排斥外,权利要求中的术语“或”是指“和/或”。
术语“多肽”、“肽”和“蛋白质”在本文中互换地使用并且为任意长度的氨基酸聚合物。该聚合物可以是线形或分支的,它可以包含修饰的氨基酸,并且它可以由非氨基酸隔断。该术语也包括已经被修饰(例如,二硫键形成、糖基化、脂质化、乙酰化、磷酸化或任何其他操作,如以标记组分缀合)的氨基酸聚合物。
如本公开所使用的,“PIE系统”又称permuted introns and exons,是利用I类内含子(Group I Intron)的自我剪切系统,连接形成环状RNA的方法。
如本公开所使用的,I类内含子是指“Group I Intron”,其具有在GTP和Mg2+存在的条件下进行自我剪切成环的系统(self-splicing system)。
I类内含子是一类超大的可以发生自身剪切反应的核酶,通常广泛的存在于很多物种中,主要参与催化切除mRNA,tRNA,rRNA的前体。其核心二级结构通常包括九个配对区域(P1-P9)以及相应的loop区域(L1-L9)(图34),Group I Intron的剪接通过两个连续的酯交换反应进行。外源鸟苷或鸟苷核苷酸(G)首先停靠在位于P7的活性G结合位点上,其3'-OH对齐以攻击位于P1的5'剪接位点的磷酸二酯键,从而产生一个游离的3'-OH基团位于上游外显子,外源的G连接到内含子的5'端。然后内含子的末端G(omega G)交换外援G,占据G结合位点,组织第二次酯转移反应:P1上游外显子的3'-OH基团对齐攻击3'剪接P10位点,导致相邻的上游和下游外显子连接并释放催化内含子。进一步的,p6和p7的连接部分的序列为J6/7序列,p8和p7的连接部分的序列为J8/7序列。Group I内含子通常包括如图34所示的结构特征(来源于Burke J M,Belfort M,Cech T R,et al.Structural conventions forgroup I introns[J].Nucleic acids research,1987,15(18):7217-7221)。
如本公开所使用的,内部引导序列(Internal guide sequence)通常指group Iintron中的一段通过Watson-Crick配对或者wobble配对与对应外显子序列相互配对的核苷酸序列,通常group I intron中P1 stem中。
如本公开所使用的,“核酶”又称ribozyme,用于描述具有催化活性的RNA。在一些实施方式中,本公开中的核酶识别位点是指当RNA形成具有催化功能的核酶分子时,能够被核酶识别,内部发生磷酸二酯键断裂的多核苷酸序列。
如本公开所使用的,术语“环状核酸分子”是指呈封闭环形的核酸分子。在一些具体的实施方式中,环状核酸分子为环状RNA分子。更具体地,环状核酸分子为环状mRNA分子。
如本公开所使用的,术语“线状RNA”是指能够通过环化反应形成环状RNA的环状RNA前体,其一般由线状的DNA分子(例如,包含重组核酸分子的载体等)转录形成。
如本公开所使用的,术语“IRES”(Internal ribosome entry site,IRES)又称内部核糖体进入位点,“内部核糖体进入位点”(IRES)属于翻译控制序列,通常位于所关注基因的5’端,并使得以帽非依赖性方式翻译RNA。经转录的IRES可直接结合核糖体亚单位,以使得mRNA起始密码子在核糖体中适当地取向以进行翻译。IRES序列通常位于mRNA的5’UTR中(起始密码子的正上游)。IRES在功能上取代对各种与真核生物翻译机制相互作用的蛋白因子的需求。
如本公开所使用的,术语“翻译起始元件”是指能够招募核糖体,起始RNA分子的翻译过程的任意的序列元件。示例性的,翻译起始元件为IRES元件、m6A修饰序列,或滚环翻译的起始序列等等。
在本公开中,术语“编码区”与“蛋白编码区”“开放阅读框(Open Reading Frame,ORF)”可以互换地使用。编码区从起始密码子开始,具有编码蛋白质潜能的连续的核苷酸序列。在一些实施方式中,编码区结束于终止密码子;在另外一些实施方式中,编码区中也可以不包含终止密码子。
在本公开中,术语“编码元件”形成于应用本公开中Clean PIE系统(例如,重组核酸分子、重组表达载体等)制备的环状RNA中,编码元件用于编码至少一个目标多肽,因此,编码元件包括至少一个编码区。示例性的,编码元件包括1、2、3、4、5、10、15、20、25、30、35、40、45、50以上数量(包含任意两者之间的任意整数值)的编码区。并且,在任意一个或多个编码区的内部设置有核酶识别位点。
在本公开中,核酶识别位点由核酶识别位点I和核酶识别位点II组成。需要说明的是,核酶识别位点设置于编码元件包含的编码区内部,因此,核酶识别位点I和核酶识别位点II仅形成于编码元件所包含的编码区的内部。或者,核酶识别位点由核酶识别位点III和核酶识别位点IV组成。需要说明的是,核酶识别位点设置于编码元件包含的编码区内部,因此,核酶识别位点III和核酶识别位点IV仅形成于编码元件所包含的编码区的内部。
本公开中的编码元件截断片段I、编码元件截断片段II由编码元件序列截断后形成,所述编码元件截断片段I的核苷酸序列对应所述编码元件序列中靠近5’方向的部分序列,所述编码元件截断片段II的核苷酸序列对应所述编码元件序列中靠近3’方向的其余部分序列;并且,所述核酶识别位点I与所述核酶识别位点II位于所述编码元件包含的任意编码区的内部;或者,
本公开中的编码元件截断片段III、编码元件截断片段IV由编码元件序列截断后形成,所述编码元件截断片段III的核苷酸序列对应所述编码元件序列中靠近5’方向的部分序列,所述编码元件截断片段IV的核苷酸序列对应所述编码元件序列中靠近3’方向的其余部分序列;并且,所述核酶识别位点III与所述核酶识别位点IV位于所述编码元件包含的任意编码区的内部。
进一步的,当编码元件中包含2个或2个以上的编码区时,相邻的2个编码区可以由可连接子或翻译起始元件进行连接。相应地,在至少一个编码元件截断片段内部进一步包含连接相连的编码区序列的连接子,或连接相邻的编码区序列的翻译起始元件。
示例性的:编码元件由1个编码区1组成,编码区1内部包含核酶识别位点;相应地,编码元件截断片段I为编码区1截断片段I,编码元件截断片段II为编码区1截断片段II;或者,编码元件截断片段III为编码区1截断片段III,编码元件截断片段IV为编码区1截断片段IV。
示例性的,编码元件包括由5’向3’方向顺次排列的编码区1和编码区2,在编码区1的内部设置有核酶识别位点。对编码区1进行截断,得到编码元件截断片段I、编码元件截断片段II,或者得到编码元件截断片段III、编码元件截断片段IV。其中,编码元件截断片段I为编码区1截断片段I;编码元件截断片段II包括编码区1截断片段II和编码区2;或者,编码元件截断片段III为编码区1截断片段III;编码元件截断片段IV包括编码区1截断片段IV和编码区2。
在一些可选的实施方式中,编码元件截断片段II进一步包括位于编码区1截断片段II和编码区2之间的连接子;或者,编码元件截断片段IV进一步包括位于编码区1截断片段IV和编码区2之间的连接子。
示例性的,编码元件包括由5’向3’方向顺次排列的编码区3和编码区1,在编码区1的内部设置有核酶识别位点。对编码区1进行截断,得到编码元件截断片段I、编码元件截断片段II,或者得到编码元件截断片段III、编码元件截断片段IV。其中,编码元件截断片段I包括编码区3和编码区1截断片段I;编码元件截断片段II为编码区1截断片段II;或者,编码元件截断片段III包括编码区3和编码区1截断片段III;编码元件截断片段IV为编码区1截断片段IV。
在一些可选的实施方式中,编码元件截断片段进一步包括位于编码区3和编码区1截断片段I之间的连接子;或者,编码元件截断片段III进一步包括位于编码区3和编码区1截断片段III之间的连接子。
示例性的,编码元件包括由5’向3’方向顺次排列的编码区3、编码区1和编码区2,在编码区1的内部设置有核酶识别位点。对编码区1进行截断,得到编码元件截断片段I、编码元件截断片段II,或者得到编码元件截断片段III、编码元件截断片段IV。其中,编码元件截断片段I包括编码区3和编码区1截断片段I,编码元件截断片段II包括编码区1截断片段II和编码区2;或者,编码元件截断片段III包括编码区3和编码区1截断片段III,编码元件截断片段IV包括编码区1截断片段IV和编码区2。
在一些可选的实施方式中,编码元件截断片段I进一步包括位于编码区3和编码区1截断片段I之间的连接子;或者,编码元件截断片段III进一步包括位于编码区3和编码区1截断片段III之间的连接子。在一些可选的实施方式中,编码元件截断片段II进一步包括位于编码区1截断片段II和编码区2之间的连接子;或者,编码元件截断片段IV进一步包括位于编码区1截断片段IV和编码区2之间的连接子。
示例性的,编码元件包括由5’向3’方向顺次排列的编码区1、翻译起始元件和编码区4,在编码区1的内部设置有核酶识别位点。对编码区1进行截断,得到编码元件截断片段I、编码元件截断片段II,或者得到编码元件截断片段III、编码元件截断片段IV。其中,编码元件截断片段I包括编码区1截断片段I,编码元件截断片段II包括编码区1截断片段II、翻译起始元件和编码区4。编码元件截断片段III包括编码区1截断片段III,编码元件截断片段IV包括编码区1截断片段IV、翻译起始元件和编码区4。
示例性的,编码元件包括由5’向3’方向顺次排列的编码区4、翻译起始元件和编码区1,在编码区1的内部设置有核酶识别位点。对编码区1进行截断,得到编码元件截断片段I、编码元件截断片段II,或者得到编码元件截断片段III、编码元件截断片段IV。其中,编码元件截断片段I包括编码区4、翻译起始元件和编码区1截断片段I,编码元件截断片段II为编码区1截断片段II。编码元件截断片段III包括编码区4、翻译起始元件和编码区1截断片段III,编码元件截断片段IV为编码区1截断片段IV。
需要说明的是,编码区2、编码区3或编码区4的数量可以是1个或2个以上,本公开对此不进行穷举。
术语“表达”包括涉及多肽产生的任何步骤,包括但不限于:转录、转录后修饰、翻译、翻译后修饰、和分泌。
术语“抗体”在本文中以最广意义使用,指包含抗原结合位点的蛋白质,涵盖各种结构的天然抗体和人工抗体,包括但不限于多克隆、单克隆、单特异性的、多特异性的、非特异性的、人源化、单链的、嵌合的、合成的、重组的、杂合的、突变的、嫁接的抗体。术语“抗体”还包括抗体片段例如Fab、F(ab’)2、FV、scFv、Fd、dAb和其它保留抗原结合功能的抗体片段。通常情况下,这样的片段将包括抗原结合片段。
如本公开所使用的,术语“杂交”指一条核酸链上的碱基通过碱基配对与另一条核酸链上的互补碱基结合的过程。杂交反应可以是选择性的,使得特定目的序列以低浓度存在时也能从样品中选择该序列。杂交条件的严紧性(例如高度严紧、中度严紧、严紧)可以由例如预杂交溶液和杂交溶液中盐或甲酰胺的浓度、或杂交温度等来调整,例如,可以通过降低盐浓度、增加甲酰胺浓度或升高杂交温度增加严紧性。一般而言,严紧条件包括在约25℃至约42℃的温度,在至少约0%到至少约15%v/v甲酰胺和至少约1M到至少约2M盐中杂交,和至少约1M到至少约2M盐中洗涤;中度严紧条件包括在约25℃至约65℃的温度,在至少约16%到至少约30%v/v甲酰胺和至少约0.5M盐到至少约0.9M盐中杂交,和至少约0.5M到至少约0.9M盐中洗涤;高度严紧条件包括在约至少65℃的温度,在至少约31%到至少约50%v/v甲酰胺和至少约0.01M到至少约0.15M盐中杂交,和至少约0.01M到至少约0.15M盐中洗涤;甲酰胺在这些杂交条件中是可任选的。其它合适的杂交缓冲液和条件是本领域技术人员众所周知的,并且描述于例如Sambrook et al.,Molecular Cloning:A LaboratoryManual,2nd ed.Cold Spring Harbor Press,Plainview,N.Y.(1989);和Ausubel et al.,Short Protocols in Molecular Biology,4th ed.,John Wiley&Sons(1999).
本公开上下文中使用的术语“药学上可接受的载体”是指在药物生产领域中广泛采用的辅助物料。使用载体的主要目的在于提供一种使用安全、性质稳定和/或具有特定功能性的药物组合物,还在于提供一种方法,以便在为受试者施用药物之后,活性成分能够以所期望的速率溶出,或者促进活性成分在接受给药的受试者体内得到有效吸收。药学上可接受的载体可以是具有惰性的填充剂,也可以是为药用组合物提供某种功能(例如稳定组合物的整体pH值或防止组合物中活性成分的降解)的功效成分。药学上可接受的载体的非限制性实例包括但不限于粘合剂、助悬剂、乳化剂、稀释剂(或填充剂)、成粒剂、胶粘剂、崩解剂、润滑剂、抗粘着剂、助流剂、润湿剂、胶凝剂、吸收延迟剂、溶解抑制剂、增强剂、吸附剂、缓冲剂、螯合剂、防腐剂、着色剂、矫味剂、甜味剂等。
如本公开所使用的,术语“互补的”或“杂交的”用于指与碱基配对规则相关的“多核苷酸”和“寡核苷酸”(它们是可互换的术语,指的是核苷酸序列)。例如,序列“CAGT”与序列“GTCA”互补。互补或杂交可以是“部分的”或“全部的”。“部分”互补或杂交是指一个或多个核酸碱基根据碱基配对规则错配,核酸之间的“全部”或“完全”互补或杂交是指每个核酸碱基在碱基配对下均与另一个碱基匹配规则。核酸链之间的互补或杂交程度对核酸链之间的杂交效率和强度具有重要影响。这在扩增反应以及取决于核酸之间结合的检测方法中特别重要。
术语“重组核酸分子”指具有在自然界中不连接在一起的序列的多核苷酸。重组多核苷酸可包括在合适的载体中,且该载体可用于转化至合适的宿主细胞。然后多核苷酸在重组宿主细胞中表达以产生例如“重组多肽”“重组蛋白”“融合蛋白”等。
术语“重组表达载体”指用于表达例如编码所需多肽的多核苷酸的DNA结构。重组表达载体可包括,例如包含i)对基因表达具有调控作用的遗传元素的集合,例如启动子和增强子;ii)转录成mRNA并翻译成蛋白质的结构或编码序列;以及iii)适当的转录和翻译起始和终止序列的转录亚单位。重组表达载体以任何合适的方式构建。载体的性质并不重要,并可以使用任何载体,包括质粒、病毒、噬菌体和转座子。用于本公开的可能载体包括但不限于染色体、非染色体和合成DNA序列,例如病毒质粒、细菌质粒、噬菌体DNA、酵母质粒以及从质粒和噬菌体DNA的组合中衍生的载体,来自如慢病毒、逆转录病毒、牛痘、腺病毒、鸡痘、杆状病毒、SV40和伪狂犬病等病毒的DNA。
术语“宿主细胞”指已经向其中引入外源多核苷酸的细胞,包括这类细胞的子代。宿主细胞包括“转化体”和“转化的细胞”,这包括原代转化的细胞和从其衍生的子代。宿主细胞是可以用来产生本发明抗体分子的任何类型的细胞系统,包括真核细胞,例如,哺乳动物细胞、昆虫细胞、酵母细胞;和原核细胞,例如,大肠杆菌细胞。宿主细胞包括培养的细胞,也包括转基因动物、转基因植物或培养的植物组织或动物组织内部的细胞。术语“重组宿主细胞”涵盖导入重组核酸分子、重组表达载体、环状RNA后不同于亲本细胞的宿主细胞,重组宿主细胞具体通过转化来实现。本公开的宿主细胞可以是原核细胞或真核细胞,只要是能够导入本公开的重组核酸分子、重组表达载体、环状RNA等的细胞即可。
如本公开所使用的,术语“个体”、“患者”或“受试者”包括哺乳动物。哺乳动物包括但不限于,家养动物(例如,牛,羊,猫,狗和马),灵长类动物(例如,人和非人灵长类动物如猴),兔,以及啮齿类动物(例如,小鼠和大鼠)。
如本公开所使用的,术语“转化、转染、转导”具有本领域技术人员普遍理解的意思,即将外源性的DNA导入宿主的过程。所述转化、转染、转导的方法包括任何将核酸导入细胞的方法,这些方法包括但不限于电穿孔法、磷酸钙(CaPO4)沉淀法、氯化钙(CaCl2)沉淀法、微注射法、聚乙二醇(PEG)法、DEAE-葡聚糖法、阳离子脂质体法以及乙酸锂-DMSO法。
如本公开所使用的,“治疗”是指:在罹患疾病之后,使受试者接触(例如给药)本发明的环状RNA、环化前体RNA、组合物等,从而与不接触时相比使该疾病的症状减轻,并不意味着必需完全抑制疾病的症状。罹患疾病是指:身体出现了疾病症状。
如本公开所使用的,“预防”是指:在罹患疾病之前,通过使受试者接触(例如给药)本发明的环状RNA、组合物等,从而与不接触时相比减轻罹患疾病后的症状,并不意味着必需完全抑制患病。
如本公开所使用的,术语“有效量”指本发明的重组核酸分子、重组表达载体、环化前体RNA、环状RNA、疫苗或组合物的这样的量或剂量,其以单一或多次剂量施用患者后,在需要治疗或预防的患者中产生预期效果。有效量可以由作为本领域技术人员的主治医师通过考虑以下多种因素来容易地确定:诸如哺乳动物的物种;它的大小、年龄和一般健康;涉及的具体疾病;疾病的程度或严重性;个体患者的应答;施用的具体抗体;施用模式;施用制剂的生物利用率特征;选择的给药方案;和任何伴随疗法的使用。
如本公开所使用的,术语“个体”、“患者”或“受试者”包括哺乳动物。哺乳动物包括但不限于,家养动物(例如,牛,羊,猫,狗和马),灵长类动物(例如,人和非人灵长类动物如猴),兔,以及啮齿类动物(例如,小鼠和大鼠)。
除非另外定义或由背景清楚指示,否则在本公开中的全部技术与科学术语具有如本公开所属领域的普通技术人员通常理解的相同含义。
Clean PIE系统
传统PIE系统连接形成环状RNA的过程如图5所示,其中线状RNA包括顺次连接的如下元件:3’内含子(3’intron)、第二外显子E2(Exon2)、外源片段、第一外显子E1(Exon2)和5’内含子(5’intron)。当环境中存在GTP和Mg2+,GTP攻击E1与5’内含子的连接位置,产生5’剪切位点(5’splicing site,5ss)断裂,释放5’内含子;然后E1的3’-OH端攻击3’内含子与E2的连接位置,产生3’剪切位点(3’splicing site,3ss)断裂,释放3’内含子;最后连接形成目标的环状RNA。
但是,应用传统PIE系统会导致环状RNA中存在额外的E1、E2的外显子序列,降低环状RNA的序列精确度,导致环状RNA的天然免疫原性增加,在细胞内易发生降解。
为解决上述问题,本公开提供了一种结构新颖的Clean PIE系统,Clean PIE系统可以通过在不改变蛋白表达序列的基础上,利用PIE系统的自我剪切制备环状RNA,具有高的成环效率;并且成环后的环状RNA中无需引入额外的E1、E2序列,不仅简化了环状RNA的结构,降低各种可能发生的安全隐患;还提高了环状RNA的序列精确度,降低环状RNA天然的免疫原性,提高其在细胞内的稳定性,适合作为基因治疗载体、表达治疗性蛋白、作为核酸疫苗等临床应用领域,具有广阔的应用前景。
在本公开中,Clean PIE系统包括但不限于用于制备环状RNA的DNA构建体、包括DNA构建体的重组表达载体、利用重组表达载体外转录得到的环化前体RNA分子等等。
在一些实施方式中,本公开提供了一种用于制备环状RNA的重组核酸分子。示例性的,重组核酸分子可以是上述用于制备环状RNA的DNA构建体、环化前体RNA分子等。
在一些实施方式中,重组核酸分子的结构如图2-A中的A所示,沿5’向3’的方向,包括按如下顺序排列的元件:内含子片段II,编码元件截断片段II,翻译起始元件,编码元件截断片段I,内含子片段I。
其中,所述编码元件截断片段I的3’末端包含核酶识别位点I,所述核酶识别位点I由位于所述编码元件截断片段I的3’末端的第一预设数量的核苷酸组成;所述编码元件截断片段II的5’末端包含核酶识别位点II,所述核酶识别位点II由位于所述编码元件截断片段II的5’末端的第二预设数量的核苷酸组成。
所述编码元件截断片段I的核苷酸序列与所述编码元件截断片段II的核苷酸序列沿5’向3’的方向用于形成编码至少一个目标多肽的编码元件序列;所述编码元件截断片段I的核苷酸序列对应所述编码元件序列中靠近5’方向的部分序列,所述编码元件截断片段II的核苷酸序列对应所述编码元件序列中靠近3’方向的其余部分序列。
需要说明的是,编码元件形成于由重组核酸分子制备得到的环状RNA中。并且,编码元件中包含1个或2个以上的编码目标多肽的编码区。当编码元件中包含2个以上的编码区时,在编码元件中还可以包含位于相邻两个编码区之间的连接子,位于相邻两个编码区之间的翻译起始元件,或其他所需类型的序列。
所述内含子片段I的核苷酸序列与所述内含子片段II的核苷酸序列沿5’向3’的方向形成内含子序列;所述内含子片段I的核苷酸序列包含所述内含子序列中靠近5’方向的部分序列,所述内含子片段II的核苷酸序列包含所述内含子序列中靠近3’方向的其余部分序列。
也即,编码元件截断片段I的核苷酸序列与编码元件截断片段II的核苷酸序列连接可以得到用于编码至少一个目标多肽的编码元件序列,内含子片段I的核苷酸序列与内含子片段II的核苷酸序列连接可以得到内含子序列。当具有上述结构的重组核酸分子在制备环状RNA时,核酶识别位点I与内含子片段I连接位置首先产生断裂,释放内含子片段I;然后核酶识别位点II与内含子片段II连接位置产生断裂,释放内含子片段II。编码元件截断片段I的3’末端与编码元件截断片段II的5’末端连接成环状分子。本公开中在不改变编码元件编码的目标多肽序列、且无需额外引入E1、E2序列的基础上,实现自剪切得到编码目标蛋白的环状RNA,具有高的序列精确度、稳定性,以及低的免疫原性。
在另外一些实施方式中,如图2-B中的A所示,沿5’向3’的方向,所述重组核酸分子包含按如下顺序排列的元件:内含子片段III,编码元件截断片段IV,翻译起始元件,编码元件截断片段III,内含子片段IV。
其中,所述编码元件截断片段III的3’末端包含核酶识别位点IV,所述核酶识别位点IV由位于所述编码元件截断片段III的3’末端的第二预设数量的核苷酸组成;所述编码元件截断片段IV的5’末端包含核酶识别位点III,所述核酶识别位点III由位于所述编码元件截断片段IV的5’末端的第一预设数量的核苷酸组成。
所述编码元件截断片段III的核苷酸序列与所述编码元件截断片段IV的核苷酸序列沿5’向3’的方向形成编码至少一个目标多肽的编码元件序列;所述编码元件截断片段III的核苷酸序列对应所述编码元件序列中靠近5’方向的部分序列,所述编码元件截断片段IV的核苷酸序列对应所述编码元件序列中靠近3’方向的其余部分序列;所述内含子片段III的序列为所述内含子片段I的核苷酸序列的反向序列或反向互补序列,所述内含子片段IV的序列为所述内含子片段II的核苷酸序列的反向序列或反向互补序列;所述核酶识别位点III的序列为所述核酶识别位点I的核苷酸序列的反向序列,所述核酶识别位点IV的序列为所述核酶识别位点II的核苷酸序列的反向序列。
本公开发现,利用内含子序列的反向序列或反向互补序列同样能够用于构建clean PIE系统。本公开中以内含子5’部分的反向序列或反向互补序列作为内含子片段III,以内含子3’部分的反向序列或反向互补序列作为内含子片段IV。内含子片段III连接于编码元件截断片段IV的5’末端,对应内含子片段III,编码元件截断片段IV的5’端的第一预设数量的核苷酸组成核酶识别位点III,核酶识别位点III的序列与核酶识别位点I的核苷酸序列的反向序列或反向互补序列;内含子片段IV连接于编码元件截断片段III的3’末端,对应内含子片段IV,编码元件截断片段III的3’端的第二预设数量的核苷酸组成核酶识别位点IV,核酶识别位点IV的序列与核酶识别位点II的核苷酸序列的反向序列或反向互补序列。
包含上述元件的重组核酸分子在体外制备环状RNA时,核酶识别位点III和核酶识别位点IV的位置处先后发生断裂,释放内含子片段III与内含子片段IV,编码元件截断片段III的3’端与编码元件截断片段IV的5’端连接形成环状RNA分子。由于核酶识别位点III和核酶识别位点IV设置于编码元件截断片段的内部,体外成环后的环状RNA中未引入额外的E1、E2序列,具有序列精准、结构简单、免疫原性低等优势,适合大规模的体外生产制备、在核酸疫苗、表达治疗性蛋白、临床免疫治疗等领域具有应用优势。
翻译起始元件
在本公开中,翻译起始元件可以是能够起始目标多肽翻译的任意类型的元件。在一些实施方式中,翻译起始元件是包括如下任意的一种或两种以上所示序列的元件:IRES序列、5’UTR序列、Kozak序列、包含m6A修饰(N(6)甲基腺苷修饰)的序列、核糖体18S rRNA的互补序列。在另外一些实施方式中,翻译起始元件还可以是其他任意类型的具有非帽依赖的翻译起始元件(cap-independent translation)。
在一些实施方式中,翻译起始元件为IRES元件,IRES元件的来源包括但不限于病毒、哺乳动物、果蝇等。在一些可选的实施方式中,IRES元件来源于病毒。示例性的,IRES元件包含来自于小RNA病毒的IRES序列。进一步地,IRES元件包括但不限于来源于Echovirus、Human poliovirus、Human Enterovirus、Coxsackievirus、Human rhinovirus、Caninepicornavirus、Turdivirus 3、Hepatovirus、Passerivirus、Picornaviridae、TremovirusA、Feline kobuvirus、Murine kobuvirus、Kobuvirus sewage Kathmandu、Ferretkobuvirus、Marmot kobuvirus、Human parechovirus、Chicken picornavirus、Falconpicornavirus、Feline picornavirus、French Guiana picornavirus等等的IRES序列。
在一些可选的实施方式中,本公开提供的重组核酸分子,沿5’向3’的方向,由如下所示元件组成:内含子片段II,编码元件截断片段II,翻译起始元件,编码元件截断片段I,内含子片段I。在另外一些可选的实施方式中,重组核酸分子中还可以包括其他任意的一种或两种以上的元件。例如,用于调控转录水平的转录调控元件,用于调控翻译水平的翻译调控元件,用于纯化制备环状RNA的纯化元件等等。
在一些可选的实施方式中,本公开提供的重组核酸分子,沿5’向3’的方向,由如下所示元件组成:内含子片段III,编码元件截断片段IV,翻译起始元件,编码元件截断片段III,内含子片段IV。在另外一些可选的实施方式中,重组核酸分子中还可以包括其他任意的一种或两种以上的元件。例如,用于调控转录水平的转录调控元件,用于调控翻译水平的翻译调控元件,用于纯化制备环状RNA的纯化元件等等。
内含子片段
本公开中的内含子片段来源于I类内含子,I类内含子具有发生自剪切反应的核酶活性,广泛存在于各类物种中。示例性的,I类内含子包括但不限于T4噬菌体td基因、鱼腥藻属tRNALeu、TpaCOX2、Ptu等等。
在一些实施方式中,内含子片段I和内含子片段II来源于I类内含子,并分别包含组成I类内含子的靠近5’方向的部分序列,和靠近3’方向的部分序列。核酶识别位点I来源于I类内含子5’端连接的外显子序列(Exon 1,E1),核酶识别位点II来源于I类内含子3’端连接的外显子序列(Exon 2,E2)。内含子片段I连接核酶识别位点I,内含子片段II连接核酶识别位点II,构成能够自我剪切的PIE系统。
在另外一些实施方式中,内含子片段III和内含子片段IV来源于I类内含子,并分别包含组成I类内含子的靠近5’方向的部分序列的反向序列,和靠近3’方向的部分序列的反向序列。核酶识别位点III来源于I类内含子5’端连接的外显子序列(Exon 1,E1)的反向序列,核酶识别位点IV来源于I类内含子3’端连接的外显子序列(Exon 2,E2)的反向序列。内含子片段III连接核酶识别位点III,内含子片段IV连接核酶识别位点IV,构成能够自我剪切的PIE系统。
在一些可选的实施方式中,核酶识别位点I由3-100个核苷酸组成,优选3-50个核苷酸,更优选3-10个核苷酸。也即,位于编码元件截断片段I的3’末端的第一预设数量的核苷酸为3-100个核苷酸,优选3-50个核苷酸,更优选3-10个核苷酸。示例性的,第一预设数量为3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300,以及它们任意两者之间的任意整数值。
在一些可选的实施方式中,核酶识别位点II由1-100个核苷酸组成,优选1-50个核苷酸,更优选1-10个核苷酸。也即,位于编码元件截断片段II的5’末端的第二预设数量的核苷酸为1-100个核苷酸,优选1-50个核苷酸,更优选1-10个核苷酸。示例性的,第一预设数量为1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100,以及它们任意两者之间的任意整数值。
在另外一些可选的实施方式中,核酶识别位点III由3-100个核苷酸组成,优选3-50个核苷酸,更优选3-10个核苷酸。也即,位于编码元件截断片段IV的5’末端的第一预设数量的核苷酸为3-100个核苷酸,优选3-50个核苷酸,更优选3-10个核苷酸。示例性的,第一预设数量为3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、150、200、250、300,以及它们任意两者之间的任意整数值。
在另外一些可选的实施方式中,核酶识别位点IV由1-100个核苷酸组成,优选1-50个核苷酸,更优选1-10个核苷酸。也即,位于编码元件截断片段III的3’末端的第二预设数量的核苷酸为1-100个核苷酸,优选1-50个核苷酸,更优选1-10个核苷酸。示例性的,第一预设数量为1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100,以及它们任意两者之间的任意整数值。
在一些优选的实施方式中,第一预设数量与第二预设数量的和不等于3y,y≥1且y为整数。也即,第一预设数量与第二预设数量的和不等于3的整数。当两者的和不为3的整数值,能够增加在编码区内部设置核酶识别位点的自由度,实现环状RNA的有效成环。
在一些可选的实施方式中,I类内含子是来源于T4噬菌体td基因的T4 td intron,其intron二级结构如图13所示。T4 td intron中用于成环的核酶识别位点的核苷酸序列为“5’-TTGGGTCT-3’”,其中成环位置位于T与C之间。因此,核酶识别位点I的核苷酸序列为“5’-TTGGGT-3’”,核酶识别位点II的核苷酸序列为“5’-CT-3’”;或者,核酶识别位点III的核苷酸序列为“5’-TGGGTT-3’”,核酶识别位点IV的核苷酸序列为“5’-TC-3’”;或者,核酶识别位点III的核苷酸序列为“5’-ACCCAA-3’”,核酶识别位点IV的核苷酸序列为“5’-AG-3’”。
需要说明的是,在保证成环位置的碱基不变的条件下,存在少量碱基突变的核酶识别位点同样能够用于环状RNA的体外。示例性的,本公开发现“5’-TTGGGTCT-3’”中存在如下的一种或两种以上突变时,核酶识别位点及其连接的内含子片段保留有成环活性:第2位的碱基T突变为C,第三位的碱基G突变为A,第8位的碱基T突变为A。
在一些可选的实施方式中,来源于T4 td intron的内含子片段I的核苷酸序列如SEQ ID NO:7所示,或与SEQ ID NO:7所示的核苷酸序列具有80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%序列同一性的序列。
在一些可选的实施方式中,来源于T4 td intron的内含子片段II的核苷酸序列如SEQ ID NO:6所示,或与SEQ ID NO:6所示的核苷酸序列具有80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%序列同一性的序列。
在一些可选的实施方式中,I类内含子为TpaCOX2 intron,TpaCOX2 intron为T.papilionaceus粒体细胞色素氧化酶亚基(cytochrome xoidase)cox2基因的内含子序列,其intron二级结构如图14所示。TpaCOX2 intron中用于成环的核酶识别位点的核苷酸序列为“5’-ACGTCTTAACCAA-3’”(SEQ ID NO:80),其中成环位置位于T与A之间。因此,核酶识别位点I的核苷酸序列为“5’-ACGTCTT-3’”,核酶识别位点II的核苷酸序列为“5’-AACCAA-3’”;或者,核酶识别位点III的核苷酸序列为“5’-TTCTGCA-3’”,核酶识别位点IV的核苷酸序列为“5’-AACCAA-3’”;或者,核酶识别位点III的核苷酸序列为“5’-AAGACGT-3’”,核酶识别位点IV的核苷酸序列为“5’-TTGGTT-3’”。
在一些可选的实施方式中,I类内含子为Ptu intron,其intron二级结构如图15所示。Ptu为pedinomonas tuberculata中叶绿体核糖体大亚基RNA(rrnL)的前体RNA.pedinomonas tuberculata是假单胞菌科(Pseudomonadaceae)中的一种绿藻(greenalgae)。Ptu intron中用于成环的核酶识别位点的核苷酸序列为“5’-AGGGATCA-3’”,其中成环位置位于T与C之间。因此,核酶识别位点I的核苷酸序列为“5’-AGGGAT-3’”,核酶识别位点II的核苷酸序列为“5’-CA-3’”;或者,核酶识别位点III的核苷酸序列为“5’-TAGGGA-3’”,核酶识别位点IV的核苷酸序列为“5’-AC-3’”;或者,核酶识别位点III的核苷酸序列为“5’-ATCCCT-3’”,核酶识别位点IV的核苷酸序列为“5’-TG-3’”。
需要说明的是,本公开对核酶识别位点、内含子片段的序列不进行限制性限定,只要其来源于I类内含子,能够有效成环,在体外制备得到环状RNA即可。
包含插入元件的重组核酸分子
在一些实施方式中,重组核酸分子包括插入元件,插入元件可以用于调控重组核酸分子的转录,用于调控环状RNA的翻译,实现环状RNA在不同组织之间的特异性表达,或者用于纯化环状RNA等等。示例性的,如图2-A中的B所示,插入元件位于编码元件截断片段II和翻译起始元件之间;或者,如图2-B中的B所示,插入元件位于编码元件截断片段IV和翻译起始元件之间。具体来说,插入元件连接于翻译起始元件连接于翻译起始元件的5’端。
在一些实施方式,插入元件选自如下(i)-(iii)组成组中的至少一项:(i)转录水平调控元件,(ii)翻译水平调控元件,(iii)纯化元件。示例性的,插入元件包含如下的一种或任意两种以上的组合的序列:非翻译区(untranslated region,UTR)序列,polyN序列,适配体序列,核糖开关序列,结合转录调控因子的序列;所述polyN序列中,N选自A、T、G、C中的至少一种。
在一些可选的实施方式中,翻译调控元件包含非翻译区序列,非翻译区序列可用于调控环状RNA的稳定性、免疫原性,以及环状RNA表达目标多肽的效率等性能。本公开对于非翻译区序列不进行具体限定,其可以选自本领域中具有调控环状RNA转录、翻译、细胞内稳定性、免疫原性等性能的任意类型的序列。进一步的,非翻译区序列也不限制于5’UTR序列或3’UTR序列。
在一些可选的实施方式中,非翻译区序列中包含一个或多个的miRNA识别序列,例如,1个、2个、3个、4个、5个、6个、7个等等。通过加入一个或多个miRNA识别序列,可实现环状RNA在不同组织、细胞之中的特异性表达,实现环状RNA分子的靶向递送。
在一些可选的实施方式中,翻译调控元件包含polyN序列,其中的N可以是A、T、G、C中的至少一种。通过增加包含polyN序列的翻译调控元件,以改善环状RNA表达目标多肽的效率、改善免疫原性、稳定性等,或用于环状RNA的纯化。本公开对于polyN序列的长度,polyN序列中N的选择种类以及组成方式不进行具体限定,只要其有利于实现对环状RNA性能的改善即可。示例性的,polyN序列为polyA序列,polyAC序列等等。
在一些可选的实施方式中,翻译调控元件包含核糖开关序列。核糖开关(Riboswitch)序列是一类对RNA的转录、翻译具有调控功能的非翻译序列。本公开中,核糖开关序列可以影响环状RNA的表达,包括但不限于转录终止、翻译起始抑制、mRNA自裂解、以及在真核生物中剪接途径的改变。此外,核糖开关序列还可以通过触发分子的结合或去除来控制环状RNA的表达。示例性的,核糖开关序列为钴胺素核糖开关(也称B12-元件)、FMN核糖开关(也称RFN元件)、glmS核糖开关、SAM核糖开关、SAH核糖开关、四氢叶酸核糖开关、Moco核糖开关等等,本公开对于核糖开关序列的类型和序列不进行限制性限定,只要其能实现对环状RNA表达目标多肽的转录、翻译水平的调控即可。
在一些可选的实施方式中,翻译调控元件包含适配体序列。在本公开中,适配体序列可用于调控环状RNA的转录、翻译,或用于环状RNA的体外纯化制备。在一个示例性的实施方式,适配体序列为如SEQ ID NO:37所示的序列,或与SEQ ID NO:37所示的序列具有80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%序列同一性的序列。
包含同源臂的重组核酸分子
在一些实施方式中,重组核酸分子中包括同源臂,具体的,同源臂包括位于重组核酸分子的5’末端的5’同源臂,以及位于重组核酸分子的3’末端的3’同源臂,5’同源臂的核酸序列与3’同源臂的核苷酸序列杂交。
在一些实施方式中,如图2-A中的C所示,在重组核酸分子中,5’同源臂连接于所述内含子片段II的5’端,3’同源臂连接于所述内含子片段I的3’端。5’同源臂与3’同源臂的序列杂交,使内含子片段I、内含子片段II相互靠近,在核酶识别位点I与内含子片段I的连接位置断裂后,有利于核酶识别位点I的3’-OH进一步攻击核酶识别位点II与内含子片段II的连接的磷酸二酯键,释放内含子片段II。
在一些实施方式中,如图2-B中的C所示,在重组核酸分子中,5’同源臂连接于所述内含子片段III的5’端,3’同源臂连接于所述内含子片段IV的3’端。5’同源臂与3’同源臂的序列杂交,使内含子片段III、内含子片段IV相互靠近,在核酶识别位点III与内含子片段III的连接位置断裂后,有利于核酶识别位点III的3’-OH进一步攻击核酶识别位点IV与内含子片段IV的连接的磷酸二酯键,释放内含子片段IV。
在一些实施方式中,本公开比较了添加同源臂与未添加同源臂对环状RNA的体外成环的影响。本公开发现,对于未添加同源臂的重组核酸分子,同样能保持与添加同源臂后重组核酸分子的有效成环率。因此,为进一步简化重组核酸分子的结构,在一些实施方式中,重组核酸分子中不包括5’同源臂和3’同源臂。其原因是由于在本公开框架下成环位点(核酶识别位点)总是会将编码基因分成两部分,编码区通常不会存在很复杂的二级结构,这种良性的序列间隔开启动元件与自剪切内含子序列,从而形成一种独特的二级结构,更有利于内含子序列的正确折叠及靠近,所以在本公开框架下不需要同源臂的存在就可以有效的成环。
目标多肽
本公开对于目标多肽的种类不进行限制性限定,其可以是人源蛋白或非人源蛋白。示例性的,目标多肽包含但不限于抗原、抗体、抗原结合片段、荧光蛋白、具有疾病治疗活性的蛋白、具有基因编辑活性的蛋白等。
在本公开中,术语“抗体”以最广意义使用,指包含抗原结合位点的蛋白质,涵盖各种结构的天然抗体和人工抗体,包括但不限于单克隆抗体、多克隆抗体、多特异性抗体(例如,双特异性抗体)、单链抗体、完整抗体和抗体片段。
在本公开中,术语“抗原结合片段”是比完整或完全抗体的氨基酸残基数要少的完整或完全抗体的一部分或一段,其能结合抗原或与完整抗体(即与抗原结合片段所来源的完整抗体)竞争结合抗原。可以通过重组DNA技术、或通过酶或化学切割完整的抗体制备抗原结合片段。抗原结合片段包括但不限于Fv,Fab,Fab’,Fab’-SH,F(ab’)2;双抗体;线性抗体;单链抗体(例如scFv);单域抗体;双价或双特异性抗体或其片段;骆驼科抗体(重链抗体);和由抗体片段形成的双特异性抗体或多特异性抗体。
在本公开中,具有疾病治疗活性的蛋白可以包括但不限于酶替代蛋白质、用于补充的蛋白质、蛋白疫苗、抗原(例如肿瘤抗原、病毒、细菌)、激素、细胞因子、抗体、免疫疗法(例如癌症)、细胞重编程/转分化因子、转录因子、嵌合抗原受体、转座酶或核酸酶、免疫效应子(例如,影响对免疫反应/信号的易感性)、经调控的死亡效应子蛋白(例如,细胞凋亡或坏死的诱导物)、肿瘤的非溶解性抑制剂(例如癌蛋白抑制剂)、表观遗传修饰剂、表观遗传酶、转录因子、DNA或蛋白质修饰酶、DNA嵌入剂、外排泵抑制剂、核受体活化剂或抑制剂、蛋白酶体抑制剂、酶竞争性抑制剂、蛋白质合成效应剂或抑制剂、核酸酶、蛋白质片段或结构域、配体或受体、以及CRISPR系统或其组分等。
用于形成一个或两个以上编码区的编码元件
在一些实施方式中,重组核酸分子用于制备包含编码元件的环状RNA,其中,所述环状RNA中的编码元件包含编码区1,任选存在的(a)至少一个编码区2,和任选存在的(b)至少一个编码区3。
在本公开中,重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区1,任选存在的(a)至少一个编码区2,和任选存在的(b)至少一个编码区3。示例性的,在一些实施方式中,如图3A所示,编码元件截断片段I和编码元件截断片段II用于形成编码区1。对应地,编码元件截断片段I为编码区1截断片段I,编码元件截断片段II为编码区1截断片段II。因此,在编码区1截断片段I的3’末端包含核酶识别位点I,核酶识别位点I由位于所述编码区1截断片段I的3’端的第一预设数量的核苷酸组成;在编码区1截断片段II的5’末端包含核酶识别位点II,核酶识别位点II由位于所述编码区1截断片段II的5’端的第二预设数量的核苷酸组成。重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区1,以在体外或体内表达目标多肽。
在另外一些实施方式中,重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区1和至少一个编码区2。重组核酸分子制备的环状RNA能够实现对至少2个目标多肽的串联表达。示例性的,如图4A-4B所示,重组核酸分子包括按如下顺序排列的元件:(i)内含子片段II,编码区1截断片段II,至少一个编码区2,翻译起始元件,编码区1截断片段I,内含子片段I。
在一些可选的实施方式中,编码区2的数量为1个,如图4A所示,重组核酸分子包括按如下顺序排列的元件:内含子片段II,编码区1截断片段II,编码区2,翻译起始元件,编码区1截断片段I,内含子片段I。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些可选的实施方式中,编码区2的数量为至少2个,如图4B所示,重组核酸分子包括按如下顺序排列的元件:内含子片段II,编码区1截断片段II,至少两个编码区2,翻译起始元件,编码区1截断片段I,内含子片段I。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些优选的实施方式中,重组核酸分子还包括位于编码区1截断片段II与编码区2之间的连接子,和/或位于任意相邻的两个编码区2之间的连接子。利用连接子将编码区2与编码区1、及任意相邻的两个编码区2间隔开,使重组核酸分子制备的环状RNA能够表达2个或2个以上的目标多肽。
在另外一些实施方式中,重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区1和至少一个编码区3。重组核酸分子制备的环状RNA能够实现对至少2个目标多肽的串联表达。示例性的,如图5A-5B所示,重组核酸分子包括按如下顺序排列的元件:(ii)内含子片段II,编码区1截断片段II,翻译起始元件,至少一个编码区3,编码区1截断片段I,内含子片段I。
在一些可选的实施方式中,编码区3的数量为1个,如图5A所示,重组核酸分子包括按如下顺序排列的元件:内含子片段II,编码区1截断片段II,翻译起始元件,编码区3,编码区1截断片段I,内含子片段I。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些可选的实施方式中,编码区3的数量为至少2个,如图5B所示,重组核酸分子包括按如下顺序排列的元件:内含子片段II,编码区1截断片段II,翻译起始元件,至少两个编码区3,编码区1截断片段I,内含子片段I。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些优选的实施方式中,重组核酸分子还包括位于编码区1截断片段I与编码区3之间的连接子,和/或位于任意相邻的两个编码区3之间的连接子。利用连接子将编码区3与编码区1、及任意相邻的两个编码区3间隔开,使重组核酸分子制备的环状RNA能够表达2个或2个以上的目标多肽。
在另外一些实施方式中,重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区1、至少一个编码区2和至少一个编码区3。重组核酸分子制备的环状RNA能够实现对至少3个目标多肽的串联表达。示例性的,如图6A-6B所示,重组核酸分子包括按如下顺序排列的元件:(iii)内含子片段II,编码区1截断片段II,至少一个编码区2,翻译起始元件,至少一个编码区3,编码区1截断片段I,内含子片段I。
在一些可选的实施方式中,如图6A所示,编码区2、编码区3的数量为1个,重组核酸分子包括按如下顺序排列的元件:内含子片段II,编码区1截断片段II,编码区2,翻译起始元件,编码区3,编码区1截断片段I,内含子片段I。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些可选的实施方式中,编码区2的数量为至少2个,编码区3的数量为至少2个,如图6B所示,重组核酸分子包括按如下顺序排列的元件:内含子片段II,编码区1截断片段II,至少两个编码区2,翻译起始元件,至少两个编码区3,编码区1截断片段I,内含子片段I。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些优选的实施方式中,重组核酸分子还包括位于编码区1截断片段II与编码区2之间的连接子,位于编码区1截断片段I与编码区3之间的连接子,位于任意相邻的两个编码区2之间的连接子和/或位于任意相邻的两个编码区3之间的连接子。利用连接子将编码区2与编码区1、编码区3与编码区1、任意相邻的两个编码区2及任意相邻的两个编码区3间隔开,使重组核酸分子制备的环状RNA能够表达3个或3个以上的目标多肽。
在一些实施方式中,如图3B所示,编码元件截断片段III和编码元件截断片段IV用于形成编码区1,对应地,编码元件截断片段III为编码区1截断片段III,编码元件截断片段IV为编码区1截断片段IV。因此,在编码区1截断片段III的3’末端包含核酶识别位点IV,核酶识别位点IV由位于所述编码区1截断片段III的3’端的第一预设数量的核苷酸组成;在编码区1截断片段IV的5’末端包含核酶识别位点III,核酶识别位点III由位于所述编码区1截断片段IV的5’端的第二预设数量的核苷酸组成。重组核酸分子中的编码元件截断片段III和编码元件截断片段IV用于形成编码区1,以在体外或体内表达目标多肽。
在另外一些实施方式中,重组核酸分子中的编码元件截断片段III和编码元件截断片段IV用于形成编码区1和至少一个编码区2。重组核酸分子制备的环状RNA能够实现对至少2个目标多肽的串联表达。示例性的,如图4C-4D所示,重组核酸分子包括按如下顺序排列的元件:(v)内含子片段III,编码区1截断片段IV,至少一个编码区2,翻译起始元件,编码区1截断片段III,内含子片段IV。
在一些可选的实施方式中,编码区2的数量为1个,如图4C所示,重组核酸分子包括按如下顺序排列的元件:内含子片段III,编码区1截断片段IV,编码区2,翻译起始元件,编码区1截断片段III,内含子片段IV。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些可选的实施方式中,编码区2的数量为至少2个,如图4D所示,重组核酸分子包括按如下顺序排列的元件:内含子片段III,编码区1截断片段IV,至少两个编码区2,翻译起始元件,编码区1截断片段III,内含子片段IV。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些优选的实施方式中,重组核酸分子还包括位于编码区1截断片段IV与编码区2之间的连接子,和/或位于任意相邻的两个编码区2之间的连接子。利用连接子将编码区2与编码区1、及任意相邻的两个编码区2间隔开,使重组核酸分子制备的环状RNA能够表达2个或2个以上的目标多肽。
在另外一些实施方式中,重组核酸分子中的编码元件截断片段III和编码元件截断片段IV用于形成编码区1和至少一个编码区3。重组核酸分子制备的环状RNA能够实现对至少2个目标多肽的串联表达。示例性的,如图5C-5D所示,重组核酸分子包括按如下顺序排列的元件:(vi)内含子片段III,编码区1截断片段IV,翻译起始元件,至少一个编码区3,编码区1截断片段III,内含子片段IV。
在一些可选的实施方式中,编码区3的数量为1个,如图5C所示,重组核酸分子包括按如下顺序排列的元件:内含子片段III,编码区1截断片段IV,翻译起始元件,编码区3,编码区1截断片段III,内含子片段IV。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些可选的实施方式中,编码区3的数量为至少2个,如图5D所示,重组核酸分子包括按如下顺序排列的元件:内含子片段III,编码区1截断片段IV,翻译起始元件,至少两个编码区3,编码区1截断片段III,内含子片段IV。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些优选的实施方式中,重组核酸分子还包括位于编码区1截断片段III与编码区3之间的连接子,和/或位于任意相邻的两个编码区3之间的连接子。利用连接子将编码区3与编码区1、及任意相邻的两个编码区3间隔开,使重组核酸分子制备的环状RNA能够表达2个或2个以上的目标多肽。
在另外一些实施方式中,重组核酸分子中的编码元件截断片段III和编码元件截断片段IV用于形成编码区1、至少一个编码区2和至少一个编码区3。重组核酸分子制备的环状RNA能够实现对至少3个目标多肽的串联表达。示例性的,如图6C-6D所示,重组核酸分子包括按如下顺序排列的元件:(vii)内含子片段III,编码区1截断片段IV,至少一个编码区2,翻译起始元件,至少一个编码区3,编码区1截断片段III,内含子片段IV。
在一些可选的实施方式中,编码区2的数量为1个,编码区3的数量为1个,如图6C所示,重组核酸分子包括按如下顺序排列的元件:内含子片段III,编码区1截断片段IV,编码区2,翻译起始元件,编码区3,编码区1截断片段III,内含子片段IV。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些可选的实施方式中,编码区2的数量为至少2个,编码区3的数量为至少2个,如图6D所示,重组核酸分子包括按如下顺序排列的元件:内含子片段III,编码区1截断片段IV,至少两个编码区2,翻译起始元件,至少两个编码区3,编码区1截断片段III,内含子片段IV。在另外一些可选的实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些优选的实施方式中,重组核酸分子还包括位于编码区1截断片段IV与编码区2之间的连接子,编码区1截断片段III与编码区3之间的连接子,任意相邻的两个编码区2之间的连接子和/或位于任意相邻的两个编码区3之间的连接子。利用连接子将编码区2与编码区1、编码区3与编码区1,任意相邻的两个编码区2及任意相邻的两个编码区3间隔开,使重组核酸分子制备的环状RNA能够表达2个或2个以上的目标多肽。
在本公开中,连接子可以是编码2A肽的多核苷酸,或是其他类型的用于编码间隔目标多肽的连接肽的多核苷酸。其中,2A肽是来源于病毒的短肽(~18-25个氨基酸),它们通常被称为“自我剪切”肽,能使一条转录产物产生多种蛋白。示例性的,2A肽为P2A、T2A、E2A、F2A等等。
在本公开中,编码区1、每个编码区2、每个编码区3彼此独立的编码任意类型的目标多肽。其中,编码区1与任意一个编码区2编码的目标多肽可以是相同或不同,编码区1与任意一个编码区3编码的目标多肽可以是相同或不同,任意两个编码区2编码的目标多肽可以是相同或不同,任意两个编码区3编码的目标多肽可以是相同或不同,任意一个编码区2与任意一个编码区3编码的目标多肽可以是相同或不同。
在本公开中,通过对编码区的数字编号(例如,编码区1、编码区2、编码区3等)以区分位于不同位置处的编码区。示例性的,编码区1代表设置有核酶识别位点的编码区;编码区2代表位于编码区1截断片段II与翻译起始元件之间的编码区,或者编码区2代表位于编码区1截断片段IV与翻译起始元件之间的编码区;编码区3代表位于位于编码区1截断片段I与翻译起始元件之间的编码区,或者编码区2代表位于编码区1截断片段III与翻译起始元件之间的编码区。
包含至少2个翻译起始元件的重组核酸分子
在一些实施方式中,所述重组核酸分子用于制备包含编码元件的环状RNA;其中,所述环状RNA中的编码元件包含编码区1,至少一个编码区4,和位于任意相邻的两个编码区之间的翻译起始元件。
在一些实施方式中,重组核酸分子中的编码元件截断片段I和编码元件截断片段II用于形成编码区I、至少一个编码区4,和位于任意相邻的两个编码区之间的翻译起始元件。其中,在编码区1截断片段I的3’末端包含核酶识别位点I,核酶识别位点I由位于所述编码区1截断片段I的3’端的第一预设数量的核苷酸组成;在编码区1截断片段II的5’末端包含核酶识别位点II,核酶识别位点II由位于所述编码区1截断片段II的5’端的第二预设数量的核苷酸组成。重组核酸分子在体外制备得到环状RNA后,每个编码区均对应一个翻译起始元件,以实现对至少2个目标多肽的串联表达。
在一些可选地实施方式中,如图7-A中A所示,编码区4的数量为1个,重组核酸分子包括按如下顺序排列的元件:内含子片段II、编码区1截断片段II、翻译起始元件、编码区4、翻译起始元件、编码区1截断片段I、内含子片段I。在另外一些实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些可选地实施方式中,如图7-A中B所示,编码区4的数量为2个,重组核酸分子包括按如下顺序排列的元件:内含子片段II、编码区1截断片段II、翻译起始元件、编码区4、翻译起始元件、编码区4、翻译起始元件、编码区1截断片段I、内含子片段I。在另外一些实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些可选地实施方式中,如图7-A中C所示,编码区4的数量为至少2个,重组核酸分子包括按如下顺序排列的元件:内含子片段II、编码区1截断片段II、翻译起始元件、至少1个编码区4、翻译起始元件、至少1个编码区4、翻译起始元件、编码区1截断片段I、内含子片段I;其中,任意两个相邻的编码区4之间包括一个翻译起始元件。在另外一些实施方式中,重组核酸分子由上述顺序排列的元件组成。
在另外一些实施方式中,重组核酸分子中的编码元件截断片段III和编码元件截断片段IV用于形成编码区I、至少一个编码区4,和位于任意相邻的两个编码区之间的翻译起始元件。其中,在编码区1截断片段III的3’末端包含核酶识别位点IV,核酶识别位点IV由位于所述编码区1截断片段III的3’端的第一预设数量的核苷酸组成;在编码区1截断片段IV的5’末端包含核酶识别位点III,核酶识别位点III由位于所述编码区1截断片段IV的5’端的第二预设数量的核苷酸组成。重组核酸分子在体外制备得到环状RNA后,每个编码区均对应一个翻译起始元件,以实现对至少2个目标多肽的串联表达。
在一些可选地实施方式中,如图7-B中A所示,编码区4的数量为1个,重组核酸分子包括按如下顺序排列的元件:内含子片段III、编码区1截断片段IV、翻译起始元件、编码区4、翻译起始元件、编码区1截断片段III、内含子片段IV。在另外一些实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些可选地实施方式中,如图7-B中B所示,编码区4的数量为2个,重组核酸分子包括按如下顺序排列的元件:内含子片段III、编码区1截断片段IV、翻译起始元件、编码区4、翻译起始元件、编码区4、翻译起始元件、编码区1截断片段III、内含子片段IV。在另外一些实施方式中,重组核酸分子由上述顺序排列的元件组成。
在一些可选地实施方式中,如图7-B中C所示,编码区4的数量为至少2个,重组核酸分子包括按如下顺序排列的元件:内含子片段III、编码区1截断片段IV、翻译起始元件、至少1个编码区4、翻译起始元件、至少1个编码区4、翻译起始元件、编码区1截断片段III、内含子片段IV;其中,任意两个相邻的编码区4之间包括一个翻译起始元件。在另外一些实施方式中,重组核酸分子由上述顺序排列的元件组成。
在本公开中,编码区1、每个编码区4彼此独立的编码任意类型的目标多肽。其中,编码区1与任意一个编码区4编码的目标多肽可以是相同或不同,任意两个编码区4编码的目标多肽可以是相同或不同。
利用上述的重组核酸分子制备的环状RNA中,每个编码区的5’端对应连接一个翻译起始元件,通过多个翻译起始元件串联编码区1和至少一个编码区4,实现对至少2个目标多肽的表达。
在本公开中,通过对编码区的数字编号(例如,编码区1、编码区4等)以区分位于不同位置处的编码区。示例性的,编码区1代表设置有核酶识别位点的编码区;编码区4代表位于编码区1截断片段I与编码区2截断片段II之间的编码区;或者,编码区4代表位于编码区1截断片段III与编码区2截断片段IV之间的编码区。
包含重组核酸分子的重组表达载体
在一些实施方式中,重组核酸分子作为用于制备环状RNA的重组表达载体的一部分存在。在体外经过转录、环化过程中,可制备得到表达目标多肽的环状RNA。
在另外一些实施方式中,重组核酸分子还可以作为重组表达载体在线性化处理、转录反应后得到的环化前体RNA分子或其一部分存在。也即,重组核酸分子仅需要经过环化反应,即可得到表达目标多肽的环状RNA。
在一些实施方式中,体外制备环状RNA的步骤包括:
转录步骤:如前述任一项所述的重组核酸分子或根据前述重组表达载体转录形成环化前体核酸分子;
环化步骤:所述环化前体核酸发生环化反应,得到环状RNA。
在一些可选的实施方式中,所述方法还包括,纯化所述环状RNA的步骤。
环状RNA
在一些实施方式中,本公开中的环状RNA应用本公开提供的clean PIE系统制备得到,沿5’向3’方向,其包含按如下顺序排列的元件:翻译起始元件,用于编码至少一个目标多肽的编码元件。
与图8B所示的传统PIE系统制备的环状RNA相比,通过采用本公开中的Clean PIE系统制备环状RNA,在保证蛋白编码序列的完整性的条件下,不引入额外的E1、E2序列(图8A),以保证环状RNA序列及二级结构的准确性,降低环状RNA天然的免疫原性,提高其在细胞内的稳定性,适合作为基因治疗载体、表达治疗性蛋白、作为核酸疫苗等临床应用领域,具有广阔的应用前景。
在一些实施方式中,环状RNA的编码元件包括编码区1和如下(i)-(ii)组成的组中的至少一种:(i)至少一个编码区2,(ii)至少一个编码区3;每个编码区彼此独立地编码任意类型的目标多肽,环状RNA能够串联地编码一个或多个目标多肽。示例性的,环状RNA表达1个、2个、3个、4个、5个、10个、15个、20个、25个等等数量的目标多肽。
作为优选的实施方式,任意相邻的两个编码区由连接子相连,利用连接子编码连接肽将相邻的编码区编码的目标多肽间隔开,使同一环状RNA能够编码2个或2个以上的目标多肽。
在一些可选的实施方式中,如图9A所示,沿5’向3’方向,环状RNA中包含翻译起始元件、编码区1和编码区2,以及位于编码区1与编码区2之间的连接子。连接子将编码区1和编码区2间隔开,使环状RNA可以在细胞内可以串联地表达至少2个目标多肽。在另外一些可选的实施方式中,环状RNA由按上述顺序排列的元件组成。
在一些可选的实施方式中,编码区2的数量可以是2个或2个以上。示例性的,如图10A所示,沿5’向3’方向,环状RNA中包含翻译起始元件、编码区1、2个编码区2(为便于描述,沿5’向3’方向,依次命名为第一编码区2和第二编码区2),以及位于编码区1和第一编码区2之间的连接子,位于第一编码区2和第二编码区2之间的连接子。利用上述的环状RNA可以在细胞内实现对3个或3个以上目标多肽的串联表达。在另外一些可选的实施方式中,环状RNA由按上述顺序排列的元件组成。
在一些可选的实施方式中,如图9B所示,沿5’向3’方向,环状RNA中包含翻译起始元件、编码区3和编码区1,以及位于编码区3与编码区1之间的连接子。连接子将编码区1和编码区3间隔开,使环状RNA可以在细胞内可以串联地表达至少2个目标多肽。在另外一些可选的实施方式中,环状RNA由按上述顺序排列的元件组成。
在一些可选的实施方式中,编码区3的数量可以是2个或2个以上。示例性的,如图10C所示,沿5’向3’方向,环状RNA中包含翻译起始元件、2个编码区3(为便于描述,沿5’向3’方向,依次命名为第一编码区3和第二编码区3)、编码区1,以及位于编码区1和第二编码区3之间的连接子,位于第一编码区3和第二编码区3之间的连接子。利用上述的环状RNA可以在细胞内实现对3个或3个以上目标多肽的串联表达。在另外一些可选的实施方式中,环状RNA由按上述顺序排列的元件组成。
在一些可选的实施方式中,环状RNA中同时包含编码区2和编码区3。示例性的,如图10B所示,沿5’向3’方向,环状RNA中包含翻译起始元件、编码区3、编码区1、编码区2,以及位于编码区1和编码区3之间的连接子,位于编码区1和编码区3之间的连接子。利用上述的环状RNA可以在细胞内实现对3个或3个以上目标多肽的串联表达。在另外一些可选的实施方式中,环状RNA由按上述顺序排列的元件组成。
在本公开中,编码区1、每个编码区2、每个编码区3彼此独立的编码任意类型的目标多肽。其中,编码区1与任意一个编码区2编码的目标多肽可以是相同或不同,编码区1与任意一个编码区3编码的目标多肽可以是相同或不同,任意两个编码区2编码的目标多肽可以是相同或不同,任意两个编码区3编码的目标多肽可以是相同或不同,任意一个编码区2与任意一个编码区3编码的目标多肽可以是相同或不同。
在一些实施方式中,环状RNA的编码区包括一个编码区1和至少一个编码区4,并且,任意一个编码区的5’端连接有翻译起始元件。示例性的,编码区4的个数为1、2、3、4、5、10、15、20、25等等。利用每个编码区5’端连接的翻译起始元件,起始不同编码区的转录,使同一环状RNA能够用于能够编码2个或2个以上的目标多肽。
在一些可选的实施方式中,编码区4的数量为1个,如图11A所示,沿5’向3’方向,环状RNA中包含翻译起始元件、编码区1、翻译起始元件、编码区4。利用上述的环状RNA可以在细胞内实现对2个目标多肽的串联表达。在另外一些可选的实施方式中,环状RNA由按上述顺序排列的元件组成。
在一些可选的实施方式中,编码区4的数量为至少2个。示例性的,如图11B所示,沿5’向3’方向,环状RNA中包含翻译起始元件、编码区1、翻译起始元件、至少2个编码区4,以及位于至少2个编码区4之间的翻译起始元件。利用上述的环状RNA可以在细胞内实现对2个目标多肽的串联表达。在另外一些可选的实施方式中,环状RNA由按上述顺序排列的元件组成。
在本公开中,编码区1、每个编码区4彼此独立的编码任意类型的目标多肽。其中,编码区1与任意一个编码区4编码的目标多肽可以是相同或不同,4任意两个编码区4编码的目标多肽可以是相同或不同。
在一些可选的实施方式中,环状RNA中包括插入元件。其中,所述插入元件连接于任意的翻译起始元件的5’末端。
筛选包含核酶识别位点的目标编码区序列的方法
在一些实施方式中,本公开提供了筛选包含核酶识别位点的目标编码区序列的方法,其包含如下步骤:
S1,在所述包含q个氨基酸的目标多肽中,沿N端向C端方向提取m组氨基酸单元,每组所述氨基酸单元中包含个数为n的氨基酸;其中任意相邻的两个氨基酸单元之间包含至少一个重复的氨基酸,n为整数且n≥2,m为整数且m≥1。
具体的,沿N端向C端方向,将提取得到的m组氨基酸单元依次命名为第R1~Rm组的氨基酸单元。其中,R1~Rm组的每组氨基酸单元中氨基酸的个数均为n,任意相邻的两个氨基酸单元之间包含重组的氨基酸,其重复个数选自1~(n-1)中的任一整数。作为优选的实施方式,相邻两个氨基酸单元之间重复的氨基酸个数为n-1。
示例性的,沿N端向C端方向,目标多肽依次由AA1~AAq的氨基酸组成。在对目标多肽的氨基酸进行提起时,以AA1作为起始氨基酸,提取包含AA1在内的总个数为n的氨基酸作为R1组的氨基酸单元。
进一步的,在提取R2组的氨基酸单元时,R2组氨基酸单元进行提取的起始位置可以是R1组氨基酸单元中第[2]位~第[n]位的任意位置。例如,当n为2时,R2组氨基酸单元的起始氨基酸为R1组氨基酸单元中第[2]位的氨基酸;当n为3时,R2组氨基酸单元的起始氨基酸为R1组氨基酸单元中第[2]位或第[3]位的氨基酸(AA2或AA3);当n为4时,R2组氨基酸单元的起始氨基酸为R1组氨基酸单元中第[2]位、第[3]位或第[4]位的氨基酸(AA2、AA3或AA4)。当n的数值增加时,可以此方式进行类推,本公开不进行穷举。
作为优选的实施方式,R2组的氨基酸单元起始氨基酸为R1组氨基酸单元中第[2]位的氨基酸。例如,当n为2以上的任意整数时,R2组氨基酸单元的起始氨基酸均为AA2。
进一步的,在提取R3组的氨基酸单元时,R3组氨基酸单元进行提取的起始位置可以是R2组氨基酸单元中第[2]位~第[n]位的任意位置。例如,当n为2时,R3组氨基酸单元的起始氨基酸为R2组氨基酸单元中第[2]位的氨基酸;当n为3时,R3组氨基酸单元的起始氨基酸为R2组氨基酸单元中第[2]位或第[3]位的氨基酸;当n为4时,R3组氨基酸单元的起始氨基酸为R2组氨基酸单元中第[2]位、第[3]位或第[4]位的氨基酸。当n的数值增加时,可以此方式进行类推,本公开不进行穷举。
作为优选的实施方式,R3组的氨基酸单元起始氨基酸为R2组氨基酸单元中第[2]位的氨基酸。例如,当n为2以上的任意整数时,R3组氨基酸单元的起始氨基酸均为AA3。
进一步的,在提取R4组的氨基酸单元时,R4组氨基酸单元进行提取的起始位置可以是R3组氨基酸单元中第[2]位~第[n]位的任意位置。例如,当n为2时,R4组氨基酸单元的起始氨基酸为R3组氨基酸单元中第[2]位的氨基酸;当n为3时,R4组氨基酸单元的起始氨基酸为R3组氨基酸单元中第[2]位或第[3]位的氨基酸;当n为4时,R4组氨基酸单元的起始氨基酸为R3组氨基酸单元中第[2]位、第[3]位或第[4]位的氨基酸。当n的数值增加时,可以此方式进行类推,本公开不进行穷举。
作为优选的实施方式,R4组的氨基酸单元起始氨基酸为R3组氨基酸单元中第[2]位的氨基酸。例如,当n为2以上的任意整数时,R4组氨基酸单元的起始氨基酸均为AA4。
按照上述方式进行氨基酸单元的提取,直至提取到第Rm组的氨基酸单元。
在一个优选的实施方式中,本公开以步长为1,窗口长度为n对由q个氨基酸组成的目标多肽序列进行滑动切片,得到m组氨基酸单元。其中,m=q+1-n,n为整数且n≥2,m为整数且m≥1。
S2,确定m组的密码子序列集,每组所述密码子序列集中包括每组所述氨基酸单元对应的密码子序列。
具体的,依据氨基酸密码子的简并性原则,得到每组氨基酸单元对应的密码子序列的集合。对应R1~Rm组的氨基酸单元,得到C1-Cm组的密码子序列集。
S3,遍历所述m组的密码子序列集,得到每组密码子序列集中的每个密码子序列与目标基序的匹配值。
具体的,目标基序包含核酶识别位点序列,其中,核酶识别位点序列由核酶识别位点I的核苷酸序列和核酶识别位点II的核苷酸序列连接组成,或者由核酶识别位点III的核苷酸序列和核酶识别位点IV的核苷酸序列连接组成。示例性的,核酶识别位点序列包括但不限于“5’-TTGGGTCT-3’”、“5’-ACGTCTTAACCAA-3’”、“5’-AGGGATCA-3’”等等。
进一步的,目标基序还包含在核酶识别位点序列的5’端和3’端中至少一端的位置上连接个数为x的核苷酸,使组成目标基序的核苷酸数量为3n。其中,每个x彼此独立地为≥0的整数,每个连接的核苷酸彼此独立地选自任意类型的核苷酸。例如,当核酶识别位点序列为“5’-TTGGGTCT-3’”时,目标基序对应的可以是选自如下的(a1)-(a6)至少一种,其中X=A,T,C,G:
(a1)TTGGGTCTX;
(a2)XTTGGGTCT;
(a3)XTCTGGGTT;
(a4)TCTGGGTTX;
(a5)XXTTGGGTCTXX;
(a6)XXTCTGGGTTXX。
在一些实施方式中,遍历m组的密码子序列集,得到每组密码子序列集中的每个密码子序列与目标基序的匹配值的步骤包括:将C1-Cm组的密码子序列集的每个密码子序列依次与目标基序进行比对,计算每个密码子子序列的匹配值。
进一步的,目标基序中包含有效碱基对,其对应核酶识别位点I与核酶识别位点II的连接位置处的两个碱基;也即,有效碱基对是指核酶识别位点中用于成环的两个碱基。例如,核酶识别位点的序列为“5’-TTGGGTCT-3’”时,有效碱基对是指其中的TC;核酶识别位点的序列为“5’-ACGTCTTAACCAA-3’”时,有效碱基对是指其中的TA;核酶识别位点的序列为“5’-AGGGATCA-3’”时,有效碱基对是指其中的TC。
在比对每个密码子序列依次与目标基序时,首先判断所述密码子序列中对应所述有效碱基对位置处的碱基是否为有效碱基,若所述密码子序列中不包含所述有效碱基对,则不输出所述密码子序列的比对值。
若所述密码子序列中包含所述有效碱基对,由5’向3’的方向,确定每个密码子序列中的每个碱基与目标基序中的对应碱基的比对值;
根据所述每个密码子序列中的每个碱基的比对值,得到所述密码子序列与目标基序的匹配值。
示例性的,当目标基序对应的可以是选自如下的(a1)-(a6)至少一种,其中X=A,T,C,G:(a1)TTGGGTCTX;(a2)XTTGGGTCT;(a3)XTCTGGGTT;(a4)TCTGGGTTX;(a5)XXTTGGGTCTXX;(a6)XXTCTGGGTTXX。遍历m组的密码子序列集,得到每组密码子序列集中的每个密码子序列与目标基序的匹配值的步骤包括:
S31,以(a1)TTGGGTCTX为目标基序,遍历C1-Cm组的密码子序列集的每个密码子序列,计算每个密码子序列与目标基序的匹配值。对于一个密码子序列,其序列第6位必须为碱基”T”,第7位必须为碱基“C”,否则不输出匹配值。当密码子序列包含有效碱基对时,依次比对第1位的碱基到第9位的碱基,根据比对结果积累具体的分数。
S32,以(a2)XTTGGGTCT为目标基序,遍历C1-Cm组的密码子序列集的每个密码子序列,计算每个密码子序列与目标基序的匹配值。对于一个密码子序列,其序列第7位必须为碱基”T”,第8位必须为碱基“C”,否则不输出匹配值。当密码子序列包含有效碱基对时,依次比对第1位的碱基到第9位的碱基,根据比对结果积累具体的分数。
S33,以(a3)XTCTGGGTT为目标基序,遍历C1-Cm组的密码子序列集的每个密码子序列,计算每个密码子序列与目标基序的匹配值。对于一个密码子序列,其序列第3位必须为碱基”C”,第4位必须为碱基“T”,否则不输出匹配值。当密码子序列包含有效碱基对时,依次比对第1位的碱基到第9位的碱基,根据比对结果积累具体的分数。
S34,以(a4)TCTGGGTTX为目标基序,遍历C1-Cm组的密码子序列集的每个密码子序列,计算每个密码子序列与目标基序的匹配值。对于一个密码子序列,其序列第3位必须为碱基”T”,第2位必须为碱基“C”,否则不输出匹配值。当密码子序列包含有效碱基对时,依次比对第1位的碱基到第9位的碱基,根据比对结果积累具体的分数。
S35,以(a5)XXTTGGGTCTXX为目标基序,遍历C1-Cm组的密码子序列集的每个密码子序列,计算每个密码子序列与目标基序的匹配值。对于一个密码子序列,其序列第7位必须为碱基”T”,第8位必须为碱基“C”,否则不输出匹配值。当密码子序列包含有效碱基对时,依次比对第1位的碱基到第9位的碱基,根据比对结果积累具体的分数。
S36,以(a6)XXTCTGGGTTXX为目标基序,遍历C1-Cm组的密码子序列集的每个密码子序列,计算每个密码子序列与目标基序的匹配值。对于一个密码子序列,其序列第4位必须为碱基”C”,第5位必须为碱基“T”,否则不输出匹配值。当密码子序列包含有效碱基对时,依次比对第1位的碱基到第9位的碱基,根据比对结果积累具体的分数。
在一些实施方式中,得到每组密码子序列集中的每个密码子序列与目标基序的匹配值的步骤还包括:判断每组密码子序列集中的每个密码子序列是否与内含子序列杂交,得到所述每组密码子序列集中的每个密码子序列的互补值。
示例性的,遍历C1-Cm组的密码子序列集的每个密码子序列,根据每个密码子序列是否与内含子序列杂交,得到每个密码子序列的互补值;结合互补值与比对值,得到最终每个密码子序列的匹配值。
S4,根据所述匹配值确定所述密码子序列集中的目标密码子序列,所述目标密码子序列对应所述编码区序列的位置为所述核酶识别位点的植入位置,在所述植入位置处包含所述目标密码子序列的编码区序列为包含核酶识别位点的目标编码区序列。
具体的,在得到密码子序列集的每个密码子序列与目标基序的匹配值后,选择匹配值高于第一阈值的密码子序列,为目标密码子序列。目标密码子序列对应编码区序列的位置为核酶识别位点位点的植入位置,对于目标编码区序列而言,其在植入位置处的核苷酸序列为目标密码子序列。
进一步的,在目标密码子序列中有效碱基对的位置将目标编码区序列进行截断,可用于得到能够应用于Clean PIE系统成环的编码元件截断片段I与编码元件截断片段II,或者编码元件截断片段III与编码元件截断片段IV。
在本公开中,“第一阈值”是指当密码子序列与目标基序的匹配值在高于这一数值时,编码元件截断片段可应用于Clean PIE系统以实现有效成环。
在本公开中,由于核酶识别位点序列中在存在有限数量的碱基突变时,不影响核酶识别位点的有效成环。因此,对于目标密码子序列而言,其允许在一定位置上存在与目标基序不匹配的突变碱基。
筛选核酶识别位点序列的方法
在一些实施方式中,本公开提供的筛选核酶识别位点序列的方法,包括如下步骤:
(1)确定待筛选序列,所述待筛选序列包含来源于I类内含子的内含子序列,以及连接于所述内含子序列的5’端的第一外显子序列,和连接于所述内含子序列的3’端的第二外显子序列;
具体的,待筛选序列可以是任意类型的具有I类内含子的自剪切活性的序列。
(2)根据所述待筛选序列,得到预测的RNA二级结构;
具体的,获取待筛选序列的RNA二级结构的步骤如下:
由序列比对软件(例如,ClustalW)接收输入的待筛选序列,通过序列比对确定来源于Group I intron的待筛选序列中高度保守序列P7以及P7’,并确定J6/7以及J8/7序列,得到第一配对信息;
确定P3,并确定P7后是否存在P3’序列,如不存在添加P3’序列,得到第二配对信息;
根据第一配对信息和第二配对信息,进一步依据Group I intron典型结构(图34),确认如下的一个或多个序列:P2、P4、P5、P6、P8、P9;
通过过5’端第一外显子序列以及3’端第二外显子序列确认P1’以及P10,同时确认核酶识别位点。并将所得配对信息通过Mfold或者RNAstructure中最小自由能的方法进行预测,得到预测的RNA二级结构。
(3)根据所述预测的RNA二级结构,得到所述第一外显子序列中具有核酶识别活性的核酶识别位点I,以及所述第二外显子序列中具有核酶识别活性的核酶识别位点II。
在一些实施方式中,核酶识别位点I的核苷酸序列与所述内含子序列中的引导序列杂交;在一些实施方式中,核酶识别位点II的核苷酸序列与所述内含子序列中的引导序列杂交。核酶识别位点I和/或核酶识别位点II的核苷酸序列与内含子序列的引导序列杂交,可以使Clean PIE系统在自剪切形成环状RNA的过程中的两端相互靠近,有利于核酶识别位点I和核酶识别位点II的位置处先后断裂、连接成环状RNA。
由于核酶识别位点中有限数量的碱基突变不影响在核酶识别位点处的有效成环。在一些实施方式中,依次对所述核酶识别位点I的碱基进行替换,得到具有核酶识别活性的核酶识别位点I的突变体序列。在一些实施方式中,依次对所述核酶识别位点II的碱基进行替换,得到具有核酶识别活性的核酶识别位点II的突变体序列。
(4)根据所述核酶识别位点I的核苷酸序列,与所述核酶识别位点II的核苷酸序列,确定核酶识别位点序列;具体的,核酶识别位点序列包含如下(i)-(iv)组成的组中的至少一项:
(i)核酶识别位点I的核苷酸序列,
(ii)核酶识别位点II的核苷酸序列,
(iii)具有核酶识别活性的核酶识别位点I的突变体序列,
(iv)具有核酶识别活性的核酶识别位点II的突变体序列。
在一些实施方式中,核酶识别位点序列包括(i)核酶识别位点I的核苷酸序列,和(ii)核酶识别位点II的核苷酸序列;在另外一些实施方式,核酶识别位点序列由(i)核酶识别位点I的核苷酸序列,和(ii)核酶识别位点II的核苷酸序列组成。
在一些实施方式中,核酶识别位点序列包括(iii)具有核酶识别活性的核酶识别位点I的突变体序列,和(iv)具有核酶识别活性的核酶识别位点II的突变体序列;在另外一些实施方式,核酶识别位点序列由(iii)具有核酶识别活性的核酶识别位点I的突变体序列,和(iv)具有核酶识别活性的核酶识别位点II的突变体序列组成。
在一些实施方式中,核酶识别位点序列包括(i)核酶识别位点I的核苷酸序列,和(iv)具有核酶识别活性的核酶识别位点II的突变体序列;在另外一些实施方式,核酶识别位点序列由(i)核酶识别位点I的核苷酸序列,和(iv)具有核酶识别活性的核酶识别位点II的突变体序列组成。
在一些实施方式中,核酶识别位点序列包括(iii)具有核酶识别活性的核酶识别位点I的突变体序列,和(ii)核酶识别位点II的核苷酸序列;在另外一些实施方式,核酶识别位点序列由(iii)具有核酶识别活性的核酶识别位点I的突变体序列,和(ii)核酶识别位点II的核苷酸序列组成。
用于筛选包含核酶识别位点的目标编码区序列的筛选系统
在一些实施方式中,本公开提供了用于筛选包含核酶识别位点的目标编码区序列的筛选系统,其对应包含:
目标基序建立模块:用于在所述核酶识别位点序列的5’端和3’端中至少一端的位置上连接个数为x的核苷酸,得到核苷酸个数为3n的目标基序;其中,每个x彼此独立地为≥0的整数,每个连接的核苷酸彼此独立地选自任意类型的核苷酸;
氨基酸单元提取模块:用于在所述包含q个氨基酸的目标多肽中,沿N端向C端方向提取m组氨基酸单元,每组所述氨基酸单元中包含个数为n的氨基酸;其中任意相邻的两个氨基酸单元之间包含至少一个重复的氨基酸,n为整数且n≥2,m为整数且m≥1;优选地,m=q+1-n;
密码子序列集提取模块:用于确定m组的密码子序列集,每组所述密码子序列集中包括每组所述氨基酸单元对应的密码子序列;
匹配值计算模块:用于遍历所述m组的密码子序列集,得到每组密码子序列集中的每个密码子序列与目标基序的匹配值;
目标密码子序列筛选模块:用于根据所述匹配值确定所述密码子序列集中的目标密码子序列,所述目标密码子序列对应所述编码区序列的位置为所述核酶识别位点的植入位置,在所述植入位置处包含所述目标密码子序列的编码区序列为包含核酶识别位点的目标编码区序列。
在一些实施方式中,匹配值计算模块包括:
有效碱基对判断单元:用于判断所述密码子序列中对应所述有效碱基对位置处的碱基是否为有效碱基,若所述密码子序列中不包含所述有效碱基对,则不输出所述密码子序列的比对值;
比对值判断单元:用于按照由5’向3’的方向,确定每个密码子序列中的每个碱基与目标基序中的对应碱基的比对值;
匹配值输出单元:用于根据所述每个密码子序列中的每个碱基的比对值,得到所述密码子序列与目标基序的匹配值。
在一些实施方式中,匹配值计算模块还包括:
互补值计算模块:用于判断每组密码子序列集中的每个密码子序列是否与内含子序列杂交,得到所述每组密码子序列集中的每个密码子序列的互补值;
所述匹配值输出单元包括:用于根据所述比对值与所述互补值确定每组密码子序列集中的每个密码子序列与目标基序的匹配值。
此外,本公开还公开了一种用于筛选包含核酶识别位点的目标编码区序列的处理装置,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序以实现如前述的筛选包含核酶识别位点的目标编码区序列的方法。
另外,本公开还公开了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时实现如前述的用于筛选包含核酶识别位点的目标编码区序列的方法。
本领域人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
实施例
本公开的其他目的、特征和优点将从以下详细描述中变得明显。但是,应当理解的是,详细描述和具体实施例(虽然表示本公开的具体实施方式)仅为解释性目的而给出,因为在阅读该详细说明后,在本公开的精神和范围内所作出的各种改变和修饰,对于本领域技术人员来说将变得显而易见。
本实施例中所用到的实验技术与实验方法,如无特殊说明均为常规技术方法,例如下列实施例中未注明具体条件的实验方法,通常按照常规条件如Sambrook等人,分子克隆:实验室手册(New York:Cold Spring Harbor Laboratory Press,1989)中所述的条件,或按照制造厂商所建议的条件。实施例中所使用的材料、试剂等,如无特殊说明,均可通过正规商业渠道获得。
实施例1:匹配值计算模块
本实例阐述了目标编码区序列的筛选系统中匹配值计算模块的评分标准。匹配值计算模块的评分原则是通过编码氨基酸的简并性原则在成环基因的ORF(开放阅读框)中寻找与Group I intron PIE E1E2最相近的目标密码子序列,从而确定编码区中的核酶识别位点。
其中,如果编码区中没有与Group I intron E1E2完全匹配的目标密码子序列,则按以下原则进行评分:
1、以完全匹配的序列为基准,设定为100分。以T4td PIE为例,评分标准如图16所示:
序列第1位为“T”时分值为17.6,否则为0;序列第2位为“T”时累加17.6,为“C”时累加5.8,否则累加0;序列第3位为“G”时累加17.6,为“A”时累加5.8,否则累加0;序列第4位为“G”时累加17.6,否则累加0;序列第5位为“G”时累加17.6,否则累加0;序列第8位为“T”时累加12,为“A”时累加5.8,否则累加0,最后所得总分为该序列的评分。
2、统计E1E2序列,去除成环位点处碱基(有效碱基对)不参与评分(例如T4td PIE)E1E2序列为TTGGGTCT,TC为成环位点,则TC不参与评分)。按以下四种情况进行加权平均:
a)如果编码区中序列与E1E2序列完全匹配,且编码区成环位置序列与内含子中IG序列(引导序列)可以碱基互补则加权平均为3;
b)如果编码区中序列与E1E2序列完全匹配,但编码区成环位置序列不能与内含子中IG序列(引导序列)互补配对则加权平均为2;
c)如果编码区中序列与E1E2序列不能匹配,但编码区成环位置序列与内含子中IG序列(引导序列)可以碱基互补则加权平均为1;
d)如果编码区中序列与E1E2序列不能匹配,并且编码区成环位置序列不能与内含子中IG序列(引导序列)互补配对则加权平均为0;
通过以上原则可以对成环序列进行评分。
本成环序列打分系统可以应用于实施例2中获得与Group I intron PIE E1E2序列相同或相近的目标密码子序列。
实施例2:筛选包含核酶识别位点的目标编码区序列
图17示出了利用筛选系统确定包含核酶识别位点的目标的自动化流程图,实施过程如下:
(1)将完整的基因序列的编码区转换成氨基酸序列
(2)氨基酸单元提取模块中,对氨基酸序列滑窗切片,将编码区氨基酸序列以步长为1(step=1),窗口大小为3或者4(win=3,4)进行切片,得到长度为3或者4的氨基酸短序列。
(3)密码子序列集提取模块中,将(2)得到的氨基酸短序列根据(1)密码子表翻译成核苷酸序列,得到密码子序列集。
(4)匹配值计算模块中,对密码子序列打分,作为核酶识别位点的E1E2序列为TGGGTCT,以如下所示序列作为目标基序,依次计算密码子序列集中的密码子序列与目标基序的匹配值。其中,X=A,T,C,G。
TTGGGTCTX;
XTTGGGTCT;
XTCTGGGTT;
TCTGGGTTX;
XXTTGGGTCTXX;
XXTCTGGGTTXX。
①遍历(3)得到的序列(win=3,序列长度为9bp)的序列以TTGGGTCTX(X=A,T,C,G)为基准进行打分,序列第6位必须为碱基”T”,第7位必须为碱基“C”;序列第1位为“T”时分值为17.6,否则为0;序列第2位为“T”时累加17.6,为“C”时累加5.8,否则累加0;序列第3位为“G”时累加17.6,为“A”时累加5.8,否则累加0;序列第4位为“G”时累加17.6,否则累加0;序列第5位为“G”时累加17.6,否则累加0;序列第8位为“T”时累加12,为“A”时累加5.8,否则累加0。
②遍历(3)得到的序列(win=3,序列长度为9bp)的序列以XTTGGGTCT(A,T,C,G)为基准进行打分,序列第7位必须为碱基”T”,第8位必须为碱基“C”;序列第2位为“T”时分值为17.6,否则为0;序列第3位为“T”时累加17.6,为“C”时累加5.8,否则累加0;序列第4位为“G”时累加17.6,为“A”时累加5.8,否则累加0;序列第5位为“G”时累加17.6,否则累加0;序列第6位为“G”时累加17.6,否则累加0;序列第9位为“T”时累加12,为“A”时累加5.8,否则累加0。
③遍历(3)得到的序列(win=3,序列长度为9bp)的序列以XTCTGGGTT(A,T,C,G)为基准进行打分,序列第3位必须为碱基”C”,第4位必须为碱基“T”;序列第9位为“T”时分值为17.6,否则为0;序列第8位为“T”时累加17.6,为“C”时累加5.8,否则累加0;序列第7位为“G”时累加17.6,为“A”时累加5.8,否则累加0;序列第6位为“G”时累加17.6,否则累加0;序列第5位为“G”时累加17.6,否则累加0;序列第2位为“T”时累加12,为“A”时累加5.8,否则累加0。
④遍历(3)得到的序列(win=3,序列长度为9bp)的序列以TCTGGGTTX(X=A,T,C,G)为基准进行打分,序列第3位必须为碱基”T”,第2位必须为碱基“C”;序列第8位为“T”时分值为17.6,否则为0;序列第7位为“T”时累加17.6,为“C”时累加5.8,否则累加0;序列第6位为“G”时累加17.6,为“A”时累加5.8,否则累加0;序列第5位为“G”时累加17.6,否则累加0;序列第4位为“G”时累加17.6,否则累加0;序列第1位为“T”时累加12,为“A”时累加5.8,否则累加0。
⑤遍历(3)得到的序列(win=4,序列长度为12bp)的序列以XXTTGGGTCTXX(X=A,T,C,G)为基准进行打分,序列第7位必须为碱基”T”,第8位必须为碱基“C”;序列第1位为“T”时分值为17.6,否则为0;序列第3位为“T”时累加17.6,为“C”时累加5.8,否则累加0;序列第4位为“G”时累加17.6,为“A”时累加5.8,否则累加0;序列第5位为“G”时累加17.6,否则累加0;序列第6位为“G”时累加17.6,否则累加0;序列第9位为“T”时累加12,为“A”时累加5.8,否则累加0。
⑥遍历(3)得到的序列(win=4,序列长度为12bp)的序列以XXTCTGGGTTXX(A,T,C,G)为基准进行打分,序列第4位必须为碱基”C”,第5位必须为碱基“T”;序列第10位为“T”时分值为17.6,否则为0;序列第9位为“T”时累加17.6,为“C”时累加5.8,否则累加0;序列第8位为“G”时累加17.6,为“A”时累加5.8,否则累加0;序列第7位为“G”时累加17.6,否则累加0;序列第6位为“G”时累加17.6,否则累加0;序列第3位为“T”时累加12,为“A”时累加5.8,否则累加0。
(4)排序,按序列分数从高到低排序。
以EGFP蛋白为例,在编码EGFP蛋白的核苷酸序列中确定核酸酶识别位点的过程如下:
(1)将EGFP核苷酸序列seq1(SEQ ID NO:1)翻译为氨基酸序列seq2(SEQ ID NO:2);
(2)滑窗切片,(a)将seq2序列以步长为1(step=1),窗口大小为3进行切片,得到3个氨基酸长度的氨基酸片段,将每个氨基酸片段对应的不同密码子通过随机重组,穷举得到所有氨基酸片段对应的可能的碱基序列,并构建成一个密码子序列集;(b)将seq2序列以步长为1(step=1),窗口大小为4进行切片,得到长度为4个氨基酸的氨基酸片段,将每个氨基酸片段对应不同密码子通过随机重组,穷举得到所有氨基酸片段对应的可能的碱基序列,并将相应碱基序列添加进入之前构建的密码子序列集中;
示例性的,对seq2序列以步长为1、窗口大小为3个氨基酸长度进行切片,得到如下所示的氨基酸片段:
MVS,
VSK,
SKG,
KGE,
GEE,
……
LYK,
YK*;
其中,上述的“……”表示对seq2序列以步长为1、窗口大小为3个氨基酸长度依次切片得到的位于GEE与LYK之间的氨基酸片段。“*”代表终止密码子。
对seq2序列以步长为1、窗口大小为4个氨基酸长度进行切片,得到如下所示的氨基酸片段:
MVSK(SEQ ID NO:60),
VSKG(SEQ ID NO:61),
SKGE(SEQ ID NO:62),
……
ELYK(SEQ ID NO:63),
LYK*;
其中,上述的“……”表示对seq2序列以步长为1、窗口大小为4个氨基酸长度依次切片得到的位于SKGE与ELYK之间的氨基酸片段。“*”代表终止密码子。
(3)遍历(2)中所构建的密码子序列集,并以TTGGGTCTX、XTTGGGTCT、XXTTGGGTCTXX、TCTGGGTTX、XTCTGGGTT与XXTCTGGGTTXX为目标基序打分,作为密码子序列与目标基序的匹配值;序列分数从高到低排序,如表1(部分,其中“……”表示密码子序列集中遍历的密码子序列,及其所对应的匹配值);
表1
(4)根据步骤(3)中匹配值的计算结果,得到目标密码子序列,包含目标密码子序列的编码区序列为目标编码区序列。
实施例3:体外合成编码eGFP的环状mRNA
本实施例提供了通过本公开中筛选的包含核酶识别位点的eGFP的编码区序列制备能够表达eGFP的环状mRNA的方法
(1)eGFP基因截断位点的筛选及质粒构建
通过实施例1-2中提供的方法,获得待优化的氨基酸单元为DGS,通过密码子优化为GAT GGA TCA(核酶识别位点序列)并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-eGFP截断片段II-ev29-eGFP截断片段I-T4td内含子片段I的结构形式,本实施例涉及的氨基酸及核苷酸序列如下表2所示:
表2
|
SEQ ID NO: |
eGFP蛋白序列 |
SEQ ID NO:3 |
内含子片段II |
SEQ ID NO:4 |
内含子片段I |
SEQ ID NO:5 |
Ev29序列 |
SEQ ID NO:10 |
未截断eGFP序列 |
SEQ ID NO:11 |
eGFP截断片段I序列 |
SEQ ID NO:12 |
eGFP截断片段II序列 |
SEQ ID NO:13 |
通过该架构委托苏州金唯智生物科技有限公司进行质粒的合成与克隆。所得基因片段连接到pUC57载体。得到如下质粒:pUC57-EV29-eGFP(SEQ ID NO:14)
(2)线性质粒模板制备
1)质粒抽提
①将外部合成的穿刺菌活化,条件37℃/220rpm/3~4h
②取活化菌液扩大培养,培养条件:37℃/220rpm/过夜
③质粒抽提(天根无内毒素小量中提试剂盒),测定OD值
2)质粒酶切
采取XbaI单酶切的方法酶切上述步骤1)中制备的质粒,酶切体系如下表所示:
表3
试剂 |
体积 |
质粒 |
10μg |
酶(1000units) |
5μl |
10x cutsmart buffer |
50μl |
Nuclease free,H<sub>2</sub>O |
Total 500μl |
37℃酶切过夜。采用通用型DNA胶回收试剂盒(天根生化科技有限公司)回收酶切产物,测定OD值并采用1%琼脂糖凝胶电泳鉴定酶切产物。纯化的线性质粒模板用于体外转录。
(3)体外转录制备线性mRNA
1)体外转录
采用T7体外转录试剂盒(APExBIO T7 High Yield RNA Synthesis Kit)合成mRNA,转录体系如下表所示:
表4
试剂 |
体积 |
10xReaction Buffer |
2μl |
ATP(20mM) |
2μl |
CTP(20mM) |
2μl |
UTP(20mM) |
2μl |
GTP(20mM) |
2μl |
线性化DNA模板 |
1μg |
T7 RNA Polymerase Mix |
2μl |
RNA Nuclease free,H2O |
Total 20μl |
37℃孵育2.5h,然后用DNase I消化线性DNA模板。消化条件:37℃消化15min。
2)线性mRNA纯化
将上述1)所得转录产物,使用硅膜离心柱法纯化(Thermo,GeneJET RNAPurification Kit),测定OD值及1%变性琼脂糖凝胶电泳鉴定RNA大小。
3)线性mRNA纯化
将上述1)所得转录产物,使用硅膜离心柱法纯化(Thermo,GeneJET RNAPurification Kit),测定OD值及1%变性琼脂糖凝胶电泳鉴定RNA大小。
1%变性琼脂糖凝胶配制方法如下:
1)称取1g琼脂糖,至72ml nuclease-free,H2O中,微波炉加热溶解;
2)上述琼脂糖冷却至55~60℃时,在通风橱加0.1%的gel red,10ml 10xMOPS,18ml甲醛,灌胶;
3)变性琼脂糖凝胶电泳流程如下:取等体积样本RNA与2×Loading buffer,65~70℃变性5~10min。上样,采用100V/30min条件进行电泳,其后采用凝胶成像系统拍照。
(4)mRNA环化
1)环化试剂:
GTP Buffer:50mM Tris-HCl,10mM MgCl2,1mM DTT,pH 7.5左右。
2)环化体系与条件:
表5
溶液 |
体积 |
mRNA |
25μg mRNA |
GTP solution(20mM) |
50μl |
GTP buffer |
补足至500μl |
将上述溶液于55℃加热15min,之后置于冰上,环化RNA产物使用硅膜离心柱法纯化(Thermo,GeneJET RNA Purification Kit),测定OD值及1%变性琼脂糖凝胶电泳鉴定RNA大小。
3)环状RNA1%变性琼脂糖凝胶鉴定
试剂配制:1g琼脂糖粉加入72ml无核酸酶水中,加热将琼脂塘融化,加入10ml10×MOPS缓冲液。然后在通风柜中加入18ml新鲜37%甲醛,充分混合,将凝胶倒入槽中。
mRNA检测:取500ng左右mRNA溶液,加入等体积的2×RNA loading buffer混匀,65℃加热5min,进行琼脂糖凝胶检测。
实验结果:
表6
图18示出了示出了利用经典PIE系统,与本公开中Clean PIE系统用于制备环状mRNA的质粒酶切产物(A)与成环后产物(B)的琼脂糖凝胶电泳检测结果。
上述结果显示:与经典PIE系统对比,本公开中利用Clean PIE系统制备环状RNA的成环过程及工艺不需要任何额外的改动,成环效果明显。通过琼脂糖凝胶电泳检测发现成环效率与经典PIE系统相似,未发现明显差异。
实施例4:通过本公开方法体外合成的环状mRNA在体外表达的验证
本实施例将实施例3中制备的环状mRNA转染至293T细胞中,检测通过本公开方法体外合成的环状mRNA在293T细胞中表达的情况,具体过程如下:
(1)细胞培养:
293T接种于含有10%胎牛血清,1%双抗的DMEM高糖培养基中,于37℃,5%CO2培养箱中培养。细胞每隔2-3天进行传代培养。
(2)细胞转染:
转染前将293T细胞以1×105个/孔接种于24孔板中,于37℃,5%CO2培养箱中培养。待细胞达到70-90%融合度后,使用Lipofectamine MessengerMax(Invitrogen)转染试剂将mRNA以500ng/孔量转染293T细胞,具体操作如下:
1)稀释Messenger MAXTM Reagent,稀释配比如下表所示:
表7
试剂 |
体积/孔 |
MEM无血清培养基 |
25μl |
MessengerMAX<sup>TM</sup> Reagent |
0.75μl |
稀释混合后,室温静置孵育10min;
2)稀释mRNA,稀释配比如下表所示:
表8
试剂 |
体积/孔 |
mRNA |
1μg |
MEM无血清培养基 |
补足至25μl |
3)如下表所示,取混合稀释后的Messenger MAXTM Reagent和mRNA(1:1):
表9
试剂 |
体积/孔 |
稀释的MessengerMAX<sup>TM</sup> Reagent |
25μl |
稀释的mRNA |
25μl |
稀释混合后,室温静置孵育5min;
4)吸取上述混合液50μl贴壁缓缓加入24孔板中,37℃、5%CO2培养箱中孵育培养。
(3)蛋白表达检测:
1)细胞荧光观察:将转染后24小时293T细胞于200×荧光显微镜下观察EGFP的表达情况。
2)流式细胞术检测细胞平均荧光强度:将转染后24小时293T细胞用流式细胞仪检测细胞平均荧光强度。
图19示出了利用经典PIE系统,与本公开中Clean系统制备环状mRNA的体外表达水平的检测结果。其中,A:荧光显微镜观测结果,B:流式细胞仪检测结果。
图19结果显示:
本公开意外发现,与经典PIE成环方法制备的环状mRNA相比,本公开中Clean PIE制备的环状mRNA在293T转染细胞中细胞荧光强增强,说明本公开中Clean PIE制备环状mRNA由于未引入额外的外显子序列,从而未引起较强的免疫原性,使环状mRNA在细胞中的稳定性提高。同时流式细胞检测数据也显示本公开中Clean PIE制备的环状mRNA在体外表达较经典PIE制备的环状mRNA出现这种意想不到的表达水平的提高。综合以上结果表明本公开中Clean PIE系统在获得更精确的环状mRNA的基础上,会使环状mRNA的表达水平提升。
实施例5:Clean PIE系统在不同蛋白上的应用
本实施例利用Clean PIE系统制备了多种在多种其他不同蛋白上的成环应用。本公开涉及的编码区序列包括spCas9,firefly Luciferase,IL12以及FLAG-con1-SPOP167-274,具体如下:
1)通过实施例1-2中提供的方法,获得spCas9的待优化的氨基酸单元为LGS,通过密码子优化为CTT GGG TCT(核酶识别位点序列),并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-spCas9截断片段II-ev29-spCas9截断片段I-T4td内含子片段I的结构形式;
2)通过实施例1-2提供的方法,获得firefly Luciferase的待优化的氨基酸单元为LRS,通过密码子优化为CTT AGG TCT(核酶识别位点序列),并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-fLUC截断片段II-ev29-fLUC截断片段I-T4td内含子片段I的结构形式;
3)通过实施例1-2提供的方法,获得IL12的待优化的氨基酸单元为LGS,通过密码子优化为CTT GGG TCT(核酶识别位点序列)并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-IL12截断片段II-ev29-IL12截断片段I-T4td内含子片段I的结构形式
4)通过实施例1-2提供的方法,获得FLAG-con1-SPOP167-274的待优化的氨基酸单元为LGP,通过密码子优化为TTG GGT CCT(核酶识别位点序列)并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-FLAG-con1-SPOP167-274截断片段II-ev29-FLAG-con1-SPOP167-274S截断片段I-T4td内含子片段I的结构形式。
通过实施例3的实验方法分别制备表达spCas9,firefly Luciferase,IL12以及FLAG-con1-SPOP167-274的环状mRNA,本实施例涉及的序列如下表所示:
表10
|
SEQ ID NO: |
spCas9截断片段I |
SEQ ID NO:15 |
spCas9截断片段II |
SEQ ID NO:16 |
fLUC截断片段I |
SEQ ID NO:17 |
fLUC截断片段II |
SEQ ID NO:18 |
IL12截断片段I |
SEQ ID NO:19 |
IL12截断片段II |
SEQ ID NO:20 |
FLAG-con1-SPOP167-274截断片段I |
SEQ ID NO:21 |
FLAG-con1-SPOP167-274截断片段II |
SEQ ID NO:22 |
图20示出了Clean PIE成环制备的表达不同蛋白的环状mRNA的琼脂糖凝胶检测结果。实验结果显示:通过对不同蛋白(spCas9,firefly Luciferase,IL12以及FLAG-con1-SPOP167-274)的成环发现,在不同的蛋白内优化得到核酶识别位点序列后,利用本公开中Clean PIE成环系统在成环反应后均出现在琼脂糖凝胶中迁移速率的差异。从而证明所有的蛋白的编码序列均可以有效的成环。综合以上结果证明本公开提供的方法可以在不同的序列的蛋白之间有效应用,具有较好的通用性和兼容性,可以作为一种新型的大分子(>1000bp)成环方式。
实施例6:分析Clean系统的适用性
本实施例通过生物信息方式验证了本专利Clean PIE系统在大肠杆菌基因组基因中可利用情况进行了分析,并且说明了本公开寻找目标成环序列(包含核酶识别位点的序列)的方法有普遍适应性。
以T4td PIE系统为例:通过对大肠杆菌基因组序列中大于1000bp以及500bp的基因进行生物信息学评估,从而筛选出有效的成环序列(>70分)。
图21显示了对大肠杆菌基因组大于1000bp以及500bp的基因进行匹配值打分的评估结果。结果显示:
通过对大肠杆菌基因组大于1000bp以及500bp的基因放入筛选系统中,利用匹配值计算模块进行评价,发现在大于500bp以上的基因中能找到评分在82分以上的目标成环序列的概率已经可以达到100%。另外编码基因也可以通过组合不同Group I intron的E1E2序列进一步提高这种概率。即通过匹配值计算模块筛选最合适的内含子以及其对应的E1E2序列作为环状mRNA的成环位点(核酶识别位点)。
实施例7:RNaseR成环验证
本实施例通过对线性以及环状mRNA进行消化,验证了本公开中成环方法的可行性。具体地:由于相对于线性RNA,环状RNA对RNaseR有更好的耐受性,可以通过对比线性mRNA及Clean PIE成环的环状mRNA对RNaseR的耐受来验证序列的成环。
在实施例3的基础上,将其产生的经典PIE系统及Clean PIE系统的线性及环状mRNA通过RNaseR消化,RNase购于MClab货号RNASR-100,RNase R消化体系:
表11
|
|
mRNA |
1μg |
RNase R |
1U |
10x Reaction buffer |
2μl |
H<sub>2</sub>O |
up to 20μl |
37℃孵育5分钟,之后通过70℃孵育5分钟进行失活
图22示出了RNaseR消化不同PIE系统产生的线性及环状mRNA。实验结果:不管是经典PIE还是Clean PIE系统,环化后的环状mRNA都对RNaseR表现出了较好的耐受性。说明Clean PIE系统的可以有效的形成环状mRNA。
实施例8:毛细管电泳对Clean PIE系统成环方法的验证
本实施例通过毛细管电泳的方法对制备的环状mRNA进行检测
通过实施例7环化得到的环状RNA粗产物经显微分光光度法(Nano-DropTechnologies,Thermo)测定浓度后,由RNA 6000assay kit(Agilent 5067-1511)处理后通过安捷伦2100自动核酸分析仪检测分析.试剂盒及上机步骤请参见安捷伦官方网站。
图23示出了毛细管电泳分析结果。其中上图(A)为未经RNaseR处理及HPLC纯化的环状RNA产物毛细管电泳检测图谱,中图(B)为上图的局部放大,下图(C)为分子量标品。结果显示:
通过毛细管电泳检测,成环后的RNA成单峰,且有218,243两个内含子峰以及349的内含子双聚体峰。环状mRNA总占比为89.6%(未纯化前)进一步说明本公开中方法可以有效完成环状信使核糖核苷酸的成环。
实施例9:成环位点(核酶识别位点)处序列完整性及序列准确性验证
本实施例通过反转录后测序,鉴定本公开成环方式下环状mRNA成环位点处序列完整及准确性。本实施例中使用的引物序列如下所示:
Fluc-R:TACTTGTCGATCAGGGTGCT(SEQ ID NO:23)
Fluc-F:TGGACAGCAAGACCGACTAC(SEQ ID NO:24)
IL12-R:CTGCATCAGCTCGTCGATGG(SEQ ID NO:25)
IL12-F:TACTACAACAGCAGCTGCAGCA(SEQ ID NO:26)
通过Takara公司的反转录试剂盒(RR037B,Takara)将实施例5中fireflyLuciferase(Fluc)以及IL12的线性和环状mRNA反转录成第一链cDNA;以cDNA作为模板,采用特异性引物进行PCR扩增获得扩增片段;通过测序比对实际合成的环状mRNA与设计的环状mRNA的序列。
图24示出了Fluc及IL12反转录后cDNA的PCR测序分析结果。其中A示出了线性和环状mRNA反转录后PCR扩增片段的琼脂糖凝胶电泳检测结果,B为表达Fluc与IL12的环状mRNA反转录后的测序结果。红色箭头代表环状mRNA特异性扩增条带,红色方框所框序列为fluc和IL12的成环位点。
实验结果显示,线性mRNA组未见特异性扩增条带,环状mRNA组可见特异性扩增条带。通过对该特异性条带进行切胶回收,纯化后进行Sanger测序。测序结果显示,PCR条带与所期望条带一致,成环位点附近未出现多余碱基插入或缺失。由此可见,Luciferase以及IL12已准确成环。
实施例10:未成环线性部分的表达分析验证
本实施例验证了本公开中Clean PIE系统产生的线性RNA无法表达出任何蛋白,说明了在本公开中的线性mRNA在成环前不会产生任何非特异性翻译蛋白。
本实例按照实施例5的方法将经典PIE系统下的FLAG-con1-SPOP的线性及环状mRNA以及Clean PIE系统下的线性及环状mRNA转染至293T细胞,并在24小时后收集细胞进行裂解,并进行western blot检测。由于在启动子后存在FLAG标签,表达的蛋白可以通过anti-FLAG的抗体进行检测。
图25示出了经典PIE系统与本公开中Clean PIE系统用于制备环状mRNA的未成环线性mRNA,与成环后环状mRNA的表达检测结果。其中,A示出了经典PIE系统与Clean PIE系统未成环的线性mRNA的结构,B示出了western blot检测的线性mRNA的蛋白表达结果。结果显示:
经典PIE架构下,未成环线性mRNA依然可以表达,而Clean PIE架构下未成环线性mRNA未出现任何表达产物。在不同成环系统下成环的环状RNA都能够表达,其中不同系统下环状mRNA表达量的不同是由于系统中元件的不同造成的。本实施例证明了本公开中CleanPIE系统用于制备环状mRNA具有较高的生物安全性。
实施例11:翻译调控元件增强Clean PIE成环的环状mRNA的表达
本实施例在实施例3中提供的Clean PIE成环系统中连接插入元件,插入元件具体为翻译调控元件,其连接于ev29的5’端。通过增加翻译调控元件,可以增强本公开成环方法产生的环状mRNA的表达。并且通过筛选,得出了利于编码蛋白表达的最优polyAC长度。
连接翻译调控元件的Clean PIE成环系统包含如下所示结构:
T4td内含子片段II-eGFP截断片段II-翻译调控元件(PolyAC)-ev29-eGFP截断片段I-T4td内含子片段I。
其中,PolyAC的核苷酸序列如SEQ ID NO:1所示,添加PolyAC的成环后序列如SEQID NO:2所示。
将带有翻译调控表达元件的线性eGFP信使核糖核苷酸,通过实施例3的方法制备环状mRNA,并通过实施例4的方法将环状mRNA转染至293T细胞并通过流式细胞仪对eGFP表达情况进行测定。
图26示出了插入翻译调控元件(polyAC)后,利用Clean PIE系统制备的环状mRNA的表达检测结果;结果显示:
在一定范围内,随着插入的翻译调控元件的数量增加,可以显著提高环状mRNA表达eGFP的表达。其中,添加六段polyAC可以得到最大的表达效率提高效果,而进一步增加长度对编码蛋白的表达并没有显著的提高(10×polyAC数据)。
实施例12:翻译调控元件调控Clean PIE成环的环状mRNA的组织特异性表达
本实施例Clean PIE成环系统中连接插入元件,插入元件具体为调控环状mRNA在器官中特异性表达的翻译调控元件,其连接于IRES元件的5’端。Clean PIE系统包含如下所示结构,各元件序列可参考实施例3-5:
T4td内含子片段II-LUC截断片段II-翻译调控元件-ev29-LUC截断片段I-T4td内含子片段I。
按照实施例3-4的方法制备环状mRNA:EV29-LUC-3UTR(SEQ ID NO:56所示序列)、EV29-LUC+1×miR-122(SEQ ID NO:57所示序列)、EV29-LUC+3×miR-122(SEQ ID NO:58所示序列),进行DLin-MC3-DMA LNP递送系统的包载,通过微流控设备制备,将水相中的mRNA活性成分与有机相中的四种脂质充分混合后形成纳米尺寸的高包封率的环状mRNA-脂质纳米粒复合物。具体过程如下:
(1)首先将环状mRNA原液用pH4.0的柠檬酸溶液稀释至0.4mg/mL,称取4种脂质溶解到乙醇溶液中,脂质总浓度为24.4mg/mL。
(2)使用微流控设备将两相快速混合,其中总流速设为12mL/min,水相(环状mRNA)/有机相(脂质)(v/v)=3:1。
(3)制备结束后,使用透析或切向流的方式除掉乙醇,同时将溶液置换成pH 7.4的PBS溶液,即得到环状mRNA-脂质纳米粒复合物。
(4)使用动态光散射器(DLS)检测环状mRNA-脂质纳米粒复合物的粒径及多分散系数(PDI),使用Ribogreen检测复合物中环状mRNA的包封率。
采用尾静脉注射方式对小鼠给药,6小时后测定Luciferase在小鼠的表达情况。具体方法为:取pUC-EV29-LUC、pUC-EV29-LUC+1×miR-122、pUC-EV29-LUC+3×miR-122免疫后的小鼠,腹腔注射0.3ml的luciferase底物VivoGlo luciferin(In Vivo Grade,Promega),8分钟后进行成像,观测体内分布和荧光表达强度。
图27示出了翻译调控元件调控Clean PIE系统成环的环状mRNA的组织特异性表达,其中A为注射带有miR122位点环状mRNA在小鼠中的表达情况,B为带有miR122位点的Clean PIE系统的框架结构。实验结果显示:
对照组(EV29-luc-3UTR)小鼠的荧光素酶主要在肌肉注射部位以及肝脏表达;而加入单个miR-122作用位点的环状mRNA(EV29-luc-+1×miR-122)主要在尾静脉注射部位表达,个别小鼠出现少量肝脏表达;而加入三个miR-122作用位点的环状mRNA(EV29-luc+3×miR-122),其mRNA仅在肌肉注射部位表达,未检测到肝脏表达。由此可见,在本公开CleanPIE系统中引入miR-122结合位点作为翻译调控元件,能有效避免环状mRNA在肝脏表达,且引入的miR-122位点越多,其肝脏表达抑制效应越显著。
实施例13:翻译调控元件在环状mRNA纯化上的作用
本实施例通过在翻译调控元件中添加适配体(aptamer),实现对环状mRNA的纯化,具体的,根据文献(Leppek K,Stoecklin G.An optimized streptavidin-binding RNAaptamer for purification of ribonucleoprotein complexes identifies novel ARE-binding proteins[J].Nucleic acids research,2014,42(2):e13-e13.)所述将4个S1m适配体序列,添加入本公开Clean PIE系统的翻译调控元件中,按照实施例3的方法成环。结构如下所示:
T4td内含子片段II-eGFP截断片段II-翻译调控元件(添加S1m适配体)-ev29-eGFP截断片段I-T4td内含子片段I;
S1m序列(SEQ ID NO:37):
AUGCGGCCGCCGACCAGAAUCAUGCAAGUGCGUAAGAUAGUCGCGGGUCG GCGGCCGCAU;
成环后环状RNA序列如SEQ ID NO:59所示。
在LoBind tube(Eppendorf)离心管中,用Wash Buffer(20mM Tris-HCl(pH 7.5),150mM NaCl,1.5mM MgCl2,2mM DTT,2mM vanadylribonucleosid complex RNaseinhibitor(NEB),1tablet/10ml Mini Complete Protease Inhibitors,EDTA-free(Roche))清洗Streptavidin Sepharose High Performance(GEHealthcare)琼脂糖凝胶磁珠。30μg环状RNA粗产物(Input)在37℃孵育10分钟后,与之前洗过的100ul琼脂糖凝胶磁珠以及3ulRNase inhibitor 4℃旋转混合孵育2-3小时,离心,去上清(unbound),在50ul添加了10mM biotin的lysis buffer中继续4℃孵育1小时,离心取上清,上清为纯化后产物(biotin elution)。
图28示出了通过S1m RNA适配体纯化环状mRNA的凝胶电泳检测结果。通过链霉素亲和层析可以将带有该适配体的环状mRNA从成环反应体系中分离出来,从而去除自剪切后的内含子片段及其他小片段核苷酸杂质。Input表示经实施例7的方法成环后的环状RNA粗产物,Biotin elution为经过后纯化产物,unbound为未结合链霉素琼脂糖凝胶磁珠产物。
实施例14:成环后eGFP免疫原性的检测
本实施例对鱼腥藻PIE系统及本公开中Clean PIE系统制备的环状mRNA在A549细胞中诱导免疫相应因子的表达情况。具体如下:
通过实施例3提供的,将鱼腥藻PIE以及通过本公开中Clean PIE成环后环状mRNA的经过RNaseR消化后HPLC纯化,所得纯化后的环状mRNA通过Lipofectamine MessengerMax(Invitrogen)转染至A549细胞中,具体实施过程如下:
A549接种于含有10%胎牛血清,1%双抗的DMEM高糖培养基中,于37℃,5%CO2培养箱中培养。细胞每隔2-3天进行传代培养。
(1)细胞转染:
转染前将A549细胞以1×105个/孔接种于24孔板中,于37℃,5%CO2培养箱中培养。待细胞达到70-90%融合度后,使用Lipofectamine MessengerMax(Invitrogen)转染试剂将mRNA以500ng/孔量转染293T细胞,具体操作如下:
1)稀释Messenger MAXTM Reagent,稀释体系如下表所示:
表12
试剂 |
体积/孔 |
MEM无血清培养基 |
25μl |
Messenger MAX<sup>TM</sup> Reagent |
0.75μl |
稀释混合后,室温静置孵育10min。
2)稀释mRNA,稀释体系如下表所示:
表13
试剂 |
体积/孔 |
mRNA |
1μg |
MEM无血清培养基 |
补足至25μl |
3)取混合稀释后的Messenger MAXTM Reagent和mRNA(1:1)
表14
试剂 |
体积/孔 |
稀释的Messenger MAX<sup>TM</sup> Reagent |
25μl |
稀释的mRNA |
25μl |
稀释混合后,室温静置孵育5min。
(2)吸取上述混合液50μl贴壁缓缓加入24孔板中,37℃、5%CO2培养箱中孵育培养。
(3)裂解表达8小时后的细胞,通过荧光定量PCR验证免疫响应蛋白表达水平。
荧光定量PCR使用的引物序列如下所示:
IFNb-F:TGGGAGGATTCTGCATTACC(SEQ ID NO:42)
IFNb-R:CAGCATCGCTGGTTGAGA(SEQ ID NO:43)
RIG-1-F:CTCCCGGCACAGAAGTGTAT(SEQ ID NO:44)
RIG-1-R:CTTCCTCTGCCTCTGGTTTG(SEQ ID NO:45)
IFNa-F:CCATCTCTGTCCTCCATGAG(SEQ ID NO:46)
IFNa-R:ATTTCTGCTCTGACAACCTC(SEQ ID NO:47)
PKR-F:TGCAAAATGGGACAGAAAGA(SEQ ID NO:48)
PKR-R:TGATTCAGAAGCGAGTGTGC(SEQ ID NO:49)
MDA5-F:ACCAAATACAGGAGCCATGC(SEQ ID NO:50)
MDA5-R:GCGATTTCCTTCTTTTGCAG(SEQ ID NO:51)
TNFa-F:CGTCTCCTACCAGACCAAGG(SEQ ID NO:52)
TNFa-R:CCAAAGTAGACCTGCCCAGA(SEQ ID NO:53)
IL-6-F:TACCCCCAGGAGAAGATTCC(SEQ ID NO:54)
IL-6-R:GCCATCTTTGGAAGGTTCAG(SEQ ID NO:55)
下表中示出了通过两种PIE系统制备的环状mRNA的序列:
表15
图29示出了利用Clean PIE系统(图中对应clean PIE),以及利用鱼腥藻PIE系统(图中对应ana-PIE)制备环状mRNA诱导免疫因子的表达情况。结果显示:
ana-PIE经过RNase R消化及HPLC纯化后虽然INFb依然可以引起免疫反应,而通过本公开中成环系统制备环状mRNA相较于ana-PIE有明显的下降,从而证明具有更精确序列的环状mRNA可以减少免疫原性的诱发。
实施例15:同源臂的缺失不影响环状mRNA的体外成环
本实施例检测在本公开的Clean PIE系统中添加同源臂,对成环效率的影响。具体地:通过实施例1-2中所提到的方法,获得待优化的氨基酸单元为DGS,通过密码子优化为GAT GGA TCA(核酶识别位点序列)并通过TC(有效碱基对)位点截断并且形成T4td内含子片段II-eGFP截断片段II-ev29-eGFP截断截断片段I-T4td内含子片段I的结构形式,同时构建包含或者不包含同源臂的内含子序列,具体结构如下:
本实施例中涉及到的序列信息:
表16
|
SEQ ID NO: |
eGFP蛋白序列 |
SEQ ID NO:3 |
内含子片段II(包含同源臂) |
SEQ ID NO:4 |
内含子片段I(包含同源臂) |
SEQ ID NO:5 |
内含子片段II(不包含同源臂) |
SEQ ID NO:6 |
内含子片段I(包含同源臂) |
SEQ ID NO:7 |
Ev29序列 |
SEQ ID NO:10 |
通过实施例3的实验方法分别转录,环化这两种构建体从而得到他们的环状mRNA。通过变性的琼脂糖凝胶电泳分析检测环化结果。图30示出了添加同源臂以及不添加同源臂的Clean PIE系统制备环状mRNA的凝胶电泳检测结果。结果显示:
本公开Clean PIE系统框架中不论是否包含同源臂,环状mRNA都可以有效成环。该结果证明了同源臂在本公开成环系统中是可以省略的。其原因是由于在本公开框架下成环位点(核酶识别位点)总是会将编码基因分成两部分,编码区通常不会存在很复杂的二级结构,这种良性的序列间隔开启动元件与自剪切内含子序列,从而形成一种独特的二级结构,更有利于内含子序列的正确折叠及靠近,所以在本公开框架下不需要同源臂的存在就可以有效的成环。
实施例16:不同评分的成环位点成环的验证
本实施例比较了,通过筛选系统得到的同一蛋白序列(IL12 human)中不同评分及不同位置的成环位点(核酶识别位点)的成环效率。具体地:
通过实施例1-2中所提到的方法,分别获得待优化的氨基酸单元DRVF(866,score93.8),IWS(377,score88),SGS(1021,score 88),GGS(1285,score88)以及LGS(211,score 100)通过密码子优化分别优化为如下核酶识别位点序列:GAT CGG GTC TTT,ATTTGG TCT,TCT GGG TCT,GGT GGG TCT,CTT GGG TCT并通过TC位点截断并且形成如下结构:
T4td内含子片段II-IL12human截断片段II-ev29-IL 12human截断片段I-T4td内含子片段I;
表17
通过实施例3的实验方法分别转录、环化这两种构建体,从而得到相应的环状mRNA。通过变性的琼脂糖凝胶电泳分析得到图31所示结构,结果显示:
通过不同评分的成环位点截断的IL12human都可以成环,但是成环效率有差异。成环效率的差异可能是由于不同开环位置处二级结构的不同造成的。由此可以推断成环位点评分小幅度的差异并不能很好的反应成环效率,需要结合序列内二级结构进行进一步评估。
实施例17:最低可成环分数的探索
本实施例通过验证不同分数截断片段的成环情况确定最低成环分数。
以T4td为例通过比较更改成环部位(核酶识别位点)的序列(TTGGGTCT),将实施例6,7中eGFP序列成环位点的序列更改为如下不同分数的碱基序列验证成环情况:
100分(TTGGGTCT),94.2分(TCGGGTCT),82.4分(TAGGGTCT,ATGGGTCT),64.8分(AAGGGTCT,ATGGCTCT),47.2分(AACGGTCT,TTCATTCT),29.6分序列(AACGCTCT,AAACCGTCT,TACCCTCT)。
经过实施例7所述方法进行成环验证,其中80分以上序列全部可以成环且成环效率在50%以上,47.2分及64.8分序列经过成环测试发现不是所有序列可以出现成环现象,也有部分序列可以成环但整体成环效率不高,29.6分序列已经很难成环。
实施例18:通过连接子T2A串联的多肽表达
本实施例通过将eGFP和firefly Luciferase的编码区通过连接子编码的2A肽(T2A)串联后,验证各蛋白的表达情况。具体地:
根据实施例3提供的方法,利用包含如下结构的Clean PIE系统构建环状mRNA,得到能够以T2A串联的表达eGFP和firefly Luciferase的环状mRNA:
内含子片段II-eGFP截断片段II-EV29-Luciferase编码区-连接子-eGFP截断片段I-内含子片段I,其中eGFP截断片段II-EV29-Luciferase编码区-连接子-eGFP截断片段I的序列如SEQ ID NO:40所示。
通过实施例4提供的方法将得到的环状mRNA转染至293T细胞中,通过荧光显微镜以及Luciferase Reporter Assay Kit(abcam)检测eGFP以及firefly Luciferase的表达情况
图32示出了包含以T2A串联不同编码区的环状mRNA表达eGFP和fireflyLuciferase的蛋白表达检测结果。其中A示出了细胞免疫荧光检测结果,B示出了eGFP以及firefly Luciferase的蛋白表达检测结果,C示出了Clean PIE系统的结构;结果显示:
通过荧光显微镜及Luciferase Reporter Assay Kit验证发现,eGFP以及Luciferase表达正常,证明通过连接子(T2A)对不同编码区进行串联的方法可行。通过这种方法可以在同一条环状mRNA上同时编码两个以及两个以上的蛋白。
实施例19:通过IRES串联不同目标多肽的表达
本实施例将eGFP和firefly Luciferase的编码区通过IRES串联后进行表达验证。
根据通过实施例3的方法,利用包含如下结构的Clean PIE系统构建环状mRNA,得到能够以IRES串联的表达eGFP和firefly Luciferase的环状mRNA:
内含子片段II-eGFP截断片段II-EV29-Luciferase编码区-IRES-eGFP截断片段I-内含子片段I,其中eGFP截断片段II-EV29-Luciferase编码区-IRES-eGFP截断片段I的序列如SEQ ID NO:41所示。
通过实施例4提供的方法将得到的环状mRNA转染至293T细胞中,通过荧光显微镜以及Luciferase Reporter Assay Kit(abcam)检测eGFP以及firefly Luciferase的表达情况
图33示出了以IRES串联不同编码区的环状mRNA表达eGFP和firefly Luciferase的蛋白表达检测结果。其中A示出了细胞免疫荧光检测结果,B示出了eGFP以及fireflyLuciferase的蛋白表达检测结果,C示出了Clean PIE系统的结构;结果显示:
不同IRES将eGFP和Luciferase串联在同一条环状mRNA中,可以有效成环,并且通过荧光显微镜及Luciferase Reporter Assay Kit验证发现,GFP以及Luciferase表达正常,证明通过IRES串联的方式对不同编码区进行表达的方法可行。通过这种方法可以在同一条环状mRNA上同时编码两个以及两个以上的蛋白。
本公开的上述实施例仅是为清楚地说明本公开所作的举例,而并非是对本公开的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本公开的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本公开权利要求的保护范围之内。
SEQUENCE LISTING
<110> 苏州科锐迈德生物医药科技有限公司
<120> 一种重组核酸分子及其在制备环状RNA中的应用
<130> 6A23-2213030IP-SU
<160> 80
<170> PatentIn version 3.5
<210> 1
<211> 19
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of PolyAC
<400> 1
aaaaaacaaa aaacaaaac 19
<210> 2
<211> 1542
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of circular RNA
<400> 2
ggggttaaaa cagcctgtgg gttgatccca cccacagggc ccactgggcg ctagcactct 60
ggtatcacgg tacctttgtg cgcctgtttt atacttcctc ccccaactgc aacttagaag 120
taacacaaac cgatcaacag tcagcgtggc acaccagcca cgttttgatc aaacacttct 180
gttaccccgg actgagtatc aatagactgc tcacgcggtt gaaggagaaa acgttcgtta 240
tccggccaac tacttcgaga aacctagtaa cgccatggaa gttgtggagt gtttcgctca 300
gcactacccc agtgtagatc aggttgatga gtcaccgcat tccccacggg tgaccgtggc 360
ggtggctgcg ttggcggcct gcccatgggg aaacccatgg gacgctctta tacagacatg 420
gtgcgaagag tctattgagc tagttggtag tcctccggcc cctgaatgcg gctaatccca 480
actgcggagc atacactctc aagccagagg gtagtgtgtc gtaatgggca actctgcagc 540
ggaaccgact actttgggtg tccgtgtttc attttattcc tatactggct gcttatggtg 600
acaattgaga gattgttacc atatagctat tggattggcc atccggtgac taacagagct 660
attatatatc tttttgttgg gtttatacca cttagcttga aagaggttaa aactctacat 720
tacattttaa tactgaacac cgcaaaatgg tgtcaaaggg tgaggaatta ttcaccggcg 780
tggtgcctat ccttgtggaa cttgatggag atgtgaacgg acacaaattc agtgtatcag 840
gagaaggaga aggagatgca acatacggaa agctcactct taaatttatc tgcacaacag 900
gaaagctccc ggtgccttgg cctacacttg tgacaacact tacatacgga gtgcaatgct 960
tctcgcgtta ccctgatcac atgaaacaac acgatttctt caagagtgca atgcctgaag 1020
gatacgtgca agaaagaaca atcttcttca aggacgatgg aaactacaag actcgtgcag 1080
aagtgaaatt tgaaggagat acacttgtga acagaatcga acttaaagga atcgatttca 1140
aggaggatgg aaacatcctt ggacacaaac ttgaatacaa ctacaactca cacaacgtgt 1200
acatcatggc agataaacag aagaatggta tcaaagtgaa ctttaagatt cgccacaaca 1260
tcgaagatgg gtctgtgcaa cttgcagatc actaccaaca gaatacgccg ataggagatg 1320
gacctgtgct tcttcctgat aaccactacc tttcaacaca atcagcactt tcaaaggacc 1380
caaacgagaa gcgagaccac atggtgcttc ttgaatttgt gacagcagca ggaatcacac 1440
ttggaatgga tgaactttac aaatgaaaaa aacaaaaaac aaaacaaaaa acaaaaaaca 1500
aaacaaaaaa caaaaaacaa aaaaaaaaca aaaaacaaaa cc 1542
<210> 3
<211> 238
<212> PRT
<213> Artificial Sequence
<220>
<223> sequence of eGFP
<400> 3
Met Val Ser Lys Gly Glu Glu Leu Phe Thr Gly Val Val Pro Ile Leu
1 5 10 15
Val Glu Leu Asp Gly Asp Val Asn Gly His Lys Phe Ser Val Ser Gly
20 25 30
Glu Gly Glu Gly Asp Ala Thr Tyr Gly Lys Leu Thr Leu Lys Phe Ile
35 40 45
Cys Thr Thr Gly Lys Leu Pro Val Pro Trp Pro Thr Leu Val Thr Thr
50 55 60
Leu Thr Tyr Gly Val Gln Cys Phe Ser Arg Tyr Pro Asp His Met Lys
65 70 75 80
Gln His Asp Phe Phe Lys Ser Ala Met Pro Glu Gly Tyr Val Gln Glu
85 90 95
Arg Thr Ile Phe Phe Lys Asp Asp Gly Asn Tyr Lys Thr Arg Ala Glu
100 105 110
Val Lys Phe Glu Gly Asp Thr Leu Val Asn Arg Ile Glu Leu Lys Gly
115 120 125
Ile Asp Phe Lys Glu Asp Gly Asn Ile Leu Gly His Lys Leu Glu Tyr
130 135 140
Asn Tyr Asn Ser His Asn Val Tyr Ile Met Ala Asp Lys Gln Lys Asn
145 150 155 160
Gly Ile Lys Val Asn Phe Lys Ile Arg His Asn Ile Glu Asp Gly Ser
165 170 175
Val Gln Leu Ala Asp His Tyr Gln Gln Asn Thr Pro Ile Gly Asp Gly
180 185 190
Pro Val Leu Leu Pro Asp Asn His Tyr Leu Ser Thr Gln Ser Ala Leu
195 200 205
Ser Lys Asp Pro Asn Glu Lys Arg Asp His Met Val Leu Leu Glu Phe
210 215 220
Val Thr Ala Ala Gly Ile Leu Gly Met Asp Glu Leu Tyr Lys
225 230 235
<210> 4
<211> 222
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of intron region II
<400> 4
ggatcctaat acgactcact atagggagac cctcgcacag tgagcaactg acggaggttc 60
tacataaatg cctaacgact atccctttgg ggagtagggt caagtgactc gaaacgatag 120
acaacttgct ttaacaagtt ggagatatag tctgctctgc atggtgacat gcagctggat 180
ataattccgg ggtaagatta acgaccttat ctgaacataa tg 222
<210> 5
<211> 128
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of intron region I
<400> 5
taattgaggc ctgagtataa ggtgacttat acttgtaatc tatctaaacg gggaacctct 60
ctagtagaca atcccgtgct aaattgtagg actaccgtca gttgctcact gtgcatcaga 120
tttctaga 128
<210> 6
<211> 163
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of intron region II
<400> 6
ctacataaat gcctaacgac tatccctttg gggagtaggg tcaagtgact cgaaacgata 60
gacaacttgc tttaacaagt tggagatata gtctgctctg catggtgaca tgcagctgga 120
tataattccg gggtaagatt aacgacctta tctgaacata atg 163
<210> 7
<211> 93
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of intron region I
<400> 7
taattgaggc ctgagtataa ggtgacttat acttgtaatc tatctaaacg gggaacctct 60
ctagtagaca atcccgtgct aaattgtagg act 93
<210> 8
<211> 59
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of homology arm
<400> 8
ggatcctaat acgactcact atagggagac cctcgcacag tgagcaactg acggaggtt 59
<210> 9
<211> 35
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of homology arm
<400> 9
accgtcagtt gctcactgtg catcagattt ctaga 35
<210> 10
<211> 742
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of Ev29 IRES
<400> 10
ttaaaacagc ctgtgggttg atcccaccca cagggcccac tgggcgctag cactctggta 60
tcacggtacc tttgtgcgcc tgttttatac ttcctccccc aactgcaact tagaagtaac 120
acaaaccgat caacagtcag cgtggcacac cagccacgtt ttgatcaaac acttctgtta 180
ccccggactg agtatcaata gactgctcac gcggttgaag gagaaaacgt tcgttatccg 240
gccaactact tcgagaaacc tagtaacgcc atggaagttg tggagtgttt cgctcagcac 300
taccccagtg tagatcaggt tgatgagtca ccgcattccc cacgggtgac cgtggcggtg 360
gctgcgttgg cggcctgccc atggggaaac ccatgggacg ctcttataca gacatggtgc 420
gaagagtcta ttgagctagt tggtagtcct ccggcccctg aatgcggcta atcccaactg 480
cggagcatac actctcaagc cagagggtag tgtgtcgtaa tgggcaactc tgcagcggaa 540
ccgactactt tgggtgtccg tgtttcattt tattcctata ctggctgctt atggtgacaa 600
ttgagagatt gttaccatat agctattgga ttggccatcc ggtgactaac agagctatta 660
tatatctttt tgttgggttt ataccactta gcttgaaaga ggttaaaact ctacattaca 720
ttttaatact gaacaccgca aa 742
<210> 11
<211> 720
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of eGFP
<400> 11
atggtgtcaa agggtgagga attattcacc ggcgtggtgc ctatccttgt ggaacttgat 60
ggagatgtga acggacacaa attcagtgta tcaggagaag gagaaggaga tgcaacatac 120
ggaaagctca ctcttaaatt tatctgcaca acaggaaagc tcccggtgcc ttggcctaca 180
cttgtgacaa cacttacata cggagtgcaa tgcttctcgc gttaccctga tcacatgaaa 240
caacacgatt tcttcaagag tgcaatgcct gaaggatacg tgcaagaaag aacaatcttc 300
ttcaaggacg atggaaacta caagactcgt gcagaagtga aatttgaagg agatacactt 360
gtgaacagaa tcgaacttaa aggaatcgat ttcaaggagg atggaaacat ccttggacac 420
aaacttgaat acaactacaa ctcacacaac gtgtacatca tggcagataa acagaagaat 480
ggtatcaaag tgaactttaa gattcgccac aacatcgaag atggatcagt gcaacttgca 540
gatcactacc aacagaatac gccgatagga gatggacctg tgcttcttcc tgataaccac 600
tacctttcaa cacaatcagc actttcaaag gacccaaacg agaagcgaga ccacatggtg 660
cttcttgaat ttgtgacagc agcaggaatc acacttggaa tggatgaact ttacaaatga 720
<210> 12
<211> 526
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region I of eGFP
<400> 12
atggtgtcaa agggtgagga attattcacc ggcgtggtgc ctatccttgt ggaacttgat 60
ggagatgtga acggacacaa attcagtgta tcaggagaag gagaaggaga tgcaacatac 120
ggaaagctca ctcttaaatt tatctgcaca acaggaaagc tcccggtgcc ttggcctaca 180
cttgtgacaa cacttacata cggagtgcaa tgcttctcgc gttaccctga tcacatgaaa 240
caacacgatt tcttcaagag tgcaatgcct gaaggatacg tgcaagaaag aacaatcttc 300
ttcaaggacg atggaaacta caagactcgt gcagaagtga aatttgaagg agatacactt 360
gtgaacagaa tcgaacttaa aggaatcgat ttcaaggagg atggaaacat ccttggacac 420
aaacttgaat acaactacaa ctcacacaac gtgtacatca tggcagataa acagaagaat 480
ggtatcaaag tgaactttaa gattcgccac aacatcgaag atgggt 526
<210> 13
<211> 194
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region II of eGFP
<400> 13
ctgtgcaact tgcagatcac taccaacaga atacgccgat aggagatgga cctgtgcttc 60
ttcctgataa ccactacctt tcaacacaat cagcactttc aaaggaccca aacgagaagc 120
gagaccacat ggtgcttctt gaatttgtga cagcagcagg aatcacactt ggaatggatg 180
aactttacaa atga 194
<210> 14
<211> 4447
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of pUC57-EV29-eGFP
<400> 14
cgcgcgtttc ggtgatgacg gtgaaaacct ctgacacatg cagctcccgg agactgtcac 60
agcttgtctg taagcggatg ccgggagcag acaagcccgt cagggcgcgt cagcgggtgt 120
tggcgggtgt cggggctggc ttaactatgc ggcatcagag cagattgtac tgagagtgca 180
ccatatgcgg tgtgaaatac cgcacagatg cgtaaggaga aaataccgca tcaggcgcca 240
ttcgccattc aggctgcgca actgttggga agggcgatcg gtgcgggcct cttcgctatt 300
acgccagctg gcgaaagggg gatgtgctgc aaggcgatta agttgggtaa cgccagggtt 360
ttcccagtca cgacgttgta aaacgacggc cagtgaattg acgcgtattg ggatgaattc 420
ggatcctaat acgactcact atagggagac cctcgcacag tgagcaactg acggaggttc 480
tacataaatg cctaacgact atccctttgg ggagtagggt caagtgactc gaaacgatag 540
acaacttgct ttaacaagtt ggagatatag tctgctctgc atggtgacat gcagctggat 600
ataattccgg ggtaagatta acgaccttat ctgaacataa tgctgtgcaa cttgcagatc 660
actaccaaca gaatacgccg ataggagatg gacctgtgct tcttcctgat aaccactacc 720
tttcaacaca atcagcactt tcaaaggacc caaacgagaa gcgagaccac atggtgcttc 780
ttgaatttgt gacagcagca ggaatcacac ttggaatgga tgaactttac aaatgagggg 840
ttaaaacagc ctgtgggttg atcccaccca cagggcccac tgggcgctag cactctggta 900
tcacggtacc tttgtgcgcc tgttttatac ttcctccccc aactgcaact tagaagtaac 960
acaaaccgat caacagtcag cgtggcacac cagccacgtt ttgatcaaac acttctgtta 1020
ccccggactg agtatcaata gactgctcac gcggttgaag gagaaaacgt tcgttatccg 1080
gccaactact tcgagaaacc tagtaacgcc atggaagttg tggagtgttt cgctcagcac 1140
taccccagtg tagatcaggt tgatgagtca ccgcattccc cacgggtgac cgtggcggtg 1200
gctgcgttgg cggcctgccc atggggaaac ccatgggacg ctcttataca gacatggtgc 1260
gaagagtcta ttgagctagt tggtagtcct ccggcccctg aatgcggcta atcccaactg 1320
cggagcatac actctcaagc cagagggtag tgtgtcgtaa tgggcaactc tgcagcggaa 1380
ccgactactt tgggtgtccg tgtttcattt tattcctata ctggctgctt atggtgacaa 1440
ttgagagatt gttaccatat agctattgga ttggccatcc ggtgactaac agagctatta 1500
tatatctttt tgttgggttt ataccactta gcttgaaaga ggttaaaact ctacattaca 1560
ttttaatact gaacaccgca aaatggtgtc aaagggtgag gaattattca ccggcgtggt 1620
gcctatcctt gtggaacttg atggagatgt gaacggacac aaattcagtg tatcaggaga 1680
aggagaagga gatgcaacat acggaaagct cactcttaaa tttatctgca caacaggaaa 1740
gctcccggtg ccttggccta cacttgtgac aacacttaca tacggagtgc aatgcttctc 1800
gcgttaccct gatcacatga aacaacacga tttcttcaag agtgcaatgc ctgaaggata 1860
cgtgcaagaa agaacaatct tcttcaagga cgatggaaac tacaagactc gtgcagaagt 1920
gaaatttgaa ggagatacac ttgtgaacag aatcgaactt aaaggaatcg atttcaagga 1980
ggatggaaac atccttggac acaaacttga atacaactac aactcacaca acgtgtacat 2040
catggcagat aaacagaaga atggtatcaa agtgaacttt aagattcgcc acaacatcga 2100
agatgggtta attgaggcct gagtataagg tgacttatac ttgtaatcta tctaaacggg 2160
gaacctctct agtagacaat cccgtgctaa attgtaggac taccgtcagt tgctcactgt 2220
gcatcagatt tctagaatcc caatggcgcg ccgagcttgg ctcgagcatg gtcatagctg 2280
tttcctgtgt gaaattgtta tccgctcaca attccacaca acatacgagc cggaagcata 2340
aagtgtaaag cctggggtgc ctaatgagtg agctaactca cattaattgc gttgcgctca 2400
ctgcccgctt tccagtcggg aaacctgtcg tgccagctgc attaatgaat cggccaacgc 2460
gcggggagag gcggtttgcg tattgggcgc tgttccgctt cctcgctcac tgactcgctg 2520
cgctcggtcg ttcggctgcg gcgagcggta tcagctcact caaaggcggt aatacggtta 2580
tccacagaat caggggataa cgcaggaaag aacatgtgag caaaaggcca gcaaaaggcc 2640
aggaaccgta aaaaggccgc gttgctggcg tttttccata ggctccgccc ccctgacgag 2700
catcacaaaa atcgacgctc aagtcagagg tggcgaaacc cgacaggact ataaagatac 2760
caggcgtttc cccctggaag ctccctcgtg cgctctcctg ttccgaccct gccgcttacc 2820
ggatacctgt ccgcctttct cccttcggga agcgtggcgc tttctcatag ctcacgctgt 2880
aggtatctca gttcggtgta ggtcgttcgc tccaagctgg gctgtgtgca cgaacccccc 2940
gttcagcccg accgctgcgc cttatccggt aactatcgtc ttgagtccaa cccggtaaga 3000
cacgacttat cgccactggc agcagccact ggtaacagga ttagcagagc gaggtatgta 3060
ggcggtgcta cagagttctt gaagtggtgg cctaactacg gctacactag aagaacagta 3120
tttggtatct gcgctctgct gaagccagtt accttcggaa aaagagttgg tagctcttga 3180
tccggcaaac aaaccaccgc tggtagcggt ggtttttttg tttgcaagca gcagattacg 3240
cgcagaaaaa aaggatctca agaagatcct ttgatctttt ctacggggtc tgacgctcag 3300
tggaacgaaa actcacgtta agggattttg gtcatgagat tatcaaaaag gatcttcacc 3360
tagatccttt taaattaaaa atgaagtttt aaatcaatct aaagtatata tgagtaaact 3420
tggtctgaca gttagaaaaa ctcatcgagc atcaaatgaa actgcaattt attcatatca 3480
ggattatcaa taccatattt ttgaaaaagc cgtttctgta atgaaggaga aaactcaccg 3540
aggcagttcc ataggatggc aagatcctgg tatcggtctg cgattccgac tcgtccaaca 3600
tcaatacaac ctattaattt cccctcgtca aaaataaggt tatcaagtga gaaatcacca 3660
tgagtgacga ctgaatccgg tgagaatggc aaaagtttat gcatttcttt ccagacttgt 3720
tcaacaggcc agccattacg ctcgtcatca aaatcactcg catcaaccaa accgttattc 3780
attcgtgatt gcgcctgagc gaaacgaaat acgcgatcgc tgttaaaagg acaattacaa 3840
acaggaatcg aatgcaaccg gcgcaggaac actgccagcg catcaacaat attttcacct 3900
gaatcaggat attcttctaa tacctggaat gctgttttcc cagggatcgc agtggtgagt 3960
aaccatgcat catcaggagt acggataaaa tgcttgatgg tcggaagagg cataaattcc 4020
gtcagccagt ttagtctgac catctcatct gtaacatcat tggcaacgct acctttgcca 4080
tgtttcagaa acaactctgg cgcatcgggc ttcccataca atcgatagat tgtcgcacct 4140
gattgcccga cattatcgcg agcccattta tacccatata aatcagcatc catgttggaa 4200
tttaatcgcg gcctagagca agacgtttcc cgttgaatat ggctcatact cttccttttt 4260
caatattatt gaagcattta tcagggttat tgtctcatga gcggatacat atttgaatgt 4320
atttagaaaa ataaacaaat aggggttccg cgcacatttc cccgaaaagt gccacctgac 4380
gtctaagaaa ccattattat catgacatta acctataaaa ataggcgtat cacgaggccc 4440
ttttgtc 4447
<210> 15
<211> 2494
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region I of spCas9
<400> 15
atggactaca aggaccacga cggcgactac aaggaccacg acatcgacta caaggacgac 60
gatgacaaga tggcccccaa gaagaagagg aaggtgggca tccacggcgt gcccgccgcc 120
gacaagaagt acagcatcgg cctggacatc ggcaccaaca gcgtgggctg ggccgtgatc 180
accgacgact acaaggtgcc cagcaagaag ttcaaggtgc tgggcaacac cgacaggcac 240
agcatcaaga agaacctgat cggcgccctg ctgttcgaca gcggcgagac cgccgaggcc 300
accaggctga agaggaccgc caggaggagg tacaccagga ggaagaacag gatctgctac 360
ctgcaggaga tcttcagcaa cgagatggcc aaggtggacg acagcttctt ccacaggctg 420
gaggagagct tcctggtgga ggaggacaag aagcacgaga ggcaccccat cttcggcaac 480
atcgtggacg aggtggccta ccacgagaag taccccacca tctaccacct gaggaagaag 540
ctggccgaca gcaccgacaa ggccgacctg aggctgatct acctggccct cgcccacatg 600
atcaagttca ggggccactt cctgatcgag ggcgacctga accccgacaa cagcgacgtg 660
gacaagctgt tcatccagct ggtgcagacc tacaaccagc tgttcgagga gaaccccatc 720
aacgccagca gggtggacgc caaggccatc ctgagcgcca ggctgagcaa gagcaggagg 780
ctggagaacc tgatcgccca gctgcccggc gagaagaaga acggcctgtt cggcaacctg 840
atcgccctgc tgctgggcct gacccccaac ttcaagagca acttcgacct ggccgaggac 900
gccaagctgc agctgagcaa ggacacctac gacgacgacc tggacaacct gctggcccag 960
atcggcgacc agtacgccga cctgttcctg gccgccaaga acctgagcga cgccatcctg 1020
ctgagcgaca tcctgagggt gaacagcgag atcaccaagg cccccttgag cgccagcatg 1080
atcaagaggt acgacgagca ccaccaggac ctgaccctgc tgaaggccct ggtgaggcag 1140
cagctgcccg agaagtacaa ggagatcttc ttcgaccaga gcaagaacgg ctacgccggc 1200
tacatcgacg gcggcgccag ccaggaggag ttctacaagt tcatcaagcc catcctggag 1260
aagatggacg gcaccgagga gctgctggcc aagctgaaca gggaggacct gctgaggaag 1320
cagaggacct tcgacaacgg cagcatcccc caccagatcc acctgggcga gctgcacgcc 1380
atcctgagga ggcaggagga cttctacccc ttcctgaagg acaacaggga gaagatcgag 1440
aagatcctga ccttcaggat cccctactac gtgggccccc tggccagggg caacagcagg 1500
ttcgcctgga tgaccaggaa gagcgaggag accatcaccc cctggaactt cgaggaggtg 1560
gtggacaagg gcgccagcgc ccagagcttc atcgagagga tgaccaactt cgacaagaac 1620
ctgcccaacg agaaggtgct gcccaagcac agcctgctgt acgagtactt caccgtgtac 1680
aacgagctga ccaaggtgaa gtacgtgacc gagggcatga ggaagcccgc cttcctgagc 1740
ggcgagcaga agaaggccat cgtggacctg ctgttcaaga ccaacaggaa ggtgaccgtg 1800
aagcagctga aggaggacta cttcaagaag atcgagtgct tcgacagcgt ggagatcagc 1860
ggcgtggagg acaggttcaa cgccagcctg ggcacctacc acgacctgct gaagatcatc 1920
aaggataagg acttcctgga caacgaggag aacgaggaca tcctggagga catcgtgctg 1980
accctgacac tgttcgagga caaggagatg atcgaggaga ggctgaagaa gtacgcccac 2040
ctgttcgacg acaaggtgat gaagcagctg aagaggagga ggtacaccgg ctggggcagg 2100
ctgagcagga agctgatcaa cggcatcagg gacaagcaga gcggcaagac catcctggac 2160
ttcctgaaga gcgacggctt cgccaacagg aacttcatgc agctgatcca cgacgacagc 2220
ctgaccttca aggaggacat ccagaaggcc caggtgagcg gccagggcga cagcctgcac 2280
gagcacatcg ccaacctggc cggcagcccc gccatcaaga agggcatcct gcagaccgtg 2340
aaggtggtgg acgagctggt gaaggtgatg ggcaggcaca agcccgagaa catcgtgatc 2400
gagatggcca gggagaacca gaccacccag aagggccaga agaacagcag ggagaggatg 2460
aagaggatcg aggagggcat caaggagctt gggt 2494
<210> 16
<211> 1766
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region II of spCas9
<400> 16
ctgacatcct gaaggagtac cccgtggaga acacccagct gcagaacgag aagctgtacc 60
tctactacct gcagaacggc agggacatgt acgtggacca ggagctggac atcaacaggc 120
tgagcgacta cgacgtggac cacatcgtgc cccagagctt cctgaaggac gacagcatcg 180
acaacaaggt gctgaccagg agcgacaaga acaggggcaa gagcgacaac gtgcccagcg 240
aggaggtggt gaagaagatg aagaactact ggaagcagct gctgaacgcc aagctgatca 300
cccagaggaa gttcgacaac ctgaccaagg ccgagagggg cggcctgagc gagctggaca 360
aggccggctt catcaagagg cagctggtgg agaccaggca gatcaccaag cacgtggccc 420
agatcctgga cagcaggatg aacaccaagt acgacgagaa cgacaagctg atcagggagg 480
tgagggtgat caccctgaag agcaagctgg tgagcgactt caggaaggac ttccagttct 540
acaaggtgag ggagatcaac aactaccacc acgcccacga cgcctacctg aacgccgtgg 600
tgggcaccgc cctgatcaag aagtacccca agctggagag cgagttcgtg tacggcgact 660
acaaggtgta cgacgtgaga aagatgatcg ccaagagcga gcaggagatc ggcaaggcca 720
ccgccaagta cttcttctac agcaacatca tgaacttctt caagaccgag atcaccctgg 780
ccaacggcga gatcaggaag aggcccctga tcgagaccaa cggcgagacc ggcgagatcg 840
tgtgggacaa gggcagggac ttcgccaccg tgaggaaggt gctgagcatg ccccaggtga 900
acatcgtgaa gaagaccgag gtgcagaccg gcggcttcag caaggagagc atcctgccca 960
agaggaacag cgacaagctg atcgccagga agaaggactg ggaccccaag aagtacggcg 1020
gcttcgacag ccccaccgtg gcctacagcg tgctggtggt ggccaaggtg gagaagggca 1080
agagcaaaaa gctgaagagc gtgaaggagc tgctgggcat caccatcatg gagaggagca 1140
gcttcgagaa gaaccccatc gacttcctgg aggccaaggg ctacaaggag gtgaggaagg 1200
acctgatcat caagctgccc aagtacagcc tgttcgagct ggagaacggc aggaagagga 1260
tgctggccag cgccggcgag ctgcagaagg gcaacgagct ggccctgccc agcaagtacg 1320
tgaacttcct gtacctggcc agccactacg agaagctgaa gggcagcccc gaggacaacg 1380
agcagaagca gctgttcgtg gagcagcaca agcactacct ggacgagatc atcgagcaga 1440
tcagcgagtt cagcaagagg gtgatcctgg ccgacgccaa cctggacaag gtgctgagcg 1500
cctacaacaa gcacagggac aagcccatca gggagcaggc cgagaacatc atccacctgt 1560
tcaccctgac caacctgggc gcccccgccg ccttcaagta cttcgacacc accatcgaca 1620
ggaagaggta caccagcacc aaggaggtgc tggacgccac cctgatccac cagagcatca 1680
ccggcctgta cgagaccagg atcgacctga gccagctggg cggcgactcc ggccctccca 1740
agaagaagag gaaggtgggc ggctga 1766
<210> 17
<211> 826
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region I of fLUC
<400> 17
atggaggacg ccaagaacat caagaagggc cctgcccctt tctaccctct ggaggacggc 60
accgccggcg agcagctgca caaggccatg aagaggtacg ccctggtgcc tggcaccatc 120
gccttcaccg acgcccacat cgaggtggac atcacctacg ccgagtactt cgagatgagc 180
gtgaggctgg ccgaggccat gaagaggtac ggcctgaaca ccaaccacag gatcgtggtg 240
tgcagcgaga acagcctgca gttcttcatg cctgtgctgg gcgccctgtt catcggcgtg 300
gccgtggccc ctgccaacga catctacaac gagagggagc tgctgaacag catgggcatc 360
agccagccta ccgtggtgtt cgtgagcaag aagggcctgc agaagatcct gaacgtgcag 420
aagaagctgc ctatcatcca gaagatcatc atcatggaca gcaagaccga ctaccagggc 480
ttccagagca tgtacacctt cgtgaccagc cacctgcctc ctggcttcaa cgagtacgac 540
ttcgtgcctg agagcttcga cagggacaag accatcgccc tgatcatgaa cagcagcggc 600
agcaccggcc tgcctaaggg cgtggccctg cctcacagga ccgcctgcgt gaggttcagc 660
cacgccaggg accctatctt cggcaaccag atcatccctg acaccgccat cctgagcgtg 720
gtgcctttcc accacggctt cggcatgttc accaccctgg gctacctgat ctgcggcttc 780
agggtggtgc tgatgtacag gttcgaggag gagctgttcc ttaggt 826
<210> 18
<211> 827
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region II of fLUC
<400> 18
ctctgcagga ctacaagatc cagagcgccc tgctggtgcc taccctgttc agcttcttcg 60
ccaagagcac cctgatcgac aagtacgacc tgagcaacct gcacgagatc gccagcggcg 120
gcgcccctct gagcaaggag gtgggcgagg ccgtggccaa gaggttccac ctgcctggca 180
tcaggcaggg ctacggcctg accgagacca ccagcgccat cctgatcacc cctgagggcg 240
acgacaagcc tggcgccgtg ggcaaggtgg tgcctttctt cgaggccaag gtggtggacc 300
tggacaccgg caagaccctg ggcgtgaacc agaggggcga gctgtgcgtg aggggcccta 360
tgatcatgag cggctacgtg aacaaccctg aggccaccaa cgccctgatc gacaaggacg 420
gctggctgca cagcggcgac atcgcctact gggacgagga cgagcacttc ttcatcgtgg 480
acaggctgaa gagcctgatc aagtacaagg gctaccaggt ggcccctgcc gagctggaga 540
gcatcctgct gcagcaccct aacatcttcg acgccggcgt ggctggcttg cctgatgacg 600
atgctggaga gctgcctgcc gccgtggtgg tgctggagca cggcaagacc atgaccgaga 660
aggagatcgt ggactacgtg gccagccagg tgaccaccgc caagaagctg aggggcggcg 720
tggtgttcgt ggacgaggtg cctaagggcc tgaccggcaa gctggacgcc aggaagatca 780
gggagatcct gatcaaggcc aagaagggcg gcaagatcgc cgtgtga 827
<210> 19
<211> 1351
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region I of IL12
<400> 19
atgagggtga ccgcccctag gaccctgatc ctgctgctga gcggcgccct ggccctcacc 60
gagacctggg ccggcagcgg aagcatgtgg gagctggaga aggacgtgta cgtggtggag 120
gtcgactgga cccctgacgc ccctggcgag accgtgaacc tgacctgcga cacccctgag 180
gaggacgaca tcacctggac cagcgaccag aggcacggcg tgatcggcag cggcaagacc 240
ctgaccatca ccgtgaagga gttcctggac gccggccagt acacctgcca caagggcggc 300
gagaccctga gccactccca cctgctgctg cacaagaagg agaacggcat ctggagcacc 360
gagatcctga agaacttcaa gaacaagacc ttcctgaagt gcgaggcccc taactacagc 420
ggcaggttca cctgcagctg gctggtgcag aggaacatgg acctgaagtt caacatcaag 480
agcagcagct ccagccctga cagcagggcc gtgacctgcg gcatggccag cctgagcgcc 540
gagaaggtga ccctggacca gagggactac gagaagtaca gcgtgagctg ccaggaggac 600
gtgacctgcc ctaccgccga ggagaccctg cctatcgagc tggccctgga ggccaggcag 660
cagaacaagt acgagaacta cagcaccagc ttcttcatca gggacatcat caagcctgac 720
cctcctaaga acctgcagat gaagcctctg aagaacagcc aggtggaggt gagctgggag 780
taccctgaca gctggagcac ccctcacagc tacttcagcc tgaagttctt cgtgaggatc 840
cagaggaaga aggagaagat gaaggagacc gaggagggct gcaaccagaa gggcgccttc 900
ctggtggaga agaccagcac cgaggtgcag tgcaagggcg gcaacgtgtg cgtgcaggcc 960
caggacaggt actacaacag cagctgcagc aagtgggcct gcgtgccttg cagggtgagg 1020
agcgtgcctg gcgtgggcgt ccctggcgtg ggcagggtga tccctgtgag cggccctgcc 1080
aggtgcctga gccagagcag gaacctgctg aagaccaccg acgacatggt gaagaccgcc 1140
agggagaagc tgaagcacta cagctgcacc gccgaggaca tcgaccacga ggacatcacc 1200
agggaccaga ccagcaccct gaagacctgc ctgcctctgg agctgcacaa gaacgagagc 1260
tgcctggcca ccagggagac cagcagcacc accaggggca gctgcctgcc tcctcagaag 1320
accagcctga tgatgaccct gtgccttggg t 1351
<210> 20
<211> 284
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region II of IL12
<400> 20
ctatctacga ggacctgaag atgtaccaga ccgagttcca ggccatcaac gccgccctgc 60
agaaccacaa tcaccagcag atcatcctgg acaagggcat gctggtggcc atcgacgagc 120
tgatgcagag cctgaaccac aacggcgaga ccctgaggca gaagcctcct gtgggcgagg 180
ccgaccctta cagggtgaag atgaagctgt gcatcctgct gcacgccttc agcaccaggg 240
tggtgaccat caacagggtg atgggctacc tgagcagcgc ctga 284
<210> 21
<211> 699
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region I of FLAG-con1-SPOP167-274
<400> 21
atggactaca aggacgacga cgataaggcc agcagcgccg tgctgcagaa gaagatcacc 60
gactacttcc accccaagaa gggcagcggc tctggcagcg gaagcgtgaa catcagcggc 120
cagaacacca tgaacatggt gaaggtgccc gagtgcagac tggccgacga gctgggcggc 180
ctgtgggaga acagcaggtt caccgactgc tgcctgtgcg tggccggcca ggagttccag 240
gcccacaagg ccatcctggc cgccaggagc cccgtgttca gcgccatgtt cgagcacgag 300
atggaggaga gcaagaagaa cagagtggag atcaacgacg tggagcccga ggtgttcaag 360
gagatgatgt gcttcatcta caccggcaag gcccccaacc tggacaagat ggccgacgac 420
ctgctggccg ccgccgacaa gtacgccctg gagagactga aggtgatgtg cgaggacgcc 480
ctgtgcagca acctgagcgt ggagaacgcc gccgagatcc tcatcctggc cgacctgcac 540
agcgccgacc agctgaagac ccaggccgtg gacttcatca actaccacgc cagcgacgtg 600
ctggagacca gcggctggaa gagcatggtg gtgagccacc cccacctggt ggccgaggcc 660
tacaggagcc tggccagcgc ccagtgcccc ttcttgggt 699
<210> 22
<211> 30
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region II of FLAG-con1-SPOP167-274
<400> 22
cctcccagga agagactgaa gcagagctga 30
<210> 23
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 23
tacttgtcga tcagggtgct 20
<210> 24
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 24
tggacagcaa gaccgactac 20
<210> 25
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 25
ctgcatcagc tcgtcgatgg 20
<210> 26
<211> 22
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 26
tactacaaca gcagctgcag ca 22
<210> 27
<211> 754
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region II of FLAG-con1-SPOP167-274
<400> 27
ctttaccgac aagaccagcg ccaccgtgat ctgcaggaag aacgccagca tcagcgtgag 60
ggcccaggac aggtactaca gcagcagctg gagcgagtgg gccagcgtgc cctgcagcgg 120
cagcagcggc ggcgggggca gccccggcgg cggcagcagc aggaacctgc ccgtggccac 180
ccctgatccc ggaatgttcc cttgcctgca ccacagccag aacctgctga gggccgtgag 240
caacatgctg cagaaggcca ggcagaccct ggagttctac ccctgcacca gcgaggagat 300
cgaccacgag gacatcacca aggacaagac cagcaccgtg gaggcctgtc tgcccttgga 360
gctgaccaag aacgagagct gcctgaacag cagggagacc agcttcatca ccaacggcag 420
ctgcctggcc agcaggaaga ccagcttcat gatggccctg tgcctgagca gcatctacga 480
ggacctgaag atgtaccagg tggagttcaa gaccatgaac gccaagctgc tgatggaccc 540
caagaggcag atcttcctgg accagaacat gctggccgtg atcgacgagc tgatgcaggc 600
cctgaacttc aacagcgaga ccgtgcccca gaagagcagc ctggaggagc ccgacttcta 660
caagaccaag atcaagctgt gcatcctgct gcacgccttc aggatcagag ccgtgaccat 720
cgacagggtg atgagctacc tgaacgccag ctga 754
<210> 28
<211> 866
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region I of FLAG-con1-SPOP167-274
<400> 28
atgtgccacc agcagctggt gatcagctgg ttcagcctgg tgttcctggc cagccccctg 60
gtggccatct gggagctgaa gaaggacgtg tacgtggtgg agctggactg gtaccccgac 120
gcccccggcg agatggtggt gctgacctgc gacacccccg aggaggacgg catcacctgg 180
accctggacc agagcagcga ggtgctgggc agcggcaaga ccctgaccat ccaggtgaag 240
gagttcggcg acgccggcca gtacacctgc cacaagggcg gcgaggtgct gagccacagc 300
ctgctgctgc tccacaagaa ggaggacggc atctggagca ccgacatcct gaaggaccag 360
aaggagccca agaacaagac cttcctgagg tgcgaggcca agaactacag cggcaggttc 420
acctgctggt ggctgaccac catcagcacc gacctgacct tcagcgtgaa gagcagcagg 480
ggcagcagcg acccccaggg cgtgacctgc ggcgctgcca cattgtctgc tgaaagggtt 540
agaggcgaca acaaggagta cgaatacagc gtggagtgcc aggaggacag cgcctgcccc 600
gccgccgagg agagcctgcc catcgaggtg atggtggacg ccgtgcacaa gctgaagtac 660
gagaactaca ccagcagctt cttcatcagg gacatcatca agcccgaccc tcccaagaac 720
ctgcagctga agcccctgaa gaacagcagg caggtggagg tgagctggga gtaccccgac 780
acctggagca cccctcacag ctacttcagc ctgaccttct gcgtgcaggt ccagggcaag 840
agcaagcggg agaagaagga tcgggt 866
<210> 29
<211> 1283
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region II of FLAG-con1-SPOP167-274
<400> 29
ctaccgacat cctgaaggac cagaaggagc ccaagaacaa gaccttcctg aggtgcgagg 60
ccaagaacta cagcggcagg ttcacctgct ggtggctgac caccatcagc accgacctga 120
ccttcagcgt gaagagcagc aggggcagca gcgaccccca gggcgtgacc tgcggcgctg 180
ccacattgtc tgctgaaagg gttagaggcg acaacaagga gtacgaatac agcgtggagt 240
gccaggagga cagcgcctgc cccgccgccg aggagagcct gcccatcgag gtgatggtgg 300
acgccgtgca caagctgaag tacgagaact acaccagcag cttcttcatc agggacatca 360
tcaagcccga ccctcccaag aacctgcagc tgaagcccct gaagaacagc aggcaggtgg 420
aggtgagctg ggagtacccc gacacctgga gcacccctca cagctacttc agcctgacct 480
tctgcgtgca ggtccagggc aagagcaagc gggagaagaa ggacagggtg ttcaccgaca 540
agaccagcgc caccgtgatc tgcaggaaga acgccagcat cagcgtgagg gcccaggaca 600
ggtactacag cagcagctgg agcgagtggg ccagcgtgcc ctgcagcggc agcagcggcg 660
gcgggggcag ccccggcggc ggcagcagca ggaacctgcc cgtggccacc cctgatcccg 720
gaatgttccc ttgcctgcac cacagccaga acctgctgag ggccgtgagc aacatgctgc 780
agaaggccag gcagaccctg gagttctacc cctgcaccag cgaggagatc gaccacgagg 840
acatcaccaa ggacaagacc agcaccgtgg aggcctgtct gcccttggag ctgaccaaga 900
acgagagctg cctgaacagc agggagacca gcttcatcac caacggcagc tgcctggcca 960
gcaggaagac cagcttcatg atggccctgt gcctgagcag catctacgag gacctgaaga 1020
tgtaccaggt ggagttcaag accatgaacg ccaagctgct gatggacccc aagaggcaga 1080
tcttcctgga ccagaacatg ctggccgtga tcgacgagct gatgcaggcc ctgaacttca 1140
acagcgagac cgtgccccag aagagcagcc tggaggagcc cgacttctac aagaccaaga 1200
tcaagctgtg catcctgctg cacgccttca ggatcagagc cgtgaccatc gacagggtga 1260
tgagctacct gaacgccagc tga 1283
<210> 30
<211> 337
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region I of FLAG-con1-SPOP167-274
<400> 30
atgtgccacc agcagctggt gatcagctgg ttcagcctgg tgttcctggc cagccccctg 60
gtggccatct gggagctgaa gaaggacgtg tacgtggtgg agctggactg gtaccccgac 120
gcccccggcg agatggtggt gctgacctgc gacacccccg aggaggacgg catcacctgg 180
accctggacc agagcagcga ggtgctgggc agcggcaaga ccctgaccat ccaggtgaag 240
gagttcggcg acgccggcca gtacacctgc cacaagggcg gcgaggtgct gagccacagc 300
ctgctgctgc tccacaagaa ggaggacggc atttggt 337
<210> 31
<211> 599
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region II of FLAG-con1-SPOP167-274
<400> 31
ctagcaggaa cctgcccgtg gccacccctg atcccggaat gttcccttgc ctgcaccaca 60
gccagaacct gctgagggcc gtgagcaaca tgctgcagaa ggccaggcag accctggagt 120
tctacccctg caccagcgag gagatcgacc acgaggacat caccaaggac aagaccagca 180
ccgtggaggc ctgtctgccc ttggagctga ccaagaacga gagctgcctg aacagcaggg 240
agaccagctt catcaccaac ggcagctgcc tggccagcag gaagaccagc ttcatgatgg 300
ccctgtgcct gagcagcatc tacgaggacc tgaagatgta ccaggtggag ttcaagacca 360
tgaacgccaa gctgctgatg gaccccaaga ggcagatctt cctggaccag aacatgctgg 420
ccgtgatcga cgagctgatg caggccctga acttcaacag cgagaccgtg ccccagaaga 480
gcagcctgga ggagcccgac ttctacaaga ccaagatcaa gctgtgcatc ctgctgcacg 540
ccttcaggat cagagccgtg accatcgaca gggtgatgag ctacctgaac gccagctga 599
<210> 32
<211> 1021
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region I of FLAG-con1-SPOP167-274
<400> 32
atgtgccacc agcagctggt gatcagctgg ttcagcctgg tgttcctggc cagccccctg 60
gtggccatct gggagctgaa gaaggacgtg tacgtggtgg agctggactg gtaccccgac 120
gcccccggcg agatggtggt gctgacctgc gacacccccg aggaggacgg catcacctgg 180
accctggacc agagcagcga ggtgctgggc agcggcaaga ccctgaccat ccaggtgaag 240
gagttcggcg acgccggcca gtacacctgc cacaagggcg gcgaggtgct gagccacagc 300
ctgctgctgc tccacaagaa ggaggacggc atctggagca ccgacatcct gaaggaccag 360
aaggagccca agaacaagac cttcctgagg tgcgaggcca agaactacag cggcaggttc 420
acctgctggt ggctgaccac catcagcacc gacctgacct tcagcgtgaa gagcagcagg 480
ggcagcagcg acccccaggg cgtgacctgc ggcgctgcca cattgtctgc tgaaagggtt 540
agaggcgaca acaaggagta cgaatacagc gtggagtgcc aggaggacag cgcctgcccc 600
gccgccgagg agagcctgcc catcgaggtg atggtggacg ccgtgcacaa gctgaagtac 660
gagaactaca ccagcagctt cttcatcagg gacatcatca agcccgaccc tcccaagaac 720
ctgcagctga agcccctgaa gaacagcagg caggtggagg tgagctggga gtaccccgac 780
acctggagca cccctcacag ctacttcagc ctgaccttct gcgtgcaggt ccagggcaag 840
agcaagcggg agaagaagga cagggtgttc accgacaaga ccagcgccac cgtgatctgc 900
aggaagaacg ccagcatcag cgtgagggcc caggacaggt actacagcag cagctggagc 960
gagtgggcca gcgtgccctg cagcggcagc agcggcggcg ggggcagccc cggcggtggg 1020
t 1021
<210> 33
<211> 335
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region II of FLAG-con1-SPOP167-274
<400> 33
cttgcctggc cagcaggaag accagcttca tgatggccct gtgcctgagc agcatctacg 60
aggacctgaa gatgtaccag gtggagttca agaccatgaa cgccaagctg ctgatggacc 120
ccaagaggca gatcttcctg gaccagaaca tgctggccgt gatcgacgag ctgatgcagg 180
ccctgaactt caacagcgag accgtgcccc agaagagcag cctggaggag cccgacttct 240
acaagaccaa gatcaagctg tgcatcctgc tgcacgcctt caggatcaga gccgtgacca 300
tcgacagggt gatgagctac ctgaacgcca gctga 335
<210> 34
<211> 1285
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region I of FLAG-con1-SPOP167-274
<400> 34
atgtgccacc agcagctggt gatcagctgg ttcagcctgg tgttcctggc cagccccctg 60
gtggccatct gggagctgaa gaaggacgtg tacgtggtgg agctggactg gtaccccgac 120
gcccccggcg agatggtggt gctgacctgc gacacccccg aggaggacgg catcacctgg 180
accctggacc agagcagcga ggtgctgggc agcggcaaga ccctgaccat ccaggtgaag 240
gagttcggcg acgccggcca gtacacctgc cacaagggcg gcgaggtgct gagccacagc 300
ctgctgctgc tccacaagaa ggaggacggc atctggagca ccgacatcct gaaggaccag 360
aaggagccca agaacaagac cttcctgagg tgcgaggcca agaactacag cggcaggttc 420
acctgctggt ggctgaccac catcagcacc gacctgacct tcagcgtgaa gagcagcagg 480
ggcagcagcg acccccaggg cgtgacctgc ggcgctgcca cattgtctgc tgaaagggtt 540
agaggcgaca acaaggagta cgaatacagc gtggagtgcc aggaggacag cgcctgcccc 600
gccgccgagg agagcctgcc catcgaggtg atggtggacg ccgtgcacaa gctgaagtac 660
gagaactaca ccagcagctt cttcatcagg gacatcatca agcccgaccc tcccaagaac 720
ctgcagctga agcccctgaa gaacagcagg caggtggagg tgagctggga gtaccccgac 780
acctggagca cccctcacag ctacttcagc ctgaccttct gcgtgcaggt ccagggcaag 840
agcaagcggg agaagaagga cagggtgttc accgacaaga ccagcgccac cgtgatctgc 900
aggaagaacg ccagcatcag cgtgagggcc caggacaggt actacagcag cagctggagc 960
gagtgggcca gcgtgccctg cagcggcagc agcggcggcg ggggcagccc cggcggcggc 1020
agcagcagga acctgcccgt ggccacccct gatcccggaa tgttcccttg cctgcaccac 1080
agccagaacc tgctgagggc cgtgagcaac atgctgcaga aggccaggca gaccctggag 1140
ttctacccct gcaccagcga ggagatcgac cacgaggaca tcaccaagga caagaccagc 1200
accgtggagg cctgtctgcc cttggagctg accaagaacg agagctgcct gaacagcagg 1260
gagaccagct tcatcaccaa tgggt 1285
<210> 35
<211> 1409
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region II of FLAG-con1-SPOP167-274
<400> 35
ctggcaagac cctgaccatc caggtgaagg agttcggcga cgccggccag tacacctgcc 60
acaagggcgg cgaggtgctg agccacagcc tgctgctgct ccacaagaag gaggacggca 120
tctggagcac cgacatcctg aaggaccaga aggagcccaa gaacaagacc ttcctgaggt 180
gcgaggccaa gaactacagc ggcaggttca cctgctggtg gctgaccacc atcagcaccg 240
acctgacctt cagcgtgaag agcagcaggg gcagcagcga cccccagggc gtgacctgcg 300
gcgctgccac attgtctgct gaaagggtta gaggcgacaa caaggagtac gaatacagcg 360
tggagtgcca ggaggacagc gcctgccccg ccgccgagga gagcctgccc atcgaggtga 420
tggtggacgc cgtgcacaag ctgaagtacg agaactacac cagcagcttc ttcatcaggg 480
acatcatcaa gcccgaccct cccaagaacc tgcagctgaa gcccctgaag aacagcaggc 540
aggtggaggt gagctgggag taccccgaca cctggagcac ccctcacagc tacttcagcc 600
tgaccttctg cgtgcaggtc cagggcaaga gcaagcggga gaagaaggac agggtgttca 660
ccgacaagac cagcgccacc gtgatctgca ggaagaacgc cagcatcagc gtgagggccc 720
aggacaggta ctacagcagc agctggagcg agtgggccag cgtgccctgc agcggcagca 780
gcggcggcgg gggcagcccc ggcggcggca gcagcaggaa cctgcccgtg gccacccctg 840
atcccggaat gttcccttgc ctgcaccaca gccagaacct gctgagggcc gtgagcaaca 900
tgctgcagaa ggccaggcag accctggagt tctacccctg caccagcgag gagatcgacc 960
acgaggacat caccaaggac aagaccagca ccgtggaggc ctgtctgccc ttggagctga 1020
ccaagaacga gagctgcctg aacagcaggg agaccagctt catcaccaac ggcagctgcc 1080
tggccagcag gaagaccagc ttcatgatgg ccctgtgcct gagcagcatc tacgaggacc 1140
tgaagatgta ccaggtggag ttcaagacca tgaacgccaa gctgctgatg gaccccaaga 1200
ggcagatctt cctggaccag aacatgctgg ccgtgatcga cgagctgatg caggccctga 1260
acttcaacag cgagaccgtg ccccagaaga gcagcctgga ggagcccgac ttctacaaga 1320
ccaagatcaa gctgtgcatc ctgctgcacg ccttcaggat cagagccgtg accatcgaca 1380
gggtgatgag ctacctgaac gccagctga 1409
<210> 36
<211> 211
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of truncated region I of FLAG-con1-SPOP167-274
<400> 36
atgtgccacc agcagctggt gatcagctgg ttcagcctgg tgttcctggc cagccccctg 60
gtggccatct gggagctgaa gaaggacgtg tacgtggtgg agctggactg gtaccccgac 120
gcccccggcg agatggtggt gctgacctgc gacacccccg aggaggacgg catcacctgg 180
accctggacc agagcagcga ggtgcttggg t 211
<210> 37
<211> 60
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of S1m
<400> 37
augcggccgc cgaccagaau caugcaagug cguaagauag ucgcgggucg gcggccgcau 60
<210> 38
<211> 1464
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of circular RNA
<400> 38
ctgtgcaact tgcagatcac taccaacaga atacgccgat aggagatgga cctgtgcttc 60
ttcctgataa ccactacctt tcaacacaat cagcactttc aaaggaccca aacgagaagc 120
gagaccacat ggtgcttctt gaatttgtga cagcagcagg aatcacactt ggaatggatg 180
aactttacaa atgaggttat aacagcctgt gggttgatcc cacccacagg gcccactggg 240
cgctagcact ctggtatcac ggtacctttg tgcgcctgtt ttatacttcc tcccccaact 300
gcaacttaga agtaacacaa accgatcaac agtcagcgtg gcacaccagc cacgttttga 360
tcaaacactt ctgttacccc ggactgagta tcaatagact gctcacgcgg ttgaaggaga 420
aaacgttcgt tatccggcca actacttcga gaaacctagt aacgccatgg aagttgtgga 480
gtgtttcgct cagcactacc ccagtgttga tcaggttgtt gagtcaccgc attccccacg 540
ggtgtccgtg gcggtggctg cgttggcggc ctgcccatgg ggaaacccat gggacgctct 600
tatacagaca tggtgcgaag agtctattga gcttgttggt agtcctccgg cccctgaatg 660
cggctaatcc caactgcgga gcatacactc tcaagccaga gggtagtgtg tcgtattggg 720
caactctgca gcggaaccga ctactttggg tgtccgtgtt tcattttatt cctatactgg 780
ctgcttatgg tgacaattgt gagattgtta ccataaagct attggattgg ccatccggtg 840
actatcagag ctattatata tctttttgtt gggtttatac cactaagctt gaaagaggtt 900
ataactctac attacatttt aatactgaac accgcaaaat ggtgtcaaag ggtgaggaat 960
tattcaccgg cgtggtgcct atccttgtgg aacttgatgg agatgtgaac ggacacaaat 1020
tcagtgtatc aggagaagga gaaggagatg caacatacgg aaagctcact cttaaattta 1080
tctgcacaac aggaaagctc ccggtgcctt ggcctacact tgtgacaaca cttacatacg 1140
gagtgcaatg cttctcgcgt taccctgatc acatgaaaca acacgatttc ttcaagagtg 1200
caatgcctga aggatacgtg caagaaagaa caatcttctt caaggacgat ggaaactaca 1260
agactcgtgc agaagtgaaa tttgaaggag atacacttgt gaacagaatc gaacttaaag 1320
gaatcgattt caaggaggat ggaaacatcc ttggacacaa acttgaatac aactacaact 1380
cacacaacgt gtacatcatg gcagataaac agaagaatgg tatcaaagtg aactttaaga 1440
ttcgccacaa catcgaagat gggt 1464
<210> 39
<211> 1639
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of circular RNA
<400> 39
aaaatccgtt gaccttaaac ggtcgtgtgg gttcaagtcc ctccaccccc acgccggaaa 60
cgcaatagcc gaaaaaacaa aaacaaaaaa aacaaaaaaa caaaaaaaaa accaaaacac 120
attaaaacag cctgtgggtt gatcccaccc acagggccca ctgggcgcta gcactctggt 180
atcacggtac ctttgtgcgc ctgttttata cttcctcccc caactgcaac ttagaagtaa 240
cacaaaccga tcaacagtca gcgtggcaca ccagccacgt tttgatcaaa cacttctgtt 300
accccggact gagtatcaat agactgctca cgcggttgaa ggagaaaacg ttcgttatcc 360
ggccaactac ttcgagaaac ctagtaacgc catggaagtt gtggagtgtt tcgctcagca 420
ctaccccagt gtagatcagg ttgatgagtc accgcattcc ccacgggtga ccgtggcggt 480
ggctgcgttg gcggcctgcc catggggaaa cccatgggac gctcttatac agacatggtg 540
cgaagagtct attgagctag ttggtagtcc tccggcccct gaatgcggct aatcccaact 600
gcggagcata cactctcaag ccagagggta gtgtgtcgta atgggcaact ctgcagcgga 660
accgactact ttgggtgtcc gtgtttcatt ttattcctat actggctgct tatggtgaca 720
attgagagat tgttaccata tagctattgg attggccatc cggtgactaa cagagctatt 780
atatatcttt ttgttgggtt tataccactt agcttgaaag aggttaaaac tctacattac 840
attttaatac tgaacaccgc aaaatggtgt caaagggtga ggaattattc accggcgtgg 900
tgcctatcct tgtggaactt gatggagatg tgaacggaca caaattcagt gtatcaggag 960
aaggagaagg agatgcaaca tacggaaagc tcactcttaa atttatctgc acaacaggaa 1020
agctcccggt gccttggcct acacttgtga caacacttac atacggagtg caatgcttct 1080
cgcgttaccc tgatcacatg aaacaacacg atttcttcaa gagtgcaatg cctgaaggat 1140
acgtgcaaga aagaacaatc ttcttcaagg acgatggaaa ctacaagact cgtgcagaag 1200
tgaaatttga aggagataca cttgtgaaca gaatcgaact taaaggaatc gatttcaagg 1260
aggatggaaa catccttgga cacaaacttg aatacaacta caactcacac aacgtgtaca 1320
tcatggcaga taaacagaag aatggtatca aagtgaactt taagattcgc cacaacatcg 1380
aagatggatc agtgcaactt gcagatcact accaacagaa tacgccgata ggagatggac 1440
ctgtgcttct tcctgataac cactaccttt caacacaatc agcactttca aaggacccaa 1500
acgagaagcg agaccacatg gtgcttcttg aatttgtgac agcagcagga atcacacttg 1560
gaatggatga actttacaaa tgaaaaaaac aaaaaacaaa acggctatta tgcgttaccg 1620
gcgagacgct acggactta 1639
<210> 40
<211> 3267
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of circular RNA
<400> 40
ctgtgcaact tgcagatcac taccaacaga atacgccgat aggagatgga cctgtgcttc 60
ttcctgataa ccactacctt tcaacacaat cagcactttc aaaggaccca aacgagaagc 120
gagaccacat ggtgcttctt gaatttgtga cagcagcagg aatcacactt ggaatggatg 180
aactttacaa aggaagcgga gctactaact tcagcctgct gaagcaggct ggagacgtgg 240
aggagaaccc tggacctgga agcggggagg acgccaagaa catcaagaag ggccctgccc 300
ctttctaccc tctggaggac ggcaccgccg gcgagcagct gcacaaggcc atgaagaggt 360
acgccctggt gcctggcacc atcgccttca ccgacgccca catcgaggtg gacatcacct 420
acgccgagta cttcgagatg agcgtgaggc tggccgaggc catgaagagg tacggcctga 480
acaccaacca caggatcgtg gtgtgcagcg agaacagcct gcagttcttc atgcctgtgc 540
tgggcgccct gttcatcggc gtggccgtgg cccctgccaa cgacatctac aacgagaggg 600
agctgctgaa cagcatgggc atcagccagc ctaccgtggt gttcgtgagc aagaagggcc 660
tgcagaagat cctgaacgtg cagaagaagc tgcctatcat ccagaagatc atcatcatgg 720
acagcaagac cgactaccag ggcttccaga gcatgtacac cttcgtgacc agccacctgc 780
ctcctggctt caacgagtac gacttcgtgc ctgagagctt cgacagggac aagaccatcg 840
ccctgatcat gaacagcagc ggcagcaccg gcctgcctaa gggcgtggcc ctgcctcaca 900
ggaccgcctg cgtgaggttc agccacgcca gggaccctat cttcggcaac cagatcatcc 960
ctgacaccgc catcctgagc gtggtgcctt tccaccacgg cttcggcatg ttcaccaccc 1020
tgggctacct gatctgcggc ttcagggtgg tgctgatgta caggttcgag gaggagctgt 1080
tcctgaggag cctgcaggac tacaagatcc agagcgccct gctggtgcct accctgttca 1140
gcttcttcgc caagagcacc ctgatcgaca agtacgacct gagcaacctg cacgagatcg 1200
ccagcggcgg cgcccctctg agcaaggagg tgggcgaggc cgtggccaag aggttccacc 1260
tgcctggcat caggcagggc tacggcctga ccgagaccac cagcgccatc ctgatcaccc 1320
ctgagggcga cgacaagcct ggcgccgtgg gcaaggtggt gcctttcttc gaggccaagg 1380
tggtggacct ggacaccggc aagaccctgg gcgtgaacca gaggggcgag ctgtgcgtga 1440
ggggccctat gatcatgagc ggctacgtga acaaccctga ggccaccaac gccctgatcg 1500
acaaggacgg ctggctgcac agcggcgaca tcgcctactg ggacgaggac gagcacttct 1560
tcatcgtgga caggctgaag agcctgatca agtacaaggg ctaccaggtg gcccctgccg 1620
agctggagag catcctgctg cagcacccta acatcttcga cgccggcgtg gctggcttgc 1680
ctgatgacga tgctggagag ctgcctgccg ccgtggtggt gctggagcac ggcaagacca 1740
tgaccgagaa ggagatcgtg gactacgtgg ccagccaggt gaccaccgcc aagaagctga 1800
ggggcggcgt ggtgttcgtg gacgaggtgc ctaagggcct gaccggcaag ctggacgcca 1860
ggaagatcag ggagatcctg atcaaggcca agaagggcgg caagatcgcc gtgtgaggtt 1920
aaaacagcct gtgggttgat cccacccaca gggcccactg ggcgctagca ctctggtatc 1980
acggtacctt tgtgcgcctg ttttatactt cctcccccaa ctgcaactta gaagtaacac 2040
aaaccgatca acagtcagcg tggcacacca gccacgtttt gatcaaacac ttctgttacc 2100
ccggactgag tatcaataga ctgctcacgc ggttgaagga gaaaacgttc gttatccggc 2160
caactacttc gagaaaccta gtaacgccat ggaagttgtg gagtgtttcg ctcagcacta 2220
ccccagtgta gatcaggttg atgagtcacc gcattcccca cgggtgaccg tggcggtggc 2280
tgcgttggcg gcctgcccat ggggaaaccc atgggacgct cttatacaga catggtgcga 2340
agagtctatt gagctagttg gtagtcctcc ggcccctgaa tgcggctaat cccaactgcg 2400
gagcatacac tctcaagcca gagggtagtg tgtcgtaatg ggcaactctg cagcggaacc 2460
gactactttg ggtgtccgtg tttcatttta ttcctatact ggctgcttat ggtgacaatt 2520
gagagattgt taccatatag ctattggatt ggccatccgg tgactaacag agctattata 2580
tatctttttg ttgggtttat accacttagc ttgaaagagg ttaaaactct acattacatt 2640
ttaatactga acaccgcaaa ggagccacca tgggctccgg cgagggcagg ggaagtcttc 2700
taacatgcgg ggacgtggag gaaaatcccg gcccaggctc cggcgtgtca aagggtgagg 2760
aattattcac cggcgtggtg cctatccttg tggaacttga tggagatgtg aacggacaca 2820
aattcagtgt atcaggagaa ggagaaggag atgcaacata cggaaagctc actcttaaat 2880
ttatctgcac aacaggaaag ctcccggtgc cttggcctac acttgtgaca acacttacat 2940
acggagtgca atgcttctcg cgttaccctg atcacatgaa acaacacgat ttcttcaaga 3000
gtgcaatgcc tgaaggatac gtgcaagaaa gaacaatctt cttcaaggac gatggaaact 3060
acaagactcg tgcagaagtg aaatttgaag gagatacact tgtgaacaga atcgaactta 3120
aaggaatcga tttcaaggag gatggaaaca tccttggaca caaacttgaa tacaactaca 3180
actcacacaa cgtgtacatc atggcagata aacagaagaa tggtatcaaa gtgaacttta 3240
agattcgcca caacatcgaa gatgggt 3267
<210> 41
<211> 3752
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of circular RNA
<400> 41
ctgtgcaact tgcagatcac taccaacaga atacgccgat aggagatgga cctgtgcttc 60
ttcctgataa ccactacctt tcaacacaat cagcactttc aaaggaccca aacgagaagc 120
gagaccacat ggtgcttctt gaatttgtga cagcagcagg aatcacactt ggaatggatg 180
aactttacaa atgaacgtta ctggccgaag ccgcttggaa caaggccggt gtgcgtttgt 240
ctatatgtta ttttccacca tattgccgtc ttttggcaat gtgagggccc ggaaacctgg 300
ccctgtcttc ttgacgagca ttcctagggg tctttcccct ctcgccaaag gaatgcaagg 360
tctgttgaat gtcgtgaagg aagcagttcc tctggaagct tcttgtagac aaacaacgtc 420
tgtagcgacc ctttgcaggc agcggaaccc cccacctggc gacaggtgcc tctgcggcca 480
aaagccacgt gtatacgata cacctgcaaa ggcggcacaa ccccagtgcc acgttgtgag 540
ttggatagtt gtggaaagag tcaaatggct ctcctcaagc gtattcaaca aggggctgaa 600
ggatgcccag aaggtacccc attgtatggg atctgatctg gggcctcggt gcacatgctt 660
tacatgtgtt cagtcgaggt taaaaaacgt ccaggccccc cgaaccacgg ggacgtggtt 720
ttcctttgaa aaacacgatg ataatatggc cacaaccatg gaggacgcca agaacatcaa 780
gaagggccct gcccctttct accctctgga ggacggcacc gccggcgagc agctgcacaa 840
ggccatgaag aggtacgccc tggtgcctgg caccatcgcc ttcaccgacg cccacatcga 900
ggtggacatc acctacgccg agtacttcga gatgagcgtg aggctggccg aggccatgaa 960
gaggtacggc ctgaacacca accacaggat cgtggtgtgc agcgagaaca gcctgcagtt 1020
cttcatgcct gtgctgggcg ccctgttcat cggcgtggcc gtggcccctg ccaacgacat 1080
ctacaacgag agggagctgc tgaacagcat gggcatcagc cagcctaccg tggtgttcgt 1140
gagcaagaag ggcctgcaga agatcctgaa cgtgcagaag aagctgccta tcatccagaa 1200
gatcatcatc atggacagca agaccgacta ccagggcttc cagagcatgt acaccttcgt 1260
gaccagccac ctgcctcctg gcttcaacga gtacgacttc gtgcctgaga gcttcgacag 1320
ggacaagacc atcgccctga tcatgaacag cagcggcagc accggcctgc ctaagggcgt 1380
ggccctgcct cacaggaccg cctgcgtgag gttcagccac gccagggacc ctatcttcgg 1440
caaccagatc atccctgaca ccgccatcct gagcgtggtg cctttccacc acggcttcgg 1500
catgttcacc accctgggct acctgatctg cggcttcagg gtggtgctga tgtacaggtt 1560
cgaggaggag ctgttcctga ggagcctgca ggactacaag atccagagcg ccctgctggt 1620
gcctaccctg ttcagcttct tcgccaagag caccctgatc gacaagtacg acctgagcaa 1680
cctgcacgag atcgccagcg gcggcgcccc tctgagcaag gaggtgggcg aggccgtggc 1740
caagaggttc cacctgcctg gcatcaggca gggctacggc ctgaccgaga ccaccagcgc 1800
catcctgatc acccctgagg gcgacgacaa gcctggcgcc gtgggcaagg tggtgccttt 1860
cttcgaggcc aaggtggtgg acctggacac cggcaagacc ctgggcgtga accagagggg 1920
cgagctgtgc gtgaggggcc ctatgatcat gagcggctac gtgaacaacc ctgaggccac 1980
caacgccctg atcgacaagg acggctggct gcacagcggc gacatcgcct actgggacga 2040
ggacgagcac ttcttcatcg tggacaggct gaagagcctg atcaagtaca agggctacca 2100
ggtggcccct gccgagctgg agagcatcct gctgcagcac cctaacatct tcgacgccgg 2160
cgtggctggc ttgcctgatg acgatgctgg agagctgcct gccgccgtgg tggtgctgga 2220
gcacggcaag accatgaccg agaaggagat cgtggactac gtggccagcc aggtgaccac 2280
cgccaagaag ctgaggggcg gcgtggtgtt cgtggacgag gtgcctaagg gcctgaccgg 2340
caagctggac gccaggaaga tcagggagat cctgatcaag gccaagaagg gcggcaagat 2400
cgccgtgtga ggttaaaaca gcctgtgggt tgatcccacc cacagggccc actgggcgct 2460
agcactctgg tatcacggta cctttgtgcg cctgttttat acttcctccc ccaactgcaa 2520
cttagaagta acacaaaccg atcaacagtc agcgtggcac accagccacg ttttgatcaa 2580
acacttctgt taccccggac tgagtatcaa tagactgctc acgcggttga aggagaaaac 2640
gttcgttatc cggccaacta cttcgagaaa cctagtaacg ccatggaagt tgtggagtgt 2700
ttcgctcagc actaccccag tgtagatcag gttgatgagt caccgcattc cccacgggtg 2760
accgtggcgg tggctgcgtt ggcggcctgc ccatggggaa acccatggga cgctcttata 2820
cagacatggt gcgaagagtc tattgagcta gttggtagtc ctccggcccc tgaatgcggc 2880
taatcccaac tgcggagcat acactctcaa gccagagggt agtgtgtcgt aatgggcaac 2940
tctgcagcgg aaccgactac tttgggtgtc cgtgtttcat tttattccta tactggctgc 3000
ttatggtgac aattgagaga ttgttaccat atagctattg gattggccat ccggtgacta 3060
acagagctat tatatatctt tttgttgggt ttataccact tagcttgaaa gaggttaaaa 3120
ctctacatta cattttaata ctgaacaccg caaaatgggc tccggcgagg gcaggggaag 3180
tcttctaaca tgcggggacg tggaggaaaa tcccggccca ggctccggcg tgtcaaaggg 3240
tgaggaatta ttcaccggcg tggtgcctat ccttgtggaa cttgatggag atgtgaacgg 3300
acacaaattc agtgtatcag gagaaggaga aggagatgca acatacggaa agctcactct 3360
taaatttatc tgcacaacag gaaagctccc ggtgccttgg cctacacttg tgacaacact 3420
tacatacgga gtgcaatgct tctcgcgtta ccctgatcac atgaaacaac acgatttctt 3480
caagagtgca atgcctgaag gatacgtgca agaaagaaca atcttcttca aggacgatgg 3540
aaactacaag actcgtgcag aagtgaaatt tgaaggagat acacttgtga acagaatcga 3600
acttaaagga atcgatttca aggaggatgg aaacatcctt ggacacaaac ttgaatacaa 3660
ctacaactca cacaacgtgt acatcatggc agataaacag aagaatggta tcaaagtgaa 3720
ctttaagatt cgccacaaca tcgaagatgg gt 3752
<210> 42
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 42
tgggaggatt ctgcattacc 20
<210> 43
<211> 18
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 43
cagcatcgct ggttgaga 18
<210> 44
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 44
ctcccggcac agaagtgtat 20
<210> 45
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 45
cttcctctgc ctctggtttg 20
<210> 46
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 46
ccatctctgt cctccatgag 20
<210> 47
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 47
atttctgctc tgacaacctc 20
<210> 48
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 48
tgcaaaatgg gacagaaaga 20
<210> 49
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 49
tgattcagaa gcgagtgtgc 20
<210> 50
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 50
accaaataca ggagccatgc 20
<210> 51
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 51
gcgatttcct tcttttgcag 20
<210> 52
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 52
cgtctcctac cagaccaagg 20
<210> 53
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 53
ccaaagtaga cctgcccaga 20
<210> 54
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 54
tacccccagg agaagattcc 20
<210> 55
<211> 20
<212> DNA
<213> Artificial Sequence
<220>
<223> primer sequence
<400> 55
gccatctttg gaaggttcag 20
<210> 56
<211> 2514
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of circular RNA
<400> 56
ttaaaacagc ctgtgggttg atcccaccca cagggcccac tgggcgctag cactctggta 60
tcacggtacc tttgtgcgcc tgttttatac ttcctccccc aactgcaact tagaagtaac 120
acaaaccgat caacagtcag cgtggcacac cagccacgtt ttgatcaaac acttctgtta 180
ccccggactg agtatcaata gactgctcac gcggttgaag gagaaaacgt tcgttatccg 240
gccaactact tcgagaaacc tagtaacgcc atggaagttg tggagtgttt cgctcagcac 300
taccccagtg tagatcaggt tgatgagtca ccgcattccc cacgggtgac cgtggcggtg 360
gctgcgttgg cggcctgccc atggggaaac ccatgggacg ctcttataca gacatggtgc 420
gaagagtcta ttgagctagt tggtagtcct ccggcccctg aatgcggcta atcccaactg 480
cggagcatac actctcaagc cagagggtag tgtgtcgtaa tgggcaactc tgcagcggaa 540
ccgactactt tgggtgtccg tgtttcattt tattcctata ctggctgctt atggtgacaa 600
ttgagagatt gttaccatat agctattgga ttggccatcc ggtgactaac agagctatta 660
tatatctttt tgttgggttt ataccactta gcttgaaaga ggttaaaact ctacattaca 720
ttttaatact gaacaccgca aaatggagga cgccaagaac atcaagaagg gccctgcccc 780
tttctaccct ctggaggacg gcaccgccgg cgagcagctg cacaaggcca tgaagaggta 840
cgccctggtg cctggcacca tcgccttcac cgacgcccac atcgaggtgg acatcaccta 900
cgccgagtac ttcgagatga gcgtgaggct ggccgaggcc atgaagaggt acggcctgaa 960
caccaaccac aggatcgtgg tgtgcagcga gaacagcctg cagttcttca tgcctgtgct 1020
gggcgccctg ttcatcggcg tggccgtggc ccctgccaac gacatctaca acgagaggga 1080
gctgctgaac agcatgggca tcagccagcc taccgtggtg ttcgtgagca agaagggcct 1140
gcagaagatc ctgaacgtgc agaagaagct gcctatcatc cagaagatca tcatcatgga 1200
cagcaagacc gactaccagg gcttccagag catgtacacc ttcgtgacca gccacctgcc 1260
tcctggcttc aacgagtacg acttcgtgcc tgagagcttc gacagggaca agaccatcgc 1320
cctgatcatg aacagcagcg gcagcaccgg cctgcctaag ggcgtggccc tgcctcacag 1380
gaccgcctgc gtgaggttca gccacgccag ggaccctatc ttcggcaacc agatcatccc 1440
tgacaccgcc atcctgagcg tggtgccttt ccaccacggc ttcggcatgt tcaccaccct 1500
gggctacctg atctgcggct tcagggtggt gctgatgtac aggttcgagg aggagctgtt 1560
cctgaggagc ctgcaggact acaagatcca gagcgccctg ctggtgccta ccctgttcag 1620
cttcttcgcc aagagcaccc tgatcgacaa gtacgacctg agcaacctgc acgagatcgc 1680
cagcggcggc gcccctctga gcaaggaggt gggcgaggcc gtggccaaga ggttccacct 1740
gcctggcatc aggcagggct acggcctgac cgagaccacc agcgccatcc tgatcacccc 1800
tgagggcgac gacaagcctg gcgccgtggg caaggtggtg cctttcttcg aggccaaggt 1860
ggtggacctg gacaccggca agaccctggg cgtgaaccag aggggcgagc tgtgcgtgag 1920
gggccctatg atcatgagcg gctacgtgaa caaccctgag gccaccaacg ccctgatcga 1980
caaggacggc tggctgcaca gcggcgacat cgcctactgg gacgaggacg agcacttctt 2040
catcgtggac aggctgaaga gcctgatcaa gtacaagggc taccaggtgg cccctgccga 2100
gctggagagc atcctgctgc agcaccctaa catcttcgac gccggcgtgg ctggcttgcc 2160
tgatgacgat gctggagagc tgcctgccgc cgtggtggtg ctggagcacg gcaagaccat 2220
gaccgagaag gagatcgtgg actacgtggc cagccaggtg accaccgcca agaagctgag 2280
gggcggcgtg gtgttcgtgg acgaggtgcc taagggcctg accggcaagc tggacgccag 2340
gaagatcagg gagatcctga tcaaggccaa gaagggcggc aagatcgccg tgtgatgata 2400
ataggctgga gcctcggtgg ccatgcttct tgccccttgg gcctcccccc agcccctcct 2460
ccccttcctg cacccgtacc cccgtggtct ttgaataaag tctgagtggg cggc 2514
<210> 57
<211> 2536
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of circular RNA
<400> 57
ttaaaacagc ctgtgggttg atcccaccca cagggcccac tgggcgctag cactctggta 60
tcacggtacc tttgtgcgcc tgttttatac ttcctccccc aactgcaact tagaagtaac 120
acaaaccgat caacagtcag cgtggcacac cagccacgtt ttgatcaaac acttctgtta 180
ccccggactg agtatcaata gactgctcac gcggttgaag gagaaaacgt tcgttatccg 240
gccaactact tcgagaaacc tagtaacgcc atggaagttg tggagtgttt cgctcagcac 300
taccccagtg tagatcaggt tgatgagtca ccgcattccc cacgggtgac cgtggcggtg 360
gctgcgttgg cggcctgccc atggggaaac ccatgggacg ctcttataca gacatggtgc 420
gaagagtcta ttgagctagt tggtagtcct ccggcccctg aatgcggcta atcccaactg 480
cggagcatac actctcaagc cagagggtag tgtgtcgtaa tgggcaactc tgcagcggaa 540
ccgactactt tgggtgtccg tgtttcattt tattcctata ctggctgctt atggtgacaa 600
ttgagagatt gttaccatat agctattgga ttggccatcc ggtgactaac agagctatta 660
tatatctttt tgttgggttt ataccactta gcttgaaaga ggttaaaact ctacattaca 720
ttttaatact gaacaccgca aaatggagga cgccaagaac atcaagaagg gccctgcccc 780
tttctaccct ctggaggacg gcaccgccgg cgagcagctg cacaaggcca tgaagaggta 840
cgccctggtg cctggcacca tcgccttcac cgacgcccac atcgaggtgg acatcaccta 900
cgccgagtac ttcgagatga gcgtgaggct ggccgaggcc atgaagaggt acggcctgaa 960
caccaaccac aggatcgtgg tgtgcagcga gaacagcctg cagttcttca tgcctgtgct 1020
gggcgccctg ttcatcggcg tggccgtggc ccctgccaac gacatctaca acgagaggga 1080
gctgctgaac agcatgggca tcagccagcc taccgtggtg ttcgtgagca agaagggcct 1140
gcagaagatc ctgaacgtgc agaagaagct gcctatcatc cagaagatca tcatcatgga 1200
cagcaagacc gactaccagg gcttccagag catgtacacc ttcgtgacca gccacctgcc 1260
tcctggcttc aacgagtacg acttcgtgcc tgagagcttc gacagggaca agaccatcgc 1320
cctgatcatg aacagcagcg gcagcaccgg cctgcctaag ggcgtggccc tgcctcacag 1380
gaccgcctgc gtgaggttca gccacgccag ggaccctatc ttcggcaacc agatcatccc 1440
tgacaccgcc atcctgagcg tggtgccttt ccaccacggc ttcggcatgt tcaccaccct 1500
gggctacctg atctgcggct tcagggtggt gctgatgtac aggttcgagg aggagctgtt 1560
cctgaggagc ctgcaggact acaagatcca gagcgccctg ctggtgccta ccctgttcag 1620
cttcttcgcc aagagcaccc tgatcgacaa gtacgacctg agcaacctgc acgagatcgc 1680
cagcggcggc gcccctctga gcaaggaggt gggcgaggcc gtggccaaga ggttccacct 1740
gcctggcatc aggcagggct acggcctgac cgagaccacc agcgccatcc tgatcacccc 1800
tgagggcgac gacaagcctg gcgccgtggg caaggtggtg cctttcttcg aggccaaggt 1860
ggtggacctg gacaccggca agaccctggg cgtgaaccag aggggcgagc tgtgcgtgag 1920
gggccctatg atcatgagcg gctacgtgaa caaccctgag gccaccaacg ccctgatcga 1980
caaggacggc tggctgcaca gcggcgacat cgcctactgg gacgaggacg agcacttctt 2040
catcgtggac aggctgaaga gcctgatcaa gtacaagggc taccaggtgg cccctgccga 2100
gctggagagc atcctgctgc agcaccctaa catcttcgac gccggcgtgg ctggcttgcc 2160
tgatgacgat gctggagagc tgcctgccgc cgtggtggtg ctggagcacg gcaagaccat 2220
gaccgagaag gagatcgtgg actacgtggc cagccaggtg accaccgcca agaagctgag 2280
gggcggcgtg gtgttcgtgg acgaggtgcc taagggcctg accggcaagc tggacgccag 2340
gaagatcagg gagatcctga tcaaggccaa gaagggcggc aagatcgccg tgtgatgata 2400
ataggctgga gcctcggtgg ccatgcttct tgccccttgg gcctcccccc agcccctcct 2460
ccccttcctg cacccgtacc ccccaaacac cattgtcaca ctccagtggt ctttgaataa 2520
agtctgagtg ggcggc 2536
<210> 58
<211> 2580
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of circular RNA
<400> 58
ttaaaacagc ctgtgggttg atcccaccca cagggcccac tgggcgctag cactctggta 60
tcacggtacc tttgtgcgcc tgttttatac ttcctccccc aactgcaact tagaagtaac 120
acaaaccgat caacagtcag cgtggcacac cagccacgtt ttgatcaaac acttctgtta 180
ccccggactg agtatcaata gactgctcac gcggttgaag gagaaaacgt tcgttatccg 240
gccaactact tcgagaaacc tagtaacgcc atggaagttg tggagtgttt cgctcagcac 300
taccccagtg tagatcaggt tgatgagtca ccgcattccc cacgggtgac cgtggcggtg 360
gctgcgttgg cggcctgccc atggggaaac ccatgggacg ctcttataca gacatggtgc 420
gaagagtcta ttgagctagt tggtagtcct ccggcccctg aatgcggcta atcccaactg 480
cggagcatac actctcaagc cagagggtag tgtgtcgtaa tgggcaactc tgcagcggaa 540
ccgactactt tgggtgtccg tgtttcattt tattcctata ctggctgctt atggtgacaa 600
ttgagagatt gttaccatat agctattgga ttggccatcc ggtgactaac agagctatta 660
tatatctttt tgttgggttt ataccactta gcttgaaaga ggttaaaact ctacattaca 720
ttttaatact gaacaccgca aaatggagga cgccaagaac atcaagaagg gccctgcccc 780
tttctaccct ctggaggacg gcaccgccgg cgagcagctg cacaaggcca tgaagaggta 840
cgccctggtg cctggcacca tcgccttcac cgacgcccac atcgaggtgg acatcaccta 900
cgccgagtac ttcgagatga gcgtgaggct ggccgaggcc atgaagaggt acggcctgaa 960
caccaaccac aggatcgtgg tgtgcagcga gaacagcctg cagttcttca tgcctgtgct 1020
gggcgccctg ttcatcggcg tggccgtggc ccctgccaac gacatctaca acgagaggga 1080
gctgctgaac agcatgggca tcagccagcc taccgtggtg ttcgtgagca agaagggcct 1140
gcagaagatc ctgaacgtgc agaagaagct gcctatcatc cagaagatca tcatcatgga 1200
cagcaagacc gactaccagg gcttccagag catgtacacc ttcgtgacca gccacctgcc 1260
tcctggcttc aacgagtacg acttcgtgcc tgagagcttc gacagggaca agaccatcgc 1320
cctgatcatg aacagcagcg gcagcaccgg cctgcctaag ggcgtggccc tgcctcacag 1380
gaccgcctgc gtgaggttca gccacgccag ggaccctatc ttcggcaacc agatcatccc 1440
tgacaccgcc atcctgagcg tggtgccttt ccaccacggc ttcggcatgt tcaccaccct 1500
gggctacctg atctgcggct tcagggtggt gctgatgtac aggttcgagg aggagctgtt 1560
cctgaggagc ctgcaggact acaagatcca gagcgccctg ctggtgccta ccctgttcag 1620
cttcttcgcc aagagcaccc tgatcgacaa gtacgacctg agcaacctgc acgagatcgc 1680
cagcggcggc gcccctctga gcaaggaggt gggcgaggcc gtggccaaga ggttccacct 1740
gcctggcatc aggcagggct acggcctgac cgagaccacc agcgccatcc tgatcacccc 1800
tgagggcgac gacaagcctg gcgccgtggg caaggtggtg cctttcttcg aggccaaggt 1860
ggtggacctg gacaccggca agaccctggg cgtgaaccag aggggcgagc tgtgcgtgag 1920
gggccctatg atcatgagcg gctacgtgaa caaccctgag gccaccaacg ccctgatcga 1980
caaggacggc tggctgcaca gcggcgacat cgcctactgg gacgaggacg agcacttctt 2040
catcgtggac aggctgaaga gcctgatcaa gtacaagggc taccaggtgg cccctgccga 2100
gctggagagc atcctgctgc agcaccctaa catcttcgac gccggcgtgg ctggcttgcc 2160
tgatgacgat gctggagagc tgcctgccgc cgtggtggtg ctggagcacg gcaagaccat 2220
gaccgagaag gagatcgtgg actacgtggc cagccaggtg accaccgcca agaagctgag 2280
gggcggcgtg gtgttcgtgg acgaggtgcc taagggcctg accggcaagc tggacgccag 2340
gaagatcagg gagatcctga tcaaggccaa gaagggcggc aagatcgccg tgtgatgata 2400
atagcaaaca ccattgtcac actccagctg gagcctcggt ggccatgctt cttgcccctt 2460
gggcccaaac accattgtca cactccatcc ccccagcccc tcctcccctt cctgcacccg 2520
taccccccaa acaccattgt cacactccag tggtctttga ataaagtctg agtgggcggc 2580
<210> 59
<211> 2754
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of circular RNA
<400> 59
ttaaaacagc ctgtgggttg atcccaccca cagggcccac tgggcgctag cactctggta 60
tcacggtacc tttgtgcgcc tgttttatac ttcctccccc aactgcaact tagaagtaac 120
acaaaccgat caacagtcag cgtggcacac cagccacgtt ttgatcaaac acttctgtta 180
ccccggactg agtatcaata gactgctcac gcggttgaag gagaaaacgt tcgttatccg 240
gccaactact tcgagaaacc tagtaacgcc atggaagttg tggagtgttt cgctcagcac 300
taccccagtg tagatcaggt tgatgagtca ccgcattccc cacgggtgac cgtggcggtg 360
gctgcgttgg cggcctgccc atggggaaac ccatgggacg ctcttataca gacatggtgc 420
gaagagtcta ttgagctagt tggtagtcct ccggcccctg aatgcggcta atcccaactg 480
cggagcatac actctcaagc cagagggtag tgtgtcgtaa tgggcaactc tgcagcggaa 540
ccgactactt tgggtgtccg tgtttcattt tattcctata ctggctgctt atggtgacaa 600
ttgagagatt gttaccatat agctattgga ttggccatcc ggtgactaac agagctatta 660
tatatctttt tgttgggttt ataccactta gcttgaaaga ggttaaaact ctacattaca 720
ttttaatact gaacaccgca aaatggagga cgccaagaac atcaagaagg gccctgcccc 780
tttctaccct ctggaggacg gcaccgccgg cgagcagctg cacaaggcca tgaagaggta 840
cgccctggtg cctggcacca tcgccttcac cgacgcccac atcgaggtgg acatcaccta 900
cgccgagtac ttcgagatga gcgtgaggct ggccgaggcc atgaagaggt acggcctgaa 960
caccaaccac aggatcgtgg tgtgcagcga gaacagcctg cagttcttca tgcctgtgct 1020
gggcgccctg ttcatcggcg tggccgtggc ccctgccaac gacatctaca acgagaggga 1080
gctgctgaac agcatgggca tcagccagcc taccgtggtg ttcgtgagca agaagggcct 1140
gcagaagatc ctgaacgtgc agaagaagct gcctatcatc cagaagatca tcatcatgga 1200
cagcaagacc gactaccagg gcttccagag catgtacacc ttcgtgacca gccacctgcc 1260
tcctggcttc aacgagtacg acttcgtgcc tgagagcttc gacagggaca agaccatcgc 1320
cctgatcatg aacagcagcg gcagcaccgg cctgcctaag ggcgtggccc tgcctcacag 1380
gaccgcctgc gtgaggttca gccacgccag ggaccctatc ttcggcaacc agatcatccc 1440
tgacaccgcc atcctgagcg tggtgccttt ccaccacggc ttcggcatgt tcaccaccct 1500
gggctacctg atctgcggct tcagggtggt gctgatgtac aggttcgagg aggagctgtt 1560
cctgaggagc ctgcaggact acaagatcca gagcgccctg ctggtgccta ccctgttcag 1620
cttcttcgcc aagagcaccc tgatcgacaa gtacgacctg agcaacctgc acgagatcgc 1680
cagcggcggc gcccctctga gcaaggaggt gggcgaggcc gtggccaaga ggttccacct 1740
gcctggcatc aggcagggct acggcctgac cgagaccacc agcgccatcc tgatcacccc 1800
tgagggcgac gacaagcctg gcgccgtggg caaggtggtg cctttcttcg aggccaaggt 1860
ggtggacctg gacaccggca agaccctggg cgtgaaccag aggggcgagc tgtgcgtgag 1920
gggccctatg atcatgagcg gctacgtgaa caaccctgag gccaccaacg ccctgatcga 1980
caaggacggc tggctgcaca gcggcgacat cgcctactgg gacgaggacg agcacttctt 2040
catcgtggac aggctgaaga gcctgatcaa gtacaagggc taccaggtgg cccctgccga 2100
gctggagagc atcctgctgc agcaccctaa catcttcgac gccggcgtgg ctggcttgcc 2160
tgatgacgat gctggagagc tgcctgccgc cgtggtggtg ctggagcacg gcaagaccat 2220
gaccgagaag gagatcgtgg actacgtggc cagccaggtg accaccgcca agaagctgag 2280
gggcggcgtg gtgttcgtgg acgaggtgcc taagggcctg accggcaagc tggacgccag 2340
gaagatcagg gagatcctga tcaaggccaa gaagggcggc aagatcgccg tgtgatgata 2400
atagatgcgg ccgccgacca gaatcatgca agtgcgtaag atagtcgcgg gtcggcggcc 2460
gcatgctgga gcctcggtgg ccatgcttct tgccccttgg gccatgcggc cgccgaccag 2520
aatcatgcaa gtgcgtaaga tagtcgcggg tcggcggccg cattcccccc agcccctcat 2580
gcggccgccg accagaatca tgcaagtgcg taagatagtc gcgggtcggc ggccgcatct 2640
ccccttcctg cacccgtacc cccatgcggc cgccgaccag aatcatgcaa gtgcgtaaga 2700
tagtcgcggg tcggcggccg catgtggtct ttgaataaag tctgagtggg cggc 2754
<210> 60
<211> 4
<212> PRT
<213> Artificial Sequence
<220>
<223> sequence of amino acid unit
<400> 60
Met Val Ser Lys
1
<210> 61
<211> 4
<212> PRT
<213> Artificial Sequence
<220>
<223> sequence of amino acid unit
<400> 61
Val Ser Lys Gly
1
<210> 62
<211> 4
<212> PRT
<213> Artificial Sequence
<220>
<223> sequence of amino acid unit
<400> 62
Ser Lys Gly Glu
1
<210> 63
<211> 4
<212> PRT
<213> Artificial Sequence
<220>
<223> sequence of amino acid unit
<400> 63
Glu Leu Tyr Lys
1
<210> 64
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of target motif
<220>
<221> misc_feature
<222> (1)..(2)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (11)..(12)
<223> n is a, c, g, or t
<400> 64
nnttgggtct nn 12
<210> 65
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 65
ttttcggtct ct 12
<210> 66
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 66
attttggtcg ag 12
<210> 67
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 67
actttggtca at 12
<210> 68
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 68
ggttcggtcc ag 12
<210> 69
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 69
ttttcggtca gt 12
<210> 70
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 70
actggggtcg tt 12
<210> 71
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 71
tatggggtcc ag 12
<210> 72
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of target motif
<220>
<221> misc_feature
<222> (1)..(2)
<223> n is a, c, g, or t
<220>
<221> misc_feature
<222> (11)..(12)
<223> n is a, c, g, or t
<400> 72
nntctgggtt nn 12
<210> 73
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 73
attctgggtc at 12
<210> 74
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 74
actctgggta tg 12
<210> 75
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 75
acgctgggta tg 12
<210> 76
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 76
atcctgggtc at 12
<210> 77
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 77
accctgggta tg 12
<210> 78
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 78
atactgggtc at 12
<210> 79
<211> 12
<212> DNA
<213> Artificial Sequence
<220>
<223> codon sequence
<400> 79
acactgggta tg 12
<210> 80
<211> 13
<212> DNA
<213> Artificial Sequence
<220>
<223> sequence of ribozyme recognition site
<400> 80
acgtcttaac caa 13