CN115161316A

CN115161316A - 一种引导编辑工具、融合rna及其用途

Info

Publication number: CN115161316A
Application number: CN202110361688.6A
Authority: CN
Inventors: 刘尧; 仰光; 李广磊; 黄行许
Original assignee: ShanghaiTech University
Current assignee: ShanghaiTech University
Priority date: 2021-04-02
Filing date: 2021-04-02
Publication date: 2022-10-11
Also published as: WO2022206352A1

Abstract

本发明公开了一种引导编辑工具、融合RNA及其用途。其中所述引导编辑工具包括(i)一种融合蛋白，其包括至少一个基因编辑器与一种核酸内切酶；(ii)一种融合RNA，其包括一个pegRNA与(i)中所述核酸内切酶的识别位点；所述融合蛋白具有反转录功能，且可与所述识别位点结合并对其进行剪切，从而在所述pegRNA的3’端引入序列，避免pegRNA自身环化。所述引导编辑工具可以高效地实现靶位点碱基的替换、插入与缺失等应用。本发明是对传统PE编辑系统的改进，在人和小鼠等不同种类细胞系中，实现了编辑效率的显著提高。该优势使得本发明的引导编辑工具对于基因功能研究、致病位点修复等多种领域均具有极高的应用价值。

Description

一种引导编辑工具、融合RNA及其用途

技术领域

本发明属于生物技术领域，涉及一种引导编辑工具、融合RNA及其用途。

背景技术

CRISPR/Cas9系统已经被广泛应用于遗传学操作[Cong,L,et.al,Science(NewYork,NY)339:819-823；Shen,B,et.al,Cell Res 23:720-723.]，并因其巨大影响力获得2020年诺贝尔化学奖。基于CRISPR/Cas9系统的碱基编辑技术(Base Editing，BE)可以对基因组进行单个碱基水平的操作[Gaudelli,NM,et.al.,Nature 551:464-471；Komor,AC,et.al.,Nature 533:420-424.]，相比于传统方式利用Cas9切割后的同源重组修复(Homology Directed Repair,HDR)途径，效率明显提高，已经在植物、动物和人胚胎中验证均高效且精确编辑[Zeng,Y,et.al,Mol Ther 26:2631-2637；Li,J,et.al,Cell Res 29:174-176；Zong,Y,et.al,Nat Biotechnol 35:438-440.]，并在人胚胎中实现致病突变的修复[Zeng,Y,et.al,Mol Ther 26:2631-2637]，在小鼠疾病模型中进行了基因治疗，表现出强大的基因治疗前景[Koblan,LW,et.al,Nature 589:608-614.]。

然后，由于BE存在显著的DNA及RNA脱靶现象[Grunewald,J,et.al,Nature 37:1041-1048；Jin,S,et.al,Science(New York,NY)364:292-295.]，且BE只能针对C→T和A→G的点突变，因此应用存在着明显的限制，亟待更强大的基因编辑工具。2019年底报道的引导编辑技术(Prime Editing，PE)可以针对所有突变进行突变，包括所有的点突变类型及精确的插入和删除，因此被寄予厚望，有望替代BE成为新一代点突变的工具[Anzalone,AV,et.al,Nature 576:149-157.]。

PE本质上是ssDNA进行点突变的延伸，其基本原理是将莫罗尼小鼠白血病病毒反转录酶M-MLV与H840A突变体Cas9n形成融合蛋白，并将常用的sgRNA的3’端进行延长形成PEgRNA(pegRNA)，延长的序列包含反转录酶所需的结合引物(Primer Binding Site，PBS)和供修复所需的模板(Reverse Transcription template，RT template)。反转录酶将PBS和RT进行反转录得到修复的DNA，从而利用这段DNA进行定点突变，从而可以实现所有类型的突变，并且可以进行序列的精确插入和删除，大大拓展了基因编辑的范围[Anzalone,AV,et.al,Nature 576:149-157.]。

引导编辑技术自2019年底被报道以来，已经应用于植物和动物上[Liu,Y,et.al,Cell Discov 6:27；Lin,Q,et.al,Nat Biotechnol 38:582-585.]，证明其载体编辑的可行性。但引导编辑的效率长期以来都较低，限制了其应用，因此对于引导编辑的优化和提高是目前研究的关键。

发明内容

为解决现有技术中引导编辑工具效率低的缺陷，本发明提供一种引导编辑工具、融合RNA及其用途。

发明人经过大量探索性研究，发现pegRNA在序列上呈现出首尾碱基互补配对的现象(如图1所示)，可能导致有效表达的pegRNA减少，从而影响PE的活性表达。对pegRNA的3’端加上随机序列可以减少潜在的首尾碱基互补配对，提高PE的活性。并且在提高PE编辑效率的情况下不会影响脱靶的产生，保证了PE的安全性。

为解决上述技术问题，本发明第一方面提供一种引导编辑工具，其包括：

(i)一种融合蛋白，其包括至少一个基因编辑器与一种核酸内切酶；

(ii)一种融合RNA，其包括一个pegRNA与(i)中所述核酸内切酶的识别位点；

其中，所述融合蛋白具有反转录功能，且可与所述识别位点结合并对所述识别位点进行剪切，从而在所述pegRNA的3’端引入序列，避免pegRNA发生自身环化。

在一较佳的具体实施例中，所述融合RNA自5’端至3’端依次为pegRNA、Csy4核酸内切酶识别序列和切口sgRNA；优选地，所述Csy4核酸内切酶识别序列的核苷酸序列如SEQ IDNO:5所示。

在一较佳的具体实施例中，所述融合蛋白自N端至C端包括例如自N端至C端依次包括Csy4核酸内切酶、Cas9n和病毒反转录酶例如莫罗尼小鼠白血病病毒反转录酶M-MLV。所述融合蛋白将Csy4核酸内切酶融合到引导编辑器的N端，在融合RNA的引导下在靶向位点做引导编辑，能够有效提高PE的编辑效率。

优选地，所述Csy4核酸内切酶的氨基酸序列如SEQ ID NO:1所示，所述Cas9n的氨基酸序列如SEQ ID NO:2所示，和/或，所述M-MLV的氨基酸序列如SEQ ID NO:3所示。

本发明所提供的融合蛋白中，所述Csy4核酸内切酶的氨基酸序列可以包括：如SEQID NO:1所示的氨基酸序列；或与SEQ ID NO:1具有80％以上序列相似性的氨基酸序列、且具有SEQ ID NO:1所限定的氨基酸序列的功能。具体的，所述的氨基酸序列具体指：如SEQID NO:1所示的氨基酸序列经过取代、缺失或者添加一个或多个(具体可以是1-50、1-30个、1-20个、1-10个、1-5个、1-3个、1个、2个、或3个)氨基酸而得到的，或者在N-末端和/或C-末端添加一个或多个(具体可以是1-50个、1-30个、1-20个、1-10个、1-5个、1-3个、1个、2个、或3个)氨基酸而得到的，且具有氨基酸如SEQ ID NO:1所示的多肽片段的功能的多肽片段，例如，可以是Csy4核酸内切酶经过突变后依然具有Csy4核酸内切酶识别序列的靶向活性，更具体可以是能够在特殊的靶向序列的引导下靶向RNA，形成截断的独立的两部分RNA的活性。所述的氨基酸序列可与SEQ ID NO:1具有80％、85％、90％、93％、95％、97％、或99％以上的相似性。所述Csy4核酸内切酶片段通常源自铜绿假单胞菌(Pseudomonasaeruginosa)。

本发明所提供的融合蛋白中，所述第二Cas9n片段的氨基酸序列可以包括：如SEQID NO:2所示的氨基酸序列；或与SEQ ID NO:2具有80％以上序列相似性的氨基酸序列、且具有所限定的氨基酸序列的功能。具体的，所述中的氨基酸序列具体指：如SEQ ID NO:2所示的氨基酸序列经过取代、缺失或者添加一个或多个(具体可以是1-50、1-30个、1-20个、1-10个、1-5个、1-3个、1个、2个、或3个)氨基酸而得到的，或者在N-末端和/或C-末端添加一个或多个(具体可以是1-50个、1-30个、1-20个、1-10个、1-5个、1-3个、1个、2个、或3个)氨基酸而得到的，且具有氨基酸如SEQ ID NO:2所示的多肽片段的功能的多肽片段，例如，可以是经过突变后依然具有Cas9n的靶向活性，更具体可以是能够在合适的gRNA的引导下靶向RNA的活性。所述中的氨基酸序列可与SEQ ID NO:2具有80％、85％、90％、93％、95％、97％、或99％以上的相似性。所述Cas9n片段通常源自化脓性链球菌(Streptococcus pyogenes)。

本发明所提供的融合蛋白中，所述M-MLV片段的氨基酸序列可以包括：如SEQ IDNO:3所示的氨基酸序列；或与SEQ ID NO:3具有80％以上序列相似性的氨基酸序列、且具有所限定的氨基酸序列的功能。具体的，所述中的氨基酸序列具体指：如SEQ ID NO:3所示的氨基酸序列经过取代、缺失或者添加一个或多个(具体可以是1-50、1-30个、1-20个、1-10个、1-5个、1-3个、1个、2个、或3个)氨基酸而得到的，或者在N-末端和/或C-末端添加一个或多个(具体可以是1-50个、1-30个、1-20个、1-10个、1-5个、1-3个、1个、2个、或3个)氨基酸而得到的，且具有氨基酸如SEQ ID NO:3所示的多肽片段的功能的多肽片段，例如，可以是具有反转录的活性，更具体是可以在引物的引导下，将单链RNA(ssRNA)作为模板反转录成为单链DNA(ssDNA)的功能。所述f)中的氨基酸序列可与SEQ ID NO:3具有80％、85％、90％、93％、95％、97％、或99％以上的相似性。所述M-MLV片段通常源自小鼠(Mus musculus)。最终的融合蛋白序列如SEQ ID NO:4所示。

本发明所提供的融合蛋白中，所述的取代、缺失或者添加可以是保守氨基酸取代。所述“保守氨基酸取代”具体可以是指氨基酸残基被其他具有相似侧链的氨基酸残基取代的情况。具有相似侧链的氨基酸残基家族对于本领域技术人员来说应该是已知的，例如，可以是包括但不限于碱性侧链(例如赖氨酸，精氨酸，组氨酸)，酸性侧链(例如天冬氨酸，谷氨酸)，不带电荷的极性侧链(例如，甘氨酸，天冬酰胺，谷氨酰胺，丝氨酸，苏氨酸，酪氨酸，半胱氨酸)，非极性侧链(例如丙氨酸，缬氨酸，亮氨酸，异亮氨酸，脯氨酸，苯丙氨酸，甲硫氨酸，色氨酸)异亮氨酸)和芳族侧链(例如酪氨酸，苯丙氨酸，色氨酸，组氨酸)等家族。保守型氨基酸取代更具体可以包括但不限于下表中所列的具体情况，表1(氨基酸相似度矩阵)中的数字表示两个氨基酸之间的相似度，当数字大于等于0时认为是保守氨基酸取代，表2为示例性的保守氨基酸取代的方案。

表1

	C	G	P	S	A	T	D	E	N	Q	H	K	R	V	M	I	L	F	Y	W
																					W	-8	-7	-6	-2	-6	-5	-7	-7	-4	-5	-3	-3	2	-6	-4	-5	-2	0	0	17
Y	0	-5	-5	-3	-3	-3	-4	-4	-2	-4	0	-4	-5	-2	-2	-1	-1	7	10
																					F	-4	-5	-5	-3	-4	-3	-6	-5	-4	-5	-2	-5	-4	-1	0	1	2	9
L	-6	-4	-3	-3	-2	-2	-4	-3	-3	-2	-2	-3	-3	2	4	2	6
																					I	-2	-3	-2	-1	-1	0	-2	-2	-2	-2	-2	-2	-2	4	2	5
M	-5	-3	-2	-2	-1	-1	-3	-2	0	-1	-2	0	0	2	6
																					V	-2	-1	-1	-1	0	0	-2	-2	-2	-2	-2	-2	-2	4
R	-4	-3	0	0	-2	-1	-1	-1	0	1	2	3	6
																					K	-5	-2	-1	0	-1	0	0	0	1	1	0	5
H	-3	-2	0	-1	-1	-1	1	1	2	3	6
																					Q	-5	-1	0	-1	0	-1	2	2	1	4
N	-4	0	-1	1	0	0	2	1	2
																					E	-5	0	-1	0	0	0	3	4
D	-5	1	-1	0	0	0	4
																					T	-2	0	0	1	1	3
A	-2	1	1	1	2
																					S	0	1	1	1
P	-3	-1	6
																					G	-3	5
C	12

表2

更优选地，所述融合蛋白还包括T2A片段和/或BPNLS片段。

进一步更优选地，所述T2A片段位于Csy4核酸内切酶与Cas9n之间，其氨基酸序列如SEQ ID NO:6所示，和/或，所述BPNLS片段位于C端，其氨基酸序列如SEQ ID NO:7所示。

在一更佳的具体实施例中，所述的融合RNA包含的Csy4核酸内切酶的识别序列为如SEQ ID NO:5所示的核苷酸序列，或与SEQ ID NO:5所示的核苷酸序列具有95％以上同一性、且维持被Csy4核酸内切酶识别的功能。

本发明所提供的融合RNA中，所述Csy4核酸内切酶识别序列片段的DNA序列可以包括：如SEQ ID NO:5所示的DNA序列；或与SEQ ID NO:5具有95％以上序列相似性的DNA序列、且具有所限定的DNA序列的功能。具体的，所述中的DNA序列具体指：如SEQ ID NO:5所示的DNA序列经过取代、缺失或者添加一个或多个(1个、2个、或3个)DNA而得到的，或者在5’-末端和/或3’-末端添加一个或多个(具体可以是1个、2个、或3个)DNA而得到的，且具有DNA如SEQ ID NO:5所示的DNA片段的功能的DNA片段，例如，可以是具有被Csy4核酸内切酶识别的活性，更具体是在Csy4核酸内切酶存在的情况下被其识别，并在将识别序列内部进行切割的功能。所述中的DNA序列可与SEQ ID NO:5具有95％以上的相似性。

本发明所提供的融合RNA中，所述的取代、缺失或者添加可以是RNA取代。所述“RNA取代”具体可以是指不影响Csy4核酸内切酶识别功能的情况下的RNA突变的情况。

优选地，所述融合蛋白的氨基酸序列如SEQ ID NO:4所示，或与SEQ ID NO:4的氨基酸序列具有90％、95％、96％、97％、98％、99％或以上同一性、且具有如SEQ ID NO:4的氨基酸序列所示的融合蛋白的功能。

为解决上述技术问题，本发明第二方面提供一种融合RNA，其中，所述融合RNA自5’端至3’端依次为pegRNA、Csy4核酸内切酶识别序列和nicking sgRNA。

优选地，所述的融合RNA包含的Csy4核酸内切酶识别序列为如SEQ ID NO:5所示的核苷酸序列，或与SEQ ID NO:5所示的核苷酸序列具有95％同一性、且维持被Csy4核酸内切酶识别的功能。

为解决上述技术问题，本发明第三方面提供一种融合蛋白，其中，所述融合蛋白自N端至C端依次包括Csy4核酸内切酶、Cas9n和莫罗尼小鼠白血病病毒反转录酶M-MLV。

为解决上述技术问题，本发明第四方面提供一种分离的核酸，其中，所述分离的核酸包括编码如本发明第三方面所述的融合蛋白的第一多核苷酸；和/或，转录如本发明第二方面所述的融合RNA的第二多核苷酸。

为解决上述技术问题，本发明第五方面提供一种重组表达载体，其包括如本发明第四方面所述的分离的核酸。

为解决上述技术问题，本发明第六方面提供一种表达系统，其含有如本发明第五方面所述的重组表达载体.

所述表达系统可以是宿主细胞，所述宿主细胞可以表达如上所述的融合蛋白，所述融合蛋白可以与融合RNA相配合，从而可以将所述融合蛋白定位到目标区域，实现目标区域的引导编辑。在本发明另一具体实施例中，所述表达系统的宿主细胞选自真核细胞或原核细胞，优选选自小鼠细胞、人细胞，更优选选自小鼠脑神经瘤细胞、人胚胎肾细胞、或人宫颈癌细胞、人结肠癌细胞、人骨肉瘤细胞，进一步更优选选自N2a细胞、HEK293T细胞、Hela细胞、HCT116细胞或U2OS细胞。所述融合RNA与所述融合蛋白可以在同一宿主细胞中表达，也可以在不同宿主细胞中表达，所述宿主细胞可以为靶细胞。

较佳地，所述表达系统中，所述第一多核苷酸与所述第二多核苷酸可位于同一重组表达载体或不同的重组表达载体中，所述重组表达载体例如为pCMV、pCAG或Tet-On。

为解决上述技术问题，本发明第七方面提供一种如本发明第一方面所述的引导编辑工具、本发明第二方面所述的融合RNA、本发明第三方面所述的融合蛋白、本发明第四方面所述的分离的核酸或如本发明第五方面所述的表达系统在真核生物基因编辑中的用途。

所述真核生物具体可以是后生动物，具体可以是包括但不限于人、小鼠等。所述用途具体可以是包括但不限于点突变、片段插入和缺失等，这些引导编辑可以应用于编辑剪接受体/供体位点来调节RNA剪接，也可以用于进行模型(例如，疾病模型、细胞模型、动物模型等)的构建或人类疾病的治疗等。在本发明一具体实施例中，被编辑的对象可以是胚胎、细胞等。在本发明另一具体实施例中，所述基因编辑为体外基因编辑。

优选地，所述用途包括碱基的替换、插入或者缺失。

为解决上述技术问题，本发明第八方面提供一种制备如本发明第一方面所述的引导编辑工具的方法，其特征在于，其包括以下步骤：利用本发明第六方面所述的表达系统，分别获得所述的融合蛋白和融合RNA即可。

为解决上述技术问题，本发明第九方面提供一种引导编辑的方法，其特征在于，所述方法包括利用如本发明第一方面所述的引导编辑工具进行基因编辑。

现有技术中的引导编辑体系，包括PE、pegRNA和nicking sgRNA。本领域技术人员可以根据基因的目标编辑区域，选择合适的靶向特异性位点的pegRNA和nicking sgRNA。例如，所述pegRNA的序列通常可以与目标区域至少部分互补，从而可以与所述PE相配合并将其定位到目标区域，实现靶点区域内的引导编辑，包括所有类型点突变，例如C·G-to-A·T,G·C-to-C·G,A·T-to-C·G,T·A-to-A·T。但是该引导编辑体系效率不高；而使用本发明第一方面提供的引导编辑工具(ePE)克服了上述缺陷。

以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。

在进一步描述本发明具体实施方式之前，应理解，本发明的保护范围不局限于下述特定的具体实施方案；还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围；在本发明中，除非文中另外明确指出，单数形式“一个”、“一”和“这个”包括复数形式。

当实施例给出数值范围时，应理解，除非本发明另有说明，每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义，本发明中使用的所有技术和科学术语与本技术领域技术人员通常理解的意义相同。除实施例中使用的具体方法、设备、材料外，根据本技术领域的技术人员对现有技术的掌握及本发明的记载，还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现本发明。

除非另外说明，本发明中所公开的实验方法、检测方法、制备方法均采用本技术领域常规的分子生物学、生物化学、染色质结构和分析、分析化学、细胞培养、重组DNA技术及相关领域的常规技术。这些技术在现有文献中已有完善说明，具体可参见Sambrook等MOLECULAR CLONING：ALABORATORY MANUAL，Second edition，Cold Spring HarborLaboratory Press，1989 and Third edition，2001；Ausubel等，CURRENT PROTOCOLS INMOLECULAR BIOLOGY，John Wiley&Sons，New York，1987 and periodic updates；theseries METHODS IN ENZYMOLOGY，Academic Press，San Diego；Wolffe，CHROMATINSTRUCTURE AND FUNCTION，Third edition，Academic Press，San Diego，1998；METHODS INENZYMOLOGY，Vol.304，Chromatin(P.M.Wassarman and A.P.Wolffe，eds.)，AcademicPress，San Diego，1999；和METHODS IN MOLECULAR BIOLOGY，Vol.119，ChromatinProtocols(P.B.Becker，ed.)Humana Press，Totowa，1999等。

在符合本领域常识的基础上，上述各优选条件，可任意组合，即得本发明各较佳实例。

本发明所用试剂和原料均市售可得。

本发明的积极进步效果在于：

本发明提供了一种新的引导编辑工具(ePE)，其通过在Cas9n上嵌合Csy4核酸内切酶，相较于传统PE的编辑器，Csy4核酸内切酶可以在切割识别序列后留下一段残留的序列，防止pegRNA自身的首尾碱基互补配对，显著提高了PE编辑的效率，同时不会产生脱靶效应，具有良好的产业化前景(图2)。

附图说明

图1为传统形式的引导编辑系统中的pegRNA会形成首尾相接的形式。

图2为本发明所提供的改良型引导编辑系统。

图3为本发明提供的引导编辑系统在HEK293细胞中对碱基的替换效率显著高于传统形式。

图4为本发明提供的引导编辑系统的脱靶率和传统形式无显著差别。

图5为本发明提供的引导编辑系统在HeLa细胞中的碱基替换效率显著高于传统形式。

图6为本发明提供的引导编辑系统在小鼠的N2a细胞中的碱基替换效率显著高于传统形式。

具体实施方式

下面通过实施例的方式进一步说明本发明，但并不因此将本发明限制在所述的实施例范围之中。下列实施例中未注明具体条件的实验方法，按照常规方法和条件，或按照商品说明书选择。

实施例1编辑工具中融合蛋白的构建

1、基于Csy4核酸内切酶的引导编辑工具的构建

由金斯瑞生物科技股份有限公司合成Csy4核酸内切酶序列(SEQ ID NO:1)，使用南京诺唯赞生物科技有限公司的高保真酶试剂盒(Vazyme,P501-d2)进行PCR扩增。正向引物为SEQ ID NO:8：ATGGACCACTACCTCGACATTC，反向引物为SEQ ID NO:9：GAACCAGGGAACGAAACCTCC；

扩增体系如下表3所示：

表3

水	补水至50μL
		2xbuffer	25μL
dNTP	1μL
		正向引物(10μM)	2μL
反向引物(10μM)	2μL
		合成Csy4核酸内切酶模板	1ng
高保真酶	1μL

PCR条件如下表4所示：

表4

PCR扩增产物经通过AxyPrep PCR Clean-up试剂盒(Axygen,AP-PCR-500G)纯化回收，待用。

2、包含Csy4核酸内切酶的新一代引导编辑工具pCMV-Csy4-NMRT的构建

对步骤1得到的Csy4产物进行载体构建。使用南京诺唯赞生物科技有限公司的高保真酶试剂盒(Vazyme,P501-d2)进行PCR扩增。正向引物为SEQ ID NO:10(GTCAGATCCGCTAGAGATCC GCGGCCGCTAATAC GACTCACTATAGGATGGACCACTACCTCGACATT)，反向引物为SEQ ID NO:11(GACGTCACCGCATGTTAACAGACTTCCTCTGCCCTCGAACCAGGGAACGAAACCTCCTT)。

对PE2载体进行扩增。使用南京诺唯赞生物科技有限公司的高保真酶试剂盒(Vazyme,P501-d2)进行PCR扩增。正向引物为SEQ ID NO:12(TGTTAACATGCGGTGACGTCGAGGAGAATCCTGGCCCACCAAAGAAGAAGCGGAAAGTC),反向引物为SEQ ID NO:13(TGCCGGCCCATCACTTTCAC)。

扩增体系如下表5所示：

表5

PCR条件如下表6所示：

表6

利用NotI-HF(NEB,R3189S)和SacI-HF(NEB,R3156S)对pCMV-PE2(Addgene#132775)质粒进行酶切以得到线性化sgRNA载体。酶切体系如下表7所示：

表7

水	补水至50μL
		pCMV-PE2	5μg
10×cutsmart buffer	5μL
		NotI-HF酶	3μL
SacI-HF	3μL

以上反应体系配置好后，置于37℃条件下反应5h，酶切产物用AxyPrep DNA凝胶回收试剂盒(Axygen,AP-GX-250G)做割胶回收得到线性化载体。取100ng线性化载体与PCR产物片段通过南京诺唯赞生物科技有限公司的重组酶试剂盒(Vazyme，C112)进行重组，37℃孵育30分钟并转化涂板，经Sanger测序得到正确的pCMV-Csy4-NMRT载体。连接体系如下表8所示：

表8

水	补水至20μL
		5xbuffer	2μL
片段1	150ng
		片段2	150ng
线性化的pCMV-PE2	100ng
		重组酶	1μL

实施例2编辑工具中融合RNA的构建

检测ePE(Enhanced Prime Editing)在真核细胞中靶向编辑效率所用融合RNA为site1。后续检测ePE在HEK293T细胞的6个内源基因位点融合RNA为site1、FBN1、RIT1、RNF2、ALDOB、MSH2。后续检测ePE在N2a细胞的13个内源基因位点融合RNA为Dnmt1、Fgf21、Ifnar1、Trem2、Rnf2、Tyr、Fgf5、Mstn、Cftr、Hoxd13、SITE3、Ar、SITE4。核酸内切酶Csy4识别位点的序列如SEQ ID NO:5所示。根据靶向位点序列设计pegRNA的20nt的spacer引物，上游引物的5’端添加ACCG，3’端添加GTTTC,下游引物的5’端添加CTCTGAAAC。根据靶向位点序列设计pegRNA的PBS序列和RT序列及切口sgRNA的20nt的spacer序列。将PBS序列、RT序列、Csy4蛋白识别序列和切口sgRNA的spacer序列合成在同一对寡核苷酸引物上，上游引物添加5’端添加GTGC，下游引物的5’端添加AAAC。合成所有引物，

加灭菌水溶解至100μM。合成scaffold的寡核苷酸引物scaffold-F:agagctagaaatagcaagttgaaataaggctagtccgttatcaacttgaaaaagtggcaccgagtcg(SEQ ID NO:14)

scaffold-R：gcaccgactcggtgccactttttcaagttgataacggactagccttatttcaacttgctatttctag(SEQ ID NO:15)

将上述合成的引物退火，退火体系如下表9所示：

表9

正向引物	4.5μL
		反向引物	4.5μL
10×NEB buffer2	1μL

退火程序如下表10所示：

表10

95℃	5min
		95-85℃	-2℃/s
85-25℃	-0.1℃/s
		4℃	∞

退火后的scaffold序列需进行磷酸化处理。磷酸化处理体系如下表11所示：

表11

水	补水至25μL
		scaffold退火产物	6.25μL
10x T4 DNA ligase buffer(NEB)	2.50μL
		T4 PNK(NEB)	0.50μL

以pGL3-U6-sgRNA-EGFP(Addgene#107721)质粒为模板，使用引物Csy4peg-bone-F(GAGAGGGTCTCAGTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATC，SEQ ID NO:16)和Csy4peg-bone-R(CTCTCGGTCTCACGGTGTTTCGTCCTTTCCAC，SEQ ID NO:17)扩增得到线性化载体片段。用AxyPrep DNA凝胶回收试剂盒(Axygen,AP-GX-250G)做割胶回收得到线性化载体。利用BsaI(NEB,R0535S)对线性化载体进行酶切以得到带有粘性末端的融合RNA载体骨架。酶切体系如下表12所示：

表12

水	补水至30μL
		线性化载体	2μg
10×cutsmart buffer	3μL
		BsaI酶	1μL

将退火产物连接到融合RNA载体骨架载体上，以构建靶向特异性融合RNA。连接体系如下表13所示：

表13

水	补水至10μL
		融合RNA载体骨架	30ng
退火产物1	1μL
		退火产物2	1μL
磷酸化scaffold	1μL
		Solution I	5μL

连接产物随后进行转化，复苏30min，涂板于氨卞抗性的LB琼脂平板，37℃培养过夜。挑选单克隆进行测序验证，得到测序正确的融合RNA。

实施例3引导编辑工具在真核细胞中的应用

本发明所述引导编辑工具(ePE)包括实施例1构建的融合蛋白以及实施例2构建的融合RNA。

1、在人HEK293T细胞中靶向编辑

在原核细胞中筛选得到功能性的ePE后，我们进一步检测了ePE在HEK293T细胞中检测靶向引导编辑效率，过程如下：

复苏HEK293T细胞(来自ATCC)，并培养在10cm培养皿(Corning,430167)中，培养基为含有10％体积比的胎牛血清(HyClone,SV30087)的DMEM(HyClone,SH30243.01)。培养温度为37℃，二氧化碳浓度为5％。传代后当细胞密度为80％时，细胞分盘至24孔板。24孔板使用前用1:10稀释的多聚赖氨酸溶液(Sigma，P4707-50ML)包被处理。

1)接种细胞12-14h后，细胞浓度约为80％时，进行转染。每孔转染的质粒的量是pCMV-Csy4-NMRT质粒900ng，将质粒混在50μL的Opti-MEM(Gibco,11058021)培养基中。以pCMV-PE2作为阳性对照组，每孔加900ng pCMV-PE2。

2)另外，将3μl的Lipofectamine 2000转染试剂(Thermo,11668019)混入50μl的Opti-MEM培养基，静置5分钟。

3)将混有质粒的Opti-MEM加入混有Lipofectamine 2000的Opti-MEM，慢速吹打混匀，静置20分钟。

4)将上述混和静置好的转染液分别加入培养的细胞中。

5)转染6小时后用含有10％FBS的DMEM换液。

6)转染48小时后，去培基，用PBS清洗一次细胞，然后用TE(Thermo Fisher，R001100)将细胞消化下来，再用含有10％FBS的DMEM终止消化，并离心收集细胞，最后用培养基重悬。

7)重悬后的细胞进行FACS(Fluorescence activated Cell Sorting)分选，收集GFP荧光强度前5％的细胞，每个样品至少收集10,000个细胞。

取上述收集的细胞的1/6进行直接裂解，并PCR扩增靶向位点片段，PCR引物序列如SEQ ID NO:10所示。用南京诺唯赞生物科技有限公司高保真酶试剂盒(Vazyme,p501-d2)PCR扩增各基因组靶向位点片段。PCR反应体系如下表14所示：

表14

水	补加至50μL
		2xbuffer	25μL
dNTP	1μL
		正向引物(10μM)	2μL
反向引物(10μM)	2μL
		高保真酶	1μL
细胞裂解液	3-5μL

PCR程序如下表15所示：

表15

PCR扩增产物经AxyPrep PCR Clean-up试剂盒(Axygen,AP-PCR-500G)纯化回收，进行Sanger测序和高通量测序，样品均使用位于中国北京的Novogene生物信息学研究所的Illumina HiSeq X 10(2×150PE)进行测序，每个样品的读取深度约为2000万。通过STAR软件(版本2.5.1)将读段映射到人参考基因组(hg38)，使用来自GENCODE v30版的注释。删除重复后，通过GATK HaplotypeCaller(版本4.1.2)识别变体，并用QD(质量按深度)过滤，所有变体均通过bam-readcount进行验证并量化，参数为-q 20-b 30。给定的编辑至少应为10倍，并且要求这些编辑至少要有99％的读数支持野生型样品中的参考等位基因。具体结果如图3所示。由图3可知，ePE相比于PE可以显著提高引导编辑的效率(**表示p<0.05；***表示p<0.01)。

2、比较PE和ePE在人细胞中的脱靶情况

收集上述5％GFP阳性细胞30,000个，进行裂解。用南京诺唯赞生物科技有限公司高保真酶试剂盒(Vazyme,p501-d2)PCR扩增各基因组靶向位点片段。PCR反应体系如下表16所示：

表16

PCR程序如下表17所示：

表17

PCR扩增产物经AxyPrep PCR Clean-up试剂盒(Axygen,AP-PCR-500G)纯化回收，进行高通量测序。测序情况对应结果如图4所示，结果表明ePE不会产生额外的脱靶。

3、ePE在更多细胞系的引导编辑结果

在上述实验中已经发现ePE针对引导编辑的效率相比于PE更高，并且不影响脱靶的产生。为了进一步阐述ePE对引导编辑效率的提高，我们在人源的Hela细胞系和鼠源的N2a上也对ePE的提高作了进一步尝试，过程如下：

1)复苏Hela细胞和N2a细胞(来自ATCC)，并分别培养在10cm培养皿(Corning,430167)中，培养基为含有10％体积比的胎牛血清(HyClone,SV30087)的DMEM(HyClone,SH30243.01)。培养温度为37℃，二氧化碳浓度为5％。传代后当细胞密度为80％时，细胞分盘至24孔板。24孔板使用前用1:10稀释的多聚赖氨酸溶液(Sigma，P4707-50ML)包被处理。

2)接种细胞12-14h后，细胞浓度约为80％时，进行转染。每孔转染的质粒的量是pCMV-Csy4-NMRT质粒900ng，融合RNA的质粒300ng。将质粒混在50μL的Opti-MEM(Gibco,11058021)培养基中。以pCMV-PE2作为阳性对照组，每孔加900ng pCMV-Csy4-NMRT，p egRNA质粒300ng，nicking sgRNA 100ng，

3)另外，将3μl的Lipofectamine 2000转染试剂(Thermo,11668019)混入50μl的Opti-MEM培养基，静置5分钟。

4)将混有质粒的Opti-MEM加入混有Lipofectamine 2000的Opti-MEM，慢速吹打混匀，静置20分钟。

5)将上述混和静置好的转染液分别加入培养的细胞中。

6)转染6小时后用含有10％FBS的DMEM换液。转染48小时后，去培基，用PBS清洗一次细胞，然后用TE(Thermo Fisher，R001100)将细胞消化下来，再用含有10％FBS的DMEM终止消化，并离心收集细胞，最后用培养基重悬。

7)重悬后的细胞进行FACS(Fluorescence activated Cell Sorting)分选，由于GFP信号在pegRNA质粒或融合RNA质粒上，因此，我们直接分选所有的GFP阳性细胞，每个样品至少收集10,00个细胞。

上述收集的细胞直接进行裂解，并PCR扩增靶向位点片段，PCR引物序列如SEQ IDNO:11。用诺唯赞高保真酶试剂盒(Vazyme,p501-d2)PCR扩增各基因组靶向位点片段。PCR反应体系如下表18所示：

表18

PCR程序如下表19所示：

表19

PCR扩增产物经AxyPrep PCR Clean-up试剂盒(Axygen,AP-PCR-500G)纯化回收。将具有不同条形码的PCR产物集中在一起，在中国北京的Novogene生物信息研究所的Illumina Hiseq X Ten(2×150PE)平台上进行深度测序。使用AdapterRemoval版本2.2.2删除了配对末端读取的适配器对，并将11bp或更多碱基的配对末端读取比对合并为单个共有读取。然后使用BWA-MEM算法(BWA v0.7.16)将所有处理的读段映射到靶序列。对于每个位点，使用参数-q 20-b 30的bam读数计数来计算突变率。基于原型间隔子中至少包含1个插入或缺失的核苷酸的读数计算插入缺失。插入缺失频率计算为含插入缺失的读段数/总映射读段数。测序情况结果见附图5和附图6。结果表明ePE在Hela细胞系和N2a的多个内源位点的靶向引导编辑效率与PE相比均有明显提高(**表示p<0.05；***表示p<0.01)。

综上所述，本发明有效克服了现有技术中的种种缺点而具高度产业利用价值。上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求书所涵盖。

SEQUENCE LISTING

<110> 上海科技大学

<120> 一种引导编辑工具、融合RNA及其用途

<130> P21013278C

<160> 17

<170> PatentIn version 3.5

<210> 1

<211> 187

<212> PRT

<213> Artificial Sequence

<220>

<223> Csy4核酸内切酶

<400> 1

Met Asp His Tyr Leu Asp Ile Arg Leu Arg Pro Asp Pro Glu Phe Pro

1 5 10 15

Pro Ala Gln Leu Met Ser Val Leu Phe Gly Lys Leu His Gln Ala Leu

20 25 30

Val Ala Gln Gly Gly Asp Arg Ile Gly Val Ser Phe Pro Asp Leu Asp

35 40 45

Glu Ser Arg Ser Arg Leu Gly Glu Arg Leu Arg Ile His Ala Ser Ala

50 55 60

Asp Asp Leu Arg Ala Leu Leu Ala Arg Pro Trp Leu Glu Gly Leu Arg

65 70 75 80

Asp His Leu Gln Phe Gly Glu Pro Ala Val Val Pro His Pro Thr Pro

85 90 95

Tyr Arg Gln Val Ser Arg Val Gln Ala Lys Ser Asn Pro Glu Arg Leu

100 105 110

Arg Arg Arg Leu Met Arg Arg His Asp Leu Ser Glu Glu Glu Ala Arg

115 120 125

Lys Arg Ile Pro Asp Thr Val Ala Arg Ala Leu Asp Leu Pro Phe Val

130 135 140

Thr Leu Arg Ser Gln Ser Thr Gly Gln His Phe Arg Leu Phe Ile Arg

145 150 155 160

His Gly Pro Leu Gln Val Thr Ala Glu Glu Gly Gly Phe Thr Cys Tyr

165 170 175

Gly Leu Ser Lys Gly Gly Phe Val Pro Trp Phe

180 185

<210> 2

<211> 1367

<212> PRT

<213> Artificial Sequence

<220>

<223> Cas9n

<400> 2

Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr Asn Ser Val Gly

1 5 10 15

Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys

20 25 30

Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly

35 40 45

Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys

50 55 60

Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr

65 70 75 80

Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe

85 90 95

Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His

100 105 110

Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His

115 120 125

Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser

130 135 140

Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met

145 150 155 160

Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp

165 170 175

Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn

180 185 190

Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys

195 200 205

Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu

210 215 220

Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu

225 230 235 240

Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp

245 250 255

Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp

260 265 270

Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu

275 280 285

Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile

290 295 300

Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met

305 310 315 320

Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala

325 330 335

Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp

340 345 350

Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln

355 360 365

Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly

370 375 380

Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys

385 390 395 400

Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly

405 410 415

Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu

420 425 430

Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro

435 440 445

Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met

450 455 460

Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val

465 470 475 480

Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn

485 490 495

Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu

500 505 510

Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr

515 520 525

Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys

530 535 540

Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val

545 550 555 560

Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser

565 570 575

Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr

580 585 590

Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn

595 600 605

Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu

610 615 620

Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His

625 630 635 640

Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr

645 650 655

Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys

660 665 670

Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala

675 680 685

Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys

690 695 700

Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His

705 710 715 720

Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile

725 730 735

Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg

740 745 750

His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr

755 760 765

Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu

770 775 780

Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val

785 790 795 800

Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln

805 810 815

Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu

820 825 830

Ser Asp Tyr Asp Val Asp Ala Ile Val Pro Gln Ser Phe Leu Lys Asp

835 840 845

Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly

850 855 860

Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn

865 870 875 880

Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe

885 890 895

Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys

900 905 910

Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys

915 920 925

His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu

930 935 940

Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys

945 950 955 960

Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu

965 970 975

Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val

980 985 990

Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val

995 1000 1005

Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr

1025 1030 1035

Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn

1040 1045 1050

Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr

1055 1060 1065

Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg

1070 1075 1080

Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu

1085 1090 1095

Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg

1100 1105 1110

Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys

1115 1120 1125

Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu

1130 1135 1140

Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser

1145 1150 1155

Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe

1160 1165 1170

Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu

1175 1180 1185

Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe

1190 1195 1200

Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu

1205 1210 1215

Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn

1220 1225 1230

Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro

1235 1240 1245

Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg

1265 1270 1275

Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr

1280 1285 1290

Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile

1295 1300 1305

Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe

1310 1315 1320

Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr

1325 1330 1335

Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly

1340 1345 1350

Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

<210> 3

<211> 678

<212> PRT

<213> Artificial Sequence

<220>

<223> M-MLV

<400> 3

Ser Thr Leu Asn Ile Glu Asp Glu Tyr Arg Leu His Glu Thr Ser Lys

1 5 10 15

Glu Pro Asp Val Ser Leu Gly Ser Thr Trp Leu Ser Asp Phe Pro Gln

20 25 30

Ala Trp Ala Glu Thr Gly Gly Met Gly Leu Ala Val Arg Gln Ala Pro

35 40 45

Leu Ile Ile Pro Leu Lys Ala Thr Ser Thr Pro Val Ser Ile Lys Gln

50 55 60

Tyr Pro Met Ser Gln Glu Ala Arg Leu Gly Ile Lys Pro His Ile Gln

65 70 75 80

Arg Leu Leu Asp Gln Gly Ile Leu Val Pro Cys Gln Ser Pro Trp Asn

85 90 95

Thr Pro Leu Leu Pro Val Lys Lys Pro Gly Thr Asn Asp Tyr Arg Pro

100 105 110

Val Gln Asp Leu Arg Glu Val Asn Lys Arg Val Glu Asp Ile His Pro

115 120 125

Thr Val Pro Asn Pro Tyr Asn Leu Leu Ser Gly Leu Pro Pro Ser His

130 135 140

Gln Trp Tyr Thr Val Leu Asp Leu Lys Asp Ala Phe Phe Cys Leu Arg

145 150 155 160

Leu His Pro Thr Ser Gln Pro Leu Phe Ala Phe Glu Trp Arg Asp Pro

165 170 175

Glu Met Gly Ile Ser Gly Gln Leu Thr Trp Thr Arg Leu Pro Gln Gly

180 185 190

Phe Lys Asn Ser Pro Thr Leu Phe Asn Glu Ala Leu His Arg Asp Leu

195 200 205

Ala Asp Phe Arg Ile Gln His Pro Asp Leu Ile Leu Leu Gln Tyr Val

210 215 220

Asp Asp Leu Leu Leu Ala Ala Thr Ser Glu Leu Asp Cys Gln Gln Gly

225 230 235 240

Thr Arg Ala Leu Leu Gln Thr Leu Gly Asn Leu Gly Tyr Arg Ala Ser

245 250 255

Ala Lys Lys Ala Gln Ile Cys Gln Lys Gln Val Lys Tyr Leu Gly Tyr

260 265 270

Leu Leu Lys Glu Gly Gln Arg Trp Leu Thr Glu Ala Arg Lys Glu Thr

275 280 285

Val Met Gly Gln Pro Thr Pro Lys Thr Pro Arg Gln Leu Arg Glu Phe

290 295 300

Leu Gly Lys Ala Gly Phe Cys Arg Leu Phe Ile Pro Gly Phe Ala Glu

305 310 315 320

Met Ala Ala Pro Leu Tyr Pro Leu Thr Lys Pro Gly Thr Leu Phe Asn

325 330 335

Trp Gly Pro Asp Gln Gln Lys Ala Tyr Gln Glu Ile Lys Gln Ala Leu

340 345 350

Leu Thr Ala Pro Ala Leu Gly Leu Pro Asp Leu Thr Lys Pro Phe Glu

355 360 365

Leu Phe Val Asp Glu Lys Gln Gly Tyr Ala Lys Gly Val Leu Thr Gln

370 375 380

Lys Leu Gly Pro Trp Arg Arg Pro Val Ala Tyr Leu Ser Lys Lys Leu

385 390 395 400

Asp Pro Val Ala Ala Gly Trp Pro Pro Cys Leu Arg Met Val Ala Ala

405 410 415

Ile Ala Val Leu Thr Lys Asp Ala Gly Lys Leu Thr Met Gly Gln Pro

420 425 430

Leu Val Ile Leu Ala Pro His Ala Val Glu Ala Leu Val Lys Gln Pro

435 440 445

Pro Asp Arg Trp Leu Ser Asn Ala Arg Met Thr His Tyr Gln Ala Leu

450 455 460

Leu Leu Asp Thr Asp Arg Val Gln Phe Gly Pro Val Val Ala Leu Asn

465 470 475 480

Pro Ala Thr Leu Leu Pro Leu Pro Glu Glu Gly Leu Gln His Asn Cys

485 490 495

Leu Asp Ile Leu Ala Glu Ala His Gly Thr Arg Pro Asp Leu Thr Asp

500 505 510

Gln Pro Leu Pro Asp Ala Asp His Thr Trp Tyr Thr Asp Gly Ser Ser

515 520 525

Leu Leu Gln Glu Gly Gln Arg Lys Ala Gly Ala Ala Val Thr Thr Glu

530 535 540

Thr Glu Val Ile Trp Ala Lys Ala Leu Pro Ala Gly Thr Ser Ala Gln

545 550 555 560

Arg Ala Glu Leu Ile Ala Leu Thr Gln Ala Leu Lys Met Ala Glu Gly

565 570 575

Lys Lys Leu Asn Val Tyr Thr Asp Ser Arg Tyr Ala Phe Ala Thr Ala

580 585 590

His Ile His Gly Glu Ile Tyr Arg Arg Arg Gly Trp Leu Thr Ser Glu

595 600 605

Gly Lys Glu Ile Lys Asn Lys Asp Glu Ile Leu Ala Leu Leu Lys Ala

610 615 620

Leu Phe Leu Pro Lys Arg Leu Ser Ile Ile His Cys Pro Gly His Gln

625 630 635 640

Lys Gly His Ser Ala Glu Ala Arg Gly Asn Arg Met Ala Asp Gln Ala

645 650 655

Ala Arg Lys Ala Ala Ile Thr Glu Thr Pro Asp Thr Ser Thr Leu Leu

660 665 670

Ile Glu Asn Ser Ser Pro

675

<210> 4

<211> 2310

<212> PRT

<213> Artificial Sequence

<220>

<223> 融合蛋白

<400> 4

Met Asp His Tyr Leu Asp Ile Arg Leu Arg Pro Asp Pro Glu Phe Pro

1 5 10 15

Pro Ala Gln Leu Met Ser Val Leu Phe Gly Lys Leu His Gln Ala Leu

20 25 30

Val Ala Gln Gly Gly Asp Arg Ile Gly Val Ser Phe Pro Asp Leu Asp

35 40 45

Glu Ser Arg Ser Arg Leu Gly Glu Arg Leu Arg Ile His Ala Ser Ala

50 55 60

Asp Asp Leu Arg Ala Leu Leu Ala Arg Pro Trp Leu Glu Gly Leu Arg

65 70 75 80

Asp His Leu Gln Phe Gly Glu Pro Ala Val Val Pro His Pro Thr Pro

85 90 95

Tyr Arg Gln Val Ser Arg Val Gln Ala Lys Ser Asn Pro Glu Arg Leu

100 105 110

Arg Arg Arg Leu Met Arg Arg His Asp Leu Ser Glu Glu Glu Ala Arg

115 120 125

Lys Arg Ile Pro Asp Thr Val Ala Arg Ala Leu Asp Leu Pro Phe Val

130 135 140

Thr Leu Arg Ser Gln Ser Thr Gly Gln His Phe Arg Leu Phe Ile Arg

145 150 155 160

His Gly Pro Leu Gln Val Thr Ala Glu Glu Gly Gly Phe Thr Cys Tyr

165 170 175

Gly Leu Ser Lys Gly Gly Phe Val Pro Trp Phe Glu Gly Arg Gly Ser

180 185 190

Leu Leu Thr Cys Gly Asp Val Glu Glu Asn Pro Gly Pro Pro Lys Lys

195 200 205

Lys Arg Lys Val Asp Lys Lys Tyr Ser Ile Gly Leu Asp Ile Gly Thr

210 215 220

Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser

225 230 235 240

Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys

245 250 255

Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala

260 265 270

Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn

275 280 285

Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val

290 295 300

Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu

305 310 315 320

Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu

325 330 335

Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys

340 345 350

Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala

355 360 365

Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp

370 375 380

Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val

385 390 395 400

Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly

405 410 415

Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg

420 425 430

Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu

435 440 445

Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys

450 455 460

Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp

465 470 475 480

Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln

485 490 495

Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu

500 505 510

Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu

515 520 525

Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr

530 535 540

Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu

545 550 555 560

Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly

565 570 575

Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu

580 585 590

Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp

595 600 605

Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln

610 615 620

Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe

625 630 635 640

Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr

645 650 655

Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg

660 665 670

Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn

675 680 685

Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu

690 695 700

Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro

705 710 715 720

Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr

725 730 735

Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser

740 745 750

Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg

755 760 765

Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu

770 775 780

Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala

785 790 795 800

Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp

805 810 815

Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu

820 825 830

Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys

835 840 845

Thr Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg

850 855 860

Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly

865 870 875 880

Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser

885 890 895

Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser

900 905 910

Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly

915 920 925

Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile

930 935 940

Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys

945 950 955 960

Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg

965 970 975

Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met

980 985 990

Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys

995 1000 1005

Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr

1010 1015 1020

Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp Gln Glu

1025 1030 1035

Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp Ala Ile Val

1040 1045 1050

Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu

1055 1060 1065

Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser

1070 1075 1080

Glu Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu

1085 1090 1095

Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys

1100 1105 1110

Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile

1115 1120 1125

Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys His Val Ala

1130 1135 1140

Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp

1145 1150 1155

Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys Leu

1160 1165 1170

Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu

1175 1180 1185

Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val

1190 1195 1200

Val Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu

1205 1210 1215

Phe Val Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile

1220 1225 1230

Ala Lys Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe

1235 1240 1245

Phe Tyr Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu

1250 1255 1260

Ala Asn Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly

1265 1270 1275

Glu Thr Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr

1280 1285 1290

Val Arg Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys

1295 1300 1305

Thr Glu Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro

1310 1315 1320

Lys Arg Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp

1325 1330 1335

Pro Lys Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser

1340 1345 1350

Val Leu Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu

1355 1360 1365

Lys Ser Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser

1370 1375 1380

Ser Phe Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr

1385 1390 1395

Lys Glu Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser

1400 1405 1410

Leu Phe Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala

1415 1420 1425

Gly Glu Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr

1430 1435 1440

Val Asn Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly

1445 1450 1455

Ser Pro Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His

1460 1465 1470

Lys His Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser

1475 1480 1485

Lys Arg Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser

1490 1495 1500

Ala Tyr Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu

1505 1510 1515

Asn Ile Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala

1520 1525 1530

Ala Phe Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr

1535 1540 1545

Ser Thr Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile

1550 1555 1560

Thr Gly Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly

1565 1570 1575

Asp Ser Gly Gly Ser Ser Gly Gly Ser Ser Gly Ser Glu Thr Pro

1580 1585 1590

Gly Thr Ser Glu Ser Ala Thr Pro Glu Ser Ser Gly Gly Ser Ser

1595 1600 1605

Gly Gly Ser Ser Thr Leu Asn Ile Glu Asp Glu Tyr Arg Leu His

1610 1615 1620

Glu Thr Ser Lys Glu Pro Asp Val Ser Leu Gly Ser Thr Trp Leu

1625 1630 1635

Ser Asp Phe Pro Gln Ala Trp Ala Glu Thr Gly Gly Met Gly Leu

1640 1645 1650

Ala Val Arg Gln Ala Pro Leu Ile Ile Pro Leu Lys Ala Thr Ser

1655 1660 1665

Thr Pro Val Ser Ile Lys Gln Tyr Pro Met Ser Gln Glu Ala Arg

1670 1675 1680

Leu Gly Ile Lys Pro His Ile Gln Arg Leu Leu Asp Gln Gly Ile

1685 1690 1695

Leu Val Pro Cys Gln Ser Pro Trp Asn Thr Pro Leu Leu Pro Val

1700 1705 1710

Lys Lys Pro Gly Thr Asn Asp Tyr Arg Pro Val Gln Asp Leu Arg

1715 1720 1725

Glu Val Asn Lys Arg Val Glu Asp Ile His Pro Thr Val Pro Asn

1730 1735 1740

Pro Tyr Asn Leu Leu Ser Gly Leu Pro Pro Ser His Gln Trp Tyr

1745 1750 1755

Thr Val Leu Asp Leu Lys Asp Ala Phe Phe Cys Leu Arg Leu His

1760 1765 1770

Pro Thr Ser Gln Pro Leu Phe Ala Phe Glu Trp Arg Asp Pro Glu

1775 1780 1785

Met Gly Ile Ser Gly Gln Leu Thr Trp Thr Arg Leu Pro Gln Gly

1790 1795 1800

Phe Lys Asn Ser Pro Thr Leu Phe Asn Glu Ala Leu His Arg Asp

1805 1810 1815

Leu Ala Asp Phe Arg Ile Gln His Pro Asp Leu Ile Leu Leu Gln

1820 1825 1830

Tyr Val Asp Asp Leu Leu Leu Ala Ala Thr Ser Glu Leu Asp Cys

1835 1840 1845

Gln Gln Gly Thr Arg Ala Leu Leu Gln Thr Leu Gly Asn Leu Gly

1850 1855 1860

Tyr Arg Ala Ser Ala Lys Lys Ala Gln Ile Cys Gln Lys Gln Val

1865 1870 1875

Lys Tyr Leu Gly Tyr Leu Leu Lys Glu Gly Gln Arg Trp Leu Thr

1880 1885 1890

Glu Ala Arg Lys Glu Thr Val Met Gly Gln Pro Thr Pro Lys Thr

1895 1900 1905

Pro Arg Gln Leu Arg Glu Phe Leu Gly Lys Ala Gly Phe Cys Arg

1910 1915 1920

Leu Phe Ile Pro Gly Phe Ala Glu Met Ala Ala Pro Leu Tyr Pro

1925 1930 1935

Leu Thr Lys Pro Gly Thr Leu Phe Asn Trp Gly Pro Asp Gln Gln

1940 1945 1950

Lys Ala Tyr Gln Glu Ile Lys Gln Ala Leu Leu Thr Ala Pro Ala

1955 1960 1965

Leu Gly Leu Pro Asp Leu Thr Lys Pro Phe Glu Leu Phe Val Asp

1970 1975 1980

Glu Lys Gln Gly Tyr Ala Lys Gly Val Leu Thr Gln Lys Leu Gly

1985 1990 1995

Pro Trp Arg Arg Pro Val Ala Tyr Leu Ser Lys Lys Leu Asp Pro

2000 2005 2010

Val Ala Ala Gly Trp Pro Pro Cys Leu Arg Met Val Ala Ala Ile

2015 2020 2025

Ala Val Leu Thr Lys Asp Ala Gly Lys Leu Thr Met Gly Gln Pro

2030 2035 2040

Leu Val Ile Leu Ala Pro His Ala Val Glu Ala Leu Val Lys Gln

2045 2050 2055

Pro Pro Asp Arg Trp Leu Ser Asn Ala Arg Met Thr His Tyr Gln

2060 2065 2070

Ala Leu Leu Leu Asp Thr Asp Arg Val Gln Phe Gly Pro Val Val

2075 2080 2085

Ala Leu Asn Pro Ala Thr Leu Leu Pro Leu Pro Glu Glu Gly Leu

2090 2095 2100

Gln His Asn Cys Leu Asp Ile Leu Ala Glu Ala His Gly Thr Arg

2105 2110 2115

Pro Asp Leu Thr Asp Gln Pro Leu Pro Asp Ala Asp His Thr Trp

2120 2125 2130

Tyr Thr Asp Gly Ser Ser Leu Leu Gln Glu Gly Gln Arg Lys Ala

2135 2140 2145

Gly Ala Ala Val Thr Thr Glu Thr Glu Val Ile Trp Ala Lys Ala

2150 2155 2160

Leu Pro Ala Gly Thr Ser Ala Gln Arg Ala Glu Leu Ile Ala Leu

2165 2170 2175

Thr Gln Ala Leu Lys Met Ala Glu Gly Lys Lys Leu Asn Val Tyr

2180 2185 2190

Thr Asp Ser Arg Tyr Ala Phe Ala Thr Ala His Ile His Gly Glu

2195 2200 2205

Ile Tyr Arg Arg Arg Gly Trp Leu Thr Ser Glu Gly Lys Glu Ile

2210 2215 2220

Lys Asn Lys Asp Glu Ile Leu Ala Leu Leu Lys Ala Leu Phe Leu

2225 2230 2235

Pro Lys Arg Leu Ser Ile Ile His Cys Pro Gly His Gln Lys Gly

2240 2245 2250

His Ser Ala Glu Ala Arg Gly Asn Arg Met Ala Asp Gln Ala Ala

2255 2260 2265

Arg Lys Ala Ala Ile Thr Glu Thr Pro Asp Thr Ser Thr Leu Leu

2270 2275 2280

Ile Glu Asn Ser Ser Pro Ser Gly Gly Ser Lys Arg Thr Ala Asp

2285 2290 2295

Gly Ser Glu Phe Glu Pro Lys Lys Lys Arg Lys Val

2300 2305 2310

<210> 5

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> Csy4核酸内切酶识别序列

<400> 5

gttcactgcc gtataggcag 20

<210> 6

<211> 18

<212> PRT

<213> Artificial Sequence

<220>

<223> T2A片段

<400> 6

Glu Gly Arg Gly Ser Leu Leu Thr Cys Gly Asp Val Glu Glu Asn Pro

1 5 10 15

Gly Pro

<210> 7

<211> 17

<212> PRT

<213> Artificial Sequence

<220>

<223> BPNLS片段

<400> 7

Lys Arg Thr Ala Asp Gly Ser Glu Phe Glu Pro Lys Lys Lys Arg Lys

1 5 10 15

Val

<210> 8

<211> 22

<212> DNA

<213> Artificial Sequence

<220>

<223> Csy4核酸内切酶正向引物

<400> 8

atggaccact acctcgacat tc 22

<210> 9

<211> 21

<212> DNA

<213> Artificial Sequence

<220>

<223> Csy4核酸内切酶反向引物

<400> 9

gaaccaggga acgaaacctc c 21

<210> 10

<211> 68

<212> DNA

<213> Artificial Sequence

<220>

<223> Csy4产物正向引物

<400> 10

gtcagatccg ctagagatcc gcggccgcta atacgactca ctataggatg gaccactacc 60

tcgacatt 68

<210> 11

<211> 59

<212> DNA

<213> Artificial Sequence

<220>

<223> Csy4产物反向引物

<400> 11

gacgtcaccg catgttaaca gacttcctct gccctcgaac cagggaacga aacctcctt 59

<210> 12

<211> 59

<212> DNA

<213> Artificial Sequence

<220>

<223> PE2载体正向引物

<400> 12

tgttaacatg cggtgacgtc gaggagaatc ctggcccacc aaagaagaag cggaaagtc 59

<210> 13

<211> 20

<212> DNA

<213> Artificial Sequence

<220>

<223> PE2载体反向引物

<400> 13

tgccggccca tcactttcac 20

<210> 14

<211> 67

<212> DNA

<213> Artificial Sequence

<220>

<223> scaffold-F

<400> 14

agagctagaa atagcaagtt aaaataaggc tagtccgtta tcaacttgaa aaagtggcac 60

cgagtcg 67

<210> 15

<211> 67

<212> DNA

<213> Artificial Sequence

<220>

<223> scaffold-R

<400> 15

gcaccgactc ggtgccactt tttcaagttg ataacggact agccttattt taacttgcta 60

tttctag 67

<210> 16

<211> 59

<212> DNA

<213> Artificial Sequence

<220>

<223> Csy4peg-bone-F

<400> 16

gagagggtct cagttttaga gctagaaata gcaagttaaa ataaggctag tccgttatc 59

<210> 17

<211> 32

<212> DNA

<213> Artificial Sequence

<220>

<223> Csy4peg-bone-R

<400> 17

ctctcggtct cacggtgttt cgtcctttcc ac 32

Claims

1.一种引导编辑工具，其特征在于，其包括：

其中，所述融合蛋白具有反转录功能，且可与所述识别位点结合并对其进行剪切，从而在所述pegRNA的3’端引入序列，避免pegRNA自身环化。

2.如权利要求1所述的引导编辑工具，其特征在于，所述融合RNA自5’端至3’端依次为pegRNA、Csy4核酸内切酶识别序列和切口sgRNA；优选地，所述Csy4核酸内切酶识别序列的核苷酸序列如SEQ ID NO:5所示。

3.如权利要求1或2所述的引导编辑工具，其特征在于，所述融合蛋白包括例如自N端至C端依次包括Csy4核酸内切酶、Cas9n和病毒反转录酶例如莫罗尼小鼠白血病病毒反转录酶M-MLV；

优选地，所述Csy4核酸内切酶的氨基酸序列如SEQ ID NO:1所示，所述Cas9n的氨基酸序列如SEQ ID NO:2所示，和/或，所述M-MLV的氨基酸序列如SEQ ID NO:3所示；

更优选地，所述融合蛋白还包括T2A片段和/或BPNLS片段；

进一步更优选地，所述T2A片段位于Csy4核酸内切酶与Cas9n之间，其氨基酸序列如SEQID NO:6所示，和/或，所述BPNLS片段位于C端，其氨基酸序列如SEQ ID NO:7所示。

4.如权利要求1～3任一项所述的引导编辑工具，其特征在于，所述的融合RNA包含的Csy4核酸内切酶的识别序列为如SEQ ID NO:5所示的核苷酸序列，或与SEQ ID NO:5所示的核苷酸序列具有95％以上同一性、且维持被Csy4核酸内切酶识别的功能；

5.一种融合RNA，其特征在于，所述融合RNA自5’端至3’端依次为pegRNA、Csy4核酸内切酶识别序列和nicking sgRNA；

6.一种融合蛋白，其特征在于，其自N端至C端依次包括Csy4核酸内切酶、Cas9n和莫罗尼小鼠白血病病毒反转录酶M-MLV；

7.一种分离的核酸，其特征在于，其包括编码如权利要求6所述的融合蛋白的第一多核苷酸；和/或，转录如权利要求5所述的融合RNA的第二多核苷酸。

8.一种重组表达载体，其特征在于，其包括如权利要求7所述的分离的核酸。

9.一种表达系统，其特征在于，其含有如权利要求8所述的重组表达载体；所述表达系统的宿主细胞选自真核细胞或原核细胞，优选选自小鼠细胞、人细胞，更优选选自小鼠脑神经瘤细胞、人胚胎肾细胞、或人宫颈癌细胞、人结肠癌细胞、人骨肉瘤细胞，进一步更优选选自N2a细胞、HEK293T细胞、Hela细胞、HCT116细胞或U2OS细胞；

10.如权利要求1～4任一项所述的引导编辑工具、权利要求5所述的融合RNA、权利要求6所述的融合蛋白、权利要求7所述的分离的核酸、权利要求8所述的重组表达载体或如权利要求9所述的表达系统在真核生物基因编辑中的用途；

优选地，所述用途包括碱基的替换、插入或者缺失。