CN117126876A

CN117126876A - 一种在基因组中定点插入外源序列的方法

Info

Publication number: CN117126876A
Application number: CN202310599213.XA
Authority: CN
Inventors: 高彩霞; 孙超
Original assignee: Institute of Genetics and Developmental Biology of CAS
Current assignee: Institute of Genetics and Developmental Biology of CAS
Priority date: 2022-05-25
Filing date: 2023-05-25
Publication date: 2023-11-28
Also published as: WO2023227050A1; AR129466A1

Abstract

本发明属于基因工程领域。具体而言，本发明涉及一种在基因组中定点插入外源序列的方法。具体而言，本发明基于引导编辑系统(PE)，使用逆转录模板上带有部分重叠序列的两个相邻的pegRNA，在基因组特别是植物基因组中实现了高效且精准的外源序列定点插入。进一步将该系统与重组酶系统如Cre/Lox或FLP/FRT等相偶联，在基因组特别是植物基因组中实现了大片段外源序列定点插入。

Description

一种在基因组中定点插入外源序列的方法

本申请要求2022年5月25日提交的申请号为202210580767.0的中国专利申请和2023年4月6日提交的申请号为202310363943.X的中国专利申请的优先权。

技术领域

发明背景

DNA测序技术的快速发展使得生命科学领域快速进入基因组时代，以GWAS为代表的技术的出现大大促进了遗传学的发展，尤其是植物中众多关键的基因功能被解析，这对分子作物育种的发展是个巨大契机。以杂交、回交为代表的传统作物育种方法由于耗费时间，耗费劳动力等原因，已经不足以支撑作物育种快速增长的要求，因此新型分子育种技术的开发愈发重要。

转基因技术依靠快速、高效获得优良性状的能力被快速应用于植物分子育种中，但由于其引入外源基因的特点而受到严格的监管，而相比来说，基因组编辑技术能够在不引入外源基因的情况下对功能基因进行定点精准修饰，从而更加快速高效的获得优良性状。目前植物基因组编辑工具主要包括三大类，一是锌指核酸酶(ZFN)；二是类转录激活效应因子核酸酶(TALEN)；三是成簇规律间隔的短回文重复序列及其相关蛋白(CRISPR/Cas)。其中以CRISPR/Cas系统最为简便和高效，近几年对遗传学研究和植物分子育种等方向贡献巨大。

目前广泛应用的CRISPR/Cas系统包括一个人工设计的单链向导RNA(sgRNA)以及一个位点特异性核酸酶Cas9。sgRNA通过碱基互补配对原则靶向特定位置的基因组DNA，Cas9与sgRNA在细胞内形成核糖核酸蛋白复合体(RNP)。与此同时Cas9构象发生改变，复合体中Cas9上的一个结构域(PAM-interaction domain，PI domain)不断与基因组上各个位置的基序NGG(PAM)互作，直至找到能与sgRNA碱基互补配对的位置，此时RNP复合体与DNA互作形成新的复合体。Cas9将DNA双链解旋形成R-Loop，同时构象再次发生改变，其上的RuvC和HNH核酸酶活结构域被激活，分别完成对非靶标链和靶标链的切割从而产生DNA双链断裂(DSB)。此时DNA双链断裂会引发细胞内源DNA修复机制，一般会通过发生频率最高的非同源末端连接(NHEJ)进行修复。NHEJ是易错的修复途径，因此在修复过程中可能会在DSB附近随机引入一些碱基的插入或缺失(Indel)从而导致该基因无法正常表达。在产生DSB的过程中如果提供带有DSB两侧基因组序列同源臂的一段外源DNA(donor)，则细胞内源修复机制有可能以此donor为模板进行同源重组修复(HR)。HR是精准的修复途径，可以在基因组上引入任意的点突变、片段插入及删除。但此修复途径在高等生物细胞尤其是植物细胞内发生频率极低，因此并未得到广泛应用。此后，基于CRISPR系统的碱基编辑器(Base editor,BE)被开发，BE系统利用RuvC结构域失活的Cas9(nCas9-D10A)偶联一个脱氨酶(胞嘧啶脱氨酶或腺嘌呤脱氨酶，分别对应CBE和ABE)，在RNP复合体结合DNA形成R-Loop时，脱氨酶对非靶标链上的胞嘧啶(C)或腺嘌呤(A)进行脱氨形成尿嘧啶(U)或次黄嘌呤(I)，细胞内修复机制会将尿嘧啶识别为胸腺嘧啶(T)，将次黄嘌呤识别为鸟嘌呤(G)，此时nCas9对靶标链进行切割，从而促进细胞发生碱基切除修复途径(BER)完成C-U-T或A-I-G的修复。BE系统不需要依赖DSB的产生和HR途径即可完成高效精准的点突变，因此迅速得到了广泛应用。而以BE为代表的CRISPR系统偶联其他效应因子的基因组编辑工具箱也得到了快速发展，包括偶联转录激活、抑制因子或表观修饰因子进行靶向激活、抑制以及表观修饰等。

尽管CRISPR分子工具箱迅速发展，从简单的基因敲除到精准的碱基编辑，再到转录激活、抑制及表观修饰等，但DNA片段的靶向精准插入在高等植物细胞中一直难以实现。实现靶向插入的传统策略依赖于DSB的产生，当额外提供一段不含基因组同源序列的donorDNA时，此donor则有可能在DSB产生后通过NHEJ的修复途径被插入到DSB附近，但此过程是非常不精准的，而且由于donor提供方式等问题导致其效率也较低；当额外提供一段含有基因组同源序列的donor DNA时，此donor中的目的片段则有可能在DSB产生后通过HR的修复途径被插入到靶点位置，但此过程的效率是极低的，在高等植物细胞中更是几乎难以实现。

由于HR效率过低，定点大片段DNA整合可以借助位点特异性重组酶(SSR)来完成。SSR可以特异性识别结合某段DNA序列(重组位点，RS)并形成联会复合体，两个联会复合体之间可以发生链交换过程并完成DNA的重组，这一过程由SSR催化活性中心的酪氨酸或丝氨酸残基攻击RS磷酸骨架发生DNA的切割介导，切割之后形成共价中间体并发生两个RS之间的链交换反应，此过程不需要高能辅助因子的参与，不借助细胞内源DNA修复途径，因为较为高效。由SSR酶活中心残基的差异可以将其分为酪氨酸重组酶家族以及丝氨酸重组酶家族，其主要来源于噬菌体、细菌以及真菌中，发挥着切离、倒位、整合、转座等生物学功能。常见的酪氨酸重组酶有大肠杆菌噬菌体λ整合酶、P1噬菌体Cre重组酶、酵母FLP重组酶等，其都利用一个保守的酪氨酸残基攻击RS骨架的一条链，暴露出5’磷酸基团与3’羟基基团，此时两个RS的5’磷酸基团与3’羟基基团分别结合实现链交换，同时结合在RS上的重组酶变构，攻击另一条链并通过同样的途径实现链交换，从而完成重组的过程。常见的丝氨酸重组酶有Tn3转座酶、沙门氏菌重组酶Hin、链霉菌噬菌体ФC31整合酶、以及分枝杆菌噬菌体Bxb1整合酶等，其重组过程与酪氨酸重组酶类似，不同的是其利用丝氨酸残基同时攻击RS骨架的两条链，实现两个RS两条链的同时交换，从而完成重组过程。SSR的应用很广泛：在体外主要作为分子克隆工具使用，其DNA分子间重组高效性使得大片段、多片段的体外分子克隆变的十分简单；在原核细胞中可以作为基因或染色工程改造工具，进行大片段DNA的删除、倒位、易位或整合；在高等生物真核细胞中则主要作为转基因标记基因删除的工具，而由于目前RS难以定点敲入导致定点大片段DNA整合十分困难。

近期，能够实现任意碱基突变、短片段DNA插入及删除的引导编辑系统(PE)被开发，迅速因其强大且不依赖于DSB的功能被广泛应用于动植物基因组编辑。引导编辑系统利用HNH结构域失活的Cas9(nCas9-H840A)偶联一个逆转录酶(MLV)，同时在sgRNA的3’端先后引入逆转录模板序列(RT)以及逆转录酶的引物结合位点(PBS)，其中RT上带有目的突变序列以及突变序列两侧与基因组同源的序列，将此sgRNA称为pegRNA。nCas9对非靶标链切割后，PBS会结合在在其5’端从而作为逆转录酶的起始引物，此时逆转录酶向RT的3’端延申，将RT序列逆转录为DNA，形成一个带有突变序列的3’悬端，经过细胞内源DNA修复后就有可能将此突变序列引入基因组，从而完成一定长度内任意类型的基因组编辑。

引导编辑系统在高等植物细胞中的效率仍太低，不足以实现高效插入，且插入片段长度非常受限。推测主要原因有三个，一是引导编辑系统在高等植物中利用的修复途径发生频率较为低下，导致最终编辑效率较低；二是RT与基因组同源的序列竞争性结合基因组DNA，阻碍了逆转录过程的发生；三是逆转录酶或pegRNA容易被降解或逆转录能力不足。本领域仍然需要在植物基因组中实现外源核苷酸序列特别是大片段外源核苷酸序列的高效插入的系统和方法。

发明简述

为了避免上述PE在高等植物中效率低下的前两个原因，本发明人首先设计了双pegRNA策略，两个pegRNA分别靶向结合基因组DNA的两条链且PAM间有一定的距离(大约20bp-大约60bp)，两个pegRNA的RT上均只含有所需插入序列且3’端带有部分重叠序列，逆转录完成之后两条新合成的DNA链由于有重叠序列进行相互结合并退火，通过与原PE系统不同的DNA修复途径之后完成插入(根据本申请的部分结果，此修复途径可能为SSA，一种在植物中发生频率较为高效的修复途径)。

最近，通过融合逆转录病毒核衣壳蛋白(NC)以及删除逆转录酶MLV的RNaseH活性结构域建立的增强版的植物引导编辑系统(ePPE)能够增强逆转录能力或增强逆转录酶稳定性，从而大大提高植物引导编辑系统的效率。此外，通过在pegRNA的3’端添加一个二级结构tevopre(epegRNA)同样能够通过增强逆转录能力或增强pegRNA稳定性并提高PE的效率。

为了进一步提高插入效率，本发明人同时使用了上述的ePPE系统以及epegRNA，从而在植物体细胞中实现了高效的短片段定点插入。同时评估了酪氨酸重组酶家族中的Cre/Lox系统、FLP/FRT系统等与丝氨酸家族中的ФC31、Bxb1重组酶系统在水稻体细胞中的DNA整合能力，发现Cre/Lox系统和FLP/FRT系统效果更好，于是将其与上述高效插入系统相结合，通过额外提供一个带有RS的所需插入基因的donor，进而通过一步法实现了大片段外源核苷酸序列的定点插入。

附图简述

图1.在水稻原生质体中测试五种构建体利用双pegRNA插入Lox66或FRT1的效率。

图2.测试利用PPE+pegRNA、ePPE+pegRNA、PPE+epegRNA、ePPE+epegRNA插入RS的效率。

图3.使用ePPE+epegRNA组合评估插入长度(30bp-100bp)与两个pegRNA之间距离(PAM距离20bp-80bp)的关系以及两个RT之间overlap的长度(10bp-50bp)对插入效率的影响。

图4.Cas9替换为SpG-Cas9或SpRY-Cas9时在NG PAM上进行定点插入的效率。

图5.不同启动子启动pegRNA对插入效率的影响。

图6.使用37度温度处理的方式(6B)以及使用MS2-MCP招募MLV的系统(6C)对长片段插入效率的影响。

图7.A)GFP报告系统示意图；B)8种重组酶编辑效果评估，以及相应的重组酶位点序列。显微镜图像分别是水稻原生质体转化或不转化对应的重组酶；C)使用荧光报告系统验证重组酶编辑效果；D)使用荧光报告系统评估重组酶的DNA整合能力的构建体示意图；F)重组酶与ePPE组合的一步法大片段插入的构建体示意图。

图8.通过ddPCR检测PrimeROOT.v1系统的插入效率。

图9.A)流式细胞仪检测GFP阳性的植物原生质体细胞百分比，反映了使用不同重组酶的组合进行“一步法”大片段插入的效率；B)利用ddPCR测定水稻原生质体OsALS的GFP插入效率。

图10.利用荧光显微镜和流式细胞仪表证不同碱基编辑系统的编辑效率。

图11.利用ddPCR检测不同donor插入四个内源性位点的插入百分比。

图12.利用ddPCR检测使用PrimeROOT.v2C-Cre系统在玉米中六个内源性位点的插入百分比。

图13.利用ddPCR检测不同基因编辑系统在进行大片段插入的插入百分比。

图14.利用碱基测序结果比较PrimeROOT.v2C-Cre和NHEJ的精准编辑效率。

图15.A)利用PrimeROOT.v2C-Cre将Act1启动子插入OsHPPD位点示意图；B)pegRNA对的筛选；C)插入效率。

图16.高通量测序得到GSH位点以及高通量测序检测在GSH1中插入重组位点的插入效率。

图17.PrimeROOT.v3示意图以及通过PrimeROOT.v3进行精准插入的效率。

图18.利用PrimeROOT系统在人HEK293细胞进行精准插入的效率及测序结果。

发明详述

一、定义

在本发明中，除非另有说明，否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且，本文中所用的蛋白质和核酸化学、分子生物学、细胞和组织培养、微生物学、免疫学相关术语和实验室操作步骤均为相应领域内广泛使用的术语和常规步骤。例如，本发明中使用的标准重组DNA和分子克隆技术为本领域技术人员熟知，并且在如下文献中有更全面的描述：Sambrook，J.，Fritsch，E.F.和Maniatis，T.，MolecularCloning：A Laboratory Manual；Cold Spring Harbor Laboratory Press：Cold SpringHarbor，1989(下文称为“Sambrook”)。同时，为了更好地理解本发明，下面提供相关术语的定义和解释。

如本文所用，术语“和/或”涵盖由该术语连接的项目的所有组合，应视作各个组合已经单独地在本文列出。例如，“A和/或B”涵盖了“A”、“A和B”以及“B”。例如，“A、B和/或C”涵盖“A”、“B”、“C”、“A和B”、“A和C”、“B和C”以及“A和B和C”。

“包含”一词在本文中用于描述蛋白质或核酸的序列时，所述蛋白质或核酸可以是由所述序列组成，或者在所述蛋白质或核酸的一端或两端可以具有额外的氨基酸或核苷酸，但仍然具有本发明所述的活性。此外，本领域技术人员清楚多肽N端由起始密码子编码的甲硫氨酸在某些实际情况下(例如在特定表达系统表达时)会被保留，但不实质影响多肽的功能。因此，本申请说明书和权利要求书中在描述具体的多肽氨基酸序列时，尽管其可能不包含N端由起始密码子编码的甲硫氨酸，然而此时也涵盖包含该甲硫氨酸的序列，相应地，其编码核苷酸序列也可以包含起始密码子；反之亦然。

如本文所用，“基因组编辑系统”是指用于对细胞内基因组进行基因组编辑所需的成分的组合。其中所述系统的各个成分，例如引导编辑融合蛋白或其表达构建体、pegRNA或其表达构建体、donor构建体等可以各自独立地存在，或者可以以任意的组合作为组合物的形式存在。

“基因组”如本文所用不仅涵盖存在于细胞核中的染色体DNA，而且还包括存在于细胞的亚细胞组分(如线粒体、质体)中的细胞器DNA。

本文所述“经遗传修饰的植物”意指在其基因组内包含插入的外源多核苷酸的植物。例如外源多核苷酸能够稳定地整合进植物的基因组中，并遗传连续的世代。

针对序列而言的“外源”意指来自外来物种的序列，或者如果来自相同物种，则指通过蓄意的人为干预而从其天然形式发生了组成和/或基因座的显著改变的序列。

“多核苷酸”、“核酸序列”、“核苷酸序列”或“核酸片段”可互换使用并且是单链或双链RNA或DNA聚合物，任选地可含有合成的、非天然的或改变的核苷酸碱基。核苷酸通过如下它们的单个字母名称来指代：“A”为腺苷或脱氧腺苷(分别对应RNA或DNA)，“C”表示胞苷或脱氧胞苷，“G”表示鸟苷或脱氧鸟苷，“U”表示尿苷，“T”表示脱氧胸苷，“R”表示嘌呤(A或G)，“Y”表示嘧啶(C或T)，“K”表示G或T，“H”表示A或C或T，“D”表示A、T或G，“I”表示肌苷，并且“N”表示任何核苷酸。尽管本文中的核苷酸序列可能以DNA序列表示(包含T)，但在提及RNA时，本领域技术人员可以容易地确定相应的RNA序列(即用U替换T)。

“多肽”、“肽”、和“蛋白”在本发明中可互换使用，指氨基酸残基的聚合物。该术语适用于其中一个或多个氨基酸残基是相应的天然存在的氨基酸的人工化学类似物的氨基酸聚合物，以及适用于天然存在的氨基酸聚合物。术语“多肽”、“肽”、“氨基酸序列”和“蛋白”还可包括修饰形式，包括但不限于糖基化、脂质连接、硫酸盐化、谷氨酸残基的γ羧化、羟化和ADP-核糖基化。

如本发明所用，“表达构建体”是指适于感兴趣的核苷酸序列在生物体中表达的载体如重组载体。“表达”指功能产物的产生。例如，核苷酸序列的表达可指核苷酸序列的转录(如转录生成mRNA或功能RNA)和/或RNA翻译成前体或成熟蛋白质。

本发明的“表达构建体”可以是线性的核酸片段、环状质粒、病毒载体，或者，在一些实施方式中，可以是能够翻译的RNA(如mRNA)，例如是体外转录生成的RNA。

本发明的“表达构建体”可包含不同来源的调控序列和感兴趣的核苷酸序列，或相同来源但以不同于通常天然存在的方式排列的调控序列和感兴趣的核苷酸序列。

“启动子”指能够控制另一核酸片段转录的核酸片段。在本发明的一些实施方式中，启动子是能够控制细胞中基因转录的启动子，无论其是否来源于所述细胞。启动子可以是组成型启动子或组织特异性启动子或发育调控启动子或诱导型启动子。

启动子的实例包括但不限于聚合酶(pol)I、pol II或pol III启动子。当用于植物时，启动子可以是花椰菜花叶病毒35S启动子、玉米Ubi-1启动子、小麦U6启动子、水稻U3启动子、玉米U3启动子、水稻肌动蛋白启动子。

将核酸分子(例如质粒、线性核酸片段、RNA等)或蛋白质“导入”生物体是指用所述核酸或蛋白质转化生物体细胞，使得所述核酸或蛋白质在细胞中能够发挥功能。本发明所用的“转化”包括稳定转化和瞬时转化。“稳定转化”指将外源核苷酸序列导入基因组中，导致外源基因稳定遗传。一旦稳定转化，外源核酸序列稳定地整合进所述生物体和其任何连续世代的基因组中。“瞬时转化”指将核酸分子或蛋白质导入细胞中，执行功能而没有外源基因稳定遗传。瞬时转化中，外源核酸序列不整合进基因组中。

“性状”指细胞或生物体的生理的、形态的、生化的或物理的特征。

“农艺性状”特别是指作物植物的可测量的指标参数，包括但不限于：叶片绿色、籽粒产量、生长速率、总生物量或积累速率、成熟时的鲜重、成熟时的干重、果实产量、种子产量、植物总氮含量、果实氮含量、种子氮含量、植物营养组织氮含量、植物总游离氨基酸含量、果实游离氨基酸含量、种子游离氨基酸含量、植物营养组织游离氨基酸含量、植物总蛋白含量、果实蛋白含量、种子蛋白含量、植物营养组织蛋白质含量、除草剂的抗性抗旱性、氮的吸收、根的倒伏、收获指数、茎的倒伏、株高、穗高、穗长、抗病性、抗寒性、抗盐性和分蘖数等。

二、用于在生物体基因组中定点修饰例如定点插入外源核苷酸序列的基因组编辑系统

在一方面，本发明涉及一种用于在生物体基因组中定点修饰例如定点插入外源核苷酸序列的基因组编辑系统，其包含：

i)a)CRISPR核酸酶和/或含有编码所述CRISPR核酸酶的核苷酸序列的表达构建体，和逆转录酶和/或含有编码所述逆转录酶的核苷酸序列的表达构建体，或

b)引导编辑融合蛋白和/或含有编码所述引导编辑融合蛋白的核苷酸序列的表达构建体，其中所述引导编辑融合蛋白包含CRISPR核酸酶和逆转录酶；

ii)第一pegRNA和/或含有编码所述第一pegRNA的核苷酸序列的表达构建体，和

iii)第二pegRNA和/或含有编码所述第二pegRNA的核苷酸序列的表达构建体，

其中所述第一pegRNA从5’至3’方向包含第一引导序列、第一支架(scaffold)序列、第一逆转录模板(RT)序列和第一引物结合位点(PBS)序列，

其中所述第二pegRNA从5’至3’方向包含第二引导序列、第一支架(scaffold)序列、第二逆转录模板(RT)序列和第二引物结合位点(PBS)序列，

其中所述第一pegRNA靶向生物体基因组DNA有义链上的第一靶序列，所述第二pegRNA靶向生物体基因组DNA反义链上的第二靶序列。在一些实施方案中，所述生物体是植物。

如本文所用，“靶序列”是指基因组中由5’或3’侧翼的PAM(前间区序列邻近基序)序列所表征的长度大约20个核苷酸的序列。通常而言，PAM是CRISPR核酸酶或其变体与向导RNA形成的复合物识别靶序列所必需的。例如，对于Cas9核酸酶及其变体，其靶序列在3’末端紧邻PAM，例如5’-NGG-3’。基于PAM的存在，本领域技术人员可以容易地确定基因组中可用于靶向的靶序列。而且取决于PAM的位置，靶序列可以位于基因组DNA分子的任一条链上，靶序列所在的链称为靶链。对于Cas9或其衍生物例如Cas9切口酶而言，靶序列优选20个核苷酸。取决于不同的CRISPR核酸酶或其不同的变体，PAM序列会有所不同。

在一些实施方案中，所述pegRNA能够与所述融合蛋白形成复合物并将所述融合蛋白靶向基因组中的靶序列，导致靶链上(例如在所述靶序列内)的切口。

在一些实施方案中，所述第一靶序列和所述第二靶序列的PAM之间间隔大约1-大约300bp，例如10bp-大约100bp，例如大约20bp-大约60bp。在一些实施方案中，所述第一靶序列和所述第二靶序列的PAM之间可以间隔大约10bp、大约20bp、大约30bp、大约40bp、大约50bp、大约60bp、大约70bp、大约80bp、大约100bp、大约150bp、大约300bp。

在一些实施方案中，所述CRISPR核酸酶是Cas9核酸酶，例如衍生自化脓链球菌(S.pyogenes)的SpCas9。示例性的野生型SpCas9包含SEQ ID NO:1所示氨基酸序列。

在一些实施方案中，所述CRISPR核酸酶是CRISPR切口酶。融合蛋白中的所述CRISPR切口酶(nickase)能够在基因组DNA的靶链(靶序列所在的链)上的靶序列内形成切口(nick)。在一些实施方案中，所述CRISPR切口酶是Cas9切口酶。

在一些实施方案中，所述Cas9切口酶衍生自化脓链球菌(S.pyogenes)的SpCas9，且相对于野生型SpCas9至少包含氨基酸取代H840A。在一些实施方案中，所述Cas9切口酶包含SEQ ID NO:2所示氨基酸序列。在一些实施方案中，所述融合蛋白中的Cas9切口酶能够在靶序列的PAM的-3位核苷酸(PAM序列5’端的第一个核苷酸为+1位)和-4位核苷酸之间形成切口。

在一些实施方案中，所述Cas9核酸酶如切口酶是能够识别改变的PAM序列的Cas9核酸酶或切口酶变体。本领域已知许多能够识别改变的PAM序列的Cas9切口酶变体。在一些实施方案中，所述Cas9核酸酶如切口酶是识别PAM序列5’-NG-3’的Cas9变体。在一些实施方案中，识别PAM序列5’-NG-3’的Cas9切口酶变体相对于野生型Cas9包含以下氨基酸取代H840A、D1135L、S1136W、G1218K、E1219Q、R1335Q、T1337R，其中氨基酸编号参照SEQ ID NO:1。在一些实施方案中，所述Cas9切口酶变体(SpG-Cas9切口酶)包含SEQ ID NO:42所示氨基酸序列。在一些实施方案中，识别PAM序列5’-NG-3’的Cas9切口酶变体相对于野生型Cas9包含以下氨基酸取代H840A、A61R、L1111R、D1135L、S1136W、G1218K、E1219Q、N1317R、A1322R、R1333P、R1335Q、T1337R，其中氨基酸编号参照SEQ ID NO:1。在一些实施方案中，所述Cas9切口酶变体(SpRY-Cas9切口酶)包含SEQ ID NO:43所示氨基酸序列。

本发明所述Cas9核酸酶如切口酶形成的切口能够导致靶链形成具有3’末端的游离单链(3’游离单链)和具有5’末端的游离单链(5’游离单链)。

在一些实施方案中，引导编辑融合蛋白中的所述CRISPR核酸酶如Cas9切口酶和所述逆转录酶通过接头相连。

在一些实施方案中，本发明中的所述逆转录酶可以衍生自不同来源。在一些实施方案中，所述逆转录酶是来源于病毒的逆转录酶。例如，在一些实施方案中，所述逆转录酶是M-MLV逆转录酶或其功能性变体。示例性的野生型M-MLV逆转录酶序列如SEQ ID NO:3所示。

在一些实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体

(a)包含在第155位、156位、200位和/或524位处的突变，例如包含选自F155Y、F155V、F156Y、D524N、N200C中任一种或其组合的突变，所述氨基酸位置参考SEQ ID NO:3；

(b)connection序列被缺失；和/或

(c)RNase H结构域被突变或缺失。

在一些优选实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体包含选自D524N突变，所述氨基酸位置参考SEQ ID NO:3。

在一些优选实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体的RNase H结构域被缺失。

在一些实施方案中，所述connection序列包含如SEQ ID NO:4所示的氨基酸序列。

在一些实施方案中，所述RNase H结构域包含如SEQ ID NO:5所示的氨基酸序列。

在一些实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体包含SEQID NO:9-15中任一项所述的序列，优选包含SEQ ID NO:14所示氨基酸序列。

在一些实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体在N端或C端与核衣壳蛋白(NC)、水解酶(PR)或整合酶(IN)直接地或通过接头融合。所述核衣壳蛋白(NC)、水解酶(PR)或整合酶(IN)例如是来自M-MLV。

在一些实施方案中，所述核衣壳蛋白(NC)包含如SEQ ID NO:6所示的氨基酸序列。

在一些实施方案中，所述水解酶(PR)包含如SEQ ID NO:7所示的氨基酸序列。

在一些实施方案中，所述整合酶(IN)包含如SEQ ID NO:8所示的氨基酸序列。

在一些优选实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体在N端与核衣壳蛋白(NC)直接地或通过接头融合。

在一些优选实施方案中，所述逆转录酶例如M-MLV逆转录酶或其功能性变体在C端与核衣壳蛋白(NC)直接地或通过接头融合。

在一些实施方案中，所述逆转录酶还可以通过接头或直接与RNA适配体结合蛋白序列(例如MCP蛋白序列)融合。由此，所述逆转录酶可以通过RNA适配体结合蛋白序列(例如MCP蛋白序列)和pegRNA上存在的一或多个RNA适配体序列(例如MS2序列)的相互作用被招募至CRISPR核酸酶。在此情况下，无需将CRISPR核酸酶融合至所述逆转录酶。示例性的MCP蛋白包含SEQ ID NO:44的氨基酸序列。

如本文所用，“接头”可以是长1-50个(例如1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个或20-25个、25-50个)或更多个氨基酸、无二级以上结构的非功能性氨基酸序列。例如，所述接头可以是柔性接头，例如GGGGS、GS、GAP、(GGGGS)x 3、GGS和(GGS)x7等。例如，可以是SEQ ID NO:16所示接头。

在一些实施方案中，融合蛋白中的所述CRISPR核酸酶如CRISPR切口酶位于所述逆转录酶的N端。在一些实施方案中，融合蛋白中的所述CRISPR核酸酶如CRISPR切口酶位于所述逆转录酶的C端。

在本发明的一些实施方案中，本发明的CRISPR核酸酶、逆转录酶、重组酶或融合蛋白还可以包含一或多个核定位序列(NLS)。一般而言，所述CRISPR核酸酶、逆转录酶或融合蛋白中的一个或多个NLS应具有足够的强度，以便在细胞的核中驱动所述CRISPR核酸酶、逆转录酶或融合蛋白以可实现其碱基编辑功能的量积聚。一般而言，核定位活性的强度由所述CRISPR核酸酶、逆转录酶或融合蛋白中NLS的数目、位置、所使用的一个或多个特定的NLS、或这些因素的组合决定。

在一些优选实施方案中，所述融合蛋白从N端至C端方向包含通过或不通过接头连接的所述CRISPR核酸酶如切口酶、所述核衣壳蛋白(NC)和所述逆转录酶。在一些优选实施方案中，所述融合蛋白从N端至C端方向包含核定位序列-所述CRISPR核酸酶如切口酶-接头-所述核衣壳蛋白(NC)-核定位序列-接头-所述逆转录酶-核定位序列。

在一些优选实施方案中，所述融合蛋白包含SEQ ID NO:19所示的氨基酸序列(ePPE)。

在一些实施方案中，所述融合蛋白包含核酸酶部分和逆转录酶部分，所述核酸酶部分包含所述CRISPR核酸酶如CRISPR切口酶和一或多个NLS，所述逆转录酶部分包含RNA适配体结合蛋白序列(例如MCP蛋白序列)、所述逆转录酶、一或多个NLS和任选的所述核衣壳蛋白(NC)，其中所述核酸酶部分和逆转录酶部分通过自裂解肽相连。当所述融合蛋白在体内翻译时，会形成单独的核酸酶部分多肽和核酸酶部分多肽，所述逆转录酶部分通过RNA适配体结合蛋白序列(例如MCP蛋白序列)和pegRNA上存在的一或多个RNA适配体序列(例如MS2序列)的相互作用被招募至所述核酸酶部分。示例性的MCP蛋白包含SEQ ID NO:44的氨基酸序列。

在一些实施方案中，本发明的pegRNA还包含一或多个RNA适配体序列(例如MS2序列)。示例性的一或多个MS2序列如SEQ ID NO:45所示。在一些实施方案中，所述一或多个RNA适配体序列(例如MS2序列)位于pegRNA的3’端。在一些实施方案中，所述一或多个RNA适配体序列(例如MS2序列)位于pegRNA的中间，例如，位于支架序列和RT序列之间。所述一或多个RNA适配体序列(例如MS2序列)可以用于将包含RNA适配体结合蛋白序列(例如MCP蛋白序列)的逆转录酶招募至CRISPR核酸酶-pegRNA复合物。

本发明的pegRNA中的引导序列(也称种子序列或spacer序列)被设置为与靶序列具有充分的序列相同性(优选100％相同性)，从而能够通过碱基配对与靶序列的互补链结合，实现序列特异性靶向。

例如，第一pegRNA中的引导序列可以与第一靶序列具有充分的序列相同性(优选100％相同性)，其与CRISPR核酸酶如切口酶的复合物导致第一靶序列中的切口；第二pegRNA中的引导序列可以与相对链上的第二靶序列具有充分的序列相同性(优选100％相同性)，其与CRISPR核酸酶如切口酶的复合物导致第二靶序列中的切口，由此两种pegRNA导致在基因组DNA不同链上的切口。

本领域已知多种适合用于基于CRISPR核酸酶(例如Cas9)的基因组编辑的gRNA的支架(scaffold)序列，这些可以用于本发明的pegRNA中。在一些具体实施方案中，所述gRNA的支架序列示于SEQ ID NO:17。

在一些实施方式中，所述引物结合序列被设置为与所述靶序列的至少一部分互补(优选与所述靶序列的至少一部分完全配对)，优选地，所述引物结合序列与靶序列所在DNA链中由切口导致的3’游离单链的至少一部分互补(优选与所3’游离单链的至少一部分完全配对)，特别是与所述3’游离单链的3’末端的核苷酸序列互补(优选完全配对)。当所述链的3’游离单链与所述引物结合序列通过碱基配对结合时，所述3’游离单链能够作为引物，以与所述引物结合序列紧邻的反转录模板(RT)序列作为模板，在融合蛋白中的逆转录酶的作用下进行反转录，延伸出对应于所述反转录模板(RT)序列的DNA序列。

所述引物结合序列取决于所使用的CRISPR切口酶在靶序列中形成的游离单链的长度，然而，其应当具有确保特异性结合的最少长度。在一些实施方案中，所述引物结合序列长度可以为4-20个核苷酸，例如长度为4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20个核苷酸。

在一些实施方案中，所述引物结合序列被设置为具有不超过大约52℃的Tm(解链温度)。在一些实施方案中，所述引物结合序列的Tm(解链温度)为大约18℃-52℃，优选大约24℃-36℃，更优选大约28℃-32℃，更优选大约30℃。

计算核酸序列的Tm的方法为本领域公知，例如可以使用Oligo Analysis Tool在线分析工具计算。示例性的计算公式为Tm＝N_G:C*4+N_A:T*2，其中N_G:C是序列中G和C碱基的数目，N_A:T是序列中A和T碱基的数目。可以通过选择合适的PBS的长度来获得合适的Tm。或者，可以通过选择合适的靶序列来获得具有合适的Tm的PBS序列。

在一些实施方式中，所述RT模板序列可以是任意序列。通过上述反转录，其序列信息可以被整合进靶序列所在的DNA链(也即包含靶序列PAM的链)，再通过细胞的DNA修复作用，形成包含所述RT模板序列信息的DNA双链。在一些实施方案中，所述RT模板序列包含期望的修饰。例如，所述期望修饰包括一或多个核苷酸的取代、缺失和/或添加。在一些实施方式中，所述RT模板序列被设置为对应于靶序列切口下游的序列(例如，与靶序列切口下游的序列的至少一部分互补)，但包含期望的修饰。所述期望修饰包括一或多个核苷酸的取代、缺失和/或添加。

在一些实施方案中，所述两种pegRNA被设置为导入相同的期望的修饰。举例而言，其中一种pegRNA被设置为在有义链导入A至G的取代，而另一种pegRNA则被设置为在反义链相应位置相应地导入T至C的取代。再举例而言，其中一种pegRNA被设置为在有义链导入两个核苷酸的缺失，另一种pegRNA则被设置为在反义链相应位置同样导入两个核苷酸的缺失。其它类型的修饰可以此类推。可以通过设计合适的RT模板序列来使分别靶向两条不同链的pegRNA实现相同的期望修饰。

在一些实施方式中，所述RT序列被设置为在以其作为模板逆转录后生成待插入基因组的外源核苷酸序列或其部分，或生成所述待插入生物体如植物基因组的外源核苷酸序列或其部分的互补序列。在一些实施方案中，所述RT序列不包含靶序列附近的基因组序列或靶序列附近的基因组序列的互补序列。在一些实施方案中，所述RT序列不包含除待插入的外源核苷酸序列之外的序列信息。

在一些实施方案中，其中所述第一RT序列和所述第二RT序列用于插入第一外源核苷酸序列，例如在所述第一靶序列和第二靶序列之间(如第一靶序列的切口和第二靶序列的切口之间)插入所述第一外源核苷酸序列。

在一些实施方案中，所述第一pegRNA的第一RT序列被设置为在以其作为模板逆转录后生成待插入基因组的第一外源核苷酸序列的第一片段；所述第二pegRNA的第二RT序列被设置为在以其作为模板逆转录后生成待插入基因组的第一外源核苷酸序列的第二片段的互补序列。

在一些实施方案中，所述待插入的第一外源核苷酸序列的第一片段和第二片段至少部分重叠。在一些实施方案中，所述第一片段和第二片段至少有大约10bp-大约50bp重叠，例如至少大约10bp、大约15bp、大约20bp、大约25bp、大约30bp、大约35bp、大约40bp、大约45bp、大约50bp重叠。在一些实施方案中，所述待插入的第一外源核苷酸序列的第一片段和第二片段完全重叠。

在一些实施方案中，所述待插入的第一外源核苷酸序列的长度为大约1bp-大约700bp，例如大约10bp，大约20bp，大约30bp，大约40bp，大约50bp，大约60bp，大约70bp，大约80bp，大约90bp，大约100bp，大约150bp，大约200bp，大约250bp，大约300bp，大约350bp，大约400bp，大约450bp，大约500bp，大约600bp，大约700bp，或它们之间的任何数值。

在一些实施方案中，所述pegRNA在PBS的3’端还包含tevopre序列。tevopre序列的设计可参考文献James W.Nelson等，Engineered pegRNAs improve prime editingefficiency.2022,Nature Biotech.volume 40,pages402–410。示例性的tevopre序列如SEQ ID NO:20所示。

在一些实施方案中，所述pegRNA在3’端还包含polyA序列。所述polyA序列例如包含连续的大约10-30个腺苷酸(A)。

在一些实施方案中，所述pegRNA从5’至3’方向包含引导序列、支架(scaffold)序列、逆转录模板(RT)序列、引物结合位点(PBS)序列、tevopre序列和polyA序列。

在一些实施方案中，所述的pegRNA可以使用自加工系统对其序列进行精确加工。在一些具体实施方案中，所述pegRNA的5’端连接至第一核酶或tRNA，所述第一核酶或tRNA被设计为在所述pegRNA的5’端切割所述融合物；和/或所述pegRNA的3’端连接至第二核酶或tRNA，所述第二核酶或tRNA被设计为在所述pegRNA的3’端切割所述融合物。所述第一或第二核酶或tRNA的设计属于本领域技术人员的能力范围内。例如，可以参见Gao et al.,JIPB,Apr,2014；Vol 56,Issue 4,343-349。精确加工gRNA的方法例如可以参见WO 2018/149418。

在一些实施方案中，所述第一pegRNA和所述第二pegRNA由不同启动子驱动转录。例如，所述第一pegRNA由OsU3启动子驱动表达，和所述第二pegRNA由TaU3启动子驱动表达。

在一些实施方案中，所述pegRNA由II型启动子驱动转录，即在包含编码所述pegRNA的核苷酸序列的表达构建体中，所述pegRNA的编码核苷酸序列与II型启动子可操作地连接。在一些具体实施方案中，所述II型启动子是GS启动子。示例性的GS启动子的序列示于SEQ ID NO:21。

在一些实施方式中，其中所述第一靶序列、第二靶序列和/或所述期望的修饰如所述第一外源核苷酸序列与生物体如植物性状如农艺性状相关，由此所述期望的修饰如第一外源核苷酸序列的插入导致所述生物体如植物相对于野生型生物体如植物具有改变的(优选改善的)性状，例如农艺性状。

在一些实施方案中，所述第一外源核苷酸序列包含一或多个重组酶识别位点(RS)。

在一些实施方案中，所述重组酶是酪氨酸重组酶家族的重组酶或丝氨酸重组酶家族的重组酶，优选酪氨酸重组酶家族的重组酶。示例性的酪氨酸重组酶包括但不限于大肠杆菌噬菌体λ整合酶、P1噬菌体Cre重组酶(cyclization recombinase)、酵母FLP重组酶(flippase recombinase)。示例性的丝氨酸重组酶包括但不限于Tn3转座酶、沙门氏菌重组酶Hin、链霉菌噬菌体ФC31整合酶、以及分枝杆菌噬菌体Bxb1整合酶。不同的重组酶及其对应的重组酶识别位点(RS)是本领域已知的，且本领域技术人员可以根据需要进行选择。

在一些实施方案中，所述重组酶是Dre重组酶。示例性的Dre重组酶包含SEQ IDNO:56的氨基酸序列。相应的，所述一个或多个重组酶识别位点(RS)包括但不限于rox(SEQID NO:57、58)。

在一些实施方案中，所述重组酶是ФC31整合酶。示例性的ФC31整合酶包含SEQID NO:22的氨基酸序列。相应地，所述一或多个重组酶识别位点(RS)包括但不限于aTTP(SEQ ID NO:38)和/或aTTB(SEQ ID NO:39)。

在一些优选实施方案中，所述重组酶是Bxb1整合酶。示例性的Bxb1整合酶包含SEQID NO:23的氨基酸序列。相应地，所述一或多个重组酶识别位点(RS)包括但不限于aGTP(SEQ ID NO:40)和/或aGTB(SEQ ID NO:41)。

在一些优选实施方案中，所述重组酶是Cre重组酶。示例性的Cre重组酶包含SEQID NO:24的氨基酸序列。相应地，所述一或多个重组酶识别位点(RS)包括但不限于loxP(SEQ ID NO:26)、Lox2272(SEQ ID NO:29)、Lox71(SEQ ID NO:27)、Lox66(SEQ ID NO:28)或它们的变体，以及它们的任意组合。

在一些优选实施方案中，所述重组酶是FLP重组酶。示例性的FLP重组酶包含SEQID NO:25的氨基酸序列。相应地，所述一或多个重组酶识别位点(RS)包括但不限于FRT1(SEQ ID NO:30)、FRT6(SEQ ID NO:31)或它们的变体，以及它们的任意组合。在一些实施方案中，所述一或多个重组酶识别位点(RS)是FRT1的变体，例如包含SEQ ID NO:32-37之一所述的序列。

在一些实施方案中，所述重组酶是B2重组酶。示例性的B2重组酶包含SEQ ID NO:50的氨基酸序列。相应地，所述一或多个重组酶识别位点(RS)包括但不限于SEQ ID NO:53所示核苷酸序列。

在一些实施方案中，所述重组酶是KD重组酶。示例性的KD重组酶包含SEQ ID NO:51的氨基酸序列。相应地，所述一或多个重组酶识别位点(RS)包括但不限于SEQ ID NO:54所示核苷酸序列。

在一些实施方案中，所述重组酶是pSR1重组酶。示例性的pSR1重组酶包含SEQ IDNO:52的氨基酸序列。相应地，所述一或多个重组酶识别位点(RS)包括但不限于SEQ ID NO:55所示核苷酸序列。

基于插入至基因组中的第一外源核苷酸序列中的一或多个重组酶识别位点(RS)，过提供包含RS和第二外源核苷酸序列的donor，利用对应的重组酶可以将第二外源核苷酸序列通过重组插入至生物体如植物基因组中。所述重组酶可以是单独表达的重组酶，也可以包含在所述引导编辑融合蛋白中。本领域技术人员能够选择合适的位于已插入基因组第一外源多核苷酸的RS和位于donor的RS的组合以将第二外源核苷酸序列通过重组插入基因组。

因此，在一些实施方案中，所述基因组编辑系统还包括：

iv)重组酶和/或含有编码所述重组酶的核苷酸序列的表达构建体，和

v)包含一或多个重组酶识别位点(RS)和待插入植物基因组中的第二外源多核苷酸序列的donor构建体。

在一些优选实施方案中，所述重组酶包含在所述引导编辑融合蛋白中。在一些实施方案中，所述重组酶相对于所述CRISPR核酸酶和逆转录酶位于所述引导编辑融合蛋白的N端。在一些实施方案中，所述重组酶相对于所述CRISPR核酸酶和逆转录酶位于所述引导编辑融合蛋白的C端。

所述第二外源多核苷酸序列可以是任意的长度。所述第二外源多核苷酸序列可以是1bp-大约10kb或更长。优选地，所述第二外源多核苷酸是长片段，例如至少300bp、至少500bp、至少1kb、至少1.5kb、至少2kb、至少3kb、至少4kb、至少5kb、至少6kb、至少7kb、至少8kb、至少9kb、至少10kb或更长。在一些实施方案中，所述第二外源多核苷酸可以是全长基因。

在一些实施方式中，其中所述第二外源核苷酸序列与生物体如植物性状如农艺性状相关，由此所述第二外源核苷酸序列的插入导致所述生物体如植物相对于野生型生物体如植物具有改变的(优选改善的)性状，例如农艺性状。

本发明的基因组编辑系统的不同组分，例如CRISPR核酸酶、逆转录酶、引导编辑融合蛋白、pegRNA和/或重组酶的编码序列以及所述第二外源多核苷酸序列，可以以不同组合位于相同构建体，或者分别位于不同的构建体。

可以通过本发明的基因组编辑系统进行定点修饰例如外源核苷酸序列定点插入的生物体可以是非人动物、人或植物，优选植物。合适的植物包括单子叶植物和双子叶植物，例如，所述植物是作物植物，包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。

为了在生物体如植物中获得有效表达，在本发明的一些实施方式中，编码所述融合蛋白的核苷酸序列针对其基因组待进行修饰的生物体如植物物种进行密码子优化。

密码子优化是指通过用在宿主细胞的基因中更频繁地或者最频繁地使用的密码子代替天然序列的至少一个密码子(例如约或多于约1、2、3、4、5、10、15、20、25、50个或更多个密码子同时维持该天然氨基酸序列而修饰核酸序列以便增强在感兴趣宿主细胞中的表达的方法。不同的物种对于特定氨基酸的某些密码子展示出特定的偏好。密码子偏好性(在生物之间的密码子使用的差异)经常与信使RNA(mRNA)的翻译效率相关，而该翻译效率则被认为依赖于被翻译的密码子的性质和特定的转运RNA(tRNA)分子的可用性。细胞内选定的tRNA的优势一般反映了最频繁用于肽合成的密码子。因此，可以将基因定制为基于密码子优化在给定生物中的最佳基因表达。密码子利用率表可以容易地获得，例如在www.kazusa.orjp/codon/上可获得的密码子使用数据库(“Codon Usage Database”)中，并且这些表可以通过不同的方式调整适用。参见，Nakamura Y.等，“Codon usage tabulatedfrom the international DNA sequence databases:status for theyear2000.Nucl.Acids Res.，28:292(2000)。

三、在植物基因组中进行定点修饰例如定点插入外源核苷酸序列的方法

另一方面，本发明提供了一种定点修饰植物基因组的方法，包括将本发明的基因组编辑系统导入至少一个所述植物。所述定点修饰包括一或多个核苷酸的取代、缺失和/或添加。例如所述定点修饰包括定点插入外源核苷酸序列。

另一方面，本发明提供了一种产生经遗传修饰的植物的方法，所述经遗传修饰的植物包含定点修饰，所述方法包括将本发明的基因组编辑系统导入至少一个所述植物。所述定点修饰包括一或多个核苷酸的取代、缺失和/或添加。例如所述定点修饰包括定点插入外源核苷酸序列。

在一些实施方案中，所述方法还包括从所述至少一个植物筛选具有期望的定点修饰例如定点外源核苷酸序列插入的植物。

在本发明的方法中，所述基因组编辑系统可以本领域技术人员熟知的各种方法导入植物。可用于将本发明的基因组编辑系统导入植物的方法包括但不限于：基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化、植物病毒介导的转化、花粉管通道法和子房注射法。优选地，通过瞬时转化将所述基因组编辑系统导入植物。

在一些实施方案中，所述因组编辑系统的组分同时导入植物中。在一些实施方案中，所述因组编辑系统的组分分别地或依次地导入植物中。

在一些实施方案中，所述方法包括以下步骤：

1)将所述基因组编辑系统的组分i)-iv)转化至分离的植物细胞或组织，获得插入包含一或多个重组酶的识别位点(RS)的第一外源核苷酸序列的植物细胞或组织；

2)将所述基因组编辑系统的组分v)转化至步骤1)中获得的植物细胞或组织，由此获得包含插入的第二外源多核苷酸序列的植物细胞或组织；和

3)从步骤2)获得的植物细胞或组织再生完整植物。

在一些实施方案中，其中所述外源核苷酸序列插入植物基因组中的安全港位点，所述安全港位点在所述植物基因组中

1)距离蛋白编码区至少5kb；

2)距离miRNA编码区至少30kb；

3)距离lncRNA编码区至少20kb；

4)距离tRNA编码区至少20kb；

5)距离启动子和/或增强子至少5kb；

6)距离LTR重复至少20kb；

7)距离non-LTR重复至少200bp；和

8)距离着丝粒至少10kb。

在一些实施方案中，其中所述植物是水稻，且所述安全港位点选自：表1、2所示位点。

在一些实施方式中，所述导入包括将本发明的基因组编辑系统转化至分离的植物细胞或组织，然后使所述经转化的植物细胞或组织再生为完整植物。优选地，在组织培养过程中不使用任何针对表达载体上携带的选择基因的选择剂。

在另一些实施方式中，可以将本发明的基因组编辑系统转化至完整植物上的特定部位，例如叶片、茎尖、花粉管、幼穗或下胚轴。这特别适合于难以进行组织培养再生的植物的转化。

在本发明的一些实施方式中，直接将体外表达的蛋白质和/或体外转录的RNA分子(例如，所述表达构建体是体外转录的RNA分子)和/或donor DNA分子转化至所述植物。

一些实施方案中，所述方法还包括在升高的温度下(相对于常规培养的温度如室温)处理(如培养)已经导入所述基因组编辑系统的植物细胞、组织或完整植物，所述升高的温度例如是37℃。

在本发明的一些实施方式中，其中所述定点修饰例如定点插入的外源核苷酸序列和/或所述靶序列与植物性状如农艺性状相关，由此所述定点修饰例如定点插入导致所述植物相对于野生型植物具有改变的(优选改善的)性状，例如农艺性状。

在一些实施方式中，所述方法还包括筛选具有期望的定点修饰例如定点插入和/或期望的性状如农艺性状的植物的步骤。

在本发明的一些实施方式中，所述方法还包括获得所述经遗传修饰的植物的后代。优选地，所述经遗传修饰的植物或其后代具有期望的修饰(如定点外源多核苷酸插入)和/或期望的性状如农艺性状。

在另一方面，本发明还提供了经遗传修饰的植物或其后代或其部分，其中所述植物通过本发明上述的方法获得。优选地，所述经遗传修饰的植物或其后代具有期望的遗传修饰(如定点外源多核苷酸插入)和/或期望的性状如农艺性状。

在另一方面，本发明还提供了一种植物育种方法，包括将通过本发明上述的方法获得的经遗传修饰的第一植物与不含有所述修饰的第二植物杂交，从而将所述修饰(如定点外源多核苷酸插入)导入第二植物。优选地，所述经遗传修饰的第一植物和所述第二植物具有期望的性状如农艺性状。

可以通过本发明的基因组编辑系统进行定点修饰例如外源核苷酸序列定点插入的植物包括单子叶植物和双子叶植物，例如，所述植物是作物植物，包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。

在另一方面，本发明提供一种产生经遗传修饰的植物的方法，所述经遗传修饰的植物包含定点插入的外源核苷酸序列，所述方法包括将外源核苷酸序列插入植物基因组中的安全港位点，所述安全港位点在所述植物基因组中

1)距离蛋白编码区至少5kb；

2)距离miRNA编码区至少30kb；

3)距离lncRNA编码区至少20kb；

4)距离tRNA编码区至少20kb；

5)距离启动子和/或增强子至少5kb；

6)距离LTR重复至少20kb；

7)距离non-LTR重复至少200bp；和

8)距离着丝粒至少10kb。

四、在人或非人动物基因组中进行定点修饰例如定点插入外源核苷酸序列的方法

另一方面，本发明提供了一种定点修饰人或非人动物基因组的方法，包括将本发明的基因组编辑系统导入至少一个所述人或非人动物细胞。所述定点修饰包括一或多个核苷酸的取代、缺失和/或添加。例如所述定点修饰包括定点插入外源核苷酸序列。

另一方面，本发明提供了一种定点修饰人或非人动物基因组在体内、外基因治疗的用途，可以实现疾病相关基因的缺失、添加、上调、下调、失活、激活或者突变纠正等，从而实现疾病的预防和/或治疗。例如，本发明中所述靶核酸区域可以位于疾病相关基因的蛋白编码区内，或者例如可以位于基因表达调控区如启动子区或增强子区，从而可以实现对所述疾病相关基因功能修饰或对疾病相关基因表达的修饰。因此，本文所述修饰疾病相关基因包括对疾病相关基因本身(例如蛋白编码区)的修饰，也包含对其表达调控区域(如启动子、增强子、内含子等)的修饰。

另一方面，本发明提供了一种产生经遗传修饰的人或非人动物体细胞的方法，所述经遗传修饰的体细胞包含定点修饰，所述方法包括将本发明的基因组编辑系统导入至少一个所述人或动物体细胞。所述定点修饰包括一或多个核苷酸的取代、缺失和/或添加。例如所述定点修饰包括定点插入外源核苷酸序列。

因此，本发明还提供治疗有需要的对象中的疾病的方法，包括向所述对象递送有效量的本发明的基因组编辑系统以修饰与所述疾病相关的基因。本发明还提供基因组编辑系统在制备用于治疗有需要的对象中的疾病的药物组合物中的用途，其中所述基因组编辑系统用于修饰与所述疾病相关的基因。本发明还提供用于治疗有需要的对象中的疾病的药物组合物，其包含本发明的基因组编辑系统，以及任选的药学可接受的载体，其中所述基因组编辑系统用于修饰与所述疾病相关的基因。在一些实施方案中，所述对象是人。

五、试剂盒

本发明还包括用于本发明的方法的试剂盒，该试剂盒至少包括本发明的基因组编辑系统的组分。该试剂盒还可以包含用于将所述基因组编辑系统导入生物体或生物体细胞的试剂。试剂盒一般包括表明试剂盒内容物的预期用途和/或使用方法的标签。术语标签包括在试剂盒上或与试剂盒一起提供的或以其他方式随试剂盒提供的任何书面的或记录的材料。

实施例

实施例1.新型基因组编辑系统的设计

1.1.引导编辑(PE)系统筛选

引导编辑(PE)是一种精确的基因组编辑技术，能够在不形成DSB的情况下产生碱基变化和短DNA插入和删除，并被广泛跨物种使用，如人类、小鼠、水稻、小麦、玉米等。为开发新型基因组编辑系统，本实施例首先对已报道的PE系统在使用双pegRNA策略进行内源靶点编辑的效率进行筛选。比较了五种PE系统构建体，分别为PPE、Art-PPE(Cas9的5’端融合小鼠外切酶Artemis)、PPE-NCV1、ePPE(Zong,Y.,Liu,Y.,Xue,C.et al.An engineeredprime editor with enhanced editing efficiency in plants.Nat Biotechnol 40,1394–1402(2022).)以及ePPE-wtCas9(将ePPE中的H840A-Cas9换为wtCas9)构建体，在使用双pegRNA策略在内源靶点插入Lox66(长度为34bp)和/或FRT1(长度为48bp)两种重组酶识别位点(RS)的效率。所述载体构建策略示意图如图1A。

选择水稻原生质体作为模式细胞。将以上构建体通过PEG转化的方法转化水稻原生质体，共测试了五种引导编辑系统构建体在水稻原生质体内源位点上使用5对pegRNA插入Lox66或FRT1的效率，二代测序结果如图1B。

结果表明在利用双pegRNA策略进行定点插入时，使用ePPE的效率最高，相比于PPE能提高精准插入效率10-50倍。

1.2.向导RNA筛选

进一步比较了普通的pegRNA与已报导的能够提高PE效率的含有tevoPre的epegRNA(Nelson,J.W.,Randolph,P.B.,Shen,S.P.et al.Engineered pegRNAs improveprime editing efficiency.Nat Biotechnol 40,402–410(2022).)在不同引导编辑系统中的编辑效率。分别进行了四种组合的测试，包括PPE+pegRNA、ePPE+pegRNA、PPE+epegRNA、ePPE+epegRNA。载体构建如图2A所示。

同样使用水稻原生质体对以上四种组合在使用8对pegRNA/epegRNA定点插入RS的效率进行了测试，二代测序结果如图2B。

结果表明使用ePPE+epegRNA的组合(以下称为“dual-ePPE”)进行双pegRNA策略介导的定点插入效率最高，部分位点最高效率可达50％以上，相比于普通的PPE+pegRNA组合最高提高了100倍以上，且在大部分低效靶点都有了较高的效率。值得注意的是，编辑工具对目标位点编辑效率提高的同时也伴随非精准编辑或其他位点的插入或缺失的概率增加。而dual-ePPE相比其他组合在目标位点的精准编辑效率方面具有显著的提升的同时，对其他位点的插入或缺失效率并无明显改变。

1.3.dual-ePPE插入

进一步使用dual-ePPE评估了插入长度(30bp-100bp)与两个pegRNA之间距离(PAM距离20bp-80bp)的关系，以及两个RT之间overlap的长度(10bp-50bp)对插入效率的影响。使用水稻原生质体测试，二代测序结果如图3所示。

结果表明插入长度与pegRNA之间的距离存在不明显的线性关系，当插入长度大于pegRNA之间距离时效率较高，且两个RT之间overlap长度在10bp-50bp之间均有较高的定点插入效率。上述结果表明，使用本发明的ePPE+epegRNA系统可以满足Flag、Tag等标签序列的高效、定点插入。

实施例2.dual-ePPE系统的优化

为了进一步对本发明的dual-ePPE系统在不同使用环境下的效果进行验证和优化，从而得到优选技术方案，本实施例对dual-ePPE系统各组件的可能的改进进行了验证和分析。

2.1.CRISPR系统效应蛋白

本实施例将识别序列为NGN PAM的SpG-Cas9和几乎不受PAM序列限制的SpRY-Cas9变体(Christie KA,Guo JA,Silverstein RA,Doll RM,Mabuchi M,Stutzman HE,Lin J,MaL,Walton RT,Pinello L,Robb GB,Kleinstiver BP.Precise DNA cleavage usingCRISPR-SpRYgests.Nat Biotechnol.2023Mar；41(3):409-416.)设计到dual-ePPE中，并评估了其在含NGN的PAM的插入效率，以期扩大dual-ePPE的靶向范围。载体构建如图4A所示。

使用水稻原生质体测试了NGA、NGC、NGT三种PAM组合下定点插入的效率。二代测序结果如图4B所示。

结果表明使用SpG-ePPE与SpRY-ePPE在PAM为NGA、NGC、NGT的定点插入也有很高的效率，进而验证了dual-ePPE系统可以适用于多种CRISPR系统效应蛋白并可以有效发挥其功能。该结果表明，本发明dual-ePPE可以有效的在植物中实现RS序列的插入。

2.2.RT序列同义突变

有报道表明，在RT序列上引入同义突变(synonymous mutation,SM)可提高重组编辑效率(Xu,W.,Yang,Y.,Yang,B.et al.A design optimized prime editor withexpanded scope and capability in plants.Nat.Plants 8,45–52(2022).)。本实施例测试了该系统在RT上SM的处理的编辑效率。载体构建如图4A所示。

使用水稻原生质体测试了在四个靶点处使用两种RT进行点突的效率。二代测序结果如图4C所示。结果表明，当RT序列与基因组序列存在均匀的错配时能大大提高点突变的效率(4-20倍)。

2.3.驱动epegRNA表达启动子

进一步研究使用上述系统插入更长的片段时(150bp-300bp)的效率，并测试了U3启动子和复合型II型启动子(pGS启动子)表达向导RNA时的编辑效率。pGS-epegRNA载体构建如图5A所示

在水稻原生质体中比较了使用U3启动子以及pGS启动子定点插入不同长度片段的效率。ddPCR检测结果如图5B、C。结果显示，U3启动子和pGS启动子在进行小片段插入时并没有明显的差异(图5B)。而当插入长度达到150bp以上时，pGS启动子驱动epegRNA的效率高于U3启动子，使用pGS启动子表达epegRNA能提高大片段定点插入效率2-5倍，且插入片段长度达700bp时仍可实现精准插入。

2.4.MS2-MCP及变温处理对编辑效率的影响

进一步使用MS2-MCP招募MLV的系统，以及37℃温度处理的方式以期进一步提高长片段插入的效率，载体构建如图6A所示。

使用水稻原生质体分别测试了以上两种招募形式进行大片段定点插入的效率,也测试了37℃处理(TT，正常培养12h→37℃培养12h→正常培养24h)的方式能否提高效率，ddPCR结果如图6B所示。

结果表明，使用37℃温度处理能够提高大片段插入效率约1.2-5倍(图6B)，使用MS2-MCP系统招募MLV能够提高大片段插入效率约2-4倍(图6C)。

实施例3.利用PrimeROOT系统在植物中实现非双链断裂的大片段DNA插入

本实施例将dual-ePPE与重组酶结合作为引导编辑介导的精准靶向DNA重组系统(Prime editing-mediated Recombination Of Opportune Targets，以下简称PrimeROOT)，并验证其在植物中进行DNA片段的插入功能。

3.1.荧光报告系统构建

为验证在植物碱基编辑中多种重组酶的DNA重组能力。首先发明人构建了一个荧光报告系统，用来表征常用的位点特异性重组酶在水稻原生质体中的DNA重组效率。该报告系统将GFP分为N端(GFP-N)和C端(GFP-C)两个结构域，分别编码在两个单独的质粒上(图7A)，两个质粒各携带一个重组酶位点，质粒构建示意图参见图7A。在重组酶表达和重组后，GFP-N与GFP-C通过内含子linker链接，从而使GFP在原生质体中表达。进而可以通过荧光显微镜观察与流式细胞仪检测GFP荧光，以表征原生质体中重组酶活性。

3.2.用于检测的PrimeROOT构建

发明人针对6个不同的酪氨酸重组酶和2个丝氨酸重组酶构建了独立的荧光报告系统(所有重组酶经密码子优化，可在水稻中表达)。GFP荧光显微镜观察结果(图7B)和流式细胞仪检索结果(图7C)显示Cre和FLP重组酶系统可产生最强的荧光，可作为验证和优化本发明技术方案有效性的最佳重组酶系统。

在另一组平行试验中，发明人针对酪氨酸重组酶家族的Cre/Lox系统、FLP/FRT系统以及丝氨酸家族中的ФC31、Bxb1重组酶构建了荧光报告系统，载体构建如图7D所示。

将以上报告系统转化水稻原生质体，并进行荧光显微镜观察与流式细胞仪检测，结果如图7E所示。

结果表明Cre/Lox系统、FLP/FRT系统的DNA整合能力更强。于是将其与上述定点插入系统相结合，通过“一步法”将所有组分(ePPE，两个epegRNA，重组酶，带有重组位点的待插入基因)转入水稻细胞，实现基因水平的大片段定点插入，如图7F所示。将上述含有dual-ePPE、重组酶、带有重组位点的待插入基因的“一步法”组剂命名为PrimeROOT.v1，并根据重组酶为Cre/Lox系统或FLP/FRT系统将其分别命名为PrimeROOT.v1-Cre和PrimeROOT.v1-FLP。

3.3.PrimeROOT.v1大片段插入能力验证

为验证PrimeROOT.v1对大片段DNA分子的插入能力，发明人通过ddPCR测试了PrimeROOT.v1-Cre和PrimeROOT.v1-FLP对GFP(720kp)在水稻原生质体的四个内源性位点的整合效率，实验结果如图8。结果表明，两种PrimeROOT在四个位点均实现了精确、靶向的大片段插入。

3.4.重组系统优化

由于FRT1存在短重复序列，有报道表明一些FRT1突变体对FLP重组酶的效率具有促进作用(Bruckner,R.C.&Cox,M.M.Specific Contacts between the Flp Protein ofthe Yeast 2-Micron Plasmid and Its Recombination Site.Journal of BiologicalChemistry 261,1798-1807(1986).；Senecoff,J.F.,Rossmeissl,P.J.&Cox,M.M.DNArecognition by the FLP recombinase of the yeast 2mu plasmid.A mutationalanalysis of the FLP binding site.J Mol Biol 201,405-421(1988).)。为了进一步对编辑系统进行优化，以获得更优选技术方案。发明人人为设计了多个FRT1突变体(F1m1、F1m2和F1m3)和两个截断的FRT1(tFRT1)序列突变体(tF1m2和tF1m3)。在使用PrimeROOT进行整合时，ddPCR的方法评估了以上重组酶融合与否以及FRT变体等构建在内源靶点上一步法大片段插入的效率，并使用一步法将GFP插入到水稻内源基因后使原生质体细胞发光。ddPCR结果如图9所示，FRT1突变体的组合相比野生型具有更高的突变效率。

3.5.PrimeROOT系统优化

在PrimeROOT.v1的基础上，发明人进一步对其进行优化，以获得更优选技术方案。在该技术方案中，发明人将PrimeROOT组合物种的ePPE与重组酶融合，并根据融合位点不同，创建了两种结构方案，示例序列参见图10A：

方案1将重组酶通过SV40 NLS和32氨基酸的柔性linker连接至ePPE系统的N-端，命名为PrimeROOT.v2N；方案2将重组酶通过相同途径连接至ePPE系统的C-端，命名为PrimeROOT.v2C。荧光显微镜观察与流式细胞仪检测结果显示，PrimeROOT.v2N和PrimeROOT.v2C系统相比PrimeROOT.v1在四个内源位点的GFP插入效率更高(图10)。

3.6.PrimeROOT.v2大片段插入能力验证

为验证PrimeROOT.v2对大片段DNA分子的插入能力，发明人构建了包含三种基因(pigmR、OsMYB30和OsHPPD)的任何一种或组合的载体构建体，donor长度分别为1.4kb、4.9kb、7.7kb和11.1kb，载体构建如图11A。发明人通过ddPCR检测了四个donor在四个内源性位点的插入效率，发现随着donor长度的逐渐增加，均实现了精确、靶向的大片段插入，且编辑效率并未出现明显降低(图11B)。

实施例4.利用PrimeROOT系统在玉米种实现非双链断裂的大片段DNA插入

除在水稻原生质体外，发明人还评估了dual-ePPE及其PrimeROOT在玉米原生质体中的编辑效率。

发明人首先测试了dual-ePPE在玉米原生质体中六个内源基因位点的精准RS插入编辑效率，实验结果显示其可以实现高达40％的编辑效率(图12A)。

随后发明人测试了PrimeROOT.v2C-Cre对GFP大片段DNA的编辑效率，实验结果显示其在内源位点上实现了高达4％的GFP序列编辑效率(图12B)。

该实验结果与在水稻中的编辑效率相似，这表明本发明的dual-ePPE以及由其组成的PrimeROOT系统在植物合成生物学和基因编辑工程中具有广泛和普适的应用前景，可以精准的插入所需的DNA序列，而不引入donor主干序列。

实施例5.PrimeROOT与CRISPR介导的NHEJ系统的编辑能力

CRISPR介导的NHEJ系统是目前已报道的可以在植物中进行靶向大片段插入的系统(Li,J.et al.Gene replacements and insertions in rice by intron targetingusing CRISPR-Cas9.Nature Plants 2(2016).；Dong,O.X.O.et al.Marker-freecarotenoid-enriched rice generated through targeted gene insertion usingCRISPR-Cas9.Nature Communications 11(2020).)。本实施例以PrimeROOT.v2C-Cre为例，比较了PrimeROOT与CRISPR介导的NHEJ的系统在进行GFP(720bp)、Act1启动子(Act1P，1.4kb)、Act1P-pigmR基因盒(4.9kb)和Act1P-pigmR-Act1P-OsMYB30基因盒(7.7kb)的靶向插入能力。结果显示，对于GFP、Act1P的插入，二者具有相似的插入效率。但是对于更长的donor插入，PrimeROOT.v2C-Cre系统的平均效率是NHEJ系统的2-4倍(构建体示意图见图13A、编辑效率图见图13B)。

而在编辑精度方面，发明人观察到由PrimeROOT.v2C-Cre系统插入的Act1P事件显示出清晰的Sanger测序结果，但是使用NHEJ进行插入的结果中出现了混合峰(图14A，下划线表示不精准插入)。这表明PrimeROOT系统相比于传统的CRISPR介导的NHEJ系统具有更加优越的编辑精度。

随后，发明人将编辑后的插入事件从原生质体克隆到细菌中，并对内源基因组和个体克隆插入片段之间的连接进行测序。当发明人从PrimeROOT和NHEJ处理的Act1P插入样本中随机选择20个克隆时，发明人发现PrimeROOT生成的所有20个插入都如预期的那样包含了精确插入的序列，而所有20个NHEJ生成的插入都在其连接处包含随机的DNA碱基插入和删除/缺失(图14A、B)。

接下来，发明人使用PrimeROOT和CRISPR介导的NHEJ将Act1P和Act1P-pigmR序列插入水稻愈伤组织的基因组位点(图14C)。在转入并对愈伤组织诱导后，发明人分析了来自每个处理的95个愈伤组织克隆，从而比较编辑效率和精度。PrimeROOT生成了2个精确的Act1P插入和2个精确的Act1P-pigmR插入，而NHEJ生成了3个不精确的Act1P插入和1个不精确的Act1P-pigmR插入(图14C中下划线表征不精确插入、图14D)。这些结果表明，与严重依赖于双链DNA断裂作为中间产物的NHEJ系统相比，PrimeROOT是一种有效的编辑工具，可用于创建大型的、有针对性的精确DNA插入。

实施例6：利用PrimeROOT工具实现肌动蛋白启动子的精确、靶向插入

许多理想的农艺性状是数量性状，取决于某些特定基因的上调或下调，或取决于组织特异性表达。本实施例利用PrimeROOT系统将有利的启动子精确地插入目标基因的上游，进而实现PrimeROOT工具在植物性状改良方面的应用。

具体而言，发明人使用PrimeROOT.v2C-Cre将强启动子敲入OsHPPD的5'UTR区域(图15A)。发明人第一步在5'UTR中设计了16对pegRNA，并比较了它们在水稻原生质体中的RS插入编辑效率，确定最佳pegRNA对的RS插入频率为30％(图15B)。接下来发明人利用PrimeROOT.v2C-Cre和该pegRNA对将水稻Actin1启动子(Act1P)颗粒轰击插入水稻愈伤组织。发明人通过扩增基因组和插入donor序列之间的连接来识别编辑过的植物，并通过Sanger测序评估插入精度。在507株再生水稻植株中共检测到12个精确的Act1P插入事件(2.4％)(图15C)。这些结果表明，PrimeROOT可以作为一种有效的基因组插入工具，将新的遗传调控元件引入植物基因组中进行育种。

实施例7：在GSH区域的基因精准插入

为了保证转基因可以安全插入植物基因组，发明人预测了整个Kitaake水稻基因组的基因组安全港(GSH)区域。基于之前对GSH的研究方法(Aznauryan,E.et al.Discoveryand validation of human genomic safe harbor sites for gene and celltherapies.Cell Rep Methods 2,100154(2022).；Sadelain,M.,Papapetrou,E.P.&Bushman,F.D.Safe harbours for the integration of new DNA in the humangenome.Nat Rev Cancer 12,51-58(2011).)，发明人使用了多种算法来识别与一些元件(如基因编码区、小RNA、miRNA、lncRNA、tRNA、启动子、增强子、LTR等)具有一定距离的区域。通过这种方式，发明人生成了一组新的GSH区域，由30个区域组成，总计40kb(图16A)。Kitaake全部GSH区域见表1所示。另外发明人还确定了33个水稻基因组的GSH，其相互映射的GSH区域见表2。

发明人选择了GSH1(kitaake，Chr1:7660637-7661671)作为概念验证区域，并设计了4对pegRNA用于在该区域插入RS(表3)。在比较GSH1中使用dual-ePPE的RS插入效率时，最高的RS插入效率>40％(图16B)。然后发明人检测了4.9kb的ActP1P-pigmRdonor盒在GSH1区域的插入。凝胶电泳和Sanger测序结果显示，在744株再生植株中鉴定出了19个Act1-pigmR插入事件(2.6％)。重要的是，所有19个连接产生了相同大小的扩增产物，并且通过测序显示是精确插入事件的结果，其中donor盒的末端完全符合预测。

实施例8：PrimeROOT和donor转入的方法

为了检测PrimeROOT和donor组分的转化方式在植物编辑过程中的插入效率。发明人使用Lox66和FRT突变体F1m2作为着陆点，测试PrimeROOT和donor成分依次转化到水稻愈伤组织(将依次转化的系统称为PrimeROOT.v3)对整体编辑植株的恢复效率。发明人首先评估了dual-ePPE介导的水稻愈伤组织RS插入，并实现了高达84.7％的编辑效率(图17A)。在第一轮转化中，发明人通过农杆菌将PrimeROOT试剂(不含donor)转化入愈伤组织，在经过1个月的潮霉素选择后，发明人富集了含有所需RS插入的愈伤组织。然后将这些愈伤组织作为底物进行第二轮转化，其中包含由粒子轰击或农杆菌传递的donor载体。在G418选择和再生之后，发明人检查了再生植株，并测量了所需插入事件的编辑频率(图17B)。发明人发现Cre-Lox66和FLP-F1m2的位点对OsHPPD 5'UTR精确插入Act1P的编辑效率分别为7.1％和8.3％，分别比进行一步法转化时的效率提高了3倍和3.5倍；在评估Act1P-pigmR精确插入GSH1的编辑效率时，发明人得到Cre-Lox66位点的效率为4.2％，FLP-F1m2位点的效率为6.3％，分别比进行一体化植物转化时高1.6倍和2.4倍。当发明人通过农杆菌转化交付donor时，发明人获得了由Act1P-pigmR插入到GSH1位点的精确插入事件的3.9％的效率。这些结果表明PrimeROOT.v3可以使用不同的传递方法进行，且进一步提高了植物中精准靶向基因插入的效率。

实施例9：PrimeROOT在人细胞中大片段插入的测试

为了在人细胞中测试PrimeROOT是否工作，发明人首先将PrimeROOT.V2N-Cre、PrimeROOT.V2C-Cre的启动子更换为人细胞常用表达启动子CMV启动子。发明人分别在hAAVS1、hACTB、hCCR5、hLMNB1四个区域设计pegRNA，并将pegRNA构建在hU6的表达载体上，随后通过质体转化的方法将上述质粒与含有GFP的donor质粒转入到HEK293细胞系中，在72小时后进行细胞DNA的提取，随后进行ddPCR检测效率(图18A)，并同时进行junction PCR进行一代测序检测，发现GFP在基因组上的定点整合是完全精准可预测的(图18B)。本实施例表明PrimeROOT系统在人类细胞中具有精准靶向基因插入的作用。

表1:GSH区域汇总

表2:33个水稻基因组的相互映射的GSH区域

表3 GSH1验证所设计的pegRNA信息

序列信息

>野生型SpCas9氨基酸序列(SEQ ID NO:1)

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDHIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

>nCas9(H840A)氨基酸序列(SEQ ID NO:2)

MDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGD

>野生型M-MLV-RT氨基酸序列(SEQ ID NO.3)

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSP

>M-MLV-RT-connection(SEQ ID NO.4)

DQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDT>RT-RNase H(SEQID NO.5)

PDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLL

>NC(SEQ ID NO.6)

ATVVSGQKQDRQGGERRRSQLDRDQCAYCKEKGHWAKDCPKKPRGPRGPRPQTSLL

>PR(SEQ ID NO.7)

TLDDQGGQGQEPPPEPRITLKVGGQPVTFLVDTGAQHSVLTQNPGPLSDKSAWVQGATGGKRYRWTTDRKVHLATGKVTHSFLHVPDCPYPLLGRDLLTKLKAQIHFEGSGAQVMGPMGQPLQVL

>IN(SEQ ID NO.8)

ENSSPYTSEHFHYTVTDIKDLTKLGAIYDKTKKYWVYQGKPVMPDQFTFELLDFLHQLTHLSFSKMKALLERSHSPYYMLNRDRTLKNITETCKACAQVNASKSAVKQGTRVRGHRPGTHWEIDFTEIKPGLYGYKYLLVFIDTFSGWIEAFPTKKETAKVVTKKLLEEIFPRFGMPQVLGTDNGPAFVSKVSQTVADLLGIDWKLHCAYRPQSSGQVERMNRTIKETLTKLTLATGSRDWVLLLPLALYRARNTPGPHGLTPYEILYGAPPPLVNFPDPDMTRVTNSPSLQAHLQALYLVQHEVWRPLAAAYQEQLDRPVVPHPYRVGDTVWVRRHQTKNLEPRWKGPYTVLLTTPTALKVDGIAAWIHAAHVKAADPGGGPSSRLTWRVQRSQNPLKIRLTREAP

>M-MLV-RT-F155Y(SEQ ID NO.9)

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAYFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSP

>M-MLV-RT-F155V(SEQ ID NO.10)

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAVFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSP

>M-MLV-RT-F156Y(SEQ ID NO.11)

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFYCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSP

>M-MLV-RT-D524N(SEQ ID NO.12)

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTNGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSP

>M-MLV-RT-N200C(SEQ ID NO.13)

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAYFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFCEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAEGKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRMADQAARKAAITETPDTSTLLIENSSP

>M-MLV-RT-ΔRNase H(SEQ ID NO.14)

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPL

>M-MLV-RT-ΔRNase H-ΔConnection(SEQ ID NO.15)

TLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGP

>接头序列(SEQ ID NO:16)

SGGSSGGSSGSETPGTSESATPESSGGSSGGS

>gRNA支架(SEQ ID NO:17)

guuuuagagcuagaaauagcaaguuaaaauaaggcuaguccguuaucaacuugaaaaaguggcaccgagucggugc

>PPE(SEQ ID NO:18)

MPKKKRKVDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEFPKKKRKVELSGGSSGGSSGSETPGTSESATPESSGGSSGGSRPTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAE TGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPV QDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLP QGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQV KYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKA YQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLT KDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLD ILAEAHGTRPDLTDQPLPDADHTWYTDGSSLLQEGQRKAGAAVTTETEVIWAKALPAGTSAQRAELIALTQALKMAE GKKLNVYTDSRYAFATAHIHGEIYRRRGWLTSEGKEIKNKDEILALLKALFLPKRLSIIHCPGHQKGHSAEARGNRM ADQAARKAAITETPDTSTLLIENSSPSGGSPKKKRKV

>ePPE(SEQ ID NO:19)

MPKKKRKVDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEFSGSETPGTSESATPESATVVSGQKQDRQGGERRRSQLDRDQCAYCKEKGHWAKDCPKKPRGPRGPRPQTSLLPKKKRKVELSGGSSGGSSGSETPGTSESATPESSGGSSGGSRPTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLSGGSPKKKRKV

>tevopre(SEQ ID NO:20)

CGCGGTTCTATCTAGTTACGCGTTAAACCAACTAGAA

>pGS(SEQ ID NO:21)

Atggagtcaaagattcaaatagaggacctaacagaactcgccgtaaagactggcgaacagttcatacagagtctcttacgactcaatgacaagaagaaaatcttcgtcaacatggtggagcacgacacacttgtctactccaaaaatatcaaagatacagtctcagaagaccaaagggcaattgagacttttcaacaaagggtaatatccggaaacctcctcggattccattgcccagctatctgtcactttattgtgaagatagtggaaaaggaaggtggctcctacaaatgccatcattgcgataaaggaaaggccatcgttgaagatgcctctgccgacagtggtcccaaagatggacccccacccacgaggagcatcgtggaaaaagaagacgttccaaccacgtcttcaaagcaagtggattgatgtgattggcagacatactgtcccacaaatgaagatggaatctgtaaaagaaaacgcgtgaaataatgcgtctgacaaaggttaggtcggctgcctttaatcaataccaaagtggtccctaccacgatggaaaaactgtgcagtcggtttggctttttctgacgaacaaataagattcgtggccgacaggtgggggtccaccatgtgaaggcatcttcagactccaataatggagcaatgacgtaagggcttacgaaataagtaagggtagtttgggaaatgtccactcacccgtcagtctataaatacttagcccctccctcattgttaagggagcaaaatctcagagagatagtcctagagagagaaagagagcaagtagcctagaagtagtcaaggcggcgaagtattcaggcacgtggccaggaagaagaaaagccaagacgacgaaaacaggtaagagctaagcatctagataagttgaaaacaatcttcaaaagtcccacatcgcttagataagaaaacgaagctgagtttatatacagctagagtcgaagtagtgatt

>ФC31(SEQ ID NO:22)

MDTYAGAYDRQSRERENSSAASPATQRSANEDKAADLQREVERDGGRFRFVGHFSEAPGTSAFGTAERPEFERILNECRAGRLNMIIVYDVSRFSRLKVMDAIPIVSELLALGVTIVSTQEGVFRQGNVMDLIHLIMRLDASHKESSLKSAKILDTKNLQRELGGYVGGKAPYGFELVSETKEITRNGRMVNVVINKLAHSTTPLTGPFEFEPDVIRWWWREIKTHKHLPFKPGSQAAIHPGSITGLCKRMDADAVPTRGETIGKKTASSAWDPATVMRILRDPRIAGFAAEVIYKKKPDGTPTTKIEGYRIQRDPITLRPVELDCGPIIEPAEWYELQAWLDGRGRGKGLSRGQAILSAMDKLYCECGAVMTSKRGEESIKDSYRCRRRKVVDPSAPGQHEGTCNVSMAALDKFVAERIFNKIRHAEGDEETLALLWEAARRFGKLTEAPEKSGERANLVAERADALNALEELYEDRAAGAYDGPVGRKHFRKQQAALTLRQQGAEERLAELEAAEAPKLPLDQWFPEDADADPTGPKSWWGRASVDDKRVFVGLFVDKIVVTKSTTGRGQGTPIEKRASITWAKPPTDDDEDDAQDGTEDVAA

>Bxb1(SEQ ID NO:23)

MRALVVIRLSRVTDATTSPERQLESCQQLCAQRGWDVVGVAEDLDVSGAVDPFDRKRRPNLARWLAFEEQPFDVIVAYRVDRLTRSIRHLQQLVHWAEDHKKLVVSATEAHFDTTTPFAAVVIALMGTVAQMELEAIKERNRSAAHFNIRAGKYRGSLPPWGYLPTRVDGEWRLVPDPVQRERILEVYHRVVDNHEPLHLVAHDLNRRGVLSPKDYFAQLQGREPQGREWSATALKRSMISEAMLGYATLNGKTVRDDDGAPLVRAEPILTREQLEALRAELVKTSRAKPAVSTPSLLLRVLFCAVCGEPAYKFAGGGRKHPRYRCRSMGFPKHCGNGTVAMAEWDAFCEEQVLDLLGDAERLEKVWVAGSDSAVELAEVNAELVDLTSLIGSPAYRAGSPQREALDARIAALAARQEELEGLEARPSGWEWRETGQRFGDWWREQDTAAKNTWLRSMNVRLTFDVRGGLTRTIDFGDLQEYEQHLRLGSVVERLHTGMSEF

>Cre(SEQ ID NO:24)

SNLLTVHQNLPALPVDATSDEVRKNLMDMFRDRQAFSEHTWKMLLSVCRSWAAWCKLNNRKWFPAEPEDVRDYLLYLQARGLAVKTIQQHLGQLNMLHRRSGLPRPSDSNAVSLVMRRIRKENVDAGERAKQALAFERTDFDQVRSLMENSDRCQDIRNLAFLGIAYNTLLRIAEIARIRVKDISRTDGGRMLIHIGRTKTLVSTAGVEKALSLGVTKLVERWISVSGVADDPNNYLFCRVRKNGVAAPSATSQLSTRALEGIFEATHRLIYGAKDDSGQRYLAWSGHSARVGAARDMARAGVSIPEIMQAGGWTNVNIVMNYIRNLDSETGAMVRLLEDGD

>FLP(SEQ ID NO:25)

MPQFDILCKTPPKVLVRQFVERFERPSGEKIALCAAELTYLCWMITHNGTAIKRATFMSYNTIISNSLSFDIVNKSLQFKYKTQKATILEASLKKLIPAWEFTIIPYYGQKHQSDITDIVSSLQLQFESSEEADKGNSHSKKMLKALLSEGESIWEITEKILNSFEYTSRFTKTKTLYQFLFLATFINCGRFSDIKNVDPKSFKLVQNKYLGVIIQCLVTETKTSVSRHIYFFSARGRIDPLVYLDEFLRNSEPVLKRVNRTGNSSSNKQEYQLLKDNLVRSYNKALKKNAPYSIFAIKNGPKSHIGRHLMTSFLSMKGLTELTNVVGNWSDKRASAVARTTYTHQITAIPDHYFALVSRYYAYDPISKEMIALKDETNPIEEWQHIEQLKGSAEGSIRYPAWNGIISQEVLDYLSSYINRRI

>LoxP(SEQ ID NO:26)

ATAACTTCGTATAGCATACATTATACGAAGTTAT

Lox66(SEQ ID NO:27)

ATAACTTCGTATAGCATACATTATACGAACGGTA

Lox71(SEQ ID NO:28)

taccgTTCGTATAGCATACATTATACGAAGTTAT

Lox2272(SEQ ID NO:29)

Ataacttcgtataggatactttatacgaagttat

FRT1(SEQ ID NO:30)

GAAGTTCCTATTCCGAAGTTCCTATTCTCTAGAAAGTATAGGAACTTC

FRT6(SEQ ID NO:31)

Gaagttcctattccgaagttcctattcttcaaaaagtataggaacttc

FRT1m1(SEQ ID NO:32)

GgAGgTCtTATTtCGAAGTTCCTATTCTCTAGAAAGTATAGGAACTTC

FRT1m2(SEQ ID NO:33)

GAAGTTCCTATTCCGgAGgTCtTATTtTCTAGAAAGTATAGGAACTTC

FRT1m3(SEQ ID NO:34)

GgAGgTCtTATTtCGAAGTTCCTATTCTCTAGAAAGTATAaGAcCTcC

mFRT1(SEQ ID NO:35)

GAAGTTCCTATTCTCTAGAAAGTATAGGAACTTC

mFRT1m1(SEQ ID NO:36)

GgAGgTCtTATTtTCTAGAAAGTATAGGAACTTC

mFRT1m2(SEQ ID NO:37)

GAAGTTCCTATTCTCTAGAAAGTATAaGAcCTcC

aTTP(SEQ ID NO:38)

gtagtgccccaactggggtaacctttgagttctctcagttgggggcgtag

aTTB(SEQ ID NO:39)

cggtgcgggtgccagggcgtgcccttgggctccccgggcgcgtactccac

aGTP(SEQ ID NO:40)

GGTTTGTCTGGTCAACCACCGCGGTCTCAGTGGTGTACGGTACAAACC

aGTB(SEQ ID NO:41)

GGCCGGCTTGTCGACGACGGCGGTCTCCGTCGTCAGGATCATCCGG

SpG-nCas9(SEQ ID NO:42)

KDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFLWPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAKQLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGD

SpRY-nCas9：(SEQ ID NO:43)

DKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAERTRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESIRPKRNSDKLIARKKDWDPKKYGGFLWPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAKQLQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTRLGAPRAFKYFDTTIDPKQYRSTKEVLDATLIHQSITGLYETRIDLSQLGGDKRPAATKKAGQAKKKK

MCP(SEQ ID NO:44)

ASNFTQFVLVDNGGTGDVTVAPSNFANGIAEWISSNSRSQAYKVTCSVRQSSAQNRKYTIKVEVPKGAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY

2×MS2(SEQ ID NO:45)

GGGAGCACATGAGGATCACCCATGTGCCACGAGCGACATGAGGATCACCCATGTCGCTCGTGTTCCC

PrimeROOT.v2N-Cre(SEQ ID NO:46)

MPKKKRKVSGGSPKKKRKVSGGSSNLLTVHQNLPALPVDATSDEVRKNLMDMFRDRQAFSEHTWKMLLSVCRSWAAWCKLNNRKWFPAEPEDVRDYLLYLQARGLAVKTIQQHLGQLNMLHRRSGLPRPSDSNAVSLVMRRIRKENVDAGERAKQALAFERTDFDQVRSLMENSDRCQDIRNLAFLGIAYNTLLRIAEIARIRVKDISRTDGGRMLIHIGRTKTLVSTAGVEKALSLGVTKLVERWISVSGVADDPNNYLFCRVRKNGVAAPSATSQLSTRALEGIFEATHRLIYGAKDDSGQRYLAWSGHSARVGAARDMARAGVSIPEIMQAGGWTNVNIVMNYIRNLDSETGAMVRLLEDGDSGGSSGGSSGSETPGTSESATPESSGGSSGGSMPKKKRKVDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEFSGSETPGTSESATPESATVVSGQKQDRQGGERRRSQLDRDQCAYCKEKGHWAKDCPKKPRGPRGPRPQTSLLPKKKRKVELSGGSSGGSSGSETPGTSESATPESSGGSSGGSRPTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLSGGSPKKKRKV

PrimeROOT.v2N-FLP(SEQ ID NO:47)

MPKKKRKVSGGSPKKKRKVSGGSSMPQFDILCKTPPKVLVRQFVERFERPSGEKIALCAAELTYLCWMITHNGTAIKRATFMSYNTIISNSLSFDIVNKSLQFKYKTQKATILEASLKKLIPAWEFTIIPYYGQKHQSDITDIVSSLQLQFESSEEADKGNSHSKKMLKALLSEGESIWEITEKILNSFEYTSRFTKTKTLYQFLFLATFINCGRFSDIKNVDPKSFKLVQNKYLGVIIQCLVTETKTSVSRHIYFFSARGRIDPLVYLDEFLRNSEPVLKRVNRTGNSSSNKQEYQLLKDNLVRSYNKALKKNAPYSIFAIKNGPKSHIGRHLMTSFLSMKGLTELTNVVGNWSDKRASAVARTTYTHQITAIPDHYFALVSRYYAYDPISKEMIALKDETNPIEEWQHIEQLKGSAEGSIRYPAWNGIISQEVLDYLSSYINRRISGGSSGGSSGSETPGTSESATPESSGGSSGGSMPKKKRKVDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEFSGSETPGTSESATPESATVVSGQKQDRQGGERRRSQLDRDQCAYCKEKGHWAKDCPKKPRGPRGPRPQTSLLPKKKRKVELSGGSSGGSSGSETPGTSESATPESSGGSSGGSRPTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLSGGSPKKKRKV

PrimeROOT.v2C-Cre(SEQ ID NO:48)

MPKKKRKVDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEFSGSETPGTSESATPESATVVSGQKQDRQGGERRRSQLDRDQCAYCKEKGHWAKDCPKKPRGPRGPRPQTSLLPKKKRKVELSGGSSGGSSGSETPGTSESATPESSGGSSGGSRPTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLSGGSPKKKRKVSGGSSGGSSGSETPGTSESATPESSGGSSGGSPKKKRKVSGGSSNLLTVHQNLPALPVDATSDEVRKNLMDMFRDRQAFSEHTWKMLLSVCRSWAAWCKLNNRKWFPAEPEDVRDYLLYLQARGLAVKTIQQHLGQLNMLHRRSGLPRPSDSNAVSLVMRRIRKENVDAGERAKQALAFERTDFDQVRSLMENSDRCQDIRNLAFLGIAYNTLLRIAEIARIRVKDISRTDGGRMLIHIGRTKTLVSTAGVEKALSLGVTKLVERWISVSGVADDPNNYLFCRVRKNGVAAPSATSQLSTRALEGIFEATHRLIYGAKDDSGQRYLAWSGHSARVGAARDMARAGVSIPEIMQAGGWTNVNIVMNYIRNLDSETGAMVRLLEDGDKRPAATKKAGQAKKKK

PrimeROOT.v2C-FLP(SEQ ID NO:49)

MPKKKRKVDKKYSIGLDIGTNSVGWAVITDEYKVPSKKFKVLGNTDRHSIKKNLIGALLFDSGETAEATRLKRTARRRYTRRKNRICYLQEIFSNEMAKVDDSFFHRLEESFLVEEDKKHERHPIFGNIVDEVAYHEKYPTIYHLRKKLVDSTDKADLRLIYLALAHMIKFRGHFLIEGDLNPDNSDVDKLFIQLVQTYNQLFEENPINASGVDAKAILSARLSKSRRLENLIAQLPGEKKNGLFGNLIALSLGLTPNFKSNFDLAEDAKLQLSKDTYDDDLDNLLAQIGDQYADLFLAAKNLSDAILLSDILRVNTEITKAPLSASMIKRYDEHHQDLTLLKALVRQQLPEKYKEIFFDQSKNGYAGYIDGGASQEEFYKFIKPILEKMDGTEELLVKLNREDLLRKQRTFDNGSIPHQIHLGELHAILRRQEDFYPFLKDNREKIEKILTFRIPYYVGPLARGNSRFAWMTRKSEETITPWNFEEVVDKGASAQSFIERMTNFDKNLPNEKVLPKHSLLYEYFTVYNELTKVKYVTEGMRKPAFLSGEQKKAIVDLLFKTNRKVTVKQLKEDYFKKIECFDSVEISGVEDRFNASLGTYHDLLKIIKDKDFLDNEENEDILEDIVLTLTLFEDREMIEERLKTYAHLFDDKVMKQLKRRRYTGWGRLSRKLINGIRDKQSGKTILDFLKSDGFANRNFMQLIHDDSLTFKEDIQKAQVSGQGDSLHEHIANLAGSPAIKKGILQTVKVVDELVKVMGRHKPENIVIEMARENQTTQKGQKNSRERMKRIEEGIKELGSQILKEHPVENTQLQNEKLYLYYLQNGRDMYVDQELDINRLSDYDVDAIVPQSFLKDDSIDNKVLTRSDKNRGKSDNVPSEEVVKKMKNYWRQLLNAKLITQRKFDNLTKAERGGLSELDKAGFIKRQLVETRQITKHVAQILDSRMNTKYDENDKLIREVKVITLKSKLVSDFRKDFQFYKVREINNYHHAHDAYLNAVVGTALIKKYPKLESEFVYGDYKVYDVRKMIAKSEQEIGKATAKYFFYSNIMNFFKTEITLANGEIRKRPLIETNGETGEIVWDKGRDFATVRKVLSMPQVNIVKKTEVQTGGFSKESILPKRNSDKLIARKKDWDPKKYGGFDSPTVAYSVLVVAKVEKGKSKKLKSVKELLGITIMERSSFEKNPIDFLEAKGYKEVKKDLIIKLPKYSLFELENGRKRMLASAGELQKGNELALPSKYVNFLYLASHYEKLKGSPEDNEQKQLFVEQHKHYLDEIIEQISEFSKRVILADANLDKVLSAYNKHRDKPIREQAENIIHLFTLTNLGAPAAFKYFDTTIDRKRYTSTKEVLDATLIHQSITGLYETRIDLSQLGGDEFSGSETPGTSESATPESATVVSGQKQDRQGGERRRSQLDRDQCAYCKEKGHWAKDCPKKPRGPRGPRPQTSLLPKKKRKVELSGGSSGGSSGSETPGTSESATPESSGGSSGGSRPTLNIEDEYRLHETSKEPDVSLGSTWLSDFPQAWAETGGMGLAVRQAPLIIPLKATSTPVSIKQYPMSQEARLGIKPHIQRLLDQGILVPCQSPWNTPLLPVKKPGTNDYRPVQDLREVNKRVEDIHPTVPNPYNLLSGLPPSHQWYTVLDLKDAFFCLRLHPTSQPLFAFEWRDPEMGISGQLTWTRLPQGFKNSPTLFNEALHRDLADFRIQHPDLILLQYVDDLLLAATSELDCQQGTRALLQTLGNLGYRASAKKAQICQKQVKYLGYLLKEGQRWLTEARKETVMGQPTPKTPRQLREFLGKAGFCRLFIPGFAEMAAPLYPLTKPGTLFNWGPDQQKAYQEIKQALLTAPALGLPDLTKPFELFVDEKQGYAKGVLTQKLGPWRRPVAYLSKKLDPVAAGWPPCLRMVAAIAVLTKDAGKLTMGQPLVILAPHAVEALVKQPPDRWLSNARMTHYQALLLDTDRVQFGPVVALNPATLLPLPEEGLQHNCLDILAEAHGTRPDLTDQPLSGGSPKKKRKVSGGSSGGSSGSETPGTSESATPESSGGSSGGSPKKKRKVSGGSSMPQFDILCKTPPKVLVRQFVERFERPSGEKIALCAAELTYLCWMITHNGTAIKRATFMSYNTIISNSLSFDIVNKSLQFKYKTQKATILEASLKKLIPAWEFTIIPYYGQKHQSDITDIVSSLQLQFESSEEADKGNSHSKKMLKALLSEGESIWEITEKILNSFEYTSRFTKTKTLYQFLFLATFINCGRFSDIKNVDPKSFKLVQNKYLGVIIQCLVTETKTSVSRHIYFFSARGRIDPLVYLDEFLRNSEPVLKRVNRTGNSSSNKQEYQLLKDNLVRSYNKALKKNAPYSIFAIKNGPKSHIGRHLMTSFLSMKGLTELTNVVGNWSDKRASAVARTTYTHQITAIPDHYFALVSRYYAYDPISKEMIALKDETNPIEEWQHIEQLKGSAEGSIRYPAWNGIISQEVLDYLSSYINRRIKRPAATKKAGQAKKKK

B2重组酶氨基酸序列(SEQ ID NO:50)

MSEFSELVRILPLDQVAEIKRILSRGDPIPLQRLASLLTMVILTVNMSKKRKSSPIKLSTFTKYRRNVAKSLYYDMSSKTVFFEYHLKNTQDLQEGLEQAIAPYNFVVKVHKKPIDWQKQLSSVHERKAGHRSILSNNVGAEISKLAETKDSTWSFIERTMDLIEARTRQPTTRVAYRFLLQLTFMNCCRANDLKNADPSTFQIIADPHLGRILRAFVPETKTSIERFIYFFPCKGRCDPLLALDSYLLWVGPVPKTQTTDEETQYDYQLLQDTLLISYDRFIAKESKENIFKIPNGPKAHLGRHLMASYLGNNSLKSEATLYGNWSVERQEGVSKMADSRYMHTVKKSPPSYLFAFLSGYYKKSNQGEYVLAETLYNPLDYDKTLPITTNEKLICRRYGKNAKVIPKDALLYLYTYAQQKRKQLADPNEQNRLFSSESPAHPFLTPQSTGSSTPLTWTAPKTLSTGLMTPGEE

KD重组酶氨基酸序列(SEQ ID NO:51)

MSTFAEAAHLTPHQCANEINEILESDTFNINAKEIRNKLASLFSILTMQSLSIRREMKINTYRSYKSAIGKSLSFDKDDKIIKFTVRLRKTESLQKDIESALPSYKVVVSPFKNQEVSLFDRYEETHKYDASMVGLQFTNILSKEKDIWKIVSRIACFFDQSCVTTTKRAEYRLLLLGAVGNCCRYSDLKNLDPRTFEIYNNSFLGPIVRATVTETKSRTERYVNFYPVNGDCDLLISLYDYLRVCSPIEKTVSSNRPTNQTHQFLPESLARTFSRFLTQHVDEPVFKIWNGPKSHFGRHLMATFLSRSEKGKYVSSLGNWAGDREIQSAVARSHYSHGSVTVDDRVFAFISGFYKEAPLGSEIYVLKDPSNKPLSREELLEEEGNSLGSPPLSPPSSPRLVAQSFSAHPSLQLFEQWHGIISDEVLQFIAEYRRKHELRSQRTVVA

pSR1重组酶氨基酸序列(SEQ ID NO:52)

MQLTKDTEISTINRQMSDFSELSQILPLHQISKIKDILENENPLPKEKLASHLTMIILMANLASQKRKDVPVKRSTFLKYQRSISKTLQYDSSTKTVSFEYHLKDPSKLIKGLEDVVSPYRFVVGVHEKPDDVMSHLSAVHMRKEAGRKRDLGNKINDEITKIAETQETIWGFVGKTMDLIEARTTRPTTKAAYNLLLQATFMNCCRADDLKNTDIKTFEVIPDKHLGRMLRAFVPETKTGTRFVYFFPCKGRCDPLLALDSYLQWTDPIPKTRTTDEDARYDYQLLRNSLLGSYDGFISKQSDESIFKIPNGPKAHLGRHVTASYLSNNEMDKEATLYGNWSAAREEGVSRVAKARYMHTIEKSPPSYLFAFLSGFYNITAERACELVDPNSNPCEQDKNIPMISDIETLMARYGKNAEIIPMDVLVFLSSYARFKNNEGKEYKLQARSSRGVPDFPDNGRTALYNALTAAHVKRRKISIVVGRSIDTS

B2重组酶识别位点(SEQ ID NO:53)

GAGTTTCATTAAGGAATAACTAATTCССТAATGAAACTC

KD重组酶识别位点(SEQ ID NO:54)

AAACGATATCAGACATTTGTCTGATAATGCTTCATTATCAGACAAATGTCTGATATCGTTT

pSR1重组酶识别位点(SEQ ID NO:55)

TTGATGAAAGAATAACGTATTCTTTCATCAA

Dre重组酶氨基酸序列(SEQ ID NO:56)

MSELIISGSSGGFLRNIGKEYQEAAENFMRFMNDQGAYAPNTLRDLRLVFHSWARWCHARQLAWFPISPEMAREYFLQLHDADLASTTIDKHYAMLNMLLSHCGLPPLSDDKSVSLAMRRIRREAATEKGERTGQAIPLRWDDLKLLDVLLSRSERLVDLRNRAFLFVAYNTLMRMSEISRIRVGDLDQTGDTVTLHISHTKTITTAAGLDKVLSRRTTAVLNDWLDVSGLREHPDAVLFPPIHRSNKARITTTPLTAPAMEKIFSDAWVLLNKRDATPNKGRYRTWTGHSARVGAAIDMAEKQVSMVEIMQEGTWKKPETLMRYLRRGGVSVGANSRLMDS

Dre重组酶识别位点rox(SEQ ID NO:57)

TAACTTTAAATAATGCCAATTATTTAAAGTTA

Dre重组酶识别位点rox(SEQ ID NO:58)

TAACTTTAAATAATGTCCATTATTTAAAGTTA

图14A PrimeROOT.v2-Cre插入S20-T2(SEQ ID NO:59)

GATCCTGTGCAATTTGAAAGGAACCCTGACGAGATTCCGTGGGCTGAATAACTTCGTATAGCATACATTATACGAAGTTATTCGAGGTCATTCATAT

图14A PrimeROOT.v2-Cre插入S20-T4(SEQ ID NO:60)

ATACCTTCAAGTGAGCAGCAGCCTTCTCCTTGTCAGTGAAGACACTACCGTTCGTATAATGTATGCTATACGAACGGTAGGTCTACCTAC

图14A NHEJ插入S20-T2(SEQ ID NO:61)

GATCCTGTGCAATTTGAAAGGAACCCTGACGAGATTCCGTGGGCTGAGGGTGGGCTTGGCTTTGTTTTCGGTCTCCGCCCCCCCGGGCGTTTTTATG

图14A NHEJ插入S20-T4(SEQ ID NO:62)

CAGTGAAGACACCGGTGGACTCCACGACATACTCAGCACCAGCCGGGTGGGCGGGACCTCTTCTACCTACAAAAAAGCTCCGCACGA

图14A NHEJ插入S20-T2-80bp(SEQ ID NO:63)

CGTGGAACTGATGTTT//GA…//…//AAGGTGGTATA

图14A NHEJ插入S20-T2+35bp(SEQ ID NO:64)

CGTGGAACTGATGTTT//ATGGCTGGGCTTGGCCTTGAATTCGAGCTCGGTACCCTCGA//TCAGTTAAAAGGTGGTATA

图14A NHEJ插入S20-T2+34/-1bp(SEQ ID NO:65)

CGTGGAACTGATGTTT//GCTGGGCTTGGCCTTGAATTCGAGCTCGGTACCC-TCGAGG//TCAGTTAAAAGGTGGTATA

图14A NHEJ插入S20-T2+44/-79bp(SEQ ID NO:66)

CGTGGAACTGATGTTTCAGTA//CGGA…//…AAAAGAGTTG//AAGGTGGTATA

图14A NHEJ插入S20-T2+62/-4bp(SEQ ID NO:67)

CGTGGAACTGATGTTT//GAGGGAGAGGCGGTG//GCTCGCTGCGCTC…GGTCGTTCA//AGTTAAAAGGTGGTATA

图14A NHEJ插入S20-T2+289/-1bp(SEQ ID NO:68)

CGTGGAACTGATGTTT//TGCGTTTCTGGGTGAG//TCGAGCTCGGTACCC-TCGAGGTC//CAGTTAAAAGGTGGTATA

图14A NHEJ插入S20-T2+271/-7bp(SEQ ID NO:69)

CGTGGAACTGATGTTT//TGGTCGTTCGCTCCAAGC//CTCGAGGTCAT…TCGAGGTC//TAAAAGGTGGTATA

图14A NHEJ插入S20-T2+151bp(SEQ ID NO:70)

CGTGGAACTGATGTTT//GAGTTTTCGTTCCACTGACT//TAATTCGAGCTCGGTACCCCG//AGTTAAAAGGTGGTATA

图14A NHEJ插入S20-T2+72bp(SEQ ID NO:71)

CGTGGAACTGATGTTT//TGAGGTAAGATTACCTGGTC//GAATTCGAGCTCGGTACCCTC//AGTTAAAAGGTGGTATA

图14A NHEJ插入S20-T2+183/-92bp(SEQ ID NO:72)

CGTGG//AA-A//ATCC//AAAT…//…//AAGGTGGTATA

图14A NHEJ插入S20-T4+15bp(1)(SEQ ID NO:73)

CTTTTCATGATTTGTGACAAATGCAGC//GAAGAGGTACCGGCCAGCCGGCTGGTGCTGAGTATGTCGTGGAGTCCACCGG

图14A NHEJ插入S20-T4+12bp(SEQ ID NO:74)

CTTTTCATGATTTGTGACAAATGCAGCCT/AGAAGAGGTACCGGCCAGCCTGGTGCTGAGTATGTCGTGGAGTCCACCGG

图14A NHEJ插入S20-T4+109/-2bp(SEQ ID NO:75)

CCTTTCATGATTTGTGACAAATGC//GAAGAGGTAT//CTGCGTTA--GCCGGTGCTGAGTATGTCGTGGAGTCCACCGG

图14A NHEJ插入S20-T4+15bp(2)(SEQ ID NO:76)

CTTTTCACGATTTGTGACAAATGCAGC//GAAGAGGTACCGGCCAGCCGGCTGGTGCTGAGTGTGTCGTGGAGTCCACCGG

图14A NHEJ插入S20-T4+172/-5bp(SEQ ID NO:77)

CTTTTCATGATTTGTGACAAATG//GAAGAGGTAC//AGACCCCGT-----TGGTGCTGAGTATGTCGTGGAGTCCACCGG

图14A NHEJ插入S20-T4+15bp(3)(SEQ ID NO:78)

图14A NHEJ插入S20-T4+47/-2bp(SEQ ID NO:79)

CTTTTCATGATTTGTGACAAATGC//GAAGAGGTACC//AGCTCGG--GGCTGGTGCTGAGTATGTCGTGGAGTCCACCGG

图14A NHEJ插入S20-T4+143/-2bp(SEQ ID NO:80)

CTTTTCATGATTTGTGGCAAATGC//GAAGAGGTACC//CCAGCCT--GGCTGGTGCTGAGTATGTCGTGGAGTCCACCGG

图14A NHEJ插入S20-T4+15bp(4)(SEQ ID NO:81)

CTTTTCATGATTTGTGACAAATGCAGC//GAAGAGGTACCGGCCAGTCGGCTGGTGCTGAGTATGTCGTGGAGTCCACCGG

图14A NHEJ插入S20-T4+15bp(5)(SEQ ID NO:82)

CTTTTCATGATTTGTGACAAATGCATC/AAAGAGGTACCGGCCAGCCGGCTGGCGCTGAGTATGTCGAGGAGTCCACCGG

图14C PrimeROOT.v2C-Cre-Act1P或PrimeROOT.v2C-Act1P-pigmT插入(SEQ IDNO:83)

GAAGCATCTGTCTGTCCАCТССССАCТCGTATAACТТCGTATAGCATACATTATACGAA

图14C NHEJ strategy-ActP插入ins 36bp(SEQ ID NO:84)

CTCCCACTCGTTGCACGGGCTTGGC//TTCGAGCTCGGTACCCTCGAGGTCATTCATA

图14C NHEJ strategy-ActP插入ins 12/del 1bp(SEQ ID NO:85)

ATGTCTGTCCАCТCCCCАCTCGAGCTCGGTACCC-TCGAGGTCATTCATATGCTTGAGA

图14C NHEJ strategy-ActP插入ins 131bp(SEQ ID NO:86)

CTCCCCACTCGTTTTTCCGAAGGTAAC//CGAGCTCGGTACCCTTCGAGGTCATTCATA

图14C NHEJ strategy-ActP-pigmR插入ins 38/del 11bp(SEQ ID NO:87)

CTCCCCACTGCTTGGC//CCTCCCTGC-----------CATTCATATGCTTGAGA

图18B GFP-N端-hLMNB1-F(SEQ ID NO:88)

ACGGCATGGACGAGCTGTACAAGTAATTTTTTTTACCGTTCGTATAGCATACATTATACGAACGGTAAGCCCCACGCGCCTGTCGCGGCTCCAGGAGAAGGAGGAGCTGCGCGAGCTCAATGAC

图18B GFP-C端-hLMNB1-R(SEQ ID NO:89)

CCCGGTGAACAGCTCCTCGCCCTTGCTCACCATATAACTTCGTATAATGTATGCTATACGAAGTTATCGGGCGGCGGAGACAGCGGGGCGGCGAGGCCGCGAGCGGGACCGTGATAAGGAG

Claims

1.一种用于在植物基因组中插入外源核苷酸序列的基因组编辑系统，其包含：

其中所述第一pegRNA靶向植物基因组DNA有义链上的第一靶序列，所述第二pegRNA靶向植物基因组DNA反义链上的第二靶序列，

其中所述第一RT序列和所述第二RT序列用于插入第一外源核苷酸序列。

2.权利要求1的基因组编辑系统，其中所述pegRNA能够与所述CRISPR核酸酶或融合蛋白形成复合物并将所述CRISPR核酸酶或融合蛋白靶向基因组中的靶序列，导致靶链上在所述靶序列内的切口。

3.权利要求1或2的基因组编辑系统，其中所述第一靶序列和所述第二靶序列的PAM之间间隔大约20bp-大约80bp，例如大约20bp-大约60bp。

4.权利要求1-3中任一项的基因组编辑系统，其中所述CRISPR核酸酶是Cas9核酸酶或其变体。

5.权利要求1-4中任一项的基因组编辑系统，其中所述CRISPR核酸酶是CRISPR切口酶，例如Cas9切口酶或其变体，例如所述Cas9切口酶或其变体包含选自SEQ ID NO:2和42-43的氨基酸序列。

6.权利要求1-5中任一项的基因组编辑系统，其中所述CRISPR核酸酶如Cas9切口酶和所述逆转录酶通过接头相连。

7.权利要求1-6中任一项的基因组编辑系统，其中所述逆转录酶是M-MLV逆转录酶或其功能性变体。

8.权利要求1-7中任一项的基因组编辑系统，其中所述逆转录酶例如M-MLV逆转录酶或其功能性变体的RNase H结构域被缺失。

9.权利要求1-8中任一项的基因组编辑系统，其中逆转录酶例如M-MLV逆转录酶或其功能性变体在N端或C端与核衣壳蛋白(NC)直接地或通过接头融合。

10.权利要求9的基因组编辑系统，其中所述核衣壳蛋白(NC)包含如SEQ ID NO:6所示的氨基酸序列。

11.权利要求1-10中任一项的基因组编辑系统，其中所述逆转录酶通过接头或直接与RNA适配体结合蛋白序列例如MCP蛋白序列融合，且所述pegRNA包含一或多个RNA适配体序列例如MS2序列。

12.权利要求1-11中任一项的基因组编辑系统，其中i)-b)中所述CRISPR核酸酶如CRISPR切口酶与所述逆转录酶通过自裂解肽融合。

13.权利要求1-12中任一项的基因组编辑系统，其中i)-b)中所述CRISPR核酸酶如CRISPR切口酶融合至所述逆转录酶的N端。

14.权利要求1-13中任一项的基因组编辑系统，其中i)-b)中所述融合蛋白包含SEQ IDNO:19所示的氨基酸序列。

15.权利要求1-14中任一项的基因组编辑系统，其中第一pegRNA中的引导序列与有义链的第一靶序列具有充分的序列相同性(优选100％相同性)，其与CRISPR核酸酶如切口酶的复合物导致第一靶序列中的切口；第二pegRNA中的引导序列与反义链上的第二靶序列具有充分的序列相同性(优选100％相同性)，其与CRISPR核酸酶如切口酶的复合物导致第二靶序列中的切口。

16.权利要求1-15中任一项的基因组编辑系统，其中所述gRNA的支架序列示于SEQ IDNO:17。

17.权利要求1-16中任一项的基因组编辑系统，其中所述引物结合序列被设置为与所述靶序列的至少一部分互补，优选地，所述引物结合序列与靶序列所在DNA链中由切口导致的3’游离单链的至少一部分互补。

18.权利要求1-17中任一项的基因组编辑系统，其中所述RT序列被设置为在以其作为模板逆转录后生成待插入基因组的第一外源核苷酸序列或其部分，或生成所述待插入植物基因组的第一外源核苷酸序列或其部分的互补序列。

19.权利要求1-18中任一项的基因组编辑系统，其中所述第一pegRNA的第一RT序列被设置为在以其作为模板逆转录后生成待插入基因组的第一外源核苷酸序列的第一片段；所述第二pegRNA的第二RT序列被设置为在以其作为模板逆转录后生成待插入基因组的第一外源核苷酸序列的第二片段的互补序列。

20.权利要求19的基因组编辑系统，其中所述待插入的第一外源核苷酸序列的第一片段和第二片段至少部分重叠。

21.权利要求20的基因组编辑系统，其中所述第一片段和第二片段至少有大约10bp-大约50bp重叠。

22.权利要求1-21中任一项的基因组编辑系统，所述pegRNA在PBS的3’端还包含tevopre序列。

23.权利要求1-22中任一项的基因组编辑系统，所述pegRNA在3’端还包含polyA序列。

24.权利要求1-23中任一项的基因组编辑系统，所述待插入的第一外源核苷酸序列的长度为大约1bp-大约700bp。

25.权利要求1-24中任一项的基因组编辑系统，所述pegRNA的5’端连接至第一核酶或tRNA，所述第一核酶或tRNA被设计为在所述pegRNA的5’端切割所述融合物；和/或所述pegRNA的3’端连接至第二核酶或tRNA，所述第二核酶或tRNA被设计为在所述pegRNA的3’端切割所述融合物。

26.权利要求1-25中任一项的基因组编辑系统，所述pegRNA由II型启动子驱动转录，例如，所述II型启动子是GS启动子。

27.权利要求1-26中任一项的基因组编辑系统，所述第一外源核苷酸序列包含一或多个重组酶的识别位点(RS)。

28.权利要求27的基因组编辑系统，所述基因组编辑系统还包括：

iv)所述重组酶和/或含有编码所述重组酶的核苷酸序列的表达构建体，和

v)包含一或多个所述重组酶的识别位点(RS)和待插入植物基因组中的第二外源多核苷酸序列的供体构建体。

29.权利要求27或28的基因组编辑系统，其中所述重组酶是酪氨酸重组酶家族的重组酶或丝氨酸重组酶家族的重组酶，优选酪氨酸重组酶家族的重组酶，

例如，所述酪氨酸重组酶家族的重组酶选自B2、KD、pSR1、Dre、Cre、FLP；或所述丝氨酸重组酶家族的重组酶选自phiC31、Bxb1。

30.权利要求27-29中任一项的基因组编辑系统，其中所述重组酶是Cre重组酶。

31.权利要求30的基因组编辑系统，其中所述一或多个重组酶识别位点(RS)选自loxP、Lox2272、Lox71、Lox66或它们的变体，以及它们的任意组合。

32.权利要求27-29中任一项的基因组编辑系统，其中所述重组酶是FLP重组酶。

33.权利要求32的基因组编辑系统，所述一或多个重组酶识别位点(RS)选自FRT1、FRT3、FRT5、FRT6或它们的变体如包含SEQ ID NO:32-37之一所述的序列的FRT1变体，以及它们的任意组合。

34.权利要求28-33中任一项的基因组编辑系统，所述重组酶包含在i)-b)所述引导编辑融合蛋白中，

例如，所述重组酶位于所述融合蛋白的N端或C端，其直接或通过接头与融合蛋白其它部分相连，

优选地，所述引导编辑融合蛋白包含SEQ ID NO:46-49中任一个所示氨基酸序列或与其具有85％、90％、95％同一性的氨基酸序列。

35.权利要求28-34中任一项的基因组编辑系统，其中所述第二外源多核苷酸序列可以是1bp-大约10kb或更长。

36.权利要求1-35中任一项的基因组编辑系统，其中所述第一靶序列、第二靶序列、第一外源核苷酸序列和/或所述第二外源核苷酸序列与植物性状如农艺性状相关，由此所述第一和/或第二外源核苷酸序列的插入导致所述植物相对于野生型植物具有改变的(优选改善的)性状，例如农艺性状。

37.权利要求1-36中任一项的基因组编辑系统，其中所述植物包括单子叶植物和双子叶植物，例如，所述植物是作物植物，包括但不限于小麦、水稻、玉米、大豆、向日葵、高粱、油菜、苜蓿、棉花、大麦、粟、甘蔗、番茄、烟草、木薯和马铃薯。

38.一种产生经遗传修饰的植物的方法，所述经遗传修饰的植物包含定点插入的外源核苷酸序列，所述方法包括将权利要求1-37中任一项的基因组编辑系统导入至少一个所述植物。

39.权利要求38的方法，所述方法还包括从所述至少一个植物筛选具有期望的外源核苷酸序列插入的植物。

40.权利要求38或39的方法，所述基因组编辑系统通过选自以下的方法导入植物：基因枪法、PEG介导的原生质体转化、土壤农杆菌介导的转化、植物病毒介导的转化、花粉管通道法和子房注射法。

41.权利要求38-40中任一项的方法，所述导入包括将所述基因组编辑系统转化至分离的植物细胞或组织，然后使所述经转化的植物细胞或组织再生为完整植物。

42.权利要求38-40中任一项的方法，所述导入包括将所述基因组编辑系统转化至完整植物上的特定部位，例如叶片、茎尖、花粉管、幼穗或下胚轴。

43.权利要求38-42中任一项的方法，所述方法还包括在升高的温度下处理(如培养)已经导入所述基因组编辑系统的植物细胞、组织或完整植物，所述升高的温度例如是37℃。

44.权利要求38-43中任一项的方法，所述基因组编辑系统的组分同时导入植物中。

45.权利要求38-43中任一项的方法，其中包括将权利要求28-37中任一项的基因组编辑系统导入至少一个所述植物，且包括以下步骤：

1)将所述基因组编辑系统的组分i)-iv)转化至分离的植物细胞或组织，获得插入包含一或多个重组酶的识别位点(RS)所述第一外源核苷酸序列的植物细胞或组织；

3)从步骤2)获得的植物细胞或组织再生完整植物。

46.权利要求38-45中任一项的方法，其中所述外源核苷酸序列插入植物基因组中的安全港位点，所述安全港位点在所述植物基因组中

1)距离蛋白编码区至少5kb；

2)距离miRNA编码区至少30kb；

3)距离lncRNA编码区至少20kb；

4)距离tRNA编码区至少20kb；

5)距离启动子和/或增强子至少5kb；

6)距离LTR重复至少20kb；

7)距离non-LTR重复至少200bp；和

8)距离着丝粒至少10kb。

47.权利要求46的方法，其中所述植物是水稻，且所述安全港位点选自：表1或表2中所示位点。

48.一种产生经遗传修饰的植物的方法，所述经遗传修饰的植物包含定点插入的外源核苷酸序列，所述方法包括将外源核苷酸序列插入植物基因组中的安全港位点，所述安全港位点在所述植物基因组中

1)距离蛋白编码区至少5kb；

2)距离miRNA编码区至少30kb；

3)距离lncRNA编码区至少20kb；

4)距离tRNA编码区至少20kb；

5)距离启动子和/或增强子至少5kb；

6)距离LTR重复至少20kb；

7)距离non-LTR重复至少200bp；和

8)距离着丝粒至少10kb。

49.权利要求48的方法，其中所述植物是水稻，且所述安全港位点选自：表1或表2中所示位点。