CN109415756A

CN109415756A - 用于以高通量方式体内评估rna引导的核酸酶的活性的方法

Info

Publication number: CN109415756A
Application number: CN201780040689.2A
Authority: CN
Inventors: 金炯凡; 金熙权; 宋明宰
Original assignee: Industry Academic Cooperation Foundation of Yonsei University
Current assignee: Industry Academic Cooperation Foundation of Yonsei University
Priority date: 2016-04-28
Filing date: 2017-04-28
Publication date: 2019-03-01
Anticipated expiration: 2037-04-28
Also published as: EP3450570A1; JP2019514379A; CN109415756B; EP3450570A4; KR102227657B1; EP3450570B1; KR20170123581A; KR20190050956A; WO2017188797A1; US20190136211A1

Abstract

本发明涉及用于以高通量方式体内评估RNA引导的核酸酶的活性的方法，更具体而言，本发明涉及通过利用包含分离的寡核苷酸的细胞文库的插入缺失频率用于评估RNA引导的核酸酶的活性的方法，所述寡核苷酸包含编码引导RNA的碱基序列和靶碱基序列。根据本发明，使用引导RNA‑靶序列对的文库的RNA引导的核酸酶的特征分析方法能够以高通量方式体内评估RNA引导的核酸酶的活性，从而，该方法在所有应用RNA引导的核酸酶的领域中非常有用。

Description

用于以高通量方式体内评估RNA引导的核酸酶的活性的方法

技术领域

本发明涉及一种用于以高通量方式在体内(in vivo)(特别是在细胞中)评估RNA引导的核酸酶的活性的方法，更具体而言，本发明涉及一种用于从包含分离的寡核苷酸的细胞文库的插入缺失(indel)频率来评估RNA引导的核酸酶的活性的方法，所述寡核苷酸包含编码引导RNA的核苷酸序列和靶核苷酸序列。

背景技术

源自II型CRISPR-Cas(clustered regularly interspaced short palindromicrepeats and CRISPR-associated protein，成簇规律间隔短回文重复和CRISPR相关蛋白)原核免疫系统的RNA引导的核酸酶提供了用于基因组编辑的手段。特别地，对于使用单引导RNA(sgRNA)和Cas9蛋白来编辑细胞和器官基因组的技术，已经积极地进行了研究(Cell,2014,157:1262-1278)。特别地，正在CRISPR-Cas9系统中进行sgRNA活性预测的研究(ACSSynth Biol.,2017,Feb10；Sci Rep,2016,6:30870,Nat Biotechnol,34,184-191)，并且，对于通过注射细胞(其中通过CRISPR-Cas9去除了编码PD-1的基因)使用CRISPR-Cas9来治疗疾病而言，正在中国进行研究(Nature，2016，539:479)。最近，Cpf1蛋白(来源于普雷沃氏菌属(Prevotella)和弗朗西斯氏菌属(Francisella)1的CRISPR)被报道为2型CRISPR-Cas系统的另一种核酸酶蛋白(Cell，2015，163：759-771)；相应地，用于基因组编辑的选择范围得以扩展。Cpf1的多种优点在于其以5’突起的形式切割，具有较短长度的引导RNA，并且在种子序列和切割位置之间具有较长的距离。然而，尚缺乏关于人和其它真核细胞中的Cpf1的特征(特别是与靶效应和脱靶效应有关的Cpf1的特征)的研究。

尽管在将RNA引导的核酸酶应用于基因组编辑时活性和准确性非常重要，需要花费大量的时间和努力来确认RNA引导的核酸酶的靶活性和脱靶活性。关于靶活性和脱靶活性的计算机预测的准确性是有限的(Nat Biotechnol，2014，32:1262-1267)；并且，为了开发计算机预测模型，需要通过对RNA引导的核酸酶的活性进行全面的体内实验来表征核酸酶。

发明内容

技术问题

本发明人努力开发了一种能够以高通量方式在体内条件下评估RNA引导的核酸酶的活性的系统，其结果是，成功开发了具有引导RNA和靶序列对作为主要构成元件的配对文库系统(pair library system)，从而完成了本发明。

技术方案

本发明的一个目的是提供一种用于评估RNA引导的核酸酶的活性的方法，所述方法包括：(a)使用从包含分离的寡核苷酸的细胞文库获得的DNA进行序列分析，所述细胞文库中导入有RNA引导的核酸酶，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列；以及(b)由获得自所述序列分析的数据对各引导RNA-靶序列对的插入缺失频率进行检测。

本发明的另一个目的是提供一种包含至少两种细胞的细胞文库，其中，各细胞包含寡核苷酸，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列。

本发明的又一个目的是提供一种包含分离的寡核苷酸的载体，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列；以及提供一种载体文库。

本发明的又一个目的是提供一种分离的寡核苷酸，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列；以及提供一种寡核苷酸文库。

本发明的又一个目的是提供一种用于构建寡核苷酸文库的方法，所述方法包括：(a)设定待由RNA引导的核酸酶靶向的靶核苷酸序列；(b)设计编码引导RNA的核苷酸序列，所述编码引导RNA的核苷酸序列与所设定的靶核苷酸序列的互补链形成碱基对；(c)设计寡核苷酸，所述寡核苷酸包含所述靶核苷酸序列和靶向所述靶核苷酸序列的引导RNA；以及(d)重复步骤(a)至步骤(c)至少一次。

本发明的又一个目的是提供一种分离的引导RNA，所述引导RNA包含能够与靶核苷酸序列的互补链形成碱基对的序列，所述靶核苷酸序列与原型间隔区邻近基序(proto-spacer-adjacent motif，PAM)序列、即TTTV或CTTA相邻。

本发明的又一个目的是提供一种用于基因组编辑的组合物，所述组合物包含：分离的引导RNA或编码所述分离的引导RNA的核酸。

本发明的又一个目的是提供一种用于在哺乳动物细胞中进行基因组编辑的系统，所述系统包含：分离的引导RNA或编码所述分离的引导RNA的核酸；以及Cpf1蛋白或编码所述Cpf1蛋白的核酸。

本发明的又一个目的是提供一种用于在哺乳动物细胞中利用Cpf1进行基因组编辑的方法，所述方法包括：将引导RNA或编码所述引导RNA的核酸；以及Cpf1蛋白或编码所述Cpf1蛋白的核酸依次或同时导入分离的哺乳动物细胞中。

有益效果

本发明的使用引导RNA-靶序列对文库用于评估RNA引导的核酸酶的活性的方法能够以高通量方式评估细胞内(体内)RNA引导的核酸酶的活性，因此该方法可以非常有效地用于所有应用RNA引导的核酸酶的领域中。

附图说明

图1示出了对用于评估Cpf1活性的寡核苷酸进行说明的示意图，所述寡核苷酸包含靶序列和引导RNA序列对。

图2示出了对AsCpf1慢病毒载体的图谱进行说明的示意图。Psi，包装信号；RRE，rev响应元件；WPRE，土拨鼠肝炎病毒的转录后调控元件；U6，U6pol III启动子；cPPT，中央多聚嘌呤区(central polypurine tract)；EFS，延伸因子1a短启动子；BlastR，杀稻瘟菌素(blasticidin)抗性基因。

图3示出了对LbCpf1慢病毒载体的图谱进行说明的示意图。Psi，包装信号；RRE，rev响应元件；WPRE，土拨鼠肝炎病毒的转录后调控元件；U6，U6pol III启动子；cPPT，中央多聚嘌呤区；EFS，延伸因子1a短启动子；BlastR，杀稻瘟菌素抗性基因。

图4示出了用于制备质粒文库的慢病毒载体的示意图，所述慢病毒载体包含骨架载体以及靶序列和引导RNA序列对。Psi，包装信号；RRE，rev响应元件；WPRE，土拨鼠肝炎病毒的转录后调控元件；cPPT，中央多聚嘌呤区；DR，Cpf1的正向重复；GS，引导RNA的引导序列；T，多聚T(polyT)；B，条形码(barcode)；TS，靶序列；HS，同源序列；EF1α，延伸因子1α启动子；PuroR，嘌呤霉素抗性基因。

图5示出了对使用本发明的配对文库的高通量分析系统的整个过程进行简要说明的示意图。

图6示出了寡核苷酸池、质粒文库和细胞文库中各配对的相对拷贝数。

图7示出了相对于寡核苷酸池和质粒文库中各配对的拷贝数进行标准化的质粒文库和细胞文库中各配对的拷贝数。

图8示出了相对于寡核苷酸池中的拷贝数的质粒文库和细胞文库中各配对的相对拷贝数。

图9示出了相对于质粒文库中的拷贝数的细胞文库中各配对的相对拷贝数。

图10示出了通过深度测序评估的质粒文库与寡核苷酸池的配对拷贝数之间的相关性。

图11示出了通过深度测序评估的细胞文库和寡核苷酸池的配对拷贝数之间的相关性。

图12示出了通过深度测序评估的细胞文库和质粒文库的配对拷贝数之间的相关性。

图13示出了用于确认AsCpf1和LbCpf1的PAM序列的过程的示意图。

图14示出了根据AsCpf1的潜在PAM序列的插入缺失频率。对作为潜在PAM序列的ANNNN序列进行了实验。出于简要呈现的目的，省略了“A”。

图15示出了就AsCpf1的4种TTTN PAM序列而言的插入缺失频率。各误差棒代表平均值的标准误差(SEM)。*P<0.05，**P<0.01，***P<0.001。

图16示出了根据LbCpf1的潜在PAM序列的插入缺失频率。对作为潜在PAM序列的ANNNN序列进行了实验。出于简要呈现的目的，省略了“A”。

图17示出了就LbCpf1的4种TTTN PAM序列而言的插入缺失频率。各误差棒代表平均值的标准误差(SEM)。*P<0.05，**P<0.01，***P<0.001。

图18示出了通过体内和体外分析对PAM序列的比较结果进行说明的图，其中，a和b分别代表(a)AsCpf1的PAM序列和(b)LbCpf1的PAM序列的体外分析的结果；c和d分别代表(c)AsCpf1和(d)LbCpf1的插入缺失频率和潜在PAM序列之间的相关性的体内分析的结果。

图19示出了就AsCpf1(左)和LbCpf1(右)的4种NTTTA PAM序列而言的插入缺失频率。各误差棒代表平均值的标准误差(SEM)。*P<0.05ANOVA继以Tukey事后检验。

图20示出了使用正向或反向靶序列就AsCpf1和SpCas9之间的插入缺失频率排名而言的比较结果。示出了就SpCas9和AsCpf1的正向靶序列(左)和反向靶序列(右)而言的插入缺失频率排名的相关性。将以红色标记的5’-GGG-3’和5’-TTTA-3’序列分别用作SpCas9和AsCpf1靶序列的PAM序列。就SpCas9靶序列而言的活性排名参考如下文献：NatBiotechnol,2014,32:1262-1267。

图21示出了就具有前20％的高活性的引导RNA而言对AsCpf1靶序列的各位置处的核苷酸偏好性进行说明的图。使用1,251个引导RNA和靶序列对(来自文献Nat Biotechnol，2014,32：1262-1267)通过二项分布以0.2的基线概率对P值进行计算。

图22示出了对观察到的插入缺失与靶序列的GC含量之间的关系进行说明的图，其中a、b和c代表具有统计学上不同的插入缺失频率(P>0.05)的各个组，并且各误差棒代表平均值的标准误差(SEM)。*P<0.05，**P<0.01，***P<0.001。

图23示出了根据将表达Cpf1的慢病毒载体递送到细胞文库中后的时间对平均插入缺失频率进行说明的图，其中各误差棒代表平均值的标准误差(SEM)。**P<0.01，**P<0.001。

图24示出了在将表达Cpf1的慢病毒转导到细胞文库中后第3天、第5天和第31天时各靶序列处的插入缺失频率。

图25示出了用于根据编码引导RNA的序列和靶序列中的核苷酸错配对插入缺失频率进行分析的实验设计进行说明的示意图。

图26示出了根据脱靶序列中核苷酸错配位置的插入缺失频率。

图27示出了根据靶序列和具有1个核苷酸错配的脱靶序列中的引导RNA长度对插入缺失频率进行说明的图，该插入缺失频率标准化至靶序列中的插入缺失频率。

图28示出了根据脱靶序列中的核苷酸错配数量对相对插入缺失频率进行说明的图。

图29示出了根据靶序列内的区域对错配核苷酸数量在Cpf1诱导的脱靶插入缺失频率中的影响进行说明的图。该脱靶插入缺失频率标准化至靶序列中的插入缺失频率。

图30示出了对靶序列内的区域的核苷酸多重错配在Cpf1诱导的脱靶插入缺失频率中的影响进行说明的图。

图31示出了对错配类型对脱靶序列种子区域(seed region)中的相对插入缺失频率的影响进行说明的图。**P<0.01。

图32示出了对错配类型对脱靶序列主干区域(trunk region)中的相对插入缺失频率的影响进行说明的图。**P<0.01。

图33示出了对错配类型对脱靶序列混杂区域(promiscuous region)中的相对插入缺失频率的影响进行说明的图。**P<0.01。

图34示出了对使用本发明的配对文库的体内高通量评估系统的概念进行说明的示例。传统地，已经通过个别且困难的方法(小规模系统，上图)测量了RNA引导的核酸酶。本发明能够进行高通量评估(工厂系统，下图)，因此提供了用于大规模地容易地评估RNA引导的核酸酶的新方法。

图35示出了对用于评估Cas9活性的寡核苷酸进行说明的示意图，该寡核苷酸包含靶序列和引导RNA序列对。

图36示出了对Cas9慢病毒载体的图谱进行说明的示意图。

图37示出了对使用引导RNA-靶序列对文库测量的引导RNA活性的结果进行说明的图；图38示出了对使用本发明的配对文库测量的引导RNA活性的结果进行说明的图。

图39示出了对位置1处的Cpf1WED结构域中的Thr16和crRNA核酸酶之间的相互作用进行说明的示意图。WED结构域内的Thr16残基的羟基侧链表现出与鸟嘌呤碱基的N₂的极性相互作用(红圈内的蓝色虚线)。不同核碱基的侧链(例如胸腺嘧啶和尿嘧啶的O₂)可表现出与Thr16残基类似的极性相互作用。然而，由于上述部分不存在于腺嘌呤中，因此在crRNA腺嘌呤核糖核碱基中，侧链与靶DNA链(邻近PAM基序)的位置1处存在的胸腺嘧啶形成不稳定的结合。在crRNA核糖核苷酸(指示出了鸟嘌呤)和靶序列核苷酸(指示出了位置1处的胞嘧啶)之间存在互补相互作用。该图是基于PDB 5B43的数据制备的。

图40示出了对内源靶位置和相应的导入的合成序列中的插入缺失频率之间的相关性进行说明的图，其中示出了82个分析的内源区域的散点图。

图41示出了对内源靶位置和相应的导入的合成序列中的插入缺失频率之间的相关性进行说明的图，其中示出了82个区域之中的排在前25％的DNase敏感区域的散点图。

图42示出了对内源靶位置和导入的序列中的插入缺失频率之间的相关性进行说明的图，其中示出了(a)排在前25％至50％、(b)排在前50％至75％以及(c)排在75％至100％的各DNase敏感区域的散点图。

图43示出了对生物复制品(biological replicate)中的插入缺失频率之间的相关性进行说明的图。通过独立的慢病毒生产和转导制备两种不同的文库(文库A和文库B)。用编码Cpf1的质粒转染两个文库，并于4天后在细胞文库中分析插入缺失频率。

图44示出了对通过两种不同递送方法递送Cpf1后的插入缺失频率之间的相关性进行说明的图。细胞文库用Cpf1质粒转染或用Cpf1慢病毒载体转导。在4天(转染)或5天(转导)后，分析细胞文库的插入缺失频率。

图45示出了对用于评估靶序列中的Cpf1活性的高通量方式评估方法和传统方法之间的成本比较结果进行说明的图。对材料的成本(左)和劳动(右)进行了比较。成本以美元表示；劳动单位(labor unit)表示为1小时内技术人员能够执行的最大工作量。在时间间隔(例如培养时间)超过1小时的情况下，不将其计作劳动。

具体实施方式

可编程的核酸酶(programmable nuclease)被广泛用于细胞和个体受试者的基因组编辑，并且，采用可编程的核酸酶的技术是可用于生命科学、生物技术和医学领域中的各种目的的非常有用的技术。特别地，最近，Cas9和Cpf1等由于其有用性而引起了关注，Cas9是源自II型CRISPR/Cas(成簇规律间隔重复/CRISPR相关的)原核免疫系统的RNA引导的核酸酶。然而，对于RNA引导的核酸酶的利用而言，由于中靶活性(on-target activity)和脱靶活性(off-target activity)可根据引导RNA所具有的序列而变化，因此相对于这些核酸酶的靶序列来设计引导RNA是重要的。在这方面，本发明人已经尝试开发了一种用于以高通量方式体内评估RNA引导的核酸酶的活性的方法。

在下文中，将对本发明的示例性实施方式进行详细描述。同时，本文公开的各解释内容和示例性实施方式可应用于各自的其它解释内容和示例性实施方式。也就是说，本文公开的各种因素的所有组合都属于本发明的范围。此外，本发明的范围不应受到下文提供的具体公开内容的限制。

为了实现上述目的，本发明的一个方面提供了一种用于评估RNA引导的核酸酶的活性的方法，所述方法包括：(a)使用从包含寡核苷酸的细胞文库获得的DNA进行序列分析，所述细胞文库中导入有RNA引导的核酸酶，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列；以及(b)由获得自所述序列分析的数据对各引导RNA-靶序列对的插入缺失频率进行检测。本发明人将上述方法命名为“引导RNA-靶序列对文库分析(guide RNA-target sequence pair library analysis)”，该方法是指使用细胞文库用于评估RNA引导的核酸酶的活性的方法，所述细胞文库中导入了作为一对(a pair)的编码引导RNA的核苷酸序列和靶核苷酸序列。

特别地，本发明人已经确认，使用配对文库(pair library)测量的RNA引导的核酸酶的活性与作用于细胞中内源基因的RNA引导的核酸酶的活性具有高度相关性，因此，本发明人已经确认，本发明的用于评估RNA引导的核酸酶的方法不仅可在体外有用，而且可在体内有用。

基因组编辑/基因编辑的技术是一种能够向动物/植物(包括人)细胞的基因组核苷酸序列中导入靶向修饰的技术，该技术还能够进行特定基因的敲除或敲入或者向不产生蛋白的非编码DNA序列导入修饰。本发明的方法能够以高通量方式对上述基因组编辑/基因编辑技术中使用的RNA引导的核酸酶的中靶活性和脱靶活性进行分析，这能够有效地用于开发仅特异性作用于靶位置的RNA引导的核酸酶。

如本文所使用的，术语“RNA引导的核酸酶”是指能够识别靶基因组上的特定位置并将其切割的核酸酶，特别是因引导RNA而具有特异性的核酸酶。RNA引导的核酸酶可包括源自CRISPR(即微生物免疫系统)的Cas9蛋白，具体而言为CRISPR相关的蛋白9(Cas9)和Cpf1等，但RNA引导的核酸酶不限于此。

RNA引导的核酸酶可识别动物/植物细胞(包括人细胞)的基因组中的特定核苷酸序列并引起双链断裂(DSB)，并可形成切口(切口酶活性)。双链断裂包括通过切割DNA的双链来产生平末端和粘末端这二者。DSB被细胞中的同源重组或非同源末端连接(NHEJ)机制有效修复，并且可在该过程中将研究者期望的修饰导入靶位点。RNA引导的核酸酶可以是人工的或工程化的非天然存在的RNA引导的核酸酶。

如本文所使用的，术语“Cas蛋白”是CRISPR/Cas系统的主要蛋白构成元件，并且该蛋白是能够作为激活的核酸内切酶或切口酶发挥作用的蛋白。Cas蛋白可与CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA)形成复合物，从而表现其活性。

关于Cas蛋白或其基因的信息可从已知数据库(例如美国国家生物技术信息中心(NCBI)的GenBank)获得。具体地，Cas蛋白可为Cas9蛋白。另外，Cas蛋白可来源于如下属的微生物：链球菌(Streptococcus)属、奈瑟氏菌(Neisseria)属、巴斯德氏菌(Pasteurella)属、弗朗西斯氏菌(Francisella)属和弯曲杆菌(Campylobacter)属；具体地，Cas蛋白来源于酿脓链球菌(Streptococcus pyogenes)微生物；更具体地，Cas9蛋白可以是来源于酿脓链球菌微生物的Cas9蛋白，但不限于此。然而，只要其具有上述RNA引导的核酸酶的活性，本发明不限于上述实例。在本发明中，Cas蛋白可以是重组蛋白。

如本文所使用的，术语“Cpf1”是指一种区别于CRISPR/Cas系统的CRISPR系统的新核酸酶，该核酸酶仅在最近才被报道(Cell，2015，163(3):759-71)。Cpf1的特征在于它是由单个RNA操作的核酸酶，不需要tracrRNA，并且具有相对小的尺寸。另外，已知Cpf1利用富含胸腺嘧啶的原型间隔区邻近基序(PAM)序列，并通过切割DNA的双链产生粘末端。Cpf1可来源于如下属的微生物：Candidatus Paceibacter属、毛螺菌(Lachnospira)属、丁酸弧菌(Butyrivibrio)属、Peregrinibacteria属、氨基酸球菌(Acidominococcus)属、卟啉单胞菌(Porphyromonas)属、普雷沃氏菌(Prevotella)属、弗朗西斯氏菌属、CandidatusMethanoplasma属或真细菌(Eubacterium)属，但不限于此。然而，只要其具有上述RNA引导的核酸酶的活性，本发明不限于上述实例。在本发明中，Cpf1蛋白可以是重组蛋白。

例如在提及细胞、核酸、蛋白或载体等使用时，上述术语“重组”意味着异源核酸或蛋白的导入；或天然核酸或蛋白中的变化；或由来源于修饰细胞的细胞所修饰的细胞、核酸、蛋白或载体。相应地，例如，可通过使用人密码子表重构编码Cas9蛋白或Cpf1蛋白的序列来制备重组Cas9蛋白或重组Cpf1蛋白。

Cas9蛋白或Cpf1蛋白可处于蛋白能够在细胞核中起作用的形式，并且可处于可将其容易地导入细胞中的形式。例如，Cas9蛋白或Cpf1蛋白可与细胞穿透肽或蛋白转导结构域连接。蛋白转导结构域可以是聚精氨酸或HIV来源的TAT蛋白，但不限于此。就细胞穿透肽或蛋白转导结构域而言，本领域公开了许多种类，因此本领域技术人员可将各种种类(不限于上述实例)应用于本发明。

另外，编码Cas9蛋白或Cpf1蛋白的任何核酸可进一步包含核定位信号(NLS)序列。相应地，除了用于表达Cas9蛋白或Cpf1蛋白的控制序列(例如启动子序列等)之外，任何包含编码Cas9蛋白或Cpf1蛋白的核酸的表达盒均可进一步包含NLS序列，但所包含的序列不限于此。

Cas9蛋白或Cpf1蛋白可与对于分离和/或纯化而言有用的标签连接。例如，可根据目的连接小肽标签(例如His标签、Flag标签、S标签等)、或谷胱甘肽S-转移酶(GST)标签、麦芽糖结合蛋白(MBP)标签等，但所述标签不限于此。

本发明提供了一种用于分析RNA引导的核酸酶的特征的方法。在下文中，将详细描述该方法的各步骤。同时，如上所述，显而易见的是，上述术语的定义和方面也适用于以下内容。

步骤(a)是使用从细胞文库获得的DNA进行深度测序的步骤，所述细胞文库包含分离的寡核苷酸，所述寡核苷酸包含编码引导RNA的核苷酸序列和靶核苷酸序列。该步骤是从细胞群获得分析所需的数据，在该细胞群中通过使RNA引导的核酸酶作用于各种引导RNA和靶序列，由中靶活性和脱靶活性产生各种插入和缺失(插入缺失)。

具体地，可进行步骤(a)，所述步骤(a)包括：

(i)制备包含编码引导RNA的核苷酸序列和靶核苷酸序列(即，引导RNA序列和靶核苷酸序列对)的寡核苷酸文库；

(ii)使用寡核苷酸文库制备载体文库(具体为病毒载体文库)，具体地，通过制备寡核苷酸文库的各寡核苷酸的载体来制备载体文库；

(iii)使用载体文库(具体为病毒载体文库)制备细胞文库，具体地，通过将载体文库的各载体导入细胞中来构建细胞文库；以及

(iv)使用从细胞文库获得的DNA进行序列分析(例如深度测序)。

获得步骤(iv)中的DNA的细胞文库可以是如下细胞文库：其中，将RNA引导的核酸酶导入步骤(iii)中构建的细胞文库中，并通过培养细胞来诱导RNA引导的核酸酶的活性。

如本文所使用的，术语“文库”是指其中包含两种以上的具有不同特征的同种类型的物质的池(pool)或群。相应地，寡核苷酸文库可以是包含两种以上寡核苷酸的池，其中包含不同的核苷酸序列(例如引导RNA序列、PAM序列)和/或不同的靶序列；载体文库(例如病毒载体文库)可以是包含两种以上载体的库，其中包含不同的序列或构成元件，例如，载体文库可以是寡核苷酸文库的各寡核苷酸的载体的池，该池可以是包含两种以上载体(在构成相应载体的寡核苷酸中具有差异)的池。细胞文库可以是两种以上具有不同特征的细胞的池，具体为用于本发明目的的包含各不同寡核苷酸的细胞的池，例如，各自包含不同数量的导入载体和/或各自包含不同种类的导入载体的细胞(具体为包含不同种类的载体的细胞)的池。由于本发明旨在以高通量方式使用细胞文库来评估RNA引导的核酸酶的活性，因此各文库的寡核苷酸、载体(例如病毒载体)和细胞的种类可以是两种以上，并且只要评估方法正常操作，各文库的上限不受限制。

如本文所使用的，术语“寡核苷酸”是指其中几个至几百个核苷酸通过磷酸二酯键连接的物质，为了本发明的目的，寡核苷酸可以是双螺旋DNA。本发明使用的寡核苷酸的长度可为20bp至300bp，具体为50bp至200bp，更具体为100bp至180bp。在本发明中，寡核苷酸包含编码引导RNA的核苷酸序列和靶核苷酸序列。另外，寡核苷酸可包含可与引物结合的额外序列以用于PCR扩增。

具体地，在单个寡核苷酸中，引导RNA可顺式作用于与其相邻的靶核苷酸序列。也就是说，引导RNA可以是设计用于确认相邻的靶核苷酸序列是否已被切割的引导RNA。

可将寡核苷酸导入细胞中并整合到染色体中。

如本文所使用的，术语“引导RNA”是指靶DNA特异性的RNA，该RNA可互补结合至靶序列的全部或部分，以使得RNA引导的核酸酶切割该靶序列。

传统地，引导RNA是指：包含两种RNA(即，CRISPR RNA(crRNA)和反式激活crRNA(tracrRNA))作为构成元件的双RNA；或包含第一区域(包含靶DNA中的序列的全部或部分的互补序列)和第二区域(包含与RNA引导的核酸酶相互作用的序列)的形式，但是RNA引导的核酸酶能够在靶序列中具有活性的任何形式均可不受限制地包括在本发明的范围内。在一个实施方式中，当将引导RNA应用于Cpf1时，引导RNA可以是crRNA；而当将引导RNA应用于Cas、特别是Cas9时，引导RNA可处于双RNA的形式(包含crRNA和tracrRNA作为构成元件)，或者处于单链引导RNA(sgRNA)的形式(其中融合了crRNA和tracrRNA的主要部分)。sgRNA可包含：具有与靶DNA中的序列互补的序列的部分(称为间隔区、靶DNA识别序列、碱基配对区等)以及用于结合Cas(特别是Cas9蛋白)的发夹结构。更具体地，sgRNA可包含具有与靶DNA中的序列的全部或部分互补的序列的部分、用于结合Cas(特别是Cas9蛋白)的发夹结构和终止子序列(terminator sequence)。上述结构可以是在5’至3’方向上依次存在的结构。然而，该结构可以不限于此，只要引导RNA包含crRNA的主要部分或与靶DNA的全部或部分互补的部分，处于任何结构形式的引导RNA均可用于本发明。

引导RNA(具体为crRNA或sgRNA)可包含其全部或部分与靶DNA序列互补的序列；crRNA或sgRNA的上游部分、具体为sgRNA或crRNA的5’末端的至少一个额外的核苷酸。该额外的核苷酸可以是鸟嘌呤(G)，但该核苷酸不限于此。

另外，引导RNA可包含支架序列(scaffold sequence)，所述支架序列有助于RNA引导的核酸酶的附着。

如本文所使用的，术语“靶核苷酸序列或靶序列”是指RNA引导的核酸酶预期靶向的核苷酸序列，在本发明中，其还包括待由本发明的引导RNA-靶核苷酸序列对文库分析方法进行分析的靶序列。在本发明中，引导RNA和靶序列在各寡核苷酸和载体(它们分别构成寡核苷酸文库和载体文库)中以配对形式存在。因此，存在于一个寡核苷酸或载体中的引导RNA与其靶序列相对应。

在本发明中，中靶活性(或中靶效应)/脱靶活性(或脱靶效应)和靶核苷酸序列应被理解为完全不同的含义。

术语“中靶活性”是指就与引导RNA的序列的全部或部分完全互补的序列而言，RNA引导的核酸酶切割该序列并进一步在切割区域上产生插入缺失的活性。

术语“脱靶活性”是指就与引导RNA的序列的全部或部分并非完全互补、而是部分序列存在错配的序列而言，RNA引导的核酸酶切割该序列并进一步在切割区域上产生插入缺失的活性。也就是说，术语“中靶活性”和“脱靶活性”涉及由如下方面所决定的概念：由RNA引导的核酸酶切割的序列是否与引导RNA序列的全部或部分完全互补。

同时，如本文所使用的术语“靶序列”是指待分析是否对其表现出经由以配对形式存在的引导RNA而产生的RNA引导的核酸酶的活性的序列。也就是说，可在设计或制备构成本发明的寡核苷酸文库的各寡核苷酸的过程中，由操作者来决定靶序列；并且，就配对引导RNA和设计靶序列而言，操作者可在设计步骤中根据实施方式的目的来选择从其中预期中靶活性的序列和从其中预期脱靶活性的序列。靶序列可包含原型间隔区邻近基序(PAM)序列(RNA引导的核酸酶识别该序列)，但不限于此。

本领域技术人员可在评估RNA引导的核酸酶的活性的目的下自由地进行寡核苷酸的设计。例如，就特定引导RNA序列而言，配对可由具有中靶活性的序列组成；并且，就该引导RNA序列而言，配对还可由具有脱靶活性的序列组成。例如，设计成与引导RNA序列(具体为crRNA序列)完全互补的序列，或者设计成部分互补的序列以使得部分核苷酸错配。

另外，本领域技术人员可使寡核苷酸包含额外构成元件，以进行本发明的引导RNA-靶序列对文库的分析。例如，寡核苷酸可进一步包含选自于由正向重复序列、多聚T序列、条形码序列、恒定区序列、启动子序列和支架序列所组成的组中的至少一种，但是所述构成元件不限于此。

如上所述，寡核苷酸可以是由100个至200个核苷酸的序列所组成的寡核苷酸，但所述寡核苷酸不限于此，并可由本领域技术人员根据待使用的RNA引导的核酸酶的种类、分析目的等进行适当调整。

同时，可将寡核苷酸设计为在5’至3’方向包含靶序列和编码引导RNA的序列；相反，可将其设计为在5’至3’方向包含引导RNA序列和靶序列。

例如，寡核苷酸可包含靶序列和编码引导RNA的序列(具体为靶序列、条形码序列和编码引导RNA的序列)，并且可按照以下顺序进行构建，但该顺序并不特别地限制于此。

寡核苷酸可在5’至3’方向包含编码引导RNA的序列、条形码序列和靶序列；具体地，在5’至3’方向包含编码引导RNA的序列、条形码序列、PAM序列和靶序列；在5’至3’方向包含编码引导RNA的序列、条形码序列、靶序列和PAM序列；在5’至3’方向包含编码引导RNA的序列、多聚T序列、条形码序列、PAM序列和靶序列；以及在5’至3’方向包含编码引导RNA的序列、多聚T序列、条形码序列、靶序列和PAM序列。

更具体地，寡核苷酸可包含：正向重复序列、编码引导RNA的序列、条形码序列、PAM序列和靶序列；正向重复序列、编码引导RNA的序列、条形码序列、靶序列和PAM序列；正向重复序列、编码引导RNA的序列、条形码序列、PAM序列、靶序列和恒定序列(constantsequence)；正向重复序列、编码引导RNA的序列、条形码序列、靶序列、PAM序列和恒定序列，但所述序列并不特别地限制于此。

另外，寡核苷酸可进一步包含支架序列，该支架序列与编码引导RNA的序列相邻并有助于RNA引导的核酸酶的结合。

例如，寡核苷酸可包含支架序列、编码引导RNA的序列、条形码序列、PAM序列和靶序列，但构成元件并不特别地限制于此。

另外，寡核苷酸可在5’末端区域包含用于表达的启动子序列。在本发明的一个实施方式中，使用U6启动子。

寡核苷酸可在5’至3’方向包含靶序列、条形码序列和编码引导RNA的序列；具体地，可包含靶序列、PAM序列、条形码序列和编码引导RNA的序列；可包含PAM序列、靶序列、条形码序列和编码引导RNA的序列；可包含靶序列、PAM序列、条形码序列、多聚T序列和编码引导RNA的序列；可包含PAM序列、靶序列、条形码序列、多聚T序列和编码引导RNA的序列；更具体地，可包含靶序列、PAM序列、条形码序列、编码引导RNA的序列和正向重复序列；可包含PAM序列、靶序列、条形码序列、编码引导RNA的序列和正向重复序列；可包含靶序列、PAM序列、条形码序列、多聚T序列、编码引导RNA的序列和正向重复序列；可包含PAM序列、靶序列、条形码序列、多聚T序列、编码引导RNA的序列和正向重复序列；可包含恒定序列、靶序列、PAM序列、条形码序列、多聚T序列、编码引导RNA的序列和正向重复序列；可包含恒定序列、PAM序列、靶序列、条形码序列、多聚T序列、编码引导RNA的序列和正向重复序列，但构成元件并不特别地限制于此。

例如，寡核苷酸可包含靶序列、PAM序列、条形码序列、编码引导RNA的序列和支架序列，但构成元件并不特别地限制于此。另外，寡核苷酸可以在5’末端区域包含用于表达的启动子序列。

另外，如上所述，除了上述构成元件之外，寡核苷酸还可在5’末端和3’末端包含用于PCR扩增的引物附着序列，但构成元件并不特别地限制于此。

靶序列的长度可为10bp-100bp，具体为20bp-50bp，更具体为23bp-34bp，但是该长度并不特别地限制于此。

另外，编码引导RNA的序列的长度可为10bp-100bp，具体为15bp-50bp，更具体为20bp-30bp，但是该长度并不特别地限制于此。

另外，条形码序列是指用于识别各寡核苷酸的核苷酸序列。在本发明中，条形码序列可以不包含两个以上的重复核苷酸(即AA、TT、CC和GG)，但只要将其设计为识别各寡核苷酸，对条形码序列没有特别的限制。在多个寡核苷酸中，可对条形码序列进行设计，以使得至少两个核苷酸是不同的，从而区分各寡核苷酸。条形码序列的长度可为5bp-50bp，但该长度并不特别地限制于此。

在本发明的一个具体实施方式中，就氨基酸球菌属来源的Cpf1(AsCpf1)和毛螺菌科来源的Cpf1(LbCpf1)而言，通过改变引导RNA和/或靶序列，分别从8,327个物种和3,634个物种合成了配对寡核苷酸，从而制备了包含总共11,961个物种的引导RNA-靶序列对寡核苷酸的寡核苷酸文库。构成寡核苷酸文库的各寡核苷酸的总长度为122bp-130bp核苷酸，并且包含相互不同的编码引导RNA的序列和靶核苷酸序列对，具体构成示于图1中。

另外，在本发明的另一个实施方式中，就酿脓链球菌来源的Cas9(SpCas9)而言，合成了89,592种寡核苷酸，从而制备了包含引导RNA-靶序列对的寡核苷酸的寡核苷酸文库。寡核苷酸的总长度为120个核苷酸，并且包含编码引导RNA的序列(引导序列)和靶序列(图35)。

接下来，可使用寡核苷酸文库制备载体文库(例如病毒载体)。

本发明的用于使用引导RNA-靶序列对来评估RNA引导的核酸酶的活性的方法的一个优点在于使用病毒将所述引导RNA-靶序列对导入细胞中。由于对应于靶序列的引导RNA是以配对的形式导入细胞中，因此可使由于寡核苷酸文库、载体文库和细胞文库中拷贝数的偏差而可能发生的影响最小化，并且所述引导RNA可通过病毒整合到基因组DNA中，与瞬时表达的分析方法不同，可根据时间来进行中靶活性和脱靶活性的分析；此外，可使表观遗传因子引起的影响相对最小化。当载体是病毒时，将病毒文库导入细胞中，可由此产生并获得病毒，并可使用该病毒感染细胞。本领域技术人员可使用本领域已知的方法适当地进行该过程。

在本发明中，载体可包含寡核苷酸，其中各寡核苷酸包含编码引导RNA的核苷酸序列和靶核苷酸序列。载体可以是病毒载体或质粒载体，病毒载体可具体为慢病毒载体、逆转录病毒载体等，但所述载体不限于此，本领域技术人员可自由使用能够实现本发明目的的任何已知的载体。

载体是指可将寡核苷酸递送至细胞的媒介，例如基因构建体。具体地，当载体存在于个体受试者的细胞中时，所述载体可包含插入物，即其中必需控制元件可操作地与之连接、以使寡核苷酸能够得以表达的插入物。

可使用标准重组DNA技术制备和纯化载体。只要载体可在靶细胞(例如真核细胞、原核细胞等)中发挥作用，载体种类可以没有特别限制。载体可包含启动子、起始密码子和终止密码子。另外，载体可适当地包含编码信号肽的DNA、和/或增强子序列、和/或基因的5’和3’位点中的非翻译区、和/或选择标记区、和/或可复制单元等。

在本发明的一个具体实施方式中，通过将寡核苷酸文库的各寡核苷酸克隆到慢病毒载体中来制备慢病毒载体文库(图4和图36)，该慢病毒载体文库在细胞中表达，从而获得病毒。

下一步是通过将载体导入靶细胞中来制备细胞文库。具体地，可通过本领域已知的各种方法来实现将载体递送至细胞的方法以用于文库制备。这些方法可包括例如磷酸钙-DNA共沉淀法、DEAE-葡聚糖介导的转染法、聚凝胺介导的转染法、电穿孔、显微注射、脂质体融合法、和原生质体融合法等，这些方法在本领域中是已知的。另外，当使用病毒载体时，可使用具有感染力的病毒颗粒作为手段来递送目标物(即，载体)。另外，载体可通过基因枪(gene bombardment)等导入细胞中。

导入的载体可作为载体本身存在于细胞中或可整合到染色体中，但载体状态并不特别地限制于此。

本发明中制备的细胞文库是指其中导入了含有引导RNA-靶序列的寡核苷酸的细胞群。特别地，各细胞可以是其中导入了载体的细胞，具体地，导入载体以使得病毒的种类和/或数量不同。然而，本发明的分析方法使用细胞文库全体来进行，并且以配对的形式导入编码引导RNA的核苷酸序列和靶序列，因此该方法不受细胞感染效率、寡核苷酸拷贝数偏差等的显著影响(图6至图12)，可依赖于各配对来进行解释。

可进一步导入RNA引导的核酸酶，以对构建的细胞文库诱导插入缺失。

核酸酶可根据引导RNA-靶序列对的种类和/或数量而不同地表现其活性程度。RNA引导的核酸酶可通过质粒载体或病毒载体递送至细胞，并且可作为RNA引导的核酸酶蛋白本身递送至细胞，但只要RNA引导的核酸酶可在细胞中表现出其活性，导入方法不受特别的限制。在一个实施方式中，RNA引导的核酸酶能够以与蛋白转导结构域连接的形式(例如Cas蛋白、Cpf1蛋白等)进行递送，但所述形式不限于此。作为蛋白转导结构域，可使用本领域已知的各种类型，并且可如上所述使用聚精氨酸或HIV来源的TAT蛋白，但并不特别地限制于此。

另外，本领域技术人员可根据载体的种类和/或靶细胞的种类适当地选择可将载体导入其中的细胞的种类，所述细胞的种类例如为：细菌细胞(如大肠杆菌(E.coli)、链霉菌(Streptomyces)、鼠伤寒沙门氏菌(Salmonella typhimurium)等)；酵母细胞；真菌细胞(如巴斯德毕赤酵母(Pichia pastoris)等)；昆虫细胞(如果蝇(Drosophila)、草地贪夜蛾(Spodoptera frugiperda(Sf9))等)；动物细胞(如中国仓鼠卵巢细胞(CHO)、SP2/0(小鼠骨髓瘤)、人类淋巴母细胞、COS、NSO(小鼠骨髓瘤)、293T、bow黑素瘤细胞、HT-1080、幼仓鼠肾细胞(BHK)、人胚肾细胞(HEK)、PERC.6(人视网膜细胞)等)；或植物细胞。

在细胞文库中，核酸酶的活性可通过导入的引导RNA-靶序列对寡核苷酸和RNA引导的核酸酶而显现。也就是说，就导入的靶序列而言，可能发生由RNA引导的核酸酶进行的DNA切割，并相应地可能产生插入缺失。如本文所使用的，术语“插入缺失”总体地指这样的修饰：其中，在DNA的核苷酸序列中插入或删除部分核苷酸。插入缺失可以是当RNA引导的核酸酶如上所述切割双链DNA时，在通过同源重组或非同源末端连接(NHEJ)的机制进行修复的过程中导入靶序列的插入缺失。

另外，本发明的方法可包括从其中表现出导入的RNA引导的核酸酶的活性的细胞中获得DNA序列。可使用本领域已知的各种DNA分离方法进行DNA的获得。

由于预期构成细胞文库的各细胞在导入的靶序列中都经历插入缺失的发生，因此可通过对靶序列的核苷酸进行序列分析(例如深度测序或RNA-seq)来获得相关数据。

由于本发明使用引导RNA-靶序列对文库的分析方法在体内进行，因此与其它体外分析方法相比，可获得没有人为结果的可靠的分析结果。

相应地，步骤(b)是从通过序列分析所获得的数据中获得各引导RNA-靶序列对的插入缺失频率的步骤。

如上所述，各插入缺失能够以依赖于各引导RNA-靶序列对的方式发生；相应地，可通过引导RNA-靶序列对将插入缺失频率评估为RNA引导的核酸酶的活性程度。

可通过向构成寡核苷酸文库的各寡核苷酸插入特定序列(其能够区分寡核苷酸)来区分各配对，因此能够在数据分析步骤中通过基于区分序列将数据进行分类来进行分析。在本发明的一个实施方式中，将各寡核苷酸制备为包含条形码序列，所述条形码序列不包含任何重复的两个以上核苷酸(即AA、CC、TT和GG)，而包含至少两个相互不同的核苷酸。

本发明的配对文库通过与体内作用于内源基因的RNA引导的核酸酶的活性具有高度相关性，提供了一种具有改善的准确性和可预测性的用于评估RNA引导的核酸酶的活性的方法。

在本发明的一个具体实施方式中，确认了通过文库测量的可编程核酸酶的活性与实际上体内作用于内源基因的可编程核酸酶的活性高度相关。

另外，本发明的配对文库的一个优点在于该文库能够以高准确性评估RNA引导的核酸酶的活性。

具体地，在本发明的一个具体实施方式中，通过将人CD15基因和人MED1基因的引导RNA的活性排名(activity ranking)与先前公开的引导RNA的活性排名(NatBiotechnol，2014，32:1262-1267；Nat Biotechnol，2016，34:184-191)进行比较来评估配对文库的准确性。其结果是，人CD15基因和人MED1基因的引导RNA均显示出高Spearman相关系数，因此确认这些引导RNA与已知引导RNA的活性排名具有高度相关性(图37)。

另外，对使用本发明的配对文库获得的引导RNA的活性程度与通过直接分析细胞中的靶序列获得的引导RNA的活性程度之间的相关性进行了检查，结果确认了它们表现出高Spearman相关系数，因此，确认了本发明的使用引导RNA-靶序列对文库来评估RNA引导的核酸酶的活性的方法具有高准确性(图38)。

本发明中分析的RNA引导的核酸酶的特征可包括例如：

(i)RNA引导的核酸酶的PAM序列；

(ii)RNA引导的核酸酶的中靶活性；或

(iii)RNA引导的核酸酶的脱靶活性。

待分析的RNA引导的核酸酶的特征可根据寡核苷酸的设计而变化，这最终表现为由通过细胞文库的深度测序获得的插入缺失频率解释的结果。

在一个实施方式中，在待确认RNA引导的核酸酶的PAM序列的情况下，在寡核苷酸的设计过程中，可将这些寡核苷酸设计为具有各种核苷酸序列和/或潜在PAM序列，其中靶序列5’末端处的PAM序列的核苷酸数是不同的。相应地，可通过根据PAM序列对插入缺失频率进行分析，来确认相应的RNA引导的核酸酶的PAM序列。

在本发明的一个具体实施方式中，使用引导RNA-靶序列对文库对来源于氨基酸球菌属和毛螺菌科的Cpf1(分别为AsCpf1和LbCpf1)的PAM序列进行分析；结果是，与先前关于TTTN的已知内容相反，确认了TTTV和额外的CTTA是AsCpf1和LbCpf1的真实PAM序列(图13至图19)。

在本发明的另一个实施方式中，可通过设计各种引导RNA和与其对应的靶序列、或通过改变应用RNA引导的核酸酶的条件来进行用于分析中靶活性的特征的分析。根据以上内容，可在引导RNA的设计期间获得能够使靶效应最大化的信息。

在本发明的一个具体实施方式中，通过改变RNA引导的核酸酶的种类、通过分析具有高活性的引导RNA的位置特征、或通过分析靶序列的GC含量来分析中靶活性的特征(图20至图22)；在本发明的另一个具体实施方式中，通过改变慢病毒的递送时间来分析中靶活性(图23和图24)。

在本发明的另一个实施方式中，为了分析脱靶活性，可对寡核苷酸进行设计，以使得在引导RNA序列和靶序列之间的部分序列中存在错配，特别地，可通过具体地区分靶序列的位置来进行设计。通过以上内容，可根据靶序列的位置来确认核苷酸错配的影响，这使得可在引导RNA的设计期间获得能够使脱靶活性最小化的信息。

在本发明的一个具体实施方式中，对寡核苷酸进行设计，以使得引导RNA中存在核苷酸错配(根据靶序列的位置来对应)，从而对靶序列各位置处的核苷酸错配和脱靶效应之间的关系进行分析(图25至图33)。

RNA引导的核酸酶的特征是提供一个用于使用本发明的引导RNA-靶序列对文库来评估RNA引导的核酸酶的活性的示例性实施方式，不应将本发明的范围解释为受上述示例性实施方式限制。本发明核心技术的特征在于使用包含引导RNA-靶序列对的细胞文库以高通量方式体内评估RNA引导的核酸酶的活性；为此目的，可根据本领域技术人员的意图和目的、RNA引导的核酸酶的种类等充分扩展基础寡核苷酸的设计方法及其结果的解释。

本发明的另一方面提供了一种包含至少两种细胞的细胞文库，其中，各细胞包含寡核苷酸，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列。

本发明的又一方面提供了一种包含分离的寡核苷酸的载体，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列；以及提供了一种载体文库。

本发明的又一方面提供了一种分离的寡核苷酸，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列；以及提供了一种寡核苷酸文库。

所述细胞文库、载体、载体文库、寡核苷酸和寡核苷酸文库与上述相同。

本发明的又一方面提供了一种用于构建寡核苷酸文库的方法，所述方法包括：(a)设定待由RNA引导的核酸酶靶向的靶核苷酸序列；(b)设计编码引导RNA的核苷酸序列，所述编码引导RNA的核苷酸序列与所设定的靶核苷酸序列的互补链形成碱基对；(c)设计寡核苷酸，所述寡核苷酸包含所述靶核苷酸序列和靶向所述靶核苷酸序列的引导RNA；以及(d)重复步骤(a)至步骤(c)至少一次，具体地重复两次。

用于构建寡核苷酸文库而设计寡核苷酸的过程与上述相同。

该过程可以是如下过程：其中，在确定靶序列后设计针对靶序列的引导RNA序列；或者就一个引导RNA序列而言设计包含PAM序列的靶序列。也就是说，在本发明中能够对中靶活性和脱靶活性两者进行分析，引导RNA序列的全部或部分可与靶序列完全互补，或者可与靶序列以其中部分序列错配的状态互补。其设计过程可以是针对一个引导RNA设计若干靶序列的过程，该靶序列在核苷酸序列中在序列长度和/或核苷酸序列方面具有差别；该过程可以是针对一个靶序列设计若干引导RNA的过程，该引导RNA在核苷酸序列中在序列长度和/或核苷酸序列方面具有差别；并且该过程可以是以组合方式实现上述两种过程的过程。

步骤(c)或步骤(d)可包括合成额外设计的寡核苷酸的步骤。

本发明的另一方面提供了一种分离的引导RNA，所述引导RNA包含能够与靶核苷酸序列的互补链形成碱基对的序列，所述靶核苷酸序列与原型间隔区邻近基序(PAM)序列、即TTTV或CTTA相邻。

本发明的又一方面提供了一种用于基因组编辑的组合物，所述组合物包含：分离的引导RNA或编码所述分离的引导RNA的核酸。

所述分离的引导RNA可以是如下分离的引导RNA：其中组合使用的RNA引导的核酸酶是Cpf1蛋白。

本发明的又一方面提供了一种用于在哺乳动物细胞中进行基因组编辑的系统，所述系统包含：分离的引导RNA或编码所述分离的引导RNA的核酸；以及Cpf1蛋白或编码所述Cpf1蛋白的核酸。

本发明的又一方面提供了一种用于在哺乳动物细胞中利用Cpf1进行基因组编辑的方法，所述方法包括：将引导RNA或编码所述引导RNA的核酸；以及Cpf1蛋白或编码所述Cpf1蛋白的核酸依次或同时导入分离的哺乳动物细胞中。

如上所述，本发明确认了，与Cpf1蛋白的PAM序列是TTTN的先前观念相反，该PAM序列是TTTV或CTTA；因此，基于本发明进行的确认，具有TTTV或CTTA作为PAM序列的引导RNA可有效用于基因组编辑。

实施例

在下文中，将参考以下实施例对本发明进行更详细的描述。然而，这些实施例仅用于说明目的，本发明的范围不限于这些实施例。

实施例1：用于评估Cpf1活性的配对文库的制备及其评估方法

实施例1-1：寡核苷酸的设计

为了构建用于以高通量方式评估就各种引导RNA而言的Cpf1活性的质粒文库，通过CustomArray(Bothell，WA)合成来源于氨基酸球菌属的Cpf1(AsCpf1)的8,327个寡核苷酸和来源于毛螺菌科的Cpf1(LbCpf1)的3,634个寡核苷酸。对寡核苷酸进行设计，以使其包含编码引导RNA的序列(引导序列)和靶序列，总长度为122至130个核苷酸(图1)。

为了比较内源位置和导入位置处的插入缺失频率，通过Cellemics,Inc.(首尔，韩国)合成包含RNA编码序列和靶序列的82个无错寡核苷酸。

另外，上述寡核苷酸的两端分别包含27个核苷酸的序列(SEQ ID NO：1)和22个核苷酸的序列(SEQ ID NO：2)，从而在PCR扩增过程中能够将所述序列用作正向引物和反向引物的结合位点。另外，将具有15个核苷酸的独特条形码序列插入各寡核苷酸中央，从而能够识别各寡核苷酸。对条形码序列进行设计，以使其不包含重复的两个以上的核苷酸(即AA、CC、TT和GG)；并且，对所有条形码序列进行设计，以使得在条形码序列之间存在至少两个核苷酸的差别。在各寡核苷酸中，引导RNA序列和靶序列分别位于条形码序列的上游和下游。

实施例1-2：载体克隆

为了制备表达Cpf1的慢病毒载体，将来源于质粒(Addgene；#69982、#69988)的编码AsCpf1和LbCpf1的序列复制到lentiCas9-Blast质粒(Addgene；#52962)中，并将它们分别命名为Lenti_AsCpf1-Blast(SEQ ID NO：3)和Lenti_LbCpf1-Blast(SEQ ID NO：4)(图2和图3)。

另外，为了获得用于制备质粒文库的骨架载体，从lentiGuide-Puro载体(Addgene；#52963)中去除SpCas9支架区域，并将该载体命名为Lenti-gRNA-Puro载体(SEQID NO：5)(图4)。

实施例1-3：质粒文库的制备

为了制备质粒文库，使用Phusion聚合酶(NEB)通过PCR对实施例1-1中合成的寡核苷酸(分别为122至130个核苷酸)进行扩增，并使用MEGAquick-spin^TM总片段DNA纯化试剂盒(Intron)进行凝胶纯化过程。然后，使用NEBuidler HiFi DNA组装试剂盒(NEB)对Lenti-gRNA-Puro载体和纯化的PCR产物进行组装。组装后，利用MicroPulser(BioRad)使用上述反应物(2μL)通过电穿孔对电感受态细胞(electrocompetent cell)(25μL，Lucigen)进行转化。然后，将转化细胞接种到含有氨苄青霉素(100μg/mL)的LB琼脂培养基中。最后，获得相当于文库数量的30倍数量的菌落。收集菌落，并使用Plasmid Maxiprep试剂盒(Qiagen)从中提取质粒DNA。

实施例1-4：慢病毒的生产

在涂覆有0.01％聚L-赖氨酸(Sigma)的100mm培养皿中将HEK293T细胞(ATCC)培养至80％至90％的汇合度水平。以4:3:1的重量比将实施例1-3中制备的转移质粒与psPAX2和pMD2.G混合。然后，根据制造商的说明，使用iN-fect感染试剂(Intron Biotechnology)将质粒混合物(18μg)导入100mm培养皿中的细胞中。转染后15小时，将培养基用生长培养基(12mL)替换。在转染39(＝15+24)小时和63(＝15+48)小时后收集含有病毒的上清液。将第一批和第二批含有病毒的培养基混合，并在4℃下以3,000rpm离心5分钟。然后，使用Millex-HV 0.45μm低蛋白结合膜(Millipore)过滤上清液，并储存在-80℃下直至使用。

实施例1-5：细胞文库的制备

为了制备细胞文库，将慢病毒载体转染至附着于100mm培养皿的HEK293T细胞(1.5×10⁶个至2.0×10⁶个)。转导后3天，用嘌呤霉素(2μg/mL)处理细胞3天至5天。为了在研究过程中保存文库，将含有文库的细胞维持在每100mm培养皿3×10⁶个细胞的最小密度下。将慢病毒载体调控元件(WPRE)的拷贝数与内源人基因ALB的拷贝数进行比较，确认感染复数(MOI)。为了测量基因组DNA样品中ALB和原病毒(provirus)的拷贝数，使用SYBR AdvantageqPCR Premix(Clontech)和WPRE或ALB特异性引物进行实时qPCR。结果对lentiGuide-Puro(Addgene；#52963)和pAlbumin以标准曲线显示。为了防止由质粒DNA形成带来的定量偏差，在进行PCR之前用AhdI消化所有模板。由于qPCR分析中使用了标准质粒DNA，因此使鲑鱼精DNA作为背景包括在内，以弥补基因组DNA和质粒DNA定量中的效率偏差。尽管HEK293细胞差不多都含有3倍体染色体，但ALB基因所在的4号染色体具有两对，因此通过WPRE的拷贝数/ALB的拷贝数×0.5，来计算原病毒与细胞DNA的比率(MOI)。

实施例1-6：将Cpf1转导至细胞文库

对于转导表达AsCpf1或LbCpf1的慢病毒载体，首先，在转导前24小时将细胞文库(2×10⁶个至3×10⁶个细胞)接种到100mm培养皿中。然后，将表达AsCpf1的病毒载体转导到含有10％胎牛血清(FBS，Gibco)的DMEM中的细胞中，并保持在含有10％FBS和杀稻瘟菌素S(10μg/mL，InvivoGen)的DMEM中。

在转导编码AsCpf1或LbCpf1的质粒的情况下，首先，在转导前6小时将细胞文库(3×10⁶个细胞)接种到三个60mm培养皿中。然后，用Lenti_AsCpf1-Blast或Lenti_LbCpf1-Blast质粒(4μg)和2000(Invitrogen)(8μL)转导细胞。将细胞孵育过夜，并将培养基用含有10％FBS的DMEM替换。然后，从转导的第一天起，将转导的细胞在含有杀稻瘟菌素(10μg/mL)的培养基中培养4天。

实施例1-7：深度测序

使用Wizard基因组DNA纯化试剂盒(Promega)从细胞文库分离基因组DNA。然后，为了分析插入缺失频率，首先使用Phusion聚合酶(NEB)通过PCR扩增插入的靶序列。为了达到细胞文库100倍以上的覆盖率，在初级PCR中以13μg/样品的量将基因组DNA用作模板(假设1×10⁶个293T细胞的基因组DNA为10μg)。对于各样品，各反应使用基因组DNA(1μg)进行13次独立反应(50μL)，合并反应产物。

为了比较内源位点和导入位点处的插入缺失频率，将100ng DNA(每样品)用作导入的靶序列和内源靶序列的DNA以用于PCR扩增。

然后，使用MEGAquick-spin^TM总片段DNA纯化试剂盒(Intron)纯化PCR产物。在二级PCR中，将初级PCR的纯化产物(20ng)与Illumina衔接子和条形码序列连接到一起。PCR反应中使用的引物如下表1所示。分离、纯化并混合终产物，并使用MiSeq或HiSeq(Illumina)进行分析。

表1

FP：正向引物，RP：反向引物。

实施例1-8：配对拷贝数的分析

为了评估文库中各配对的拷贝数，使用以下等式对读数进行标准化。各配对的标准化的读数＝(各配对的读数/样本中所有配对的总读数)×10⁶+1

实施例1-9：插入缺失频率的分析

使用定制Python脚本对深度测序数据进行分类和分析。基于15bp条形码序列和其下游的4bp恒定序列(即，总共19bp序列)进行各引导RNA-靶标对的数据分类。将位于预期切割位点(即切割位点中间的8bp区域)外围的插入或缺失认为是由Cpf1诱导的突变。从分析中去除单核苷酸替换。通过在观察到的插入缺失频率中扣除其中没有递送Cpf1的细胞文库的背景插入缺失频率，来计算来源于引导RNA和Cpf1的活性的实际插入缺失频率。背景插入缺失频率主要发生在寡核苷酸的合成过程中。为了提高分析的准确性，将深度测序数据根据各配对的背景插入缺失频率和读数进行分类(表2)。

表2

实施例1-10：插入缺失频率的比较

将HEK293T细胞接种到48孔培养皿中，并用含有编码引导RNA的序列和靶序列的独立的慢病毒载体进行转导。转导3天后，用嘌呤霉素(2μg/mL)处理细胞以去除未转导的细胞。使用如上所述的表达AsCpf1的慢病毒载体将Cpf1递送至转导的细胞。在Cpf1导入后5天，从细胞中分离DNA并对其进行深度测序。

实施例1-11：染色质可及性(chromatin accessibility)的计算

除了第17号和第22号染色体(其中各细胞存在4个拷贝)之外，随机选择4个基因组区域。总共设计82个引导RNA，使其靶向四个区域内的随机基因座。使用从DNA元件百科全书(Encyclopedia of DNA element，ENCODE)获取的DNase-seq(ENCFF000SPE)数据对DNase I敏感性得分进行计算。通过首先对相应位置处的DNase-seq测序读取片段的数量重叠进行计数，来计算靶区域的各位置处的DNase I敏感性得分。

例如，当靶区域的位置5处存在两个测序读取重叠时，将上述位置处的得分假定为2。包含PAM和靶序列的各区域的长度为27bp。因此，通过将各位置处的27个得分进行平均来获得靶区域处的DNase I敏感性得分。

当在人基因组(来自UCSC基因组浏览器的hg19/GRCh37)的32亿个位置中的82个靶区域处进行DNase I评分时，显示出该得分广泛分布(0％至99.99％)。

实施例2：用于评估Cas9活性的配对文库的制备及其评估方法

本发明人已经使用SpCas9确认了本发明的评估RNA引导的核酸酶的活性的方法，SpCas9是一种不同种类的RNA引导的核酸酶。

实施例2-1：寡核苷酸的设计

为了构建用于以高通量方式评估就各种引导RNA而言的SpCas9活性的质粒文库，本发明人通过与上述实施例类似的方法设计了引导RNA-靶序列寡核苷酸。

具体地，通过CustomArray(Bothell，WA)和Twist Bioscience(San Francisco，CA)合成来源于酿脓链球菌的Cas9(SpCas9)的89,592个寡核苷酸。寡核苷酸的总长度为120个核苷酸，并且它们被设计为包含编码引导RNA的序列(引导序列)和靶序列(图35)。另外，上述寡核苷酸的两端分别包含26个核苷酸的序列(TATCTTGTGGAAAGGACGAAACACCG，SEQ IDNO：23)和29个核苷酸的序列(GTTTTAGAGCTAGAAATAGCAAGTTAAAA，SEQ ID NO：24)，从而在PCR扩增过程中能够将所述序列用作正向引物和反向引物的结合位点。另外，将独特的15bp条形码序列插入各寡核苷酸中央，以用于识别各寡核苷酸。对条形码序列进行设计，以使其不包含重复的两个以上的核苷酸(即AA、CC、TT和GG)；并且，对所有条形码序列进行设计，以使得在条形码序列之间存在至少两个核苷酸的差别。在各寡核苷酸中，靶序列和引导RNA分别位于条形码序列的上游和下游。

实施例2-2：质粒文库的制备

为了制备包含上述实施例中制备的寡核苷酸的质粒文库，使用Phusion聚合酶(NEB)通过PCR对寡核苷酸(各为120个核苷酸)进行扩增，并使用MEGAquick-spin^TM总片段DNA纯化试剂盒(Intron)进行凝胶纯化过程。然后，使用NEBuidler HiFi DNA组装试剂盒(NEB)对LentiGuide_Puro(Addgene，#52963)载体和纯化的PCR产物进行组装。组装后，利用MicroPulser(BioRad)使用上述反应物(2μL)通过电穿孔对电感受态细胞(25μL，Lucigen)进行转化。然后，将转化细胞接种到含有氨苄青霉素(100μg/mL)的LB琼脂培养基中；最后，获得相当于文库数量的17至18倍数量的菌落。收集菌落，并使用Plasmid Maxiprep试剂盒(Qiagen)从中提取质粒DNA。

实施例2-3：慢病毒的生产

在涂覆有0.01％聚L-赖氨酸(Sigma)的100mm培养皿中将HEK293T细胞(ATCC)培养至80％至90％的汇合度水平。以4:3:1的重量比将实施例2-2中制备的转移质粒与psPAX2和pMD2.G混合。

然后，根据制造商的说明，使用iN-fect感染试剂(Intron Biotechnology)将质粒混合物(18μg)导入100mm培养皿中的细胞中。转染后15小时，将培养基用生长培养基(12mL)替换。在转染39(＝15+24)小时和63(＝15+48)小时后收集含有病毒的上清液。将第一批和第二批含有病毒的培养基混合，并在4℃下以3,000rpm离心5分钟。

然后，使用Millex-HV 0.45μm低蛋白结合膜(Millipore)过滤上清液，并储存在-80℃下直至使用。

实施例2-4：细胞文库的制备

为了制备包含寡核苷酸的细胞文库，将上述实施例中制备的慢病毒载体转染至附着于三个150mm培养皿的HEK293T细胞(7.0×10⁶个细胞/皿)。

转导后3天，用嘌呤霉素(2μg/mL)处理细胞3天至5天。为了在研究过程中保存文库，将含有文库的细胞在三个150mm培养皿中维持在7.0×10⁶个细胞/皿的细胞密度下。

实施例2-5：将Cas9转移至细胞文库

对于转导表达SpCas9的慢病毒载体，首先，在转导前24小时将上述实施例中制备的细胞文库(2.1×10⁷个细胞)接种到三个150mm培养皿中。

然后，将表达SpCas9的病毒载体转导到含有10％胎牛血清(FBS，Gibco)的DMEM中的细胞中，并保持在含有10％FBS和杀稻瘟菌素S(10μg/mL，InvivoGen)的DMEM中。

实施例2-6：深度测序

使用Wizard基因组DNA纯化试剂盒(Promega)从上述实施例中制备的细胞文库中分离基因组DNA。

然后，为了分析插入缺失频率，首先使用Phusion聚合酶(NEB)通过PCR扩增插入的靶序列。为了达到细胞文库100倍以上的覆盖率，在初级PCR中以180μg/样品的量将基因组DNA用作模板(假设1×10⁶个293T细胞的基因组DNA为10μg)。对于各样品，各反应使用基因组DNA(2μg)进行90次独立反应(50μL)，合并反应产物。然后，使用MEGAquick-spin^TM总片段DNA纯化试剂盒(Intron)纯化PCR产物。

在二级PCR中，将初级PCR的纯化产物(20ng)与Illumina衔接子和条形码序列连接到一起。PCR反应中使用的引物如下表3所示。分离、纯化并混合终产物，并使用MiSeq或HiSeq(Illumina)进行分析。

表3

本发明人以类似于上述实施例中用于Cpf1活性评估的方式，使用上述实施例中制备的配对文库对Cas9活性进行了评估。

实验实施例1：使用配对文库对Cpf1活性的评估

实验实施例1-1：引导RNA-靶序列对文库的开发

为了以高通量方式与各种引导RNA一起评估Cpf1的活性，本发明人制备了引导RNA-靶序列对文库。通过PCR对11,961个阵列合成的寡核苷酸(包含靶序列和与其对应的引导RNA序列)的池进行了扩增(图1)，并使用Gibson组装用慢病毒质粒进行了克隆(图4)。正向重复序列(SEQ ID NO：20)是正向引物结合的位置，引导序列是用于crRNA的序列。靶序列包含PAM序列，并且作为恒定区域载体退火位点的恒定序列(SEQ ID NO：21)是反向引物结合的位置。通过上述过程克隆的质粒的序列具有SEQ ID NO：3的核苷酸序列。

为了制备表达引导RNA并在基因组中包含该引导RNA的对应序列的细胞文库，用由质粒文库制备的慢病毒文库在HEK293T细胞上进行处理(图5)。然后，为了在插入基因组中的靶序列中诱导由引导RNA引起的切割以及插入缺失的形成，将编码Cpf1的质粒转导到细胞中或将表达Cpf1的慢病毒载体转导到细胞中，从而将Cpf1递送到细胞文库中。

然后，通过PCR扩增靶序列，并进行基于深度测序的分析以用于评估插入缺失频率。结果是，通过深度测序确认了各配对的相对拷贝数在寡核苷酸池中变化。也就是说，基于拷贝数，除去前0.5％的具有最高拷贝数的寡核苷酸和后0.5％的具有最低拷贝数的寡核苷酸，在99％的寡核苷酸中，拷贝数显示出上至最高130倍的偏差(图6)。与寡核苷酸池相比，质粒文库和细胞文库在拷贝数中显示出略高水平的偏差。照此，分别相对于寡核苷酸和质粒的配对拷贝数对质粒文库和细胞文库的配对拷贝数进行标准化。结果是，确认了与寡核苷酸池的拷贝数偏差相比，显示出低水平的偏差(图7)。显示出在形成质粒文库和细胞文库的过程中大多数拷贝数中额外出现的偏差分别处于寡核苷酸和质粒文库的配对拷贝数偏差的范围内(图8和图9)。寡核苷酸池、质粒文库和细胞库中各配对的拷贝数显示出非常高的相关性(图10至图12)。总之，这些偏差随着细胞文库制备过程的进行(即Gibson组装、转化、慢病毒载体的制备、转导等)而增加，并且细胞文库中各配对的拷贝数中的偏差主要是由寡核苷酸的拷贝数偏差引起的。同时，细胞文库中的MOI显示为约7.0。

下表4提供了用于分析目的的寡核苷酸的设计和筛选的条件的总结。

表4

下表5示出了对寡核苷酸池和细胞文库中配对的数量进行总结的表。

表5

实验实施例1-2：内源靶位置和导入位置处的插入缺失频率的比较

本发明人已经确认，位于通过相应的慢病毒导入的合成位点和内源基因组位点处的特定靶序列的插入缺失频率之间存在强相关性(图40)。与使用未形成配对的文库的情况相比，这种高度相关性显示出更高的水平。

尽管影响Cas9介导的插入缺失形成效率的染色质可及性取决于内源区域而变化，但慢病毒更多地整合在活性转录区域中，因此预期染色质可及性在导入区域中更高。为了减少由于内源区域中的染色质可及性的偏差而导致的插入缺失频率的变化，本发明人比较了内源区域的子集与具有相似染色质可及性的导入区域中的插入缺失频率之间的相关性。

为此目的，使用从获得自DNA元件百科全书(ENCODE)的DNase0seq值获得的DNaseI敏感性数据计算HEK293T细胞的染色质可及性。

结果是，确认了在具有类似染色质可及性得分的靶区域子集中的相关性更高；特别地，在具有更高染色质可及性的子集处的相关性甚至更高(图41和图42)。在大多数靶序列中，导入序列中的插入缺失频率高于内源靶区域处的插入缺失频率；特别地，在染色质可及性低的区域中更高。

另外，就各构成元件的拷贝数而言，细胞文库显示出与先前研究中使用的文库类似的波动性(volatility)(图6至图11)。

同时，细胞文库的平均MOI约为7.0，并且两个生物复制品之间存在强相关性。就两种不同的细胞文库而言，Cpf1的递送引起类似的插入缺失频率(图43)。

另外，本发明人已经确认，当通过两种不同方法(即，编码Cpf1的质粒的瞬时转染和编码Cpf1的慢病毒载体的转导)递送Cpf1时，在插入缺失频率中存在明显的相关性(图44)。

在大多数分析的靶序列中，确认了在转导编码Cpf1的慢病毒载体后，插入缺失频率变得更高(图44)。

相应地，本发明人排除了通过瞬时质粒转染进行的确定LbCpf1PAM的实验，通过借助慢病毒载体的Cpf1转导的方式进行了实验。

实验实施例1-3：哺乳动物细胞中PAM序列的确认

本发明人尝试通过本发明的体内系统确认来源于氨基酸球菌属(As)或毛螺菌科(Lb)的Cpf1所利用的原型间隔区邻近基序(PAM)序列。迄今为止，仅在体外条件或细菌系统中(而未在哺乳动物细胞中)确认了RNA可编程的核酸酶所使用的PAM序列。当在体外条件下分析来源于As和Lb的Cpf1时，考虑到TTTN是最常用的PAM序列而且AsCpf1的结构支持TTTN作为潜在PAM序列，就18个(As)或16个(Lb)引导序列而言，制备了70个(即4³(表示为ANNNA)+3(表示为ATTTB)+3(表示为BTTTA))相互不同的PAM序列(对于AsCpf1而言总共1,260(70×18)个靶序列；对于LbCpf1而言总共1,120(70×16)个靶序列，图13)。结果是，当在HEK293T细胞中将除了TTTT之外的TTTA、TTTC或TTTG用作PAM序列时，在AsCpf1(图14和图15)和LbCpf1(图16和图17)中均显示出最高的插入缺失频率。这些结果表明TTTV(而非TTTN)是哺乳动物细胞中上述两种酶最常用的PAM序列。另外，除了TTTV之外，对于来源于As和Lb的Cpf1而言，CTTA显示出最高的插入缺失频率，可被认为是第二PAM序列。在体外条件和哺乳动物细胞条件下使用的PAM序列中的偏差(图18)与两个系统之间的基因组编辑效率中的偏差一致，这表明为了建立用于编辑哺乳动物基因组的有效方法，在哺乳动物细胞中(而非体外)验证PAM序列是非常重要的。

AsCpf1、crRNA和靶DNA的共晶结构表示，PAM序列的前三个核苷酸(5’-TTT-3’)(不包含第四个核苷酸)与Cpf1蛋白相互作用，并支持“5’-TTTN-3’”作为PAM序列。本发明人的体内验证研究有助于理解在哺乳动物细胞中从TTTN到TTTV的PAM偏好性。

另外，就AsCpf1的插入缺失频率(而非LbCpf1的插入缺失频率)而言，确认了当将TTTA用作PAM序列时，具有处于低水平的高显著性。这表明与其它潜在PAM序列相比，TTTA具有作为AsCpf1的PAM序列的略高的偏好性。

然后，本发明人评估了TTTA PAM的5’末端附近的核苷酸修饰是否能够影响基因组编辑的效率。结果是，确认了aTTTA、tTTTA、cTTTA和gTTTA之间的插入缺失频率中没有变化(图19和图39a)；而当将cTTTA用作PAM序列时，与aTTTA或tTTTA相比，LbCpf1的插入缺失频率显示出处于低水平的高显著性(图39b)。

实验实施例1-4：中靶活性的高通量概况分析(profiling)

然后，本发明人尝试确认与引导RNA的效率相关的靶序列特征。考虑到在基因组编辑中筛选多个引导RNA是关键的出发点，靶序列特征的验证将能够促进基因组编辑技术的发展。

首先，本发明人评估了AsCpf1和酿脓链球菌来源的Cas9(SpCas9)是否对相同靶序列具有类似活性。考虑到Cpf1和Cas9PAM序列位置之间的差异，比较了靶向原始靶序列和反向靶序列的Cas9和Cpf1的活性排名(图20)。结果是，确认在所有情况下Cas9和Cpf1之间均没有相关性。

然后，就具有最高活性的20％的引导RNA而言，对各位置处AsCpf1靶序列的核苷酸偏好性进行了检查。在位置1处观察到最突出的差异，该位置1是紧邻PAM序列的核苷酸。在具有高活性的引导RNA中，胸腺嘧啶在位置1处显著减少(图21)。尽管在序列特异性特征中存在偏差，但紧邻PAM的位置在SpCas9中也非常重要。

本发明人已经确定在位置1处缺乏对胸腺嘧啶的偏好性是由于Cpf1蛋白和结合至靶核苷酸的位置1的crRNA核糖核苷酸之间的相互作用的不稳定性。基于结合DNA的AsCpf1(PDB 5B43)的结构，WED结构域内的Thr16的羟基侧链与鸟嘌呤碱基的N₂形成稳定的极性相互作用，并且与尿嘧啶和胸腺嘧啶的O₂也形成稳定的极性相互作用(图39)。

然而，在腺嘌呤中没有能够与Thr16的羟基侧链相互作用的相应部分，因此crRNA腺嘌呤核糖核苷酸的位置是不稳定的。因此，在靶DNA链的位置1处胸腺嘧啶是不优选的。

最后，本发明人确认了对于GC含量为40％至60％的靶序列而言，AsCpf1表现出最高的活性(图22)。该结果与先前关于SpCas9的结果类似。

插入缺失频率也受细胞中表达Cas9和引导RNA的时间长度的影响。先前的研究中报道了，当对细胞进行长期培养时，例如，在转导表达Cas9和引导RNA的慢病毒载体后培养6天至11天，插入缺失频率和敲除效率以时间依赖性的方式增加。然而，这些先前的研究仅针对少量引导RNA(1个、5个或6个)进行了相对较短时间(上至14天)的测试，因此，尚未明确证实长期培养是否能够产生充分的插入缺失频率来克服引导RNA效率中因序列产生的限制。这在基因组水平下的筛选研究中是非常重要的问题，在该筛选研究中，插入缺失频率显著影响筛选效率，主要核酸酶(即Cas9)和引导RNA被递送至慢病毒载体。因此，本发明人尝试通过分析表达了1个月(31天)的220个引导RNA的插入缺失频率来解释上述问题。当AsCpf1被递送至慢病毒载体时，通过将培养时间增加至5天，平均插入缺失频率和各插入缺失频率均显著增加(图23和图24)。该结果与先前关于SpCas9的结果类似。然而，转导后5天、10天和31天，插入缺失频率没有差异。这些结果表明，5天以上的培养不能使插入缺失频率增加到超过特定水平，该水平主要由靶序列和引导RNA序列决定。

实验实施例1-4：脱靶活性的高通量概况分析

然后，本发明人尝试评估了Cpf1的脱靶活性谱。作为第一步，尝试确认具有高靶切割效率的引导RNA序列的错配效应。在这方面，设计了针对AsCpf1的四个引导RNA和与其对应的四个靶序列；在转导后5天，它们的靶插入缺失频率分别显示为53％、34％、32％和15％。其中，选择具有最高靶切割效率的三个引导RNA用于脱靶效应概况分析，并分析了引导RNA的各位置处与靶序列的错配效应(图25)。结果是，确认位置1至位置6中的1bp错配显著降低了插入缺失频率(图26)。这些结果表明上述位置是种子区域。如上所述，经本发明的体内条件验证的针对AsCpf1的引导RNA的种子区域与传统的体外实验的结果(其中就新凶手弗朗西斯氏菌(Francisella novicida)来源的Cpf1(FnCpf1)而言，预测引导RNA的种子区域存在于前五个位置中)类似。同时，在位置19至位置23处存在一个核苷酸序列的错配的情况下，显示插入缺失频率略有降低(图26)。相应地，本发明人将这一区域命名为混杂区域。

此外，在位置7至位置18处存在一个核苷酸序列的错配的情况下，显示插入缺失频率适度地降低(图26)。相应地，本发明人将这一区域命名为主干区域。

根据以上结果，本发明人确认了在AsCpf1中，引导RNA种子区域和主干区域中的18个核苷酸(nt)内的核苷酸序列错配是不容许的，而混杂区域中的核苷酸序列错配是容许的。这些结果与先前研究的如下结果一致：在FnCpf1的体外DNA切割中，即使将引导RNA 3’末端处的6nt切割或保留18nt的引导序列，也是足够有效的。另外，甚至对于Cas9而言，先前也报道了远离PAM序列的引导RNA区域并不重要。

因此，本发明人随后使用切割的引导RNA分析了中靶效应和脱靶效应。结果是，确认了当将引导RNA 3’末端切去4nt的大小或将引导RNA的长度缩短至最小19nt时，中靶插入缺失频率得以保持，而脱靶插入缺失频率缓慢降低(图27)。这些结果表明，与在SpCas9中观察到的效应类似，使用切割的引导RNA可在不减少中靶效应的同时减少脱靶效应。

实验实施例1-5：与内源靶位置的插入缺失频率具有高度相关性的Cpf1活性的基于文库的评估

本发明人分析了核苷酸错配数和脱靶效应之间的相关性。结果是，确认了随着潜在脱靶位置处的核苷酸错配数增加，脱靶效应减少(图28)。

此外，本发明人评估了如下五个区域中的核苷酸错配数的影响：种子区域、种子与主干连接的区域、主干区域、主干与混杂区域连接的区域以及混杂区域。结果是，确认了随着核苷酸错配数增加，所有区域中的插入缺失频率都变低。然而，在即使存在4到5个错配时也显示出显著的插入缺失频率的混杂区域中，未明确地显示出这一趋势(图29和图30)。另外，在种子区域或者种子与主干连接的区域中，3个以上核苷酸的错配完全抑制了插入缺失形成。

然后，本发明人检查了错配的形式是否能够影响脱靶效应。在种子区域和主干区域中，确认了与非摆动转换(non-wobble transition)或颠换(transversion)错配相比，摆动转换(wobble transition)错配与高插入缺失频率具有相关性(图31至图33)。这些结果与关于SpCas9的脱靶效应的无偏分析(unbiased analysis)结果一致。然而，在所有类型的错配都仅略微降低了插入缺失频率的混杂区域中，没有观察到这种现象。

实验实施例2：使用配对文库对Cas9活性的评估

实验实施例2-1：用于评估Cas9活性的配对文库的制备

为了以高通量方式与各种引导RNA一起评估Cas9的活性，本发明人制备了引导RNA-靶序列对文库。通过PCR对89,592个阵列合成的寡核苷酸(包含靶序列和与其对应的引导RNA序列)的池进行了扩增(图35)，并使用Gibson组装用慢病毒质粒进行了克隆(图36)。

为了制备表达引导RNA并在基因组中包含该引导RNA的对应序列的细胞文库，用由质粒文库制备的慢病毒文库在HEK293T细胞上进行处理(图5)。

然后，为了在插入基因组中的靶序列中诱导由引导RNA引起的切割以及插入缺失的形成，将表达Cas9的慢病毒载体转导到细胞中，从而将Cas9递送到细胞文库中。然后，通过PCR扩增靶序列，并进行基于深度测序的分析以用于评估插入缺失频率。

实验实施例2-2：就人CD15基因和人MED1基因的引导RNA而言的Cas9活性的评估

使用上述实施例中制备的配对文库对就人CD15基因和人MED1基因的引导RNA而言的Cas9活性进行评估。

具体地，通过对使用配对文库的引导RNA的活性排名和文献中公开的引导RNA的活性排名(Nat Biotechnol，2014，32:1262-1267；NatBiotechnol，2016，34:184-191)进行比较来评估配对文库的准确性。

结果是，就人CD15基因而言的引导RNA显示出R＝0.634的Spearman相关系数，而就人MED1基因(设计在外显子全长的前80％内)而言的引导RNA显示出R＝0.582的Spearman相关系数，因此确认这两个配对文库与已知引导RNA的活性排名具有高度相关性(图37)。

实验实施例2-3：细胞内靶序列的引导RNA活性和配对文库的引导RNA活性的比较

本发明人尝试比较了使用配对文库方法获得的引导RNA的活性程度与通过直接分析存在于细胞中的靶序列获得的引导RNA的活性程度之间的相关性。

具体地，将HEK293T细胞接种到48孔培养皿中，并用包含引导RNA-靶序列对的慢病毒载体转导。转导后3天，用嘌呤霉素(2μg/mL)处理细胞，仅选择转导的细胞。

然后，将表达SpCas9的病毒载体转导到含有10％胎牛血清(FBS，Gibco)的DMEM中的细胞中，并保持在含有10％FBS和杀稻瘟菌素S(10μg/mL，InvivoGen)的DMEM中。转导表达SpCas9的病毒6天后，使用Wizard基因组DNA纯化试剂盒(Promega)从细胞文库中分离基因组DNA。然后，为了分析插入缺失频率，首先使用Phusion聚合酶(NEB)通过PCR对插入慢病毒中的靶序列和细胞中存在的靶序列进行扩增。对于各样品，各反应使用基因组DNA(100ng)进行反应(20μL)。然后，使用MEGAquick-spin^TM总片段DNA纯化试剂盒(Intron)纯化PCR产物。

在二级PCR中，将初级PCR的纯化产物(20ng)与Illumina衔接子和条形码序列连接到一起。PCR反应中使用的引物如上表3所示。分离、纯化并混合终产物，并使用MiSeq或HiSeq(Illumina)进行分析。

结果是，确认了细胞内靶序列的引导RNA活性和配对文库的引导RNA活性显示出具有高度相关性(R＝0.546)。

根据以上结果，确认了使用本发明的SpCas9引导RNA-靶序列对文库以高通量方式进行的评估具有高准确性(图38)。

实验实施例3：与评估靶序列中Cpf1活性的传统方法的比较

将本发明用于评估活性的高通量方法与现有个体评估方法进行了比较。

具体地，成本以美元计；劳动单位代表本领域技术人员1小时可达到的最大工作量。

如果间隔超过1小时(例如孵育时间)，不将其计作劳动。

结果如下表6所示。

表6

总结以上结果，本发明提供了一种用于在哺乳动物细胞中对就特定靶序列而言的引导RNA的活性进行高通量评估的方法。确认了对于在基因组特定区域上的基因组编辑或特定基因的敲除，可对引导RNA进行设计；特别地，可通过简单的递送方式(例如瞬时转染)确认插入缺失频率。然而，插入缺失频率不仅受引导RNA本身效率的影响，还受转染效率的影响。相应地，由于转染或递送效率的偏差，这种用于确定插入缺失频率的方法可能无法稳定地确认最佳引导RNA序列。在本发明中，归因于就细胞群而言进行的单个批次的转导和/或转染，使得10,000个以上引导RNA的效率通过一次试验得以确认，使得可能由不同批次之间的递送中的偏差引起的误差最小化。略低的转导或转染效率可能会降低所有测试引导RNA的效率，然而，引导RNA的活性排名和“相对”活性得以维持，因此可在测试引导RNA中选择具有最高活性的引导RNA。使可能由不同递送效率引起的误差最小化的方法之一是进行重复实验，但这需要精力和成本。此外，本发明使用配对文库的方法几乎不受表观遗传因子(根据细胞状态和种类而多样化显现)的影响。由于慢病毒载体大部分插入转录活性区域中，当使用慢病毒载体将配对文库递送至细胞群时，可在插入缺失频率中使可能由表观遗传状态引起的偏差最小化。在引导RNA效率的比较中，递送效率、细胞状态和细胞类型中的偏差已经成为最严重的问题之一。然而，本发明的配对文库能够基于序列稳定评估引导RNA效率，并降低表观遗传状态或递送中的偏差可能影响效率的可能性。

在中型(mid-sized)非配对双文库途径方法(该方法通过将约1,400个编码引导RNA的质粒共转染到细胞中，能够确认可能影响引导RNA活性的参数(如核苷酸序列和表观遗传状态))的情况下，由于在各细胞中共转染多个引导RNA文库，该方法的缺点在于难以确定经确认的插入缺失是由哪个引导RNA形成的，因此难以分析脱靶效应。此外，引导RNA的拷贝数显著影响切割效率，在这种情况下，文库中的拷贝数存在显著偏差，因此使得难以预测各引导RNA的活性。与现有文库类似，本发明的文库也具有拷贝数中的偏差。然而，在本发明中，引导RNA和靶序列以配对的形式使用，当将若干配对递送至细胞时，可忽略合成的靶序列和不响应其序列的引导RNA之间的反应。另外，在几乎所有细胞中，特定引导RNA和编码与其相对应的合成的靶序列的DNA作为单拷贝存在，因此可防止与拷贝数相关的偏差。即使当将类似的中靶序列用于脱靶评估时，由于导入了比引导RNA序列的多样性更多的拷贝数，靶序列和引导RNA的不同配对之间的反应可能不会以显著水平出现，因此可评估脱靶效应。此外，可通过稀释慢病毒载体来控制待导入的拷贝数。

本发明能够确定可能影响RNA引导的基因组操作的参数。也就是说，可通过例如如下各种因素在中靶位置和脱靶位置处确认插入缺失频率：靶序列、效应核酸酶直向同源物的种类、引导RNA的结构区域、靶DNA的表观遗传状态、暴露于引导RNA和效应核酸酶的浓度和持续时间、引导RNA和效应核酸酶的递送效率等。预期可通过本发明的配对文库以高通量方式对各种靶序列中各参数的影响进行测试。

总结以上结果，本发明提供了一种用于检测脱靶效应的新方法。可基于引导-序列相似性通过计算机途径对脱靶效应进行预测，也可进行实验性测量。已经介绍了无偏实验方法(例如GUIDE-seq、Digenome-seq、BLESS、IDLV捕获、HTGTS等)，但这些方法不是充分灵敏或精细的。

可将本研究视为RNA引导的核酸酶领域中的“工业革命”。从现在起，由于本发明，可基于文库以高通量方式(工厂系统)在体内对RNA引导的核酸酶的活性进行测量，而不用依赖于传统的困难的个体测量系统(小作坊系统(cottage system))(图34)。

基于以上内容，本发明所属领域的技术人员能够理解的是，本发明能够以其它具体形式实施，而无需修改本发明的技术概念或必要特征。在这方面，本文公开的示例性实施方式仅用于说明目的，而不应解释为限制本发明的范围。相反，本发明不仅旨在涵盖示例性实施方式，还旨在涵盖能够包括在由所附权利要求限定的本发明的精神和范围内的各种替代选择、修改、等同物和其它实施方式。

<110> 延世大学校产学协力团（Industry-Academic Cooperation Foundation,Yonsei University）

<120> 用于以高通量方式体内评估RNA引导的核酸酶的活性的方法

<130> OPA17081-PCT

<150> KR 10-2016-0052365

<151> 2016-04-28

<160> 66

<170> KoPatentIn 2.0

<210> 1

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 寡核苷酸序列的5'末端

<400> 1

aacaccgtaa tttctactct tgtagat 27

<210> 2

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 寡核苷酸序列的3'末端

<400> 2

agcttggcgt aactagatct tg 22

<210> 3

<211> 12669

<212> DNA

<213> 人工序列

<220>

<223> Lenti_AsCpf1-Blast

<400> 3

gtcgacggat cgggagatct cccgatcccc tatggtgcac tctcagtaca atctgctctg 60

atgccgcata gttaagccag tatctgctcc ctgcttgtgt gttggaggtc gctgagtagt 120

gcgcgagcaa aatttaagct acaacaaggc aaggcttgac cgacaattgc atgaagaatc 180

tgcttagggt taggcgtttt gcgctgcttc gcgatgtacg ggccagatat acgcgttgac 240

attgattatt gactagttat taatagtaat caattacggg gtcattagtt catagcccat 300

atatggagtt ccgcgttaca taacttacgg taaatggccc gcctggctga ccgcccaacg 360

acccccgccc attgacgtca ataatgacgt atgttcccat agtaacgcca atagggactt 420

tccattgacg tcaatgggtg gagtatttac ggtaaactgc ccacttggca gtacatcaag 480

tgtatcatat gccaagtacg ccccctattg acgtcaatga cggtaaatgg cccgcctggc 540

attatgccca gtacatgacc ttatgggact ttcctacttg gcagtacatc tacgtattag 600

tcatcgctat taccatggtg atgcggtttt ggcagtacat caatgggcgt ggatagcggt 660

ttgactcacg gggatttcca agtctccacc ccattgacgt caatgggagt ttgttttggc 720

accaaaatca acgggacttt ccaaaatgtc gtaacaactc cgccccattg acgcaaatgg 780

gcggtaggcg tgtacggtgg gaggtctata taagcagcgc gttttgcctg tactgggtct 840

ctctggttag accagatctg agcctgggag ctctctggct aactagggaa cccactgctt 900

aagcctcaat aaagcttgcc ttgagtgctt caagtagtgt gtgcccgtct gttgtgtgac 960

tctggtaact agagatccct cagacccttt tagtcagtgt ggaaaatctc tagcagtggc 1020

gcccgaacag ggacttgaaa gcgaaaggga aaccagagga gctctctcga cgcaggactc 1080

ggcttgctga agcgcgcacg gcaagaggcg aggggcggcg actggtgagt acgccaaaaa 1140

ttttgactag cggaggctag aaggagagag atgggtgcga gagcgtcagt attaagcggg 1200

ggagaattag atcgcgatgg gaaaaaattc ggttaaggcc agggggaaag aaaaaatata 1260

aattaaaaca tatagtatgg gcaagcaggg agctagaacg attcgcagtt aatcctggcc 1320

tgttagaaac atcagaaggc tgtagacaaa tactgggaca gctacaacca tcccttcaga 1380

caggatcaga agaacttaga tcattatata atacagtagc aaccctctat tgtgtgcatc 1440

aaaggataga gataaaagac accaaggaag ctttagacaa gatagaggaa gagcaaaaca 1500

aaagtaagac caccgcacag caagcggccg ctgatcttca gacctggagg aggagatatg 1560

agggacaatt ggagaagtga attatataaa tataaagtag taaaaattga accattagga 1620

gtagcaccca ccaaggcaaa gagaagagtg gtgcagagag aaaaaagagc agtgggaata 1680

ggagctttgt tccttgggtt cttgggagca gcaggaagca ctatgggcgc agcgtcaatg 1740

acgctgacgg tacaggccag acaattattg tctggtatag tgcagcagca gaacaatttg 1800

ctgagggcta ttgaggcgca acagcatctg ttgcaactca cagtctgggg catcaagcag 1860

ctccaggcaa gaatcctggc tgtggaaaga tacctaaagg atcaacagct cctggggatt 1920

tggggttgct ctggaaaact catttgcacc actgctgtgc cttggaatgc tagttggagt 1980

aataaatctc tggaacagat ttggaatcac acgacctgga tggagtggga cagagaaatt 2040

aacaattaca caagcttaat acactcctta attgaagaat cgcaaaacca gcaagaaaag 2100

aatgaacaag aattattgga attagataaa tgggcaagtt tgtggaattg gtttaacata 2160

acaaattggc tgtggtatat aaaattattc ataatgatag taggaggctt ggtaggttta 2220

agaatagttt ttgctgtact ttctatagtg aatagagtta ggcagggata ttcaccatta 2280

tcgtttcaga cccacctccc aaccccgagg ggacccgaca ggcccgaagg aatagaagaa 2340

gaaggtggag agagagacag agacagatcc attcgattag tgaacggatc ggcactgcgt 2400

gcgccaattc tgcagacaaa tggcagtatt catccacaat tttaaaagaa aaggggggat 2460

tggggggtac agtgcagggg aaagaatagt agacataata gcaacagaca tacaaactaa 2520

agaattacaa aaacaaatta caaaaattca aaattttcgg gtttattaca gggacagcag 2580

agatccagtt tggttaatta gctagctagg tcttgaaagg agtgggaatt ggctccggtg 2640

cccgtcagtg ggcagagcgc acatcgccca cagtccccga gaagttgggg ggaggggtcg 2700

gcaattgatc cggtgcctag agaaggtggc gcggggtaaa ctgggaaagt gatgtcgtgt 2760

actggctccg cctttttccc gagggtgggg gagaaccgta tataagtgca gtagtcgccg 2820

tgaacgttct ttttcgcaac gggtttgccg ccagaacaca ggaccggttc tagcgtttaa 2880

acttaagctt ggtaccgcca ccatgacaca gttcgagggc tttaccaacc tgtatcaggt 2940

gagcaagaca ctgcggtttg agctgatccc acagggcaag accctgaagc acatccagga 3000

gcagggcttc atcgaggagg acaaggcccg caatgatcac tacaaggagc tgaagcccat 3060

catcgatcgg atctacaaga cctatgccga ccagtgcctg cagctggtgc agctggattg 3120

ggagaacctg agcgccgcca tcgactccta tagaaaggag aaaaccgagg agacaaggaa 3180

cgccctgatc gaggagcagg ccacatatcg caatgccatc cacgactact tcatcggccg 3240

gacagacaac ctgaccgatg ccatcaataa gagacacgcc gagatctaca agggcctgtt 3300

caaggccgag ctgtttaatg gcaaggtgct gaagcagctg ggcaccgtga ccacaaccga 3360

gcacgagaac gccctgctgc ggagcttcga caagtttaca acctacttct ccggctttta 3420

tgagaacagg aagaacgtgt tcagcgccga ggatatcagc acagccatcc cacaccgcat 3480

cgtgcaggac aacttcccca agtttaagga gaattgtcac atcttcacac gcctgatcac 3540

cgccgtgccc agcctgcggg agcactttga gaacgtgaag aaggccatcg gcatcttcgt 3600

gagcacctcc atcgaggagg tgttttcctt ccctttttat aaccagctgc tgacacagac 3660

ccagatcgac ctgtataacc agctgctggg aggaatctct cgggaggcag gcaccgagaa 3720

gatcaagggc ctgaacgagg tgctgaatct ggccatccag aagaatgatg agacagccca 3780

catcatcgcc tccctgccac acagattcat ccccctgttt aagcagatcc tgtccgatag 3840

gaacaccctg tctttcatcc tggaggagtt taagagcgac gaggaagtga tccagtcctt 3900

ctgcaagtac aagacactgc tgagaaacga gaacgtgctg gagacagccg aggccctgtt 3960

taacgagctg aacagcatcg acctgacaca catcttcatc agccacaaga agctggagac 4020

aatcagcagc gccctgtgcg accactggga tacactgagg aatgccctgt atgagcggag 4080

aatctccgag ctgacaggca agatcaccaa gtctgccaag gagaaggtgc agcgcagcct 4140

gaagcacgag gatatcaacc tgcaggagat catctctgcc gcaggcaagg agctgagcga 4200

ggccttcaag cagaaaacca gcgagatcct gtcccacgca cacgccgccc tggatcagcc 4260

actgcctaca accctgaaga agcaggagga gaaggagatc ctgaagtctc agctggacag 4320

cctgctgggc ctgtaccacc tgctggactg gtttgccgtg gatgagtcca acgaggtgga 4380

ccccgagttc tctgcccggc tgaccggcat caagctggag atggagcctt ctctgagctt 4440

ctacaacaag gccagaaatt atgccaccaa gaagccctac tccgtggaga agttcaagct 4500

gaactttcag atgcctacac tggcctctgg ctgggacgtg aataaggaga agaacaatgg 4560

cgccatcctg tttgtgaaga acggcctgta ctatctgggc atcatgccaa agcagaaggg 4620

caggtataag gccctgagct tcgagcccac agagaaaacc agcgagggct ttgataagat 4680

gtactatgac tacttccctg atgccgccaa gatgatccca aagtgcagca cccagctgaa 4740

ggccgtgaca gcccactttc agacccacac aacccccatc ctgctgtcca acaatttcat 4800

cgagcctctg gagatcacaa aggagatcta cgacctgaac aatcctgaga aggagccaaa 4860

gaagtttcag acagcctacg ccaagaaaac cggcgaccag aagggctaca gagaggccct 4920

gtgcaagtgg atcgacttca caagggattt tctgtccaag tataccaaga caacctctat 4980

cgatctgtct agcctgcggc catcctctca gtataaggac ctgggcgagt actatgccga 5040

gctgaatccc ctgctgtacc acatcagctt ccagagaatc gccgagaagg agatcatgga 5100

tgccgtggag acaggcaagc tgtacctgtt ccagatctat aacaaggact ttgccaaggg 5160

ccaccacggc aagcctaatc tgcacacact gtattggacc ggcctgtttt ctccagagaa 5220

cctggccaag acaagcatca agctgaatgg ccaggccgag ctgttctacc gccctaagtc 5280

caggatgaag aggatggcac accggctggg agagaagatg ctgaacaaga agctgaagga 5340

tcagaaaacc ccaatccccg acaccctgta ccaggagctg tacgactatg tgaatcacag 5400

actgtcccac gacctgtctg atgaggccag ggccctgctg cccaacgtga tcaccaagga 5460

ggtgtctcac gagatcatca aggataggcg ctttaccagc gacaagttct ttttccacgt 5520

gcctatcaca ctgaactatc aggccgccaa ttccccatct aagttcaacc agagggtgaa 5580

tgcctacctg aaggagcacc ccgagacacc tatcatcggc atcgatcggg gcgagagaaa 5640

cctgatctat atcacagtga tcgactccac cggcaagatc ctggagcagc ggagcctgaa 5700

caccatccag cagtttgatt accagaagaa gctggacaac agggagaagg agagggtggc 5760

agcaaggcag gcctggtctg tggtgggcac aatcaaggat ctgaagcagg gctatctgag 5820

ccaggtcatc cacgagatcg tggacctgat gatccactac caggccgtgg tggtgctgga 5880

gaacctgaat ttcggcttta agagcaagag gaccggcatc gccgagaagg ccgtgtacca 5940

gcagttcgag aagatgctga tcgataagct gaattgcctg gtgctgaagg actatccagc 6000

agagaaagtg ggaggcgtgc tgaacccata ccagctgaca gaccagttca cctcctttgc 6060

caagatgggc acccagtctg gcttcctgtt ttacgtgcct gccccatata catctaagat 6120

cgatcccctg accggcttcg tggacccctt cgtgtggaaa accatcaaga atcacgagag 6180

ccgcaagcac ttcctggagg gcttcgactt tctgcactac gacgtgaaaa ccggcgactt 6240

catcctgcac tttaagatga acagaaatct gtccttccag aggggcctgc ccggctttat 6300

gcctgcatgg gatatcgtgt tcgagaagaa cgagacacag tttgacgcca agggcacccc 6360

tttcatcgcc ggcaagagaa tcgtgccagt gatcgagaat cacagattca ccggcagata 6420

ccgggacctg tatcctgcca acgagctgat cgccctgctg gaggagaagg gcatcgtgtt 6480

cagggatggc tccaacatcc tgccaaagct gctggagaat gacgattctc acgccatcga 6540

caccatggtg gccctgatcc gcagcgtgct gcagatgcgg aactccaatg ccgccacagg 6600

cgaggactat atcaacagcc ccgtgcgcga tctgaatggc gtgtgcttcg actcccggtt 6660

tcagaaccca gagtggccca tggacgccga tgccaatggc gcctaccaca tcgccctgaa 6720

gggccagctg ctgctgaatc acctgaagga gagcaaggat ctgaagctgc agaacggcat 6780

ctccaatcag gactggctgg cctacatcca ggagctgcgc aacaaaaggc cggcggccac 6840

gaaaaaggcc ggccaggcaa aaaagaaaaa gggatccggc gcaacaaact tctctctgct 6900

gaaacaagcc ggagatgtcg aagagaatcc tggaccgatg gccaagcctt tgtctcaaga 6960

agaatccacc ctcattgaaa gagcaacggc tacaatcaac agcatcccca tctctgaaga 7020

ctacagcgtc gccagcgcag ctctctctag cgacggccgc atcttcactg gtgtcaatgt 7080

atatcatttt actgggggac cttgtgcaga actcgtggtg ctgggcactg ctgctgctgc 7140

ggcagctggc aacctgactt gtatcgtcgc gatcggaaat gagaacaggg gcatcttgag 7200

cccctgcgga cggtgccgac aggtgcttct cgatctgcat cctgggatca aagccatagt 7260

gaaggacagt gatggacagc cgacggcagt tgggattcgt gaattgctgc cctctggtta 7320

tgtgtgggag ggctaagaat tcgatatcaa gcttatcggt aatcaacctc tggattacaa 7380

aatttgtgaa agattgactg gtattcttaa ctatgttgct ccttttacgc tatgtggata 7440

cgctgcttta atgcctttgt atcatgctat tgcttcccgt atggctttca ttttctcctc 7500

cttgtataaa tcctggttgc tgtctcttta tgaggagttg tggcccgttg tcaggcaacg 7560

tggcgtggtg tgcactgtgt ttgctgacgc aacccccact ggttggggca ttgccaccac 7620

ctgtcagctc ctttccggga ctttcgcttt ccccctccct attgccacgg cggaactcat 7680

cgccgcctgc cttgcccgct gctggacagg ggctcggctg ttgggcactg acaattccgt 7740

ggtgttgtcg gggaaatcat cgtcctttcc ttggctgctc gcctgtgttg ccacctggat 7800

tctgcgcggg acgtccttct gctacgtccc ttcggccctc aatccagcgg accttccttc 7860

ccgcggcctg ctgccggctc tgcggcctct tccgcgtctt cgccttcgcc ctcagacgag 7920

tcggatctcc ctttgggccg cctccccgca tcgataccgt cgacctcgag acctagaaaa 7980

acatggagca atcacaagta gcaatacagc agctaccaat gctgattgtg cctggctaga 8040

agcacaagag gaggaggagg tgggttttcc agtcacacct caggtacctt taagaccaat 8100

gacttacaag gcagctgtag atcttagcca ctttttaaaa gaaaaggggg gactggaagg 8160

gctaattcac tcccaacgaa gacaagatat ccttgatctg tggatctacc acacacaagg 8220

ctacttccct gattggcaga actacacacc agggccaggg atcagatatc cactgacctt 8280

tggatggtgc tacaagctag taccagttga gcaagagaag gtagaagaag ccaatgaagg 8340

agagaacacc cgcttgttac accctgtgag cctgcatggg atggatgacc cggagagaga 8400

agtattagag tggaggtttg acagccgcct agcatttcat cacatggccc gagagctgca 8460

tccggactgt actgggtctc tctggttaga ccagatctga gcctgggagc tctctggcta 8520

actagggaac ccactgctta agcctcaata aagcttgcct tgagtgcttc aagtagtgtg 8580

tgcccgtctg ttgtgtgact ctggtaacta gagatccctc agaccctttt agtcagtgtg 8640

gaaaatctct agcagggccc gtttaaaccc gctgatcagc ctcgactgtg ccttctagtt 8700

gccagccatc tgttgtttgc ccctcccccg tgccttcctt gaccctggaa ggtgccactc 8760

ccactgtcct ttcctaataa aatgaggaaa ttgcatcgca ttgtctgagt aggtgtcatt 8820

ctattctggg gggtggggtg gggcaggaca gcaaggggga ggattgggaa gacaatagca 8880

ggcatgctgg ggatgcggtg ggctctatgg cttctgaggc ggaaagaacc agctggggct 8940

ctagggggta tccccacgcg ccctgtagcg gcgcattaag cgcggcgggt gtggtggtta 9000

cgcgcagcgt gaccgctaca cttgccagcg ccctagcgcc cgctcctttc gctttcttcc 9060

cttcctttct cgccacgttc gccggctttc cccgtcaagc tctaaatcgg gggctccctt 9120

tagggttccg atttagtgct ttacggcacc tcgaccccaa aaaacttgat tagggtgatg 9180

gttcacgtag tgggccatcg ccctgataga cggtttttcg ccctttgacg ttggagtcca 9240

cgttctttaa tagtggactc ttgttccaaa ctggaacaac actcaaccct atctcggtct 9300

attcttttga tttataaggg attttgccga tttcggccta ttggttaaaa aatgagctga 9360

tttaacaaaa atttaacgcg aattaattct gtggaatgtg tgtcagttag ggtgtggaaa 9420

gtccccaggc tccccagcag gcagaagtat gcaaagcatg catctcaatt agtcagcaac 9480

caggtgtgga aagtccccag gctccccagc aggcagaagt atgcaaagca tgcatctcaa 9540

ttagtcagca accatagtcc cgcccctaac tccgcccatc ccgcccctaa ctccgcccag 9600

ttccgcccat tctccgcccc atggctgact aatttttttt atttatgcag aggccgaggc 9660

cgcctctgcc tctgagctat tccagaagta gtgaggaggc ttttttggag gcctaggctt 9720

ttgcaaaaag ctcccgggag cttgtatatc cattttcgga tctgatcagc acgtgttgac 9780

aattaatcat cggcatagta tatcggcata gtataatacg acaaggtgag gaactaaacc 9840

atggccaagt tgaccagtgc cgttccggtg ctcaccgcgc gcgacgtcgc cggagcggtc 9900

gagttctgga ccgaccggct cgggttctcc cgggacttcg tggaggacga cttcgccggt 9960

gtggtccggg acgacgtgac cctgttcatc agcgcggtcc aggaccaggt ggtgccggac 10020

aacaccctgg cctgggtgtg ggtgcgcggc ctggacgagc tgtacgccga gtggtcggag 10080

gtcgtgtcca cgaacttccg ggacgcctcc gggccggcca tgaccgagat cggcgagcag 10140

ccgtgggggc gggagttcgc cctgcgcgac ccggccggca actgcgtgca cttcgtggcc 10200

gaggagcagg actgacacgt gctacgagat ttcgattcca ccgccgcctt ctatgaaagg 10260

ttgggcttcg gaatcgtttt ccgggacgcc ggctggatga tcctccagcg cggggatctc 10320

atgctggagt tcttcgccca ccccaacttg tttattgcag cttataatgg ttacaaataa 10380

agcaatagca tcacaaattt cacaaataaa gcattttttt cactgcattc tagttgtggt 10440

ttgtccaaac tcatcaatgt atcttatcat gtctgtatac cgtcgacctc tagctagagc 10500

ttggcgtaat catggtcata gctgtttcct gtgtgaaatt gttatccgct cacaattcca 10560

cacaacatac gagccggaag cataaagtgt aaagcctggg gtgcctaatg agtgagctaa 10620

ctcacattaa ttgcgttgcg ctcactgccc gctttccagt cgggaaacct gtcgtgccag 10680

ctgcattaat gaatcggcca acgcgcgggg agaggcggtt tgcgtattgg gcgctcttcc 10740

gcttcctcgc tcactgactc gctgcgctcg gtcgttcggc tgcggcgagc ggtatcagct 10800

cactcaaagg cggtaatacg gttatccaca gaatcagggg ataacgcagg aaagaacatg 10860

tgagcaaaag gccagcaaaa ggccaggaac cgtaaaaagg ccgcgttgct ggcgtttttc 10920

cataggctcc gcccccctga cgagcatcac aaaaatcgac gctcaagtca gaggtggcga 10980

aacccgacag gactataaag ataccaggcg tttccccctg gaagctccct cgtgcgctct 11040

cctgttccga ccctgccgct taccggatac ctgtccgcct ttctcccttc gggaagcgtg 11100

gcgctttctc atagctcacg ctgtaggtat ctcagttcgg tgtaggtcgt tcgctccaag 11160

ctgggctgtg tgcacgaacc ccccgttcag cccgaccgct gcgccttatc cggtaactat 11220

cgtcttgagt ccaacccggt aagacacgac ttatcgccac tggcagcagc cactggtaac 11280

aggattagca gagcgaggta tgtaggcggt gctacagagt tcttgaagtg gtggcctaac 11340

tacggctaca ctagaagaac agtatttggt atctgcgctc tgctgaagcc agttaccttc 11400

ggaaaaagag ttggtagctc ttgatccggc aaacaaacca ccgctggtag cggtggtttt 11460

tttgtttgca agcagcagat tacgcgcaga aaaaaaggat ctcaagaaga tcctttgatc 11520

ttttctacgg ggtctgacgc tcagtggaac gaaaactcac gttaagggat tttggtcatg 11580

agattatcaa aaaggatctt cacctagatc cttttaaatt aaaaatgaag ttttaaatca 11640

atctaaagta tatatgagta aacttggtct gacagttacc aatgcttaat cagtgaggca 11700

cctatctcag cgatctgtct atttcgttca tccatagttg cctgactccc cgtcgtgtag 11760

ataactacga tacgggaggg cttaccatct ggccccagtg ctgcaatgat accgcgagac 11820

ccacgctcac cggctccaga tttatcagca ataaaccagc cagccggaag ggccgagcgc 11880

agaagtggtc ctgcaacttt atccgcctcc atccagtcta ttaattgttg ccgggaagct 11940

agagtaagta gttcgccagt taatagtttg cgcaacgttg ttgccattgc tacaggcatc 12000

gtggtgtcac gctcgtcgtt tggtatggct tcattcagct ccggttccca acgatcaagg 12060

cgagttacat gatcccccat gttgtgcaaa aaagcggtta gctccttcgg tcctccgatc 12120

gttgtcagaa gtaagttggc cgcagtgtta tcactcatgg ttatggcagc actgcataat 12180

tctcttactg tcatgccatc cgtaagatgc ttttctgtga ctggtgagta ctcaaccaag 12240

tcattctgag aatagtgtat gcggcgaccg agttgctctt gcccggcgtc aatacgggat 12300

aataccgcgc cacatagcag aactttaaaa gtgctcatca ttggaaaacg ttcttcgggg 12360

cgaaaactct caaggatctt accgctgttg agatccagtt cgatgtaacc cactcgtgca 12420

cccaactgat cttcagcatc ttttactttc accagcgttt ctgggtgagc aaaaacagga 12480

aggcaaaatg ccgcaaaaaa gggaataagg gcgacacgga aatgttgaat actcatactc 12540

ttcctttttc aatattattg aagcatttat cagggttatt gtctcatgag cggatacata 12600

tttgaatgta tttagaaaaa taaacaaata ggggttccgc gcacatttcc ccgaaaagtg 12660

ccacctgac 12669

<210> 4

<211> 12432

<212> DNA

<213> 人工序列

<220>

<223> Lenti_LbCpf1-Blast

<400> 4

gtcgacggat cgggagatct cccgatcccc tatggtgcac tctcagtaca atctgctctg 60

atgccgcata gttaagccag tatctgctcc ctgcttgtgt gttggaggtc gctgagtagt 120

gcgcgagcaa aatttaagct acaacaaggc aaggcttgac cgacaattgc atgaagaatc 180

tgcttagggt taggcgtttt gcgctgcttc gcgatgtacg ggccagatat acgcgttgac 240

attgattatt gactagttat taatagtaat caattacggg gtcattagtt catagcccat 300

atatggagtt ccgcgttaca taacttacgg taaatggccc gcctggctga ccgcccaacg 360

acccccgccc attgacgtca ataatgacgt atgttcccat agtaacgcca atagggactt 420

tccattgacg tcaatgggtg gagtatttac ggtaaactgc ccacttggca gtacatcaag 480

tgtatcatat gccaagtacg ccccctattg acgtcaatga cggtaaatgg cccgcctggc 540

attatgccca gtacatgacc ttatgggact ttcctacttg gcagtacatc tacgtattag 600

tcatcgctat taccatggtg atgcggtttt ggcagtacat caatgggcgt ggatagcggt 660

ttgactcacg gggatttcca agtctccacc ccattgacgt caatgggagt ttgttttggc 720

accaaaatca acgggacttt ccaaaatgtc gtaacaactc cgccccattg acgcaaatgg 780

gcggtaggcg tgtacggtgg gaggtctata taagcagcgc gttttgcctg tactgggtct 840

ctctggttag accagatctg agcctgggag ctctctggct aactagggaa cccactgctt 900

aagcctcaat aaagcttgcc ttgagtgctt caagtagtgt gtgcccgtct gttgtgtgac 960

tctggtaact agagatccct cagacccttt tagtcagtgt ggaaaatctc tagcagtggc 1020

gcccgaacag ggacttgaaa gcgaaaggga aaccagagga gctctctcga cgcaggactc 1080

ggcttgctga agcgcgcacg gcaagaggcg aggggcggcg actggtgagt acgccaaaaa 1140

ttttgactag cggaggctag aaggagagag atgggtgcga gagcgtcagt attaagcggg 1200

ggagaattag atcgcgatgg gaaaaaattc ggttaaggcc agggggaaag aaaaaatata 1260

aattaaaaca tatagtatgg gcaagcaggg agctagaacg attcgcagtt aatcctggcc 1320

tgttagaaac atcagaaggc tgtagacaaa tactgggaca gctacaacca tcccttcaga 1380

caggatcaga agaacttaga tcattatata atacagtagc aaccctctat tgtgtgcatc 1440

aaaggataga gataaaagac accaaggaag ctttagacaa gatagaggaa gagcaaaaca 1500

aaagtaagac caccgcacag caagcggccg ctgatcttca gacctggagg aggagatatg 1560

agggacaatt ggagaagtga attatataaa tataaagtag taaaaattga accattagga 1620

gtagcaccca ccaaggcaaa gagaagagtg gtgcagagag aaaaaagagc agtgggaata 1680

ggagctttgt tccttgggtt cttgggagca gcaggaagca ctatgggcgc agcgtcaatg 1740

acgctgacgg tacaggccag acaattattg tctggtatag tgcagcagca gaacaatttg 1800

ctgagggcta ttgaggcgca acagcatctg ttgcaactca cagtctgggg catcaagcag 1860

ctccaggcaa gaatcctggc tgtggaaaga tacctaaagg atcaacagct cctggggatt 1920

tggggttgct ctggaaaact catttgcacc actgctgtgc cttggaatgc tagttggagt 1980

aataaatctc tggaacagat ttggaatcac acgacctgga tggagtggga cagagaaatt 2040

aacaattaca caagcttaat acactcctta attgaagaat cgcaaaacca gcaagaaaag 2100

aatgaacaag aattattgga attagataaa tgggcaagtt tgtggaattg gtttaacata 2160

acaaattggc tgtggtatat aaaattattc ataatgatag taggaggctt ggtaggttta 2220

agaatagttt ttgctgtact ttctatagtg aatagagtta ggcagggata ttcaccatta 2280

tcgtttcaga cccacctccc aaccccgagg ggacccgaca ggcccgaagg aatagaagaa 2340

gaaggtggag agagagacag agacagatcc attcgattag tgaacggatc ggcactgcgt 2400

gcgccaattc tgcagacaaa tggcagtatt catccacaat tttaaaagaa aaggggggat 2460

tggggggtac agtgcagggg aaagaatagt agacataata gcaacagaca tacaaactaa 2520

agaattacaa aaacaaatta caaaaattca aaattttcgg gtttattaca gggacagcag 2580

agatccagtt tggttaatta gctagctagg tcttgaaagg agtgggaatt ggctccggtg 2640

cccgtcagtg ggcagagcgc acatcgccca cagtccccga gaagttgggg ggaggggtcg 2700

gcaattgatc cggtgcctag agaaggtggc gcggggtaaa ctgggaaagt gatgtcgtgt 2760

actggctccg cctttttccc gagggtgggg gagaaccgta tataagtgca gtagtcgccg 2820

tgaacgttct ttttcgcaac gggtttgccg ccagaacaca ggaccggttc tagcgtttaa 2880

acttaagctt ggtaccgcca ccatgagcaa gctggagaag tttacaaact gctactccct 2940

gtctaagacc ctgaggttca aggccatccc tgtgggcaag acccaggaga acatcgacaa 3000

taagcggctg ctggtggagg acgagaagag agccgaggat tataagggcg tgaagaagct 3060

gctggatcgc tactatctgt cttttatcaa cgacgtgctg cacagcatca agctgaagaa 3120

tctgaacaat tacatcagcc tgttccggaa gaaaaccaga accgagaagg agaataagga 3180

gctggagaac ctggagatca atctgcggaa ggagatcgcc aaggccttca agggcaacga 3240

gggctacaag tccctgttta agaaggatat catcgagaca atcctgccag agttcctgga 3300

cgataaggac gagatcgccc tggtgaacag cttcaatggc tttaccacag ccttcaccgg 3360

cttctttgat aacagagaga atatgttttc cgaggaggcc aagagcacat ccatcgcctt 3420

caggtgtatc aacgagaatc tgacccgcta catctctaat atggacatct tcgagaaggt 3480

ggacgccatc tttgataagc acgaggtgca ggagatcaag gagaagatcc tgaacagcga 3540

ctatgatgtg gaggatttct ttgagggcga gttctttaac tttgtgctga cacaggaggg 3600

catcgacgtg tataacgcca tcatcggcgg cttcgtgacc gagagcggcg agaagatcaa 3660

gggcctgaac gagtacatca acctgtataa tcagaaaacc aagcagaagc tgcctaagtt 3720

taagccactg tataagcagg tgctgagcga tcgggagtct ctgagcttct acggcgaggg 3780

ctatacatcc gatgaggagg tgctggaggt gtttagaaac accctgaaca agaacagcga 3840

gatcttcagc tccatcaaga agctggagaa gctgttcaag aattttgacg agtactctag 3900

cgccggcatc tttgtgaaga acggccccgc catcagcaca atctccaagg atatcttcgg 3960

cgagtggaac gtgatccggg acaagtggaa tgccgagtat gacgatatcc acctgaagaa 4020

gaaggccgtg gtgaccgaga agtacgagga cgatcggaga aagtccttca agaagatcgg 4080

ctccttttct ctggagcagc tgcaggagta cgccgacgcc gatctgtctg tggtggagaa 4140

gctgaaggag atcatcatcc agaaggtgga tgagatctac aaggtgtatg gctcctctga 4200

gaagctgttc gacgccgatt ttgtgctgga gaagagcctg aagaagaacg acgccgtggt 4260

ggccatcatg aaggacctgc tggattctgt gaagagcttc gagaattaca tcaaggcctt 4320

ctttggcgag ggcaaggaga caaacaggga cgagtccttc tatggcgatt ttgtgctggc 4380

ctacgacatc ctgctgaagg tggaccacat ctacgatgcc atccgcaatt atgtgaccca 4440

gaagccctac tctaaggata agttcaagct gtattttcag aaccctcagt tcatgggcgg 4500

ctgggacaag gataaggaga cagactatcg ggccaccatc ctgagatacg gctccaagta 4560

ctatctggcc atcatggata agaagtacgc caagtgcctg cagaagatcg acaaggacga 4620

tgtgaacggc aattacgaga agatcaacta taagctgctg cccggcccta ataagatgct 4680

gccaaaggtg ttcttttcta agaagtggat ggcctactat aaccccagcg aggacatcca 4740

gaagatctac aagaatggca cattcaagaa gggcgatatg tttaacctga atgactgtca 4800

caagctgatc gacttcttta aggatagcat ctcccggtat ccaaagtggt ccaatgccta 4860

cgatttcaac ttttctgaga cagagaagta taaggacatc gccggctttt acagagaggt 4920

ggaggagcag ggctataagg tgagcttcga gtctgccagc aagaaggagg tggataagct 4980

ggtggaggag ggcaagctgt atatgttcca gatctataac aaggactttt ccgataagtc 5040

tcacggcaca cccaatctgc acaccatgta cttcaagctg ctgtttgacg agaacaatca 5100

cggacagatc aggctgagcg gaggagcaga gctgttcatg aggcgcgcct ccctgaagaa 5160

ggaggagctg gtggtgcacc cagccaactc ccctatcgcc aacaagaatc cagataatcc 5220

caagaaaacc acaaccctgt cctacgacgt gtataaggat aagaggtttt ctgaggacca 5280

gtacgagctg cacatcccaa tcgccatcaa taagtgcccc aagaacatct tcaagatcaa 5340

tacagaggtg cgcgtgctgc tgaagcacga cgataacccc tatgtgatcg gcatcgatag 5400

gggcgagcgc aatctgctgt atatcgtggt ggtggacggc aagggcaaca tcgtggagca 5460

gtattccctg aacgagatca tcaacaactt caacggcatc aggatcaaga cagattacca 5520

ctctctgctg gacaagaagg agaaggagag gttcgaggcc cgccagaact ggacctccat 5580

cgagaatatc aaggagctga aggccggcta tatctctcag gtggtgcaca agatctgcga 5640

gctggtggag aagtacgatg ccgtgatcgc cctggaggac ctgaactctg gctttaagaa 5700

tagccgcgtg aaggtggaga agcaggtgta tcagaagttc gagaagatgc tgatcgataa 5760

gctgaactac atggtggaca agaagtctaa tccttgtgca acaggcggcg ccctgaaggg 5820

ctatcagatc accaataagt tcgagagctt taagtccatg tctacccaga acggcttcat 5880

cttttacatc cctgcctggc tgacatccaa gatcgatcca tctaccggct ttgtgaacct 5940

gctgaaaacc aagtatacca gcatcgccga ttccaagaag ttcatcagct cctttgacag 6000

gatcatgtac gtgcccgagg aggatctgtt cgagtttgcc ctggactata agaacttctc 6060

tcgcacagac gccgattaca tcaagaagtg gaagctgtac tcctacggca accggatcag 6120

aatcttccgg aatcctaaga agaacaacgt gttcgactgg gaggaggtgt gcctgaccag 6180

cgcctataag gagctgttca acaagtacgg catcaattat cagcagggcg atatcagagc 6240

cctgctgtgc gagcagtccg acaaggcctt ctactctagc tttatggccc tgatgagcct 6300

gatgctgcag atgcggaaca gcatcacagg ccgcaccgac gtggattttc tgatcagccc 6360

tgtgaagaac tccgacggca tcttctacga tagccggaac tatgaggccc aggagaatgc 6420

catcctgcca aagaacgccg acgccaatgg cgcctataac atcgccagaa aggtgctgtg 6480

ggccatcggc cagttcaaga aggccgagga cgagaagctg gataaggtga agatcgccat 6540

ctctaacaag gagtggctgg agtacgccca gaccagcgtg aagcacaaaa ggccggcggc 6600

cacgaaaaag gccggccagg caaaaaagaa aaagggatcc ggcgcaacaa acttctctct 6660

gctgaaacaa gccggagatg tcgaagagaa tcctggaccg atggccaagc ctttgtctca 6720

agaagaatcc accctcattg aaagagcaac ggctacaatc aacagcatcc ccatctctga 6780

agactacagc gtcgccagcg cagctctctc tagcgacggc cgcatcttca ctggtgtcaa 6840

tgtatatcat tttactgggg gaccttgtgc agaactcgtg gtgctgggca ctgctgctgc 6900

tgcggcagct ggcaacctga cttgtatcgt cgcgatcgga aatgagaaca ggggcatctt 6960

gagcccctgc ggacggtgcc gacaggtgct tctcgatctg catcctggga tcaaagccat 7020

agtgaaggac agtgatggac agccgacggc agttgggatt cgtgaattgc tgccctctgg 7080

ttatgtgtgg gagggctaag aattcgatat caagcttatc ggtaatcaac ctctggatta 7140

caaaatttgt gaaagattga ctggtattct taactatgtt gctcctttta cgctatgtgg 7200

atacgctgct ttaatgcctt tgtatcatgc tattgcttcc cgtatggctt tcattttctc 7260

ctccttgtat aaatcctggt tgctgtctct ttatgaggag ttgtggcccg ttgtcaggca 7320

acgtggcgtg gtgtgcactg tgtttgctga cgcaaccccc actggttggg gcattgccac 7380

cacctgtcag ctcctttccg ggactttcgc tttccccctc cctattgcca cggcggaact 7440

catcgccgcc tgccttgccc gctgctggac aggggctcgg ctgttgggca ctgacaattc 7500

cgtggtgttg tcggggaaat catcgtcctt tccttggctg ctcgcctgtg ttgccacctg 7560

gattctgcgc gggacgtcct tctgctacgt cccttcggcc ctcaatccag cggaccttcc 7620

ttcccgcggc ctgctgccgg ctctgcggcc tcttccgcgt cttcgccttc gccctcagac 7680

gagtcggatc tccctttggg ccgcctcccc gcatcgatac cgtcgacctc gagacctaga 7740

aaaacatgga gcaatcacaa gtagcaatac agcagctacc aatgctgatt gtgcctggct 7800

agaagcacaa gaggaggagg aggtgggttt tccagtcaca cctcaggtac ctttaagacc 7860

aatgacttac aaggcagctg tagatcttag ccacttttta aaagaaaagg ggggactgga 7920

agggctaatt cactcccaac gaagacaaga tatccttgat ctgtggatct accacacaca 7980

aggctacttc cctgattggc agaactacac accagggcca gggatcagat atccactgac 8040

ctttggatgg tgctacaagc tagtaccagt tgagcaagag aaggtagaag aagccaatga 8100

aggagagaac acccgcttgt tacaccctgt gagcctgcat gggatggatg acccggagag 8160

agaagtatta gagtggaggt ttgacagccg cctagcattt catcacatgg cccgagagct 8220

gcatccggac tgtactgggt ctctctggtt agaccagatc tgagcctggg agctctctgg 8280

ctaactaggg aacccactgc ttaagcctca ataaagcttg ccttgagtgc ttcaagtagt 8340

gtgtgcccgt ctgttgtgtg actctggtaa ctagagatcc ctcagaccct tttagtcagt 8400

gtggaaaatc tctagcaggg cccgtttaaa cccgctgatc agcctcgact gtgccttcta 8460

gttgccagcc atctgttgtt tgcccctccc ccgtgccttc cttgaccctg gaaggtgcca 8520

ctcccactgt cctttcctaa taaaatgagg aaattgcatc gcattgtctg agtaggtgtc 8580

attctattct ggggggtggg gtggggcagg acagcaaggg ggaggattgg gaagacaata 8640

gcaggcatgc tggggatgcg gtgggctcta tggcttctga ggcggaaaga accagctggg 8700

gctctagggg gtatccccac gcgccctgta gcggcgcatt aagcgcggcg ggtgtggtgg 8760

ttacgcgcag cgtgaccgct acacttgcca gcgccctagc gcccgctcct ttcgctttct 8820

tcccttcctt tctcgccacg ttcgccggct ttccccgtca agctctaaat cgggggctcc 8880

ctttagggtt ccgatttagt gctttacggc acctcgaccc caaaaaactt gattagggtg 8940

atggttcacg tagtgggcca tcgccctgat agacggtttt tcgccctttg acgttggagt 9000

ccacgttctt taatagtgga ctcttgttcc aaactggaac aacactcaac cctatctcgg 9060

tctattcttt tgatttataa gggattttgc cgatttcggc ctattggtta aaaaatgagc 9120

tgatttaaca aaaatttaac gcgaattaat tctgtggaat gtgtgtcagt tagggtgtgg 9180

aaagtcccca ggctccccag caggcagaag tatgcaaagc atgcatctca attagtcagc 9240

aaccaggtgt ggaaagtccc caggctcccc agcaggcaga agtatgcaaa gcatgcatct 9300

caattagtca gcaaccatag tcccgcccct aactccgccc atcccgcccc taactccgcc 9360

cagttccgcc cattctccgc cccatggctg actaattttt tttatttatg cagaggccga 9420

ggccgcctct gcctctgagc tattccagaa gtagtgagga ggcttttttg gaggcctagg 9480

cttttgcaaa aagctcccgg gagcttgtat atccattttc ggatctgatc agcacgtgtt 9540

gacaattaat catcggcata gtatatcggc atagtataat acgacaaggt gaggaactaa 9600

accatggcca agttgaccag tgccgttccg gtgctcaccg cgcgcgacgt cgccggagcg 9660

gtcgagttct ggaccgaccg gctcgggttc tcccgggact tcgtggagga cgacttcgcc 9720

ggtgtggtcc gggacgacgt gaccctgttc atcagcgcgg tccaggacca ggtggtgccg 9780

gacaacaccc tggcctgggt gtgggtgcgc ggcctggacg agctgtacgc cgagtggtcg 9840

gaggtcgtgt ccacgaactt ccgggacgcc tccgggccgg ccatgaccga gatcggcgag 9900

cagccgtggg ggcgggagtt cgccctgcgc gacccggccg gcaactgcgt gcacttcgtg 9960

gccgaggagc aggactgaca cgtgctacga gatttcgatt ccaccgccgc cttctatgaa 10020

aggttgggct tcggaatcgt tttccgggac gccggctgga tgatcctcca gcgcggggat 10080

ctcatgctgg agttcttcgc ccaccccaac ttgtttattg cagcttataa tggttacaaa 10140

taaagcaata gcatcacaaa tttcacaaat aaagcatttt tttcactgca ttctagttgt 10200

ggtttgtcca aactcatcaa tgtatcttat catgtctgta taccgtcgac ctctagctag 10260

agcttggcgt aatcatggtc atagctgttt cctgtgtgaa attgttatcc gctcacaatt 10320

ccacacaaca tacgagccgg aagcataaag tgtaaagcct ggggtgccta atgagtgagc 10380

taactcacat taattgcgtt gcgctcactg cccgctttcc agtcgggaaa cctgtcgtgc 10440

cagctgcatt aatgaatcgg ccaacgcgcg gggagaggcg gtttgcgtat tgggcgctct 10500

tccgcttcct cgctcactga ctcgctgcgc tcggtcgttc ggctgcggcg agcggtatca 10560

gctcactcaa aggcggtaat acggttatcc acagaatcag gggataacgc aggaaagaac 10620

atgtgagcaa aaggccagca aaaggccagg aaccgtaaaa aggccgcgtt gctggcgttt 10680

ttccataggc tccgcccccc tgacgagcat cacaaaaatc gacgctcaag tcagaggtgg 10740

cgaaacccga caggactata aagataccag gcgtttcccc ctggaagctc cctcgtgcgc 10800

tctcctgttc cgaccctgcc gcttaccgga tacctgtccg cctttctccc ttcgggaagc 10860

gtggcgcttt ctcatagctc acgctgtagg tatctcagtt cggtgtaggt cgttcgctcc 10920

aagctgggct gtgtgcacga accccccgtt cagcccgacc gctgcgcctt atccggtaac 10980

tatcgtcttg agtccaaccc ggtaagacac gacttatcgc cactggcagc agccactggt 11040

aacaggatta gcagagcgag gtatgtaggc ggtgctacag agttcttgaa gtggtggcct 11100

aactacggct acactagaag aacagtattt ggtatctgcg ctctgctgaa gccagttacc 11160

ttcggaaaaa gagttggtag ctcttgatcc ggcaaacaaa ccaccgctgg tagcggtggt 11220

ttttttgttt gcaagcagca gattacgcgc agaaaaaaag gatctcaaga agatcctttg 11280

atcttttcta cggggtctga cgctcagtgg aacgaaaact cacgttaagg gattttggtc 11340

atgagattat caaaaaggat cttcacctag atccttttaa attaaaaatg aagttttaaa 11400

tcaatctaaa gtatatatga gtaaacttgg tctgacagtt accaatgctt aatcagtgag 11460

gcacctatct cagcgatctg tctatttcgt tcatccatag ttgcctgact ccccgtcgtg 11520

tagataacta cgatacggga gggcttacca tctggcccca gtgctgcaat gataccgcga 11580

gacccacgct caccggctcc agatttatca gcaataaacc agccagccgg aagggccgag 11640

cgcagaagtg gtcctgcaac tttatccgcc tccatccagt ctattaattg ttgccgggaa 11700

gctagagtaa gtagttcgcc agttaatagt ttgcgcaacg ttgttgccat tgctacaggc 11760

atcgtggtgt cacgctcgtc gtttggtatg gcttcattca gctccggttc ccaacgatca 11820

aggcgagtta catgatcccc catgttgtgc aaaaaagcgg ttagctcctt cggtcctccg 11880

atcgttgtca gaagtaagtt ggccgcagtg ttatcactca tggttatggc agcactgcat 11940

aattctctta ctgtcatgcc atccgtaaga tgcttttctg tgactggtga gtactcaacc 12000

aagtcattct gagaatagtg tatgcggcga ccgagttgct cttgcccggc gtcaatacgg 12060

gataataccg cgccacatag cagaacttta aaagtgctca tcattggaaa acgttcttcg 12120

gggcgaaaac tctcaaggat cttaccgctg ttgagatcca gttcgatgta acccactcgt 12180

gcacccaact gatcttcagc atcttttact ttcaccagcg tttctgggtg agcaaaaaca 12240

ggaaggcaaa atgccgcaaa aaagggaata agggcgacac ggaaatgttg aatactcata 12300

ctcttccttt ttcaatatta ttgaagcatt tatcagggtt attgtctcat gagcggatac 12360

atatttgaat gtatttagaa aaataaacaa ataggggttc cgcgcacatt tccccgaaaa 12420

gtgccacctg ac 12432

<210> 5

<211> 8329

<212> DNA

<213> 人工序列

<220>

<223> Lenti_crRNA-Puro

<400> 5

ccgggtgcaa agatggataa agttttaaac agagaggaat ctttgcagct aatggacctt 60

ctaggtcttg aaaggagtgg gaattggctc cggtgcccgt cagtgggcag agcgcacatc 120

gcccacagtc cccgagaagt tggggggagg ggtcggcaat tgatccggtg cctagagaag 180

gtggcgcggg gtaaactggg aaagtgatgt cgtgtactgg ctccgccttt ttcccgaggg 240

tgggggagaa ccgtatataa gtgcagtagt cgccgtgaac gttctttttc gcaacgggtt 300

tgccgccaga acacaggtaa gtgccgtgtg tggttcccgc gggcctggcc tctttacggg 360

ttatggccct tgcgtgcctt gaattacttc cactggctgc agtacgtgat tcttgatccc 420

gagcttcggg ttggaagtgg gtgggagagt tcgaggcctt gcgcttaagg agccccttcg 480

cctcgtgctt gagttgaggc ctggcctggg cgctggggcc gccgcgtgcg aatctggtgg 540

caccttcgcg cctgtctcgc tgctttcgat aagtctctag ccatttaaaa tttttgatga 600

cctgctgcga cgcttttttt ctggcaagat agtcttgtaa atgcgggcca agatctgcac 660

actggtattt cggtttttgg ggccgcgggc ggcgacgggg cccgtgcgtc ccagcgcaca 720

tgttcggcga ggcggggcct gcgagcgcgg ccaccgagaa tcggacgggg gtagtctcaa 780

gctggccggc ctgctctggt gcctggcctc gcgccgccgt gtatcgcccc gccctgggcg 840

gcaaggctgg cccggtcggc accagttgcg tgagcggaaa gatggccgct tcccggccct 900

gctgcaggga gctcaaaatg gaggacgcgg cgctcgggag agcgggcggg tgagtcaccc 960

acacaaagga aaagggcctt tccgtcctca gccgtcgctt catgtgactc cacggagtac 1020

cgggcgccgt ccaggcacct cgattagttc tcgagctttt ggagtacgtc gtctttaggt 1080

tggggggagg ggttttatgc gatggagttt ccccacactg agtgggtgga gactgaagtt 1140

aggccagctt ggcacttgat gtaattctcc ttggaatttg ccctttttga gtttggatct 1200

tggttcattc tcaagcctca gacagtggtt caaagttttt ttcttccatt tcaggtgtcg 1260

tgacgtacgg ccaccatgac cgagtacaag cccacggtgc gcctcgccac ccgcgacgac 1320

gtccccaggg ccgtacgcac cctcgccgcc gcgttcgccg actaccccgc cacgcgccac 1380

accgtcgatc cggaccgcca catcgagcgg gtcaccgagc tgcaagaact cttcctcacg 1440

cgcgtcgggc tcgacatcgg caaggtgtgg gtcgcggacg acggcgccgc cgtggcggtc 1500

tggaccacgc cggagagcgt cgaagcgggg gcggtgttcg ccgagatcgg cccgcgcatg 1560

gccgagttga gcggttcccg gctggccgcg cagcaacaga tggaaggcct cctggcgccg 1620

caccggccca aggagcccgc gtggttcctg gccaccgtcg gagtctcgcc cgaccaccag 1680

ggcaagggtc tgggcagcgc cgtcgtgctc cccggagtgg aggcggccga gcgcgccggg 1740

gtgcccgcct tcctggagac ctccgcgccc cgcaacctcc ccttctacga gcggctcggc 1800

ttcaccgtca ccgccgacgt cgaggtgccc gaaggaccgc gcacctggtg catgacccgc 1860

aagcccggtg cctgaacgcg ttaagtcgac aatcaacctc tggattacaa aatttgtgaa 1920

agattgactg gtattcttaa ctatgttgct ccttttacgc tatgtggata cgctgcttta 1980

atgcctttgt atcatgctat tgcttcccgt atggctttca ttttctcctc cttgtataaa 2040

tcctggttgc tgtctcttta tgaggagttg tggcccgttg tcaggcaacg tggcgtggtg 2100

tgcactgtgt ttgctgacgc aacccccact ggttggggca ttgccaccac ctgtcagctc 2160

ctttccggga ctttcgcttt ccccctccct attgccacgg cggaactcat cgccgcctgc 2220

cttgcccgct gctggacagg ggctcggctg ttgggcactg acaattccgt ggtgttgtcg 2280

gggaaatcat cgtcctttcc ttggctgctc gcctgtgttg ccacctggat tctgcgcggg 2340

acgtccttct gctacgtccc ttcggccctc aatccagcgg accttccttc ccgcggcctg 2400

ctgccggctc tgcggcctct tccgcgtctt cgccttcgcc ctcagacgag tcggatctcc 2460

ctttgggccg cctccccgcg tcgactttaa gaccaatgac ttacaaggca gctgtagatc 2520

ttagccactt tttaaaagaa aaggggggac tggaagggct aattcactcc caacgaagac 2580

aagatctgct ttttgcttgt actgggtctc tctggttaga ccagatctga gcctgggagc 2640

tctctggcta actagggaac ccactgctta agcctcaata aagcttgcct tgagtgcttc 2700

aagtagtgtg tgcccgtctg ttgtgtgact ctggtaacta gagatccctc agaccctttt 2760

agtcagtgtg gaaaatctct agcagtacgt atagtagttc atgtcatctt attattcagt 2820

atttataact tgcaaagaaa tgaatatcag agagtgagag gaacttgttt attgcagctt 2880

ataatggtta caaataaagc aatagcatca caaatttcac aaataaagca tttttttcac 2940

tgcattctag ttgtggtttg tccaaactca tcaatgtatc ttatcatgtc tggctctagc 3000

tatcccgccc ctaactccgc ccatcccgcc cctaactccg cccagttccg cccattctcc 3060

gccccatggc tgactaattt tttttattta tgcagaggcc gaggccgcct cggcctctga 3120

gctattccag aagtagtgag gaggcttttt tggaggccta gggacgtacc caattcgccc 3180

tatagtgagt cgtattacgc gcgctcactg gccgtcgttt tacaacgtcg tgactgggaa 3240

aaccctggcg ttacccaact taatcgcctt gcagcacatc cccctttcgc cagctggcgt 3300

aatagcgaag aggcccgcac cgatcgccct tcccaacagt tgcgcagcct gaatggcgaa 3360

tgggacgcgc cctgtagcgg cgcattaagc gcggcgggtg tggtggttac gcgcagcgtg 3420

accgctacac ttgccagcgc cctagcgccc gctcctttcg ctttcttccc ttcctttctc 3480

gccacgttcg ccggctttcc ccgtcaagct ctaaatcggg ggctcccttt agggttccga 3540

tttagtgctt tacggcacct cgaccccaaa aaacttgatt agggtgatgg ttcacgtagt 3600

gggccatcgc cctgatagac ggtttttcgc cctttgacgt tggagtccac gttctttaat 3660

agtggactct tgttccaaac tggaacaaca ctcaacccta tctcggtcta ttcttttgat 3720

ttataaggga ttttgccgat ttcggcctat tggttaaaaa atgagctgat ttaacaaaaa 3780

tttaacgcga attttaacaa aatattaacg cttacaattt aggtggcact tttcggggaa 3840

atgtgcgcgg aacccctatt tgtttatttt tctaaataca ttcaaatatg tatccgctca 3900

tgagacaata accctgataa atgcttcaat aatattgaaa aaggaagagt atgagtattc 3960

aacatttccg tgtcgccctt attccctttt ttgcggcatt ttgccttcct gtttttgctc 4020

acccagaaac gctggtgaaa gtaaaagatg ctgaagatca gttgggtgca cgagtgggtt 4080

acatcgaact ggatctcaac agcggtaaga tccttgagag ttttcgcccc gaagaacgtt 4140

ttccaatgat gagcactttt aaagttctgc tatgtggcgc ggtattatcc cgtattgacg 4200

ccgggcaaga gcaactcggt cgccgcatac actattctca gaatgacttg gttgagtact 4260

caccagtcac agaaaagcat cttacggatg gcatgacagt aagagaatta tgcagtgctg 4320

ccataaccat gagtgataac actgcggcca acttacttct gacaacgatc ggaggaccga 4380

aggagctaac cgcttttttg cacaacatgg gggatcatgt aactcgcctt gatcgttggg 4440

aaccggagct gaatgaagcc ataccaaacg acgagcgtga caccacgatg cctgtagcaa 4500

tggcaacaac gttgcgcaaa ctattaactg gcgaactact tactctagct tcccggcaac 4560

aattaataga ctggatggag gcggataaag ttgcaggacc acttctgcgc tcggcccttc 4620

cggctggctg gtttattgct gataaatctg gagccggtga gcgtgggtct cgcggtatca 4680

ttgcagcact ggggccagat ggtaagccct cccgtatcgt agttatctac acgacgggga 4740

gtcaggcaac tatggatgaa cgaaatagac agatcgctga gataggtgcc tcactgatta 4800

agcattggta actgtcagac caagtttact catatatact ttagattgat ttaaaacttc 4860

atttttaatt taaaaggatc taggtgaaga tcctttttga taatctcatg accaaaatcc 4920

cttaacgtga gttttcgttc cactgagcgt cagaccccgt agaaaagatc aaaggatctt 4980

cttgagatcc tttttttctg cgcgtaatct gctgcttgca aacaaaaaaa ccaccgctac 5040

cagcggtggt ttgtttgccg gatcaagagc taccaactct ttttccgaag gtaactggct 5100

tcagcagagc gcagatacca aatactgttc ttctagtgta gccgtagtta ggccaccact 5160

tcaagaactc tgtagcaccg cctacatacc tcgctctgct aatcctgtta ccagtggctg 5220

ctgccagtgg cgataagtcg tgtcttaccg ggttggactc aagacgatag ttaccggata 5280

aggcgcagcg gtcgggctga acggggggtt cgtgcacaca gcccagcttg gagcgaacga 5340

cctacaccga actgagatac ctacagcgtg agctatgaga aagcgccacg cttcccgaag 5400

ggagaaaggc ggacaggtat ccggtaagcg gcagggtcgg aacaggagag cgcacgaggg 5460

agcttccagg gggaaacgcc tggtatcttt atagtcctgt cgggtttcgc cacctctgac 5520

ttgagcgtcg atttttgtga tgctcgtcag gggggcggag cctatggaaa aacgccagca 5580

acgcggcctt tttacggttc ctggcctttt gctggccttt tgctcacatg ttctttcctg 5640

cgttatcccc tgattctgtg gataaccgta ttaccgcctt tgagtgagct gataccgctc 5700

gccgcagccg aacgaccgag cgcagcgagt cagtgagcga ggaagcggaa gagcgcccaa 5760

tacgcaaacc gcctctcccc gcgcgttggc cgattcatta atgcagctgg cacgacaggt 5820

ttcccgactg gaaagcgggc agtgagcgca acgcaattaa tgtgagttag ctcactcatt 5880

aggcacccca ggctttacac tttatgcttc cggctcgtat gttgtgtgga attgtgagcg 5940

gataacaatt tcacacagga aacagctatg accatgatta cgccaagcgc gcaattaacc 6000

ctcactaaag ggaacaaaag ctggagctgc aagcttaatg tagtcttatg caatactctt 6060

gtagtcttgc aacatggtaa cgatgagtta gcaacatgcc ttacaaggag agaaaaagca 6120

ccgtgcatgc cgattggtgg aagtaaggtg gtacgatcgt gccttattag gaaggcaaca 6180

gacgggtctg acatggattg gacgaaccac tgaattgccg cattgcagag atattgtatt 6240

taagtgccta gctcgataca taaacgggtc tctctggtta gaccagatct gagcctggga 6300

gctctctggc taactaggga acccactgct taagcctcaa taaagcttgc cttgagtgct 6360

tcaagtagtg tgtgcccgtc tgttgtgtga ctctggtaac tagagatccc tcagaccctt 6420

ttagtcagtg tggaaaatct ctagcagtgg cgcccgaaca gggacttgaa agcgaaaggg 6480

aaaccagagg agctctctcg acgcaggact cggcttgctg aagcgcgcac ggcaagaggc 6540

gaggggcggc gactggtgag tacgccaaaa attttgacta gcggaggcta gaaggagaga 6600

gatgggtgcg agagcgtcag tattaagcgg gggagaatta gatcgcgatg ggaaaaaatt 6660

cggttaaggc cagggggaaa gaaaaaatat aaattaaaac atatagtatg ggcaagcagg 6720

gagctagaac gattcgcagt taatcctggc ctgttagaaa catcagaagg ctgtagacaa 6780

atactgggac agctacaacc atcccttcag acaggatcag aagaacttag atcattatat 6840

aatacagtag caaccctcta ttgtgtgcat caaaggatag agataaaaga caccaaggaa 6900

gctttagaca agatagagga agagcaaaac aaaagtaaga ccaccgcaca gcaagcggcc 6960

gctgatcttc agacctggag gaggagatat gagggacaat tggagaagtg aattatataa 7020

atataaagta gtaaaaattg aaccattagg agtagcaccc accaaggcaa agagaagagt 7080

ggtgcagaga gaaaaaagag cagtgggaat aggagctttg ttccttgggt tcttgggagc 7140

agcaggaagc actatgggcg cagcgtcaat gacgctgacg gtacaggcca gacaattatt 7200

gtctggtata gtgcagcagc agaacaattt gctgagggct attgaggcgc aacagcatct 7260

gttgcaactc acagtctggg gcatcaagca gctccaggca agaatcctgg ctgtggaaag 7320

atacctaaag gatcaacagc tcctggggat ttggggttgc tctggaaaac tcatttgcac 7380

cactgctgtg ccttggaatg ctagttggag taataaatct ctggaacaga tttggaatca 7440

cacgacctgg atggagtggg acagagaaat taacaattac acaagcttaa tacactcctt 7500

aattgaagaa tcgcaaaacc agcaagaaaa gaatgaacaa gaattattgg aattagataa 7560

atgggcaagt ttgtggaatt ggtttaacat aacaaattgg ctgtggtata taaaattatt 7620

cataatgata gtaggaggct tggtaggttt aagaatagtt tttgctgtac tttctatagt 7680

gaatagagtt aggcagggat attcaccatt atcgtttcag acccacctcc caaccccgag 7740

gggacccaga gagggcctat ttcccatgat tccttcatat ttgcatatac gatacaaggc 7800

tgttagagag ataattagaa ttaatttgac tgtaaacaca aagatattag tacaaaatac 7860

gtgacgtaga aagtaataat ttcttgggta gtttgcagtt ttaaaattat gttttaaaat 7920

ggactatcat atgcttaccg taacttgaaa gtatttcgat ttcttggctt tatatatctt 7980

gtggaaagga cgaaacaccg gagacgttga ctatcgtctc gctactctac cacttgtact 8040

tcagcggtca gcttactcga cttaacgtgc acgtgacacg ttctagaccg tacatgctta 8100

catgggatga agcttggcgt aactagatct tgagacaaat ggcagtattc atccacaatt 8160

ttaaaagaaa aggggggatt ggggggtaca gtgcagggga aagaatagta gacataatag 8220

caacagacat acaaactaaa gaattacaaa aacaaattac aaaaattcaa aattttcggg 8280

tttattacag ggacagcaga gatccacttt ggcgccggct cgagggggc 8329

<210> 6

<211> 55

<212> DNA

<213> 人工序列

<220>

<223> Lenti_crRNA-Puro_克隆 FP1

<400> 6

caccggagac gttgactatc gtctcgctac tctaccactt gtacttcagc ggtca 55

<210> 7

<211> 55

<212> DNA

<213> 人工序列

<220>

<223> Lenti_crRNA-Puro_克隆 RP1

<400> 7

aagctgaccg ctgaagtaca agtggtagag tagcgagacg atagtcaacg tctcc 55

<210> 8

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> Lenti_crRNA-Puro_克隆 FP1

<400> 8

gcttactcga cttaacgtgc acgtgacacg ttctagaccg tacatgctta catgggatga 60

60

<210> 9

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> Lenti_crRNA-Puro_克隆 RP2

<400> 9

agcttcatcc catgtaagca tgtacggtct agaacgtgtc acgtgcacgt taagtcgagt 60

60

<210> 10

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> AsCpf1 寡核苷酸文库扩增 FP

<400> 10

atttcttggc tttatatatc ttgtggaaag gacgaaacac cgtaatttct actcttgtag 60

60

<210> 11

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> LbCpf1 寡核苷酸文库扩增 FP

<400> 11

tttcttggct ttatatatct tgtggaaagg acgaaacacc gtaatttcta ctaagtgtag 60

60

<210> 12

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> As/LbCpf1 寡核苷酸文库扩增 RP

<400> 12

gagtaagctg accgctgaag tacaagtggt agagtagaga tctagttacg ccaagct 57

<210> 13

<211> 55

<212> DNA

<213> 人工序列

<220>

<223> 靶向深度测序 FP

<400> 13

acactctttc cctacacgac gctcttccga tctcttgtgg aaaggacgaa acacc 55

<210> 14

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> 靶向深度测序 RP

<400> 14

gtgactggag ttcagacgtg tgctcttccg atctttgtgg atgaatactg ccatttgtc 59

<210> 15

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> Illumina 指数化 FP-1

<400> 15

aatgatacgg cgaccaccga gatctacac 29

<210> 16

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> Illumina 指数化 FP-2

<400> 16

acactctttc cctacacgac 20

<210> 17

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> Illumina 指数化 RP-1

<400> 17

caagcagaag acggcatacg agat 24

<210> 18

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> Illumina 指数化 RP-2

<400> 18

gtgactggag ttcagacgtg t 21

<210> 19

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 用于WPRE的qPCR FP

<400> 19

gatacgctgc tttaatgcct ttg 23

<210> 20

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 用于WPRE的qPCR RP

<400> 20

gagacagcaa ccaggattta tacaag 26

<210> 21

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 用于ALB的qPCR FP

<400> 21

gctgtcatct cttgtgggct gt 22

<210> 22

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 用于ALB的qPCR RP

<400> 22

actcatggga gctgctggtt c 21

<210> 23

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 寡核苷酸序列中用于正向引物的位点

<400> 23

tatcttgtgg aaaggacgaa acaccg 26

<210> 24

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 寡核苷酸序列中用于反向引物的位点

<400> 24

gttttagagc tagaaatagc aagttaaaa 29

<210> 25

<211> 55

<212> DNA

<213> 人工序列

<220>

<223> 用于SpCas9 寡核苷酸文库扩增的正向引物

<400> 25

ttgaaagtat ttcgatttct tggctttata tatcttgtgg aaaggacgaa acacc 55

<210> 26

<211> 56

<212> DNA

<213> 人工序列

<220>

<223> 用于SpCas9 寡核苷酸文库扩增的反向引物

<400> 26

tttcaagttg ataacggact agccttattt taacttgcta tttctagctc taaaac 56

<210> 27

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 用于靶向深度测序的正向引物(SpCas9)

<400> 27

acactctttc cctacacgac gctcttccga tcttggacta tcatatgctt accgtaactt 60

g 61

<210> 28

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 用于靶向深度测序的反向引物 (SpCas9)

<400> 28

gtgactggag ttcagacgtg tgctcttccg atcttttgtc tcaagatcta gttacgccaa 60

g 61

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标1-5的正向引物

<400> 29

ttgctgtggc agagccagcg 20

<210> 30

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标1-5的反向引物

<400> 30

ttgcttcact ttaatccttt cttgcag 27

<210> 31

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标6-10的正向引物

<400> 31

ctcctgcaag aaaggattaa agtg 24

<210> 32

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标6-10的反向引物

<400> 32

acctacctaa tagttacttc ctgaaggg 28

<210> 33

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标11-14的正向引物

<400> 33

ctcgttcttt ccatcaaata gtgtggtg 28

<210> 34

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标11-14的反向引物

<400> 34

ctgcagtaat tgttactctg tgtcttcc 28

<210> 35

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标15-17的正向引物

<400> 35

ttgagctgac ccataaatac aacagg 26

<210> 36

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标15-17的反向引物

<400> 36

ccctcttaac tggatcagca acgg 24

<210> 37

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标18的正向引物

<400> 37

tggggtcgcc attgtagttc cc 22

<210> 38

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标18的反向引物

<400> 38

gtcacaaaga tcagcatcag gcatgg 26

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标19-22的正向引物

<400> 39

cgttcacctg ggaggggaag 20

<210> 40

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标19-22的反向引物

<400> 40

tctgcaaaga actttattcc gagtaagc 28

<210> 41

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标23-28的正向引物

<400> 41

cccaaaagac atattcaccc agaatccc 28

<210> 42

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标23-28的反向引物

<400> 42

caacatcaag gtgtgggcag ggctgc 26

<210> 43

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标29-30的正向引物

<400> 43

acctggagtc tgcagagctg g 21

<210> 44

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标29-30的反向引物

<400> 44

aagcggtaaa caaaggatag ctgg 24

<210> 45

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标31-35的正向引物

<400> 45

ccatgggaaa cgaatacagg tctcg 25

<210> 46

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标31-35的反向引物

<400> 46

cttcagaaga aaaacctcca ctc 23

<210> 47

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标36-37的正向引物

<400> 47

aactgagaaa cagccagaga ggaag 25

<210> 48

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标36-37的反向引物

<400> 48

catctgatgc tgactcagag cgc 23

<210> 49

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标38-42的正向引物

<400> 49

gctgccaccc cctgctc 17

<210> 50

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标38-42的反向引物

<400> 50

atcagaatga aaaatctcac ccctcc 26

<210> 51

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标43-46的正向引物

<400> 51

gtctccgtga tgggggtgg 19

<210> 52

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标43-46的反向引物

<400> 52

ctgccttgta agactttaaa tattctgctc c 31

<210> 53

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标47-48的正向引物

<400> 53

aagccatatt cagttttagg gaaaagc 27

<210> 54

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标47-48的反向引物

<400> 54

atttccaagt aagctgcaag gaaagc 26

<210> 55

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标49-52的正向引物

<400> 55

aagtcttaca aggcagagta aagatc 26

<210> 56

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标49-52的反向引物

<400> 56

gcagggtaaa acaatcggac c 21

<210> 57

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标53-57的正向引物

<400> 57

caaccacctc agaagagcca gattcc 26

<210> 58

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标53-57的反向引物

<400> 58

ctctgtagtt atttgagcaa tgccac 26

<210> 59

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标58-64的正向引物

<400> 59

cagtgaatat acaggattgg ggttgtg 27

<210> 60

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标58-64的反向引物

<400> 60

acaactggta aggtgggccc agg 23

<210> 61

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标65-72的正向引物

<400> 61

caagcacaaa caaatcaggc taaatcc 27

<210> 62

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标65-72的反向引物

<400> 62

ccctgagctt gggggagagt tac 23

<210> 63

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标73-78的正向引物

<400> 63

tcctctgggg aaagagtggc c 21

<210> 64

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标73-78的反向引物

<400> 64

tgtggggtcg ttcctgatga aac 23

<210> 65

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标79-82的正向引物

<400> 65

aactggttta gctagtgcat acatgc 26

<210> 66

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 用于内源靶标79-82的反向引物

<400> 66

ggtgggagtt tctgttacag gcaac 25

Claims

1.一种用于评估RNA引导的核酸酶的活性的方法，所述方法包括：

(a)使用从包含寡核苷酸的细胞文库获得的DNA进行序列分析，所述细胞文库中导入有RNA引导的核酸酶，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列；以及

(b)由获得自所述序列分析的数据对各引导RNA-靶序列对的插入缺失频率进行检测。

2.如权利要求1所述的方法，其中，所述引导RNA包含CRISPR RNA(crRNA)。

3.如权利要求1所述的方法，其中，所述寡核苷酸包含原型间隔区邻近基序(PAM)序列。

4.如权利要求1所述的方法，其中，所述寡核苷酸在5’至3’方向或在反方向包含：编码引导RNA的序列、条形码序列和靶核苷酸序列。

5.如权利要求1所述的方法，其中，所述寡核苷酸在5’至3’方向或在反方向包含：编码引导RNA的序列、条形码序列、PAM序列和靶核苷酸序列。

6.如权利要求1至5中任一项所述的方法，其中，所述寡核苷酸还包含选自于由正向重复序列、多聚T序列、条形码序列、恒定序列、启动子序列和支架序列所组成的组中的至少一种。

7.如权利要求1至5中任一项所述的方法，其中，所述寡核苷酸由100个至200个核苷酸的序列组成。

8.如权利要求1至5中任一项所述的方法，其中，存在于一个寡核苷酸中的引导RNA顺式作用于存在于相同寡核苷酸中的靶核苷酸序列。

9.如权利要求1至5中任一项所述的方法，其中，所述方法包括：

(a)将RNA引导的核酸酶导入包含寡核苷酸的细胞文库中，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列；

(b)使用从导入RNA引导的核酸酶的细胞文库获得的DNA进行深度测序；以及

(c)由获得自所述深度测序的数据对各引导RNA-靶序列对的插入缺失频率进行检测。

10.如权利要求1至5中任一项所述的方法，其中，所述RNA引导的核酸酶是Cas9蛋白或Cpf1蛋白。

11.如权利要求10所述的方法，其中，所述Cas9蛋白来源于选自于由如下微生物所组成的组中的至少一种微生物：链球菌(Streptococcus)属、奈瑟氏菌(Neisseria)属、巴斯德氏菌(Pasteurella)属、弗朗西斯氏菌(Francisella)属和弯曲杆菌(Campylobacter)属。

12.如权利要求10所述的方法，其中，所述Cpf1蛋白来源于选自于由如下微生物所组成的组中的至少一种微生物：Candidatus Paceibacter属、毛螺菌(Lachnospira)属、丁酸弧菌(Butyrivibrio)属、Peregrinibacteria属、氨基酸球菌(Acidominococcus)属、卟啉单胞菌(Porphyromonas)属、普雷沃氏菌(Prevotella)属、弗朗西斯氏菌属、CandidatusMethanoplasma属和真细菌(Eubacterium)属。

13.如权利要求1至5中任一项所述的方法，其中，所述RNA引导的核酸酶的特征包括选自于由如下特征所组成的组中的至少一种：

(i)所述RNA引导的核酸酶的PAM序列；

(ii)所述RNA引导的核酸酶的中靶活性；或者

(iii)所述RNA引导的核酸酶的脱靶活性。

14.如权利要求1所述的方法，其中，所述序列分析通过深度测序进行。

15.一种包含至少两种细胞的细胞文库，其中，各细胞包含寡核苷酸，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列。

16.一种包含分离的寡核苷酸的载体，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列。

17.如权利要求16所述的载体，其中，所述载体是病毒载体。

18.如权利要求16所述的载体，其中，所述载体是选自于由慢病毒载体、逆转录病毒载体和质粒载体所组成的组中的任何一种。

19.一种包含至少两种载体的载体文库，其中，各载体包含寡核苷酸，所述寡核苷酸包含编码引导RNA的核苷酸序列和所述引导RNA靶向的靶核苷酸序列。

20.一种分离的寡核苷酸，所述寡核苷酸包含编码引导RNA的核苷酸序列和靶核苷酸序列。

21.一种寡核苷酸文库，所述寡核苷酸文库包含至少两种如权利要求20所述的寡核苷酸。

22.一种用于构建如权利要求20所述的寡核苷酸文库的方法，所述方法包括：

(a)设定待由RNA引导的核酸酶靶向的靶核苷酸序列；

(b)设计编码引导RNA的核苷酸序列，所述编码引导RNA的核苷酸序列与所设定的靶核苷酸序列的互补链形成碱基对；

(c)设计寡核苷酸，所述寡核苷酸包含所述靶核苷酸序列和靶向所述靶核苷酸序列的引导RNA；以及

(d)重复步骤(a)至步骤(c)至少一次。

23.如权利要求22所述的方法，其中，步骤(c)或步骤(d)还包括合成设计的寡核苷酸。

24.一种分离的引导RNA，所述引导RNA包含能够与靶核苷酸序列的互补链形成碱基对的序列，所述靶核苷酸序列与原型间隔区邻近基序(PAM)序列、即TTTV或CTTA相邻。

25.如权利要求24所述的分离的引导RNA，其中，与所述分离的引导RNA一起使用的RNA引导的核酸酶是Cpf1蛋白。

26.一种用于基因组编辑的组合物，所述组合物包含：如权利要求24或25所述的分离的引导RNA或编码所述分离的引导RNA的核酸。

27.一种用于在哺乳动物细胞中进行基因组编辑的系统，所述系统包含：如权利要求24或25所述的分离的引导RNA或编码所述分离的引导RNA的核酸；以及Cpf1蛋白或编码所述Cpf1蛋白的核酸。

28.一种用于在哺乳动物细胞中利用Cpf1进行基因组编辑的方法，所述方法包括：

将如权利要求24所述的引导RNA或编码所述引导RNA的核酸；以及Cpf1蛋白或编码所述Cpf1蛋白的核酸依次或同时导入分离的哺乳动物细胞中。