CN112384620B

CN112384620B - 用于筛选和鉴定功能性lncRNA的方法

Info

Publication number: CN112384620B
Application number: CN201880092152.5A
Authority: CN
Inventors: 魏文胜; 刘莹; 曹中正; 王轶楠; 郭昱; 袁鹏飞
Original assignee: Peking University; Edigene Biotechnology Inc
Current assignee: Peking University; Edigene Biotechnology Inc
Priority date: 2018-04-02
Filing date: 2018-04-02
Publication date: 2023-06-30
Anticipated expiration: 2038-04-02
Also published as: CN112384620A; JP7244885B2; WO2019191876A1; JP2021520205A; EP3775205A4; EP3775205A1; US20210163936A1

Abstract

提供了一种通过CRISPR系统筛选或鉴定长非编码RNA的高通量方法，该方法使用配对的指导RNA，靶向长非编码RNA剪接供体位点或剪接受体位点周围‑50bp至+75bp范围内的基因组序列。

Description

用于筛选和鉴定功能性lncRNA的方法

发明领域

本发明涉及通过靶向真核细胞基因组中的剪接位点对长非编码RNA(lncRNA)进行基因干扰，从而筛选和鉴定功能性lncRNA。

发明背景

作为强大的基因组编辑工具，CRISPR-Cas9系统已用于通过大规模筛选鉴别基因功能^1-4。即使在基因组规模，基因干扰大多通过外显子内生成的移码突变实现。在人类基因组中除约2％的蛋白编码基因，更多的证据表明剩余的大量转录本为非编码RNA⁵。其中，>200核苷酸的lncRNA代表无明显蛋白编码潜力的一个大亚组的基因^6-7。之前的研究表明人类lncRNA的总数超过了蛋白编码基因的总数且该数字持续攀升⁸。

lncRNA通过顺式或反式调节基因表达，在转录或转录后水平，在多种细胞过程中起关键作用⁹。尽管人类基因组中数万基因座已被标注为编码长非编码RNA(lncRNA)，但其功能大多不为人知，主要是由于缺乏可规模化导致该种基因功能丧失的方法。一般而言，由于lncRNA对阅读框的改变并不敏感，因此难以以常规的方式应用CRISPR-Cas9系统来破坏其表达，更不必说在大的规模范围内应用CRISPR-Cas9系统破坏其表达了。我们之前通过pgRNA文库开发了缺失策略，用于lncRNA的功能丧失筛选⁹，但其规模化是费力的。尽管有研究证明基于RNA干扰^10,11或CRISPRi¹²的筛选对于lncRNA功能的鉴定有效，但RNAi方法具有潜在的脱靶问题¹³，且两种方法都受到转录敲低的有效性的限制。因此，亟需筛选和鉴定功能性长非编码RNA和以大规模方式干扰非编码RNA功能的有效方法。

发明概述

本公开尤其提供用于研究基因组区域功能的方法、以及用于筛选和鉴定具有调节功能的lncRNA的方法。这些方法部分依赖于本文提供的新开发的以CRISPR/Cas系统为基础的文库筛选。

一方面，本发明的方法利用CRISPR/Cas系统切割lncRNA剪接位点周围的特定基因组序列的能力向lncRNA中引入外显子跳跃或内含子保留，从而导致lncRNA功能的干扰或消除。靶向的基因组位点，具体地，是编码长非编码RNA(lncRNA)的基因组基因剪接位点周围的基因组区域，所述区域跨越长非编码RNA的SD位点或SA位点周围-50-bp至+75-bp的区域内，更优选地，-30-bp至+30-bp的区域，最优选地，所述长非编码RNA的SD位点或SA位点周围-10-bp至+10-bp的区域。靶向的lncRNA剪接位点周围的序列被切割并通过宿主细胞中的细胞非同源末端连接(NHEJ)机制突变，且这样的突变导致外显子跳跃和/或内含子保留且因此基本上消除lncRNA的功能或活动。

如本领域已知，CRISPR/Cas系统核酸酶需要指导RNA以切割基因组DNA。这些指导RNA由下述构成：(1)使CRISPR/Cas系统核酸酶以序列特异性的方式靶向基因组位置的不同序列的19-21个核苷酸的间隔子序列(指导RNA)，和(2)位于指导RNA之间并允许指导RNA与CRISPR/Cas系统核酸酶结合的发夹序列。

本文提供的方法涉及将CRISPR/Cas指导RNA构建体引入宿主细胞，所述CRISPR/Cas指导RNA构建体包含与启动子可操作连接的靶向长非编码RNA剪接位点周围的基因组序列的指导RNA和发夹序列，在所述宿主细胞中表达靶向所述基因组序列的所述指导RNA(guide RNA)。在一个实施方案中，所述指导序列靶向长非编码RNA的SD位点或SA位点周围跨越-50-bp至+75-bp的区域内的基因组序列，更优选地，长非编码RNA的SD位点或SA位点周围-30-bp至+30-bp，最优选地，长非编码RNA的SD位点或SA位点周围-10-bp至+10-bp。

在一些情况中，所述方法进一步包括确定所述长非编码RNA的功能概貌。基因组基因(编码基因或非编码基因)的表达或其基因产物(编码蛋白)的功能活性可以作为lncRNA调节功能的体现。可选地，报告基因的编码序列可插入基因组(例如代替原有编码序列)且其表达或其基因产物的功能活性的变化可用作该长非编码RNA的功能概貌的体现。在一些情况中，报告基因的编码序列与原有编码序列融合，且所述体现是所获融合蛋白的mRNA或蛋白表达或所述融合蛋白的功能活性。

在一个方面，本文公开的方法可用于筛选和鉴定除转录以外的细胞过程的lncRNA，包括例如细胞存活、细胞分裂、细胞代谢、细胞凋亡、细胞周期、核小体组装、信号转导、多细胞生物体发育、免疫反应、细胞粘附、血管生成等的lncRNA。在一些实施方案中，所述方法可用于鉴定导致细胞过程变化的lncRNA，所述细胞过程选自包含以下的组：细胞存活、细胞分裂、细胞代谢、细胞凋亡、细胞循环、核小体组装、信号转导、多细胞生物体发育、免疫反应、细胞粘附和血管生成等。在一些实施方案中，所述方法可用于鉴定导致细胞表型变化，例如功能的丧失或功能的获得的lncRNA。在一些实施方案中，所述方法可用于鉴定导致编码基因和/或非编码基因的转录的减少或增加的lncRNA。所述方法可用于同时或先后鉴定或单独或存在于组合中的一种或多种lncRNA的作用。

例如，以CRISPR/Cas指导RNA文库转染细胞群，所述CRISPR/Cas指导RNA分别编码靶向lncRNA剪接位点周围的基因组序列的指导RNA的不同序列，且在所述细胞中表达所述指导RNA，并在CRISPR/Cas存在时，所述指导RNA引起lncRNA的外显子跳跃和/或内含子保留。每个细胞的RNA概貌和转录组可使用例如但不限于单细胞RNA测序(RNA-Seq)技术来进行分析。所述分析将揭示细胞基因组突变对RNA概貌的影响，包括RNA分子的类型和丰度。所述方法还可用于鉴定实现外显子跳跃或内含子保留的指导RNA的性质(例如序列)。因此，可通过在单细胞中的试验在整个细胞转录组上立即观察到外显子跳跃或内含子保留的作用。

因此，本文提供CRISPR/Cas指导RNA构建体，其包含与启动子可操作连接的靶向长非编码RNA剪接位点周围的基因组序列的指导序列和发夹序列。

在一些实施方案中，所述真核基因组可以是人基因组，且因此CRISPR/Cas指导构建体可旨在于人细胞中使用。

所述指导序列的长度可以是19-21个核苷酸。所述发夹序列长度可以少于100个核苷酸、少于80个核苷酸，少于60个核苷酸或约40个核苷酸的长度。在其他实施方案中，所述发夹序列长度可为约20-60个核苷酸长度。一旦转录，所述发夹序列可与CRISPR/Cas核酸酶结合。

所述CRISPR/Cas指导构建体在本质上是DNA且当转录时产生指导RNA。

本文还提供细胞群，其包含任何上述宿主细胞。所述宿主细胞群可以是同源或异源的。

在一些实施方案中，所述细胞进一步包含CRISPR/Cas核酸酶和/或CRISPR/Cas核酸酶的编码序列。在一些实施方案中，所述细胞进一步包含Cas9核酸酶和/或Cas9核酸酶的编码序列。

在一些实施方案中，将报告蛋白或包含报告蛋白的融合蛋白的编码序列整合入宿主细胞的基因组。

在一些实施方案中，所述宿主细胞处在宿主细胞群中，且每种宿主细胞独立地包含专一的指导RNA构建体。

在一些实施方案中，每个宿主细胞表达专一的功能性指导RNA，且在该指导RNA参与的情况下，所述宿主细胞相对于所述群中的其他宿主细胞在不同的基因组序列中发生突变。

本申请还提供了在真核细胞基因组中用于筛选或鉴定长非编码RNA的高通量方法，包含向宿主细胞群引入靶向lncRNA剪接位点周围的基因组序列的CRISPR/Cas指导RNA文库，其中所述细胞群中的每个宿主细胞独立包含专一的指导RNA，并表达该专一的指导RNA，且在CRISPR/Cas核酸酶存在时，切割并突变靶向的基因组序列，且因此导致lncRNA的外显子跳跃和/或内含子保留。

在一些实施方案中，所述高通量方法进一步包含鉴定lncRNA对细胞表型改变或编码基因或非编码基因表达的改变的影响。在一些实施方案中，每个宿主细胞表达专一的指导RNA且相对于所述群中的其他宿主细胞在不同的基因组序列中发生突变。在一些实施方案中，所述编码基因相对于所述细胞的基因组为外源或内源的。在一些实施方案中，所述细胞表型的改变包括功能的丧失或功能的获得。在一些实施方案中，所述编码基因或非编码基因的表达的改变为编码基因或非编码基因转录的增加或减少。

本发明还提供通过本文公开的高通量方法筛选或鉴定的lncRNA。这些lncRNA包括但不限于XXbac-B135H6.15、RP11-848P1.5、AC005330.2、AP001062.9、AP005135.2、RP11-867G23.4、LINC01049、DGCR5、RP11-509A17.3、CTB-25J19.1、CTD-2517M22.17、CROCCP2、AC016629.8、CTC-490G23.4、RP11-117D22.1、AC067969.2、RP11-251M1.1、AC004471.9、AC004471.10、AC002472.11、RP11-429J17.7、RP11-56N19.5、TMEM191A、LL22NC03-102D1.18、LINC00410、LL22NC03-23C6.13、RP11-83J21.3、RP11-544A12.4、ANKRD62P1-PARP4P3、CTD-2031P19.5、XXbac-B444P24.8、RP11-464F9.21、TPTEP1、MIR17HG和BMS1P20，其可用于调节细胞生长或增殖。

本发明还提供用于干扰或消除真核细胞中长非编码RNA功能的方法，其包含向真核细胞引入一个或多个靶向长非编码RNA的一个或多个剪接位点周围的一个或多个多核苷酸序列的CRISPR/Cas指导RNA，由此所述一个或多个指导RNA靶向所述长非编码RNA的一个或多个剪接位点周围的一个或多个多核苷酸序列且在Cas蛋白的存在时，切割所述一个或多个多核苷酸序列，导致长非编码RNA的内含子保留和/或外显子跳跃并因此干扰或消除该长非编码RNA的功能。在一些实施方案中，所述指导RNA靶向长非编码RNA的SD位点或SA位点周围跨越-50-bp至+75-bp的区域内的多核苷酸序列。在一些实施方案中，所述指导RNA靶向长非编码RNA的SD位点或SA位点周围跨越-30-bp至+30-bp的区域内的多核苷酸序列。在一些实施方案中，所述指导RNA靶向长非编码RNA的SD位点或SA位点周围跨越-10-bp至+10-bp的区域内的多核苷酸序列。在一些实施方案中，所述CRISPR/Cas核酸酶是Cas9或Cpfl。在一些实施方案中，所述向细胞引入通过了递送系统，所述递送系统包含病毒颗粒、脂质体、电穿孔、显微注射、偶联、纳米颗粒、外泌体、微泡或基因枪，优选地，通过包含慢病毒颗粒的递送系统。

附图说明

图1.a，人类剪接位点的基因组序列特征和碱基特异性。y轴表明每个基因座碱基的概率。b，由靶向剪接供体(SD)或剪接受体(SA)位点周围的sgRNA引起内含子保留或外显子跳跃的示意图。

图2.该图显示关于必需核糖体基因的sgRNA文库筛选中重复试验间的相关性。HeLa细胞系(a)和Huh7.5细胞系(b)中包括第0天对照样品(Ctrl)和第15天试验样品(Exp)的靶向剪接的文库中标准化sgRNA读数的散点图。还报告了每个样品的两个重复试验间的Spearman相关系数(Spearman corr.)。

图3.该图体现了靶向HeLa和Huh7.5细胞系中核糖体基因的sgRNA文库的CRISPR筛选的深度测序分析。设计sgRNA饱和诱变文库以靶向79个核糖体基因的5’SD位点周围的-50-bp至+75-bp区域和3’SA位点周围的-75-bp至+50-bp区域。混合质粒文库通过慢病毒分别转导入表达Cas9蛋白的HeLa和Huh7.5细胞。以标准化读取计数的log₂(Exp:Ctrl)计算每个所示基因座处全部sgRNA的丢失量，并且黑色条形代表每个基因座处全部sgRNA的平均倍数变化。虚线表明剪接位点的位置。

图4.该图显示对生成剪接位点扰乱的sgRNA靶向区域的鉴定。a，HeLa和Huh7.5细胞系中每个基因座的高效sgRNA的标准化。通过将具有多于4倍丢失量的sgRNA的数目除以在所示基因座处设计的sgRNA的总数计算数据。b，HeLa和Huh7.5细胞系中靶向内含子，5’SD位点和外显子的高效sgRNA的比较。每个条形代表不同的区域的具有多于2倍或4倍丢失量的sgRNA的百分比。数据表示为平均值±s.e.m。c，靶向HeLa和Huh7.5细胞系中内含子、3’SA位点和外显子的高效sgRNA的比较。数据展示为平均值±s.e.m。

图5.该图阐述了用以鉴别对于细胞生长和增殖必需的lncRNA的CRISPR系统的构建和基因组规模的筛选。a,CRISPR系统的构建。b,靶向剪接的sgRNA文库的构建、筛选和数据分析的流程。c,两个独立重复间sgRNA倍数变化的散点图。d,非靶向sgRNA、靶向必需基因和lncRNA的sgRNA的log₂(倍数变化)分布。通过t检验将每组的倍数变化与非靶向sgRNA进行了比较。***P<0.001。e,通过剪接靶向的CRISPR筛选的负向选择的lncRNA的筛选评分。对于各个lncRNA，通过Wilcox检验将全部靶向sgRNA的倍数变化与阴性对照sgRNA进行了比较且生成的P值进一步由阴性对照基因的零分布(其通过随机取样阴性对照sgRNA获得)矫正。从平均倍数变化和矫正的P值计算筛选评分(参见方法部分)。分别标记得分最高的10个筛选获得的lncRNA和阴性选择的必需基因。

图6.该图显示了候选lncRNA功能的验证。a-c,所示sgRNA在K562和GM12878细胞中对细胞增殖的影响，其包括三种对照sgRNA、非靶向sgRNA、靶向AAVS1基因座的sgRNA、靶向RPL18(一种对于细胞生长必需的基因)剪接位点的sgRNA(a)和两种阴性选择的lncRNA(b,c)。将每个载有CMV启动子驱动的EGFP标记物的sgRNA的慢病毒表达载体分别转导入K562和GM12878细胞。每3天通过FACS测量EGFP阳性细胞的百分比，所示sgRNA感染的细胞。第一次FACS分析在感染后3天开始(标记为第0天)，随后对混合细胞传代12天。通过将在所示时间点EGFP阳性细胞的百分比除以第0天的百分比确定每个样品的细胞增殖。数据表示为三个生物重复试验的平均值和标准差。星号(*)代表在测定终点(第12天)与靶向AAVS1的sgRNA所比较的P值，其使用t检验计算并使用Benjamini-Hochberg方法校正。*P<0.05；**P<0.01；***P<0.001；****P<0.0001；NS,不显著。d,通过靶向剪接的策略，相较于GM12878细胞，K562细胞中前35种候选lncRNA的细胞增殖。所述前35种候选lncRNA为XXbac-B135H6.15、RP11-848P1.5、AC005330.2、AP001062.9、AP005135.2、RP11-867G23.4、LINC01049、DGCR5、RP11-509A17.3、CTB-25J19.1、CTD-2517M22.17、CROCCP2、AC016629.8、CTC-490G23.4、RP11-117D22.1、AC067969.2、RP11-251M1.1、AC004471.9、AC004471.10、AC002472.11、RP11-429J17.7、RP11-56N19.5、TMEM191A、LL22NC03-102D1.18、LINC00410、LL22NC03-23C6.13、RP11-83J21.3、RP11-544A12.4、ANKRD62P1-PARP4P3、CTD-2031P19.5、XXbac-B444P24.8、RP11-464F9.21、TPTEP1、MIR17HG、BMS1P20。将阈值设置为80％，即第12天sgRNA感染细胞的标准化的百分比。浅灰点表示仅在K562细胞中必需的lncRNA且深灰点表示在K562和GM12878细胞中都呈现生长表型的那些。e,在K562细胞中lncRNA XXbac-B135H6.15的大片段缺失对细胞增殖的影响。设计了4对gRNA以缺失启动子和第一外显子。还自包含EGFP标记物的骨架表达了pgRNA，并且依照图5实施了细胞增殖试验(a-c)。数据显示为三个生物重复试验的平均值和标准差。星号代表在第15天与AAVS1_p1比较的P值，其使用t检验计算并使用Benjamini-Hochberg方法校正。*P<0.05；**P<0.01；***P<0.001；****P<0.0001；NS,不显著。f,显示使用剪接靶向和pgRNA介导的缺失方法对领先的lncRNA候选物的敲除效果之间的相关性。

图7-图12.这些附图提供了通过剪接靶向策略获得的排名最高的lncRNA的验证证据。

图13.该图提供了通过大片段缺失对候选lncRNA的验证。a,在K562细胞中通过AAVS1基因座和必需基因RPL19、RPL23A的大片段缺失实施的细胞增殖试验。针对AAVS1基因座设计了2对gRNA，且针对每个必需基因都设计了一对gRNA以缺失启动子和第一外显子。pgRNA的设计原则和用于测定生长效果的方法与图5e中所述相同，余下附图中亦如此。数据展示为三个生物重复试验的平均值和标准差。星号代表在第15天与AAVS1_p1比较的P值，其使用t检验计算并使用Benjamini-Hochberg方法校正。*P<0.05；**P<0.01；***P<0.001；****P<0.0001；NS,不显著。b,还通过剪接靶向的策略验证了5种候选lncRNA的大片段缺失对细胞生长的影响。

图14.该图提供通过大片段缺失对候选lncRNA的验证，其中在K562细胞中6种候选lncRNA未通过剪接靶向的策略验证。

图15.该图展示了K562和GM12878细胞系中lncRNAs MIR17HG和BMS1P20的功能性剖析。a,前500个基因的表达模式在MIR17HG-和BMS1P20-KO(敲除)细胞及其对应的对照中表现出最高的变异性。b,K562和GM12878细胞中前100种必需lncRNA候选项的表达水平。c,MIR17HG-和BMS1P20-KO细胞中相比野生型K562细胞下调的必需基因的表达水平。d,显示MIR17HG-和BMS1P20-KO K562细胞间必需基因的下调的的维恩图(Veen diagram)。e,与GM12878细胞相比，K562细胞中BMS1P20的剪接靶向sgRNA感染后差异表达的火山图。黑色和灰色的点分别代表全部基因和差异表达的基因。f,K562细胞中下调(上图)和上调(下图)的基因的基因本体论(GO)术语和KEGG注释。

图16.该图阐述了K562和GM12878细胞中MIR17HG和BMS1P20的lncRNA敲除的RNA-seq概貌。a,MIR17HG-KO(敲除)、BMS1P20-KO和野生型K562细胞的基因表达水平的配对散点图。b,MIR17HG敲除、BMS1P20敲除和野生型GM12878细胞d，基因表达水平的配对散点图。c,K562细胞中感染剪接靶向MIR17HG和BMS1P20的sgRNA后显示下调的保守必需基因的基因本体和KEGG注释。d,BMS1P20-KO和野生型K562细胞间差异表达的火山图。e,BMS1P20-KO和野生型GM12878细胞间差异表达的火山图。

发明详述

定义

本发明基于特定的实施方案并参照附图进行说明，但本发明不限于此，但保护范围由权利要求限定。权利要求中的任何参考标记不应该理解为是对范围的限制。在附图中，为了说明的目的，一些元素的尺寸可能被夸大并且不按比例绘制。在本说明书和权利要求书中使用术语“包含”的情况下，其不排除其它元素或步骤。当提及单数名词时使用冠词例如“一个”、“一种”或“这个”、“这种”等表述方式，但该表述方式通常也包括该名词的复数情况，除非明确说明。

本发明还提供以下术语或定义用于帮助理解本发明。除非在本文中具体定义，本文使用的所有术语具有对于本发明技术领域的技术人员来说相同的含义。对于这些本领域的定义和术语，具体实践者可具体参考Sambrook等人,Molecular Cloning:A LaboratoryManual,第二版,Cold Spring Harbor Press,Plainsview,纽约(1989)；以及Ausubel等人,Current Protocols in Molecular Biology(Supplement 47),John Wiley&Sons,纽约(1999)。本文提供的定义不应理解为具有小于本领域技术人员所理解的范围。

术语“多核苷酸”、“核苷酸”、“核苷酸序列”、“核酸”和“寡核苷酸”可互换使用。其指任何长度的多聚形式的核苷酸，可以为脱氧核糖核苷酸或核糖核苷酸或其类似物。多核苷酸可具有任何三维结构，且可实施已知或未知的任何功能。下述为多核苷酸的非限制性实例：基因或基因片段的编码或非编码区、基因座、外显子、内含子、信使RNA(mRNA)、长非编码RNA(lncRNA)、转运RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微小RNA(miRNA)、核酶、cDNA、重组多核苷酸、支链多核苷酸、质粒、载体、经分离的任何序列的DNA、经分离的任何序列的RNA、核酸探针和引物。多核苷酸可包含一种或多种经修饰的核苷酸，如甲基化的核苷酸和核苷酸类似物。如果存在，对核苷酸结构的修饰可在多聚体组装之前或之后赋予。核苷酸的序列中可插入非核苷酸组分。多核苷酸在多聚化后可进一步修饰，如通过与标记组分的偶联。

在本发明的一方面，术语“嵌合RNA”、“嵌合指导RNA”、“指导RNA”、“单指导RNA”和“合成的指导RNA”可互换使用且指包含指导序列、tracr序列和tracr伴侣序列的多核苷酸序列。术语“指导序列”指在指定靶向位点的指导RNA内约20bp的序列，且可与术语“指导子”或“间隔子”互换使用。

如本文使用，“表达”指多核苷酸从DNA模板转录(如成为mRNA或其他RNA转录本)的过程和/或转录的mRNA随后翻译成为肽、多肽或蛋白的过程。转录本和编码的多肽可统称为“基因产物”。如果多核苷酸源自基因组DNA，表达可包括真核细胞中mRNA的剪接。

除非另外说明，本发明的实践采用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的常规技术，其在本领域的技术范围内。参见Sambrook,Fritsch and Maniatis,MOLECULAR CLONING:A LABORATORY MANUAL,2ndedition(1989)；CURRENT PROTOCOLS IN MOLECULAR BIOLOGY(F.M.Ausubel,等人eds.,(1987))；系列书籍METHODS IN ENZYMOLOGY(Academic Press,Inc.):PGR 2:A PRACTICALAPPROACH(M.J.MacPherson,B.D.Hames and G.R.Taylor eds.(1995)),Harlow and Lane,eds.(1988)ANTIBODIES,A LABORATORY MANUAL，以及ANIMAL CELL CULTURE(R.LFreshney,ed.(1987))^14-18。

本发明的数个方面涉及包含一种或多种载体的载体系统，或其中的载体。可设计载体用于在原核或真核细胞中表达CRISPR转录本(例如核酸转录本、蛋白或酶)。例如，CRISPR转录本可在诸如大肠杆菌的细菌细胞、昆虫细胞、酵母细胞或哺乳动物细胞中表达。适当的宿主细胞在Goeddel,GENE EXPRESSION TECHNOLOGY:METHODS IN ENZYMOLOGY 185,Academic Press,San Diego,Calif.(1990)¹⁹也有详细记载。可替换地，重组表达载体可在体外转录和翻译，例如，使用T7启动子调节序列和T7聚合酶。

在一些实施方案中，使用哺乳动物表达载体，载体能够驱动哺乳动物细胞中一种或多种序列的表达。哺乳动物表达载体的实例包括pCDM8²⁰和pMT2PC²¹。当在哺乳动物细胞中使用时，表达载体的调控功能主要通过一种或多种调节元件提供。例如，常用的启动子源自多瘤病毒、腺病毒2、巨细胞病毒、猴病毒40和本文中公开以及本领域中已知的其他启动子。用于原核和真核细胞二者中的其他适当的表达系统参见例如Sambrook,等人,MOLECULAR CLONING:A LABORATORY MANUAL.2nd ed.,Cold Spring Harbor Laboratory,Cold Spring Harbor Laboratory Press,Cold Spring Harbor,N.Y.,1989¹⁴中的16和17章。

一般而言，“CRISPR系统”统指CRISPR相关(“Cas”)基因的转录本及参与CRISPR相关基因的表达或指导其活动的其它元件，包括编码Cas基因的序列、tracr(反式激活CRISPR)序列(例如tracrRNA或活化的部分tracrRNA)、tracr-伴侣序列(在内源CRISPR系统的背景下涵盖“同向重复”和tracrRNA-处理的部分同向重复)、指导序列(在内源CRISPR系统的背景下还称为“间隔子”)或来自CRISPR基因座的其它序列和转录本。在一些实施方案中，CRISPR系统的一个或多个元件源自I型、II型或III型CRISPR系统。

在形成CRISPR复合物的背景下，“靶序列”指指导序列经设计以具有与其的互补性的序列，其中靶序列和指导序列间的杂交促进CRISPR复合物的形成。假设存在引起杂交并促进CRISPR复合物形成的足够的互补性，完全互补不是必须的。

典型地，在内源CRISPR系统的背景下，CRISPR复合物的形成(包括指导序列与靶序列杂交并与一个或多个Cas蛋白复合)导致靶序列中或靶序列附近(例如，距离靶序列1、2、3、4、5、6、7、8、9、10、20、50或更多碱基对的范围内)的一条链或两条链的切割。不希望受理论所限，tracr序列可包含野生型tracr序列的全部或其一部分(例如野生型tracr序列约或大于约20、23、26、29、32、35、38、41、44、47、50、53、56、59、62、65、70、75、80、85或更多个核苷酸)或由上述组成的tracr序列，还可形成CRISPR复合物的一部分，例如通过沿tracr序列的至少一部分与指导序列可操作连接的tracr伴侣序列的全部或一部分杂交。

在一些实施方案中，tracr序列与tracr伴侣序列具有足够的互补性以杂交并参与CRISPR复合物的形成。与靶序列相同，完全互补并不被认为是必须的，只要足以发挥其功能即可。在一些实施方案中，在最佳对齐的情况下，tracr序列沿tracr伴侣序列的长度具有至少50％、60％、70％、80％、90％、95％或99％的互补性。

在一些实施方案中，将驱动CRISPR系统的一个或多个元件表达的一个或多个载体引入宿主细胞进而CRISPR系统元件的表达指导CRISPR复合物在一个或多个靶位点形成。在另一实施方案中，所述宿主细胞经工程化以稳定表达Cas9和/或OCT1。

一般而言，指导序列是与靶多核苷酸序列具有足够的互补性以与靶序列杂交并指导CRISPR复合物与靶序列的序列特异性结合的任何多核苷酸序列。在一些实施方案中，当使用适当的比对算法做最佳比对时，指导序列及其相应靶序列间的互补程度为约或大于约50％,60％、75％、80％、85％、90％、95％、97.5％、99％或更多。最佳比对可使用用于比对序列的任何适当的算法确定，其非限制性实例包括Smith-Waterman算法、Needleman-Wimsch算法、基于Burrows-Wheeler Transform的算法(例如Burrows Wheeler Aligner)、ClustalW、Clustai X、BLAT、Novoalign(Novocraft Technologies,ELAND((Illumina,SanDiego,CA)、SOAP(可在soap.genomics.org.cn获得)和Maq(可在maq.sourceforge.net获得)。在一些实施方案中，指导序列长度可以为约或大于约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、70、75或更多个核苷酸。在一些实施方案中，指导序列长度少于约75、70、65、60、55、50、45、40、35、30、25、20、15、12或更少的核苷酸。指导序列指导CR1SPR复合物与靶序列的序列特异性结合的能力可通过任何适当的测定方法评估。例如，可向具有相应靶序列的宿主细胞提供足以形成CRISPR复合物的CRISPR系统的组件(包括待测试的指导序列)，如可通过使用编码CRISPR序列组件的载体转染，随后评估靶序列内的优先切割(如通过如本文所述的Surveyor测定)来进行。同样地，靶多核苷酸序列的切割可在试管中通过提供靶序列、CRISPR复合物(包含待测试的指导序列和不同于指导序列的对照指导序列)的组件，并比较测试和对照指导序列反应间靶序列的结合或切割率来评估。其他试验亦可用，并且会是本领域的技术人员可以想到的。

在一些实施方案中，CRISPR酶是包含一个或多个异源蛋白结构域的融合蛋白的一部分(例如，除CRISPR酶外约或多于约1、2、3、4、5、6、7、8、9、10或更多结构域)。CRISPR酶融合蛋白可包含任何额外的蛋白序列，以及任选地在任何两个结构域间的接头序列。可与CRISPR酶融合的蛋白结构域的实例包括但不限于表位标签、报告基因序列和具有一种或多种下述活性的蛋白结构域：甲基化酶活性、脱甲基酶活性、转录激活活性、转录抑制活性、转录释放因子活性、RNA切割活性和核酸结合活性。

在一些方面，本发明提供包括向宿主细胞递送一种或多种多核苷酸的方法，所述一种或多种多核苷酸为包括如本文所述载体在内的一种或多种构建体，其一种或多种转录本和/或由其转录的一种或多种蛋白。本发明可作为基于DNA的基因组的靶向修饰的基础平台使用。其可与任何递送系统配合使用，包括但不限于病毒、脂质体、电穿孔、微注射和偶联。在一些方面，本发明进一步提供由这样的方法产生的细胞，和包含这些细胞或由这些细胞产生的生物体(如动物、植物或真菌)。在一些实施方案中，将与指导序列组合(以及任选地与其复合)的CRISPR酶递送至细胞。可使用常规的病毒和不基于病毒的基因转移方法将核酸引入哺乳动物细胞或靶组织。这样的方法可用于施用编码CRISPR系统组件的核酸至培养基中或宿主生物体中的细胞。非病毒载体递送系统包括DNA质粒、RNA(例如本文所述的载体转录本)、裸核酸和与递送载体，如脂质体，复合的核酸。病毒载体递送系统包括DNA和RNA病毒，其具有游离基因或整合的基因组以递送至细胞。

核酸的非病毒递送方法包括脂质转染、核转染、微注射、基因枪、病毒颗粒、脂质体、免疫脂质体、聚阳离子或脂质:核酸偶联物、裸DNA和人工病毒粒子。

使用基于RNA或DNA病毒的系统递送核酸具有使病毒靶向机体特定细胞并将病毒载荷运输到细胞核的高效优势。

在优选的实施方案中，本发明的靶标包括长非编码RNA(lncRNA)，其代表一类长转录RNA分子，例如长度超过200个核苷酸的RNA分子。其大小使lncRNA与小调节性RNA如微小RNA(miRNA)、短干扰(miRNA)、Piwi-相互作用RNA(piRNA)、小核仁RNA(snoRNA)、短发夹RNA(shRNA)和其它短RNA相区别。lncRNA可以序列特异性的方式通过与DNA或RNA结合或通过与蛋白结合发挥功能。与miRNA相反，lncRNA看起来并非以通常的作用模式起作用，但可以多种方式调节基因表达和蛋白合成。

基于其相对蛋白编码基因的位置可将lncRNA分为下述基因座生物型。基因间lncRNA，其在遗传上从两条链转录；内含子lncRNA，其完全由蛋白编码基因的内含子转录；正义lncRNA，其从蛋白编码基因的正义链转录并包含与蛋白编码基因部分重叠的来自蛋白编码的基因的外显子或通过内含子覆盖蛋白编码基因的完整序列；和反义lncRNA，其从与外显子或内含子区重叠的蛋白编码基因的反义链转录，或通过内含子覆盖完整的蛋白编码序列。人转录组分析的近期研究显示蛋白编码序列仅占小部分的基因组转录本。多数人基因组转录本为非编码RNA。

术语“lncRNA”广义上是指本发明的靶标并包括“lncRNA基因”以及其产生的“lncRNA转录本”。

如本文所用，术语“外显子”指基因中将编码最终的成熟RNA(由RNA剪接去除内含子后的基因产生)的一部分的基因的任何部分。术语外显子指基因内的DNA序列以及RNA转录本中相应的序列。在RNA剪接中，去除内含子而外显子彼此作为生成成熟信使RNA的部分共价接合。

“内含子”是最终的RNA产物成熟过程中由RNA剪接去除的基因内的任何核苷酸序列。术语内含子指基因内的DNA序列和RNA转录本中的相应序列。RNA剪接后，序列在最终的成熟RNA中接合在一起。内含子发现于大多数生物体和多种病毒的基因中，且可位于多种基因中，包括那些生成蛋白、核糖体RNA(rRNA)、长非编码RNA(lncRNA)和转运RNA(tRNA)的基因中。当从包含内含子的基因生成蛋白时，RNA剪接是转录后及翻译前RNA加工通路的一部分。

如本文所用的术语“剪接”意为将新生的前体RNA(pre-mRNA)编辑为成熟的RNA，例如，将新生的前体信使RNA(pre-mRNA)转录本编辑为成熟的信使RNA(mRNA)。对于大多真核内含子，剪接在由剪接体(小核核糖核蛋白(snRNP)的复合物)催化的一系列反应中实施。剪接体内含子通常位于真核生物蛋白编码基因的序列之内。在内含子之内，对于剪接必须的是供体位点(内含子的5'末端)、分支位点(靠近内含子的3'末端)和受体位点(内含子的3'末端)。在更大的、不太高度保守的区域之内，剪接供体(SD)位点包括内含子5'末端几乎不变的序列GT。内含子3'末端的剪接受体(SA)位点以几乎不变的AG序列终止内含子。AG的上游(5'-方向)存在富含嘧啶(C和T)或多聚嘧啶束的区域。多聚嘧啶束更上游是分支点，其包含参与套索形成的腺嘌呤核苷酸^22,23。

核pre-mRNA内含子以位于内含子和外显子边界处的特定内含子序列为特征。当剪接反应开始时，这些序列由剪接体RNA分子识别。多数剪接体剪接在5'剪接位点处包含GT和在3'剪接位点包含AG的内含子，且该类剪接称为经典剪接或称为套索通路，99％以上的剪接是这样的剪切。相比之下，当内含子侧翼序列不遵循GT-AG规则时，据称发生非经典剪接，占剪接中不到1％的比例²⁴。

我们使用Weblogo3工具的生物信息学分析显示人基因组中约99％的内含子区在5’位点侧翼为GT且在3’位点侧翼为AG。这些内含子区适用于编码基因和非编码RNA。

外显子跳跃是RNA剪接的形式，其引起最终的RNA“跳过”一个或多个外显子，而内含子保留则是其中内含子在剪接后仍保留在最终的RNA中的RNA剪接形式。

剪接由pre-mRNA上的反式作用蛋白(阻遏蛋白和活化蛋白)和相应的顺式作用调节位点(沉默子和增强子)调节。然而，作为选择性剪接复杂性的一部分，值得注意的是剪接因子的作用经常是位置依赖性的。也就是说，在外显子的背景中，当与内含子增强子元件结合时，作为剪接活化蛋白发挥作用的剪接因子在与其剪接元件结合时可作为阻遏蛋白发挥作用，反之亦然²⁵。pre-mRNA转录本的二级结构也在调节剪接中起作用，如通过将剪接元件汇集在一起或通过掩蔽一种序列起作用，所述序列如果不被掩蔽的话会作为剪接因子的结合元件发挥作用²⁶。总之，这些元件形成控制在不同细胞条件下剪接如何发生的“剪接密码”²⁷。

真核细胞中基因的修饰

本发明的方法涉及有效递送靶向剪接位点的sgRNA以产生外显子跳跃和/或内含子保留来干扰基因，例如编码基因或非编码基因。对于编码lncRNA的基因，所述方法可有效影响lncRNA的功能。

为评估CRISPR筛选中剪接靶向的效力，我们设计了靶向79个核糖体基因剪接位点的饱和文库，所述基因中大多数对于多种细胞系中的细胞生长是必需的。该文库包含5,788个sgRNA，其切割位点在这79个基因的每个5’SD(剪切供体)位点周围的50-bp至+75-bp和每个3’SA(剪切受体)位点周围的50-bp至+75-bp内。显然，影响剪接位点的sgRNA优于仅靶向外显子区域的sgRNA，并且从sgRNA切割位点到剪接位点的距离越接近，其破坏基因的效果越好，对于SD和SA的情况，峰值点略微趋向外显子。

CRISPR/Cas9作用机制和文库筛选原理

本发明的方法利用了CRISPR/Cas系统。Cas9是来自微生物II型CRISPR(成簇规律间隔的短回文重复)系统，其已显示当与单指导RNA(gRNA)配对时切割DNA。gRNA包含17-21bp的序列，其指导Cas9至基因组中的互补区域，因此允许特异性生成双链断裂(DSB)位点，其通过细胞非同源末端连接(NHEJ)机制以易错的方式修复。Cas9主要切割gRNA序列后为PAM序列(-NGG)的基因组位点。NHEJ-介导修复Cas9诱导的DSB，诱导切割位点处发生多种不同突变，所述切割位点通常为较小(<10bp)的插入/缺失(indel)但也可包括较大的(>100bp)插入/缺失(indel)和单个碱基的改变。

本发明剪接靶向的方法可用于筛选基因组中的多个(例如数千个)序列，由此阐明这些序列的功能。在一些实施方案中，本发明的剪接靶向方法涉及通过使用CRISPR/Cas9系统对长链非编码RNA的高通量筛选以鉴定存活、增殖或耐药性等所需的基因。在筛选中，例如通过慢病毒载体将靶向目的基因内数万剪接位点的gRNA作为集合与Cas9共同递送入靶细胞。选择预期的表型后通过鉴别在细胞内富集或消耗的gRNA，可以系统性鉴别该表型所需的基因。

在以上述高通量CRISPR/Cas9为基础的方法中，可将gRNA文库克隆入慢病毒载体。在这种情况下，需要降低感染复数(MOI)以限制单个细胞中指导RNA的数目，通常每个细胞仅具有单个指导RNA。在每个细胞中整合gRNA是随机的，从而容许每个细胞仅表达一种gRNA的混合筛选(pooled screen)。值得注意的是，本发明的靶向剪接位点的基于gRNA的基因组高通量筛选也可用于其他针对编码基因和调控基因的基于CRISPR的高通量筛选。

指导RNA

如本领域已知，CRISPR/Cas系统核酸酶需要指导RNA切割基因组DNA。这些指导RNA由下述构成：(1)可变序列(引导序列)的19-21个核苷酸的间隔子(指导子)，其使CRISPR/Cas系统核酸酶以序列特异性的方式靶向基因组位点，和(2)不变的发卡序列，其在指导RNA之间恒定，并容许指导RNA与CRISPR/Cas系统核酸酶结合。在CRISPR/Cas核酸酶的存在时，指导RNA触发细胞中基于CRISPR/Cas的基因组切割事件。

基于预期的靶序列选择或设计指导序列。在一些实施方案中，所述靶序列是剪接位点周围的序列，例如编码细胞基因组内lncRNA的基因的SD位点周围-50-bp至+75-bp的区域，优选SD位点周围-30-bp至+30-bp的区域，且最优选为SD位点周围-10-bp至+10-bp的区域；SA位点周围-50-bp至+75-bp的区域，优选SA位点周围-30-bp至+30-bp的区域，且最优选为SA位点周围-10-bp至+10-bp的区域。示例性的靶序列包括靶基因组中那些特有的序列。

例如，对于化脓性链球菌(S.pyogenes)Cas9，基因组中特有的靶序列可包括形式为M8N12XGG的Cas9靶位点，其中N12XGG(N是A、G、T或C；且X可以为任一种)在基因组中具有单发生率。基因组中的特有靶序列可包括形式M9N11XGG的化脓性链球菌Cas9靶位点，其中N11XGG(N是A、G、T或C；且X可以为任一种)在基因组中具有单发生率。

对于嗜热链球菌(S.thermophilus)CRISPR1 Cas9，基因组中的特有靶序列可包括形式M8N12XXAGAAW的Cas靶位点，其中N12XXAGAAW(N是A、G、T或C；且X可以为任一种，且W为A或T)在基因组中具有单发生率。基因组中的特有靶序列可包括M9N11XXAGAAW形式的嗜热链球菌CRISPR1 Cas9靶位点，其中N12XXAGAAW(N是A、G、T或C；且X可以为任一种，且W为A或T)在基因组中具有单发生率。

对于化脓性链球菌Cas9，基因组中的特有靶序列可包括形式M8N12XGGXG的靶位点，其中N12XGGXG(N是A、G、T或C；且X可以为任一种)在基因组中具有单发生率。基因组中特有靶序列可包括M9N11XGGXG形式的化脓性链球菌Cas9靶位点，其中N12XGGXG(N是A、G、T或C；且X可以为任一种)在基因组中具有单发生率。在这些序列的每一种中，“M”可以是A、G、T或C，且在将序列认定为特有序列时无需考虑。

应当理解的是，任何发夹序列均可使用，只要其可由CRISPR/Cas核酸酶识别和结合。

指导RNA构建体

在一些实施方案中，本发明涉及指导RNA构建体。所述指导RNA构建体可包含(1)指导序列和(2)指导RNA发夹序列，和任选的(3)能够开始指导RNA转录的启动子序列。指导RNA发夹序列的非限制性实例为Chen等人Cell.2013Dec 19；155(7):1479-91中所述的FE发夹序列。启动子的实例为人U6启动子。

在一些实施方案中，本发明涉及CRISPR/Cas指导构建体，其包含(1)指导序列和(2)指导RNA发夹序列，和任选的(3)能够开始指导RNA转录的启动子序列，其中所述指导序列靶向真核细胞基因组中剪接位点周围的序列，例如所述指导序列靶向编码lncRNA的基因的SD位点或SA位点周围-50-bp至+75-bp的区域，优选SD位点或SA位点周围-30-bp至+30-bp的区域，且最优选SD位点或SA位点周围-10-bp至+10-bp的区域。在一些实施方案中，指导序列靶向编码真核细胞基因组中长非编码RNA的基因的剪接位点以诱导外显子跳跃和/或内含子保留，并以此破坏所述长非编码RNA。在一些实施方案中，所述真核细胞基因组是人基因组。在一些实施方案中，所述指导序列长度为19-21个核苷酸。在一些实施方案中，所述发夹序列长度为约40个核苷酸且一旦转录可与CRISPR/Cas核酸酶结合。

CRISPR/Cas系统核酸酶

在一些实施方案中，CRISPR/Cas核酸酶是II型CRISPR/Cas核酸酶。在一些实施方案中，CRISPR/Cas核酸酶是Cas9核酸酶。在一些实施方案中，Cas9核酸酶是肺炎链球菌，化脓性链球菌或嗜热链球菌Cas9，且可包括源自这些生物体的突变的Cas9。所述核酸酶可以是Cas9的功能性等价变体。在一些实施方案中，所述CRISPR/Cas核酸酶经过了密码子优化以在真核细胞中表达。在一些实施方案中，CRISPR/Cas核酸酶导致靶序列位置处一条或两条链的切割。CRISPR/Cas系统核酸酶包括但不限于Cas9和Cpfl。

报告基因和蛋白，以及体现

在一些实施方案中，报告基因可使用CRISPR/Cas机制整合入细胞。例如，可使用表达载体，如质粒，其包含启动子(例如U6启动子)、指导RNA发夹序列和靶向预期基因组基因座的指导序列，所述基因座将整合入所述报告子构建体。这样的表达载体可通过将指导序列克隆入包含其它元件的表达构建体来制备。可生成包含报告子蛋白编码序列DNA片段，其随后经修饰以包括在报告蛋白编码序列侧翼的同源臂。将指导RNA表达载体，包含编码报告蛋白的序列的扩增DNA片段和CRISPR/Cas核酸酶(或编码核酸酶的表达载体)引入宿主细胞(例如经由电穿孔)。表达载体可进一步包含额外的选择标记物，如抗生素抗性标记物，以富集成功传染有表达载体的细胞。可进一步选择表达报告蛋白的细胞。

报告基因被用于鉴别被潜在转染的细胞并用于评估调节序列的功能。一般而言，报告基因对于宿主细胞不是内源或原有的基因，并且其编码的蛋白可被容易地测定。编码容易测定的蛋白的报告子基因为本领域已知，其包括但不限于绿色荧光蛋白(GFP)、谷胱甘肽S转移酶(GST)、辣根过氧化物酶(HRP)、氯霉素乙酰转移酶(CAT)β-半乳糖苷酶、β-葡糖苷酸酶、荧光素酶、HcRed、DsRed、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)和包括蓝色荧光蛋白(BFP)的自发荧光蛋白、细胞表面标记物、如neo抗生素的抗性基因，等等。

表达载体

术语“载体”指能够运输与其连接的另一核酸的核酸分子。载体包括但不限于为单链、双链或部分双链的核酸分子；包含一个或多个自由末端、无自由末端(例如环形)的核酸分子；包含DNA、RNA或二者兼有的核酸分子；以及其他各种本领域已知的多核苷酸。一种类型的载体为“质粒”，其指其中如通过标准分子克隆技术插入额外DNA区段的环状双链DNA环。一些载体能够在其所引入的宿主细胞中自我复制(例如，具有细菌的复制起点的细菌载体和附加型哺乳动物载体)。当引入宿主细胞时，其它载体(例如非游离型哺乳动物载体)整合入宿主细胞的基因组，并由此与宿主基因组共同复制。此外，一些载体能够指导其可操作连接的基因的表达。这样的载体在本文称为“表达载体”。重组DNA技术中的表达载体经常采取质粒的形式。

重组表达载体可包含本发明所述的核酸，其形式适于在宿主细胞中表达所述核酸，这意味着所述重组表达载体包括一个或多个调节元件，可根据用于表达的宿主细胞进行选择，其与待表达的核酸序列可操作连接。在重组表达载体内，“可操作连接”旨在将目的的核苷酸序列与调节元件以容许核苷酸表达的方式连接(例如在体外转录/翻译系统或当所述载体引入宿主细胞时在宿主细胞中表达)。

宿主细胞

事实上，任何真核细胞类型都可以用作宿主细胞，只要其可在体外培养并如本文所述进行修饰。优选地，所述宿主细胞为预先建立(pre-established)的细胞系。所述宿主细胞和细胞系可以是人细胞或细胞系，或其可以为非人的，哺乳动物细胞或细胞系。

实施例

材料和方法

1.细胞和试剂

来自Z.Jiang实验室(北京大学)的HeLa细胞系培养于Dulbecco’s modifiedEagle’s培养基(DMEM,Gibco C11995500BT)中。来自S.Cohen实验室(斯坦福大学医学院)的Huh 7.5细胞系培养于补充有1％MEM非必需氨基酸(NEAA,Gibco 1140-050)的DMEM(Gibco)中。来自H.Wu实验室(北京大学)的K562细胞和来自Coriell细胞库的GM12878细胞培养于RPMI1640培养基(Gibco11875-093)中。全部细胞都辅以10％的胎牛血清(FBS,CellMaxBL102-02)和1％青霉素/链霉素，在37℃的5％CO₂中培养。

2.用于测试内含子保留或外显子跳跃的逆转录PCR(RT-PCR)

将sgRNA克隆入携带CMV启动子驱动的mCherry标记物的慢病毒表达载体，随后以MOI<1通过病毒感染转导HeLa_OC细胞^1-4，感染后72小时，FACS分选mCherry阳性细胞并使用RNAprep纯化细胞/细菌试剂盒(TIANGEN DP430)提取每个样品的总RNA。使用QuantscriptRT试剂盒(TIANGEN KR103-04)从2μg的总RNA合成cDNA，并使用TransTaq HiFi DNA聚合酶(TransGen AP131-13)实施RT-PCR反应。

靶向RPL18或RPL11基因的sgRNA序列：

sgRNA1_RPL18:5’-GGACCAGCCACTCACCATCC(SEQ ID No.1)

sgRNA2_RPL18:5’-AGCTTCATCTTCCGGATCTT(SEQ ID No.2)

sgRNA3_RPL11:5’-TCCTTGTGACTACTCACCTT(SEQ ID No.3)

sgRNA4_RPL11:5’-AACTCATACTCCCGCACCTG(SEQ ID No.4)

用于RT-PCR的引物:

1F:5’-CTGGGTCTTGTCTGTCTGGAA(SEQ ID No.5)；

1R:5’-CTGGTGTTTACATTCAGCCCC(SEQ ID No.6)；

2F:5’-GGCCAGAAGAACCAACTCCA(SEQ ID No.7)；

2R:5’-GACAGTGCCACAGCCCTTAG(SEQ ID No.8)；

3F:5’-TCAAGATGGCGTGTGGGATT(SEQ ID No.9)；

3R:5’-GACCAGCAAATGGTGAAGCC(SEQ ID No.10)；

4F:5’-GATCCTTTGGCATCCGGAGA(SEQ ID No.11)；

4R:5’-GCTGATTCTGTGTTTGGCCC(SEQ ID No.12)。

3.必需核糖体基因的剪接靶向sgRNA文库的构建和筛选

从NCBI检索了79个核糖体基因的注释。我们扫描了靶向这79个基因的每个5’SD位点周围-50-bp至+75-bp和每个3’SA位点周围-75-bp至+50-bp的全部潜在的sgRNA，所述基因包括：

RPL10、RPL10A、RPL11、RPL12、RPL13、RPL13A、RPL14、RPL15、RPL17、RPL18、RPL18A、RPL19、RPL21、RPL22、RPL22L1、RPL23、RPL23A、RPL24、RPL26、RPL26L1、RPL27、RPL27A、RPL28、RPL29、RPL3、RPL30、RPL31、RPL32、RPL34、RPL35、RPL35A、RPL36、RPL36A、RPL36AL、RPL37、RPL37A、RPL38、RPL39、RPL39L、RPL3L、RPL4、RPL41、RPL5、RPL6、RPL7、RPL7A、RPL7L1、RPL8、RPL9、RPS10、RPS11、RPS12、RPS13、RPS14、RPS15、RPS15A、RPS16、RPS19、RPS2、RPS20、RPS21、RPS23、RPS24、RPS25、RPS26、RPS27、RPS27A、RPS27L、RPS28、RPS29、RPS3、RPS3A、RPS4X、RPS4Y1、RPS4Y2、RPS5、RPS6、RPS7、RPS8。我们确保全部sgRNA与人类基因组的任何其他基因座具有至少2个错配。为呈现文库中sgRNA的天然切割效力，设计中不考虑GC含量。使用CustmoArray 12K阵列芯片(CustmoArray,Inc.)合成靶向79个核糖体基因的共5,788个sgRNA。此处以79个核糖体基因中的RPL18基因为例阐述sgRNA的设计。

表1

在表达Cas9的HeLa和Huh7.5细胞中通过MOI<0.3的慢病毒递送构建了携带这些sgRNA的细胞文库²⁸，最小覆盖为400×。病毒感染后72小时，通过FACS(BD)对所述细胞根据mCherry⁺进行分选。使用DNeasy Blood和Tissue试剂盒(QIAGEN 69506)收集每个文库的对照细胞(2.4×10⁶)用于基因组DNA提取，且在提取基因组DNA前持续培养试验细胞达15天。对于每个重复，通过TransTaq HiFi DNA聚合酶(TransGen AP131-13)PCR扩增整合入的慢病毒的sgRNA编码区，并如之前所述进一步使用DNA Clean&Concentrator-25(ZymoResearch Corporation D4034)纯化^4,9。使用用于Illumina(NEB E7370L)的NEBNext UltraDNA Library Prep试剂盒制备获得的文库用于高通量测序分析(Illumina HiSeq2500)。

4.基因组规模的人类lncRNA文库的设计和构建

从包含14,470个lncRNA的GENCODE数据集V20中检索了lncRNA的注释。在该数据集中，在第一过滤步骤中去除了无剪接位点的2477个lncRNA。对于剩余的lncRNA，设计了靶向每个5’SD位点和3’SA位点周围-10-bp至+10-bp区的全部潜在的20-nt sgRNA。为确保切割效率和特异性，我们仅保留与基因组中其他基因座具有至少2个错配的sgRNA，其GC含量在20％-80％，且去除了那些包含≥4-bp T的核苷酸同聚物的sgRNA。为实现最佳覆盖，保留了某些与其它基因座具有1-bp或0-bp错配的sgRNA，只要其不靶向K562细胞系的任何必需基因¹⁵且错配位点的总数少于2。最终合成了靶向10,996lncRNA的共126,773个sgRNA。在该文库中，我们还包括了500个人基因组中非靶向的sgRNA作为阴性对照，和350个靶向36个必需核糖体基因的sgRNA作为阳性对照。使用CustmoArray 90K阵列芯片(CustmoArray,Inc.)合成了寡核苷酸，且文库构建如上文所述。

5.基因组规模的lncRNA筛选

两次重复各自将共5×10⁸个K562细胞接种于175cm²烧瓶(Corning431080)。24小时后用MOI小于0.3(1000x覆盖)的sgRNA文库慢病毒感染细胞。感染后48小时，用嘌呤霉素处理(3μg/ml；Solarbio P8230)处理文库细胞达2天。对于每个重复，收集共1.3×10⁸个细胞作为第0天的对照样品用于基因组提取。病毒感染后30天，分离1.3×10⁸个试验细胞用于基因组提取和NGS分析^4,9。

6.筛选的计算机分析

将测序读取映射至hg38参考基因组并通过自制脚本解码。对两个重复中的sgRNA计数进行分位数标准化，随后计算了平均计数以及试验和对照组间的倍数变化。通过随机抽取10个阴性对照sgRNA(每个基因替换)生成1000个阴性对照基因。随后基于下述标准过滤了噪音sgRNA：如果在一个重复中sgRNA的倍数变化低于阳性对照sgRNA中的平均倍数变化且在另一个重复中高于阴性对照sgRNA的平均倍数变化，则将sgRNA视为过滤的噪音sgRNA。噪音过滤后对于每个lncRNA，我们通过Wilcox测试比较了相对于阴性对照的sgRNA倍数变化，并使用通过阴性对照生成的经验分布校正了p值以减少假阳性率。我们最终将筛选评分定义为：筛选评分＝规模(-log₁₀(校正的p-值))+|规模(log₂(sgRNA倍数变化))|。我们将那些具有高于2的筛选评分的入选项认定为必需lncRNA。

7.lncRNA入选项的验证

自文库选择排名前二的sgRNA用于剪接策略的验证，所述sgRNA对基因组中的任何其它基因座具有至少2个错配。对于pgRNA缺失策略，设计pgRNA以缺失每个lncRNA的启动子和第一外显子。我们根据下述原则设计了gRNA对：(1)一个sgRNA靶向转录起始位点(TSS)上游2.5-3.5kb区且另一个靶向TSS下游0.2-1.5kb区；(2)避免与任何编码或非编码基因的外显子或启动子重叠。对于所述pgRNA对的每个sgRNA，我们进一步确保(1)GC含量为45％-70％，(2)sgRNA不包括≥4-bp的同聚物，且(3)sgRNA包含多于2个与人基因座中的任何其它基因座的错配。我们将一些具有与其它基因座的2个错配但脱靶位点少于2的sgRNA包括在内。

将待验证的靶向所选lncRNA的全部sgRNA或pgRNA单独克隆入具有由CMV启动子驱动的EGFP标记的慢病毒载体。病毒包装后，将sgRNA或pgRNA慢病毒以<1.0的MOI转导入K562或GM12878细胞。细胞增殖试验如之前文献的描述⁹。

8.RNA测序和数据分析

将靶向lncRNA MIR17HG和BMS1P20的剪接位点的两种sgRNA分别克隆入具有EGFP标记的慢病毒载体。将sgRNA通过慢病毒感染(MOI<1)递送入K562或GM12878细胞。感染后5天通过FACS分选2×10⁶个EGFP阳性K562或GM12878细胞。使用RNeasy Mini试剂盒(QIAGEN79254)提取每个样品的总RNA，并依照NEBNext PolyA mRNA Magnetic Isolation Module(NEB E7490S)、NEBNext RNA First Strand Synthesis Module(NEB E7525S)、NEBNextmRNA Second Strand Synthesis Module(NEB E6111S)和用于Illumina的NEBNext UltraDNA Library Prep试剂盒(NEB E7370L)制备了RNA-seq文库。使用Illumina HiSeq X Ten平台(Genetron Health)对全部样品进行NGS分析。将深度测序读数映射至hg38参考基因组并通过RSEM v1.2.25³⁰量化基因的表达。通过EBSeq版本1.10.0³¹实施差异表达分析且差异表达的基因选自已校正P值<0.05且绝对log₂(倍数变化)>3的那些。通过DAVID 6.8³²实施基因本体(Gene Ontology)和KEGG分析。

结果

与公知常识一致，存在标志着剪接位点的保守序列，我们使用Weblogo3工具³³的生物信息学分析显示，人基因组中约99％的内含子区在5’剪接供体(SD)位点侧翼为GT且在3’剪接受体(SA)位点侧翼为AG。值得注意的是，AG序列主要作为上游紧邻SD位点的外显子的最后两个碱基而存在(图1a)。为确认sgRNA在产生外显子跳跃和/或内含子保留中的有效性，我们设计了靶向两种核糖体基因RPL18和RPL11的SD或SA位点的sgRNA，所述基因对于细胞生长和增殖都是不可或缺的。在稳定表达Cas9和OCT1基因⁴的HeLa细胞中，靶向SD位点的sgRNA1_RPL18和靶向SA位点的sgRNA2_RPL18在基因组中RPL18基因座上分别生成了内含子3保留和外显子4跳跃，其通过逆转录PCR(RT-PCR)和Sanger测序分析均得以确认。从在RPL11基因上的相似尝试获得了相同的结果，其中sgRNA3_RPL11和sgRNA4_RPL11在RPL11基因座上分别产生了内含子2保留和外显子4跳跃。图1b显示了由靶向剪接供体(SD)或剪接受体(SA)位点的sgRNA诱导的内含子保留和外显子跳跃。

为进一步评估CRISPR筛选中靶向剪接的效力，我们设计了靶向79个核糖体基因的剪接位点的饱和文库，所述79个核糖体基因在多种细胞系中对于细胞生长是必需的²⁹。该文库包含5,788种sgRNA，其切割位点在这79个基因每个5’SD位点周围的-50-bp至+75-bp内和每个3’SA位点的-75-bp至+50-bp内，sgRNA的示例参见表1。

通过MOI(感染复数)<0.3的慢病毒递送，在表达Cas9的HeLa细胞和Huh7.5细胞中构建了携带这些sgRNA的细胞文库。通过长达15天文库细胞的延长细胞培养进行筛选，并且基于NGS分析，破译导致细胞活力下降的sgRNA。

通过计算15-天试验样本(Exp)和对照样本(Ctrl)间sgRNA的log₂倍数变化，我们对全部sgRNA进行了排序并根据sgRNA切割位点和其相应的SD或SA位点间的距离(碱基对的个数)进行了比对。HeLa和Huh7.5两种细胞中Ctrl和Exp的生物重复试验之间的Spearman相关性显示，全部结果都是高度可重复的(图2)。为体现剪接靶向对基因破坏的有效性，我们合并了全部靶向SD位点的数据和靶向SA位点的数据，并根据其相对于SD或SA位点的物理距离对其进行了排列(图3)。显然，在HeLa和Huh7.5细胞中，影响剪接位点的sgRNA优于那些仅靶向外显子区的sgRNA。sgRNA的切割位点与剪接位点的距离越近，其对基因破坏的效果越好，其中对于SD和SA两种情况，峰值点都略微趋向外显子(图3)。相比之下，靶向内含子的大量sgRNA在筛选过程中很少耗尽，表明其对基因破坏以及因此造成的基因功能丧失对细胞存活的影响小。仅有的例外是那些靶向靠近SA位点的内含子区域的sgRNA^34,35，其包括随后是多聚嘧啶束的分支点，已知该分枝位点参与RNA剪接。

由于针对任何基因座设计的sgRNA的数目并不相等，为公平比较，我们对比了每个基因座的高效sgRNA(超过4倍丢失量的sgRNA)的百分比。通过如此标准化，我们进一步确认了靶向SD和SA的sgRNA大大优于仅靶向外显子区的那些(图4a)。为更好量化我们的结果，我们将全部sgRNA分为三类：靶向内含子的sgRNA(sgRNA的切割位点在内含子内且距离SD或SA位点至少30-bp)、靶向外显子的sgRNA(sgRNA的切割位点在外显子内且距离SD或SA位点至少30-bp)和靶向剪接的sgRNA(sgRNA的切割位点在SD或SA位点侧翼-10-bp至+10-bp间，且-和+分别指内含子和外显子方向)。在HeLa和Huh7.5细胞，导致超过2或4倍丢失量的sgRNA中，剪接靶向的sgRNA的百分比相较于其他两类高得多(图4b,4c)。

基于上述结果，我们推断该策略应普遍适用于编码基因和非编码RNA，这是由于RNA剪接在二者中都是非常保守的机制。假设靶向剪接位点将可能使得人细胞中的lncRNA功能通过外显子跳跃和/或内含子保留被破坏，我们设计并构建了特别的靶向剪接sgRNA文库以建立基因组规模的lncRNA功能性筛选。从GENCODE数据库V20检索的14470中lncRNA中，我们首先过滤掉2,477个缺乏剪接位点的lncRNA。我们还遵循了数项其它规则：全部sgRNA切割位点都在剪接位点周围-10-bp至+10-bp内，且预测sgRNA具有高切割活性²⁹,36^,37且没有对任何已知必需基因的脱靶¹⁵(参见方法部分)。我们最终制备了包含126,773种sgRNA的文库，其靶向10,996种独特的lncRNA。与500种非靶向的对照sgRNA和350种靶向必需核糖体基因的sgRNA一起，我们在经工程化改造稳定表达Cas9蛋白的K562细胞中构建了细胞文库(图5a和图2a)。通过以<0.3的低MOI进行慢病毒转导制备了细胞文库。感染后我们连续培养文库细胞达30天以筛选影响细胞生长和增殖的那些lncRNA。随后采用NGS分析用于sgRNA解码^4,9(图5b)。

培养30天后，靶向lncRNA和必需基因的sgRNA相比非靶向的sgRNA都有所消耗(图5c、5d)，表明其对细胞存活或增殖的影响。对于每种lncRNA，我们通过与非靶向sgRNA比较经由Wilcoxon检验计算了sgRNA的倍数并获得了其P值。我们随机对非靶向sgRNA进行了取样以生成“阴性对照基因”，由此通过其分布校正了lncRNA的P值。对于每种lncRNA，通过结合平均倍数变化和校正的P值计算了筛选评分(参见方法部分)。由此基于筛选评分为2的阈值选择了共243种候选lncRNA，其消耗会在K562细胞系中导致细胞生长抑制或细胞死亡(图5e)。根据筛选评分，全部36种必需基因在阴性选择基因的排名列表中显著富集，表明了筛选方式和数据分析方法的可靠性。

从对应sgRNA在两个重复中始终消耗的阴性选择lncRNA中，我们选择了35个高排名lncRNA基因用于进一步验证。对于每个候选项，我们将自文库筛选获得的两种高排名sgRNA克隆入具有EGFP选择标记的慢病毒骨架。选择非靶向sgRNA和靶向非功能性腺病毒相关病毒整合位点1(AAVS1)基因座的sgRNA作为阴性对照，并包括了靶向核糖体基因RPL18的sgRNA作为阳性对照(图6a)。将每种sgRNA转导入K562细胞，并基于EGFP阳性细胞变化的百分比量化了细胞增殖。为进一步考察癌细胞和正常细胞间lncRNA功能的差异，我们将淋巴样干细胞GM12878包括在内用于验证，该细胞具有相对正常的核型并和K562一样^24,25属于1级ENCODE细胞系。值得注意的是，靶向35种最高排名的lncRNA基因座的全部sgRNA都有效导致了K562细胞的细胞增殖(图6b,c和图7-12)。其中，18种lncRNA对于GM12878的生长也表现为必需(图6b和图7-10)，而6个和11个lncRNA入选项在GM12878中对细胞活力分别显示出较弱的(图10)和不可检测的影响(图6c和图11-12)。这些结果表明存在细胞类型特异性。总之，约一半的对K562必需的lncRNA对GM12878细胞的生长不具有显著影响，显示出具有治疗潜力的癌细胞独特生物标志物(图6d)。

为进一步确认我们的验证试验以及筛选策略(其均依赖于剪接干扰)，我们选择了pgRNA介导的缺失方法⁹以独立地研究来自我们筛选的lncRNA入选项的作用。我们从已验证的35个入选项中选择了6种lncRNA，以及来自排名靠前的入选项的另外6个因其排名靠前的剪接靶向sgRNA具有一定脱靶性而未包括于上述验证种的候选项。针对这12种lncRNA的每一种设计了四对pgRNA以缺失其启动子和第一外显子(参见方法部分)。选择AAVS1基因座或核糖体基因RPL19和RPL23A分别作为pgRNA靶向的阴性对照或阳性对照(图13a)。通过细胞增殖试验，来自35种经验证的入选项的6种lncRNA再现了靶向剪接策略验证的表型(图6e和图13b)。来自靶向剪接的验证结果与来自缺失策略的结果具有很好的相关性(相关系数＝0.93,P＝0.002)(图6f)，表明靶向剪接的对于lncRNA基因破坏而言是可靠且强效的方法。同样，我们证实了其它6种候选lncRNA对于K562细胞的生长也是重要的(图14)。至此，全部41种入选lncRNA经确认对于K562细胞的生长和增殖都是至关重要的。

为更好地理解在K562和GM12878细胞中导致这些不同表现的机制，我们进一步探索了对于两种细胞系都必需的lncRNA MIR17HG(图6b)和仅对于K562的细胞存活必需而在GM12878(图6c)非必需的BMS1P20的功能。在MIR17HG或BMS1P20敲除或不敲除的情况下，我们对K562和GM12878两种细胞实施了RNA-seq分析。我们以靶向其剪接位点的两种sgRNA破坏了每种lncRNA，其有效性在验证试验中得到了确认(图6b,c)。我们评估了在对照和sgRNA靶向的样样本间显示变化最大的500种基因的表达水平，并在敲除了两种lncRNA后观察到了不同表达模式(图15a)。对于在每种细胞系中的两种lncRNA，显示了靶向相同剪接位点且表达模式变化相似的两个sgRNA(图16a,b)。自K562细胞鉴定的前100种必需lncRNA的整体表达水平在野生型K562细胞中高于在GM12878细胞种的表达水平(P＝0.03,图15b)。

在K562细胞系中，改变MIR17HG的剪接模式下调了179种已知影响细胞生长和增殖的必需基因¹⁵(P＝0.01,图15c)，而破坏BMS1P20下调了178种已知的必需基因¹⁵(P＝0.05,图15c)，表明了这两种lncRNA如何影响K562细胞生长的可能机制。出乎意料的是，MIR17HG和BMS1P20影响K562细胞中140种常见的必需基因(图15d)，尽管其在GM12878细胞中起不同作用。这些保守基因富集于数个必需的通路中，如调节翻译起始、细胞分裂和DNA修复的通路(图16c)。对于BMS1P20，相比对照细胞，破坏该lncRNA上调或下调了K562和GM12878细胞中一系列编码基因的表达(图16d-e)。我们进一步研究了敲除该lncRNA后，在K562与GM12878中差异化表达的基因(图15e)。这些在K562中下调的基因富集于如p53信号通路和PI3K-Akt信号通路的过程中，其可能影响细胞生长和增殖(图15f，上图)。还存在上调的基因(图15f，下图)，且这些差异表达的基因在这两种细胞系中在影响细胞生长方面全部与BMS1P20敲除导致的表型变化有关。

总之，干扰编码蛋白的基因和lncRNA基因均可通过靶向剪接位点得到实质性增强。除在编码蛋白的基因中生成阅读框移码突变，靶向剪接为基因破坏提供了额外的机会。该特征对于经由sgRNA方式敲除阅读框不敏感的非编码RNA是不可替代的。此外，当难以设计靶向具有保守编码序列的基因的适当sgRNA时，破坏剪接位点的该策略可能尤其有效。

CRISPR-Cas9系统已通过两种策略(配对gRNA(pgRNA)缺失⁹和CRISPRi¹²)用于大规模鉴定功能性lncRNA。尽管使用CRISPRi策略相比pgRNA介导的基因组缺失在技术上易于规模扩大，但CRISPRi以及CRISPRa方法一般只在所靶向的转录起始位点(TSS)约1-kb的窗口发挥作用^12,26，通过该方法技术人员将面临的风险是无意中影响几乎60％lncRNA基因座的邻近基因的表达²⁷。剪接靶向的策略可以有效避免使用单指导RNA切割大多数的重叠区，且可大概率避免影响邻近的基因，进而减少假阳性比率。总之，CRISPRi，由于其仅减少基因表达水平而非完全敲除靶基因座，因此为假阴性结果保留了空间。

基于试验数据，证实了本发明中描述的新方法在编码基因的阴性CRISPR筛选中具有显著优势，是对常规靶向外显子方法的补充，而且本发明的方法还允许使用单指导RNA-CRISPR文库对非编码基因进行大规模功能缺失性筛选。此外，由剪接位点破坏生成的外显子跳跃或内含子保留为单个非编码RNA的功能性验证提供了便利的方法。

参考文献

1.Shalem,O.et al.Genome-scale CRISPR-Cas9 knockout screening in humancells.Science 343,84-87(2014).

2.Wang,T.,Wei,J.J.,Sabatini,D.M.&Lander,E.S.Genetic screens in humancells using the CRISPR-Cas9 system.Science 343,80-84(2014).

3.Koike-Yusa,H.,Li,Y.,Tan,E.P.,Velasco-Herrera Mdel,C.&Yusa,K.Genome-wide recessive genetic screening in mammalian cells with a lentiviral CRISPR-guide RNA library.Nat Biotechnol 32,267-273(2014).

4.Zhou,Y.et al.High-throughput screening of a CRISPR/Cas9 library forfunctional genomics in human cells.Nature 509,487-491(2014).

5.Ezkurdia,I.et al.Multiple evidence strands suggest that there maybe as few as 19,000human protein-coding genes.Hum Mol Genet 23,5866-5878(2014).

6.Rinn,J.L.&Chang,H.Y.Genome regulation by long noncoding RNAs.AnnuRev Biochem 81,145-166(2012).

7.Quinn,J.J.&Chang,H.Y.Unique features of long non-coding RNAbiogenesis and function.Nat Rev Genet 17,47-62(2016).

8.Kretz,M.et al.Control of somatic tissue differentiation by the longnon-coding RNA TINCR.Nature 493,231-235(2013).

9.Zhu,S.et al.Genome-scale deletion screening of human long non-coding RNAs using a paired-guide RNA CRISPR-Cas9 library.Nat Biotechnol 34,1279-1286(2016).

10.Guttman,M.et al.lincRNAs act in the circuitry controllingpluripotency and differentiation.Nature 477,295-300(2011).

11.Lin,N.et al.An evolutionarily conserved long noncoding RNA TUNAcontrols pluripotency and neural lineage commitment.Mol Cell 53,1005-1019(2014).

12.Liu,S.J.et al.CRISPRi-based genome-scale identification offunctional long noncoding RNA loci in human cells.Science 355(2017).

13.Adamson,B.,Smogorzewska,A.,Sigoillot,F.D.,King,R.W.&Elledge,S.J.Agenome-wide homologous recombination screen identifies the RNA-bindingprotein RBMX as acomponent of the DNA-damage response.Nat Cell Biol 14,318-328(2012).

14.Sambrook,Fritsch and Maniatis,MOLECULAR CLONING:A LABORATORYMANUAL,2nd edition(1989).

15.F.M.Ausubel,et al.eds.,CURRENT PROTOCOLS IN MOLECULAR BIOLOGY(1987).

16.M.J.MacPherson,B.D.Hames and G.R.Taylor eds.,METHODS IN ENZYMOLOGY(Academic Press,Inc.):PGR 2:A PRACTICAL APPROACH(1995).

17.Harlow and Lane,eds.ANTIBODIES,A LABORATORY MANUAL,(1988).

18.R.L Freshney,ed.,ANIMAL CELL CULTURE(1987).

19.Goeddel,GENE EXPRESSION TECHNOLOGY:METHODS IN ENZYMOLOGY 185,Academic Press,San Diego,Calif.(1990).

20.Seed,1987.Nature 329:840(Seed,B.An LFA-3cDNA encodesaphospholipid-linked membrane protein homologous to its receptor CD2.Nature(1987)329:840–842.)

21.Kaufman,et al.,1987.EMBO J.6:187-195(Randal J,Kaufman,etal.Translational efficiency of polycistronic mRNAs and their utilization toexpress heterologous genes in mammalian cells.The EMBO Journal(1987)6:187-195)

22.Clancy,Suzanne.RNA Splicing:Introns and exons andSpliceosome.Nature Education.1,31(2008).

23.Black,Douglas L.Mechanisms of Alternative Pre-Messenger RNASplicing.Annual Review of Biochemistry.72:291–336(2003).

24.Ng,Bernard；Yang,Fan；et al.Increased noncanonical splicing ofautoantigen transcripts provides the structural basis for expression ofuntolerized epitopes.Journal of Allergy and Clinical Immunology.114:1463–70(2004).

25.Lim,KH；Ferraris,L；et al.Using positional distribution to identifysplicing elements and predict pre-mRNA processing defects in human genes.Proc.Natl.Acad.Sci.USA.108:11093–11098(2011).

26.Warf,MB；Berglund,JA.Role of RNA structure in regulating pre-mRNAsplicing.Tr端s Biochem.Sci.35:169–178(2010).

27.Warf,MB；Berglund,JA.Role of RNA structure in regulating pre-mRNAsplicing.Tr端s Biochem.Sci.35(3):169–178(2010).

28.Ren,Q.et al.A Dual-Reporter System for Real-Time Monitoring andHigh-throughput CRISPR/Cas9 Library Screening of the Hepatitis CVirus.Scientific reports 5,8865(2015).

29.Wang,T.et al.Identification and characterization of essentialgenes in the human genome.Science 350,1096-1101(2015).

30.Li,B.&Dewey,C.N.RSEM:accurate transcript quantification from RNA-Seq data with or without a reference genome.BMC bioinformatics 12,323(2011).

31.Leng,N.et al.EBSeq:an empirical Bayes hierarchical model forinference in RNA-seq experiments.Bioinformatics 29,1035-1043(2013).

32.Jiao,X.et al.DAVID-WS:a stateful web service to facilitate gene/protein list analysis.Bioinformatics 28,1805-1806(2012).

33.Crooks,G.E.,Hon,G.,Chandonia,J.M.&Brenner,S.E.WebLogo:a sequencelogogenerator.Genome Res 14,1188-1190(2004).

34.Matlin,A.J.,Clark,F.&Smith,C.W.Understanding alternative splicing:towards acellular code.Nat Rev Mol Cell Biol 6,386-398(2005).

35.Taggart,A.J.,DeSimone,A.M.,Shih,J.S.,Filloux,M.E.&Fairbrother,W.G.Large-scale mapping of branchpoints in human pre-mRNA transcripts invivo.Nat Struct MolBiol 19,719-721(2012).

36.Hsu,P.D.et al.DNA targeting specificity of RNA-guided Cas9nucleases.NatBiotechnol 31,827-832(2013).

37.Xu,H.et al.Sequence determinants of improved CRISPR sgRNAdesign.Genome Res25,1147-1157(2015).

38.Heidari,N.et al.Genome-wide map of regulatory interactions in thehuman genome.Genome Res 24,1905-1917(2014).

39.Muller,R.Y.,Hammond,M.C.,Rio,D.C.&Lee,Y.J.An Efficient MethodforElectroporation of Small Interfering RNAs into ENCODE Project Tier 1GM12878 and K562Cell Lines.J Biomol Tech 26,142-149(2015).

40.Joung,J.et al.Genome-scale activation screen identifies a lncRNAlocus regulating agene neighbourhood.Nature(2017).

41.Goyal,A.et al.Challenges of CRISPR/Cas9 applications for long non-coding RNAgenes.Nucleic Acids Res 45,e12(2017).

序列表

<110> 北京大学

博雅缉因（北京）生物科技有限公司

<120> 用于筛选和鉴定功能性lncRNA的方法

<130> FA00006PCT

<160> 150

<170> PatentIn version 3.5

<210> 1

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 1

ggaccagcca ctcaccatcc 20

<210> 2

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 2

agcttcatct tccggatctt 20

<210> 3

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 3

tccttgtgac tactcacctt 20

<210> 4

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 4

aactcatact cccgcacctg 20

<210> 5

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> RT-PCR引物

<400> 5

ctgggtcttg tctgtctgga a 21

<210> 6

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> RT-PCR引物

<400> 6

ctggtgttta cattcagccc c 21

<210> 7

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> RT-PCR引物

<400> 7

ggccagaaga accaactcca 20

<210> 8

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> RT-PCR引物

<400> 8

gacagtgcca cagcccttag 20

<210> 9

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> RT-PCR引物

<400> 9

tcaagatggc gtgtgggatt 20

<210> 10

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> RT-PCR引物

<400> 10

gaccagcaaa tggtgaagcc 20

<210> 11

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> RT-PCR引物

<400> 11

gatcctttgg catccggaga 20

<210> 12

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> RT-PCR引物

<400> 12

gctgattctg tgtttggccc 20

<210> 13

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 13

aaaaccacgg cggatggcag 20

<210> 14

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 14

tagcccaaaa ccacggcgga 20

<210> 15

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 15

cccctagccc aaaaccacgg 20

<210> 16

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 16

gtgcccctag cccaaaacca 20

<210> 17

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 17

cccgcagcct tccagtgaag 20

<210> 18

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 18

ccccgcagcc ttccagtgaa 20

<210> 19

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 19

cccccgcagc cttccagtga 20

<210> 20

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 20

acctgtataa ctggagggac 20

<210> 21

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 21

cagaaacctg tataactgga 20

<210> 22

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 22

ccagaaacct gtataactgg 20

<210> 23

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 23

tggccagaaa cctgtataac 20

<210> 24

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 24

cggaaagaga gaacgggctg 20

<210> 25

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 25

tccggaaaga gagaacgggc 20

<210> 26

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 26

gcaaagcgag ctcaccatga 20

<210> 27

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 27

taatccgctg ccatccgccg 20

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 28

gctgccatcc gccgtggttt 20

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 29

ctgccatccg ccgtggtttt 20

<210> 30

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 30

atccgccgtg gttttgggct 20

<210> 31

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 31

tccgccgtgg ttttgggcta 20

<210> 32

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 32

gttttgggct aggggcacgc 20

<210> 33

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 33

ttgggctagg ggcacgctgg 20

<210> 34

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 34

tgggctaggg gcacgctgga 20

<210> 35

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 35

tcatgtgttt gccccttcac 20

<210> 36

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 36

gccccttcac tggaaggctg 20

<210> 37

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 37

tcccgtccct ccagttatac 20

<210> 38

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 38

atcatggtga gctcgctttg 20

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 39

tgagctcgct ttgcggcgtt 20

<210> 40

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 40

gagctcgctt tgcggcgttc 20

<210> 41

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 41

agctcgcttt gcggcgttcg 20

<210> 42

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 42

cgctttgcgg cgttcggggc 20

<210> 43

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 43

gacaagaccc agcggctccc 20

<210> 44

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 44

tccagacaga caagacccag 20

<210> 45

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 45

cttgaggcat ccccaggcca 20

<210> 46

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 46

gccccgcttg aggcatcccc 20

<210> 47

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 47

tttacattca gccccgcttg 20

<210> 48

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 48

atgtacgtcg taagttgttc 20

<210> 49

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 49

ttccggatct tagggtgggg 20

<210> 50

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 50

atcttccgga tcttagggtg 20

<210> 51

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 51

catcttccgg atcttagggt 20

<210> 52

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 52

tcatcttccg gatcttaggg 20

<210> 53

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 53

gcttcatctt ccggatctta 20

<210> 54

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 54

gccactcacc atccgggaaa 20

<210> 55

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 55

agccactcac catccgggaa 20

<210> 56

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 56

tggaccagcc actcaccatc 20

<210> 57

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 57

gccgctgggt cttgtctgtc 20

<210> 58

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 58

tgggtcttgt ctgtctggaa 20

<210> 59

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 59

gtcttgtctg tctggaaggg 20

<210> 60

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 60

ggcctgggga tgcctcaagc 20

<210> 61

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 61

gcctggggat gcctcaagcg 20

<210> 62

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 62

atcctcccca ccctaagatc 20

<210> 63

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 63

tccctttccc ggatggtgag 20

<210> 64

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 64

tttcccggat ggtgagtggc 20

<210> 65

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 65

agtggctggt ccagagagca 20

<210> 66

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 66

tccagagagc acggtagacc 20

<210> 67

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 67

cggtagacct gggagccgct 20

<210> 68

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 68

gtggtcaccc aggggctgcc 20

<210> 69

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 69

acccctgcgt ggtcacccag 20

<210> 70

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 70

agacccctgc gtggtcaccc 20

<210> 71

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 71

tggcgggtca gacccctgcg 20

<210> 72

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 72

ggtggagagg acaaggctgg 20

<210> 73

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 73

cctggtggag aggacaaggc 20

<210> 74

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 74

catacctggt ggagaggaca 20

<210> 75

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 75

agtgcacata cctggtggag 20

<210> 76

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 76

cgcgcagtgc acatacctgg 20

<210> 77

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 77

cgccagctca ccttcagttt 20

<210> 78

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 78

tcacgcgcag tgcacatacc 20

<210> 79

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 79

ccgccagctc accttcagtt 20

<210> 80

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 80

acagtacagc aagggtctga 20

<210> 81

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 81

ctgctgcgcc aaggcagtgg 20

<210> 82

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 82

tgctgcgcca aggcagtgga 20

<210> 83

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 83

aggcagtgga gggtgagtcc 20

<210> 84

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 84

ggtgagtcct ggcagcccct 20

<210> 85

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 85

agcccctggg tgaccacgca 20

<210> 86

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 86

gcccctgggt gaccacgcag 20

<210> 87

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 87

caaactgaag gtgagctggc 20

<210> 88

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 88

aaactgaagg tgagctggcg 20

<210> 89

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 89

aactgaaggt gagctggcgg 20

<210> 90

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 90

aaggtgagct ggcgggggct 20

<210> 91

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 91

tctggcctcc cagatccagg 20

<210> 92

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 92

gggatctggc gcccagcttc 20

<210> 93

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 93

aaccgggtga gacagggatc 20

<210> 94

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 94

aaggagaacc gggtgagaca 20

<210> 95

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 95

gaaggagaac cgggtgagac 20

<210> 96

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 96

cttgcgagga cctagggaag 20

<210> 97

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 97

ccttgcgagg acctagggaa 20

<210> 98

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 98

cccttgcgag gacctaggga 20

<210> 99

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 99

tcggcccttg cgaggaccta 20

<210> 100

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 100

ctcggccctt gcgaggacct 20

<210> 101

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 101

acagccctta ggggagtcca 20

<210> 102

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 102

cacagccctt aggggagtcc 20

<210> 103

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 103

cgtatcactc accggagagc 20

<210> 104

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 104

gtcgaccacg tatcactcac 20

<210> 105

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 105

actggcagcc ttcaccctcc 20

<210> 106

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 106

agccttcacc ctcctggatc 20

<210> 107

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 107

gccttcaccc tcctggatct 20

<210> 108

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 108

ggatctggga ggccagaagc 20

<210> 109

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 109

gatctgggag gccagaagct 20

<210> 110

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 110

cgccagatcc ctgtctcacc 20

<210> 111

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 111

gctctccggt gagtgatacg 20

<210> 112

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 112

ggtgagtgat acgtggtcga 20

<210> 113

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 113

gtgagtgata cgtggtcgac 20

<210> 114

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 114

tgatacgtgg tcgacgggtt 20

<210> 115

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 115

ggactgagct gtgtggctac 20

<210> 116

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 116

aggccattgt ggagtggcac 20

<210> 117

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 117

gagcggacgt agggtctgtg 20

<210> 118

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 118

ggagcggacg tagggtctgt 20

<210> 119

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 119

tggagcggac gtagggtctg 20

<210> 120

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 120

ctcacttggt gtggctgtgc 20

<210> 121

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 121

actcacttgg tgtggctgtg 20

<210> 122

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 122

ctgggggcct gatactcact 20

<210> 123

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 123

gttcctgtgc cactccacaa 20

<210> 124

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 124

agccacacca agtgagtatc 20

<210> 125

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 125

cactccctgt gggggtgaag 20

<210> 126

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 126

cggatgtcca ctccctgtgg 20

<210> 127

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 127

gcggatgtcc actccctgtg 20

<210> 128

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 128

ggcggatgtc cactccctgt 20

<210> 129

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 129

tggcggatgt ccactccctg 20

<210> 130

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 130

tttcagaaat aagtaataat 20

<210> 131

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 131

agtaataatt ggctatggtt 20

<210> 132

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 132

taataattgg ctatggttgg 20

<210> 133

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 133

tggctatggt tgggggtaat 20

<210> 134

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 134

ggctatggtt gggggtaatt 20

<210> 135

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 135

gttgggggta attgggtcca 20

<210> 136

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 136

ggttgcctct tcacccccac 20

<210> 137

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 137

gttgcctctt cacccccaca 20

<210> 138

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 138

ctcttcaccc ccacagggag 20

<210> 139

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 139

agtggacatc cgccataaca 20

<210> 140

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 140

ggatctgcaa gtcagacctg 20

<210> 141

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 141

gaggatctgc aagtcagacc 20

<210> 142

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 142

gcttggtgcc agcactagaa 20

<210> 143

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 143

gacccttccc aaagacctca 20

<210> 144

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 144

tgacccttcc caaagacctc 20

<210> 145

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 145

gctgttggtc aaggtgaggc 20

<210> 146

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 146

ctgttggtca aggtgaggct 20

<210> 147

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 147

aggctgggcc ctgaggtctt 20

<210> 148

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 148

ggctgggccc tgaggtcttt 20

<210> 149

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 149

gggccctgag gtctttggga 20

<210> 150

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> sgRNA编码序列

<400> 150

tctttgggaa gggtcacccc 20

Claims

1.一种方法，其包括：

将CRISPR/Cas指导RNA构建体引入宿主细胞，所述CRISPR/Cas指导RNA构建体包含与启动子可操作连接的靶向长非编码RNA剪接位点周围的基因组序列的指导序列和指导发夹序列，在所述宿主细胞中表达靶向所述基因组序列的所述指导RNA，并在CRISPR/Cas核酸酶存在时在所述长非编码RNA中引进外显子跳跃和/或内含子保留，并确定所述长非编码RNA的功能概貌；其中所述指导序列靶向长非编码RNA的SD位点或SA位点周围跨越-30-bp至+30-bp的区域内的基因组序列。

2.权利要求1的方法，其中所述功能概貌包括细胞表型变化和/或编码基因或非编码基因表达的增加或减少。

3.权利要求2的方法，其中所述编码基因是外源的报告基因或基因组中的原有编码基因。

4.权利要求1的方法，其中所述宿主细胞处于宿主细胞群中且每种宿主细胞独立地包含专一的指导RNA构建体。

5.权利要求4的方法，其为用于在真核细胞基因组中筛选或鉴定长非编码RNA的高通量方法。

6.用于干扰或消除真核细胞中长非编码RNA的功能的方法，其包括将靶向长非编码RNA的一个或多个剪接位点周围的一个或多个多核苷酸序列的一种或多种CRISPR/Cas指导RNA引入真核细胞，由此所述一种或多种指导RNA靶向长非编码RNA的一个或多个剪接位点周围的一个或多个多核苷酸序列且在Cas蛋白的存在下切割所述一个或多个多核苷酸序列，导致长非编码RNA的内含子保留和/或外显子跳跃并因此干扰或消除该长非编码RNA的功能，所述指导RNA靶向长非编码RNA的SD位点或SA位点周围跨越-30-bp至+30-bp的区域内的多核苷酸序列。

7.权利要求6的方法，其中所述Cas蛋白是Cas9酶。

8.权利要求6的方法，其中通过递送系统实现向所述细胞的引入，所述递送系统包括病毒颗粒、脂质体、电穿孔、显微注射、偶联、纳米颗粒、外泌体、微泡或基因枪。

9.权利要求8的方法，其中通过包括慢病毒颗粒的递送系统实施向所述细胞的引入。

10.一种通过干扰长非编码RNA的功能在体外抑制淋巴样干细胞生长或增殖的方法，包括利用权利要求1-9中任一项的方法鉴定和破坏对淋巴样干细胞生长或增殖必需的长非编码RNA，从而抑制淋巴样干细胞生长或增殖。

11.权利要求10的方法，其中，所述淋巴样干细胞为GM12878细胞，所述对淋巴样干细胞生长或增殖必需的长非编码RNA选自XXbac-B135H6.15、RP11-848P1.5、AC005330.2、AP001062.9、AP005135.2、RP11-867G23.4、LINC01049、DGCR5、RP11-509A17.3、CTB-25J19.1、CTD-2517M22.17、CROCCP2、AC016629.8、CTC-490G23.4、RP11-117D22.1、AC067969.2、RP11-251M1.1和MIR17HG。