CN111349654B

CN111349654B - 使用加标签的向导rna构建体进行高效基因筛选的组合物和方法

Info

Publication number: CN111349654B
Application number: CN201911329650.XA
Authority: CN
Inventors: 魏文胜; 朱诗优; 曹中正; 刘志恒; 何苑; 袁鹏飞
Original assignee: Peking University; Edigene Biotechnology Inc
Current assignee: Peking University; Edigene Biotechnology Inc
Priority date: 2018-12-20
Filing date: 2019-12-20
Publication date: 2023-01-24
Anticipated expiration: 2039-12-20
Also published as: CN111349654A; TW202039845A

Abstract

本发明提供了使用一组或多组具有内部标签(“iBAR”)的向导RNA构建体进行基因筛选的组合物、试剂盒和方法。每组具有三个或更多个靶向相同基因组基因座的向导RNA构建体，但嵌入有不同的iBAR序列。

Description

使用加标签的向导RNA构建体进行高效基因筛选的组合物和方法

技术领域

本发明涉及使用具有内部标签(“iBAR”)的向导RNA构建体进行基因筛选的组合物，试剂盒和方法。

背景技术

CRISPR/Cas9系统实现了以高的效率和特异性在靶标基因组位点上进行编辑^1-2。其为数众多的用途之一是通过将高通量汇集测序与二代测序(“NGS”)分析相结合来鉴定出编码基因、非编码RNA和调节元件的功能。通过将汇集的单向导RNA(“sgRNA”)或配对向导RNA(“pgRNA”)的文库引入至表达Cas9的细胞或者与效应子结构域融合的无催化活性的Cas9(dCas9)，研究人员可以通过产生多种突变、大的基因组缺失、转录激活或转录抑制来实施多重基因筛选。

为了在任何给定的汇集的CRISPR筛选中产生高质量的gRNA细胞库，必须在细胞库构建期间使用低的感染复数(“MOI”)来确保每个细胞平均收纳少于1个sgRNA或pgRNA以使该筛选的假阳性率(FDR)^6,10,11最小化。为了进一步降低FDR并提高数据重现性，通常需要深入覆盖gRNA和多个生物学复本以获得带有高统计学意义的命中基因，这会导致工作量增加。当实施大量的全基因组筛选时，当用于文库构建的细胞材料有限时，或者当进行更具挑战性的筛选(例如体内筛选)时难以获得实验复本或控制MOI时，可能出现额外的困难。仍然迫切需要用于真核细胞中大规模靶鉴定的可靠且高效的筛选策略。

本文提及的所有出版物，专利，专利申请和已公开的专利申请的披露均通过引用其整体而并入本文。

发明内容

本申请提供了用于通过CRISPR-Cas基因编辑系统进行基因筛选的向导RNA构建体、文库、组合物和试剂盒，以及基因筛选的方法。

本申请的一个方面提供了一组sgRNA^iBAR构建体，其包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码一个sgRNA^iBAR，其中每个sgRNA^iBAR都具有包含向导序列和内部标签(“iBAR“)序列的sgRNA^iBAR序列，其中每个向导序列与靶标基因组基因座互补，其中三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个sgRNA^iBAR的iBAR序列是彼此不同的。并且其中每个sgRNA^iBAR可与Cas蛋白合作以修饰靶标基因组基因座。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸，例如约2-20个核苷酸或约3-10个核苷酸。在一些实施方案中，每个向导序列包含约17-23个核苷酸。

在根据上述任一组sgRNA^iBAR构建体的一些实施方案中，其中每个sgRNA^iBAR序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区，并且其中iBAR序列位于第一茎序列和第二茎序列之间。在根据上述任一组sgRNA^iBAR构建体的一些实施方案中，其中每个sgRNAiBAR序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交形成与Cas蛋白相互作用的双链RNA区，并且其中iBAR序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。

在根据上述任一组sgRNA^iBAR构建体的一些实施方案中，Cas蛋白是Cas9。在一些实施方案中，每个sgRNA^iBAR序列包含与第二序列融合的向导序列，其中第二序列包含与Cas9相互作用的重复-反-重复茎环。在一些实施方案中，每个sgRNA^iBAR序列的iBAR序列位于重复-反-重复茎环的环区域中。在一些实施方案中，将每个sgRNA^iBAR序列的iBAR序列插入重复-反-重复茎环的环区域中。在一些实施方案中，每个sgRNA^iBAR序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，每个sgRNA^iBAR序列的iBAR序列位于茎环1、茎环2或茎环3的环区域中。在一些实施方案中，每个sgRNA^iBAR序列的iBAR序列插入茎环1、茎环2或茎环3的环区域中。

在根据上述任一组sgRNA^iBAR构建体的一些实施方案中，每个sgRNA^iBAR构建体是质粒。在一些实施方案中，每个sgRNA^iBAR构建体是病毒载体，例如慢病毒载体。

本申请的一个方面提供了sgRNA^iBAR文库，其包含根据上述任一组sgRNA^iBAR构建体的多组sgRNA^iBAR构建体，其中每个组对应与不同靶标基因组基因座互补的向导序列。在一些实施方案中，sgRNA^iBAR文库包含至少约1000(例如至少约2000、5000、10000、15000、20000或更多)组的sgRNA^iBAR构建体。在一些实施方案中，至少两组sgRNA^iBAR构建体的iBAR序列是相同的。在一些实施方案中，不同组的sgRNA^iBAR构建体具有iBAR序列的不同组合。

本申请的一个方面提供了制备包含多组sgRNA^iBAR构建体的sgRNA^iBAR文库的方法，其中每个组对应多个向导序列中的一个，每个向导序列与不同的靶标基因组基因座互补，其中所述方法包括：a)为每个向导序列设计三个或更多(例如四个)sgRNA^iBAR构建体，其中每个sgRNA^iBAR构建体包含或编码具有包含相应向导序列和iBAR序列的sgRNA^iBAR序列的sgRNA^iBAR，其中对应于三个或更多个sgRNA^iBAR构建体中每个sgRNA^iBAR构建体的iBAR序列彼此不同，并且其中每个sgRNA^iBAR可与Cas蛋白合作以修饰相应的靶标基因组基因座；b)合成每个sgRNA^iBAR构建体，从而产生sgRNA^iBAR文库。在一些实施方案中，该方法还包括提供多个向导序列。

在根据上述任一制备方法的一些实施方案中，每个iBAR序列包含约1-50个核苷酸，例如约2-20个核苷酸或约3-10个核苷酸。在一些实施方案中，每个向导序列包含约17-23个核苷酸。

在根据上述任一制备方法的一些实施方案中，其中每个sgRNA^iBAR序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，并且其中iBAR序列位于第一茎序列和第二茎序列之间。在根据上述任一制备方法的一些实施方案中，其中每个sgRNA^iBAR序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区，并且其中iBAR序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。

在根据上述任一制备方法的一些实施方案中，Cas蛋白是Cas9。在一些实施方案中，每个sgRNA^iBAR序列包含与第二序列融合的向导序列，其中第二序列包含与Cas9相互作用的重复-反-重复茎环。在一些实施方案中，每个sgRNA^iBAR序列的iBAR序列位于重复-反-重复茎环的环区域中。在一些实施方案中，将每个sgRNA^iBAR序列的iBAR序列插入重复-反-重复茎环的环区域中。在一些实施方案中，每个sgRNA^iBAR序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，每个sgRNA^iBAR序列的iBAR序列位于茎环1、茎环2或茎环3的环区域中。在一些实施方案中，每个sgRNA^iBAR序列的iBAR序列插入茎环1、茎环2或茎环3的环区域中。

在根据上述任一制备方法的一些实施方案中，每个sgRNA^iBAR构建体是质粒。在一些实施方案中，每个sgRNA^iBAR构建体是病毒载体，例如慢病毒载体。

还提供了使用根据上述任一制备方法的方法制备的sgRNA^iBAR文库，以及包含上述任一组sgRNA^iBAR构建体或上述任一sgRNA^iBAR文库的组合物。

本申请的另一方面提供了筛选调节(modulate)细胞表型的基因组基因座的方法，包括：a)使初始细胞群接触i)如上所述的sgRNA^iBAR文库中的任一sgRNA^iBAR文库并且可选ii)包含Cas蛋白或编码Cas蛋白的核酸的Cas组分，条件是允许将sgRNA^iBAR构建体和可选的Cas组分引入细胞中以提供修饰的细胞群；b)从经修饰的细胞群中选择出具有经调节的表型的细胞群，以提供选择出的细胞群；c)从选择出的细胞群中获得sgRNA^iBAR序列；d)基于序列计数对sgRNA^iBAR序列的相应向导序列进行排序，其中所述排序包括：基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预定阈值水平之上的向导序列的基因组基因座。在一些实施方案中，细胞是真核细胞，诸如哺乳动物细胞。在一些实施方案中，初始细胞群表达Cas蛋白。

在根据上述任一筛选方法的一些实施方案中，每个sgRNA^iBAR构建体是病毒载体，并且其中sgRNA^iBAR文库以大于约2(例如3、4、5、6、7、8、9、10或更高)的感染复数(MOI)接触初始细胞群。在一些实施方案中，将sgRNA^iBAR文库中大于约95％(例如大于约97％，98％，99％或更高)的sgRNA^iBAR构建体引入初始细胞群中。在一些实施方案中，该筛选以大于约1000倍(例如2000倍，3000倍，5000倍或更高)的覆盖率进行。

在根据上述任一筛选方法的一些实施方案中，该筛选是阳性筛选。在一些实施方案中，该筛选是阴性筛选。

在根据上述筛选方法中的任一个的一些实施方案中，表型指蛋白质表达，RNA表达，蛋白质活性或RNA活性。在一些实施方案中，表型选自细胞死亡，细胞生长，细胞运动性，细胞代谢，药物抗性，药物敏感性和对刺激因子的响应。在一些实施方案中，表型是对刺激因子的响应，并且其中所述刺激因子选自激素，生长因子，炎性细胞因子，抗炎细胞因子，药物，毒素和转录因子。

在根据上述任一筛选方法的一些实施方案中，sgRNA^iBAR序列通过基因组测序或RNA测序获得。在一些实施方案中，sgRNA^iBAR序列通过二代测序(next-generationsequencing)获得。

在根据上述筛选方法中的任一个的一些实施方案中，序列计数经历中值比率归一化，然后进行均值-方差建模。在一些实施方案中，基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的方差。在一些实施方案中，将从所选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。在一些实施方案中，基于每个iBAR序列的倍数变化的方向确定所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性，其中如果iBAR序列的倍数变化相对于彼此处于相反的方向，则该向导序列的方差增加。

在根据上述任一筛选方法的一些实施方案中，该方法还包括：验证鉴定出的基因组基因座。

还提供了用于筛选调节细胞表型的基因组基因座的试剂盒和制品，其包含上述任一种sgRNA^iBAR文库。在一些实施方案中，试剂盒或制品还包含Cas蛋白或编码Cas蛋白的核酸。

附图说明

图1A-1E显示了使用sgRNA^iBAR构建体的示例性的基于CRISPR/Cas的筛选。图1A显示了具有内部标签(iBAR)的sgRNA^iBAR的示意图。将6-nt标签(iBAR₆)嵌入到sgRNA框架的四元环(tetraloop)中。图1B显示了使用靶向单个基因的sgRNA构建体文库(ANTXR1；在本文中称为“sgRNA^iBAR-ANTXR1”)但具有所有4,096个iBAR₆序列的基于CRISPR/Cas的筛选实验的结果。sgRNA构建体的对照(“sgRNA^不打靶”)具有不靶向ANTXR1的向导序列，但具有相应的iBAR₆序列。使用每种sgRNA^iBAR-ANTXR1的归一化丰度计算参比和毒素(PA/LFnDTA)处理组之间的倍数变化。在此展示了显示出sgRNA^iBAR-ANTXR1，不加标签sgRNA^ANTXR1和不靶向sgRNA的倍数变化的密度图。计算Pearson相关性(“Corr”)。图1C显示了iBAR₆的每个位置处的核苷酸同一性对sgRNA的编辑效率的影响。图1D显示了由筛选实验中具有与PA/LFnDTA的最小细胞抗性相关的六个标签的sgRNA^iBAR-ANTXR1产生的插入缺失(indels)。使用Image Lab软件测量T7E1测定中剪切效率的百分比，数据表示为平均值±s.d(N＝3)。使用的所有引物列于表1中。图1E显示了MTT活力测定的结果，其显示了由表示出的sgRNA^iBAR-ANTXR1编辑的细胞对PA/LFnDTA的易感性降低。

图2显示了根据iBAR序列的GC含量分类为三组的所有4,096种iBAR₆序列的sgRNA^iBAR-ANTXR1集合的CRISPR筛选。三组中的GC含量为：高(100-66％％)、中(66-33％％)和低(33-0％％)。示出了两个生物学复本的排序。

图3A-3D显示了iBAR序列对sgRNA活性的影响的评估。由sgRNA1^iBAR-CSPG4(图3A)，sgRNA2^iBAR-CSPG4(图3B)，sgRNA2^iBAR-MLH1(图3C)和sgRNA3^iBAR-MSH2(图3D)产生的indel与六个标签相关联，这六个标签似乎是最差的来自上述筛选的细胞对PA/LFnDTA的抗性以及被认为是U6启动子终止信号的GTTTTTT。使用Image Lab软件测量T7E1测定中剪切效率的百分比，数据表示为平均值±s.d.(n＝3)。所使用的所有引物列于表1中。

图4显示了使用sgRNA^iBAR文库的CRISPR汇集筛选的示意图。对于给定的sgRNA^iBAR文库，将四种不同的iBAR₆随机分配到每种sgRNA。通过具有高MOI(即～3)的慢病毒感染将sgRNA^iBAR文库导入靶细胞。在文库筛选后，通过NGS(二代测序)确定来自富集细胞的sgRNA及其相关的iBAR。对于数据分析，应用中值比归一化(median ratio normalization)，然后进行均值-方差建模(mean-variance modelling)。基于分配给相同sgRNA的所有iBAR的倍数变化一致性来确定sgRNA^iBAR的方差。使用平均值和经调整的方差来计算每个sgRNA^iBAR的P值。所有基因的强力排序汇总(Robust rank aggregation,RRA)得分被考虑用于鉴定命中基因。较低的RRA得分对应于更强地富集命中基因。

图5显示了经设计的寡核苷酸的DNA序列。阵列合成的85-nt DNA寡核苷酸含有sgRNA和标签iBAR₆的编码序列。左臂和右臂用于引物靶向用以扩增。BsmBI位点用于将汇集的标签sgRNA克隆到最终表达的框架中。

图6A-6F显示了在HeLa细胞中在MOI为0.3、3和10时涉及TcdB毒性的必需基因的筛选结果。图6A和6B显示了在MOI为0.3时由MAGeCK(图6A)和MAGeCK^iBAR(图6B)计算的鉴定出的基因(FDR<0.15)的筛选得分。图6C和6D显示了在MOI为3时由MAGeCK(图6C)和MAGeCK^iBAR(图6D)计算的鉴定出的基因(FDR<0.15)的筛选得分。图6E-6F显示了由MAGeCK(图6E)和MAGICKB(图6F)在MOI为10时计算的鉴定出的基因(FDR<0.15)的筛选得分。阴性对照基因用纵坐标0附近的深色圆点标记。通过MAGeCK和MAGeCK^iBAR展示了每个生物学复本中鉴定出的候选者的排序。

图7A-7H显示了CSPG4靶向构建体(图7A)，SPPL3靶向构建体(图7B)，UGP2靶向构建体(图7C)，KATNAL2靶向构建体(图7D)，HPRT1图(7E)，RNF212B靶向构建体(图7F)，SBNO2靶向构建体(图7G)和ERAS靶向构建体(图7H)的sgRNA^iBAR读数计数，在TcdB筛选之前(Ctrl)和之后(Exp)，MOI为10，由MAGeCK计算，两个复本。

图8A-8C显示了不同样品中的sgRNA分布和覆盖度。图8A显示了参比和6-TG治疗组的sgRNA^iBAR分布。横轴表示log10中的归一化RPM，纵轴表示sgRNA的数量。图8B显示了参比样品的sgRNA覆盖度。纵轴表示sgRNA比例与设计的关系。图8C显示了在文库中携带不同数量的经设计iBAR的sgRNA的比例。

图9显示在MOI为3的6-TG筛选后，两个生物学复本之间所有基因的log10(倍数变化)的Pearson相关性。

图10显示了使用MAGeCK^iBAR分析调整方差后所有sgRNA^iBAR的均方差模型。

图11A-11G显示了CRISPR^iBAR和常规CRISPR汇集筛选的比较，用于鉴定对HeLa细胞中6-TG介导的细胞毒性重要的人类基因。图11A-11B显示了由MAGeCK^iBAR(图11A)和MAGeCK(图11B)计算的排序靠前的基因的筛选得分。鉴定出的候选者(FDR<0.15)经过标记，并且只有前10个命中被标记为MAGeCK^iBAR筛选。阴性对照基因用纵坐标0附近的深色圆点标记。图11C显示了参与6-TG细胞毒性的报告基因(MLH1，MSH2，MSH6和PMS2)的验证。图11D显示了使用MAGeCK^iBAR(左)或常规MAGeCK分析(右)在两个生物学复本之间的前20个阳性选择基因的Spearman相关系数。图11E显示了通过MAGeCK^iBAR或MAGeCK分析分离出的最靠前的候选基因的验证。靶向每个基因的微汇集的sgRNA通过慢病毒感染递送至细胞。在6-TG处理之前，将转导的细胞再培养10天。数据表示为平均值±S.E.M(n＝5)。使用Student's t-检验计算出P值(*P<0.05；**P<0.01；***P<0.001；NS，无意义)。用于验证的sgRNA序列列于表3中。图11F-11G显示两个复本之前(Ctrl)和之后(Exp)6-TG筛选的HPRT1靶向构建体(图11F)和FGF13靶向构建体(图11G)的sgRNA^iBAR读数计数。

图12显示了靶向MLH1，MSH2，MSH6和PMS2的原始设计的sgRNA的效率。使用ImageLab软件测量T7E1测定中剪切效率的百分比，数据表示为平均值±s.d.(n＝3)。所使用的所有引物列于表1中。

图13显示了在两个实验复本中靶向表示出的最靠前的候选基因(HPRT1，ITGB1，SRGAP2和AKTIP)的每个sgRNA^iBAR的倍数变化。Ctrl和Exp分别代表在6-TG处理之前和之后的样品。

图14A-14I显示了靶向ITGB1(图14A)，SRGAP2(图14B)，AKTIP(图14C)，ACTR3C(图14D)，PPP1R17(图14E)，ACSBG1(图14F)，CALM2(图14G)，TCF21(图14H)和KIFAP3(图14I)的sgRNA^iBAR读数计数，两个复本。Ctrl和Exp分别代表在6-TG处理之前和之后的样品。

图15A-15F显示了靶向GALR1(图15A)，DUPD1(图15B)，TECTA(图15C)，OR51D1(图15D)，Neg89(图15E)和Neg67(图15F)的sgRNA^iBAR读数计数，两个复本。Ctrl和Exp分别代表在6-TG处理之前和之后的样品。

图16显示了在两个实验复本中经由常规分析的HPRT1，FGF13，GALR1和Neg67的归一化sgRNA读数计数。Ctrl和Exp分别代表6-TG处理之前和之后的样品。

图17显示了使用金标准通过MAGeCK和MAGeCK^iBAR来分析必需基因而评估出筛选性能(由ROC曲线确定)。显示了AUC(曲线下面积)的值。虚线表示随机分类模型的性能。

图18显示了不同长度的iBAR对sgRNA活性的影响。如图所示，具有不同长度的标签的sgRNA1^CSPG4和sgRNA1^iBAR-CSPG4产生Indel。使用Image Lab软件测量T7E1测定中剪切效率的百分比，数据表示为平均值±s.d.(n＝3)。所使用的所有引物列于表1中。

具体实施方式

本申请提供了使用具有内部标签(iBAR)的向导RNA组进行基因筛选的组合物和方法。向导RNA靶向特定的基因组基因座，并与三个或更多个iBAR序列相关连。包含多个向导RNA组(每个靶向不同的基因组基因座)的向导RNA文库可用于基于CRISPR/Cas的筛选，以鉴定出调节汇集细胞库中表型的基因组基因座。本文描述的筛选方法具有降低的错误发现率(false discovery rate)，因为iBAR序列允许在单个实验中分析对应于每组向导RNA构建体的经过基因编辑的复本样品。低的错误发现率还能够通过将向导RNA文库病毒转导至高感染复数(MOI)的细胞来实现产生高效的细胞库。

本文描述的实验数据证明iBAR方法在高通量筛选中特别有利。常规的CRISPR/Cas筛选方法通常是劳动密集型的，因为当产生细胞库时需要低的感染复数(MOI)用于慢病毒转导，以及多个生物学复本以最小化错误发现率。相比之下，iBAR方法产生的筛选结果具有低得多的假阳性和假阴性率，并允许使用高MOI生成细胞库。例如，与具有0.3的低MOI的常规CRISPR/Cas筛选相比，iBAR方法可以将起始细胞数量减少超过20倍(例如MOI为3)至超过70倍(例如MOI为10)，同时保持高效率和准确性。iBAR系统特别适用于下述基于细胞的筛选，其中细胞可用量有限，或者用于体内筛选，其中病毒对特定细胞或组织的感染难以在低MOI下控制。

因此，本申请的一个方面提供了sgRNA^iBAR构建体组，其包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR，其中每个sgRNA^iBAR具有包含向导序列和内部标签(“iBAR”)的sgRNA^iBAR序列，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个的iBAR序列彼此不同，并且其中每个sgRNA^iBAR可与Cas蛋白合作以修饰靶基因组基因座。

本申请的一个方面提供了包含多组sgRNA^iBAR构建体的sgRNA^iBAR文库，其中每组sgRNA^iBAR构建体包含三个或更多个sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR，其中每个sgRNA^iBAR具有包含向导序列和iBAR序列的sgRNA^iBAR序列，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个的iBAR序列彼此不同，其中每个sgRNA^iBAR可与Cas蛋白合作以修饰靶基因组基因座，并且其中每组sgRNA^iBAR构建体对应于与不同靶基因组基因座互补的向导序列。

还提供了筛选调节(modulate)细胞表型的基因组基因座的方法，包括：a)使初始细胞群接触i)包含多组sgRNA^iBAR构建体的sgRNA^iBAR文库，其中每组sgRNA^iBAR构建体包含三个或更多个sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR，其中每个sgRNA^iBAR具有包含向导序列和iBAR序列的sgRNA^iBAR序列，其中每个向导序列与靶基因组基因座互补，其中对于三个或更多个sgRNA^iBAR构建体向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个的iBAR序列彼此不同，其中每个sgRNA^iBAR可与Cas蛋白合作以修饰靶基因组基因座，并且其中每组sgRNA^iBAR构建体对应于与不同靶基因组基因座互补的向导序列；并且可选ii)包含Cas蛋白或编码Cas蛋白的核酸的Cas组分，条件是允许将sgRNA^iBAR构建体和可选的Cas组分引入细胞中以提供经修饰的细胞群；b)从经修饰的细胞群中选择具有调节表型的细胞群，以提供选择出的细胞群；c)从选择出的细胞群中获得sgRNA^iBAR序列；d)基于序列计数对sgRNA^iBAR序列的相应向导序列进行排序，其中所述排序包括：基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预定阈值水平之上的向导序列的基因组基因座。

定义

将参照特定实施例并参考某些附图来描述本发明，但是本发明不限于此。权利要求中的任何附图标记不应被解释为限制范围。在附图中，为了说明的目的，一些元件的尺寸可能被夸大并且未按比例绘制。除非另外定义，否则本文使用的所有技术和科学术语具有与本领域普通技术人员通常理解的含义相同的含义。如有冲突，以本文件(包括定义)为准。优选的方法和材料如下所述，尽管与本文所述的那些类似或等同的方法和材料可用于实践或测试本发明。本文提及的所有出版物、专利申请、专利和其他参考文献都通过引用其整体而并入。本文公开的材料、方法和实施例仅是说明性的而非限制性的。

如本文所用，“内部标签”或“iBAR”是指插入或附加于分子的标识，其可用于追踪分子的特性和性能。例如，iBAR可以是插入或附加到CRISPR/Cas系统的向导RNA的短核苷酸序列，如本发明所例示。多个iBAR可用于在一个实验中追踪单个向导RNA序列的性能，从而提供用于统计分析的复本数据，而无需重复该实验。

表述“iBAR序列置于环区”是指iBAR序列插入环区的任何两个核苷酸之间、插入环区的5'或3'末端或取代环区的一个或多个核苷酸。

“CRISPR系统”或“CRISPR/Cas系统”统称为参与表达和/或向导CRISPR相关(“Cas”)基因活性的转录物和其他元件。例如，CRISPR/Cas系统可包括编码Cas基因的序列，tracr(反式激活CRISPR)序列(例如tracrRNA或活性部分tracrRNA)，tracr-伴侣序列(tracr-mate sequence)(例如在内源CRISPR系统中包含“直接重复”和tracrRNA加工的部分直接重复)，向导序列(在内源CRISPR系统中也称为“间隔区”)，以及衍生自CRISPR基因座的其他序列和转录物。

在形成CRISPR复合物的背景下，“靶序列”是指向导序列被设计为具有互补性的序列，其中靶序列和向导序列之间的杂交促进CRISPR复合物的形成。如果存在足够的互补性以引起杂交并促进CRISPR复合物的形成，则不一定需要完全互补。靶序列可包含任何多核苷酸，例如DNA或RNA多核苷酸。CRISPR复合物可包含与靶序列杂交的向导序列并与一种或多种Cas蛋白复合。

术语“向导序列”是向导RNA中的连续核苷酸序列，其与靶多核苷酸中的靶序列具有部分或完全互补性，并且可以通过Cas蛋白促进的碱基配对与靶序列杂交。在CRISPR/Cas9系统中，靶序列与PAM位点相邻。PAM序列及其在另一条链上的互补序列一起构成PAM位点。

术语“单向导RNA”，“合成向导RNA”和“sgRNA”可互换使用，是指包含向导序列和任何其它序列的多核苷酸序列，所述其它序列是sgRNA功能所必需的和/或sgRNA与一种或多种Cas蛋白相互作用形成CRISPR复合物所必需的。具有。在一些实施方案中，sgRNA包含与第二序列融合的向导序列，所述第二序列包含衍生自tracr RNA的tracr序列和衍生自crRNA的tracr伴侣序列。tracr序列可以包含来自天然存在的CRISPR/Cas系统的tracrRNA的全部或部分序列。术语“向导序列”是向导RNA中指定靶位点的核苷酸序列，并且可与术语“向导”或“间隔区”互换使用。术语“tracr伴侣序列”也可与术语“直接重复”互换使用。如本文所用，“sgRNA^iBAR”是指具有iBAR序列的单向导RNA。

术语“可与Cas蛋白合作”是指向导RNA可与Cas蛋白相互作用以形成CRISPR复合物。

如本文所用，术语“野生型”是本领域技术人员理解的术语，并且是指生物体，菌株，基因或特征的典型形式，因为它在自然界中发生，区别于突变体或变体形式。

如本文所用，术语“变体”应理解为表现出具有偏离自然界中发生模式的品质展示。

“互补性”是指核酸通过传统的Watson-Crick碱基配对或其他非传统类型与另一种核酸序列形成氢键的能力。百分比互补性表示核酸分子中可以与第二核酸序列形成氢键(例如Watson-Crick碱基配对)的残基的百分比(例如10中的5、6、7、8、9、10个为50％％，60％％，70％％，80％％，90％和100％互补)。“完全互补”意指核酸序列的所有连续残基与第二核酸序列中相同数量的连续残基形成氢键。如本文所用，“基本上互补”是指在8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50个或更多个核苷酸区域互补程度为至少60％，65％，70％，75％，80％，85％，90％，95％，97％，98％，99％或指两个核酸在严格条件下杂交。

如本文所用，杂交的“严格条件”是指与靶序列具有互补性的核酸主要与靶序列杂交并且基本上不与非靶序列杂交的条件。严格条件通常是序列依赖性的，并且取决于许多因素而变化。通常，序列越长，序列与其靶序列特异性杂交的温度越高。Tijssen(1993)，Laboratory Techniques In Biochemistry And Molecular Biology-HybridizationWith Nucleic Acid Probes Part 1，Second Chapter“Principles of principles ofhybridization and the strategy of nucleic acid probe assay”，Elsevier，NY中详细描述了严格条件的非限制性实例。

“杂交”是指其中一个或多个多核苷酸形成通过核苷酸残基的碱基之间的氢键稳定的复合物的反应。氢键可以通过Watson Crick碱基配对，Hoogstein结合或以任何其他序列特异性的方式发生。复合物可包含形成双螺旋结构的双链，形成多链复合物的三条或更多条链，单一自杂交链或这些的任何组合。杂交反应可以构成更广泛过程中的步骤，例如PCR的起始，或酶对多核苷酸的剪切。能够与给定序列杂交的序列称为给定序列的“互补序列”。

如本文所用的“构建体”是指核酸分子(例如，DNA或RNA)。例如，当在sgRNA的上下文中使用时，构建体是指包含sgRNA分子的核酸分子或编码sgRNA的核酸分子。当在蛋白质的上下文中使用时，构建体是指包含可以转录成RNA或表达为蛋白质的核苷酸序列的核酸分子。构建体可含有与核苷酸序列可操作连接的必需调节元件，当构建体存在于宿主细胞中时，所述调节元件允许核苷酸序列的转录或表达。

如本文所用，“可操作地连接”是指基因的表达处于与其空间连接的调节元件(例如启动子)的控制下。调节元件可位于其控制下的基因的5'(上游)或3'(下游)。调节元件(例如启动子)和基因之间的距离可以与该调节元件(例如启动子)与其天然控制的基因之间的距离大致相同，并且调节元件来源于该基因。如本领域已知的，可以适应该距离的变化而不损失调节元件(例如启动子)中的功能。

术语“载体”用于描述可以被工程化以含有可以在宿主细胞中扩增的克隆的一种多核苷酸或多种多核苷酸的核酸分子。载体包括但不限于：单链，双链或部分双链的核酸分子；包含一个或多个游离末端，没有游离末端(例如环状)的核酸分子；包含DNA，RNA或两者的核酸分子；以及本领域已知的其他多核苷酸种类。一种类型的载体是“质粒”，其是指可以插入额外DNA片段的环状双链DNA环，例如通过标准分子克隆技术。某些载体能够在引入它们的宿主细胞中自主复制(例如，具有细菌复制起点的细菌载体和游离型哺乳动物载体)。其他载体(例如，非游离型哺乳动物载体)在引入宿主细胞后整合到宿主细胞的基因组中，从而与宿主基因组一起复制。此外，某些载体能够指导它们可操作地连接的那些基因的表达。此类载体在本文中称为“表达载体”。重组表达载体可以包含适于在宿主细胞中表达核酸的形式的本发明的核酸，这意味着重组表达载体包括一种或多种调节元件，其可以基于用于表达的、可以与待表达的核酸序列可操作地连接的宿主细胞来选择。

“宿主细胞”是指可以是或已经是载体或分离的多核苷酸的受体的细胞。宿主细胞可以是原核细胞或真核细胞。在一些实施方案中，宿主细胞是真核细胞，其可以在体外培养并使用本文描述的方法进行修饰。术语“细胞”包括原代受试细胞及其后代。

“感染复数”或“MOI”在本文中可互换使用，是指制剂(例如，噬菌体，病毒或细菌)与其感染靶(例如细胞或生物体)的比率。例如，当提及接种病毒颗粒的一组细胞时，感染复数或MOI是指在病毒转导期间病毒颗粒(例如包含sgRNA文库的病毒颗粒)的数量与混合物中存在的靶细胞的数量之间的比率。

如本文所用的细胞的“表型”是指细胞的可观察特征或性状，例如其形态，发育，生物化学或生理学特性，物候节律或行为。表型可能来自细胞中基因的表达，环境因素的影响，或两者之间的相互作用。

当在本说明书和权利要求中使用术语“包括”时，不排除其他元件或步骤。

应理解，本文描述的本发明的实施方案包括“由......组成”和/或“基本上由......组成”的实施方案。

本文提及“约”某值或参数时包括了(并描述了)针对该值或参数本身的变化。例如，涉及“约X”的描述包括“X”的描述。

如本文所使用的，提及“非”某值或参数通常表示并描述“除了”某值或参数。例如，该方法不用于治疗X型癌症，意味着该方法用于治疗除X以外的其他类型的癌症。

本文使用的术语“约X-Y”具有与“约X至约Y”相同的含义。

如本文和所附权利要求中所使用的，单数形式“一”，“一个”和“该”包括复数提及，除非上下文另有明确说明。

为了详述本文中核苷酸的数值范围，明确考虑其间的每个中间数。例如，对于19-21nt的范围，除了19nt和21nt之外还考虑了数量20nt，并且对于MOI的范围，明确考虑了它们之间的每个中间数，无论是整数还是小数。

单向导RNA^iBAR文库

本申请提供了一组或多组向导RNA构建体和向导RNA文库，其包含具有内部标签(iBAR)的向导RNA(例如单向导RNA)。

在一个方面，本发明涉及CRISPR/Cas向导RNA和编码CRISPR/Cas向导RNA的构建体。每个向导RNA包含置于向导RNA区域中的iBAR序列，其不显著干扰向导RNA和Cas核酸酶之间的相互作用。提供多组(例如2、3、4、5、6或更多组)向导RNA构建体(包括向导RNA分子和编码向导RNA分子的核酸)，其中一组中的每个向导RNA具有相同的向导序列，但不同的iBAR序列。具有不同iBAR序列的组的不同sgRNA^iBAR构建体可用于单个基因编辑和筛选实验以提供复本数据。

本申请的一个方面提供了一组sgRNA^iBAR构建体，其包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR，其中每个sgRNA^iBAR具有包含向导序列和iBAR序列的sgRNA^iBAR序列，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个的iBAR序列彼此不同，并且其中每个sgRNA^iBAR可与Cas蛋白合作以修饰靶基因组基因座。在一些实施方案中，每个sgRNA^iBAR序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，并且其中将iBAR序列置于第一茎序列和第二茎序列之间。在一些实施方案中，每个sgRNA^iBAR序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，并且其中iBAR序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸。在一些实施方案中，每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)。

在一些实施方案中，提供了一组sgRNA^iBAR构建体，其包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR，其中每个sgRNA^iBAR具有包含向导序列和iBAR序列的sgRNA^iBAR序列，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个的iBAR序列彼此不同，并且其中每个sgRNA^iBAR可与Cas9蛋白合作以修饰靶基因组基因座。在一些实施方案中，每个sgRNA^iBAR序列包含与第二序列融合的向导序列，其中第二序列包含与Cas9相互作用的重复-反-重复茎环。在一些实施方案中，每个sgRNA^iBAR序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，iBAR序列位于重复-反-重复茎的环区域中，和/或茎环1、茎环2或茎环3的环区域中。在一些实施方案中，将iBAR序列插入重复-反-重复茎环的环区域中，和/或茎环1的环区域、茎环2的环区域或茎环3的环区域中。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸。在一些实施方案中，每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)。

在一些实施方案中，提供了一组sgRNA^iBAR构建体，其包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR，其中每个sgRNA^iBAR具有包含向导序列、第二序列和iBAR序列的sgRNA^iBAR序列，其中向导序列与第二序列融合，其中第二序列包含与Cas9蛋白相互作用的重复-反-重复茎环，其中iBAR序列被置于(例如插入)重复-反-重复茎环的环区域中，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个的iBAR序列彼此不同，并且其中每个sgRNA^iBAR可与Cas9蛋白合作以修饰靶基因组基因座。在一些实施方案中，每个sgRNA^iBAR序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸。在一些实施方案中，每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)。

在一些实施方案中，提供了CRISPR/Cas向导RNA构建体，其包含靶向基因组基因座的向导序列和编码重复：反重复双螺旋(Repeat:Anti-Repeat Duplex)和四元环(tetraloop))的向导发夹(guide hairpin)，其中内部标签(iBAR)嵌入四元环中作为内部复本(replicate)。在一些实施方案中，内部标签(iBAR)包含3个核苷酸(“nt”)-20nt(例如3nt-18nt，3nt-16nt，3nt-14nt，3nt-12nt，3nt-10nt，3nt-9nt，4nt-8nt，5nt-7nt；优选3nt，4nt，5nt，6nt，7nt)序列，其由A，T，C和G核苷酸组成。在一些实施方案中，向导序列的长度为17-23、18-22、19-21个核苷酸，并且一旦转录发夹序列可以与Cas核酸酶结合。在一些实施方案中，CRISPR/Cas向导RNA构建体还包含编码茎环1、茎环2和/或茎环3的序列。在一些实施方案中，该向导序列靶向真核细胞的基因组基因，优选地，真核细胞是哺乳动物细胞。在一些实施方案中，CRISPR/Cas向导RNA构建体是病毒载体或质粒。

在一些实施方案中，提供了sgRNA^iBAR文库，其包含多个本文所述的任一组sgRNA^iBAR构建体，其中每个组对应于与不同靶基因组基因座互补的向导序列。在一些实施方案中，sgRNA^iBAR文库包含至少约1000组sgRNA^iBAR构建体。在一些实施方案中，至少两组sgRNA^iBAR构建体的诸iBAR序列是相同的。在一些实施方案中，所有sgRNA^iBAR构建体组的诸iBAR序列是相同的。

在一些实施方案中，提供了包含多组sgRNA^iBAR构建体的sgRNA^iBAR文库，其中每组包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR；其中每个sgRNA^iBAR具有包含向导序列和iBAR序列的sgRNA^iBAR序列，其中每个向导序列与靶基因组基因座互补，其中所述三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中对于三个或更多个sgRNA^iBAR构建体中每个的iBAR序列是彼此不同的，其中每种sgRNA^iBAR可与Cas蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列。在一些实施方案中，每个sgRNA^iBAR序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，并且其中将iBAR序列置于第一茎序列和第二茎序列之间。在一些实施方案中，每个sgRNA^iBAR序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，其中iBAR序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸。在一些实施方案中，每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，sgRNA^iBAR文库包含至少约1000组sgRNA^iBAR构建体。在一些实施方案中，至少两组sgRNA^iBAR构建体的诸iBAR序列是相同的。

在一些实施方案中，提供了包含多组sgRNA^iBAR构建体的sgRNA^iBAR文库，其中每组包含三个或更多个(例如，四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR；其中每个sgRNA^iBAR具有包含向导序列和iBAR序列的sgRNA^iBAR序列，其中每个向导序列与靶基因组基因座互补，其中所述三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中每个iBAR序列是相同的。三个或更多个sgRNA^iBAR构建体彼此不同，其中每个sgRNA^iBAR可与Cas9蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列。在一些实施方案中，每个sgRNA^iBAR序列包含与第二序列融合的向导序列，其中第二序列包含与Cas9相互作用的重复-反-重复茎环。在一些实施方案中，每个sgRNA^iBAR序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，iBAR序列位于重复-反-重复茎环的环区域中；和/或茎环1、茎环2或茎环3的环区域中。在一些实施方案中，将iBAR序列插入重复-反-重复茎环的环区域中，和/或茎环1、茎环2或茎环3的环区域中。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸。在一些实施方案中，每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，sgRNA^iBAR文库包含至少约1000组sgRNA^iBAR构建体。在一些实施方案中，至少两组sgRNA^iBAR构建体的iBAR序列是相同的。

在一些实施方案中，提供了包含多组sgRNA^iBAR构建体的sgRNA^iBAR文库，其中每组包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR；其中每个sgRNA^iBAR具有包含向导序列、第二序列和iBAR序列的sgRNA^iBAR序列，其中所述向导序列与第二序列融合，其中所述第二序列包含与Cas9蛋白相互作用的重复-反-重复茎环。其中iBAR序列被置于(例如插入)重复-反-重复茎环的环区域中，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个的iBAR序列彼此不同，其中每种sgRNA^iBAR可与Cas9蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸。在一些实施方案中，每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，sgRNA^iBAR文库包含至少约1000组sgRNA^iBAR构建体。在一些实施方案中，至少两组sgRNA^iBAR构建体的iBAR序列是相同的。在一些实施方案中，每个sgRNA^iBAR序列的第二序列还包含茎环1、茎环2和/或茎环3。

还提供了由本文所述的sgRNA^iBAR构建体、sgRNA^iBAR构建体组或文库中的任一种编码的sgRNA分子。还提供了包含sgRNA^iBAR构建体、sgRNA^iBAR分子、sgRNA^iBAR组或文库中的任一种的组合物和试剂盒。

在一些实施方案中，提供了经分离的宿主细胞，其包含本文所述的sgRNA^iBAR构建体、sgRNA^iBAR分子、sgRNA^iBAR组或文库中的任一种。在一些实施方案中，提供了宿主细胞库，其中每个宿主细胞包含来自本文所述的sgRNA^iBAR文库的一种或多种sgRNA^iBAR构建体。在一些实施方案中，宿主细胞包含或表达CRISPR/Cas系统的一种或多种组分，例如可与sgRNA^iBAR构建体合作的Cas蛋白。在一些实施方案中，Cas蛋白是Cas9核酸酶。

本文还提供了制备包含多组sgRNA^iBAR构建体的sgRNA^iBAR文库的方法，其中每个组对应多个向导序列中的一个，每个向导序列与不同的靶基因组基因座互补，其中所述方法包括：a)为每个向导序列设计三个或更多个sgRNA^iBAR构建体，其中每个sgRNA^iBAR构建体包含或编码具有包含相应向导序列和iBAR序列的sgRNA^iBAR序列的sgRNA^iBAR，其中对于三个或更多个sgRNA^iBAR构建体每个的iBAR序列是彼此不同的，并且其中每个sgRNA^iBAR可与Cas蛋白合作以修饰相应的靶基因组基因座；b)合成每个sgRNA^iBAR构建体，从而产生sgRNA^iBAR文库。在一些实施例中，该方法还包括设计多个向导序列。

iBAR序列

一组sgRNA^iBAR构建体包含三个或更多个sgRNA^iBAR构建体，每个构建体具有不同的iBAR序列。在一些实施方案中，一组sgRNA^iBAR构建体包含三个sgRNA^iBAR构建体，每个构建体具有不同的iBAR序列。在一些实施方案中，一组sgRNA^iBAR构建体包含四个sgRNA^iBAR构建体，每个构建体具有不同的iBAR序列。在一些实施方案中，一组sgRNA^iBAR构建体包含五个sgRNA^iBAR构建体，每个构建体具有不同的iBAR序列。在一些实施方案中，一组sgRNA^iBAR构建体包含六个或更多个sgRNA^iBAR构建体，每个构建体具有不同的iBAR序列。

iBAR序列可具有任何合适的长度。在一些实施方案中，每个iBAR序列的长度为约1-20个核苷酸(“nt”)，例如约2nt-20nt，3nt-18nt，3nt-16nt，3nt-14nt，3nt-12nt，3nt-10nt，3nt-9nt，4nt-8nt，5nt-7nt中的任一个。在一些实施方案中，每个iBAR序列长约3nt，4nt，5nt，6nt或7nt。在一些实施方案中，每种sgRNA^iBAR构建体的诸iBAR序列具有相同的长度。在一些实施方案中，不同sgRNA^iBAR构建体的诸iBAR序列具有不同长度。

iBAR序列可具有任何合适的序列。在一些实施方案中，iBAR序列是由A，T，C和G核苷酸组成的DNA序列。在一些实施方案中，iBAR序列是由A，U，C和G核苷酸组成的RNA序列。在一些实施方案中，iBAR序列具有除A，T/U，C和G之外的非常规的或经修饰的核苷酸。在一些实施方案中每个iBAR序列是6个核苷酸长，由A，T，C和G核苷酸组成。

在一些实施方案中，与文库中的每组sgRNA^iBAR构建体相关的iBAR序列组彼此不同。在一些实施方案中，文库中至少两组sgRNA^iBAR构建体的iBAR序列是相同的。在一些实施方案中，相同组的iBAR序列用于文库中的每组sgRNA^iBAR构建体。没有必要为不同组的sgRNA^iBAR构建体设计不同的iBAR组。固定的一组iBAR可以用于文库中的所有sgRNA^iBAR构建体组，或者多个iBAR序列可以随机分配到文库中的不同组的sgRNA^iBAR构建体。我们的iBAR策略采用简化的分析工具(iBAR)，可以在各种环境中促进大规模CRISPR/Cas筛选，用于生物医学发现。

可以将iBAR序列置于(包括插入)向导RNA中的任何合适区域，其不影响gRNA在将Cas核酸酶(例如Cas9)引导至其靶位点时的效率。iBAR序列可以位于sgRNA的3'末端或内部位置。例如，sgRNA可以包含与CRISPR复合物中的Cas核酸酶相互作用的各种茎环，并且iBAR序列可以嵌入在任一个茎环的环区域中。在一些实施方案中，每个sgRNA^iBAR序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，并且其中iBAR序列设置在第一茎序列和第二茎序列之间。在一些实施方案中，每个sgRNA^iBAR序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，其中iBAR序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。

例如，CRISPR/Cas9系统的向导RNA可包含靶向基因组基因座的向导序列，和编码下述的向导发夹序列(重复：反重复双螺旋(Repeat:Anti-Repeat Duplex)和四元环(tetraloop))。在一些实施方案中，将内部标签(iBAR)置于(包括插入)四元环中作为内部复本。在内源CRISPR/Cas9系统的背景下，crRNA与反式激活crRNA(tracrRNA)杂交形成crRNA：tracrRNA双链体，其被加载到Cas9上以指导具有适当的原型间隔区相邻基序(PAM)的同源DNA序列的剪切。内源性crRNA序列可分为向导(20nt)和重复(12nt)区，而内源性tracrRNA序列可分为反重复序列(14nt)和三个tracrRNA茎环。在一些实施方案中，sgRNA结合靶DNA以形成T形结构，其包含向导：靶异源双链、重复：反重复双螺旋和茎环1-3。在一些实施方案中，重复和反重复部分通过四元环连接，重复和反重复形成重复：反重复双螺旋，通过单核苷酸(A51)与茎环1连接，而茎环1和2通过5nt单链接头(核苷酸63-67)连接。在一些实施方案中，向导序列(核苷酸1-20)和靶DNA(核苷酸10-200)通过20个Watson-Crick碱基形成向导：靶异双螺旋，而且重复(核苷酸21-32)和反重复(核苷酸37-50)通过9个Watson-Crick碱基对形成重复：反重复双螺旋(U22：A49-A26：U45和G29：C40-A32：U37)。在一些实施方案中，tracrRNA尾(核苷酸68-81和82-96)经由四个和六个Watson-Crick碱基对形成茎环2和3(A69：U80-U72：A77和G82：C96-G87：C91)。本文描述了示例性CRISPR/Cas9系统的晶体结构(Nishimasu H，等人，与向导RNA和靶DNA复合的cas9的晶体结构.Cell.2014；156：935-949)，其被并入本申请中整体作为参考。

在一些实施方案中，该iBAR序列位于sgRNA的重复：反重复茎环的四元环或环区域中。在一些实施方案中，将iBAR序列插入sgRNA的重复：反重复茎环的四元环或环区域中。Cas9 sgRNA框架的四元环位于Cas9-sgRNA核糖核蛋白复合物之外，其在不影响其上游向导序列的活性的情况下经受各种目的的改变^9,12。本申请的发明人已证明6-nt长的iBAR(iBAR₆)可以嵌入典型Cas9 sgRNA框架的四元环中，而不影响sgRNA的基因编辑效率或增加脱靶效应。

示例性iBAR₆产生4,096个标签组合，这为高通量筛选提供了足够的变化(图1A)。为了确定这些额外iBAR序列的插入是否影响gRNA活性，构建了预定的sgRNA文库，其靶向炭疽毒素受体基因ANTXR113与4,096个iBAR₆序列中的每个组合。将该sgRNA^iBAR-ANTXR1文库导入HeLa细胞，该细胞通过低MOI(为0.3)的慢病毒转导不断表达Cas9^6,7。经过三轮PA/LFnDTA毒素处理和富集后，sgRNA及其来自抗毒素细胞的iBAR₆序列通过NGS分析检测，如先前报道的那样⁶。大多数未加标签的sgRNA^iBAR-ANTXR1和sgRNA^ANTXR1显著富集，而几乎所有不靶向对照sgRNA都不存在于抗性细胞群中。重要的是，具有不同iBAR₆的sgRNA^iBAR-ANTXR1的富集水平似乎在两个生物学复本之间是随机的(图1B)。在计算iBAR₆的每个位置处的核苷酸频率后，未从任一复本中观察到序列偏差(图1C)。此外，iBAR₆中的GC含量似乎不影响sgRNA剪切效率(图2)。

向导序列

向导序列与靶序列杂交并指导CRISPR复合物与靶序列的序列特异性结合。在一些实施方案中，当使用合适的比对算法进行理想比对时，向导序列与其相应的靶序列之间的互补程度为约或大于约75％，80％，85％，90％，91％，92％，93％，94％，95％，96％，97％，98％，99％或更多。可以使用用于对准序列的任何合适的算法来确定理想比对，其非限制性示例包括Smith-Waterman算法，Needleman-Wimsch算法，基于Burrows-Wheeler变换的算法。在某些实施方案中，向导序列的长度为约或大于约10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30或更多个核苷酸。可以通过任何合适的测定来评估向导序列指导CRISPR复合物与靶序列的序列特异性结合的能力。例如，可以把足以形成CRISPR复合物的CRISPR系统的组分(包括待测序的向导序列)提供给具有相应靶序列的宿主细胞，例如通过用编码CRISPR序列的组分的载体转染，然后评估靶序列内的优先剪切。类似地，可以通过提供靶序列，CRISPR复合物的组分(包括待测序的向导序列)和不同于测试向导序列的对照向导序列，并比较结合或剪切率(在测试和对照向导序列反应之间的靶序列处)测定，在试管中评估靶多核苷酸序列的剪切。

在一些实施方案中，向导序列可以短至约10个核苷酸且长至约30个核苷酸。在一些实施方案中，向导序列是长度为15、16、17、18、19、20、21、22、23或24个核苷酸中的任一个。合成向导序列可以是约20个核苷酸长，但可以更长或更短。举例来说，CRISPR/Cas9系统的向导序列可以由与靶序列互补的20个核苷酸组成，即向导序列可以与PAM序列上游的20个核苷酸相同(除了DNA和RNA之间的A/U差异)。

可以根据本领域任何已知的方法设计sgRNA^iBAR构建体中的向导序列。向导序列可以靶向编码区，诸如外显子或剪接位点，目的基因的5'非翻译区(UTR)或3'非翻译区(UTR)。例如，基因的阅读框可以被向导RNA的靶位点处的双链断裂(DSB)介导的插入缺失所破坏。或者可以使用靶向编码序列5'末端的向导RNA以高效率制造出基因敲除。可以根据某些序列特征设计和优化向导序列(为了高中靶基因编辑活性和低脱靶效应)。例如，向导序列的GC含量可以在20％-70％的范围内，并且可以避免含有均聚物片段的序列(例如TTTT，GGGG)。

可以将向导序列设计为靶向任何感兴趣的基因组基因座。在一些实施方案中，向导序列靶向真核细胞的基因组基因座，例如哺乳动物细胞。在一些实施方案中，向导序列靶向植物细胞的基因组基因座。在一些实施方案中，向导序列靶向细菌细胞或古细菌细胞的基因组基因座。在一些实施方案中，向导序列靶向蛋白质编码基因。在一些实施方案中，向导序列靶向编码RNA的基因，例如小RNA(例如，microRNA，piRNA，siRNA，snoRNA，tRNA，rRNA和snRNA)、核糖体RNA或长非编码RNA(lincRNA)。在一些实施方案中，向导序列靶向基因组的非编码区。在一些实施方案中，向导序列靶向染色体基因座。在一些实施方案中，向导序列靶向染色体外基因座。在一些实施方案中，向导序列靶向线粒体或叶绿体基因。

在一些实施方案中，向导序列被设计为抑制或激活任何目标靶基因的表达。靶基因可以是内源基因或转基因。在一些实施方案中，靶基因可以认为是与特定表型相关的。在一些实施方案中，靶基因是不涉及特定表型的基因，诸如不认为是与特定表型相关的已知基因或未被表征的未知基因。在一些实施方案中，靶区域位于作为靶基因的不同染色体上。

其他sgRNA组件

sgRNA^iBAR包含促进与Cas蛋白形成CRISPR复合物的额外序列元件。在一些实施方案中，sgRNA^iBAR包含第二序列，其包含重复-反-重复茎环。重复-反-重复茎环包含与tracr序列融合的tracr伴侣序列，所述tracr序列通过环区域与tracr伴侣序列互补。

通常，在内源CRISPR/Cas9系统的背景下，CRISPR复合物的形成(包含与靶序列杂交并与一种或多种Cas蛋白复合的向导序列)导致在靶序列处或者在它附近(例如在1、2、3、4、5、6、7、8、9、10、20、50或更多个碱基对内)一条或两条链的剪切。tracr序列，其可以包含野生型tracr序列的全部或部分或由其组成(例如野生型tracr序列的大约或大于约20、26、32、45、48、54、63、67、85或更多个核苷酸)，可以形成CRISPR复合物的一部分，诸如通过使至少一部分tracr序列与tracr伴侣序列(其与向导序列的可操作地连接)全部或部分杂交。在一些实施方案中，tracr序列与tracr伴侣序列具有足够的互补性，以杂交并参与CRISPR复合物的形成。与靶序列一样，认为不需要完全互补，只要有足够的功能即可。在一些实施方案中，当理想比对时，tracr序列沿着tracr伴侣序列的长度具有至少50％，60％，70％，80％，90％，95％或99％的序列互补性。确定理想比对在本领域技术人员的能力范围内。例如，存在公开的和商业上可用的比对算法和程序，诸如(但不限于)ClustalW，Smith-Waterman in Matlab，Bowtie，Geneious，Biopython和SeqMan。在一些实施方案中，tracr序列长度为约或大于约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50或更多个核苷酸。可以使用衍生自天然存在的CRISPR系统的任一种已知的tracr伴侣序列和tracr序列，诸如来自US8697359中描述的化脓性链球菌CRISPR/Cas9系统的tracr伴侣序列和tracr序列以及本文所述的那些。

在一些实施方案中，tracr序列和tracr伴侣序列包含在单个转录物内，使得两者之间的杂交产生具有二级结构的转录物，例如茎环(也称为发夹)，称为“重复-反-重复茎环(repeat-anti-repeat stem loop)”。

在一些实施方案中，在没有iBAR序列的sgRNA构建体中茎环的环区域的长度为4个核苷酸，并且这种环区域也称为“四元环(tetraloop)”。在一些实施方案中，环区域具有序列GAAA。然而，可以使用更长或更短的环序列，也可以使用替代序列，例如包括核苷酸三联体(例如AAA)和另外的核苷酸(例如C或G)的序列。在一些实施方案中，环区域的序列是CAAA或AAAG。在一些实施例中，将iBAR置于环区域，诸如四元环中。在一些实施方案中，将iBAR插入环区域，诸如四元环中。例如，iBAR序列可以插入第一核苷酸之前，第一核苷酸和第二核苷酸之间，第二核苷酸和第三核苷酸之间，第三核苷酸和第四核苷酸之间，或四元环中第四核苷酸之后。在一些实施方案中，iBAR序列取代环区域中的一个或多个核苷酸。

在一些实施方案中，sgRNA^iBAR包含至少两个或更多个茎环。在一些实施方案中，sgRNA^iBAR具有两个、三个、四个或五个茎环。在一些实施方案中，sgRNA^iBAR具有至多五个发夹。在一些实施方案中，sgRNA^iBAR构建体还包含转录终止序列，诸如多T序列，例如6个T核苷酸。

在一些实施方案中，其中Cas蛋白是Cas9，每个sgRNA^iBAR包含与第二序列融合的向导序列，所述第二序列包含与Cas9相互作用的重复-反-重复茎环。在一些实施方案中，将iBAR序列置于重复-反-重复茎环的环区域中。在一些实施方案中，将iBAR序列插入重复-反-重复茎环的环区域中。在一些实施方案中，iBAR序列取代重复-反-重复茎环的环区域的一个或多个核苷酸。在一些实施方案中，每个sgRNA^iBAR的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，将iBAR序列置于茎环1的环区域中。在一些实施方案中，将iBAR序列插入茎环1的环区域中。在一些实施方案中，iBAR序列取代茎环1的环区域中的一个或多个核苷酸。在一些实施方案中，将iBAR序列置于茎环2的环区域中。在一些实施方案中，将iBAR序列插入茎环2的环区域中。在一些实施方案中，iBAR序列取代茎环2的环区域的一个或多个核苷酸。在一些实施方案中，将iBAR序列置于茎环3的环区域中。在一些实施方案中，将iBAR序列插入茎环3的环区域中。在一些实施方案中，iBAR序列取代茎环3的环区域的一个或多个核苷酸。

在一些实施方案中，每个sgRNA^iBAR序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，并且其中iBAR序列位于第一茎序列和第二茎序列之间。在一些实施方案中，每个sgRNA^iBAR在5’至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，并且其中iBAR序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。

在CRISPR/Cas9系统中，向导RNA可用于指导Cas9核酸酶对基因组DNA的剪切。例如，向导RNA可以由可变序列的核苷酸间隔区(向导序列)组成，其以特定于序列的方式使CRISPR/Cas系统核酸酶靶向基因组位置，并且发夹序列(其在不同的向导RNA中是恒定不变)允许向导RNA与Cas核酸酶结合。在一些实施方案中，提供了CRISPR/Cas向导RNA，其包含与宿主细胞中的靶基因组序列同源或互补的CRISPR/Cas可变向导序列并且当转录时能够结合Cas核酸酶(例如Cas9)的不变发夹序列，其中发夹序列编码重复：反重复双螺旋和四元环，并且内部标签(iBAR)嵌入四元环区域。

CRISPR/Cas9向导RNA的向导序列长度可为约17-23、18-22、19-21个核苷酸。向导序列可以以序列特异性方式使Cas核酸酶靶向基因组基因座，并且可以按照本领域已知的一般原理设计。可以根据本领域的常识提供不变的向导RNA发夹序列，例如，如Nishimasu等人所公开的(Nishimasu H，et al.Calco structure of cas9 in complex with guideRNA and target DNA.Cell.2009；156：935-949)。本申请还提供了不变的向导RNA发夹序列的实例，但应理解本发明不限于此并且可以使用其他不变的发夹序列，只要它们能够在转录后结合Cas核酸酶。

先前的研究表明，尽管具有48-nt tracrRNA尾部的sgRNA(称为sgRNA(+48))是最小区域，但对于体外Cas9催化的DNA剪切(Jinek等人，2012)，具有延长的tracrRNA尾部、sgRNA(+67)和sgRNA(+85)的sgRNA可以改善体内Cas9剪切活性(Hsu等人，2013)。在一些实施方案中，sgRNA^iBAR包含茎环1、茎环2和/或茎环3。茎环1、茎环2和/或茎环3区域可以提高CRISPR/Cas9系统中的编辑效率。

Cas蛋白

本文所述的sgRNA^iBAR构建体可以设计为与本领域已知的任一种天然存在的或工程化的CRISPR/Cas系统合作。在一些实施方案中，sgRNA^iBAR构建体可与I型CRISPR/Cas系统合作。在一些实施方案中，sgRNA^iBAR构建体可与II型CRISPR/Cas系统合作。在一些实施方案中，sgRNA^iBAR构建体可与III型CRISPR/Cas系统合作。示例性CRISPR/Cas系统可以在WO2013176772，WO2014065596，WO2014018423，WO2016011080，US8697359，US8932814，US10113167B2中找到，其公开内容出于所有目的通过引用整体并入本文。

在某些实施方案中，sgRNA^iBAR构建体可与衍生自CRISPR/Cas I型，II型或III型系统的Cas蛋白合作，其具有RNA向导的多核苷酸结合和/或核酸酶活性。此类Cas蛋白的实例列于例如WO2014144761WO2014144592，WO2013176772，US20140273226和US20140273233中，其通过引用整体并入本文。

在某些实施方案中，Cas蛋白衍生自II型CRISPR-Cas系统。在某些实施方案中，Cas蛋白是Cas9蛋白或源自Cas9蛋白。在某些实施方案中，Cas蛋白是或源自细菌Cas9蛋白，包括WO2014144761鉴定出的那些。

在一些实施方案中，sgRNA^iBAR构建体可与Cas9(也称为Csn1和Csx12)，其同源物或其修饰形式合作。在一些实施方案中，sgRNA^iBAR构建体可与两种或更多种Cas蛋白合作。在一些实施方案中，sgRNA^iBAR构建体可与来自化脓性链球菌或肺炎链球菌的Cas9蛋白合作。Cas酶是本领域已知的。例如，化脓性链球菌Cas9蛋白的氨基酸序列可以用登录号Q99ZW2在SwissProt数据库中找到。

Cas蛋白(在本文中也称为“Cas核酸酶”)提供所需的活性，例如靶结合，靶切口或剪切活性。在某些实施方案中，所需活性是靶结合。在某些实施方案中，所需活性是靶切口或靶剪切。在某些实施方案中，所需活性还包括由与Cas蛋白或核酸酶缺陷的Cas蛋白共价融合的多肽提供的功能。这种所需活性的实例包括转录调节活性(活化或抑制)，表观遗传修饰活性或靶可视化/鉴定活性。

在一些实施方案中，sgRNA^iBAR构建体可与Cas核酸酶合作，所述Cas核酸酶剪切靶序列，包括双链剪切和单链剪切。在一些实施方案中，sgRNA^iBAR构建体可与无催化活性的Cas(“dCas”)合作。在一些实施方案中，sgRNA^iBAR构建体可与CRISPR激活(“CRISPRa”)系统的dCas合作，其中dCas与转录激活因子融合。在一些实施方案中，sgRNA^iBAR构建体可与CRISPR干扰(CRISPRi)系统的dCas合作。在一些实施方案中，dCas与阻遏物结构域融合，诸如KRAB结构域。

在某些实施方案中，Cas蛋白是野生型Cas蛋白(诸如Cas9)或其片段的突变体。Cas9蛋白通常具有至少两个核酸酶(例如，DNase)结构域。例如，Cas9蛋白可具有RuvC样核酸酶结构域和HNH样核酸酶结构域。RuvC和HNH结构域共同作用以剪切靶位点中的两条链以在靶多核苷酸中产生双链断裂(Jinek等，Science 337：816-21)。在某些实施方案中，突变体Cas9蛋白被修饰为仅含有一个功能性核酸酶结构域(RuvC样或HNH样核酸酶结构域)。例如，在某些实施方案中，修饰突变体Cas9蛋白，使得一个核酸酶结构域缺失或突变，使得其不再具有功能性(即不存在核酸酶活性)。在核酸酶结构域无活性的其中一个的一些实施方案中，突变体能够将切口引入双链多核苷酸(这种蛋白质被称为“切口酶”)但不能剪切双链多核苷酸。在某些实施方案中，修饰Cas蛋白以增加核酸结合亲和力和/或特异性，改变酶活性，和/或改变蛋白质的另一性质。在某些实施方案中，截短或修饰Cas蛋白以优化效应结构域的活性。在某些实施方案中，修饰或消除RuvC样核酸酶结构域和HNH样核酸酶结构域，使得突变体Cas9蛋白不能剪切或剪切靶多核苷酸。在某些实施方案中，相对于野生型对应物缺乏一些或所有核酸酶活性的Cas9蛋白仍然或多或少地维持靶识别活性。

在某些实施方案中，Cas蛋白是融合蛋白，其包含与另一多肽或效应结构域融合的天然存在的Cas或其变体。另一种多肽或效应结构域可以是例如剪切结构域，转录激活结构域，转录抑制结构域或表观遗传修饰结构域。在某些实施方案中，融合蛋白包含经修饰的或经突变的Cas蛋白，其中所有核酸酶结构域已经失活或缺失。在某些实施方案中，Cas蛋白的RuvC和/或HNH结构域受到修饰或突变，使得它们不再具有核酸酶活性。

在某些实施方案中，融合蛋白的效应结构域是从具有所需特性的任何核酸内切酶或核酸外切酶获得的剪切结构域。

在某些实施方案中，融合蛋白的效应结构域是转录激活结构域。通常，转录激活结构域与转录控制元件和/或转录调节蛋白(即转录因子，RNA聚合酶等)相互作用以增加和/或激活基因的转录。在某些实施方案中，转录激活结构域是单纯疱疹病毒VP16激活结构域，VP64(其为VP16的四聚体衍生物)，NFxB p65激活结构域，p53激活结构域1和2，CREB(cAMP反应元件结合蛋白)激活结构域，E2A激活结构域或NFAT(活化T细胞核因子)激活结构域。在某些实施方案中，转录激活结构域是Gal4，Gcn4，MLL，Rtg3，Gln3，Oaf1，Pip2，Pdr1，Pdr3，Pho4或Leu3。转录激活结构域可以是原始转录激活结构域的野生型或经修饰或经截短的形式。

在某些实施方案中，融合蛋白的效应结构域是转录抑制结构域，例如诱导型cAMP早期阻遏物(ICER)结构域，Kruppel相关盒A(KRAB-A)阻遏物结构域，富含YY1甘氨酸的抑制物结构域，Sp1样抑制因子，E(spI)抑制因子，I.kappa.B阻遏物或MeCP2。

在某些实施方案中，融合蛋白的效应结构域是表观遗传修饰结构域，其通过修饰组蛋白结构和/或染色体结构来改变基因表达，例如组蛋白乙酰转移酶结构域，组蛋白脱乙酰酶结构域，组蛋白甲基转移酶结构域，组蛋白去甲基化酶结构域，DNA甲基转移酶结构域或DNA去甲基化酶结构域。

在某些实施方案中，Cas蛋白还包含至少一个另外的结构域，例如核定位信号(NLS)，细胞穿透或易位结构域和标志物结构域(例如荧光蛋白标志物)。

载体

在一些实施方案中，sgRNA^iBAR构建体包含与向导RNA序列和iBAR序列可操作地连接的一种或多种调节元件。示例性的调节元件包括但不限于启动子、增强子、内部核糖体进入位点(IRES)和其他表达控制元件(例如转录终止信号，诸如多腺苷酸化信号和多-U序列)。这些调节元件描述于例如Goeddel，GENE EXPRESSION TECHNOLOGY：METHODS INENZYMOLOGY 185，Academic Press，San Diego，Calif(1990)中。调节元件包括在许多类型的宿主细胞中指导核苷酸序列构成表达的那些和仅在某些宿主细胞中指导核苷酸序列表达的那些(例如组织特异性调节序列)。

sgRNA^iBAR构建体可以存在于载体中。在一些实施方案中，sgRNA^iBAR构建体是表达载体，诸如病毒载体或质粒。本领域技术人员应理解，表达载体的设计可取决于诸如待转化的宿主细胞的选择、所需表达水平等因素。在一些实施方案中，sgRNA^iBAR构建体是慢病毒载体。在一些实施方案中，sgRNA^iBAR构建体是腺病毒或腺相关病毒。在一些实施方案中，载体还包含选择标志物。在一些实施方案中，载体还包含编码CRISPR/Cas系统的一种或多种元件的一种或多种核苷酸序列，例如编码Cas核酸酶(例如Cas9)的核苷酸序列。在一些实施方案中，提供了载体系统，其包含编码CRISPR/Cas系统的一种或多种元件的核苷酸序列的一种或多种载体，和包含本文所述的任一种sgRNA^iBAR构建体的载体。载体可包括以下元件中的一种或多种：复制起点，调节目标多肽表达的一种或多种调节序列(诸如例如启动子和/或增强子)，和/或一种或多种更多可选择标志物基因(诸如例如，抗生素抗性基因和编码荧光蛋白的基因)。

文库

可以设计本文描述的sgRNA^iBAR文库以根据基因筛选的需要靶向多个基因组基因座。在一些实施方案中，设计单组sgRNA^iBAR构建体以靶向每种目的基因。在一些实施方案中可以设计多(例如至少2、4、6、10、20或更多个，诸如4-6)组具有靶向单个目的基因的不同向导序列的sgRNA^iBAR构建体。

在一些实施方案中，sgRNA^iBAR文库包含至少10、20、50、100、200、500、1000、2000、5000、10000、20000、50000、100000或更多组sgRNA^iBAR构建体。在一些实施方案中，sgRNA^iBAR文库靶向细胞或生物体中的至少10、20、50、100、200、500、1000、2000、5000、10000、15000或更多个基因。在一些实施方案中，sgRNA^iBAR文库是蛋白质编码基因和/或非编码RNA的全基因组文库。在一些实施方案中，sgRNA^iBAR文库是靶标文库，其靶向信号传导途径中的所选择的基因或者与细胞过程相关联。在一些实施方案中，sgRNA^iBAR文库用于与特定调节表型相关的全基因组筛选。在一些实施方案中，sgRNA^iBAR文库用于全基因组筛选以鉴定出与特定调节表型相关的至少一种靶基因。在一些实施方案中，sgRNA^iBAR文库被设计为靶向真核基因组，例如哺乳动物基因组。感兴趣的示例性基因组包括啮齿动物(小鼠，大鼠，仓鼠，豚鼠)，驯养动物(例如牛，绵羊，猫，狗，马或兔)，非人灵长类动物(例如猴)的基因组，鱼类(如斑马鱼)，非脊椎动物(如果蝇(Drosophila melanogaster)和秀丽隐杆线虫(Caenorhabditis elegans))以及人类。

可以使用已知算法设计sgRNA^iBAR文库的向导序列，所述算法在用户定义的列表中鉴定出具有高度靶向特异性的CRISPR/Cas靶位点(基因组靶扫描(GT-Scan))；参见O'Brien等，Bioinformatics(2014)30：2673-2675)。在一些实施方案中可以在单个阵列上产生100,000个sgRNA^iBAR构建体，提供足够的覆盖以全面筛选人类基因组中的所有基因。通过并行地合成多个sgRNA^iBAR文库，还可以扩大该方法以实现全基因组筛选。sgRNA^iBAR文库中sgRNA^iBAR构建体的确切数量可取决于是否筛选1)靶向基因或调节元件，2)靶向完整基因组或基因组基因的亚组。

在一些实施方案中，设计sgRNA^iBAR文库以靶向与基因组中的基因重叠的每个PAM序列，其中PAM序列对应Cas蛋白。在一些实施方案中，设计sgRNA^iBAR文库用以靶向在基因组中发现的PAM序列的次级组，其中PAM序列对应Cas蛋白。

在一些实施方案中，sgRNA^iBAR文库包含一个或多个不靶向基因组中任何基因组基因座的对照sgRNA^iBAR构建体。在一些实施方案中，不靶向认定的基因组基因的sgRNA^iBAR构建体可以作为阴性对照包含在sgRNA^iBAR文库中。

可使用本领域任何已知核酸合成方法和/或分子克隆方法制备本文所述的sgRNA^iBAR构建体和文库。在一些实施方案中，sgRNA^iBAR文库通过阵列上的电化学方法(例如CustomArray，Twist，Gen9)，DNA印迹法(例如，Agilent)或单个寡核苷酸固相合成法(例如通过IDT)合成。可以通过PCR扩增sgRNA^iBAR构建体并将其克隆到表达载体(例如，慢病毒载体)中。在一些实施方案中，慢病毒载体进一步编码基于CRISPR/Cas的基因编辑系统的一种或多种组分，诸如Cas蛋白(例如Cas9)。

宿主细胞

在一些实施方案中，提供了包含宿主细胞的组合物，所述宿主细胞包含本文所述的sgRNA^iBAR构建体、分子、组或文库中的任一种。

在一些实施方案中，提供了编辑宿主细胞中基因组基因座的方法，包括向宿主细胞中引入向导RNA构建体，其包含靶向基因组基因的向导序列和编码重复的向导发夹序列：反重复双螺旋和四元环，其中内部标签(iBAR)嵌入四元环中作为内部复本，表达靶向宿主细胞中基因组基因的向导RNA，从而在Cas核酸酶存在下编辑靶基因组基因。

在一些实施方案中，提供了通过将本文所述的任一种sgRNA^iBAR文库转染至多种宿主细胞而制备的细胞库，其中sgRNA^iBAR构建体存在于病毒载体(例如慢病毒载体)中。在一些实施方案中，转染期间病毒载体和宿主细胞之间的感染复数(MOI)为至少约1。在一些实施方案中，MOI为至少约1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10或更高中的任一个。在一些实施方案中，MOI为约1、约1.5、约2、约2.5、约3、约3.5、约4、约4.5、约5、约5.5、约6、约6.5、约7、约7.5、约8.5、约9、约9.5或约10。在一些实施方案中，MOI是1-10、1-3、3-5、5-10、2-9、3-8，4-6或2-5中的任一个。在一些实施方案中，转染期间病毒载体和宿主细胞之间的MOI小于1，例如小于0.8、0.5、0.3或更低。在一些实施方案中，MOI为约0.3至约1。

在一些实施方案中，将驱动CRISPR/Cas系统的一种或多种元件的表达的一种或多种载体引入宿主细胞中，使得CRISPR系统的元件的表达指导与sgRNA^iBAR分子形成CRISPR复合物(在一个或多个靶位点)。在一些实施方案中，宿主细胞已经被引入Cas核酸酶或被工程化以稳定表达CRISPR/Cas核酸酶。

在一些实施方案中，宿主细胞是真核细胞。在一些实施方案中，宿主细胞是原核细胞。在一些实施方案中，宿主细胞是细胞系，例如预先建立的细胞系。宿主细胞和细胞系可以是人的细胞或细胞系，或者它们可以是非人的，哺乳动物的细胞或细胞系。宿主细胞可以源自任何组织或器官。在一些实施方案中，宿主细胞是肿瘤细胞。在一些实施方案中，宿主细胞是干细胞或iPS细胞。在一些实施方案中，宿主细胞是神经细胞。在一些实施方案中，宿主细胞是免疫细胞，例如B细胞或T细胞。在一些实施方案中，宿主细胞难以用低MOI(例如，低于1、0.5或0.3)的病毒载体(例如慢病毒载体)转染。在一些实施方案中，使用低MOI(例如，低于1、0.5或0.3)的CRISPR/Cas系统难以编辑宿主细胞。在一些实施方案中，宿主细胞可以有限的量获得。在一些实施方案中，宿主细胞获自来自个体的活组织检查，例如来自肿瘤活组织检查。

筛选方法

本申请还提供了使用本文所述的任一种向导RNA构建体，向导RNA文库和细胞库的基因筛选方法，包括高通量筛选和全基因组筛选。

在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，例如哺乳动物细胞)的基因组基因座的方法，包括：a)接触表达的初始细胞群在允许将sgRNA^iBAR构建体导入细胞以提供经修饰的细胞群的条件下，具有本文所述的任一sgRNA^iBAR文库的Cas蛋白；b)从经修饰的细胞群中选择具有经调节的表型的细胞群，以提供选择出的细胞群；c)从选择出的细胞群中获得sgRNA^iBAR序列；d)基于序列计数对sgRNA^iBAR序列的相应向导序列进行排序，其中所述排序包括：基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预定阈值水平之上的向导序列的基因组基因座。在一些实施方案中，其中每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)，使sgRNA^iBAR文库以大于约2(例如在至少约3、5或10)的感染复数(MOI)与初始细胞群相接触。在一些实施方案中，将sgRNA^iBAR文库中超过约95％的sgRNA^iBAR构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。

在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，诸如哺乳动物细胞)的基因组基因座的方法，包括：a)使初始细胞群接触i)本文所述的任一种sgRNA^iBAR文库；ii)Cas组分，其包含Cas蛋白或编码Cas蛋白的核酸相接触，条件是允许将sgRNA^iBAR构建体和Cas组分导入细胞中以提供经修饰的细胞群；b)从经修饰的细胞群中选择出具有经调节表型的细胞群，以提供选择出的细胞群；c)从选择出的细胞群中获得sgRNA^iBAR序列；d)基于序列计数对sgRNA^iBAR序列的相应向导序列进行排序，其中所述排序包括：基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预定阈值水平之上的向导序列的基因组基因座。在一些实施方案中，其中每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)，使sgRNA^iBAR文库以大于约2的感染复数(MOI)与初始细胞群相接触(例如在至少约3、5或10)。在一些实施方案中，将sgRNA^iBAR文库中超过约95％的sgRNA^iBAR构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。

在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，诸如哺乳动物细胞)的基因组基因座的方法，包括：a)使表达Cas蛋白的初始细胞群接触sgRNA^iBAR文库，其条件是允许将sgRNA^iBAR构建体引入细胞中以提供经修饰的细胞群；其中sgRNA^iBAR文库包含多组sgRNA^iBAR构建体，其中每组包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR；其中每个sgRNA^iBAR具有包含向导序列和iBAR序列的sgRNA^iBAR序列，其中每个向导序列与靶基因组基因座互补，其中所述三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中每个iBAR序列是相同的。三个或更多个sgRNA^iBAR构建体彼此不同，其中每个sgRNA^iBAR可与Cas蛋白合作以修饰靶基因组基因座；其中每组对应与不同靶基因组基因座互补的向导序列；b)从经修饰的细胞群中选择出具有经调节表型的细胞群，以提供选择出的细胞群；c)从选择出的细胞群中获得sgRNA^iBAR序列；d)基于序列计数对sgRNA^iBAR序列的相应向导序列进行排序，其中所述排序包括：基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预定阈值水平之上的向导序列的基因组基因座。在一些实施方案中，每个sgRNA^iBAR序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，并且其中将iBAR序列置于第一茎序列和第二茎序列之间。在一些实施方案中，每个sgRNA^iBAR序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，其中iBAR序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸。在一些实施方案中，Cas蛋白是Cas9。在一些实施方案中，每个sgRNA^iBAR序列包含与第二序列融合的向导序列，其中第二序列包含与Cas9相互作用的重复-反-重复茎环。在一些实施方案中，每个sgRNA^iBAR序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，iBAR序列位于重复-反-重复茎环的环区域中，和/或茎环1、茎环2或茎环3的环区域中。在一些实施方案中，将iBAR序列插入重复-反-重复茎环的环区域中，和/或茎环1、茎环2或茎环3的环区域中。在一些实施方案中，每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中使sgRNA^iBAR文库与初始细胞群以大于约2(例如，至少约3、5或10)的感染复数(MOI)接触。在一些实施方案中，sgRNA^iBAR文库包含至少约1000组sgRNA^iBAR构建体。在一些实施方案中，至少两组sgRNA^iBAR构建体的iBAR序列是相同的。在一些实施方案中，将sgRNA^iBAR文库中超过约95％的sgRNA^iBAR构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。

在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，诸如哺乳动物细胞)的基因组基因座的方法，包括：a)使初始细胞群接触i)sgRNA^iBAR文库和ii)Cas组分，其包含Cas蛋白或编码Cas蛋白的核酸，条件是允许将sgRNA^iBAR构建体导入细胞以提供经修饰的细胞群；其中sgRNA^iBAR文库包含多组sgRNA^iBAR构建体，其中每组包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR；其中每个sgRNA^iBAR具有包含向导序列和iBAR序列的sgRNA^iBAR序列，其中每个向导序列与靶基因组基因座互补，其中所述三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中每个的iBAR序列是相同的。三个或更多个sgRNA^iBAR构建体彼此不同，其中每个sgRNA^iBAR可与Cas蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列；b)从经修饰的细胞群中选择具有经调节表型的细胞群，以提供选择出的细胞群；c)从选择出的细胞群中获得sgRNA^iBAR序列；d)基于序列计数对sgRNA^iBAR序列的相应向导序列进行排序，其中所述排序包括：基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的排序；e)鉴定出对应于排序在预定阈值水平之上的向导序列的基因组基因座。在一些实施方案中，每个sgRNA^iBAR序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，并且其中将iBAR序列置于第一茎序列和第二茎序列之间。在一些实施方案中，每个sgRNA^iBAR序列在5'至3'方向上包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，其中iBAR序列位于第一茎序列的3'末端和第二茎序列的5'末端之间。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸。在一些实施方案中，Cas蛋白是Cas9。在一些实施方案中，每个sgRNA^iBAR序列包含与第二序列融合的向导序列，其中第二序列包含与Cas9相互作用的重复-反-重复茎环。在一些实施方案中，每个sgRNA^iBAR序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，iBAR序列位于重复-反-重复茎环的环区域中，和/或茎环1、茎环2或茎环3的环区域中。在一些实施方案中，将iBAR序列插入重复-反-重复茎环的环区域中，和/或茎环1、茎环2或茎环3的环区域中。在一些实施方案中每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，使sgRNA^iBAR文库与初始细胞群以大于约2(例如至少约3、5或10)的感染复数(MOI)接触。在一些实施方案中，sgRNA^iBAR文库包含至少约1000组sgRNA^iBAR构建体。在一些实施方案中，至少两组sgRNA^iBAR构建体的iBAR序列是相同的。在一些实施方案中，将sgRNA^iBAR文库中超过约95％的sgRNA^iBAR构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。

在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，例如哺乳动物细胞)的基因组基因座的方法，包括：a)接触表达的初始细胞群具有sgRNA^iBAR文库的Cas9蛋白，其条件是允许将sgRNA^iBAR构建体引入细胞中以提供修饰的细胞群；其中sgRNA^iBAR文库包含多组sgRNA^iBAR构建体，其中每组包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR；其中每个sgRNA^iBAR具有包含向导序列、第二序列和iBAR序列的sgRNA^iBAR序列，其中所述向导序列与第二序列融合，其中所述第二序列包含与Cas9蛋白相互作用的重复-反-重复茎环。其中iBAR序列被置于(例如插入)重复-反-重复茎环的环区域中，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个的的iBAR序列彼此不同，其中每种sgRNA^iBAR可与Cas9蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列；b)从修饰的细胞群中选择具有调节表型的细胞群，以提供选择出的细胞群；c)从选择出的细胞群中获得sgRNA^iBAR序列；d)基于序列计数对sgRNA^iBAR序列的相应向导序列进行排序，其中所述排序包括：基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的排序；e)鉴别出对应于排序在预定阈值水平之上的向导序列的基因组基因座。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸。在一些实施方案中，每个sgRNA^iBAR序列的第二序列还包含茎环1、茎环2和/或茎环3.在一些实施方案中，每个sgRNA^iBAR构建体是质粒或病毒载体(例如，慢病毒载体)。在一些实施方案中，使sgRNA^iBAR文库与初始细胞群以大于约2(例如，至少约3、5或10)的感染复数(MOI)接触。在一些实施方案中，sgRNA^iBAR文库包含至少约1000组sgRNA^iBAR构建体。在一些实施方案中，至少两组sgRNA^iBAR构建体的iBAR序列是相同的。在一些实施方案中，将sgRNA^iBAR文库中超过约95％的sgRNA^iBAR构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。

在一些实施方案中，提供了筛选调节细胞表型(例如真核细胞，诸如哺乳动物细胞)的基因组基因座的方法，包括：a)使初始细胞群接触i)本文描述的sgRNA^iBAR文库；ii)Cas组分，其包含Cas9蛋白或编码Cas9蛋白的核酸，条件是允许将sgRNA^iBAR构建体和Cas组分导入细胞中以提供经修饰的细胞群；其中sgRNA^iBAR文库包含多组sgRNA^iBAR构建体，其中每组包含三个或更多个(例如四个)sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR；其中每个sgRNA^iBAR具有包含向导序列、第二序列和iBAR序列的sgRNA^iBAR序列，其中所述向导序列与第二序列融合，其中所述第二序列包含与Cas9蛋白相互作用的重复-反-重复茎环。其中iBAR序列被置于(例如插入)重复-反-重复茎环的环区域中，其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个的iBAR序列彼此不同，其中每种sgRNA^iBAR可与Cas9蛋白合作以修饰靶基因组基因座；其中每个组对应与不同靶基因组基因座互补的向导序列；b)从经修饰的细胞群中选择具有经调节表型的细胞群，以提供选择出的细胞群；c)从选择出的细胞群中获得sgRNA^iBAR序列；d)基于序列计数对sgRNA^iBAR序列的相应向导序列进行排序，其中所述排序包括：基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的排序；e)鉴别出对应于排序在预定阈值水平之上的向导序列的基因组基因座。在一些实施方案中，每个iBAR序列包含约1-50个核苷酸。在一些实施方案中，每个sgRNA^iBAR序列的第二序列还包含茎环1、茎环2和/或茎环3。在一些实施方案中，每个sgRNA^iBAR构建体是质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，使sgRNA^iBAR文库与初始细胞群以大于约2(例如至少约3、5或10)的感染复数(MOI)接触。在一些实施方案中，sgRNA^iBAR文库包含至少约1000组sgRNA^iBAR构建体。在一些实施方案中，至少两组sgRNA^iBAR构建体的iBAR序列是相同的。在一些实施方案中，将sgRNA^iBAR文库中超过约95％的sgRNA^iBAR构建体引入初始细胞群中。在一些实施方案中，筛选以大于约1000倍的覆盖率进行。在一些实施方案中，筛选是阳性筛选。在一些实施方案中，筛选是阴性筛选。

在一些实施方案中，提供了用于最小化基于CRISPR/Cas的高通量基因筛选的错误发现率(false discovery rate,FDR)的方法，其包括：通过在同一实验中在靶细胞中计数向导RNA和内部标签(iBAR)核苷酸序列两者，将多个嵌入了向导RNA的内部标签引入到宿主细胞中以多次追踪每个向导RNA的性能。在优选的实施方案中，标签包含2nt-20nt(更优选3nt-18nt，3nt-16nt，3nt-14nt，3nt-12nt，3nt-10nt，3nt-9nt，4nt-8nt，5nt-7nt；甚至更优选3nt，4nt，5nt，6nt，7nt)由A，T，C和G组成的短序列。在优选的实施方案中，标签嵌入在向导RNA的四元环区域中。在优选的实施方案中，向导RNA构建体是病毒载体。在优选的实施方案中，病毒抗原载体是慢病毒载体。在优选的实施方案中，向导RNA构建体以MOI>1引入靶细胞(例如MOI>1.5，MOI>2，MOI>2.5，MOI>3，MOI>3.5，MOI>4，MOI>4.5，MOI>5，MOI>5.5，MOI>6，MOI>6.5，MOI>7；诸如MOI约为1，MOI约为1.5，MOI约为2，MOI约为2.5，MOI约为3，MOI为约3.5，MOI约为4，MOI约为4.5，MOI约为5，MOI约为5.5，MOI约为6，MOI约为6.5，MOI约为7)。

作为一种强大的基因组编辑工具，成簇规律间隔短回文重复序列(CRISPR)-成簇规律间隔短回文重复序列相关蛋白9(Cas9)系统已迅速发展成为基于功能的大规模筛选策略(在真核细胞中)。与常规的CRISPR/Cas筛选方法相比，本发明提供了一种新的基因筛选方法，通过该方法，筛选的假阳性率(FDR)显著降低并且数据重现性大大增加。

最近报道了两篇论文在sgRNA体外产生随机标签用于经汇集的CRISPR筛选^13,14。假设每个sgRNA将产生所需的功能丧失(LOF)和非LOF等位基因，则计算任一给定sgRNA的所有读数(其无法准确评估其靶向基因在阴性筛选中的重要性)。通过将一个UMI(独特分子鉴别符)与每个sgRNA的一个编辑结果相关联以实现单细胞谱系追踪来降低假阴性率，或通过计数减少的RSL数量(随机序列标志物)(附以sgRNA以提高筛选质量)可以实现大大改善统计结果。与这两种方法不同，本发明提供了一种使用具有iBAR序列的sgRNA组的新方法，以便能够用以高MOI病毒感染得到的CRISPR文库进行汇集筛选，从而减小文库的大小并改善数据质量。

本文所述的筛选方法使用各组sgRNA构建体的文库，每个构建体具有内部标签(iBAR)，以通过统计分析改善靶鉴别和数据重现性，并降低错误发现率(FDR)。在使用汇集的sgRNA文库的常规CRISPR/Cas筛选方法中，在细胞库构建期间使用低感染复数(MOI)产生表达gRNA的高质量细胞库，以确保每个细胞平均含有少于1个sgRNA或配对的向导RNA(“pgRNA”)。因为文库中的sgRNA分子随机整合到转染的细胞中，所以足够低的MOI确保每个细胞表达单个sgRNA，从而最小化筛选的假阳性率(FDR)。为了进一步降低FDR并提高数据重现性，通常需要深入覆盖gRNA和多个生物学复本以获得具有高统计学意义的命中基因。当需要大量全基因组筛选时，当用于文库构建的细胞材料有限时，或者当进行难以安排实验复本或控制MOI的更具挑战性的筛选(即体内筛选)时，常规筛选方法面临困难。使用如本文所述的sgRNA^iBAR文库的方法通过在每个sgRNA中包含iBAR序列克服了困难，这使得能够在具有相同向导序列但不同iBAR序列的每个sgRNA组内收集内部复本。例如，如实施例中所述，对于每种sgRNA具有四个核苷酸的iBAR可以提供足够的内部复本以评估靶向相同的基因组基因座的不同sgRNA^iBAR构建体之间的数据一致性。两个独立实验之间的高度一致性表明，使用iBAR方法，一个实验复本对于CRISPR/Cas筛选是足够的。由于在宿主细胞的病毒转导期间文库覆盖率显著增加且MOI较高，因此初始细胞群中的细胞数量可减少20倍以达到相同的文库覆盖率(表3)，如实施例中描述的、所构建的基因组尺度人类文库所示。出于同样的原因，使用sgRNA^iBAR的每个全基因组筛选的工作量可以按比例减少。使用具有不同iBAR序列的sgRNA，然后可以通过计数向导序列和相应的内部标签(iBAR)核苷酸序列在同一实验中多次追踪每个向导序列的性能，从而大大减少FDR，并提高效率和响应。在病毒转导步骤中使用高病毒滴度可以进一步提高转导效率和文库覆盖率，例如，MOI>1(例如MOI>1.5，MOI>2，MOI>2.5，MOI>3，MOI>3.5，MOI>4，MOI>4.5，MOI>5，MOI>5.5，MOI>6，MOI>6.5，MOI>7，MOI>7.5，MOI>8，MOI>8.5，MOI>9，MOI>9.5或MOI>10；诸如MOI约为1，MOI约为1.5，MOI约为2，MOI约为2.5，MOI约为3，MOI约为3.5，MOI约为4MOI约为4.5，MOI约为5，MOI约为5.5，MOI约为6，MOI约为6.5，MOI约为7，MOI约为7.5，MOI约为8，MOI约为8.5，MOI约为9，MOI约为9.5，MOI约为10)。

Cas蛋白可以在体外或体内筛选中作为(i)Cas蛋白，或(ii)编码Cas蛋白的mRNA，或(iii)编码蛋白的线性或环状DNA引入细胞。编码Cas蛋白的Cas蛋白或构建体可以在组合物中为经纯化的或未经纯化的。将蛋白质或核酸构建体引入宿主细胞的方法是本领域公知的，并且适用于本文所述的所有需要将Cas蛋白质或其构建体引入细胞的方法。在某些实施方案中，Cas蛋白作为蛋白质递送到宿主细胞中。在某些实施方案中，Cas蛋白由宿主细胞中的mRNA或DNA构成表达。在某些实施方案中，来自mRNA或DNA的Cas蛋白的表达在宿主细胞中是可诱导的或经诱导的。在某些实施方案中，可以使用本领域已知的重组技术将Cas蛋白以Cas蛋白：sgRNA复合物引入宿主细胞中。引入Cas蛋白或其构建体的示例性方法已描述于例如WO2014144761、WO2014144592和WO2013176772中，其通过引用整体并入本文。

在一些实施方案中，该方法使用CRISPR/Cas9系统。Cas9是来自微生物II型CRISPR(成簇规律间隔短回文重复序列)系统的核酸酶，已显示当与单向导RNA(sgRNA)配对时剪切DNA。sgRNA将Cas9引导至靶基因组基因中的互补区域，这可导致位点特异性双链断裂(DSB)，其可通过细胞非同源末端连接(NHEJ)机制以易于错误的方式修复。野生型Cas9主要剪切基因组位点，其中gRNA序列后面是PAM序列(-NGG)。NHEJ介导的Cas9诱导的DSB的修复诱导出在剪切位点处起始的大范围突变，其通常是小的(<10bp)插入/缺失(插入缺失)，但可以包括更大(>100bp)的插入缺失。

本文描述的方法可用于鉴别出编码基因、非编码RNA和调节元件的功能。在一些实施方案中，将sgRNA^iBAR文库引入表达Cas9的细胞或与效应结构域融合的无催化活性的Cas9(dCas9)。通过高通量筛选，本领域技术人员可以通过产生多种突变，大基因组缺失，转录激活或转录抑制来进行多种基因筛选。如实施例中所示，iBAR序列不影响sgRNA在指导Cas9或dCas9核酸酶修饰靶位点方面的效率。

本文描述的筛选方法可以应用于体外基于细胞的筛选或体内筛选。在一些实施方案中，细胞是细胞培养物中的细胞。在一些实施方案中，细胞存在于组织或器官中。在一些实施方案中，细胞存在于生物体中，诸如秀丽隐杆线虫(C.elegans)、苍蝇或其他模式生物体中。

可以用CRISPR/Cas向导RNA文库(例如CRISPR/Cas向导RNA文库慢病毒库)来转导初始细胞群。在一些实施方案中，将sgRNA^iBAR病毒载体文库以高感染复数(MOI)(例如至少约1、2、3、4、5、6中任一个MOI)引入初始细胞群，在一些实施方案中，将sgRNA^iBAR病毒载体文库以低MOI引入初始细胞群，例如MOI为不大于约0.9、0.8、0.7、0.6、0.5、0.4、0.3或更低中的任一个。在一些实施方案中，初始细胞群包含不超过10⁷、5×10⁶、2×10⁶、10⁶、5×10⁵、2×10⁵、10⁵、5×10⁴、2×10⁴、10⁴或者10³个细胞中的任一个。在一些实施方案中，在sgRNA^iBAR文库中的90％，91％，92％，93％，94％，95％，96％，97％，98％，99％，99.5％或更高百分比中的任一个的sgRNA^iBAR构建体被引入初始细胞群。在一些实施方案中，筛选以超过50倍，100倍，200倍，500倍，1000倍，2000倍，5000倍，10000倍或更高倍数中任一个的覆盖率进行。

在将sgRNA^iBAR文库引入初始细胞群后，可将细胞温育合适的一段时间以允许基因编辑。例如细胞可以孵育至少12小时，24小时，2天，3天，4天，6天，7天，8天，9天，10天，11天，12天，13天，14天或更长时间。获得具有靶基因组基因座或目的基因的插入，敲除，敲入，激活或抑制的经修饰细胞。在一些实施方案中，靶基因的转录被经修饰的细胞中的sgRNA^iBAR构建体阻遏或抑制。在一些实施方案中，靶基因的转录被经修饰细胞中的sgRNA^iBAR构建体激活。在一些实施方案中，靶基因被经修饰细胞中的sgRNA^iBAR构建体敲除。可以使用由sgRNA^iBAR载体编码的可选择标志物选择出经修饰的细胞，例如荧光蛋白标记或药物抗性标志物。

在一些实施方案中，该方法使用设计用于靶向基因中的剪接位点或连接的sgRNA^iBAR文库。剪接靶向方法可用于筛选基因组中的多个(例如数千个)序列，从而阐明这些序列的功能。在一些实施方案中，剪接靶向方法用于高通量筛选中以鉴别出存活，增殖，抗药性或其他感兴趣的表型所需的基因组基因。在剪接靶向实验中，靶向目标基因内数万个剪接位点的sgRNA^iBAR文库可以例如通过作为库的慢病毒载体递送到靶细胞中。通过鉴别出在选择所需表型后在细胞中富集或耗尽的sgRNA^iBAR序列，可以系统地鉴别该表型所需的基因。

在一些实施方案中，经修饰的细胞进一步经受刺激因子(例如激素，生长因子，炎性细胞因子，抗炎细胞因子，药物，毒素和转录因子)。在一些实施方案中，用药物处理经修饰的细胞以鉴别出增加或降低细胞对药物敏感性的基因组基因座。

在一些实施方案中，从筛选中选择出具有经调节表型的细胞。“调节”是指活动的改变，例如调控，下调，上调，减少，阻遏，增加，减少，去活或激活。可以使用已知技术分离出具有经调节的基因表达或细胞表型的细胞，例如通过荧光激活细胞分选(FACS)或通过磁激活细胞分选。可以通过检测细胞内或细胞表面标志物来识别经调节的表型。在一些实施方案中，可以通过免疫荧光染色检测细胞内或细胞表面标志物。在一些实施方案中，内源靶基因可以用荧光报告分子标记，例如通过基因组编辑。其他适用的经调节表型筛选包括：基于对刺激因子，细胞死亡，细胞生长，细胞增殖，细胞存活，药物抗性或药物敏感性的响应的变化来分离出独特的细胞群。

在一些实施方案中，经调节的表型可以是至少一种靶基因的基因表达的变化或细胞或生物体表型的变化。在一些实施方案中，表型是蛋白质表达，RNA表达，蛋白质活性或RNA活性。在一些实施方案中，细胞表型可以是对刺激因子，细胞死亡，细胞生长，药物抗性，药物敏感性或其组合的细胞响应。刺激因子可以是物理信号，环境信号，激素，生长因子，炎性细胞因子，抗炎细胞因子，转录因子，药物或毒素，或其组合。

在一些实施方案中，选择经修饰的细胞用于细胞增殖或存活。在一些实施方案中，经修饰的细胞在选择剂的存在下培养。选择剂可以是化学治疗剂，细胞毒剂，生长因子，转录因子或药物。在一些实施方案中，对照细胞在相同条件下培养而不存在选择剂。在一些实施方案中，选择可以在体内进行，例如使用模式生物。在一些实施方案中，使细胞离体接触sgRNA^iBAR文库用于基因编辑，并将基因编辑的细胞引入生物体(例如作为异种移植物)以选择出经调节的表型。

在一些实施方案中，与对照细胞中一种或多种基因的表达水平相比，选择经修饰的细胞用于改变一种或多种基因的表达。在一些实施方案中，与对照细胞相比，基因表达的变化是基因表达的增加或减少。基因表达的变化可以通过蛋白质表达，RNA表达或蛋白质活性的变化来确定。在一些实施方案中，基因表达的变化响应于刺激因子(诸如化学治疗剂，细胞毒性剂，生长因子，转录因子或药物)而发生。

在一些实施方案中，对照细胞是不包含sgRNA^iBAR构建体的细胞，或已经引入阴性对照sgRNA^iBAR构建体的细胞，所述构建体包含不靶向细胞中任何基因组基因座的向导序列。在一些实施方案中，对照细胞是未暴露于刺激因子(诸如药物)的细胞。

通过测定所选细胞群中的sgRNA^iBAR序列来分析所选择的具有经调节表型的细胞群。sgRNA^iBAR序列可通过基因组DNA的高通量测序，RT-PCR，qRT-PCR，RNA-seq或本领域已知的其他测序方法获得。在一些实施方案中，sgRNA^iBAR序列通过基因组测序或RNA测序获得。在一些实施方案中，sgRNA^iBAR序列通过二代测序获得。

可以使用本领域任何已知的方法分析测序数据并与基因组比对。在一些实施方案中向导RNA的序列和相应的iBAR序列的计数由统计分析确定。在一些实施方案中序列计数经历归一化方法(诸如中值比归一化)。

统计方法可用于确定在所选细胞群中增强或消耗的sgRNA^iBAR分子的身份鉴别。示例性的统计方法包括但不限于线性回归、广义线性回归和分层回归。在一些实施方案中，序列计数在中值比归一化后进行均值-方差建模。在一些实施方案中，MAGeCK(Li，W等人，MAGeCK使得能够从基因组规模CRISPR/Cas9敲除筛选中强有力地鉴别出必需基因。文献Genome Biol 15,554(2014))用于对向导RNA序列进行排序。

在一些实施方案中，基于使所述sgRNA^iBAR序列中的诸iBAR序列之间的数据一致性与所述向导序列相对应来调整每个向导序列的方差。如本文所用的“数据一致性”是指对应于筛选实验中不同iBAR序列的相同向导序列(例如序列计数，归一化序列计数，排序或倍数变化)的测序结果的一致性。理论上，来自筛选的真实命中应该具有与具有相同向导序列但不同iBAR的sgRNA^iBAR构建体相对应的相似归一化序列计数、排序和/或倍数变化。

在一些实施方案中，将从选择出的细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。在一些实施方案中，基于每个iBAR序列的倍数变化的方向确定：所述sgRNA^iBAR序列中的诸iBAR序列之间的数据一致性是否与所述向导序列相对应，其中如果倍数变化，则向导序列的方差增加。iBAR序列相对于彼此处于相反的方向。在一些实施例中，将强力排序汇总应用于序列计数以确定数据一致性。

在一组sgRNA^iBAR构建体中，可以基于该组中不同iBAR序列的预定阈值数m的富集方向的一致性来调整向导序列的排序，其中m是1和n之间的整数。例如，如果sgRNA^iBAR组的至少m个iBAR序列呈现相同的倍数变化方向，即全部大于或小于对照组的那个，则排序(或方差)不变。然而，如果超过n-m个不同的iBAR序列显示出不一致的倍数变化方向，那么sgRNA^iBAR组将通过降低其排序而受到降级(例如通过增加其方差)。强力排序汇总(RRA)是本领域可以使用的统计排名工具之一。本领域技术人员可以理解，进行统计排名也可以使用其它可利用的工具。本发明利用RRA计算每个基因的最终得分，以便基于每个基因的均值和方差获得基因的排序。通过这种方式，在不同方向上显示了相应iBAR之间有倍数变化的sgRNA可以通过增加的方差受到降级，这导致了某些基因的得分和排名更低。

在一些实施方案中，该方法用于阳性筛选，即通过鉴别在所选细胞群中增强的向导序列。在一些实施方案中，该方法用于阴性筛选(即通过鉴别在选择出的细胞群中耗尽的向导序列)。在选择出的细胞群中增强的向导序列基于序列计数或倍数变化排序高，而在所选细胞群中耗尽的向导序列基于序列计数或倍数变化排序低。

在一些实施方案中，该方法还包括验证经鉴别的基因组基因座。例如，当鉴别基因组基因座时，可以重复使用相应的sgRNA^iBAR构建体的实验，或者可以设计一个或多个sgRNA(不含iBAR序列和/或带有不同的向导序列)靶向相同的目的基因。可以将单个sgRNA^iBAR或sgRNA构建体引入细胞中以验证在细胞中编辑相同目的基因的效果。

进一步提供了分析来自本文描述的任一种筛选方法的测序结果的方法。示例性分析方法在实施例部分中描述，包括如MAGeCK^iBAR算法。

在一些实施方案中，提供了一种计算机系统，包括：输入单元，其接收来自用户的请求以鉴别经调节的细胞表型的基因组基因座；可操作地耦合到输入单元的一个或多个计算机处理器，其中一个或多个计算机处理器被单独地或共同地编程为：a)使用本文所述的任一种方法从基因筛选接收一组测序数据；b)基于序列计数对sgRNA^iBAR序列的相应向导序列进行排序，其中排序包括：基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的排序；c)鉴别出对应于排序在预定阈值水平以上的向导序列的基因组基因座；d)以可读方式呈现数据和/或生成测序数据的分析。

试剂盒和制品

本申请还提供了用于使用本文所述的sgRNA^iBAR文库的筛选方法的任一实施方案的试剂盒和制品。

在一些实施方案中，提供了用于筛选调节细胞表型的基因组基因座的试剂盒，其包含本文所述的任一种sgRNA^iBAR文库。在一些实施方案中，试剂盒还包含Cas蛋白或编码Cas蛋白的核酸。在一些实施方案中，试剂盒还包含一种或多种sgRNA^iBAR构建体的阳性和/或阴性对照组。在一些实施方案中，试剂盒还包含数据分析软件。在一些实施方案中，试剂盒包含用于实施本文所述的任一种筛选方法的说明书。

在一些实施方案中，提供了用于制备可用于基因筛选的sgRNA^iBAR文库的试剂盒，其包含三个或更多个(例如四个)构建体，每个构建体包含不同的iBAR序列和用于插入向导序列以提供的克隆位点。一组sgRNA^iBAR构建体。在一些实施方案中，构建体是载体，例如质粒或病毒载体(例如慢病毒载体)。在一些实施方案中，试剂盒包含用于制备sgRNA^iBAR文库和/或用于实施本文所述的任一种筛选方法的说明书。

试剂盒可以含有其他组分，例如容器，试剂，培养基，引物，缓冲液，酶等，以便于实施本文所述的任一种筛选方法。在一些实施方案中，试剂盒包含用于将sgRNA^iBAR文库和编码Cas蛋白的Cas蛋白或核酸导入细胞的试剂，缓冲液和载体。在一些实施方案中，试剂盒包含引物，试剂和酶(例如聚合酶)用于制备从所选细胞中提取的sgRNA^iBAR序列的测序文库。

本申请的试剂盒处于合适的包装中。合适的包装包括但不限于小瓶，瓶子，广口瓶，软包装(例如聚酯薄膜或塑料袋)等。套件可以可选地提供额外的组件，例如缓冲剂和解释性信息。因此，本申请还提供了制品，其包括小瓶(例如密封小瓶)，瓶子，罐子，软包装等。

本申请还提供了试剂盒或制品，其包含用于本文所述任一种筛选方法的任一sgRNA^iBAR构建体，sgRNA^iBAR分子，sgRNA^iBAR组，细胞库或其组合物。

实施例

以下实施例旨在作为本申请的示例，因此不应被视为以任何方式限制本发明。提供以下实施例和详细描述是为了说明而非限制。

方法

细胞和试剂

将HeLa和HEK293T细胞系维持在补充有1％青霉素/链霉素和10％胎牛血清(FBS，CellMax BL102-02)的Dulbecco改良Eagle培养基(DMEM，Gibco C11995500BT)中，并在37℃下用5％CO₂培养。检查所有细胞中是否存在支原体污染。

质粒构建

通过使用来自Plenti-sgRNA-Lib的BstBI(NEB，R0519)和XhoI(NEB，R0146)改变BsmBI(Thermo Scientific，ER0451)位点的位置来构建出表达慢病毒sgRNA^iBAR的框架(Addgene，#53121)。使用BsmBI介导的Golden Gate克隆策略将表达sgRNA和sgRNA^iBAR的序列克隆到框架中²⁸。

基因组规模CRISPR sgRNA^iBAR文库的设计

从UCSC hg38基因组检索基因注释，其包含19,210个基因。对于每个基因，使用我们新开发的DeepRank算法设计了三种不同的sgRNA，这些sgRNA在基因组中的16-bp种子区域具有至少一个错配，具有高水平的预测靶向效率。然后我们随机为每种sgRNA分配了4个6-bp的iBAR(iBAR₆)。我们设计了额外的1,000个不靶向sgRNA，每个都有4个iBAR₆，作为阴性对照。

CRISPR sgRNA^iBAR质粒文库的构建

设计85-nt DNA寡核苷酸并进行阵列合成。靶向寡核苷酸侧翼序列的引物(oligo-F和oligo-R)用于PCR扩增。使用Golden Gate方法²⁸将PCR产物克隆到上文构建的慢病毒载体中。将连接混合物转化到Trans1-T1感受态细胞(Transgene，CD501-03)中以获得文库质粒。计数转化的克隆以确保sgRNA^iBAR文库的规模覆盖至少100倍。按照标准方案(QIAGEN12362)提取文库质粒，并用两种慢病毒包装质粒pVSVG和pR8.74(Addgene，Inc)转染到HEK293T细胞中以获得文库病毒。使用相同的方案构建包含针对一种靶向ANTXR1的sgRNA的所有4,096个iBAR₆的iBAR文库。

筛选含有所有4,096种iBAR₆的sgRNA^iBAR-ANTXR1文库

将总共2×10⁷个细胞接种在150-mm培养皿上，并用MOI为0.3的文库慢病毒感染。感染72小时后，将细胞重新接种并用1μg/ml嘌呤霉素(Solarbio P8230)处理48小时。对于每个复本，收集5×10⁶个细胞用于基因组提取。在文库感染的细胞培养15天后，使用PA/LFnDTA毒素^29,30进行sgRNA^iBAR-ANTXR1文库的筛选⁷。然后，使用Primer-F和Primer-R扩增具有基因组DNA中的iBAR编码区的sgRNA(TransGen，AP131-13)，然后使用NEBNext Ultra DNA文库制备试剂盒(Illumina(NEB E7370L))进行高通量测序分析(Illumina HiSeq2500)。

筛选基因组规模CRISPR/Cas9 sgRNA^iBAR文库，用于对TcdB细胞毒性和细胞活力必需基因重要的基因

将总共1.6×10⁸个细胞(MOI＝0.3)，1.53×10⁷个细胞(MOI＝3)和4.6×10⁶个细胞(MOI＝10)分别铺在150-mm培养皿上用于2个复本的sgRNA文库构建。用不同MOI的文库慢病毒感染细胞，并在感染后用1μg/ml嘌呤霉素处理72小时。将sgRNA^iBAR整合的细胞再培养15天以使基因敲除最大化。将细胞重新接种到150-mm培养皿上，用TcdB(100μg/ml)处理10小时，然后通过重复移液移除松散附着的圆形细胞¹⁹。对于每轮筛选，将细胞在不含TcdB的新鲜培养基中培养至达约50％-60％汇合。汇集一个复本中的所有抗性细胞并进行另一轮TcdB筛选。对于随后的三轮筛选，TcdB浓度分别为125pg/ml，150pg/ml和175pg/ml。在四轮处理后，收集抗性细胞和未处理的细胞用于基因组DNA提取，sgRNA的扩增和NGS分析。将7对引物用于PCR扩增(表1)，并将PCR产物混合用于NGS。对于MOI为0.3的阴性筛选，在NGS解码之前培养总共4.6×10⁷(两个复本)个整合了sgRNA^iBAR的细胞28天。

表1.用于基因组DNA和文库构建的PCR扩增的引物

筛选基因组规模CRISPR/Cas9 sgRNA^iBAR文库，用于对6-TG细胞毒性重要的基因

将总共5×10⁷个细胞接种在150-mm培养皿上，并获得两次复本。用MOI为3的文库慢病毒感染细胞，并在感染后72小时用1μg/ml嘌呤霉素处理。将sgRNA^iBAR整合的细胞再培养15天，以总数5×10⁷重新接种，然后用200ng/ml 6-TG(Selleck)处理。对于以下两轮筛选，6-TG浓度为250ng/ml和300ng/ml。对于每轮选择，将药物维持7天，并将细胞在不含6-TG的新鲜培养基中培养另外3天。然后，将一个复本中的所有抗性细胞组合在一起并进行另一轮6-TG筛选。在三轮处理后收集抗性细胞和未处理的细胞用于基因组DNA提取，用iBAR区域扩增sgRNA并深度测序分析。

阳性筛选数据分析

MAGeCK^iBAR是使用基于MAGeCK算法¹⁷的sgRNA^iBAR文库为筛选开发的分析策略。MAGeCK^iBAR充分利用了Python，Pandas，NumPy，SciPy。分析算法包含三个主要部分：分析准备，统计测试和排序汇总(rank aggregation)。在分析准备阶段，对输入的sgRNA^iBAR原始计数进行归一化，然后对总体均值和方差的系数进行建模。在统计检验阶段，我们使用检验来确定处理和对照归一化读数之间差异的显著性。在排序汇总阶段，我们汇总了针对每个基因的所有sgRNA^iBAR的排序，以获得最终的基因排序。

归一化和准备

我们首先从测序数据获得sgRNA^iBAR的原始计数。由于测序深度和测序错误可能会影响sgRNA^iBAR的原始计数，因此在进行以下分析之前需要进行归一化。估计大小因子(sizefactor)以使不同测序深度的原始计数归一化。然而，由于少数高度富集的sgRNA可能对总读数计数具有强烈影响，因此不应在归一化中使用与总读数计数的比率。因此，我们选择中值比率归一化³¹。假设文库中有n个sgRNA，i范围从1到n，总共m个实验(对照组和治疗组)，j范围从1到m。大小因子可表示如下：

因此，我们通过计算相应的大小因子在每个实验中获得sgRNA^iBAR的归一化计数。在均值-方差建模步骤中，NB分布用于估计生物学复本和不同处理中每个sgRNA^iBAR的平均值和方差³²：

K_ij～NB(μ_ij，σ_ij ²)

我们使用MAGeCK采用的模型来计算均值和方差的系数¹⁷。均值-方差模型满足以下关系：

σ²＝μ+kμ^b

为了确定来自库中所有sgRNA^iBAR的k和b系数，可以将该函数转换为线性函数：

log₂(σ²-μ)＝log₂k+b log₂μ

直接计算治疗和对照计数的平均值，并且可以从平均值和系数计算相应的方差。对于CRISPR-iBAR分析，我们通过不同iBAR的表现评估了sgRNA的富集。我们为每个sgRNA设计了四个iBAR，作为内部复本。由于文库构建期间的高MOI，一定有与真的阳性命中相关的假阳性sgRNA“搭便车”。这里的“搭便车”用于描述靶向sgRNA的(与功能性sgRNA误相关的)无关基因进入相同的细胞。我们基于每种sgRNA的不同iBAR的富集方向来修改sgRNA^iBAR的方差。如果一个sgRNA的所有iBAR呈现相同的倍数变化方向，即全部大于或小于对照组的那个，那么方差将保持不变。然而，如果一个具有不同iBAR的sgRNA显示出不一致的倍数变化方向，那么这种sgRNA将通过增加其方差而受到降级。不一致的sgRNA^iBAR的最终调整方差是模型估计的方差加上从Ctrl和Exp样本计算的实验方差。

最后，通过治疗的平均和标准化方差与对照组相比，计算sgRNA^iBAR的得分：

其中是第i个sgRNA的治疗计数的平均值，并且是第i个sgRNA的对照计数的平均值和方差。因为方差被用作计算得分的分母，所以不一致的sgRNA^iBAR的扩大方差导致较低的得分。

统计测试和排序汇总

正态分布用于测试治疗计数。标准正态分布中得分的两侧分别提供了较大尾部和较小尾部P值。

为了获得基因排序，我们使用RRA方法(robust rank aggregation method)，这是用于汇总排序的适当方法³³。MAGeCK通过限制富集的sgRNA¹⁷采用改良的RRA方法。假设一个基因在M sgRNA^iBAR文库中总共有n个sgRNA具有不同的iBAR；每个sgRNA^iBAR在文库R＝(R₁，R₂，...，R_n)中都有一个排序。首先，应该通过文库中sgRNA^iBAR的总数来归一化sgRNA^iBAR的排序。我们获得了每个r_i＝R_i/M的归一化排序r＝(r，r₂，...，r_n)，其中1≤i≤n。然后，我们计算了归一化的排序sr，使得sr₁≤sr₂≤…≤sr_n。经整理的归一化遵循在0和1之间均匀分布。概率β_k，n(sr)(其中sr_i≤r_i)遵循β分布β(k，n+1-k)，使得ρ＝min(β_1，n，β_2，n，...，β_n，n)。对于每个基因，得分ρ可以通过RRA获得并通过Bonferroni校正进一步调整³³。我们采用了开发了α-RRA的MAGeCK，从排序列表中选择了最前α％的sgRNA。选择低于阈值(例如0.25)的sgRNA的P值。在RRA计算中仅考虑一个基因的最前sgRNA，然后使ρ＝min(β_1，m，β_2，n，...，β_j，n)，其中1≤j≤n。

阴性筛选数据分析

在基于iBAR策略的高MOI的阳性筛选分析过程中，我们修改了相应标签中具有不同倍数变化方向的sgRNA的模型估计方差。但对于阴性筛选，大多数非功能性sgRNA将保持不变。因此，基于相应标签的倍数变化方向的方差修改算法变得不足以证明某些sgRNA是否是假阳性结果。因此，我们直接将标签视为内部复本。在考虑iBAR时，我们对阴性筛选进行了两次强力排序汇总，而不是对不一致的sgRNA^iBAR进行方差调整。第一轮强力排序汇总将sgRNA^iBAR水平汇总为sgRNA水平，第二轮将sgRNA水平汇总为基因水平。

验证候选基因

为了验证每个基因，我们选择在文库中设计的两个sgRNA，并将其克隆到具有嘌呤霉素选择标志物的慢病毒载体中。我们使用X-tremeGENE HP DNA转染试剂(Roche)将两种sgRNA质粒混合并用两种慢病毒包装质粒(pVSVG和pR8.74)共转染到HEK293T细胞中。将稳定表达Cas9的HeLa细胞用慢病毒感染3天，并用1μg/ml嘌呤霉素处理2天。然后，在每个孔中加入5,000个细胞，每组获得5个复本。24小时后，实验组用150ng/ml 6-TG处理，对照组用正常培养基处理7天。然后，按照标准方案进行MTT(Amresco)染色和检测。将用6-TG处理的实验孔与未经6-TG处理的孔归一化。

结果

我们任意设计了6-nt长的iBAR(iBAR₆)，其产生了4,096个标签组合，为我们的目的提供了足够的变化(图1A)。为了确定这些额外的iBAR序列的插入是否影响gRNA活性，我们构建了靶向炭疽毒素受体基因ANTXR116的预定sgRNA的文库，其与所有4,096种类型的iBAR₆组合。这种特殊的sgRNA^iBAR-ANTXR1文库在HeLa细胞中构建，该细胞通过MOI为0.3的慢病毒转导不断表达Cas9^7,8。经过三轮PA/LFnDTA毒素处理和富集后，如先前报道的那样，通过NGS分析检测sgRNA及其来自抗毒素细胞的iBAR₆序列⁷。大多数sgRNA^iBAR-ANTXR1和未加标签的sgRNA^ANTXR1显著富集，而几乎所有不靶向的对照sgRNA在抗性细胞群中都不存在。重要的是，具有不同iBAR₆的sgRNA^iBAR-ANTXR1的富集水平似乎在两个生物学复本之间是随机的(图1B)。在计算iBAR₆的每个位置处的核苷酸频率后，我们未能观察到来自任一复本的核苷酸的任何偏差(图1C)。此外，iBAR₆中的GC含量似乎不影响sgRNA剪切效率(图2)。然而，有少量iBAR₆的附属sgRNA^ANTXR1在筛选复本中表现不佳。为了排除这些iBAR₆对sgRNA活性具有负面影响的可能性，我们从sgRNA^iBAR-ANTXR1排序靠后处选择了六种不同的iBAR用于进一步研究。与未加标签的对照sgRNA^ANTXR1相比，这些sgRNA^iBAR-ANTXR1中的所有6个在靶位点产生DNA双链断裂(DSB)(图1D)并且导致毒素抗性表型的ANTXR1基因破坏具有相当的效率(图1E)。我们进一步证实了：iBAR分别针对CSPG4，MLH1和MSH2的四种不同sgRNA对sgRNA效率的影响可忽略不计(图3)。总之，这些结果表明这种重新设计的sgRNA^iBAR保留了足够的sgRNA活性，使得通常可以在汇集了CRISPR的筛选中应用该策略。

基于iBAR策略，我们然后开始扩展其应用以在高MOI下实施新的sgRNA^iBAR文库筛选。我们按照标准程序收集文库细胞，提取其基因组DNA用于iBAR编码区的sgRNA PCR扩增，并进行NGS分析^7,11,12。MAGeCK算法可用于通过归一化它的原始计数来计算sgRNA得分的统计学显著性，使用负二项式(NB)模型来估计其方差，并使用具有均匀分布的零模型确定其排序¹⁷。考虑到iBAR，我们评估了同一实验复本中所有相关iBAR中任何sgRNA计数变化的一致性。该过程有效地消除了由于在细胞库构建中的高MOI下的慢病毒感染而与功能性sgRNA相关的“搭便车者”。具体而言，对于iBAR系统，我们故意调整模型估计的方差，仅针对那些多个iBAR的倍数变化方向相反的sgRNA，导致这些异常值的P值增加。最后，我们根据sgRNA得分和生物学复本之间的技术差异确定了命中基因(图4)。我们开发了这种基于MAGeCK的特定算法，名为MAGeCK^iBAR，用于分析sgRNA^iBAR文库筛选，其是开源的，可免费下载。

然后，我们构建了覆盖每个经注释的人类基因的sgRNA^iBAR文库。对于19,210个人类基因中的每个，使用DeepRank方法设计了三种独特的sgRNA，为其中每种随机分配了四个iBAR₆。此外，包括1,000个不靶向sgRNA，每个具有4个iBAR₆，作为阴性对照。为了便于统计比较，将每组3种独特的不靶向sgRNA人工命名为阴性对照基因。85-nt sgRNA^iBAR寡核苷酸在计算机上设计(图5)，使用阵列合成法合成，并作为汇集文库克隆到慢病毒框架中。表达Cas9的HeLa细胞用sgRNA^iBAR文库慢病毒以三种不同的MOI(0.3、3和10)转导，对sgRNA进行400倍覆盖以产生细胞库，其中每个sgRNA^iBAR被覆盖100倍。为了评估iBAR设计对不同MOI下CRISPR筛选的影响，我们进行了阳性筛选，以鉴别出难介导型梭菌毒素B(TcdB)细胞毒性的基因，这是该厌氧杆菌的关键毒力因子之一¹⁸。我们先前已经报道了TcdB功能性受体CSPG4¹⁹的首次鉴别，其编码基因也被鉴别并在基因组规模的CRISPR文库筛选²⁰中排序最前。在该报道的CRISPR筛选中，UGP2基因也是排序在靠前处的，并且鉴别并证实为FZD2编码介导TcdB对宿主细胞的杀伤作用的次级受体。值得注意的是，FZD2的作用与CSPG4相比明显相形见绌，因此FZD2基因只能通过截短的TcdB进行鉴别，其中CSPG4相互作用区域被删除²⁰。在我们的TcdB筛选中，我们使用MAGeCK^iBAR和MAGeCK分别分析来自iBAR和传统CRISPR筛选的数据。因此，我们从两者中获得了排序靠前的基因(FDR<0.15)。

为了在0.3的低MOI下筛选，鉴别CSPG4和UGP2并排序在前(图6A)，与先前的报道²⁰一致。在考虑iBAR时，除了CSPG4和UGP2之外，我们还确定了FZD2(图6B)。因为FZD2是经证实的TcdB受体，其在HeLa细胞中比CSPG4发挥更弱的作用²⁰，这些结果表明，当以低MOI构建细胞库时，iBAR方法提供优于传统CRISPR筛选的质量和灵敏度。此外，CSPG4和UGP2的排序在两个实验复本之间的CRISPR^iBAR筛选中更加一致，再次表明新方法的质量高得多(图6A、6B)。在高MOI(3和10)下，CSPG4和UGP2可以从CRISPR和CRISPRiBAR筛选中分离，但后者的数据质量显著更高(图6C-6F)。通常，MOI越高，传统方法的信噪比越差。在MOI为10时，在常规方法中假阳性命中的数量急剧增加，但在CRISPR^iBAR筛选中没有(图6E、6F)。令人印象深刻的是，即使MOI为10，CSPG4和UGP2仍然在CRISPR^iBAR筛选中排序靠前，尽管数据质量略有下降(图6F)。值得注意的是，几乎所有靶向CSPG4和UGP2的sgRNA^iBAR在TcdB处理后都显著富集(图7)，与使用常规方法在MOI为10时鉴别的其他基因明显不同，例如SPPL3，这可能是假阳性结果(图7)。比较两个生物学复本，CSPG4和UGP2在具有所有MOI条件的CRISPR^iBAR筛选的两个生物学复本中均排序靠前(图6b，6d，6f)，但不是来自UGP2的排序较低的常规CRISPR筛选在MOI为3的两个复本中均超过60(图6C)，并且在MOI为10的两个复本中出现许多假阳性命中(图6E)。这些结果表明，即使在高MOI下，iBAR方法仍保持数据质量，因为常规CRISPR筛选的MOI较低。另外，由于两个实验复本之间的高度一致性，一个生物学复本可能足以使用CRISPR^iBAR筛选鉴别命中基因(图6)。毕竟，可以在一个基于iBAR方法的实验中进行多次复制。

为了进一步评估iBAR方法的功效，我们继续进行筛选以鉴别调节细胞对6-TG²¹的易感性的基因，后者是可以参与过程以抑制DNA合成的癌症药物。我们决定以MOI为3构建基因组规模的sgRNA^iBAR文库，以产生每个sgRNA具有高覆盖度(2,000倍)的细胞库，其中每个sgRNA^iBAR被覆盖500倍。显示了两个实验复本的总读数分布(图8A)，并且两个复本的参比细胞库达到了所有最初设计的sgRNA的97％覆盖率(图8B)。原始文库中超过95％的sgRNA保留了3至4个iBAR，表明大多数sgRNA具有足够的标签变体用于筛选和数据分析的文库的良好质量(图8C)。所有基因的倍数变化在两个生物学复本之间相关性良好(图9)。对于两个sgRNA文库重复的相同6-TG筛选，我们还使用MAGeCK和MAGeCK^iBAR分析。对于MAGeCK^iBAR，我们因此获得了所有sgRNA^iBAR的调整方差和平均分布，这增强了sgRNA的方差，不同的iBAR复本之间的富集不一致(图10)。

从具有统计学显著性的阳性选择出的sgRNA中，我们鉴别出排序最前的基因(FDR<0.15)，其相应的sgRNA在不同的iBAR中一致地富集(图11A)，并且我们还使用MAGeCK算法发现了这些靠前的基因。没有考虑标签(图11B)。与先前的报道²²一致，靶向HPRT1基因的sgRNA在两种方法中排序靠前。先前报道了四种基因(MLH1，MSH2，MSH6和PMS2)参与6-TG介导的细胞死亡⁶。我们检查并确认了除了针对这四种基因的一种主要设计的sgRNA之外的所有剪切活性(图12)，表明这些基因确实与我们使用的HeLa细胞中6-TG介导的细胞死亡无关(图11C)。当分别分析两个生物学复本时，每个复本的前20个基因与CRISPR^iBAR筛选显示高水平的一致性(排序的Spearman相关系数＝0.74)，而使用常规方法时两个复本的共同性较少(Spearman相关排序系数＝-0.09)(图11D和表2)。

表2：使用MAGeCK^iBAR和MAGeCK分析的两个生物学复本的前20个基因列表。

注意：在两个复本的列表中排序在前20的基因以粗体标记。

为了验证筛选结果，我们从头设计并组合两个sgRNA以制备用于靶向每个候选基因的微-汇集池，并且通过慢病毒感染将每个汇集池引入HeLa细胞中(表3)。

表3用于来自6-TG筛选的候选基因功能验证的sgRNA设计以及用于测试iBAR对活性的影响的sgRNA设计

通过3-(4,5-二甲基-2-噻唑基)-2,5-二苯基-2H-四唑溴化物(MTT)检测定量sgRNA文库对针对6-TG处理的细胞活力的影响。选择来自CRISPR^iBAR以及CRISPR筛选的前10个基因用于验证。值得注意的是，鉴别出两个不靶向的对照基因(non-targeting controlgenes)，排在常规CRISPR筛选的候选者列表前10中。由于我们用于生成细胞库的高MOI，这些明显的假阳性结果是可预测的。我们成功证实两个复本的CRISPR^iBAR前10候选基因均为真阳性结果；相反，来自常规方法候选者列表的前10中仅五个基因证明是真阳性(图11E)。其中，使用两种方法都获得了四种基因(HPRT1，ITGB1，SRGAP2和AKTIP)，而六种基因(ACTR3C，PPP1R17，ACSBG1，CALM2，TCF21和KIFAP3)仅被CRISPR^iBAR鉴定出来并且排序在前。总之，与传统方法相比，iBAR提高了高MOI筛选的准确性(假阳性和假阴性率很低)。

我们进一步评估了靶向前四种候选基因(HPRT1，ITGB1，SRGAP2和AKTIP)的每种sgRNA^iBAR的性能。富集sgRNA的所有不同iBAR似乎对其附属sgRNA的富集水平几乎没有影响，并且与任何特定sgRNA相关的iBAR的顺序似乎是随机的(图13)，进一步支持了我们之前关于iBAR的认识，即其不影响其附属sgRNA的效率。在两个复本中，在6-TG处理后，所有四种HPRT1靶向sgRNA^iBAR显著富集(图11F)。其他CRISPR^iBAR鉴定的基因的大多数sgRNA^iBAR在6-TG选择后富集(图14)。相比之下，只有极少数来自常规CRISPR筛选的一些靠前基因的sgRNA^iBAR被富集，包括FGF13(图11G)、GALR1和两个阴性对照基因(图15)，导致MAGeCK而非MAGeCK^iBAR分析中的假阳性命中(图16)。

如我们设计的，每个sgRNA的四个标签似乎提供足够的内部复本以评估数据一致性。两个生物学复本之间的高度一致性表明，对于CRISPR筛选使用iBAR方法一个实验复本是足够的(图6、图11D和表2)。由于在用于文库构建的固定数量的细胞的转导中具有高MOI的文库覆盖率显著增加，我们将文库构建的起始细胞减少超过20倍(MOI＝3)和70倍(MOI＝10)以匹配甚至胜过使用两个生物学复本的MOI为0.3的常规筛选结果(表4)。

表4.在不同MOI下TcdB筛选的CRISPR文库构建所需的细胞数量比较

由于多次剪切降低了细胞活力，因此以高MOI构建的CRISPR文库对于阴性筛选而言可能具有异常的错误发现率^23,24。因此，我们在MOI为0.3时进行了基因组规模的阴性筛选，以在调用必需基因方面对iBAR方法进行评估。对于使用iBAR的阳性筛选，我们修改了标签中具有不同倍数变化方向的sgRNA的模型估计方差，以扩大方差，从而使误相关的sgRNA受到足够的降级。然而，对于阴性筛选，经由误相关的sgRNA消耗对其倍数变化方向的一致性几乎没有影响，因为非功能性sgRNA保持不变。因此，我们仅将标签视为内部复本，而不带降级程序(penalty procedure)。我们使用金标准必需基因(gold-standard essentialgenes)²⁵，采用iBAR方法在低MOI下进行阴性筛选，跟传统的方法相比，确实获得了改进的统计学结果，获得了更高的真阳性率和更低的假阳性率(图17)。

除了用于文库构建的细胞的显著减少之外，在相同实验中由iBAR赋予的内部复本致使与分开的生物学重复试验(separate biological replicates)相比，条件更均一和比较更合理，统计学得分得到改善。当需要在多个细胞系中进行大规模CRISPR筛选时或者当用于筛选的细胞样品稀少时(例如来自患者或原代物的样品)，iBAR方法的优势更突出。特别是对于难以预测慢病毒转导率且不同动物的可变条件可能极大地影响筛选结果的体内筛选，iBAR方法可能是解决这些技术限制的理想解决方案。

对于阴性筛选，iBAR方法改善了在低MOI下由病毒感染构成的文库的统计数据(图17)。尽管iBAR方法的技术进步提供了与“内部复制(internal replication)”相同的益处，但我们必须在病毒转导期间对MOI保持谨慎，以产生基于测量细胞活力的阴性筛选中的原始细胞文库。虽然据报道大规模整合不会影响细胞适应性²⁶，但已显示由具有活性Cas9的细胞中较高MOI引起的多次DNA剪辑(cutting)会降低细胞活力^23,24。不带剪辑的策略(诸如CRISPRi/a⁹或iSTOP系统²⁷)与iBAR系统相结合可能是在高MOI下进行阴性筛选的更好的选择。

尽管我们有数据支持iBAR₆对sgRNA的活性几乎没有影响，但我们不建议使用具有连续T(>4)的标签以避免任何轻微影响。最终，4,096种iBAR₆提供了足够的种类来制作CRISPR文库。此外，iBAR的长度不限于6-nt。我们测试了不同长度的iBAR，发现它们的长度可达50-nt而不影响其附属sgRNA的功能(图18)。此外，没有必要为不同的sgRNA设计不同的标签组。分配给所有sgRNA一组固定的iBAR应该与文库筛选中的随机分配一样有效。我们的iBAR策略采用简化的分析工具MAGeCK^iBAR，可以促进大规模CRISPR筛选以便在各种环境中进行广泛的生物医学发现。

参考文献

1.Jinek,M.et al.A programmable dual-RNA-guided DNA endonuclease inadaptive bacterial immunity.Science 337,816-821(2012).

2.Cong,L.et al.Multiplex genome engineering using CRISPR/Cassystems.Science 339,819-823(2013).

3.Mali,P.et al.RNA-guided human genome engineering via Cas9.Science339,823-826(2013).

4.Shalem,O.et al.Genome-scale CRISPR-Cas9 knockout screening in humancells.Science 343,84-87(2014).

5.Wang,T.,Wei,J.J.,Sabatini,D.M.&Lander,E.S.Genetic screens in humancells using the CRISPR-Cas9 system.Science 343,80-84(2014).

6.Koike-Yusa,H.,Li,Y.,Tan,E.P.,Velasco-Herrera Mdel,C.&Yusa,K.Genome-wide recessive genetic screening in mammalian cells with a lentiviral CRISPR-guide RNA library.Nat Biotechnol 32,267-273(2014).

7.Zhou,Y.et al.High-throughput screening of a CRISPR/Cas9 library forfunctional genomics in human cells.Nature 509,487-491(2014).

8.Zhu,S.et al.Genome-scale deletion screening of human long non-coding RNAs using a paired-guide RNA CRISPR-Cas9 library.Nat Biotechnol 34,1279-1286(2016).

9.Gilbert,L.A.et al.Genome-Scale CRISPR-Mediated Control of GeneRepression and Activation.Cell 159,647-661(2014).

10.Konermann,S.et al.Genome-scale transcriptional activation by anengineered CRISPR-Cas9 complex.Nature 517,583-588(2015).

11.Peng,J.,Zhou,Y.,Zhu,S.&Wei,W.High-throughput screens in mammaliancells using the CRISPR-Cas9 system.FEBS J 282,2089-2096(2015).

12.Zhu,S.,Zhou,Y.&Wei,W.Genome-Wide CRISPR/Cas9 Screening for High-Throughput Functional Genomics in Human Cells.Methods Mol Biol 1656,175-181(2017).

13.Michlits,G.et al.CRISPR-UMI:single-cell lineage tracing of pooledCRISPR-Cas9 screens.Nat Methods 14,1191-1197(2017).

14.Schmierer,B.et al.CRISPR/Cas9 screening using unique molecularidentifiers.Molecular systems biology 13,945(2017).

15.Shechner,D.M.,Hacisuleyman,E.,Younger,S.T.&Rinn,J.L.Multiplexable,locus-specific targeting of long RNAs with CRISPR-Display.Nat Methods 12,664-670(2015).16.Bradley,K.A.,Mogridge,J.,Mourez,M.,Collier,R.J.&Young,J.A.Identification of the cellular receptor for anthrax toxin.Nature 414,225-229(2001).

17.Li,W.et al.MAGeCK enables robust identification of essential genesfrom genome-scale CRISPR/Cas9 knockout screens.Genome Biol 15,554(2014).

18.Lyras,D.et al.Toxin B is essential for virulence of Clostridiumdifficile.Nature 458,1176-1179(2009).

19.Yuan,P.et al.Chondroitin sulfate proteoglycan 4 functions as thecellular receptor for Clostridium difficile toxin B.Cell Res 25,157-168(2015).

20.Tao,L.et al.Frizzled proteins are colonic epithelial receptors forC.difficile toxin B.Nature 538,350-355(2016).

21.Tan,Y.Y.,Epstein,L.B.&Armstrong,R.D.In vitro evaluation of 6-thioguanine and alpha-interferon as a therapeutic combination in HL-60 andnatural killer cells.Cancer Res 49,4431-4434(1989).

22.Duan,J.,Nilsson,L.&Lambert,B.Structural and functional analysis ofmutations at the human hypoxanthine phosphoribosyl transferase(HPRT1)locus.Human mutation 23,599-611(2004).

23.Jackson,S.P.Sensing and repairing DNA double-strandbreaks.Carcinogenesis 23,687-696(2002).

24.Meyers,R.M.et al.Computational correction of copy number effectimproves specificity of CRISPR-Cas9 essentiality screens in cancer cells.NatGenet 49,1779-1784(2017).

25.Hart,T.,Brown,K.R.,Sircoulomb,F.,Rottapel,R.&Moffat,J.Measuringerror rates in genomic perturbation screens:gold standards for humanfunctional genomics.Molecular systems biology 10,733(2014).

26.Zhou,Y.et al.Painting a specific chromosome with CRISPR/Cas9 forlive-cell imaging.Cell Res 27,298-301(2017).

27.Billon,P.et al.CRISPR-Mediated Base Editing Enables EfficientDisruption of Eukaryotic Genes through Induction of STOP Codons.Mol Cell 67,1068-1079 e1064(2017).

28.Engler,C.,Gruetzner,R.,Kandzia,R.&Marillonnet,S.Golden gateshuffling:a one-pot DNA shuffling method based on type IIs restrictionenzymes.PLoS One 4,e5553(2009).

29.Wei,W.,Lu,Q.,Chaudry,G.J.,Leppla,S.H.&Cohen,S.N.The LDL receptor-related protein LRP6 mediates internalization and lethality of anthraxtoxin.Cell 124,1141-1154(2006).

30.Qian,L.et al.Bidirectional effect of Wnt signaling antagonist DKK1on the modulation of anthrax toxin uptake.Science China.Life sciences 57,469-481(2014).

31.Anders,S.&Huber,W.Differential expression analysis for sequencecount data.Genome Biol 11,R106(2010).

32.Robinson,M.D.&Smyth,G.K.Small-sample estimation of negativebinomial dispersion,with applications to SAGE data.Biostatistics 9,321-332(2008).

33.Kolde,R.,Laur,S.,Adler,P.&Vilo,J.Robust rank aggregation for genelist integration and meta-analysis.Bioinformatics 28,573-580(2012).

序列表

<110> 北京大学

博雅缉因（北京）生物科技有限公司

<120> 使用加标签的向导RNA构建体进行高效基因筛选的组合物和方法

<130> PC00824

<160> 75

<170> PatentIn version 3.5

<210> 1

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于阵列合成的寡核苷酸的PCR扩增

<400> 1

ttgtggaaac gtctcaaccg 20

<210> 2

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于阵列合成的寡核苷酸的PCR扩增

<400> 2

ctctagctcc gtctcatgtt 20

<210> 3

<211> 65

<212> DNA

<213> 人工序列

<220>

<223> 用于表达sgRNAiBAR的框架的构建

<400> 3

tatattcgaa cgtctctaac agcatagcaa gtttaaataa ggcagtccgt tatcaacttg 60

aaaaa 65

<210> 4

<211> 66

<212> DNA

<213> 人工序列

<220>

<223> 用于表达sgRNAiBAR的框架的构建

<400> 4

tatactcgag aaaaaaaagc accgactcgg tgccactttt tcaagttgat aacggactag 60

ccttat 66

<210> 5

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS（二代测序）做sgRNAiBAR-ANTXR1编码区域的PCR扩增

<400> 5

aagcggagga caggattggg 20

<210> 6

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS（二代测序）做sgRNAiBAR-ANTXR1编码区域的PCR扩增

<400> 6

cctctgtggc cctggagatg 20

<210> 7

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于CSPG4基因的T7E1测定的PCR扩增

<400> 7

cacgggccct ttaagaaggt 20

<210> 8

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于CSPG4基因的T7E1测定的PCR扩增

<400> 8

ggacccactt ctcactgtcg 20

<210> 9

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 用于MLH1基因的T7E1测定的PCR扩增

<400> 9

gtgctcatcg ttgccacata tta 23

<210> 10

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 用于MLH1基因的T7E1测定的PCR扩增

<400> 10

tacgtgtaac agacaccttg c 21

<210> 11

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> 用于MSH2基因的T7E1测定的PCR扩增

<400> 11

ttgggtgtgg tcgccgtg 18

<210> 12

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> 用于MSH2基因的T7E1测定的PCR扩增

<400> 12

cacaagcacc aacgttccg 19

<210> 13

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 用于MSH6基因的T7E1测定的PCR扩增

<400> 13

tttttaaata ctctttcctt gcctg 25

<210> 14

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于MSH6基因的T7E1测定的PCR扩增

<400> 14

agggcgtttc cttcctagag 20

<210> 15

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 用于PMS2基因的T7E1测定的PCR扩增(sgRNA1,2)

<400> 15

acactgtctt gggaaatgca a 21

<210> 16

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> 用于PMS2基因的T7E1测定的PCR扩增(sgRNA1,2)

<400> 16

tggcagcgag acaaaac 17

<210> 17

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于PMS2基因中T7E1测定的PCR扩增(sgRNA3)

<400> 17

ctcactgaac acaccatgcc 20

<210> 18

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 用于PMS2基因中T7E1测定的PCR扩增(sgRNA3)

<400> 18

ggtctcactg tgttgcccag 20

<210> 19

<211> 55

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 19

tacacgacgc tcttccgatc ttaagtagag tatcttgtgg aaaggacgaa acacc 55

<210> 20

<211> 53

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 20

agacgtgtgc tcttccgatc ttaagtagag agcttatcga taccgtcgac ctc 53

<210> 21

<211> 56

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 21

tacacgacgc tcttccgatc tatcatgctt atatcttgtg gaaaggacga aacacc 56

<210> 22

<211> 54

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 22

agacgtgtgc tcttccgatc tatcatgctt aagcttatcg ataccgtcga cctc 54

<210> 23

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 23

tacacgacgc tcttccgatc tgatgcacat cttatcttgt ggaaaggacg aaacacc 57

<210> 24

<211> 55

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 24

agacgtgtgc tcttccgatc tgatgcacat ctagcttatc gataccgtcg acctc 55

<210> 25

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 25

tacacgacgc tcttccgatc tcgattgctc gactatcttg tggaaaggac gaaacacc 58

<210> 26

<211> 56

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 26

agacgtgtgc tcttccgatc tcgattgctc gacagcttat cgataccgtc gacctc 56

<210> 27

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 27

tacacgacgc tcttccgatc ttcgatagca attctatctt gtggaaagga cgaaacacc 59

<210> 28

<211> 57

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 28

agacgtgtgc tcttccgatc ttcgatagca attcagctta tcgataccgt cgacctc 57

<210> 29

<211> 60

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 29

tacacgacgc tcttccgatc tatcgatagt tgctttatct tgtggaaagg acgaaacacc 60

<210> 30

<211> 58

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 30

agacgtgtgc tcttccgatc tatcgatagt tgcttagctt atcgataccg tcgacctc 58

<210> 31

<211> 61

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 31

tacacgacgc tcttccgatc tgatcgatcc agttagtatc ttgtggaaag gacgaaacac 60

c 61

<210> 32

<211> 59

<212> DNA

<213> 人工序列

<220>

<223> 用于为NGS作sgRNAiBAR编码区域的PCR扩增

<400> 32

agacgtgtgc tcttccgatc tgatcgatcc agttagagct tatcgatacc gtcgacctc 59

<210> 33

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> HPRT1_sgRNA 1

<400> 33

tcaccacgac gccagggctg 20

<210> 34

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> HPRT1_sgRNA 2

<400> 34

gttatggcga cccgcagccc 20

<210> 35

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> ITGB1_sgRNA 1

<400> 35

acacagcaaa ctgaactgat 20

<210> 36

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> ITGB1_sgRNA 2

<400> 36

tacctgtttg agcaaacaca 20

<210> 37

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> SRGAP2_sgRNA 1

<400> 37

cagccaaatt caaaaaggat 20

<210> 38

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> SRGAP2_sgRNA 2

<400> 38

ccaaattcaa aaaggataag 20

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> AKTIP_sgRNA 1

<400> 39

gcttgtagac atgctccaga 20

<210> 40

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> AKTIP_sgRNA 2

<400> 40

cacgttatga accctttctg 20

<210> 41

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> ACTR3C_sgRNA 1

<400> 41

caggactcta cattgcagtt 20

<210> 42

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> ACTR3C_sgRNA 2

<400> 42

cgttccagga ctctacattg 20

<210> 43

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> PPP1R17_sgRNA 1

<400> 43

tgatgtccac tgagcaaatg 20

<210> 44

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> PPP1R17_sgRNA 2

<400> 44

cagtggctgc atttgctcag 20

<210> 45

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> ASCBG1_sgRNA 1

<400> 45

tgggcagccg tatccagctc 20

<210> 46

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> ASCBG1_sgRNA 2

<400> 46

gcagatgcca cgcaattctg 20

<210> 47

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CALM2_sgRNA 1

<400> 47

gtaggctgac caactgactg 20

<210> 48

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CALM2_sgRNA 2

<400> 48

caatctgctc ttcagtcagt 20

<210> 49

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> TCF21_sgRNA 1

<400> 49

actcccccaa acatgtccac 20

<210> 50

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> TCF21_sgRNA 2

<400> 50

cacatcgctg agggagccgg 20

<210> 51

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> KIFAP3_sgRNA 1

<400> 51

caacacagat ataacttccc 20

<210> 52

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> KIFAP3_sgRNA 2

<400> 52

cagggaagtt atatctgtgt 20

<210> 53

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> FGF13_sgRNA 1

<400> 53

ttgttctctt tgcagagcct 20

<210> 54

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> FGF13_sgRNA 2

<400> 54

tctttgcaga gcctcagctt 20

<210> 55

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> DUPD1_sgRNA 1

<400> 55

cagatgagta ggcattcttg 20

<210> 56

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> DUPD1_sgRNA 2

<400> 56

atgcctactc atctgccaag 20

<210> 57

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> TECTA_sgRNA 1

<400> 57

tgaaagagac ccaaattcta 20

<210> 58

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> TECTA_sgRNA 2

<400> 58

ttcgcacttg tacagcacca 20

<210> 59

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> GALR1_sgRNA 1

<400> 59

ggcggtcggg aacctcagcg 20

<210> 60

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> GALR1_sgRNA 2

<400> 60

gttcccgacc gccagctcca 20

<210> 61

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> OR51D1_sgRNA 1

<400> 61

tatgataggg accaagagct 20

<210> 62

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> OR51D1_sgRNA 2

<400> 62

atgataggga ccaagagctg 20

<210> 63

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> MLH1_sgRNA 1

<400> 63

attacaacga aaacagctga 20

<210> 64

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> MLH1_sgRNA 2

<400> 64

ctgatggaaa gtgtgcatac 20

<210> 65

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> MSH2_sgRNA 1

<400> 65

cgcgctgctg gccgcccggg 20

<210> 66

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> MSH2_sgRNA 2

<400> 66

ggtcttgaac acctcccggg 20

<210> 67

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> MSH2_sgRNA 3

<400> 67

gtgaggaggt ttcgacatgg 20

<210> 68

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> MSH6_sgRNA 1

<400> 68

gaagtacagc ctaagacaca 20

<210> 69

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> MSH6_sgRNA 2

<400> 69

agcctaagac acaaggatct 20

<210> 70

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> PMS2_sgRNA 1

<400> 70

cgactgatgt ttgatcacaa 20

<210> 71

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> PMS2_sgRNA 2

<400> 71

agtttcaacc tgagttaggt 20

<210> 72

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CSPG4_sgRNA 1

<400> 72

gagttaagtg cgcggacacc 20

<210> 73

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> CSPG4_sgRNA 2

<400> 73

ccactcagct cccagctccc 20

<210> 74

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> neg_sgRNA 1

<400> 74

caatagcaaa ccggggcagt 20

<210> 75

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> neg_sgRNA 2

<400> 75

gtgactccat taccaggctg 20

Claims

1.一组sgRNA^iBAR构建体，其包含三个或更多个sgRNA^iBAR构建体，每个构建体包含或编码sgRNA^iBAR，其中每个sgRNA^iBAR具有包含向导序列和内部标签(iBAR)序列的sgRNA^iBAR序列；其中每个sgRNA^iBAR序列包含第一茎序列和第二茎序列，其中第一茎序列与第二茎序列杂交以形成与Cas蛋白相互作用的双链RNA区域，并且其中iBAR序列位于第一茎序列和第二茎序列之间；其中每个iBAR序列的核苷酸数量介于1-50个核苷酸之间；

其中每个向导序列与靶基因组基因座互补，其中三个或更多个sgRNA^iBAR构建体的向导序列是相同的，其中三个或更多个sgRNA^iBAR构建体中每个的iBAR序列彼此不同，并且其中每个sgRNA^iBAR可与Cas蛋白合作以修饰靶基因组基因座。

2.根据权利要求1所述的sgRNA^iBAR构建体组，其中所述Cas蛋白是Cas9。

3.根据权利要求2所述的sgRNA^iBAR构建体组，其中每个sgRNA^iBAR序列包含与第二序列融合的向导序列，其中第二序列包含与Cas9相互作用的重复-反-重复茎环。

4.根据权利要求3所述的sgRNA^iBAR构建体组，其中每个sgRNA^iBAR序列的iBAR序列位于重复-反-重复茎环的环区域中。

5.根据权利要求3所述的sgRNA^iBAR构建体组，其中每个sgRNA^iBAR序列的第二序列还包含茎环2和/或茎环3。

6.根据权利要求1-5中任一项所述的sgRNA^iBAR构建体组，其中每个向导序列包含17-23个核苷酸。

7.根据权利要求1-5中任一项所述的sgRNA^iBAR构建体组，其中每个sgRNA^iBAR构建体是质粒。

8.根据权利要求6所述的sgRNA^iBAR构建体组，其中每个sgRNA^iBAR构建体是质粒。

9.根据权利要求1-5中任一项所述的sgRNA^iBAR构建体组，其中每个sgRNA^iBAR构建体是病毒载体。

10.根据权利要求6所述的sgRNA^iBAR构建体组，其中每个sgRNA^iBAR构建体是病毒载体。

11.根据权利要求9所述的sgRNA^iBAR构建体组，其中病毒载体是慢病毒载体。

12.根据权利要求10所述的sgRNA^iBAR构建体组，其中病毒载体是慢病毒载体。

13.根据权利要求1-5、8、10-12中任一项所述的sgRNA^iBAR构建体组，其包含四种sgRNA^iBAR构建体，其中所述四种sgRNA^iBAR构建体中的每种的iBAR序列彼此不同。

14.根据权利要求6所述的sgRNA^iBAR构建体组，其包含四种sgRNA^iBAR构建体，其中所述四种sgRNA^iBAR构建体中的每种的iBAR序列彼此不同。

15.根据权利要求7所述的sgRNA^iBAR构建体组，其包含四种sgRNA^iBAR构建体，其中所述四种sgRNA^iBAR构建体中的每种的iBAR序列彼此不同。

16.根据权利要求9所述的sgRNA^iBAR构建体组，其包含四种sgRNA^iBAR构建体，其中所述四种sgRNA^iBAR构建体中的每种的iBAR序列彼此不同。

17.一种sgRNA^iBAR文库，其包含多组根据权利要求1-16中任一项的sgRNA^iBAR构建体，其中每组对应与不同靶基因组基因座互补的向导序列。

18.根据权利要求17所述的sgRNA^iBAR文库，其包含至少1000组sgRNA^iBAR构建体。

19.根据权利要求17或18所述的sgRNA^iBAR文库，其中至少两组sgRNA^iBAR构建体的iBAR序列是相同的。

20.一种制备包含多组sgRNA^iBAR构建体的sgRNA^iBAR文库的方法，其中每组sgRNA^iBAR构建体对应与不同靶基因组基因座互补的多个向导序列中的一个，其中所述方法包括：

a)为每个向导序列设计三个或更多个sgRNA^iBAR构建体，其中每个sgRNA^iBAR构建体包含或编码具有包含相应向导序列和iBAR序列的sgRNA^iBAR序列的sgRNA^iBAR，其中对应三个或更多个sgRNA^iBAR构建体中的每种sgRNA^iBAR构建体的iBAR序列彼此不同，其中每个iBAR序列的核苷酸数量介于1-50个核苷酸之间，并且其中每个sgRNA^iBAR可与Cas蛋白合作以修饰相应的靶基因组基因座；以及

b)合成每个sgRNA^iBAR构建体，从而产生sgRNA^iBAR文库。

21.根据权利要求20所述的方法，还包括提供所述多个向导序列。

22.一种使用根据权利要求20或21所述的方法制备的sgRNA^iBAR文库。

23.一种组合物，其包含权利要求1-16中任一项的一组sgRNA^iBAR构建体，或根据权利要求17-19和22中任一项所述的sgRNA^iBAR文库。

24.一种筛选调节细胞表型的基因组基因座的方法，包括：

a)使初始细胞群接触根据权利要求17-19和22中任一项所述的sgRNA^iBAR文库，其条件是允许将sgRNA^iBAR构建体引入细胞中以提供经修饰的细胞群；

b)从经修饰的细胞群中选择具有经调节表型的细胞群，以提供选择出的细胞群；

c)从选择出的细胞群中获得sgRNA^iBAR序列；

d)基于序列计数对sgRNA^iBAR序列的相应向导序列进行排序，其中所述排序包括：基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的排序；以及

e)鉴定对应于排序在预定阈值水平之上的向导序列的基因组基因座。

25.一种筛选调节细胞表型的基因组基因座的方法，包括：

a)使初始细胞群接触i)根据权利要求17-19和22中任一项所述的sgRNA^iBAR文库；以及ii)包含Cas蛋白或编码Cas蛋白的核酸的Cas组分，其条件是允许将sgRNA^iBAR构建体和所述Cas组分引入细胞中以提供经修饰的细胞群；

c)从选择出的细胞群中获得sgRNA^iBAR序列；

26.根据权利要求24或25所述的方法，其中所述细胞是真核细胞。

27.根据权利要求26所述的方法，其中所述细胞是哺乳动物细胞。

28.根据权利要求24-25、27中任一项所述的方法，其中所述初始细胞群表达Cas蛋白。

29.根据权利要求26所述的方法，其中所述初始细胞群表达Cas蛋白。

30.根据权利要求24-25、27、29中任一项所述的方法，其中每种sgRNA^iBAR构建体是病毒载体，并且其中sgRNA^iBAR文库以大于2的感染复数与初始细胞群接触。

31.根据权利要求26所述的方法，其中每种sgRNA^iBAR构建体是病毒载体，并且其中sgRNA^iBAR文库以大于2的感染复数与初始细胞群接触。

32.根据权利要求28所述的方法，其中每种sgRNA^iBAR构建体是病毒载体，并且其中sgRNA^iBAR文库以大于2的感染复数与初始细胞群接触。

33.根据权利要求24-25、27、29、31-32中任一项所述的方法，其中将所述sgRNA^iBAR文库中超过95％的sgRNA^iBAR构建体引入所述初始细胞群。

34.根据权利要求26所述的方法，其中将所述sgRNA^iBAR文库中超过95％的sgRNA^iBAR构建体引入所述初始细胞群。

35.根据权利要求28所述的方法，其中将所述sgRNA^iBAR文库中超过95％的sgRNA^iBAR构建体引入所述初始细胞群。

36.根据权利要求30所述的方法，其中将所述sgRNA^iBAR文库中超过95％的sgRNA^iBAR构建体引入所述初始细胞群。

37.根据权利要求24-25、27、29、31-32、34-36中任一项所述的方法，其中所述筛选以大于1000倍的覆盖率进行。

38.根据权利要求26所述的方法，其中所述筛选以大于1000倍的覆盖率进行。

39.根据权利要求28所述的方法，其中所述筛选以大于1000倍的覆盖率进行。

40.根据权利要求30所述的方法，其中所述筛选以大于1000倍的覆盖率进行。

41.根据权利要求33所述的方法，其中所述筛选以大于1000倍的覆盖率进行。

42.根据权利要求24-25、27、29、31-32、34-36、38-41中任一项所述的方法，其中所述筛选是阳性筛选。

43.根据权利要求26所述的方法，其中所述筛选是阳性筛选。

44.根据权利要求28所述的方法，其中所述筛选是阳性筛选。

45.根据权利要求30所述的方法，其中所述筛选是阳性筛选。

46.根据权利要求33所述的方法，其中所述筛选是阳性筛选。

47.根据权利要求37所述的方法，其中所述筛选是阳性筛选。

48.根据权利要求24-25、27、29、31-32、34-36、38-41中任一项所述的方法，其中所述筛选是阴性筛选。

49.根据权利要求26所述的方法，其中所述筛选是阴性筛选。

50.根据权利要求28所述的方法，其中所述筛选是阴性筛选。

51.根据权利要求30所述的方法，其中所述筛选是阴性筛选。

52.根据权利要求33所述的方法，其中所述筛选是阴性筛选。

53.根据权利要求37所述的方法，其中所述筛选是阴性筛选。

54.根据权利要求24-25、27、29、31-32、34-36、38-41、43-47、49-53中任一项所述的方法，其中所述表型是蛋白质表达、RNA表达、蛋白质活性或RNA活性。

55.根据权利要求26所述的方法，其中所述表型是蛋白质表达、RNA表达、蛋白质活性或RNA活性。

56.根据权利要求28所述的方法，其中所述表型是蛋白质表达、RNA表达、蛋白质活性或RNA活性。

57.根据权利要求30所述的方法，其中所述表型是蛋白质表达、RNA表达、蛋白质活性或RNA活性。

58.根据权利要求33所述的方法，其中所述表型是蛋白质表达、RNA表达、蛋白质活性或RNA活性。

59.根据权利要求37所述的方法，其中所述表型是蛋白质表达、RNA表达、蛋白质活性或RNA活性。

60.根据权利要求42所述的方法，其中所述表型是蛋白质表达、RNA表达、蛋白质活性或RNA活性。

61.根据权利要求48所述的方法，其中所述表型是蛋白质表达、RNA表达、蛋白质活性或RNA活性。

62.根据权利要求24-25、27、29、31-32、34-36、38-41、43-47、49-53中任一项所述的方法，其中所述表型选自细胞死亡，细胞生长，细胞运动性，细胞代谢，药物抗性，药物敏感性以及对刺激因子的响应。

63.根据权利要求26所述的方法，其中所述表型选自细胞死亡，细胞生长，细胞运动性，细胞代谢，药物抗性，药物敏感性以及对刺激因子的响应。

64.根据权利要求28所述的方法，其中所述表型选自细胞死亡，细胞生长，细胞运动性，细胞代谢，药物抗性，药物敏感性以及对刺激因子的响应。

65.根据权利要求30所述的方法，其中所述表型选自细胞死亡，细胞生长，细胞运动性，细胞代谢，药物抗性，药物敏感性以及对刺激因子的响应。

66.根据权利要求33所述的方法，其中所述表型选自细胞死亡，细胞生长，细胞运动性，细胞代谢，药物抗性，药物敏感性以及对刺激因子的响应。

67.根据权利要求37所述的方法，其中所述表型选自细胞死亡，细胞生长，细胞运动性，细胞代谢，药物抗性，药物敏感性以及对刺激因子的响应。

68.根据权利要求42所述的方法，其中所述表型选自细胞死亡，细胞生长，细胞运动性，细胞代谢，药物抗性，药物敏感性以及对刺激因子的响应。

69.根据权利要求48所述的方法，其中所述表型选自细胞死亡，细胞生长，细胞运动性，细胞代谢，药物抗性，药物敏感性以及对刺激因子的响应。

70.根据权利要求54所述的方法，其中所述表型选自细胞死亡，细胞生长，细胞运动性，细胞代谢，药物抗性，药物敏感性以及对刺激因子的响应。

71.根据权利要求62所述的方法，其中所述表型是对刺激因子的响应，并且其中所述刺激因子选自激素，生长因子，炎性细胞因子，抗炎细胞因子，药物，毒素和转录因子。

72.根据权利要求63-70中任一项所述的方法，其中所述表型是对刺激因子的响应，并且其中所述刺激因子选自激素，生长因子，炎性细胞因子，抗炎细胞因子，药物，毒素和转录因子。

73.根据权利要求24-25、27、29、31-32、34-36、38-41、43-47、49-53、55-61、63-71中任一项所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

74.根据权利要求26所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

75.根据权利要求28所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

76.根据权利要求30所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

77.根据权利要求33所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

78.根据权利要求37所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

79.根据权利要求42所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

80.根据权利要求48所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

81.根据权利要求54所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

82.根据权利要求62所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

83.根据权利要求72所述的方法，其中所述sgRNA^iBAR序列通过基因组测序或RNA测序获得。

84.根据权利要求73所述的方法，其中所述sgRNA^iBAR序列通过二代测序获得。

85.根据权利要求74-83任一项所述的方法，其中所述sgRNA^iBAR序列通过二代测序获得。

86.根据权利要求24-25、27、29、31-32、34-36、38-41、43-47、49-53、55-61、63-71、74-84中任一项所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

87.根据权利要求26所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

88.根据权利要求28所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

89.根据权利要求30所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

90.根据权利要求33所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

91.根据权利要求37所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

92.根据权利要求42所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

93.根据权利要求48所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

94.根据权利要求54所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

95.根据权利要求62所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

96.根据权利要求72所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

97.根据权利要求73所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

98.根据权利要求85所述的方法，其中所述序列计数经历中值比率归一化，然后进行均值-方差建模。

99.根据权利要求86所述的方法，其中基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的方差。

100.根据权利要求87-98中任一项所述的方法，其中基于所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性调整每个向导序列的方差。

101.根据权利要求24-25、27、29、31-32、34-36、38-41、43-47、49-53、55-61、63-71、74-84、87-99中任一项所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

102.根据权利要求26所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

103.根据权利要求28所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

104.根据权利要求30所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

105.根据权利要求33所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

106.根据权利要求37所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

107.根据权利要求42所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

108.根据权利要求48所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

109.根据权利要求54所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

110.根据权利要求62所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

111.根据权利要求72所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

112.根据权利要求73所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

113.根据权利要求85所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

114.根据权利要求86所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

115.根据权利要求100所述的方法，其中将从经选择细胞群获得的序列计数与从对照细胞群获得的相应序列计数进行比较，以提供倍数变化。

116.根据权利要求101所述的方法，其中基于每个iBAR序列的倍数变化的方向确定所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性，其中如果iBAR序列的倍数变化相对于彼此处于相反的方向，则所述向导序列的方差增加。

117.根据权利要求102-115中任一项所述的方法，其中基于每个iBAR序列的倍数变化的方向确定所述sgRNA^iBAR序列中对应于向导序列的诸iBAR序列之间的数据一致性，其中如果iBAR序列的倍数变化相对于彼此处于相反的方向，则所述向导序列的方差增加。

118.根据权利要求24-25、27、29、31-32、34-36、38-41、43-47、49-53、55-61、63-71、74-84、87-99、102-116中任一项所述的方法，还包括：验证鉴定出的基因组基因座。

119.根据权利要求26所述的方法，还包括：验证鉴定出的基因组基因座。

120.根据权利要求28所述的方法，还包括：验证鉴定出的基因组基因座。

121.根据权利要求30所述的方法，还包括：验证鉴定出的基因组基因座。

122.根据权利要求33所述的方法，还包括：验证鉴定出的基因组基因座。

123.根据权利要求37所述的方法，还包括：验证鉴定出的基因组基因座。

124.根据权利要求42所述的方法，还包括：验证鉴定出的基因组基因座。

125.根据权利要求48所述的方法，还包括：验证鉴定出的基因组基因座。

126.根据权利要求54所述的方法，还包括：验证鉴定出的基因组基因座。

127.根据权利要求62所述的方法，还包括：验证鉴定出的基因组基因座。

128.根据权利要求72所述的方法，还包括：验证鉴定出的基因组基因座。

129.根据权利要求73所述的方法，还包括：验证鉴定出的基因组基因座。

130.根据权利要求85所述的方法，还包括：验证鉴定出的基因组基因座。

131.根据权利要求86所述的方法，还包括：验证鉴定出的基因组基因座。

132.根据权利要求100所述的方法，还包括：验证鉴定出的基因组基因座。

133.根据权利要求101所述的方法，还包括：验证鉴定出的基因组基因座。

134.根据权利要求117所述的方法，还包括：验证鉴定出的基因组基因座。

135.一种用于筛选调节细胞表型的基因组基因座的试剂盒，其包含权利要求17-19和22中任一项所述的sgRNA^iBAR文库。

136.根据权利要求135所述的试剂盒，还包含Cas蛋白或编码Cas蛋白的核酸。