CN111748848A

CN111748848A - 鉴定功能元件的方法

Info

Publication number: CN111748848A
Application number: CN202010224140.2A
Authority: CN
Inventors: 魏文胜; 王轶楠; 周悦欣; 张心怡; 岳頔; 刘莹
Original assignee: Edigene Beijing Biotechnology Co ltd; Peking University
Current assignee: Edigene Beijing Biotechnology Co ltd; Peking University
Priority date: 2019-03-26
Filing date: 2020-03-26
Publication date: 2020-10-09
Anticipated expiration: 2040-03-26
Also published as: CN111748848B

Abstract

本发明涉及一种用于鉴定基因组序列功能元件的文库，包含多个CRISPR‑Cas系统指导RNA，所述指导RNA包含能够靶向至少一个连续基因组区域内的多个基因组序列的指导序列，其中所述指导RNA靶向至少100个基因组序列，该基因组序列包含所述连续基因组区域内每1000个碱基对的PAM序列上游的非重叠切割位点本发明涉及在天然的生物背景下鉴定基因组区或目的蛋白的功能元件的CRESMAS方法。另外，本发明还涉及利用上述文库鉴定基因组序列功能元件方法。

Description

鉴定功能元件的方法

发明领域

本发明涉及鉴定目的蛋白质的基因组区域或目的蛋白质的功能元件的方法。具体而言，本发明涉及高通量策略，在生物学背景下鉴定基因组基因或蛋白功能关键的元件。

发明背景

RNA指导的CRISPR相关蛋白9核酸酶(RNA-guided CRISPR-associated protein 9nucleases)可通过产生双链断裂(DSB)在目标基因组基因座上导入indel(插入或缺失)和点突变，从而激活内部修复机制，特别是非同源末端连接(NHEJ)^(1,2)。诱变，特别是导致移码的诱变，可以完全消除基因表达，使CRISPR-Cas9系统成为基因组工程^(3,4)甚至高通量功能筛选^(5-8)的强大工具。为了更好地高分辨率地了解调节元件或蛋白质编码序列的作用，CRISPR介导的饱和诱变已用于相关的生物学检测^(9,10)。由于这些尝试仅收集了来自sgRNA编码区的间接测序数据，因此其基因识别分辨率有限。此外，不可能使用这种策略获得完整的功能结构域或关键氨基酸信息，特别是在目的蛋白质对于细胞活力是不必要的情况下。传统方法主要是体外生物化学测定，如共免疫沉淀(Co-IP)与截短诱变⁽¹¹⁾相结合，然而，这些技术耗时，费力，分辨率低，更不用说它们均不能在天然生物环境下进行。因此，本领域极其需要更准确和全面的策略和方法来鉴定目的基因组序列或蛋白质的功能元件。

发明概述

本发明通过提供用于鉴定目的基因组区或目的蛋白质的功能元件的高通量策略和方法来满足至少一些前述需求，该策略或方法称为CRISPR增强饱和诱变与分类DNA片段测序结合法

(CRISPR-Empowered Saturation Mutagenesis combined with Assorted-DNA-fragment Sequencing，CRESMAS)。具体而言，本发明应用饱和诱变并且仅检索导致表型改变的框内突变(框内缺失和错义点突变)，确定与基因组区或蛋白质功能相关的关键位点不论靶向基因的重要性如何。

使用这种方法，发明人映射了六种蛋白质，三种细菌毒素受体和三种癌症药物靶标，并以单一氨基酸分辨率获得了它们的综合功能图，其包含已知的结构域或位点以及对药物或毒素敏感性具有关键作用的新的氨基酸。此外，这种新方法揭示了对关键残基的全面和精确的单氨基酸取代模式，可以消除蛋白质功能或赋予耐药性。可扩展的CRESMAS策略具有极高的准确性和高效率，可以在高分辨率下进行各种蛋白质的序列-功能作图，并有可能加速蛋白质功能和耐药性的机理研究。

在一个方面，本发明涉及用于鉴定目的蛋白质的功能元件的方法，包括通过使用CRISPR系统进行饱和诱变以提供覆盖每个氨基酸的多重突变，检索导致功能丢失表型的框内突变，PCR扩增sgRNA编码区和靶基因的cDNA以进行测序分析，并构建计算流程以分析测序数据以鉴定目的蛋白质必需的氨基酸。在一个实施方案中，对目的蛋白质的功能元件的鉴定是单氨基酸分辨率。在一个实施方案中，对目的蛋白质的功能元件的鉴定处于其天然生物学背景下。在一个实施方案中，框内突变是框内缺失和错义点突变。

在一个实施方案中，通过使用CRISPR系统的饱和诱变包括设计跨目的蛋白全长的每个氨基酸的sgRNA。在一个实施方案中，每个sgRNA被设计为影响DSB位点周围约10-bp，例如，7-13bp，例如，8-bp、9-bp、10-bp、11-bp、12-bp。在一个实施方案中，解码框内缺失并根据氨基酸缺失的数目将框内缺失分类为“驾驶员缺失”(仅包含单个氨基酸缺失)或“乘客缺失”(含有多个氨基酸缺失)。

在一个实施方案中，计算流程包括：

使用公共可用的生物信息学工具将测序读段映射到目标基因的参考序列，所述生物信息学工具例如Bowtie2 2.3.2和SAMtools 1.3.1。

过滤读取结果以保留那些仅携带错义突变或框内缺失的读段，

对于含有错义突变的片段，计算每个氨基酸的突变比率如下：

对于含有框内缺失的片段，计算每个氨基酸的缺失率如下：

解码框内缺失并根据氨基酸缺失的数目将框内缺失分类为“驾驶员缺失”，如果它们仅包含单个氨基酸缺失或“乘客缺失”，如果它们含有多个氨基酸缺失，

计算实验组和对照组之间的倍数变化，

计算每种氨基酸的必需性得分如下：

对于突变倍数变化，基于所有倍数变化构建无效分布，并且针对每个氨基酸计算得分_突变＝-log10(P值)，

对于缺失倍数变化，首先应用可调参数α来对驾驶员突变和乘客突变加权如下：

缺失倍数变化＝驾驶员倍数变化+α*乘客倍数变化，然后通过排列100次构建空分布，并且针对每个氨基酸计算得分缺失＝-log10(P值)

将得分_突变和得分_缺失归一化如下：

计算得分_突变和得分_缺失的权重如下：

a＝缺失倍数变化＞1的氨基酸数

b＝突变倍数变化＞1的氨基酸数

计算必需性得分如下：

必需性得分＝GHIJIKLM*得分GHIJIKLM+STUTIKLM*得分STUTIKLM。

在一个实施方案中，所述方法还包括根据所述氨基酸的功能重要性对所述氨基酸进行排序。

在一个方面，本发明涉及用于CRESMAS的文库，以鉴定包含多个CRISPR-Cas系统指导RNA的基因组序列的功能元件，所述指导RNA包含能够在至少一个连续基因组区域内靶向多个基因组序列的指导序列，其中所述指导RNA针对连续基因组区域内每1000个碱基对的至少100个基因组序列，所述基因组序列包含PAM序列上游的非重叠切割位点。

在一个实施方案中，文库中的每个指导RNA被设计为影响DSB位点周围大约10bp，例如，7-13bp，例如，8-bp、9-bp、10-bp、11-bp、12-bp。在一个实施方案中，文库包含靶向连续基因组区域内每个PAM序列上游的基因组序列的指导RNA。在一个实施方案中，PAM序列对至少一种Cas蛋白特异。在一个实施方案中，基于对至少一种Cas蛋白特异的多于一个PAM序列来选择CRISPR-Cas系统指导RNA。在一个实施方案中，所述目的基因的表达通过所述多个CRISPR-Cas系统指导RNA内的至少一个指导RNA的所述靶向而改变。在一个实施方案中，将所述文库导入细胞群体，优选该细胞群体是真核细胞群体。在一个实施方案中，所述靶向导致连续基因组区域的NHEJ。在一个实施方案中，靶向是针对约100个或更多个序列，例如约1,000个或更多个序列、约100,000个或更多个序列。

在一个实施方案中，靶向包括向细胞群中的每个细胞中导入一种或多种载体的载体系统，所述载体包含工程化的，非天然存在的CRISPR-Cas系统，其包含

I.Cab蛋白或编码Cas蛋白的多核苷酸序列，其可操作地连接至调控元件，

II.CRISPR-Cas系统指导RNA，

其中组分I和II在相同或不同的载体中，并且其中转录时包含指导序列的指导RNA指导CRISPR-Cas系统与连续基因组区域中的靶序列的序列特异性结合，诱导Cas蛋白切割所述连续基因组区域。

在一个实施方案中，所述一种或多种载体是质粒载体。调控元件是诱导型启动子，优选地，诱导型启动子是强力霉素诱导型启动子。

在一个方面，本发明涉及一种CRESMAS方法，其包括：

(a)将前述权利要求中任一项所述的文库导入经改造含有至少一种Cas蛋白的细胞群中，其中所述细胞群中的每个细胞含有不超过一个指导RNA；

(b)基于细胞表型的突变将细胞分选成至少两组；

(c)确定每个组中存在的指导RNA的相对表示(representation)，由此通过每个组中存在的指导RNA的表示确定与细胞表型突变相关的基因组位点；

(d)扩增靶向的一个或多个基因的一个或多个cDNA或DNA序列用于测序；

(e)将测序读段映射到靶基因的参考序列；

(f)过滤读段以保留仅携带错义突变或框内缺失的读段；和

(g)通过应用生物信息学流程确定细胞表型的每种氨基酸或核苷酸的权重。

在一个实施方案中，细胞表型的突变是目的基因的转录和/或表达的增加或减少。在一个实施方案中，将细胞分选成高表达组和低表达组。在一个实施方案中，细胞表型的改变包括细胞功能丧失或功能获得。在一个实施方案中，该方法用于以单个氨基酸分辨率鉴定目的蛋白质的功能元件。

在一个实施方案中，上述方法用于鉴定非编码RNA，启动子或增强子的功能图谱。该方案中，与鉴定目的蛋白质功能元件情况下PCR

扩增cDNA不同的是，其PCR扩增基因组上被靶向的区域。

在一个方面，本发明涉及筛选与对化合物的抗性相关的功能元件的方法，其包括：

(a)将上文提及的任何文库导入经改造含有Cas蛋白的细胞群体中，其中该细胞群体的每个细胞含有不超过一个指导RNA；

(b)用化合物处理细胞群体；和

(c)确定所述化合物处理前后的指导性RNA的表示(representation)，由此通过富集指导性RNA来确定与所述化合物的抗性相关的基因组位点；

(e)将测序读段映射到靶基因的参考序列；

(f)过滤读段以保留仅携带错义突变或框内缺失的读段；和

(g)通过应用生物信息学流程确定每种氨基酸或核苷酸对化合物抗性的权重。

在某些实施方案中，生物信息学流程包括：

(h)对于含有错义突变的片段，如下计算每个氨基酸的突变比率：

(i)对于含有框内缺失的片段，如下计算每个氨基酸的缺失率：

(j)解码框内缺失并基于氨基酸缺失的数目将框内缺失归类为单个氨基酸缺失的情况(驾驶员缺失)或多个氨基酸缺失的情况(乘客缺失)，

(k)计算实验组和对照组之间的倍数变化，

(1)如下计算每个氨基酸的必需性得分：

1)对于突变倍数变化，基于所有倍数变化构建无效分布，并且针对每个氨基酸计算得分_突变＝-log10(P值)，

2)对于缺失倍数变化，首先应用可调参数α来对驾驶员缺失和乘客缺失加权如下：

缺失倍数变化＝驾驶员倍数变化+α*乘客倍数变化，然后通过排列100次构建空分布，并且针对每个氨基酸计算得分_缺失＝-log10(P值)

3)如下将得分_突变和得分_缺失归一化：

4)如下计算得分_突变和得分_缺失的权重：

a＝缺失倍数变化＞1的氨基酸数

b＝突变倍数变化＞1的氨基酸数

5)如下计算必需性得分：

必需性得分＝W_GHIJIKLM*得分_GHIJIKLM+w_STUTIKLM*得分_STUTIKLM

在本文的方法中，所述化合物可以是影响真核细胞中一个或多个基因组区域或蛋白质的结构和/或功能的任何化合物。例如，它可以是毒素或药物，如本文所例示。在一些实施方案中，真核细胞是人类细胞。

在一个方面，本发明涉及用于鉴定目的蛋白质的功能元件的方法，所述方法包括通过使用导入群体中的CRISPR-Cas系统破坏编码蛋白质的基因组基因而对目的蛋白质进行饱和诱变，通过DNA测序确定与表型改变相关的被破坏的基因组位点，测序靶基因的cDNA，检索导致表型改变的框内突变，并构建生物信息学流程以分析测序数据，以单个氨基酸分辨率鉴定目的蛋白质的功能元件。在这种方法中，鉴定目的蛋白质的功能元件是在其天然生物学背景下进行的。

在该方法中，框内突变是框内缺失和错义点突变。在某些实施方案中，所述破坏包括向细胞群中的每个细胞中导入一种或多种载体的载体系统，所述载体系统包含工程化的，非天然存在的CRISPR-Cas系统，其包含

II.靶向编码蛋白质的基因组基因的指导RNA，

其中组分I和II在相同或不同的载体上，并且其中转录时包含指导序列的指导RNA指导CRISPR-Cas系统的序列特异性结合至基因组基因中的靶序列，诱导Cas蛋白对基因组区域的切割。

在一个实施方案中，所述一种或多种载体是质粒载体。在一个实施方案中，调节元件是诱导型启动子。在一个实施方案中，对于基因组基因内的每1000个碱基对，指导RNA靶向包含PAM序列上游的非重叠切割位点的至少100个基因组序列。在一个实施方案中，每个指导RNA被设计为影响DSB位点周围大约10bp(例如7-13bp，例如8bp，9bp，10bp，1,1bp，12bp)。在一个实施方案中，所述文库包含靶向基因组基因内每个PAM序列上游的基因组序列的指导RNA。在一个实施方案中，PAM序列对至少一种Cas蛋白特异。在一个实施方案中，基于对至少一种Cas蛋白特异的多于一个PAM序列来选择CRISPR-Cas系统指导RNA。在一个实施方案中，所述目的基因的表达通过所述多个CRISPR-Cas系统指导RNA内的至少一个指导RNA的所述靶向而改变。在一个实施方案中，所述靶向导致基因组基因的NHEJ。

在一个方面，本发明涉及通过突变前述任一方法发现或鉴定的功能元件，例如对基因组基因功能或蛋白质功能关键的基因组位点或氨基酸位点从而改变基因或蛋白功能的方法。本发明还涵盖了通过前述方法中的任何一种鉴定的对蛋白质功能重要的氨基酸位置已被其它氨基酸置换和/或被缺失的变体蛋白。

具体地，本发明涉及：

1、一种用于鉴定基因组序列功能元件的文库，包含多个CRISPR-Cas系统指导RNA，所述指导RNA包含能够靶向至少一个连续基因组区域内的多个基因组序列的指导序列，其中所述指导RNA靶向至少100个基因组序列，该基因组序列包含所述连续基因组区域内每1000个碱基对的PAM序列上游的非重叠切割位点。

2、项1的文库，其中所述文库包含靶向连续基因组区域内每个PAM序列上游的基因组序列的指导RNA。

3、项1或2的文库，其中将每个指导RNA设计为影响DSB位点周围约10bp。

4、根据项1至3中任一项所述的文库，其中所述PAM序列是特异性针对至少一种Cas蛋白的。

5、根据项1至4中任一项所述的文库，其中基于特异性针对至少一种Cas蛋白的多于一个PAM序列来选择所述CRISPR-Cas系统指导RNA。

6、根据项1至5中任一项所述的文库，其中所述靶向导致连续基因组区域的NHEJ。

7、根据项1至6中任一项所述的文库，其中所述多个CRISPR-Cas系统指导RNA内的至少一个指导RNA的所述靶向导致细胞表型的改变和/或基因的转录和/或表达增加或减少。

8、根据项1至7中任一项所述的文库，其是质粒文库或病毒文库。

9、根据项1至7中任一项所述的文库，其是载体文库或宿主细胞文库。

10、一种用于鉴定基因组序列功能元件方法，包括：

(a)将前述项中任一项所述的文库导入经改造含有Cas蛋白的细胞群中，其中所述细胞群中的每个细胞含有不超过一个指导RNA；

(b)基于细胞表型的改变将细胞分选成至少两组；

(c)确定每组中存在的指导RNA的相对表示，由此通过每个组中存在的指导RNA的表示确定与细胞表型改变相关的基因组位点；

(d)扩增被靶向的一个或多个基因的一个或多个cDNA或DNA序列用于测序；

(e)将测序读段映射到靶基因的参考序列；

(f)过滤读段以保留仅携带错义突变或框内缺失的读段；和

(g)通过生物信息学流程确定每种氨基酸或核苷酸对细胞表型的权重。

11、根据项10所述的方法，其中所述细胞表型的改变选自如下的一项或多项：细胞功能丧失、细胞功能获得、基因的转录增加、基因的表达增加、基因的转录减少、基因的表达减少。

12、根据项10或11所述的方法，其中所述基因组序列为编码功能蛋白质的基因组序列。

13、根据项12的方法，其用于以单个氨基酸分辨率鉴定所述蛋白质的功能元件。

14、根据项10或11所述的方法，其中所述基因组序列为非编码RNA或基因调控元件的基因组序列。

15、根据项14的方法，其中所述基因调控元件为启动子或增强子。

16、根据项10-15中任一项所述的方法，其中所述鉴定处于天然生物背景下。

17、根据项10-16中的任一项所述的方法，所述生物信息学流程包括：

(h)对于含有错义突变的片段，如下计算每个氨基酸的突变比率:

18、一种筛选与药物或毒素的抗性相关的功能元件的方法，包括：

(b)用所述药物或毒素处理所述细胞群并基于对所述药物或毒素的抗性的改变将细胞分选成至少两组；

(c)确定每组中存在的指导RNA的相对表示，由此通过每个组中存在的指导RNA的表示确定与所述抗性改变相关的基因组位点；

(e)将测序读段映射到靶基因的参考序列；

(f)过滤读段以保留仅携带错义突变或框内缺失的读段；和

(g)通过生物信息学流程确定每种氨基酸或核苷酸对所述抗性的权重。

19、根据项18所述的方法，其中所述基因组序列为编码功能蛋白质的基因组序列。

20、根据项19的方法，其用于以单个氨基酸分辨率鉴定所述蛋白质的功能元件。

21、根据项18所述的方法，其中所述基因组序列为非编码RNA或基因调控元件的基因组序列。

22、根据项21的方法，其中所述基因调控元件为启动子或增强子。

23、根据项18-22中任一项所述的方法，其中所述鉴定处于天然生物背景下。

24、根据项18-23中任一项所述的方法，其中所述细胞群中导入了多个指导RNA，该多个指导RNA包含能够靶向至少一个连续基因组区域内的多个基因组序列的指导序列，其中所述指导RNA靶向至少100个基因组序列，该基因组序列包含所述连续基因组区域内每1000个碱基对的PAM序列上游的非重叠切割位点。

25、根据项24所述的方法，其中将每个指导RNA设计成影响DSB位点周围大约10bp。

26、如项24或25所述的方法，所述PAM序列特异性针对至少一种Cas蛋白。

27、根据项24-26中任一项所述的方法，其中所述CRISPR-Cas系统指导RNA是基于对至少一种Cas蛋白特异的多于一个PAM序列选择的。

28、根据项18-27中任一项所述的方法，所述生物信息学管道包括：

单个氨基酸缺失的情况(驾驶员缺失)或多个氨基酸缺失的情况(乘必需性得分＝w_GHIJIKLM*得分_GHIJIKLM+w_STUTIKLM*得分_STUTIKLM

29、一种鉴定目的蛋白质功能元件的方法，包括向细胞群中导入CRISPR-Cas系统破坏编码该目的蛋白质的基因组基因，对目的蛋白质进行饱和诱变，通过对靶基因的DNA测序和cDNA测序确定与表型改变相关的被破坏的基因组位点，检索引起表型改变的框内突变，构建生物信息学流程以单一氨基酸分辨率鉴定目的蛋白的功能元件。

30、根据项29所述的方法，其中所述目的蛋白质的功能元件的鉴定处于其天然生物学背景下。

31、如项29或30所述的方法，其中所述框内突变是框内缺失和错义点突变。

32、根据项29-31任一项所述的方法，其中所述细胞表型的改变选自如下的一项或多项：细胞功能丧失、细胞功能获得、基因的转录增加、基因的表达增加、基因的转录减少、基因的表达减少。

33、根据项29-32任一项的方法，其用于以单个氨基酸分辨率鉴定所述蛋白质的功能元件。

34、根据项29-33中任一项所述的方法，其中所述破坏包括向所述细胞群中的每个细胞中导入一种或多种载体的载体系统，所述载体系统包含工程化的，非天然存在的CRISPR-Cas系统，该载体系统包含：

I.Cas蛋白或编码Cas蛋白的多核苷酸序列，其可操作地连接至调控元件，和

II.靶向编码目的蛋白质的基因组基因的指导RNA，

其中组分I和II在相同或不同的载体上，并且其中转录时包含指导序列的指导RNA指导CRISPR-Cas系统与基因组基因中的靶序列进行序列特异性结合，诱导通过Cas蛋白进行的基因组区的切割。

35、如项34所述的方法，其中所述一个或多个载体是质粒载体。

36、根据项34或35所述的方法，其中所述调控元件是诱导型启动子。

37、根据项29-36中任一项所述的方法，其中所述细胞群中的每个细胞含有不超过一个指导RNA，导入细胞群中的多个指导RNA包含能够靶向编码所述目的蛋白的至少一个连续基因组区域内的多个基因组序列的指导序列，其中所述指导RNA靶向至少100个基因组序列，该基因组序列包含所述连续基因组区域内每1000个碱基对的PAM序列上游的非重叠切割位点。

38、根据项37所述的方法，其中将每个指导RNA设计成影响DSB位点周围大约10bp。

39、如项37或38所述的方法，所述PAM序列特异性针对至少一种Cas蛋白。

40、根据项29-39中任一项所述的方法，其中所述CRISPR-Cas系统指导RNA是基于对至少一种Cas蛋白特异的多于一个PAM序列选择的。

41、根据项29-40中任一项所述的方法，其中所述生物信息学流程包括：

通过使用生物信息学工具将测序读取结果映射到靶向基因的参考序列，

(k)计算实验组和对照组之间的倍数变化，

(1)如下计算每个氨基酸的必需性得分：

3)如下将得分_突变和得分_缺失归一化：

4)如下计算得分_突变和得分_缺失的权重：

a＝缺失倍数变化＞1的氨基酸数

b＝突变倍数变化＞1的氨基酸数

5)如下计算必需性得分：

必需性得分＝w_GHIJIKLM*得分_GHIJIKLM+w_STUTIKLM*得分_3TUTIKLM

42、根据项41所述的方法，还包括根据必需性评分基于氨基酸的功能重要性对所述氨基酸进行排序。

43、一种对基因组基因或蛋白质进行功能改造的方法，包括通过项10-42中任一项的方法确定所述基因组基因或蛋白质的功能元件，并对该功能元件进行突变。

44、通过项10-42中任一项的方法鉴定的功能元件用于改造基因组基因或蛋白质的用途。

附图说明

图1A-B.CRESMAS工作流程。通过药物或毒素处理进行文库筛选，随后扩增sgRNA条码和靶向基因的cDNA用于NGS。收集仅携带错义突变的读取结果计算点突变倍数变化并进行突变模式分析。含有框内缺失的读段按缺失中氨基酸(a.a.)的数量进行分类，并进行收集以计算缺失倍数变化。通过利用来自框内缺失和错义突变的信息来计算必需性得分。

图2A-E.CRESMAS筛选的实验条件。(A)三种癌症药物对指定处理时间的HeLa细胞死亡的剂量效果。(B)筛选中每个基因的sgRNA的覆盖范围，其中假设每个sgRNA影响其切割位点上游和下游的10bp。x轴表示每个氨基酸覆盖的sgRNA的数目。y轴表示受sgRNA影响的氨基酸数(a.a.)。(C)对照文库中sgRNA序列的分布。(D)靶cDNA的PCR扩增示意图。用于不同基因的引物列于表4。(E)靶cDNA的PCR扩增(左)和剪切DNA片段至平均长度250bp(右)。

图3A-B.文库质量和编辑类型分布。(A)对照组中每个基因检测到的点突变，插入和缺失百分比，以及筛选后两次重复。(B)两次重复之间的对数规模上筛选后，sgRNA倍数变化的散点图。

图4A-B.重复的缺失倍数变化和点突变倍数变化的散点图。(A)两次重复筛选之间的缺失倍数变化的散点图。(B)两次重复筛选之间点突变倍数变化的散点图。

图5A-C.对于ANTXR1在介导PA毒性中必不可少的关键氨基酸的CRESMAS鉴定。(A)在PA筛选中靶向ANTXR1的sgRNA的评估。每个sgRNA相对于ANTXR1蛋白的位置沿x轴表示。(B)对应于每个氨基酸的缺失和点突变倍数变化。图中显示了ANTXR1的多域(multi-domain)示意图，示出了PA结合位点。(C)ANTXR1每个氨基酸的必需性得分。排名靠前的命中显示为深灰色，其中以三角形显示已知的关键氨基酸。

图6A-C.CRESMAS对CSPG4介导TcdB毒性所必需的关键氨基酸的鉴定。(A)在TcdB筛选中评估靶向CSPG4的sgRNA。每个sgRNA相对于CSPG4蛋白的位置沿x轴表示。(B)对应于每个氨基酸的缺失和点突变倍数变化。图中显示了CSPG4的多域示意图，示出了TcdB结合位点。(C)CSPG4各氨基酸的必需性得分。排名靠前的命中显示为深灰色。

图7A-D.HBEGF介导DT毒性所必需的关键氨基酸的CRESMAS鉴定。(A)在DT筛选中靶向HBEGF的sgRNA的评估。每个sgRNA相对于HBEGF蛋白的位置沿x轴表示。sgRNA的位置定义为sgRNA的切割位点，倍数变化是靶向每个氨基酸密码子的sgRNA的平均倍数变化。(B)缺失和点突变对应于每个氨基酸的倍数变化。灰色条表示多个氨基酸缺失。灰色条的宽度与缺失的氨基酸数量相关联。每个单一氨基酸的灰度分配为10％。覆盖灰度等级以表明任何特定氨基酸在不同缺失模式中的统计学重要性。星号表示蛋白质功能关键的已知残基。HBEGF的多域示图在图中呈现，示出了EGF样结构域，一种已知的DT结合区。(C)HBEGF每个氨基酸的必需性得分。排名靠前的命中以深灰色显示，已知的关键氨基酸为三角形。(D)单氨基酸缺失对细胞对DT敏感性的影响。用不同浓度的DT处理细胞，毒素处理后48小时进行MTT细胞毒性测定。数据表示为平均值±s.d.，n＝5。

图8A-C.在6-TG杀伤中对于HPRT1必需的关键氨基酸的CRESMAS鉴定。(A)在硼替佐米筛选中靶向HPRT1的sgRNA的评价。相对于HPRT1蛋白的每个sgRNA的位置沿x轴表示。(B)缺失和点突变对应于每个氨基酸的倍数变化。下图显示了HPRT1的多域示意图。(C)HPRT1的每个氨基酸的必需性得分。排名靠前的命中显示为深灰色。

图9A-E.PSMB5对硼替佐米杀伤所必需的关键氨基酸的CRESMAS鉴定。(A)在硼替佐米筛选中靶向PSMB5的sgRNA的评价。相对于PSMB5蛋白的每个sgRNA的位置沿x轴表示。(B)缺失和点突变对应于每个氨基酸的倍数变化。(C)PSMB5的各个氨基酸的必需性得分。排名靠前的命中显示为深灰色，已知的关键氨基酸为三角形。(D)PSMB5的指定点突变对硼替佐米对细胞敏感性的影响的MTT存活力测定。(E)PSMB5的指定点突变对硼替佐米对细胞敏感性的影响。数据表示为平均值±s.d.，n＝6。

图10A-D.在BI2536杀伤中对PLK1所必需的关键氨基酸的CRESMAS鉴定。(A)在硼替佐米筛选中靶向PLK1的sgRNA的评价。相对于PLK1蛋白的每个sgRNA的位置沿x轴表示。(B)缺失和点突变对应于每个氨基酸的倍数变化。(C)PLK1的各个氨基酸的必需性得分。排名靠前的命中显示为深灰色，已知的关键氨基酸为三角形。(D)用于确定PLK1中指定点突变对BI2536细胞易感性的影响的MTT存活力测定。

图11.来自具有或不具有ssODN供体转染的合并细胞的PSMB5中氨基酸突变的测序色谱图。图中显示了突变的氨基酸。

图12.硼替佐米抗性细胞克隆的序列信息。sgRNA序列以下划线显示；具有阴影的核苷酸代表PAM序列；下面有圆点标识的字母和用方框标识的字母分别表示野生型和突变型氨基酸。

图13A-H.PSMB5和PLK1的排名靠前的命中的点突变模式。热图显示了PSMB5(A)和PLK1(B)排名靠前的命中的特定氨基酸的点突变多样性。条形图表示V90PSMB5(C)，A386PLK1(D)，M104PSMB5和C122PSMB5(E)，F183PLK1和R136PLK1(F)，A105PSMB5和A43PSMB5(G)的20个氨基酸取代的百分比。根据其侧链性质，将20个氨基酸分为不同柱条形式的4组(非极性，极性，酸性和碱性)。原始氨基酸以灰色阴影高亮显示。(H)A105PSMB5和A43PSMB5之间氨基酸分布的散点图。

发明详述

本文描述的方法和工具涉及系统地研究基因组区域以便鉴定可能对基因组编辑目的相关功能单元。因此，在一个方面，本发明提供了研究基因组区域的方法，所述方法包括产生深度扫描诱变文库和研究通过导入所述文库而修饰的细胞群体内的表型变化。

因此，本发明的一个方面包括深度扫描诱变文库，其可以包含多个CRISPR-Cas系统指导RNA，其可以包含能够在至少一个连续基因组区域内靶向基因组序列的指导序列。更具体地说，设想文库的指导RNA应靶向基因组区域内代表性数目的基因组序列。例如，指导RNA应该靶向设想的基因组区域内的至少50个，更特别是至少100个基因组序列。

靶向基因组区域的能力取决于PAM(原型间隔区邻接基序)的存在；即CRISPR复合体认可的短序列。PAM的精确序列和长度要求取决于将使用的CRISPR酶而不同，但PAM通常是与原型间隔区(即靶序列)相邻的2-5个碱基对序列。本领域已知的PAM序列，并且技术人员将能够鉴定用于给定CRISPR酶的PAM序列。在具体的实施方案中，可以选择PAM序列以特异于至少一种Cas蛋白。在可选的实施方案中，可以基于对至少一种Cas蛋白特异的多于一个PAM序列来选择指导序列RNA。

在具体的实施方案中，文库包含至少100个基因组序列，该基因组序列在基因组区域内每1000个碱基对包含PAM序列上游的非重叠切割位点。在具体的实施方案中，文库包含靶向连续基因组区域内每个PAM序列上游的基因组序列的指导RNA。

该文库包含靶向生物体目的基因组区域的指导性RNA。在本发明的一些实施方案中，生物体或受试者是真核生物(包括哺乳动物，包括人)或非人真核生物或非人动物或非人哺乳动物。在一些实施方案中，生物体或受试者是非人类动物，并且可以是节肢动物，例如昆虫，或者可以是线虫。在本发明的一些方法中，生物体或受试者是植物。在本发明的一些方法中，生物体或受试者是哺乳动物，例如人类或非人类哺乳动物。非人类哺乳动物可以是例如啮齿动物(优选小鼠或大鼠)，有蹄类动物或灵长类动物。在本发明的一些方法中，生物或受试者是藻类，包括微藻类，或者是真菌。

本文提供的方法和工具对于研究连续的基因组区域是特别有利的。这种连续的基因组区域可以包含直至整个基因组，但特别有利的是其中基因组的功能元件被研究的方法，其通常涵盖基因组的有限区域，例如基因组DNA的50-100kb的区域。特别目的是使用该方法用于编码基因组区域的研究。本领域技术人员可以理解，本发明的方法还可以用于通过在方案中进行适当改动来研究非编码基因组区域，例如目的基因的编码区域的5'和3'区域，并且与研究目的蛋白的情况下PCR扩增cDNA不同，其PCR扩增基因组上的目标区域。

CRISPR/Cas系统可用于本发明中以特异性靶向连续目的基因组区域内的多个序列。所述靶向通常包括将一个或多个载体的载体系统导入细胞群体的每个细胞中，所述载体系统包含工程化的，非天然存在的CRISPR-Cas系统，所述CRISPR-Cas系统包含：至少一种Cas蛋白和指导RNA。在这些方法中，Cas蛋白和指导RNA可以位于系统的相同或不同载体上，并且被整合到每个细胞中，由此每个指导序列靶向细胞群体每个细胞中连续基因组区域内的序列。Cas蛋白与调控元件可操作地连接以确保在所述细胞中的表达。更具体地说，所述调控元件为适合于在细胞群的细胞中表达的启动子。在具体的实施方案中，启动子是诱导型启动子，如多西环素诱导型启动子。当在细胞群体的细胞内转录时，包含指导序列的指导RNA指导CRISPR-Cas系统与连续基因组区域中的靶序列进行序列特异性结合。通常，CRISPR-Cas系统的结合诱导Cas蛋白对连续基因组区域的切割。

本申请提供了筛选与表型变化相关的功能元件的方法。表型的变化可以在包括DNA，RNA，蛋白质和/或细胞功能水平的一个或多个水平上检测到。表型的改变可以在细胞存活，生长，免疫反应，对化合物如毒素或药物的抗性中检测到。

筛选与表型改变相关的基因组位点的方法包括将如本文所设想的靶向目的基因组区域的指导RNA文库导入细胞群体。通常所述细胞经过改造含有Cas蛋白。然而，在特定的实施方案中，Cas蛋白也可以与指导RNA同时导入。在本文设想的方法中将文库导入细胞群体使得群体的每个细胞含有不超过一个指导RNA。此后，通常基于观察到的表型对细胞进行分选，并且基于它们是否引起细胞表型改变来鉴定与表型改变相关的基因组位点。通常，所述方法包括基于表型将细胞分选成至少两个组并且确定每个组中存在的指导RNA的相对表示(representation)，并且与表型变化相关的基因组位点通过每组中存在的指导RNA的表示来确定。

本申请同样提供了筛选与对化学化合物的抗性相关的基因组位点的方法，由此细胞与化合物接触并基于对所述化合物的表型反应筛选。更特别地，此类方法可以包括将本文中所设想的CRISPR/Cas系统指导RNA文库导入细胞群(其经改造含有Cas蛋白或同时导入Cas蛋白)，用所述化合物处理细胞群；并确定与早期时间点相比，较后的时间点用化合物处理后的指导RNA的表示。在这些方法中，与化合物抗性相关的基因组位点通过富集指导性RNA来确定。

在具体的实施方案中，所述方法可以进一步包括对包含基因组位点的区域的测序或全基因组测序。

本申请还涉及使用本发明的方法筛选与耐药性相关的功能元件的方法。

本文描述的其他实施方案涉及通过本文公开的方法鉴定的基因的一个或多个功能区的基因组破坏的治疗方法和工具。这里描述的这些和进一步的实施方式部分基于发现基因组区域或目的蛋白质中的功能区域。

在本申请中举例说明的具体方法中，为了使覆盖密度最大化，两种类型的前间区序列邻近基序(PAM)，NGG和NAG都被包含在sgRNA的设计中。

在使用癌症药物或毒素进行文库筛选后，提取基因组DNA用于sgRNA条码的常规PCR扩增，随后进行NGS分析。同时，进行了RNA逆转录靶向基因的PCR扩增，其长度约250bp的片段化PCR产物经受NGS。然后，我们过滤出野生型序列或含有框外插入片段或框内插入的序列，使得仅保留含有点突变或框内缺失的序列用于进一步分析。对于点突变，我们筛掉了同义或无义突变，只保留了含有错义突变的突变。在框内缺失的情况下，我们通过每个读段引起的缺失的氨基酸数目将突变类型进行分类，如果它们仅含有单氨基酸缺失则将其分为“驾驶员缺失”，如果它们含有多个氨基酸缺失则为“乘客缺失”。在对缺失模式进行解码后，计算缺失倍数变化。同样地，也计算了错义突变的倍数变化。接下来，我们通过在目标基因上应用滑动的窗口来获取过滤的读段的所有信息，以计算错义突变、驾驶员缺失和乘客缺失的倍数变化的加权平均值。然后，我们通过排列推断加权平均值的显著水平，并获得每个氨基酸的必需性得分。该得分计数了框内缺失和点突变情形，并量化了每个氨基酸的必需性，使得我们可以根据其功能重要性对氨基酸进行排名。同时，我们尝试通过计算每个氨基酸的错义突变的百分比来获得氨基酸取代模式。这种简化的工作流程和生物信息学流程旨在使我们能够在其天然生物学环境中鉴定蛋白质的关键功能元素。

本发明将参考具体实施方案并参考一些附图来加以描述，但本发明不限于此，而是仅通过权利要求限定。权利要求中的任何附图标记不应被解释为对范围的限制。所描述的附图仅是示意性的并且是非限制性的。在附图中，出于说明的目的，一些元件的尺寸可以是夸大的并且不按比例绘制。当在本说明书和权利要求书中使用术语“包含”时，其不排除其他元件或步骤。当提及单数名词时使用不定冠词或定冠词“一个(a)”或“一种(an)”，“所述(the)”，其包括该名词的复数，除非另有明确说明。

除非另有说明，否则本发明的实践采用了本领域技术范围内的免疫学，生物化学，化学，分子生物学，微生物学，细胞生物学，基因组学和重组DNA的常规技术。参见Sambrook，Fritsch和Maniatis，MOLECULAR CLONING：A LABORATORY MANUAL，第2版(1989)；分子生物学中的电流方案(F.M.Ausubel等编，(1987))；METHODS IN ENZYMOLOGY系列方法(AcademicPress，Inc。)：PGR 2：A PRACTICAL APPROACH(M.J.MacPherson，B.D.Hames和G.R.Taylor编辑(1995))，Harlow和Lane编辑。(1988)ANTIBODIES，A LABORATORY MANUAL，and ANIMALCELL CULTURE(R.LFreshney，ed。(1987))。

提供以下术语或定义仅用于帮助理解本发明。除非另有说明，本发明的实践采用了免疫学，生物化学，化学，分子生物学，微生物学，细胞生物学，基因组学和重组DNA的常规技术，其在本领域技术范围内。参见Sambrook,Fritsch和Maniatis,MOLECULAR CLONING:ALABORATORY MANUAL,第二版(1989)；CURRENT PROTOCOLS IN MOLECULAR BIOLOGY(F.M.Ausubel,等编,(1987))；METHODS IN ENZYMOLOGY系列(Academic Press,Inc.):PGR2:A PRACTICAL APPROACH(M.J.MacPherson,B.D.Hames和G.R.Taylor编(1995)),Harlow和Lane编(1988)ANTIBODIES,A LABORATORY MANUAL,及ANIMAL CELL CULTURE(R.L Freshney编(1987))。

在遗传学中，“无义突变”是DNA序列中的点突变，其导致过早的终止密码子，或转录的mRNA中的无义密码子，以及截短的，不完全的，通常是非功能的蛋白质产物。无义突变的功能效应取决于编码DNA中终止密码子的位置。例如，无义突变的作用取决于无义突变与原始终止密码子的接近程度，以及蛋白质的功能性亚结构域所受影响的程度。无义突变与“错义突变”不同，“错义突变”是单个核苷酸改变以引起不同氨基酸取代的点突变。

“同义取代或突变”是编码蛋白质的基因的外显子中的一个碱基进化取代为另一个碱基，使得所产生的氨基酸序列是未修饰的。这是可能的，因为遗传密码是“简并”的，这意味着一些氨基酸是由多于一个的三碱基对密码子编码的；由于给定氨基酸的一些密码子与编码同一氨基酸的其他密码子仅有一个碱基对不同，所以用其中一个替代物替代“正常”碱基的突变将导致在基因翻译时将相同的氨基酸掺入到延伸中的多肽链中。

蛋白质既包含可有可无的区域也包含不可缺少的区域，不可缺少的区域的突变将消除其功能。在其相应的DNA编码序列上，任何导致阅读框移位的突变都有很高的破坏基因表达因此破坏其功能的机会，无论突变发生在关键或非关键位点。在癌症药物或细菌毒素的蛋白质靶标的情况下，框内缺失或点突变(除了无义突变)当这种突变发生在非关键位点时不产生抗性表型。对于非必需基因，每个等位基因的破坏是实现“功能丧失表型”的必要条件。这些隐性突变类型可能是以下之一：移码插入或缺失，框内缺失或影响关键位点的错义点突变。对于必需基因，唯一的药物耐药情景是在框内缺失或错义突变影响药物靶向的关键位点，而不改变蛋白质的表达和其对细胞活力的重要作用。这些突变是显性的，因此一个等位基因中的适当突变足以实现“功能获得表型”。

在野生型二倍体细胞中，有两个基因的野生型等位基因，均产生正常的基因产物。在杂合子(测试显性或隐性的关键基因型)中，单个野生型等位基因可能能够提供足够的正常基因产物以产生野生型表型。在这种情况下，“功能丧失突变”是隐性的。在一些情况下，细胞能够“上调”单个野生型等位基因的活性水平，从而在杂合子中野生型基因产物的总量超过纯合野生型中的一半。然而，突变事件赋予该基因一些新的功能。在杂合子中，新功能将被表达，因此“功能获得性突变”很可能会像显性等位基因一样起作用并产生某种新的表型。

“饱和诱变”是一种随机诱变技术，其中将单个密码子或密码子组随机化以在该位置产生所有可能的氨基酸。

“密码子”是一组三个核苷酸，是编码某种氨基酸的三联体。第一个密码子确立了阅读框，从而开始新的密码子。蛋白质的氨基酸主链序列由连续的三联体定义。密码子是用于蛋白质合成的遗传信息翻译的关键。当翻译mRNA开始时设置“阅读框”，并且在一个接一个读取三联体时保持“阅读框”。遗传密码的读段受到mRNA中监测密码子三条规则的约束。首先，密码子以5'到3'的方向读取。第二，密码子是不重叠的，且信息没有空位。如上所述，最后一条规则是将信息在固定的“阅读框”中进行翻译。

“移码突变”也称为框架错误或读框移位，是由DNA序列中的不能被3整除的数目的核苷酸的indel(插入或缺失)引起的遗传突变。由于密码子基因表达的三联体性质，插入或缺失能改变阅读框，导致与原本完全不同的翻译。移码突变通常会导致突变后将密码子读取为编码不同的氨基酸。移码突变还会改变序列中遇到的第一个终止密码子(“UAA”，“UGA”或“UAG”)。所产生的多肽可能异常短或异常长，并且很可能没有功能。

“框外插入或缺失(Out-of-frame indel)”是指引起遗传密码的读取出“阅读框”的插入/缺失(indel)，而“框内缺失”是指DNA序列中可被3整除的数目的核苷酸的缺失，因此该缺失不改变阅读框。

本文的“CRISPR系统”总体是指参与CRISPR相关(“Cas”)基因的表达或指导其活性的转录物和其他元件，包括编码Cas基因的序列，tracr(反式激活CRISPR)序列(例如tracrRNA或活性部分tracrRNA)，tracr伴侣(tracr-mate)序列(包括在内源CRISPR系统的上下文中的“同向重复(direct repeat)”和tracrRNA加工的部分同向重复)，指导序列(在内源性CRISPR系统的上下文中也称为“间隔序列(spacer)”)，或来自CRISPR基因座的其他序列和转录物。在一些实施方案中，CRISPR系统的一个或多个元件来自I型，II型或III型CRISPR系统。

在表达载体内，“可操作地连接”旨在表示目的核苷酸序列以允许核苷酸序列表达的方式(例如，在体外转录/翻译系统中或者当载体被导入到目标细胞时在目标细胞中)与调节序列连接。

在形成CRISPR复合物的上下文中，“靶序列”是表示指导序列被设计为与其具有互补性的序列，其中靶序列和指导序列之间的杂交促进形成CRISPR复合物。完全互补不是必需的，只要有足够引起杂交并促进CRISPR复合物的形成的互补性即可。

通常，在内源性CRISPR系统的情况下，形成CRISPR复合物(包含与靶序列杂交并与一个或多个Cas蛋白复合的指导序列)导致靶序列之中或附近(例如相距1个，2个，3个，4个，5个，6个，7个，8个，9个，10个，20个，50个或更多个碱基对)的一条或两条链的切割。不希望受理论束缚，tracr序列可以包含野生型tracr序列的全部或部分(例如野生型tracr序列的约或大于约20，26，32，45，48，54，63，67，85个或更多个核苷酸)或由其构成，该tracr序列也可以形成CRISPR复合物的一部分，例如通过沿tracr序列的至少一部分与tracr伴侣(tracrmate)序列的全部或一部分杂交，所述tracr伴侣序列可操作地连接至指导序列。

在一些实施方案中，tracr序列与tracr伴侣序列具有充分的互补性，以杂交并参与CRISPR复合物的形成。与目标序列一样，认为不需要完全的互补性，只要足够实现功能即可。在一些实施方案中，当最佳比对时，tracr序列与tracr伴侣序列具有至少50％，60％，70％，80％，90％，95％或99％的序列互补性。

在一些实施方案中，将驱动CRISPR系统的一个或多个元件的表达的一个或多个载体导入宿主细胞，使得CRISPR系统的元件的表达在一个或多个靶位点上指导CRISPR复合物的形成。在另一个实施方案中，宿主细胞被设计用于稳定表达Cas9和/或OCT1。

通常，指导序列是与目标多核苷酸序列具有足够互补性的任何多核苷酸序列，其互补性足以与靶序列杂交并指导CRISPR复合物与靶序列的序列特异性结合。在一些实施方案中，当使用合适的比对算法进行最佳比对时，指导序列与其相应目标序列之间的互补程度约为或大于约50％,60％,70％,75％,80％,85％,90％,91％,92％,93％,94％,95％,96％,97％,98％,99％或更高。可以使用用于比对序列的任何合适的算法来确定最佳比对，其非限制性实例包括Smith-Waterman算法，Needleman-Wimsch算法，基于Burrows-Wheeler转换的算法(例如Burrows Wheeler Aligner)，ClustalW,Clustai X,BLAT,Novoalign(Novocraft Technologies,ELAND(I fumma,San Diego,CA)，SOAP(可在soap.genomics.org.cn获得)和Maq(可从maq.sourceforge.net获得)。在一些实施方案中，指导序列的长度是约或大于约5，10，11，12，13，14，15，16，17，18，19，20，21，22，23，24，25，26，27，28，29，30，35，40，45，50，75个或更多个核苷酸。在一些实施方案中，指导序列的长度小于约75，50，45，40，35，30，25，20，15，12,11,10个或更少的核苷酸。指导序列指导CR1SPR复合物与靶序列的序列特异性结合的能力可以通过任何合适的测定来评估，例如，可以将足以形成CRISPR复合物的CRISPR系统组分(包括待测试的指导序列)提供给具有相应靶序列的宿主细胞，例如通过如下进行：用编码CRISPR序列的组分的载体转染，然后在靶序列内进行优先切割的评估，例如通过本文所述的Surveyor测定进行。同样地，靶多核苷酸序列的切割可以通过如下在试管中评估：提供靶序列，CRISPR复合物的组分，包括待测试的指导序列和与测试指导序列不同的对照指导序列，并且比较结合或是比较测试和对照指导序列反应之间靶序列切割速率。其它测定也是可以的，并且是本领域技术人员会想到的。

在一些实施方案中，CRISPR酶是包含一个或多个异源蛋白结构域的融合蛋白的一部分(例如除了CRISPR酶之外还有约或大于约1,2,3,4,5,6,7,8,9,10或更多个结构域)。CRISPR酶融合蛋白可以包含任何额外的蛋白序列，以及任选的两个结构域之间的接头序列。可以融合到CRISPR酶的蛋白质结构域的实例包括但不限于表位标签，报告基因序列和具有一个或多个如下活性的蛋白结构域：甲基化酶活性，脱甲基酶活性，转录激活活性，转录抑制活性，转录释放因子活性，历史(historic)修饰活性，RNA切割活性和核酸结合活性。

在一些方面，本发明提供了将一种或多种多核苷酸(例如本文所述的一种或多种载体，一种或多种转录物，和/或从其转录的一种或多种蛋白质)递送至宿主细胞的方法。本发明是用于实现基于DNA的基因组的靶向修饰的基本平台。它可以与许多递送系统相对接，所述递送系统包括但不限于病毒，脂质体，电穿孔，显微注射和缀合。在一些方面，本发明进一步提供了由这些方法生产的细胞，以及包含或由此类细胞产生的生物体(如动物，植物或真菌)。在一些实施方案中，将CRISPR酶与指导序列组合(并且可选地与指导序列复合)递送至细胞。常规的基于病毒和非病毒的基因转移方法可用于将核酸导入哺乳动物细胞或靶组织中。这样的方法可用于将编码CRISPR系统的组分的核酸施用于培养物或宿主生物体中的细胞。非病毒载体递送系统包括DNA质粒，RNA(例如本文所述载体的转录物)，裸核酸和与递送载体如脂质体复合的核酸。病毒载体递送系统包括DNA和RNA病毒，其具有向细胞递送的附加型(episomal)或整合的基因组。

由于设计gRNA的相对容易和Cas9实际上修饰任何遗传基因座的能力，CRISPR/Cas9在本发明中用于筛选实验。在筛选实验中，CRISPR合并文库或CRISPR文库由数千个质粒组成，每个质粒都含有一个朝向不同目标序列的gRNA，跨越目的蛋白的全长。具体而言，为了实现目的蛋白质的饱和诱变，sgRNA被设计为包含两种类型的原型间隔子相邻基序(PAM)，NGG和NAG，并且每个sgRNA被设计成影响DSB位点周围的10-bp，以最大化覆盖密度。CRISPR筛选实验可以是正向遗传筛选，其中期望的表型是已知的，但蛋白质的关键氨基酸不是。通常，基于CRISPR的筛选通过使用慢病毒将“合并的”gRNA文库递送至哺乳动物表达Cas9的细胞系来进行。在用gRNA文库转导之后，针对目的表型(例如存活，药物或毒素抗性，生长和增殖)筛选突变细胞以鉴定对蛋白质功能和期望表型至关重要的氨基酸。

汇集的慢病毒gRNA文库是慢病毒转移载体的异源混合物，每种载体编码针对特定序列的单个gRNA，文库中存在靶向每个序列的几种gRNA。

使用合并的慢病毒CRISPR文库执行筛选是一个多步骤过程，包括文库扩增、细胞转导、基因筛选和数据分析。简而言之，扩增含有gRNA的质粒的初始存量以增加DNA的总量，然后使用扩增的文库产生含有单独的gRNA或gRNA+Cas9的慢病毒。对于单载体文库，通过用含有单个gRNA和Cas9的慢病毒转导野生型细胞一步产生突变细胞。在大多数情况下，对于多载体文库，用gRNA文库转导表达Cas的细胞。在这两种情况下，选择转导的细胞以富集含有gRNA和Cas9的那些细胞，并筛选所得的突变细胞群体的特定表型。对来自最终群体的基因组DNA进行下一代测序(NGS)以鉴定在筛选期间富集或消耗的gRNA。最后设计生物信息学流程对所获得的数据进行分析。

文库扩增

通常将汇集的慢病毒CRISPR gRNA文库作为DNA等分试样递送，并且在大多数情况下，DNA的量不足以用于实验。在这种情况下，第一步是“扩增”文库，意思是增加质粒DNA的量，同时保持每个单个gRNA质粒在总群体中的相对比例。通过将文库DNA转化成细菌并在细菌中生长一段时间后收获质粒DNA来进行扩增。对于大多数文库，由于使用电穿孔提高了转化效率，所以使用电穿孔而不是化学转化。在大多数情况下，转化的细菌生长在含有适当抗生素的LB琼脂平板上，因为平板上的生长有助于保持文库的表示(representation)并降低扩增期间快速生长的质粒富集的可能性。通过进行稀释平板分析可以获得转化和扩增的gRNA质粒数量的估计值。为此，将转化样品稀释并铺在含有抗生素的LB平板上，并将平板上生长的菌落数量用作扩增文库中存在的gRNA质粒总数的间接量度。这个分析作为一个重要的控制手段，在将其用于功能筛选之前知道最终放大库中的内容。

细胞转导

一旦文库被扩增并且代表性得到证实，下一步就是生成含有汇集的gRNA文库的慢病毒。通常，用CRISPR文库和合适的包装和包膜载体(例如，来自Didier Trono's实验室的psPAX2；Addgene，质粒#12260，pMD2.G；来自DidierTrono实验室的Addgene，质粒#12259，pVSVG和pR8.74)转染HEK293T细胞。或者，慢病毒包装细胞类型可以单独用gRNA文库转染。大多数方案建议在转染后>48小时收集培养基，但是可能需要一些优化，因为最大病毒滴度将根据具体文库有所变化。

转导步骤的目标是产生稳定共表达Cas9和单个gRNA的突变细胞群。包含gRNA和Cas9的单载体文库比多载体系统更容易使用，因为突变细胞可以在一个步骤中直接从野生型细胞直接产生。之后，在慢病毒转导后进行选择以分离对Cas9和gRNA阳性的细胞群体。如果使用抗生素选择，应该使用杀死曲线来确定最佳抗生素浓度，以仅选择那些含有Cas9和gRNA的细胞。

理论上，任何细胞类型都可用于筛选，但细胞的最终种群数量必须足以在筛选前保持文库的代表性。筛选所需的细胞的确切数量取决于所讨论的特定文库。了解这一点的最简单方法是从最终的突变细胞群向后工作，并确定筛选开始时所需细胞的确切数量。举个例子，假设10,000个gRNA的文库将以100×的代表使用。使用该文库进行筛选所需的细胞的最低限度为10,000个gRNAs×100个细胞/gRNA＝10⁶个细胞(不包括用于筛选的对照条件)。最终群体中的每个细胞必须仅包含一个gRNA，因为将多个gRNA递送到单个细胞可能导致多个遗传改变，使得不清楚哪个突变实际上导致观察到的表型。因此，大多数方案建议以<1的感染复数(MOI)(即，每个细胞少于一个病毒颗粒)用慢病毒gRNA文库转导细胞。

基因筛选

基因筛选可以广义地定义为阳性(其揭示在筛选期间富集的gRNA)或阴性(其揭示筛选期间耗尽的gRNA)。CRISPR文库可用于阳性选择药物筛选以寻找突变时赋予对化学治疗药物抗性的基因。在阳性选择药物筛选中，确定杀死所有野生型细胞(杀伤曲线)的最佳浓度可能是重要的，以便处理突变细胞群体选择性地富集基因修饰促进耐药性的细胞。此外，将基因组DNA中的最终gRNA计数与平行运行的对照条件(如载体对照)进行比较以控制gRNA分布的药物非依赖性变化，例如，控制给定gRNA在不存在药物时对细胞生长的作用或载体本身对细胞生长的作用。另一方面，阴性筛选用于鉴定在筛选过程中从群体中退出的gRNA，表明它们相对于其它群体处于选择性劣势。负选择筛选的简单例子是允许突变细胞生长一段确定的时间，然后比较稍后时间点与初始时间点的gRNA分布。

数据分析

任何成功筛选的最终结果是收获这样的突变细胞群体，在这些细胞群体中，其靶序列或元件对观察到的表型是必需的gRNA被富集(正选择)或消耗(负选择)。因此，数据分析步骤的目标是确定实验组中已经耗尽或富集的gRNA和序列或元件。由于最终的细胞群体可能含有数千种不同的gRNA，因此对基因组序列的分析需要使用新一代测序(next-generation sequencing，NGS)。每个单独的gRNA质粒含有条形码，该条形码将该gRNA与存在于基因组DNA中的所有其它gRNA区分开来。因此，分析来自CRISPR筛选数据的第一步是使用PCR扩增相对于基因组DNA的gRNA，并进行NGS以鉴定最终突变细胞群中存在哪些gRNA。NGS的最终结果是所有条形码的原始数据，从中可以推断出gRNA序列和靶基因。

确定序列或元件是否为“命中”的一种方式是定性比较给定样品中靶向该序列或元件的富集或耗尽的gRNA的数量。正如在前面的章节中指出的那样，文库通常包含每个基因的多个不同的gRNA，并且针对特定基因的多个gRNA的一致富集或消耗是有力的证据，表明特定的序列对观察到的表型是重要的。有几个gRNA也可作为脱靶效应的内部对照，因为朝向相同靶标的两种不同gRNA不可能具有相同的脱靶效应。然而，设定任意阈值来定义命中(例如，六个gRNA中的两个被认为是“命中”)可能是潜在的偏倚来源或导致假阳性或阴性结果。为了避免这种情况，还可以使用各种统计分析来以无偏差的方式确定命中。由于每个筛选会有所不同，因此了解哪种统计方法最适合特定筛选非常重要。

在本发明的数据分析过程中，过滤掉针对野生型序列或含有框外插入或框内插入的序列的数据，以便只有含有点突变或框内缺失的序列保留作进一步分析。对于点突变，筛选出同义或无义突变，并保留仅包含错义突变的突变。对于框内缺失，突变需要根据每次读段引起的氨基酸缺失数量进行分类，如果它们仅包含单个氨基酸缺失，则定义为“驾驶员缺失”这一类；如果它们包含多个氨基酸缺失，则定义为“乘客缺失”这一类。

对于含有错义突变的片段计算每个氨基酸的突变比率如下：

对于含有框内缺失的片段计算每个氨基酸的缺失率如下：

计算每种氨基酸的必需性得分如下：

对于突变倍数变化，基于所有倍数变化构建无效分布，并且针对每个氨基酸计算得分_变化＝-log10(P值)；

缺失倍数变化＝驾驶员倍数变化+α*乘客倍数变化，然后通过排列100次构建空分布，并且针对每个氨基酸计算得分_缺失＝-log10(P值)；

将得分_变化和得分_缺失归一化如下：

计算得分_变化和得分_缺失的权重如下：

a＝缺失倍数变化＞1的氨基酸数

b＝突变倍数变化＞1的氨基酸数

计算必需性得分如下：

必需性得分＝GHIJIKLM*得分_GHIJIKLM+STUTIKLM*得分_STUTIKLM。

最后，根据必需性得分将氨基酸基于它们的功能重要性进行排排序。

实施例

材料与方法

细胞与试剂

将稳定表达Cas9的HeLa细胞和HEK293T细胞于5％CO₂在37℃培养于含有10％胎牛血清(FBS,CellMax)的Dulbecco’s改良的Eagle’s培养基(DMEM,Corning)中。

质粒构建

通过用人U6启动子，ccdB盒和sgRNA支架替代pLL3.7(Addgene)中的U6启动子来克隆sgRNA载体(pLenti-sgRNA-GFP)。之前报道了Cas9表达载体(pLenti-OC-IRES-BSD)¹。通过用人HBEGF编码序列和3×FLAG替代pHR-SFFVKRAB-dCas9-P2A-mCherry(Addgene)的KRAB-dCas9元件来克隆pcDNA-HBEGF。通过PCR定点突变(PfuUltraII融合HS DNA聚合酶，STRATAGENE)构建表达具有单个氨基酸缺失的HBEGF的cDNA的载体。用于产生HBEGF的不同缺失突变体的引物列举如下。

HBEGF-29-F 5’-GACCGGAAAGTCCGTTTGCAAGAGGCAG-3’

(SEQ ID NO:1)

HBEGF-29-R 5’-CTAGCCCTCTCCGCCGCTCCAGGCTC-3’

(SEQ ID NO:2)

HBEGF-63-F 5’-GACCGGAAAGTCCGTTTGCAAGAGGCAG-3’

(SEQ ID NO:1)

HBEGF-63-R 5’-CTGCCTCTTGCAAACGGACTTTCCGGTC-3’

(SEQ ID NO:3)

HBEGF-70-F 5’-GCAAGAGGCAGATCTGCTTTTGAGAGTC-3’

(SEQ ID NO:3)

HBEGF-70-R 5’-GACTCTCAAAAGCAGATCTGCCTCTTGC-3’

(SEQ ID NO:5)

HBEGF-115-F 5’-CGGAAATACAAGGACTGCATCCATGGAG-3’

(SEQ ID NO:6)

HBEGF-115-R 5’-CTCCATGGATGCAGTCCTTGTATTTCCG-3’

(SEQ ID NO:7)

HBEGF-119-F 5’-GGACTTCTGCATCCATGAATGCAAATATGTG-3’

(SEQ ID NO:8)

HBEGF-119-R 5’-CACATATTTGCATTCATGGATGCAGAAGTCC-3’

(SEQ ID NO:9)

HBEGF-125-F 5’-GAATGCAAATATGTGGAGCTCCGGGCTCC-3’

(SEQ ID NO:10)

HBEGF-125-R 5’-GGAGCCCGGAGCTCCACATATTTGCATTC-3’

(SEQ ID NO:11)

HBEGF-127-F 5’-ATGTGAAGGAGCGGGCTCCCTCCTGC-3’

(SEQ ID NO:12)

HBEGF-127-R 5’-GCAGGAGGGAGCCCGCTCCTTCACAT-3’

(SEQ ID NO:13)

HEBGF-133-F 5’-GCTCCCTCCTGCTGCCACCCGGGTTAC-3’

(SEQ ID NO:14)

HBEGF-133-R 5’-GTAACCCGGGTGGCAGCAGGAGGGAGC-3’

(SEQ ID NO:15)

HEBGF-134-F 5’-CCCTCCTGCATCCACCCGGGTTACC-3’

(SEQ ID NO:16)

HBEGF-134-R 5’-GGTAACCCGGGTGGATGCAGGAGGG-3’

(SEQ ID NO:17)

HEBGF-138-F 5’-CTGCCACCCGGGTCATGGAGAGAGGTGTC-3’

(SEQ ID NO:18)

HBEGF-138-R 5’-GACACCTCTCTCCATGACCCGGGTGGCAG-3’

(SEQ ID NO:19)

HEBGF-141-F 5’-CCGGGTTACCATGGAAGGTGTCATGGGC-3’

(SEQ ID NO:20)

HBEGF-141-R 5’-GCCCATGACACCTTCCATGGTAACCCGG-3’

(SEQ ID NO:21)

HEBGF-152-F 5’-GCCTCCCAGTGGAACGCTTATATACCTATG-3’

(SEQ ID NO:22)

HBEGF-152-R 5’-CATAGGTATATAAGCGTTCCACTGGGAGGC-3’

(SEQ ID NO:23)

HEBGF-153-F 5’-CCTCCCAGTGGAAAATTTATATACCTATGACC-3’

(SEQ ID NO:24)

HBEGF-153-R 5’-GGTCATAGGTATATAAATTTTCCACTGGGAGG-3

(SEQ ID NO:25)

sgRNA文库设计

从UCSC基因组浏览器(https://genome.ucsc.edu/)下载目标基因的hg19 CDS序列，并使用自制的脚本设计所有具有NAG或NGG PAM序列的潜在sgRNA来构建文库。

CRISPR/Cas9 sgRNA文库的构建

构建了两个文库，分别包含靶向三种药物相关蛋白和三种毒素受体的1,236和3,712个sgRNA。通过PCR合成基于阵列的寡核苷酸编码sgRNA，并使用包含5'端的BsmBI识别位点的相应引物进行扩增。用于PCR扩增编码sgRNA的基于阵列的寡核苷酸的那些引物列举如下。

药物文库F 5’-TTGTGGAAAGGACGAAACCG-3’(SEQ ID NO:26)

药物文库R 5’-TGCTGTCTCTAGCTCTACGT-3’(SEQ ID NO:27)

毒素文库F 5’-TCTTCATATCGTATCGTGCG-3’(SEQ ID NO:28)

毒素文库R 5’-TAGTCGCTAGGCTATAACGT-3’(SEQ ID NO:29)

使用金门(Golden Gate)法将扩增的DNA产物连接到载体中。然后将连接混合物转化到Trans1-T1感受态细胞(Transgen)中以产生质粒文库。随后，使用X-tremeGENE HP DNA转染试剂(Roche)将sgRNA质粒文库与两种病毒包装质粒pVSVG和pR8.74(Addgene)一起转染到HEK293T细胞中。然后用低MOI(～0.3)的慢病毒感染HeLa细胞，通过FACS在感染后48小时收集EGFP⁺细胞。

文库筛选

对于BI2536和硼替佐米筛选，每个实验重复由两个150mm的培养皿组成，每个具有3.5×10⁶个细胞。接种后24小时用适当浓度的药物处理细胞。对于第一轮筛选，将文库细胞用4ng/ml的BI2536培养1.5天或以4ng/ml的硼替佐米培养3天，然后在新鲜的DMEM中培养。将抗性细胞再次接种并培养5-10天，用于随后的一轮药物筛选。对于第二轮筛选，将文库细胞与5ng/ml的BI2536温育4天，或以8ng/ml的硼替佐米温育5天。对于第三轮筛选，将文库细胞与6ng/ml的BI2536温育3天。对于6-TG筛选，将总共1.8×10⁷个文库细胞以每板3×10⁶个细胞每平板接种到150mm培养皿上。三个细胞板作为一个重复分在一组。细胞用250ng/ml的6-TG处理6天，并将存活的细胞再次接种用于生长并进行下一轮筛选。对于第二和第三轮，将文库细胞与分别与250ng/ml和300ng/ml的6-TG温育4天。对于TcdB筛选，四个150mm的培养皿各作为一个实验重复的方式平板接种3.5×10⁶个细胞。对于每轮筛选，细胞以适当的浓度处理：第一轮为70ng/ml，第二轮和第三轮为100ng/ml。HBEGF和ANTXR1筛选的细节与我们之前的报告所述相同⁽¹⁾。

收集每个筛选的抗性细胞用于基因组DNA和总RNA提取，随后进行逆转录。然后将通过PCR扩增获得的靶基因的sgRNA编码区和cDNA进行下一代测序(NGS)分析。

鉴定候选sgRNA序列

使用DNeasy Blood和Tissue试剂盒(Qiagen)从合适数量的文库细胞中提取基因组DNA。不同药物/毒素处理的文库细胞数量不同：ANTXR1为6.25×10⁵，CSPG4为3×10⁶，HBEGF为2.5×10⁵，HPRT1为1.75×10⁵，PLK1为6.3×10⁵，PSMB5为3×10⁵。通过使用引物¹对sgRNA的侧翼序列退火的26个循环的PCR扩增sgRNA区域。将每个重复的PCR产物合并并用DNA Clean&Concentrator-5(Zymo Research Corporation)纯化，用不同条码(NEB#7370,#7335,#7500)建立索引，并通过NGS分析。

cDNA制备和测序

使用RNAprep纯细胞/细菌试剂盒(TIANGEN)从文库细胞中提取总RNA，并使用Quantscript RT试剂盒(TIANGEN)合成cDNA。采用两步法构建NGS文库。第一步包括PCR扩增cDNA(26个循环；PrimeSTAR HS DNA聚合酶，Takara)。用于不同基因的引物列于表1中。

表1

CSPG4的编码序列长度约为6.9kb，采用三个扩增反应来获得包含其全长的重叠片段(～50bp)。将每个cDNA片段的PCR产物合并并纯化(DNA Clean&Concentrator-5，ZymoResearch Corporation)。然后，使用Covaris S2系统将1μg的每个基因的cDNA剪切至约250bp。使用DNA Clean&Concentrator-5试剂盒(Zymo Research Corporation)纯化并浓缩得到的剪切产物，并用不同条码(NEB#7370，#7335，#7500)建立索引以供NGS分析。

识别功能域的计算方法

使用Bowtie2 2.3.2将测序读段映射到靶基因的参考序列，并使用SAMtools1.3.1进行分选。接下来，我们对读段进行过滤，以保留那些仅携带错义突变或框内缺失的读段。对于含有错义突变的片段，我们如下所示计算出每个氨基酸的突变率：

对于包含框内缺失的片段，我们如下所示计算出每个氨基酸的缺失比例：

然后，我们根据它们产生的氨基酸缺失数量对突变类型进行分类，如果它们仅含有单个氨基酸缺失，则将它们分类为“驾驶员缺失(driver deletions)”，如果它们含有多个氨基酸缺失，则为“乘客缺失(passenger deletions)”。在确定突变/缺失比率并解码缺失模式后，计算实验组和对照组之间的倍数变化。

接下来，计算每个氨基酸的必需性得分如下：对于突变倍数变化，基于所有倍数变化构建零分布，并且计算每个氨基酸的得分_突变＝-log10(P值)。对于缺失倍数变化，我们首先应用可调参数α来加权驾驶员突变和乘客突变如下：

缺失倍数变化＝驾驶员倍数变化+α*乘客倍数变化。

随后，通过排列100次构建零分布(null distribution)，并对每个氨基酸进行计算得分_缺失＝-log10(P值)。接下来，得分_突变和得分_缺失按照如下标准化：

然后，我们如下计算得分_突变和得分_缺失的权重：

a＝具有缺失倍数变化的氨基酸的数目>1

b＝具有突变倍数变化的氨基酸的数目>1

最后，必需性得分计算如下：

必需性得分＝GHIJIKLM*得分_GHIJIKLM+STUTIKLM*得分_STUTIKLM

验证筛选结果

为了验证PSMB5和PLK1的关键突变，在突变位点附近设计了sgRNA，每个119ntssODN供体编码一个氨基酸取代一个经过验证的残基。所有sgRNA和ssODN供体序列列于下表2中。

表2

在6孔板中用1μg的sgRNA和2μg的ssODN供体转染HeLa细胞。转染后14天，在药物选择前24小时将1.5×10⁵个细胞接种在6孔板中。用合适剂量的药物处理细胞72小时：硼替佐米(8ng/ml)；BI2536(10ng/ml)。使用TIANamp基因组DNA试剂盒(TIANGEN)提取药物抗性细胞的基因组。

使用TransTaq DNA聚合酶高保真(Transgen)扩增突变的位点，并使用通用DNA纯化试剂盒(TIANGEN)进行纯化。引物列于表3。

表3

将PCR片段克隆到pEASY-T5 Zero克隆试剂盒(Transgen)中用于测序。

细胞毒性检测

在药物或毒素处理前24小时将细胞接种在96孔板中(5,000个细胞用于白喉毒素(DT)和3000个细胞用于硼替佐米)，并加入不同浓度的硼替佐米或DT。将细胞在37℃温育48小时(DT)或72小时(硼替佐米)，然后加入1mg/ml的MTT(3-[4,5-二甲基噻唑-2-基]-2,5-二苯基四唑溴化物)。使用BioTek Cytation5(BioTek Instruments)收集570nm处的分光光度计读数。

结果

为了测试蛋白映射功能元件中的CRESMAS方法，我们选择了编码细菌毒素受体的三个基因(ANTXR1，CSPG4和HBEGF)和编码癌症药物靶标(HPRT1，PLK1和PSMB5)的三个基因(表4)。

表4

我们选择HeLa细胞构建了用于筛选的CRISPR文库，因为我们已经确定了这个细胞系中毒素^(8,11)和药物的适当杀伤条件，例如靶向HPRT1⁽¹²⁾的6-TG(硫鸟嘌呤)，靶向PLK1⁽¹³⁾的BI2536和靶向PSMB5⁽¹⁴⁾的硼替佐米(图2A)。

对于靶向基因，将sgRNA在芯片上(insilico)设计，并在芯片上合成，构建一个覆盖三个受体编码基因全长的饱和CRISPR文库，以及另一个覆盖三个药物靶标的文库(图2B)。

除了没有处理的对照筛选之外，我们对六种处理中的每一种进行了两次重复功能筛选。假设每个sgRNA会影响DSB位点周围的10-bp⁽¹⁵⁾(图2C)，6个基因的sgRNA覆盖率约为0.99。经过三轮毒素(PA/LFnDTA毒素，白喉毒素或艰难梭菌毒素B)或药物(6-TG，BI2536或硼替佐米)处理后，收获抗性细胞，并提取基因组DNA用于通过NGS分析进行常规sgRNA解密^(8,16)。

同时，将这些收获的抗性细胞进行总RNA分离和逆转录以获得cDNA，随后将其用作PCR扩增的模板。通过使用特异性引物扩增获得靶基因的全长cDNA。对于大尺寸基因，例如CSPG4，使用三对引物扩增三个重叠的片段以覆盖其全长。对于具有选择性剪接的基因，设计了特异性引物对以确保所有替代转录物被包括(图2D和表1)。由于NGS的大小要求，PCR片段进一步分成平均250-bp的小尺寸(图2E)。经过所有实验程序，我们建立了一个计算流程来分析测序数据，以确定靶基因功能必不可少的氨基酸。

所有6个靶标的对照文库的突变百分比均在低水平，筛选后显著增加，特别是CRISPR文库产生的插入或缺失。所有对照组中相对较高的点突变率可能是由于PCR扩增和NGS中产生的错误。然而，在所有六次筛选之后，点突变的读段增加，表明某些点突变确实有助于抗性表型(图3A)。然后我们通过两次重复之间的sgRNA倍数变化和缺失突变率和点突变率的相关性来评估筛选的质量，发现sgRNA倍数变化的相关系数范围为0.36至0.85(图3B)，缺失为0.45至0.99(图4A)，点突变为0.61至0.99(图4)，表明我们的方法的高度一致性。因为所有三种毒素受体对于细胞存活都是非必需的，因此筛选后的sgRNA在其编码序列上均匀分布(图3A，图5A和图6A)，表明它们中大多数能够产生移码性插入或缺失，导致靶向基因表达的破坏。有趣的是，靶向对应于三种毒素受体的C-末端部分的编码区的大多数sgRNA一致地不能富集(图3A，图5A和图6A)表明其大多数细胞内C-末端区域在功能上是非必需的。然而，sgRNA编码区的NGS不能揭示太多序列-功能信息。

应用CRESMAS策略与经过简化的算法，我们可以获得功能相关的氨基酸图。我们有意地将实线分配给驾驶员缺失，因为这种单氨基酸缺失型的意义并不模糊，而我们将灰线(10％比例)分配给那些乘客缺失。我们还将单个错误突变数据与缺失数据合并到一个图中，以便于查看。与单氨基酸缺失类似，由于错义点突变引起的蛋白质功能丧失表明受影响的氨基酸对蛋白质的功能至关重要。

对于编码白喉毒素(DT)受体的HBEGF的功能筛选，大多数抗性细胞在EGF样结构域中携带缺失(图7B)，所述EGF样结构域是报导过的DT结合位点⁽¹⁷⁾。计算得必需性得分并示于如下表6中。

通过计算必需性得分(表6)，我们发现具有最高得分的氨基酸确实在EGF样结构域中富集，进一步证实了该结构域在调节毒素结合中的重要性。在所有氨基酸中，DT-HBEGF相互作用所必需的三种已知氨基酸，F115，L127和E141⁽¹⁷⁾位列前茅(第21，第15和第28位)。重要的是，CRESMAS方法揭示了除了这三个之外的许多新的位点对于受体功能而言是重要的(图7C)。为了验证我们的结果，我们通过慢病毒感染在HeLa HBEGF^-/-细胞⁽⁸⁾中表达野生型或突变HBEGF cDNA。我们证实了五个排名前列的位点(G119，K125，I133，C134，Y138)，三个已知的阳性位点和五个排名靠后的位点(L29，D63，D70，N152，R153)。HeLa HBEGF^-/-表现出对DT的总体抗性，且野生型HBEGF表达可以恢复细胞对毒素的敏感性。含有这五个排名前列的位点(G119，K125，I133，C134，Y138)之一的单氨基酸缺失或已知阳性位点(F115，L127，E141)之一的单氨基酸缺失的所有突变体HBEGF表达未能挽救细胞对DT的敏感性，而具有五个排名靠后的位点(L29，D63，D70，N152，R153)中的任何一个的缺失的突变体HBEGF如野生型一样发生挽救(图7D)。这些结果证实了我们的筛选结果，EGF样结构域中的某些氨基酸对于DT-引发的细胞毒性是必需的。值得注意的是，对HBEGF筛选出DT结合结构域中几个氨基酸的事实表明CRESMAS具有低假阳性率。

对于炭疽毒素的受体ANTXR1，所有抗性细胞除了编码细胞质结构域(图5B和5C)的区域之外，在整个编码区域都携带多种缺失，表明炭疽毒素与ANTXR1之间的相互作用主要在受体的胞外区。除了已知的PA结合位点⁽¹⁸⁾和跨膜结构域外，还发现了许多显示出不同程度重要性的新型氨基酸(图5B)。与sgRNA测序结果一致(图5A)，细胞质区域内的大多数氨基酸是不必要的(图5B)，再次说明了CRESMAS的低假阳性率。通过计算必需性得分确定了ANTXR1功能对于介导炭疽毒性至关重要的高排名氨基酸，包括两个已知的位点H57和E155⁽¹⁸⁾(图5C)。

对于CSPG4，艰难梭菌毒素B(TcdB)的受体，突变体的峰主要位于第一个和最后两个CSPG重复(图6B和6C)。第一个CSPG重复是已知的TcdB结合位点⁽¹¹⁾，最后两个重复是新的发现。重要的是，与上述HBEGF和ANTXR1两种情况不同，大部分信息数据来自缺失突变，在CSPG4中存在高度富集的影响T778的错义点突变(图6B)，表明该氨基酸对受体介导TcdB毒性至关重要。

对于编码癌症药物靶标的三种基因，HPRT1是非必需基因，而PLK1和PSMB5是两个必需基因⁽¹⁹⁾。对于非必需靶向HPRT1，文库的6-TG筛选显示大部分sgRNA富集并均匀分布(图8A)，结果类似于细菌毒素筛选的结果(图3A，5A，6A)。每个氨基酸在整个蛋白质中的显著作用被完全掩埋。CRESMAS方法表明，存在许多对于HPRT1功能重要的位点，所述功能介导细胞对6-TG的敏感性(图8B)。该观察结果与四聚体HPRT1的已知结构一致，高必需性得分的部位也分布一致(图8C)⁽¹²⁾。

对于必需靶标PLK1和PSMB5，sgRNA测序确实提供了sgRNA产生框内突变的某些关键氨基酸的近似位置(图9A和图10A)。由于sgRNA富集提供了间接证据且分辨率较低，因此我们认为CRESMAS策略将更详细地揭示更准确、更全面的功能图。实际上，在PSMB5和PLK1中以高精确性鉴定出更多的对于蛋白质功能来说至关重要的氨基酸(图9B和图10B)。值得注意的是，最终的筛选结果包含错义突变和可变数量的缺失，并且基于必需性得分(图9C和图10C)获得了两种情况下的最高必需氨基酸。再次地，我们鉴定了PSMB5中与Bortezomib相互作用的已知关键位点(R78，T80，M104，A108，C122和G242)^(20-22)和新的必需残基(图9B-C)。类似地，我们鉴定了对于BI2536-PLK1相互作用至关重要的已知残基R136^(22,23)和新的必需残基F183(图10B-C)。

因为错义点突变是赋予PSMB5和PLK1的药物抗性的主要形式，我们决定采用ssODN介导的方法⁽²⁴⁾来产生特定的点突变而非缺失用于验证。我们在PSMB5中选择了9个氨基酸残基(R78，T80，V90，M104，A108，D110，C111，C122和G242)，其中包括D110和C111作为对照。为了选择适当的氨基酸进行点突变，来自筛选结果或先前报告的突变体类型是优先选择。对于其余的，我们将所有的取代为丙氨酸(表2)。用含有以下突变之一的供体转染的细胞产生可变数量的硼替佐米抗性菌落：R78N，T80A，V90A，M104A，A108T，C122F和G242D(图9D)。相比之下，D110A和C111A未能产生硼替佐米抗性菌落，表明我们的验证方法是可靠的(图9D)。有趣的是，C111位点以前被报道在SW1573和CEM^(21,25)中对于PSMB5是重要的，这与我们的筛选和验证结果不同(图9D)。这种差异表明氨基酸的作用受生物学环境的影响，或者我们未能产生正确的氨基酸取代产生抗性表型。为了验证硼替佐米抗性的合并的细胞，我们对目标基因座的基因组区域进行了测序，并确认所有这七个位点都包含预期的突变(图11和表3)。为了进一步验证我们的结果，我们从几个突变库中分离出单个克隆(图12)，并进行细胞存活测定。我们证明以下点突变赋予硼替佐米抗性：R78N，V90L，A108T，C122F和G242D(图9E)。其中T80和A108报道涉及PSMB5与硼替佐米^(20-22)的直接结合，R78，M104和C122的突变被报道通过破坏药物结合位点结构来赋予硼替佐米抗性^{(22，26，27)}。G242是与硼替佐米敏感性相关的另一个已知的位点，尽管机制尚不清楚⁽²⁷⁾。V90位点是一个新发现。我们选择了两个独立的V90L克隆，两者都赋予了抗药性。V90如何介导药物敏感性以及V90突变是否改变了硼替佐米结合袋周围的结构仍有待确定。

对于PLK1，我们验证了两个排名前列的残基(R136和F183)和一个潜在的假阴性位点(C67)。据报道，R136是BI2536的关键氨基酸，当PLK1与BI2536结合时，F183在结构上是重要的^(22,23)。这三个位点之一上的点突变在合并的测定中赋予BI2536抗性(图10D)。

对于错义突变，每个氨基酸具有19种非同义取代。我们假设不同的替代可能具有不同的效果，而一些突变可能不会产生任何表型差异。为了检验CRESMAS策略是否可以产生这样的细节，我们从每个PSMB5和PLK1筛选中检索了前十个命中的错义突变数据，并进行氨基酸模式分析。我们揭示了这些氨基酸的明显模式偏好，说明了只有某些取代可以赋予细胞对药物的抗性(图13A-B)。大多数位点上的多个取代能够避免药物抑制的致命作用，如V90^PSMB5和A386^PLK1(图13C-D)，而在一些位点上只有一个特定的取代可以赋予耐药性，例如对于PSMB5是M104I和C122Y(图13E)和对于PLK1是F183L(图13F)。R136G^PLK1不是唯一的突变型，但是赋予BI2536细胞抗性的主要形式(图13F)。同样有趣的是，PSMB5，A105和A43中的两个位点具有非常相似的突变偏好模式(图13G)，其Pearson相关系数为0.54(图13H)。

总而言之，CRESMAS是生成序列-功能映射的有效方法。使用截短诱变来鉴定潜在的功能域通常非常费力，如果蛋白质的尺寸太大，这就变得越来越困难。评估目的蛋白质全长的每个氨基酸的意义，即便不是不可能也是困难的。Gill及其同事近期描述了一种在细菌或酵母中将目的蛋白质功能相关突变进行映射的方法，然而，该方法在很大程度上依赖于同源重组率，阻碍其在高等真核生物中的有效应用⁽²⁸⁾。CRESMAS在处理大尺寸蛋白质时非常强大。此外，可以同时扫描多个基因以获得相应蛋白的功能元件。

CRISPR饱和诱变提供覆盖每个氨基酸的多重突变。与许多其它方法不同，在框内或点突变方面只有少量的NGS数据是对于CRESMAS有用的读段。虽然我们在数据预处理期间过滤了大量读段，但我们发现我们的生物信息学流程足够灵敏，在中度测序深度即可以从剩余读段映射功能元件。我们可以鉴定所有六项试验中对蛋白质功能至关重要的大多数氨基酸的事实表明，CRESMAS具有较低的假阴性率。

CRESMAS方法可能潜在地发现其突变会消除蛋白质功能的所有残基。然而，这并不意味着从CRESMAS筛选获得的每个命中与蛋白质功能直接相关。一些残基对于给定蛋白质的总体结构是重要的，但可能不直接介导蛋白质的酶活性或其与相互作用伴侣的接触。例如，我们鉴定了位于ANTXR1的跨膜结构域内的多个命中(图5B)，这是维持受体功能而不直接参与毒素内吞作用的重要区域。

CRESMAS策略不局限于仅仅研究蛋白质。它也非常适合获取调节元件的功能图，所述调节元件如非编码RNA，启动子和增强子。方案的修改是在基因组上而不是本报告中描述的cDNA上的靶向区域进行PCR扩增。

参考文献

1.M.Jinek et al.,A programmable dual-RNA-guided DNA endonuclease inadaptive bacterial immunity.Science 337,816-821(2012).

2.M.E.Burkard,A.Santamaria,P.V.Jallepalli,Enabling and disablingpolo-like kinase 1 inhibition through chemical genetics.ACS chemical biology7,978-981(2012).

3.L.Cong et al.,Multiplex Genome Engineering Using CRISPR/CasSystems.Science 339,819-823(2013).

4.P.Mali et al.,RNA-guided human genome engineering via Cas9.Science339,823-826(2013).

5.O.Shalem et al.,Genome-scale CRISPR-Cas9 knockout screening inhuman cells.Science 343,84-87(2014).

6.T.Wang,J.J.Wei,D.M.Sabatini,E.S.Lander,Genetic screens in humancells using the CRISPR-Cas9 system.Science 343,80-84(2014).

7.H.Koike-Yusa,Y.Li,E.P.Tan,C.Velasco-Herrera Mdel,K.Yusa,Genome-widerecessive genetic screening in mammalian cells with a lentiviral CRISPR-guideRNA library.Nat Biotechnol 32,267-273(2014).

8.Y.Zhou et al.,High-throughput screening of a CRISPR/Cas9 libraryfor functional genomics in human cells.Nature 509,487-491(2014).

9.G.M.Findlay,E.A.Boyle,R.J.Hause,J.C.Klein,J.Shendure,Saturationediting of genomic regions by multiplex homology-directed repair.Nature 513,120-123(2014).

10.M.C.Canver et al.,BCL11A enhancer dissection by Cas9-mediated insitu saturating mutagenesis.Nature 527,192-197(2015).

11.P.Yuan et al.,Chondroitin sulfate proteoglycan 4 functions as thecellular receptor for Clostridium difficile toxin B.Cell Res 25,157-168(2015).

12.J.Duan,L.Nilsson,B.Lambert,Structural and functional analysis ofmutations at the human hypoxanthine phosphoribosyl transferase(HPRT1)locus.Human mutation 23,599-611(2004).

13.M.Steegmaier et al.,BI 2536,a potent and selective inhibitor ofpolo-like kinase 1,inhibits tumor growth in vivo.Curr Biol 17,316-322(2007).

14.D.Chen,M.Frezza,S.Schmitt,J.Kanwar,Q.P.Dou,Bortezomib as the firstproteasome inhibitor anticancer drug:current status and futureperspectives.Curr Cancer Drug Targets 11,239-253(2011).

15.M.van Overbeek et al.,DNA Repair Profiling Reveals NonrandomOutcomes at Cas9-Mediated Breaks.Mol Cell 63,633-646(2016).

16.S.Zhu etal.,Genome-scale deletion screening of human long non-coding RNAs using a paired-guide RNA CRISPR-Cas9 library.Nat Biotechnol 34,1279-1286(2016).

17.T.Mitamura et al.,Structure-function analysis of the diphtheriatoxin receptor toxin binding site by site-directed mutagenesis.J Biol Chem272,27084-27090(1997).

18.S.Fu etal.,The structure of tumor endothelial marker 8(TEM8)extracellular domain and implications for its receptor function forrecognizing anthrax toxin.PLoS One 5,e11203(2010).

19.T.Hart et al.,High-Resolution CRISPR Screens Reveal Fitness Genesand Genotype-Specific Cancer Liabilities.Cell 163,1515-1526(2015).

20.S.Lu,J.Wang,The resistance mechanisms of proteasome inhibitorbortezomib.Biomark Res 1,13(2013).

21.N.E.Franke et al.,Impaired bortezomib binding to mutant beta5subunit of the proteasome is the underlying basis for bortezomib resistancein leukemia cells.Leukemia 26,757-768(2012).

22.S.A.Wacker,B.R.Houghtaling,O.Elemento,T.M.Kapoor,Usingtranscriptome sequencing to identify mechanisms of drug action andresistance.Nat Chem Biol 8,235-237(2012).

23.R.N.Murugan et al.,Plk1-targeted small molecule inhibitors:molecular basis for their potency and specificity.Mol Cells 32,209-220(2011).

24.C.D.Richardson,G.J.Ray,M.A.DeWitt,G.L.Curie,J.E.Corn,Enhancinghomology-directed genome editing by catalytically active and inactive CRISPR-Cas9 using asymmetric donor DNA.Nat Biotechnol,(2016).

25.L.H.de Wilt et al.,Proteasome-based mechanisms of intrinsic andacquired bortezomib resistance in non-small cell lung cancer.BiochemPharmacol 83,207-217(2012).

26.E.Suzuki et al.,Molecular mechanisms of bortezomib resistantadenocarcinoma cells.PLoS One 6,e27996(2011).

27.G.T.Hess et al.,Directed evolution using dCas9-targeted somatichypermutation in mammalian cells.Nat Methods,(2016).

28.A.D.Garst et al.,Genome-wide mapping of mutations at single-nucleotide resolution for protein,metabolic and genome engineering.NatBiotechnol 35,48-55(2017).

序列表

<110> 北京大学

博雅辑因（北京）生物科技有限公司

<120> 鉴定功能元件的方法

<130> PD00993

<150> 201910233921.5

<151> 2019-03-26

<160> 80

<170> PatentIn version 3.5

<210> 1

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 1

gaccggaaag tccgtttgca agaggcag 28

<210> 2

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 2

ctagccctct ccgccgctcc aggctc 26

<210> 3

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 3

ctgcctcttg caaacggact ttccggtc 28

<210> 4

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 4

gcaagaggca gatctgcttt tgagagtc 28

<210> 5

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 5

gactctcaaa agcagatctg cctcttgc 28

<210> 6

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 6

cggaaataca aggactgcat ccatggag 28

<210> 7

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 7

ctccatggat gcagtccttg tatttccg 28

<210> 8

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 8

ggacttctgc atccatgaat gcaaatatgt g 31

<210> 9

<211> 31

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 9

cacatatttg cattcatgga tgcagaagtc c 31

<210> 10

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 10

gaatgcaaat atgtggagct ccgggctcc 29

<210> 11

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 11

ggagcccgga gctccacata tttgcattc 29

<210> 12

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 12

atgtgaagga gcgggctccc tcctgc 26

<210> 13

<211> 26

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 13

gcaggaggga gcccgctcct tcacat 26

<210> 14

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 14

gctccctcct gctgccaccc gggttac 27

<210> 15

<211> 27

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 15

gtaacccggg tggcagcagg agggagc 27

<210> 16

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 16

ccctcctgca tccacccggg ttacc 25

<210> 17

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 17

ggtaacccgg gtggatgcag gaggg 25

<210> 18

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 18

ctgccacccg ggtcatggag agaggtgtc 29

<210> 19

<211> 29

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 19

gacacctctc tccatgaccc gggtggcag 29

<210> 20

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 20

ccgggttacc atggaaggtg tcatgggc 28

<210> 21

<211> 28

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 21

gcccatgaca ccttccatgg taacccgg 28

<210> 22

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 22

gcctcccagt ggaacgctta tatacctatg 30

<210> 23

<211> 30

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 23

cataggtata taagcgttcc actgggaggc 30

<210> 24

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 24

cctcccagtg gaaaatttat atacctatga cc 32

<210> 25

<211> 32

<212> DNA

<213> 人工序列

<220>

<223> 制备HBEGF变体的引物

<400> 25

ggtcataggt atataaattt tccactggga gg 32

<210> 26

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 扩增靶向药物相关蛋白的sgRNA寡聚物的正向引物

<400> 26

ttgtggaaag gacgaaaccg 20

<210> 27

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 扩增靶向药物相关蛋白的sgRNA寡聚物的反向引物

<400> 27

tgctgtctct agctctacgt 20

<210> 28

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 扩增靶向毒素受体的sgRNA寡聚物的正向引物

<400> 28

tcttcatatc gtatcgtgcg 20

<210> 29

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 扩增靶向毒素受体的sgRNA寡聚物的反向引物

<400> 29

tagtcgctag gctataacgt 20

<210> 30

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 30

aacagcatcg gagcggaaa 19

<210> 31

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 31

tgggctttat caccactcct c 21

<210> 32

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 32

aataaaggac ccgcgaggaa g 21

<210> 33

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 33

ttttcaggag tgtgctgtcc g 21

<210> 34

<211> 18

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 34

tcccagctcc caggactc 18

<210> 35

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 35

gggtgttctg agtgtgcagt 20

<210> 36

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 36

agagagccac tgtgtggatg c 21

<210> 37

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 37

ggaagtgtgc tcgccgtcag 20

<210> 38

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 38

gggctcgtgc tgttctcac 19

<210> 39

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 39

gcaccaggca tggaagcaat 20

<210> 40

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 40

cgaaagtgac tggtgcctcg 20

<210> 41

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 41

ggtcccaatg gcagatccct 20

<210> 42

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 42

aggcgaacct ctcggcttt 19

<210> 43

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 43

caatccgccc aaagggaac 19

<210> 44

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 44

ctctgctcgg atcgaggtct 20

<210> 45

<211> 19

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 45

gatgcaggtg ggagtgagg 19

<210> 46

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 46

ttccccgacc cccttcagtg 20

<210> 47

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 47

aggatgggtc actgtgtccg t 21

<210> 48

<211> 17

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 48

tggccgacct cacttcc 17

<210> 49

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> cDNA扩增引物

<400> 49

aagtaaaaca aatagtcacc tctgc 25

<210> 50

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 50

gtaagcaccc gctgtagccc 20

<210> 51

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 51

ctatcacctt cttcaccgtc 20

<210> 52

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 52

cctgctaggc accatggctg 20

<210> 53

<211> 21

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 53

aatccgctgc gcccccagcc a 21

<210> 54

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 54

gcgcagcgga ttgcagcttc 20

<210> 55

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 55

tctgggaacg gctgttggct 20

<210> 56

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 56

tccagccatc ctcccgcacg 20

<210> 57

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 57

tcttagctga ctacgcgtaa 20

<210> 58

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 58

gtccgagatc tcgaagcact 20

<210> 59

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 59

cagcgacact caccctccgg 20

<210> 60

<211> 20

<212> DNA

<213> 人工序列

<220>

<223> 验证关键突变的sgRNA序列

<400> 60

ccttttcctg aatgaagatc 20

<210> 61

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 61

tttttgtggt cttatgtggc ctgttttgtg ttttcctctg atcttaacag ttccgccatg 60

gagtcatagt tgcagctgac agcaacgcta cagcgggtgc ttacattgcc tcccagacg 119

<210> 62

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 62

tttttgtggt cttatgtggc ctgttttgtg ttttcctctg atcttaacag ttccgccatg 60

gagtcatagt tgcagctgac agcagggctg ccgcgggtgc ttacattgcc tcccagacg 119

<210> 63

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 63

tttcctctga tcttaacagt tccgccatgg agtcatagtt gcagctgact ccagggctac 60

agcgggtgct tacattgcct cacagacggc caagaaggtg atagagatca acccatacc 119

<210> 64

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 64

agatgcgttc cttatttcga agctcataga ttcgacattg ccgagccaac agccgttccc 60

agaagctgca atccgctgcg ccgccagcga tggtgcctag caggtatggg ttgatctct 119

<210> 65

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 65

actccagggc tacagcgggt gcttacattg cctcccagac ggtgaagaag gtgatagaga 60

tcaacccata cctgctaggc acaatggctg ggggcaccgc ggattgcagc ttctgggaa 119

<210> 66

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 66

cagtttggag gcagctgcta cagagatgcg ttccttattt cgaagctcat agattcgaca 60

ttgccgagcc aacagccgtt cccagaagct gcaggccgct gcgcccccag ccatggtgc 119

<210> 67

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 67

cagtttggag gcagctgcta cagagatgcg ttccttattt cgaagctcat agattcgaca 60

ttgccgagcc aacagccgtt cccagaagct ggcatccgct gcgcccccag ccatggtgc 119

<210> 68

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 68

atacaccatg ttggcaagca gtttggaggc agctgctaca gagatgcgtt ccttatttcg 60

aagctcatag attcggaatt ggcgagccaa cagccgttcc cagaagctgc aatccgctg 119

<210> 69

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 69

gcaggcctat gatctggccc gtcgagccat ctaccaagcc acctacagag atgcctactc 60

aggaggtgca gtcaacctct atcacgtgcg ggaggatgac tggatccgag tctccagtg 119

<210> 70

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 70

cgcagcctcg cccaccagca cgtcgtagga ttccacggct ttttcgagga caacgacttc 60

gtgttcgtgg tgttggagct ctgtagcagg gtgagtgtcg ctgctgggga actggaact 119

<210> 71

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 71

aagagatccc ggaggtccta gtggacccac gcagccggcg gcgctatgtg cggggccgct 60

ttttgggcaa gggcggcttt gcaaaggtgt tcgagatctc ggacgcggac accaaggag 119

<210> 72

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 72

cagcctcgcc caccagcacg tcgtaggatt ccacggcttt ttcgaggaca acgacttcgt 60

gttcgtggtg ttggagctct gtaggcgggg cgtgagtgtc gctgctgggg aactggaac 119

<210> 73

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 73

ctcccagcct cctccaaatt ccagcctctt gtagtgatgt caagcacccc tgcaggctca 60

gcaactcacc tattttcacc tcgagatctt cattcagcag aaggttgccc agcttgagg 119

<210> 74

<211> 119

<212> DNA

<213> 人工序列

<220>

<223> ssODN供体编码一个氨基酸取代经过验证的残基

<400> 74

actccagggc tacagcgggt gcttacattg cctcccagac ggtgaagaag gtgatagaga 60

tcaacccata cctgctaggc acaatggctg ggggcgcgga ttgcagcttc tgggaacgg 119

<210> 75

<211> 24

<212> DNA

<213> 人工序列

<220>

<223> 扩增PSMB5基因中突变位点的引物

<400> 75

gtgtttttgt ggtcttatgt ggcc 24

<210> 76

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 扩增PSMB5基因中突变位点的引物

<400> 76

catgtggttg cagcttaact cac 23

<210> 77

<211> 22

<212> DNA

<213> 人工序列

<220>

<223> 扩增PSMB5基因中突变位点的引物

<400> 77

gatgtgaagc tcgggtgaca tt 22

<210> 78

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 扩增PSMB5基因中突变位点的引物

<400> 78

tcagcattga caccaagccc ttt 23

<210> 79

<211> 25

<212> DNA

<213> 人工序列

<220>

<223> 扩增PSMB5基因中突变位点的引物

<400> 79

ctgctaacct catctccctt tccag 25

<210> 80

<211> 23

<212> DNA

<213> 人工序列

<220>

<223> 扩增PSMB5基因中突变位点的引物

<400> 80

caagcagctg catccaccct ctt 23

Claims

1.一种用于鉴定基因组序列功能元件的文库，包含多个CRISPR-Cas系统指导RNA，所述指导RNA包含能够靶向至少一个连续基因组区域内的多个基因组序列的指导序列，其中所述指导RNA靶向至少100个基因组序列，该基因组序列包含所述连续基因组区域内每1000个碱基对的PAM序列上游的非重叠切割位点。

2.权利要求1的文库，其中所述文库包含靶向连续基因组区域内每个PAM序列上游的基因组序列的指导RNA。

3.权利要求1或2的文库，其中将每个指导RNA设计为影响DSB位点周围约10bp。

4.根据权利要求1至3中任一项所述的文库，其中所述PAM序列是特异性针对至少一种Cas蛋白的。

5.根据权利要求1至4中任一项所述的文库，其中基于特异性针对至少一种Cas蛋白的多于一个PAM序列来选择所述CRISPR-Cas系统指导RNA。

6.根据权利要求1至5中任一项所述的文库，其中所述靶向导致连续基因组区域的NHEJ。

7.根据权利要求1至6中任一项所述的文库，其中所述多个CRISPR-Cas系统指导RNA内的至少一个指导RNA的所述靶向导致细胞表型的改变和/或基因的转录和/或表达增加或减少。

8.根据权利要求1至7中任一项所述的文库，其是质粒文库或病毒文库。

9.根据权利要求1至7中任一项所述的文库，其是载体文库或宿主细胞文库。

10.一种用于鉴定基因组序列功能元件方法，包括：

(a)将前述权利要求中任一项所述的文库导入经改造含有Cas蛋白的细胞群中，其中所述细胞群中的每个细胞含有不超过一个指导RNA；

(b)基于细胞表型的改变将细胞分选成至少两组；

(e)将测序读段映射到靶基因的参考序列；

(f)过滤读段以保留仅携带错义突变或框内缺失的读段；和