CN106845151B - CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 - Google Patents
CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 Download PDFInfo
- Publication number
- CN106845151B CN106845151B CN201510888755.4A CN201510888755A CN106845151B CN 106845151 B CN106845151 B CN 106845151B CN 201510888755 A CN201510888755 A CN 201510888755A CN 106845151 B CN106845151 B CN 106845151B
- Authority
- CN
- China
- Prior art keywords
- sequence
- genome
- ngg
- candidate
- exon
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 35
- 238000012216 screening Methods 0.000 title claims abstract description 35
- 230000009471 action Effects 0.000 title claims abstract description 26
- 238000010356 CRISPR-Cas9 genome editing Methods 0.000 title claims abstract description 23
- 108091027544 Subgenomic mRNA Proteins 0.000 title claims abstract 13
- 108090000623 proteins and genes Proteins 0.000 claims abstract description 46
- 241000894007 species Species 0.000 claims abstract description 6
- 108700024394 Exon Proteins 0.000 claims description 23
- 108091081024 Start codon Proteins 0.000 claims description 12
- 108091033409 CRISPR Proteins 0.000 claims description 11
- 239000000284 extract Substances 0.000 claims description 6
- 230000008859 change Effects 0.000 claims description 5
- 230000000717 retained effect Effects 0.000 claims description 5
- 108091033380 Coding strand Proteins 0.000 claims description 4
- 210000000349 chromosome Anatomy 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000004873 anchoring Methods 0.000 claims description 2
- 230000000295 complement effect Effects 0.000 claims description 2
- 230000000694 effects Effects 0.000 claims description 2
- 230000002068 genetic effect Effects 0.000 claims description 2
- 238000012545 processing Methods 0.000 claims description 2
- 238000003209 gene knockout Methods 0.000 abstract description 9
- 238000010171 animal model Methods 0.000 abstract description 5
- 239000002585 base Substances 0.000 description 29
- 238000013461 design Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 6
- 230000008439 repair process Effects 0.000 description 5
- 241000287828 Gallus gallus Species 0.000 description 4
- 241001465754 Metazoa Species 0.000 description 4
- 210000004027 cell Anatomy 0.000 description 4
- 238000011160 research Methods 0.000 description 4
- 108091032973 (ribonucleotides)n+m Proteins 0.000 description 2
- 238000010354 CRISPR gene editing Methods 0.000 description 2
- 108091028113 Trans-activating crRNA Proteins 0.000 description 2
- 108010017070 Zinc Finger Nucleases Proteins 0.000 description 2
- 238000013329 compounding Methods 0.000 description 2
- 239000003814 drug Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 241000251468 Actinopterygii Species 0.000 description 1
- 241000271566 Aves Species 0.000 description 1
- 108020004414 DNA Proteins 0.000 description 1
- 102000053602 DNA Human genes 0.000 description 1
- 238000001712 DNA sequencing Methods 0.000 description 1
- 241000283070 Equus zebra Species 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 108020005004 Guide RNA Proteins 0.000 description 1
- 108020005350 Initiator Codon Proteins 0.000 description 1
- 241000124008 Mammalia Species 0.000 description 1
- 238000010459 TALEN Methods 0.000 description 1
- 108010043645 Transcription Activator-Like Effector Nucleases Proteins 0.000 description 1
- 239000003513 alkali Substances 0.000 description 1
- 238000009412 basement excavation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000009395 breeding Methods 0.000 description 1
- 230000001488 breeding effect Effects 0.000 description 1
- 150000001875 compounds Chemical class 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000011559 double-strand break repair via nonhomologous end joining Effects 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 210000001671 embryonic stem cell Anatomy 0.000 description 1
- 238000002474 experimental method Methods 0.000 description 1
- 231100000221 frame shift mutation induction Toxicity 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000010353 genetic engineering Methods 0.000 description 1
- 238000010362 genome editing Methods 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000035800 maturation Effects 0.000 description 1
- 238000010172 mouse model Methods 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 239000002994 raw material Substances 0.000 description 1
- 230000003252 repetitive effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000005303 weighing Methods 0.000 description 1
Landscapes
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及CRISPR‑Cas9系统sgRNA作用靶点的筛选方法,包括:(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’‑Nx‑NGG‑3’序列的区段(x为19~22之间的整数,N代表A/T/C/G),作为CRISPR‑Cas9系统sgRNA的候选靶点;(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。本发明还提供用于实现上述筛选方法的装置。本方法适用于所有已知基因组及其基因注释信息的物种,快速高效获得其全基因组水平的sgRNA序列全集来构建基因敲除突变体文库或基因敲除动物模型。
Description
技术领域
本发明涉及生物信息学、蛋白质组学、转录组学及基因工程领域,具体地说,涉及CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置。
背景技术
随着DNA测序技术的发展,许多模式生物的基因组序列信息已被公布,随后科研工作者将研究重点转向对基因功能信息的挖掘上。基因敲除动物模型一直以来是在活体动物上从事基因功能研究、寻找合适药物作用靶点的重要工具。但是传统的基因敲除方法需要通过复杂的打靶载体构建、胚胎干细胞(ES细胞)的筛选、嵌合体繁育等一系列步骤,不仅操作流程繁琐,对实验人员的技术要求很高,而且费用昂贵,耗时较长,且成功率也受到多方面因素的影响。即使对于技术相对成熟的实验室,利用传统技术构建基因敲除大、小鼠模型一般也需要很长时间。
2013年,美国两个实验室在《Science》杂志发表了基于CRISPR-Cas9系统在细胞系中进行基因编辑的新方法,该系统的原理是crRNA(CRISPR-derived RNA)通过碱基互补配对与tracrRNA(trans-activating RNA)结合形成tracrRNA/crRNA的复合物,该复合物可以引导核酸内切酶Cas9蛋白在与crRNA配对的序列靶位点切割双链DNA。而通过人工设计这两种RNA,可以改造形成具有引导作用的sgRNA(short guide RNA),即可引导Cas9对DNA的定点切割,一旦切割完成,细胞会启动各种修复方式来修补被剪掉的部分,其中最常见的是非同源末端连接(NHEJ)的修复方式,该种修复方式使得修复过程很容易出错,这就很大概率地引入使基因功能丧失的变异(如插入或者缺失部分碱基序列以造成移码突变),这使得研究者能通过突变体来了解被编辑的基因的功能。该项技术已经被迅速应用到基因敲除斑马鱼、小鼠和大鼠等动物模型的构建之中。CRISPR-Cas9技术是继锌指核酸酶(ZFN)和TALEN等技术之后可用于定点构建基因敲除动物的新方法,具有效率高、速度快、生殖系传递能力强及简单经济的特点,在动植物模型构建的应用前景非常广阔。
目前在动物研究领域,有很多基于单个功能基因进行设计的Cas9靶点,但还缺乏一套筛查全基因组靶点的成熟方法。本发明根据Cas9在基因组中编辑靶点的偏好性,开发了一套获取动物全基因组水平Cas9靶点序列的方法。通过此方法设计出来的靶点文库,使得CRISPR可以同时针对全基因组水平的基因靶向,获得高通量的基因突变体库,该方法在基础研究中(例如药物研发和农业)将发挥巨大作用。
发明内容
本发明的目的是提供一种CRISPR-Cas9系统sgRNA作用靶点的筛选方法。
本发明的另一目的是提供一种筛选CRISPR-Cas9系统sgRNA作用靶点的装置。
为了实现本发明目的,本发明提供的CRISPR-Cas9系统sgRNA作用靶点的筛选方法,包括以下步骤:
(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为19~22之间的整数,N代表碱基A、T、G或C;
(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;
(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。
前述的方法,步骤(1)中筛选符合条件的候选靶点序列的要求是:①靶点必须落在基因的CDS区内,即起始密码子之后;②尽可能靠近基因的5’端(实验表明,靠近5’端的外显子,其功能性更强);③优选地,每个基因提取两个外显子(选取两个外显子是为了保证基因被修饰后其功能尽可能地发生变化),具体步骤为:以转录本为单位(若以转录本为单位,一个基因有可能重复取到同一个外显子,下文有去重复的步骤),从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号等相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列(保存为fasta格式文件)。候选外显子的筛选设计见图1。
其中,fastaFromBed程序中的-s参数的作用是获取反向互补序列,这样就得到了所有外显子的编码链序列信息,便于筛选NGG位点(不用考虑负链,但要注意位置信息)。所有外显子的编码链序列提取它们的前19~22bp序列保存成fasta格式(注意此时的始末位置信息,正负链的情况有所区别,另外由于最终在与基因组水平的NGG序列进行比对时,需去除自比的比对结果,因此就需要详尽了解每一个外显子上的NGG序列所在的基因组始末位置,正负链信息等。因此要进行相应的格式调整)。鉴于上文提到的以转录本为单位会重复取得外显子的情况,进一步对获取的序列进行了去重复处理。最后获得的基因组中所有基因上的候选靶点5’-Nx-NGG-3’序列,统计其覆盖的基因数目,外显子数目,以及候选外显子上获得的NGG位点个数。
前述的方法,步骤(2)中筛选中符合条件的序列的具体步骤为:全基因组筛选采用k-mer打断、再比对找回位置的方法来定位基因组中的NGG序列。首先用jellyfish软件将基因组打断成22~25bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列(保存为fasta格式文件);由于利用jellyfish软件将基因组打断成22~25bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述22~25bp片段所在基因组中的位置。正负链分别进行比对,比对结束后,将NGG三个碱基从正链中去除,同时将CCN三个碱基从负链中去除,保存为19~22bp的含位置信息的fasta格式文件。
前述的方法,步骤(3)中比对的具体步骤为:
①将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将所有自比结果过滤掉;
②筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,将这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;
③筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配0个碱基(即在基因组其它位置完全比对上)或错配1个碱基(即在基因组其它位置比对上,且只有1个碱基错配),表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;
④筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配2个碱基(即在基因组其它位置比对上,但有2个碱基错配)或错配3个碱基(即在基因组其它位置比对上,但有3个碱基错配),将这些靶点序列标注为candidate reads,这些reads的所有比对结果通过公式进行打分,打分公式如下:
其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置(以该条NGG候选靶点的3’端碱基记为1位,从3’端向5’端依次计数,例如,a为NGG候选靶点3’端上游5bp位置的碱基发生错配,则a等于5),S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;
当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:
若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:
所有reads按照打分从低到高排序,将分数低的前10万条左右的reads作为候选序列(根据下游基因芯片的容量,目前芯片最多容纳10万条序列),即打分通过的candidatereads;
⑤步骤②的unique reads和步骤④打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合,即初步得到全基因组的Cas9sgRNA Oligo Library。
本发明筛选CRISPR-Cas9系统sgRNA作用靶点的流程图见图2。
本发明的目的还可以采用以下的技术措施来进一步实现。
(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为20,N代表碱基A、T、G或C;
(2)将基因组打断成20bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;
(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。
其中,步骤(1)中筛选符合条件的候选靶点序列的要求是:i.靶点必须落在基因的CDS区内,即起始密码子之后;ii.尽可能靠近基因的5’端;iii.优选地,每个基因提取两个外显子,具体步骤为:以转录本为单位,从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列。
步骤(2)中筛选中符合条件的序列的具体步骤为:首先用jellyfish软件将基因组打断成20bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列;由于利用jellyfish软件将基因组打断成20bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述20bp片段所在基因组中的位置。
步骤(3)中比对的具体步骤为:
iv.将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将自比的结果过滤掉;
v.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;
vi.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中有比对结果的序列,若出现错配0个碱基或错配1个碱基,表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;
vii.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中有比对结果的序列,若出现错配2个碱基或错配3个碱基,将这些靶点序列标注为candidatereads,这些reads的所有比对结果通过公式进行打分,打分公式如下:
其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置,S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;
当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:
若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:
所有reads按照打分从低到高排序,将分数低的前10万条reads作为候选序列,即打分通过的candidate reads;
viii.步骤v.的unique reads和步骤vii.打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合。
本发明还提供上述方法获得的CRISPR-Cas9系统sgRNA作用靶点在构建基因敲除突变体文库或基因敲除动物模型中的应用。
本发明还提供一种基因芯片,所述芯片含有根据上述方法获得的CRISPR-Cas9系统sgRNA作用靶点的序列集合。
本发明进一步提供一种筛选CRISPR-Cas9系统sgRNA作用靶点的装置,包括以下模块:
A.全基因组外显子序列提取模块:用于上述步骤(1)中提取全基因组的外显子中具有5’-Nx-NGG-3’序列的区段;
B.外显子NGG序列优选模块:用于上述步骤(1)中所有外显子中具有5’-Nx-NGG-3’序列区段的优选筛查;
C.基因组序列打断比对模块:用于上述步骤(2)中将全基因组序列打断成相应大小的片段,并比对进行位置锚定;
D.外显子NGG候选序列与基因组NGG候选序列比对模块:用于上述步骤(3)中外显子NGG候选序列与基因组NGG候选序列之间的比对;
E.候选sgRNA靶点序列打分模块:用于上述步骤(3)中所有候选序列的评估排序。
本发明提供的方法可应用于所有已知基因组及其基因注释信息的物种当中,通过快速高效获得其全基因组水平的sgRNA序列全集来构建基因敲除突变体文库或基因敲除动物模型。另外,这种高通量的CRISPR-Cas9系统sgRNA作用靶点筛选方法极大降低了成本,克服了单个制备基因敲除细胞,所导致的时间和劳动成本高的问题。
附图说明
图1为本发明候选外显子的筛选设计流程图。其设计原理在于:对位于起始密码子后面的外显子进行设计,如果起始密码子后面有两个以上的外显子,则将这两个外显子全部获取,若起始密码子后面只有一个外显子,则仅取一个外显子;某些起始密码子位于外显子内部,若其后面还有外显子,则从其下一个外显子开始计数,若其后面没有外显子,则从其本身开始计数;负链候选外显子的设计规则同正链。
图2为本发明筛选CRISPR-Cas9系统sgRNA作用靶点的流程图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段,所用原料均为市售商品。
实施例1针对鸡设计的CRISPR-Cas9系统sgRNA作用靶点的筛选方法
本实施例以禽类代表动物--鸡为例,进行全基因组Cas9靶点文库的设计。
首先在Ensembl数据库(http://www.ensembl.org/index.html)中下载鸡的参考基因组(版本号Galgal4,GCA_000002315.2)及其对应的基因注释文件。利用全基因组序列及基因注释信息,获取基因组中所有基因的候选靶点5’-(N20)NGG-3’序列(N代表A/T/C/G),统计可知,鸡中的候选靶点序列一共获得380,459条,覆盖的基因为16,821个,覆盖的外显子数为28,915个。然后将基因组打断成23bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列,将其与外显子上的候选靶点序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,根据下游芯片合成设计容量,共设计了96000条靶点序列,最终筛选结果,覆盖的基因数目为16,569个,每个基因上设计的靶点序列约为7-8个。
实施例2针对猪设计的CRISPR-Cas9系统sgRNA作用靶点的筛选方法
本实施例以哺乳动物类代表动物—猪为例,进行全基因组Cas9靶点文库的设计。
首先在Ensembl数据库中(http://www.ensembl.org/index.html)下载猪的参考基因组(版本号Sscrofa10.2,GCA_000003025.4)及其对应的基因注释文件。利用全基因组序列及基因注释信息,获取基因组中所有基因的候选靶点5’-(N20)NGG-3’序列(N代表A/T/C/G),统计可知,猪中的候选靶点序列一共获得626,236条,覆盖的基因为24,734个,覆盖的外显子数为43,049个。然后将基因组打断成23bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列,将其与外显子上的候选靶点序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,根据下游芯片合成设计容量,共设计了96000条靶点序列,最终筛选过后,覆盖的基因数目为22,731个,每个基因上设计的靶点序列约为4-5个。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。
Claims (3)
1.CRISPR-Cas9系统sgRNA作用靶点的筛选方法,其特征在于,包括以下步骤:
(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为19~22之间的整数,N代表碱基A、T、G或C;
(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;
(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合;
步骤(1)中筛选符合条件的候选靶点序列的要求是:①靶点必须落在基因的CDS区内,即起始密码子之后;②尽可能靠近基因的5’端;③每个基因提取两个外显子,具体步骤为:以转录本为单位,从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号等相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列;
其中,fastaFromBed程序中的-s参数的作用是获取反向互补序列,这样就得到了所有外显子的编码链序列信息,便于筛选NGG位点;所有外显子的编码链序列提取它们的前19~22bp序列保存成fasta格式;鉴于以转录本为单位会重复取得外显子的情况,进一步对获取的序列进行了去重复处理;最后获得的基因组中所有基因上的候选靶点5’-Nx-NGG-3’序列,统计其覆盖的基因数目,外显子数目,以及候选外显子上获得的NGG位点个数;
步骤(2)中筛选中符合条件的序列的具体步骤为:全基因组筛选采用k-mer打断、再比对找回位置的方法来定位基因组中的NGG序列;首先用jellyfish软件将基因组打断成22~25bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列;由于利用jellyfish软件将基因组打断成22~25bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述22~25bp片段所在基因组中的位置;正负链分别进行比对,比对结束后,将NGG三个碱基从正链中去除,同时将CCN三个碱基从负链中去除,保存为19~22bp的含位置信息的fasta格式文件;
步骤(3)中比对的具体步骤为:
①将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将所有自比结果过滤掉;
②筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,将这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;
③筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配0个碱基或错配1个碱基,表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;
④筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配2个碱基或错配3个碱基,将这些靶点序列标注为candidatereads,这些reads的所有比对结果通过公式进行打分,打分公式如下:
其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置,S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;
当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:
若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:
所有reads按照打分从低到高排序,将分数低的前10万条左右的reads作为候选序列(根据下游基因芯片的容量,目前芯片最多容纳10万条序列),即打分通过的candidatereads;
⑤步骤②的unique reads和步骤④打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合,即初步得到全基因组的Cas9 sgRNA Oligo Library。
2.一种基因芯片,其特征在于,所述芯片含有根据权利要求1所述方法获得的CRISPR-Cas9系统sgRNA作用靶点的序列集合。
3.筛选CRISPR-Cas9系统sgRNA作用靶点的装置,其特征在于,包括以下模块:
A.全基因组外显子序列提取模块:用于权利要求1所述方法步骤(1)中提取全基因组的外显子中具有5’-Nx-NGG-3’序列的区段;
B.外显子NGG序列优选模块:用于权利要求1所述方法步骤(1)中所有外显子中具有5’-Nx-NGG-3’序列区段的优选筛查;
C.基因组序列打断比对模块:用于权利要求1所述方法步骤(2)中将全基因组序列打断成相应大小的片段,并比对进行位置锚定;
D.外显子NGG候选序列与基因组NGG候选序列比对模块:用于权利要求1所述方法步骤(3)中外显子NGG候选序列与基因组NGG候选序列之间的比对;
E.候选sgRNA靶点序列打分模块:用于权利要求1所述方法步骤(3)中所有候选序列的评估排序。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510888755.4A CN106845151B (zh) | 2015-12-07 | 2015-12-07 | CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510888755.4A CN106845151B (zh) | 2015-12-07 | 2015-12-07 | CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106845151A CN106845151A (zh) | 2017-06-13 |
CN106845151B true CN106845151B (zh) | 2019-03-26 |
Family
ID=59151487
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510888755.4A Expired - Fee Related CN106845151B (zh) | 2015-12-07 | 2015-12-07 | CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106845151B (zh) |
Families Citing this family (34)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3613852A3 (en) | 2011-07-22 | 2020-04-22 | President and Fellows of Harvard College | Evaluation and improvement of nuclease cleavage specificity |
US9163284B2 (en) | 2013-08-09 | 2015-10-20 | President And Fellows Of Harvard College | Methods for identifying a target site of a Cas9 nuclease |
US9359599B2 (en) | 2013-08-22 | 2016-06-07 | President And Fellows Of Harvard College | Engineered transcription activator-like effector (TALE) domains and uses thereof |
US9388430B2 (en) | 2013-09-06 | 2016-07-12 | President And Fellows Of Harvard College | Cas9-recombinase fusion proteins and uses thereof |
US9526784B2 (en) | 2013-09-06 | 2016-12-27 | President And Fellows Of Harvard College | Delivery system for functional nucleases |
US9228207B2 (en) | 2013-09-06 | 2016-01-05 | President And Fellows Of Harvard College | Switchable gRNAs comprising aptamers |
US9068179B1 (en) | 2013-12-12 | 2015-06-30 | President And Fellows Of Harvard College | Methods for correcting presenilin point mutations |
CA2956224A1 (en) | 2014-07-30 | 2016-02-11 | President And Fellows Of Harvard College | Cas9 proteins including ligand-dependent inteins |
AU2016342380B2 (en) | 2015-10-23 | 2022-04-07 | President And Fellows Of Harvard College | Nucleobase editors and uses thereof |
GB2568182A (en) | 2016-08-03 | 2019-05-08 | Harvard College | Adenosine nucleobase editors and uses thereof |
JP7201153B2 (ja) | 2016-08-09 | 2023-01-10 | プレジデント アンド フェローズ オブ ハーバード カレッジ | プログラム可能cas9-リコンビナーゼ融合タンパク質およびその使用 |
US11542509B2 (en) | 2016-08-24 | 2023-01-03 | President And Fellows Of Harvard College | Incorporation of unnatural amino acids into proteins using base editing |
SG11201903089RA (en) | 2016-10-14 | 2019-05-30 | Harvard College | Aav delivery of nucleobase editors |
WO2018119359A1 (en) | 2016-12-23 | 2018-06-28 | President And Fellows Of Harvard College | Editing of ccr5 receptor gene to protect against hiv infection |
US11898179B2 (en) | 2017-03-09 | 2024-02-13 | President And Fellows Of Harvard College | Suppression of pain by gene editing |
WO2018165629A1 (en) | 2017-03-10 | 2018-09-13 | President And Fellows Of Harvard College | Cytosine to guanine base editor |
CA3057192A1 (en) | 2017-03-23 | 2018-09-27 | President And Fellows Of Harvard College | Nucleobase editors comprising nucleic acid programmable dna binding proteins |
US11560566B2 (en) | 2017-05-12 | 2023-01-24 | President And Fellows Of Harvard College | Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation |
CN111801345A (zh) | 2017-07-28 | 2020-10-20 | 哈佛大学的校长及成员们 | 使用噬菌体辅助连续进化(pace)的进化碱基编辑器的方法和组合物 |
WO2019139645A2 (en) | 2017-08-30 | 2019-07-18 | President And Fellows Of Harvard College | High efficiency base editors comprising gam |
CA3082251A1 (en) | 2017-10-16 | 2019-04-25 | The Broad Institute, Inc. | Uses of adenosine base editors |
CN108205614A (zh) * | 2017-12-29 | 2018-06-26 | 苏州金唯智生物科技有限公司 | 一种全基因组sgRNA文库的构建系统及其应用 |
CN108221058A (zh) | 2017-12-29 | 2018-06-29 | 苏州金唯智生物科技有限公司 | 一种猪全基因组sgRNA文库及其构建方法和应用 |
CN110373430B (zh) * | 2018-04-13 | 2021-02-19 | 青岛清原化合物有限公司 | 一种随机突变的基因编辑系统及其应用 |
CN110751982B (zh) * | 2018-07-04 | 2023-11-10 | 广州赛业百沐生物科技有限公司 | 一种智能并行化敲除策略筛选的方法及系统 |
CN109411022A (zh) * | 2018-11-07 | 2019-03-01 | 宁夏农林科学院农业生物技术研究中心(宁夏农业生物技术重点实验室) | 一种基于字符切片技术的含PAM结构gRNA靶向序列筛选方法及应用 |
MX2021005723A (es) * | 2018-11-15 | 2021-09-23 | Univ China Agricultural | Enzima y sistema crispr-cas12j. |
SG11202109679VA (en) | 2019-03-19 | 2021-10-28 | Broad Inst Inc | Methods and compositions for editing nucleotide sequences |
CN111445947A (zh) * | 2020-03-27 | 2020-07-24 | 武汉古奥基因科技有限公司 | 利用三代全长转录组的高原多倍体鱼类基因组注释方法 |
CN111549061A (zh) * | 2020-05-07 | 2020-08-18 | 西南大学 | 一种高通量筛选真核生物细胞响应环境极端pH的靶点基因的方法 |
MX2022014008A (es) | 2020-05-08 | 2023-02-09 | Broad Inst Inc | Métodos y composiciones para la edición simultánea de ambas cadenas de una secuencia de nucleótidos de doble cadena objetivo. |
CN112614541A (zh) * | 2020-12-16 | 2021-04-06 | 广州源井生物科技有限公司 | 基因编辑位点的自动筛选方法、系统、装置及存储介质 |
CN113528633B (zh) * | 2021-08-12 | 2024-06-11 | 湖北伯远合成生物科技有限公司 | 一种快速分析CRISPR/Cas9基因编辑载体构建情况的方法及应用 |
CN116206684B (zh) * | 2022-12-26 | 2024-01-30 | 纳昂达(南京)生物科技有限公司 | 一种评估基因组重复区探针捕获安全性的方法及其装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103436548A (zh) * | 2013-06-27 | 2013-12-11 | 遵义医学院 | 利用Tet-off诱导表达系统高通量筛选HIV-1整合酶抑制剂的方法 |
CN104073500A (zh) * | 2013-03-29 | 2014-10-01 | 中国农业大学 | 一种筛选与prrsv感染和抗性相关的基因的方法 |
CN104419719A (zh) * | 2013-09-02 | 2015-03-18 | 中国农业大学 | 一种转基因猪筛选标记基因敲除的方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP4180526A3 (en) * | 2012-10-23 | 2023-06-14 | Toolgen Incorporated | Composition for cleaving a target dna comprising a guide rna specific for the target dna and cas protein-encoding nucleic acid or cas protein, and use thereof |
-
2015
- 2015-12-07 CN CN201510888755.4A patent/CN106845151B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104073500A (zh) * | 2013-03-29 | 2014-10-01 | 中国农业大学 | 一种筛选与prrsv感染和抗性相关的基因的方法 |
CN103436548A (zh) * | 2013-06-27 | 2013-12-11 | 遵义医学院 | 利用Tet-off诱导表达系统高通量筛选HIV-1整合酶抑制剂的方法 |
CN104419719A (zh) * | 2013-09-02 | 2015-03-18 | 中国农业大学 | 一种转基因猪筛选标记基因敲除的方法 |
Also Published As
Publication number | Publication date |
---|---|
CN106845151A (zh) | 2017-06-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106845151B (zh) | CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 | |
WO2019128744A1 (zh) | 一种全基因组sgRNA文库的构建系统及其应用 | |
CN108221058A (zh) | 一种猪全基因组sgRNA文库及其构建方法和应用 | |
CN104450682B (zh) | 一种组装叶绿体基因组序列的方法 | |
CN104673884B (zh) | 利用全基因组和est数据开发多态性est‑ssr标记的方法 | |
CN109346130A (zh) | 一种直接从全基因组重测序数据中得到微单体型及其分型的方法 | |
CN107345256A (zh) | 一种基于转录组测序开发山黧豆est‑ssr引物组及方法和应用 | |
CN113122651B (zh) | 与莲根状茎膨大性状主效qtl位点连锁的snp分子标记及应用 | |
CN108763866B (zh) | 一种利用叶绿体全基因组精准鉴别铁皮石斛及其近缘极易混淆种的方法 | |
CN108192893B (zh) | 基于转录组测序开发艾纳香ssr引物的方法 | |
CN110951911B (zh) | 基于转录组的椴树属est-ssr引物及其筛选方法和应用 | |
CN104351096A (zh) | 一种大鳞副泥鳅良种选育方法 | |
CN116334248A (zh) | 一种地方鸡遗传资源保护与品种鉴定的液相芯片及其应用 | |
CN105925680A (zh) | 一种四倍体马铃薯高通量测序开发标记的方法及其应用 | |
CN111192636A (zh) | 一种适用于oligodT富集的mRNA二代测序结果分析方法 | |
CN108018315A (zh) | 一种分离的基因序列在制备日本青鳉白化品系中的应用 | |
CN107862177B (zh) | 一种区分鲤群体的单核苷酸多态性分子标记集的构建方法 | |
KR101539737B1 (ko) | 유전체 정보와 분자마커를 이용한 여교잡 선발의 효율성 증진 기술 | |
Le et al. | Target capture reveals the complex origin of Vietnamese ginseng | |
CN114530200B (zh) | 基于计算snp熵值的混合样本鉴定方法 | |
CN113674003A (zh) | 一种利用宏基因组和机器学习进行蜂蜜蜜源地追踪的方法 | |
CN110890134B (zh) | 利用叶绿体基因组大单拷贝区鉴别枫斗类石斛基源的方法 | |
CN114182037A (zh) | 一种筛选黄绿卷毛菇总可溶性蛋白含量指标的dna条形码 | |
KR101911307B1 (ko) | 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술 | |
US20200190567A1 (en) | Method For Detecting Activity Change Of Transposon In Plant Before And After Stress Treatment |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20190326 |
|
CF01 | Termination of patent right due to non-payment of annual fee |