CN106845151A - CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 - Google Patents

CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 Download PDF

Info

Publication number
CN106845151A
CN106845151A CN201510888755.4A CN201510888755A CN106845151A CN 106845151 A CN106845151 A CN 106845151A CN 201510888755 A CN201510888755 A CN 201510888755A CN 106845151 A CN106845151 A CN 106845151A
Authority
CN
China
Prior art keywords
sequence
genome
ngg
candidate
sequences
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201510888755.4A
Other languages
English (en)
Other versions
CN106845151B (zh
Inventor
赵毅强
高菲
王宇哲
许文杰
胥春龙
吴森
胡晓湘
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Agricultural University
Original Assignee
China Agricultural University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Agricultural University filed Critical China Agricultural University
Priority to CN201510888755.4A priority Critical patent/CN106845151B/zh
Publication of CN106845151A publication Critical patent/CN106845151A/zh
Application granted granted Critical
Publication of CN106845151B publication Critical patent/CN106845151B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明涉及CRISPR-Cas9系统sgRNA作用靶点的筛选方法,包括:(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段(x为19~22之间的整数,N代表A/T/C/G),作为CRISPR-Cas9系统sgRNA的候选靶点;(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。本发明还提供用于实现上述筛选方法的装置。本方法适用于所有已知基因组及其基因注释信息的物种,快速高效获得其全基因组水平的sgRNA序列全集来构建基因敲除突变体文库或基因敲除动物模型。

Description

CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置
技术领域
本发明涉及生物信息学、蛋白质组学、转录组学及基因工程领域,具体地说,涉及CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置。
背景技术
随着DNA测序技术的发展,许多模式生物的基因组序列信息已被公布,随后科研工作者将研究重点转向对基因功能信息的挖掘上。基因敲除动物模型一直以来是在活体动物上从事基因功能研究、寻找合适药物作用靶点的重要工具。但是传统的基因敲除方法需要通过复杂的打靶载体构建、胚胎干细胞(ES细胞)的筛选、嵌合体繁育等一系列步骤,不仅操作流程繁琐,对实验人员的技术要求很高,而且费用昂贵,耗时较长,且成功率也受到多方面因素的影响。即使对于技术相对成熟的实验室,利用传统技术构建基因敲除大、小鼠模型一般也需要很长时间。
2013年,美国两个实验室在《Science》杂志发表了基于CRISPR-Cas9系统在细胞系中进行基因编辑的新方法,该系统的原理是crRNA(CRISPR-derived RNA)通过碱基互补配对与tracrRNA(trans-activating RNA)结合形成tracrRNA/crRNA的复合物,该复合物可以引导核酸内切酶Cas9蛋白在与crRNA配对的序列靶位点切割双链DNA。而通过人工设计这两种RNA,可以改造形成具有引导作用的sgRNA(short guide RNA),即可引导Cas9对DNA的定点切割,一旦切割完成,细胞会启动各种修复方式来修补被剪掉的部分,其中最常见的是非同源末端连接(NHEJ)的修复方式,该种修复方式使得修复过程很容易出错,这就很大概率地引入使基因功能丧失的变异(如插入或者缺失部分碱基序列以造成移码突变),这使得研究者能通过突变体来了解被编辑的基因的功能。该项技术已经被迅速应用到基因敲除斑马鱼、小鼠和大鼠等动物模型的构建之中。CRISPR-Cas9技术是继锌指核酸酶(ZFN)和TALEN等技术之后可用于定点构建基因敲除动物的新方法,具有效率高、速度快、生殖系传递能力强及简单经济的特点,在动植物模型构建的应用前景非常广阔。
目前在动物研究领域,有很多基于单个功能基因进行设计的Cas9靶点,但还缺乏一套筛查全基因组靶点的成熟方法。本发明根据Cas9在基因组中编辑靶点的偏好性,开发了一套获取动物全基因组水平Cas9靶点序列的方法。通过此方法设计出来的靶点文库,使得CRISPR可以同时针对全基因组水平的基因靶向,获得高通量的基因突变体库,该方法在基础研究中(例如药物研发和农业)将发挥巨大作用。
发明内容
本发明的目的是提供一种CRISPR-Cas9系统sgRNA作用靶点的筛选方法。
本发明的另一目的是提供一种筛选CRISPR-Cas9系统sgRNA作用靶点的装置。
为了实现本发明目的,本发明提供的CRISPR-Cas9系统sgRNA作用靶点的筛选方法,包括以下步骤:
(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为19~22之间的整数,N代表碱基A、T、G或C;
(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;
(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。
前述的方法,步骤(1)中筛选符合条件的候选靶点序列的要求是:①靶点必须落在基因的CDS区内,即起始密码子之后;②尽可能靠近基因的5’端(实验表明,靠近5’端的外显子,其功能性更强);③优选地,每个基因提取两个外显子(选取两个外显子是为了保证基因被修饰后其功能尽可能地发生变化),具体步骤为:以转录本为单位(若以转录本为单位,一个基因有可能重复取到同一个外显子,下文有去重复的步骤),从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号等相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列(保存为fasta格式文件)。候选外显子的筛选设计见图1。
其中,fastaFromBed程序中的-s参数的作用是获取反向互补序列,这样就得到了所有外显子的编码链序列信息,便于筛选NGG位点(不用考虑负链,但要注意位置信息)。所有外显子的编码链序列提取它们的前19~22bp序列保存成fasta格式(注意此时的始末位置信息,正负链的情况有所区别,另外由于最终在与基因组水平的NGG序列进行比对时,需去除自比的比对结果,因此就需要详尽了解每一个外显子上的NGG序列所在的基因组始末位置,正负链信息等。因此要进行相应的格式调整)。鉴于上文提到的以转录本为单位会重复取得外显子的情况,进一步对获取的序列进行了去重复处理。最后获得的基因组中所有基因上的候选靶点5’-Nx-NGG-3’序列,统计其覆盖的基因数目,外显子数目,以及候选外显子上获得的NGG位点个数。
前述的方法,步骤(2)中筛选中符合条件的序列的具体步骤为:全基因组筛选采用k-mer打断、再比对找回位置的方法来定位基因组中的NGG序列。首先用jellyfish软件将基因组打断成22~25bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列(保存为fasta格式文件);由于利用jellyfish软件将基因组打断成22~25bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述22~25bp片段所在基因组中的位置。正负链分别进行比对,比对结束后,将NGG三个碱基从正链中去除,同时将CCN三个碱基从负链中去除,保存为19~22bp的含位置信息的fasta格式文件。
前述的方法,步骤(3)中比对的具体步骤为:
①将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将所有自比结果过滤掉;
②筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,将这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;
③筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配0个碱基(即在基因组其它位置完全比对上)或错配1个碱基(即在基因组其它位置比对上,且只有1个碱基错配),表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;
④筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配2个碱基(即在基因组其它位置比对上,但有2个碱基错配)或错配3个碱基(即在基因组其它位置比对上,但有3个碱基错配),将这些靶点序列标注为candidate reads,这些reads的所有比对结果通过公式进行打分,打分公式如下:
其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置(以该条NGG候选靶点的3’端碱基记为1位,从3’端向5’端依次计数,例如,a为NGG候选靶点3’端上游5bp位置的碱基发生错配,则a等于5),S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;
当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:
若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:
所有reads按照打分从低到高排序,将分数低的前10万条左右的reads作为候选序列(根据下游基因芯片的容量,目前芯片最多容纳10万条序列),即打分通过的candidate reads;
⑤步骤②的unique reads和步骤④打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合,即初步得到全基因组的Cas9sgRNA Oligo Library。
本发明筛选CRISPR-Cas9系统sgRNA作用靶点的流程图见图2。
本发明的目的还可以采用以下的技术措施来进一步实现。
(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为20,N代表碱基A、T、G或C;
(2)将基因组打断成20bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;
(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。
其中,步骤(1)中筛选符合条件的候选靶点序列的要求是:i.靶点必须落在基因的CDS区内,即起始密码子之后;ii.尽可能靠近基因的5’端;iii.优选地,每个基因提取两个外显子,具体步骤为:以转录本为单位,从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列。
步骤(2)中筛选中符合条件的序列的具体步骤为:首先用jellyfish软件将基因组打断成20bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列;由于利用jellyfish软件将基因组打断成20bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述20bp片段所在基因组中的位置。
步骤(3)中比对的具体步骤为:
iv.将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将自比的结果过滤掉;
v.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;
vi.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中有比对结果的序列,若出现错配0个碱基或错配1个碱基,表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;
vii.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中有比对结果的序列,若出现错配2个碱基或错配3个碱基,将这些靶点序列标注为candidate reads,这些reads的所有比对结果通过公式进行打分,打分公式如下:
其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置,S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;
当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:
若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:
所有reads按照打分从低到高排序,将分数低的前10万条reads作为候选序列,即打分通过的candidate reads;
viii.步骤v.的unique reads和步骤vii.打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合。
本发明还提供上述方法获得的CRISPR-Cas9系统sgRNA作用靶点在构建基因敲除突变体文库或基因敲除动物模型中的应用。
本发明还提供一种基因芯片,所述芯片含有根据上述方法获得的CRISPR-Cas9系统sgRNA作用靶点的序列集合。
本发明进一步提供一种筛选CRISPR-Cas9系统sgRNA作用靶点的装置,包括以下模块:
A.全基因组外显子序列提取模块:用于上述步骤(1)中提取全基因组的外显子中具有5’-Nx-NGG-3’序列的区段;
B.外显子NGG序列优选模块:用于上述步骤(1)中所有外显子中具有5’-Nx-NGG-3’序列区段的优选筛查;
C.基因组序列打断比对模块:用于上述步骤(2)中将全基因组序列打断成相应大小的片段,并比对进行位置锚定;
D.外显子NGG候选序列与基因组NGG候选序列比对模块:用于上述步骤(3)中外显子NGG候选序列与基因组NGG候选序列之间的比对;
E.候选sgRNA靶点序列打分模块:用于上述步骤(3)中所有候选序列的评估排序。
本发明提供的方法可应用于所有已知基因组及其基因注释信息的物种当中,通过快速高效获得其全基因组水平的sgRNA序列全集来构建基因敲除突变体文库或基因敲除动物模型。另外,这种高通量的CRISPR-Cas9系统sgRNA作用靶点筛选方法极大降低了成本,克服了单个制备基因敲除细胞,所导致的时间和劳动成本高的问题。
附图说明
图1为本发明候选外显子的筛选设计流程图。其设计原理在于:对位于起始密码子后面的外显子进行设计,如果起始密码子后面有两个以上的外显子,则将这两个外显子全部获取,若起始密码子后面只有一个外显子,则仅取一个外显子;某些起始密码子位于外显子内部,若其后面还有外显子,则从其下一个外显子开始计数,若其后面没有外显子,则从其本身开始计数;负链候选外显子的设计规则同正链。
图2为本发明筛选CRISPR-Cas9系统sgRNA作用靶点的流程图。
具体实施方式
以下实施例用于说明本发明,但不用来限制本发明的范围。若未特别指明,实施例中所用的技术手段为本领域技术人员所熟知的常规手段,所用原料均为市售商品。
实施例1针对鸡设计的CRISPR-Cas9系统sgRNA作用靶点的筛选方法
本实施例以禽类代表动物--鸡为例,进行全基因组Cas9靶点文库的设计。
首先在Ensembl数据库(http://www.ensembl.org/index.html)中下载鸡的参考基因组(版本号Galgal4,GCA_000002315.2)及其对应的基因注释文件。利用全基因组序列及基因注释信息,获取基因组中所有基因的候选靶点5’-(N20)NGG-3’序列(N代表A/T/C/G),统计可知,鸡中的候选靶点序列一共获得380,459条,覆盖的基因为16,821个,覆盖的外显子数为28,915个。然后将基因组打断成23bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列,将其与外显子上的候选靶点序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,根据下游芯片合成设计容量,共设计了96000条靶点序列,最终筛选结果,覆盖的基因数目为16,569个,每个基因上设计的靶点序列约为7-8个。
实施例2针对猪设计的CRISPR-Cas9系统sgRNA作用靶点的筛选方法
本实施例以哺乳动物类代表动物—猪为例,进行全基因组Cas9靶点文库的设计。
首先在Ensembl数据库中(http://www.ensembl.org/index.html)下载猪的参考基因组(版本号Sscrofa10.2,GCA_000003025.4)及其对应的基因注释文件。利用全基因组序列及基因注释信息,获取基因组中所有基因的候选靶点5’-(N20)NGG-3’序列(N代表A/T/C/G),统计可知,猪中的候选靶点序列一共获得626,236条,覆盖的基因为24,734个,覆盖的外显子数为43,049个。然后将基因组打断成23bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列,将其与外显子上的候选靶点序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,根据下游芯片合成设计容量,共设计了96000条靶点序列,最终筛选过后,覆盖的基因数目为22,731个,每个基因上设计的靶点序列约为4-5个。
虽然,上文中已经用一般性说明及具体实施方案对本发明作了详尽的描述,但在本发明基础上,可以对之作一些修改或改进,这对本领域技术人员而言是显而易见的。因此,在不偏离本发明精神的基础上所做的这些修改或改进,均属于本发明要求保护的范围。

Claims (8)

1.CRISPR-Cas9系统sgRNA作用靶点的筛选方法,其特征在于,包括以下步骤:
(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为19~22之间的整数,N代表碱基A、T、G或C;
(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;
(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。
2.根据权利要求1所述的方法,其特征在于,步骤(1)中筛选符合条件的候选靶点序列的要求是:①靶点必须落在基因的CDS区内,即起始密码子之后;②尽可能靠近基因的5’端;③优选地,每个基因提取两个外显子,具体步骤为:以转录本为单位从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列。
3.根据权利要求1所述的方法,其特征在于,步骤(2)中筛选中符合条件的序列的具体步骤为:首先用jellyfish软件将基因组打断成22~25bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列;由于利用jellyfish软件将基因组打断成22~25bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述22~25bp片段所在基因组中的位置。
4.根据权利要求1所述的方法,其特征在于,步骤(3)中比对的具体步骤为:
①将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将所有自比结果过滤掉;
②筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,将这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;
③筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配0个碱基或错配1个碱基,表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;
④筛选步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中其它位置上仍存在比对结果的序列,若出现错配2个碱基或错配3个碱基,将这些靶点序列标注为candidate reads,这些reads的所有比对结果通过公式进行打分,打分公式如下:
M S = &Sigma; m i s t arg e t s S ( a b ) &times; D ( a b ) ( n = 2 ) M i n { ( S ( a b ) &times; D ( a b ) , S ( b c ) &times; D ( b c ) ) } &times; D ( a b ) o r D ( b c ) D ( a c ) ( n = 3 )
其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置,S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;
当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:
M S = &Sigma; m i s t arg e t s &lsqb; S ( a b ) &times; D ( a b ) &times; D ( a b ) D ( a c ) &rsqb;
若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:
M S = &Sigma; m i s t arg e t s &lsqb; S ( b c ) &times; D ( b c ) &times; D ( b c ) D ( a c ) &rsqb;
所有reads按照打分从低到高排序,将分数低的前10万条reads作为候选序列,即打分通过的candidate reads;
⑤步骤②的unique reads和步骤④打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合。
5.根据权利要求1-4任一项所述的方法,其特征在于,包括以下步骤:
(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段,作为CRISPR-Cas9系统sgRNA的候选靶点;其中,x为20,N代表碱基A、T、G或C;
(2)将基因组打断成20bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;
(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合;
其中,步骤(1)中筛选符合条件的候选靶点序列的要求是:i.靶点必须落在基因的CDS区内,即起始密码子之后;ii.尽可能靠近基因的5’端;iii.优选地,每个基因提取两个外显子,具体步骤为:以转录本为单位,从基因组注释文件中获取转录本、基因ID,CDS、外显子区的起始和终止位置以及染色体号相关信息,以每个转录本的起始密码子所在位置为标准,提取其后两个外显子的始末位置,若起始密码子后只有一个外显子,则只取一个,得到候选外显子的始末位置后,利用bedtools软件中的fastaFromBed程序获取这些外显子的序列信息,保留作为外显子NGG候选靶点序列;
步骤(2)中筛选中符合条件的序列的具体步骤为:首先用jellyfish软件将基因组打断成20bp的片段,考虑到正负链不同,分别筛选正链以NGG结尾和负链以CCN开头的序列,保留作为基因组NGG候选靶点序列;由于利用jellyfish软件将基因组打断成20bp的片段后没有位置信息,因此需利用bowtie软件比对找回上述20bp片段所在基因组中的位置;
步骤(3)中比对的具体步骤为:
iv.将步骤(1)的外显子NGG候选靶点序列与步骤(2)的基因组NGG候选靶点序列进行比对,将自比的结果过滤掉;
v.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中没有比对结果的序列,这些外显子NGG靶点在基因组中是唯一的,这些靶点序列作为最佳候选靶点序列优先被提取出来,标注为unique reads;
vi.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中有比对结果的序列,若出现错配0个碱基或错配1个碱基,表明这些序列在基因组中有重复序列存在,将这些靶点序列全部删除;
vii.筛选在步骤①过滤后的比对结果中,外显子NGG候选靶点在基因组中有比对结果的序列,若出现错配2个碱基或错配3个碱基,将这些靶点序列标注为candidate reads,这些reads的所有比对结果通过公式进行打分,打分公式如下:
M S = &Sigma; m i s t arg e t s S ( a b ) &times; D ( a b ) ( n = 2 ) M i n { ( S ( a b ) &times; D ( a b ) , S ( b c ) &times; D ( b c ) ) } &times; D ( a b ) o r D ( b c ) D ( a c ) ( n = 3 )
其中,MS代表错配罚分,a、b、c分别代表发生错配的碱基位置,S(ab)代表a与b的代数和,S(bc)代表b与c的代数和,S(ac)代表a与c的代数和,D(ab)代表两个错配碱基a与b的相对位置之差,D(bc)代表两个错配碱基b与c的相对位置之差,D(ac)代表两个错配碱基a与c的相对位置之差;
当n=3时,若S(ab)×D(ab)<S(bc)×D(bc),公式则变为:
M S = &Sigma; m i s t arg e t s &lsqb; S ( a b ) &times; D ( a b ) &times; D ( a b ) D ( a c ) &rsqb;
若S(ab)×D(ab)>S(bc)×D(bc),公式则变为:
M S = &Sigma; m i s t arg e t s &lsqb; S ( b c ) &times; D ( b c ) &times; D ( b c ) D ( a c ) &rsqb;
所有reads按照打分从低到高排序,将分数低的前10万条reads作为候选序列,即打分通过的candidate reads;
viii.步骤v.的unique reads和步骤vii.打分通过的candidate reads即为最优的全基因组sgRNA作用靶点集合。
6.根据权利要求1-5任一项所述方法获得的CRISPR-Cas9系统sgRNA作用靶点在构建基因敲除突变体文库或基因敲除动物模型中的应用。
7.一种基因芯片,其特征在于,所述芯片含有根据权利要求1-5任一项所述方法获得的CRISPR-Cas9系统sgRNA作用靶点的序列集合。
8.筛选CRISPR-Cas9系统sgRNA作用靶点的装置,其特征在于,包括以下模块:
A.全基因组外显子序列提取模块:用于权利要求1-5任一项所述方法步骤(1)中提取全基因组的外显子中具有5’-Nx-NGG-3’序列的区段;
B.外显子NGG序列优选模块:用于权利要求1-5任一项所述方法步骤(1)中所有外显子中具有5’-Nx-NGG-3’序列区段的优选筛查;
C.基因组序列打断比对模块:用于权利要求1-5任一项所述方法步骤(2)中将全基因组序列打断成相应大小的片段,并比对进行位置锚定;
D.外显子NGG候选序列与基因组NGG候选序列比对模块:用于权利要求1-5任一项所述方法步骤(3)中外显子NGG候选序列与基因组NGG候选序列之间的比对;
E.候选sgRNA靶点序列打分模块:用于权利要求1-5任一项所述方法步骤(3)中所有候选序列的评估排序。
CN201510888755.4A 2015-12-07 2015-12-07 CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 Active CN106845151B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510888755.4A CN106845151B (zh) 2015-12-07 2015-12-07 CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510888755.4A CN106845151B (zh) 2015-12-07 2015-12-07 CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置

Publications (2)

Publication Number Publication Date
CN106845151A true CN106845151A (zh) 2017-06-13
CN106845151B CN106845151B (zh) 2019-03-26

Family

ID=59151487

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510888755.4A Active CN106845151B (zh) 2015-12-07 2015-12-07 CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置

Country Status (1)

Country Link
CN (1) CN106845151B (zh)

Cited By (34)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9999671B2 (en) 2013-09-06 2018-06-19 President And Fellows Of Harvard College Delivery of negatively charged proteins using cationic lipids
CN108205614A (zh) * 2017-12-29 2018-06-26 苏州金唯智生物科技有限公司 一种全基因组sgRNA文库的构建系统及其应用
CN108221058A (zh) * 2017-12-29 2018-06-29 苏州金唯智生物科技有限公司 一种猪全基因组sgRNA文库及其构建方法和应用
US10113163B2 (en) 2016-08-03 2018-10-30 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
US10167457B2 (en) 2015-10-23 2019-01-01 President And Fellows Of Harvard College Nucleobase editors and uses thereof
CN109411022A (zh) * 2018-11-07 2019-03-01 宁夏农林科学院农业生物技术研究中心(宁夏农业生物技术重点实验室) 一种基于字符切片技术的含PAM结构gRNA靶向序列筛选方法及应用
US10323236B2 (en) 2011-07-22 2019-06-18 President And Fellows Of Harvard College Evaluation and improvement of nuclease cleavage specificity
CN110373430A (zh) * 2018-04-13 2019-10-25 青岛清原化合物有限公司 一种随机突变的基因编辑系统及其应用
US10465176B2 (en) 2013-12-12 2019-11-05 President And Fellows Of Harvard College Cas variants for gene editing
US10508298B2 (en) 2013-08-09 2019-12-17 President And Fellows Of Harvard College Methods for identifying a target site of a CAS9 nuclease
CN110689923A (zh) * 2018-07-04 2020-01-14 赛业(广州)生物科技有限公司 一种自动并行化敲除策略序列重复性分析方法及其系统
US10597679B2 (en) 2013-09-06 2020-03-24 President And Fellows Of Harvard College Switchable Cas9 nucleases and uses thereof
WO2020098772A1 (zh) * 2018-11-15 2020-05-22 中国农业大学 CRISPR-Cas12j酶和系统
US10704062B2 (en) 2014-07-30 2020-07-07 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
CN111445947A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 利用三代全长转录组的高原多倍体鱼类基因组注释方法
US10745677B2 (en) 2016-12-23 2020-08-18 President And Fellows Of Harvard College Editing of CCR5 receptor gene to protect against HIV infection
CN111549061A (zh) * 2020-05-07 2020-08-18 西南大学 一种高通量筛选真核生物细胞响应环境极端pH的靶点基因的方法
US10858639B2 (en) 2013-09-06 2020-12-08 President And Fellows Of Harvard College CAS9 variants and uses thereof
CN112614541A (zh) * 2020-12-16 2021-04-06 广州源井生物科技有限公司 基因编辑位点的自动筛选方法、系统、装置及存储介质
US11046948B2 (en) 2013-08-22 2021-06-29 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
CN113528633A (zh) * 2021-08-12 2021-10-22 湖北伯远合成生物科技有限公司 一种快速分析CRISPR/Cas9基因编辑载体构建情况的方法及应用
US11268082B2 (en) 2017-03-23 2022-03-08 President And Fellows Of Harvard College Nucleobase editors comprising nucleic acid programmable DNA binding proteins
US11306324B2 (en) 2016-10-14 2022-04-19 President And Fellows Of Harvard College AAV delivery of nucleobase editors
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
US11447770B1 (en) 2019-03-19 2022-09-20 The Broad Institute, Inc. Methods and compositions for prime editing nucleotide sequences
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
US11542496B2 (en) 2017-03-10 2023-01-03 President And Fellows Of Harvard College Cytosine to guanine base editor
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
US11661590B2 (en) 2016-08-09 2023-05-30 President And Fellows Of Harvard College Programmable CAS9-recombinase fusion proteins and uses thereof
CN116206684A (zh) * 2022-12-26 2023-06-02 纳昂达(南京)生物科技有限公司 一种评估基因组重复区探针捕获安全性的方法及其装置
US11732274B2 (en) 2017-07-28 2023-08-22 President And Fellows Of Harvard College Methods and compositions for evolving base editors using phage-assisted continuous evolution (PACE)
US11795443B2 (en) 2017-10-16 2023-10-24 The Broad Institute, Inc. Uses of adenosine base editors
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
US11912985B2 (en) 2020-05-08 2024-02-27 The Broad Institute, Inc. Methods and compositions for simultaneous editing of both strands of a target double-stranded nucleotide sequence

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103436548A (zh) * 2013-06-27 2013-12-11 遵义医学院 利用Tet-off诱导表达系统高通量筛选HIV-1整合酶抑制剂的方法
CN104073500A (zh) * 2013-03-29 2014-10-01 中国农业大学 一种筛选与prrsv感染和抗性相关的基因的方法
CN104419719A (zh) * 2013-09-02 2015-03-18 中国农业大学 一种转基因猪筛选标记基因敲除的方法
US20150322457A1 (en) * 2012-10-23 2015-11-12 Toolgen Incorporated Composition for cleaving a target dna comprising a guide rna specific for the target dna and cas protein-encoding nucleic acid or cas protein, and use thereof

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150322457A1 (en) * 2012-10-23 2015-11-12 Toolgen Incorporated Composition for cleaving a target dna comprising a guide rna specific for the target dna and cas protein-encoding nucleic acid or cas protein, and use thereof
CN104073500A (zh) * 2013-03-29 2014-10-01 中国农业大学 一种筛选与prrsv感染和抗性相关的基因的方法
CN103436548A (zh) * 2013-06-27 2013-12-11 遵义医学院 利用Tet-off诱导表达系统高通量筛选HIV-1整合酶抑制剂的方法
CN104419719A (zh) * 2013-09-02 2015-03-18 中国农业大学 一种转基因猪筛选标记基因敲除的方法

Cited By (57)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10323236B2 (en) 2011-07-22 2019-06-18 President And Fellows Of Harvard College Evaluation and improvement of nuclease cleavage specificity
US11920181B2 (en) 2013-08-09 2024-03-05 President And Fellows Of Harvard College Nuclease profiling system
US10954548B2 (en) 2013-08-09 2021-03-23 President And Fellows Of Harvard College Nuclease profiling system
US10508298B2 (en) 2013-08-09 2019-12-17 President And Fellows Of Harvard College Methods for identifying a target site of a CAS9 nuclease
US11046948B2 (en) 2013-08-22 2021-06-29 President And Fellows Of Harvard College Engineered transcription activator-like effector (TALE) domains and uses thereof
US10597679B2 (en) 2013-09-06 2020-03-24 President And Fellows Of Harvard College Switchable Cas9 nucleases and uses thereof
US9999671B2 (en) 2013-09-06 2018-06-19 President And Fellows Of Harvard College Delivery of negatively charged proteins using cationic lipids
US10912833B2 (en) 2013-09-06 2021-02-09 President And Fellows Of Harvard College Delivery of negatively charged proteins using cationic lipids
US11299755B2 (en) 2013-09-06 2022-04-12 President And Fellows Of Harvard College Switchable CAS9 nucleases and uses thereof
US10682410B2 (en) 2013-09-06 2020-06-16 President And Fellows Of Harvard College Delivery system for functional nucleases
US10858639B2 (en) 2013-09-06 2020-12-08 President And Fellows Of Harvard College CAS9 variants and uses thereof
US11124782B2 (en) 2013-12-12 2021-09-21 President And Fellows Of Harvard College Cas variants for gene editing
US11053481B2 (en) 2013-12-12 2021-07-06 President And Fellows Of Harvard College Fusions of Cas9 domains and nucleic acid-editing domains
US10465176B2 (en) 2013-12-12 2019-11-05 President And Fellows Of Harvard College Cas variants for gene editing
US10704062B2 (en) 2014-07-30 2020-07-07 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
US11578343B2 (en) 2014-07-30 2023-02-14 President And Fellows Of Harvard College CAS9 proteins including ligand-dependent inteins
US10167457B2 (en) 2015-10-23 2019-01-01 President And Fellows Of Harvard College Nucleobase editors and uses thereof
US11214780B2 (en) 2015-10-23 2022-01-04 President And Fellows Of Harvard College Nucleobase editors and uses thereof
US10113163B2 (en) 2016-08-03 2018-10-30 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
US11702651B2 (en) 2016-08-03 2023-07-18 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
US10947530B2 (en) 2016-08-03 2021-03-16 President And Fellows Of Harvard College Adenosine nucleobase editors and uses thereof
US11661590B2 (en) 2016-08-09 2023-05-30 President And Fellows Of Harvard College Programmable CAS9-recombinase fusion proteins and uses thereof
US11542509B2 (en) 2016-08-24 2023-01-03 President And Fellows Of Harvard College Incorporation of unnatural amino acids into proteins using base editing
US11306324B2 (en) 2016-10-14 2022-04-19 President And Fellows Of Harvard College AAV delivery of nucleobase editors
US10745677B2 (en) 2016-12-23 2020-08-18 President And Fellows Of Harvard College Editing of CCR5 receptor gene to protect against HIV infection
US11820969B2 (en) 2016-12-23 2023-11-21 President And Fellows Of Harvard College Editing of CCR2 receptor gene to protect against HIV infection
US11898179B2 (en) 2017-03-09 2024-02-13 President And Fellows Of Harvard College Suppression of pain by gene editing
US11542496B2 (en) 2017-03-10 2023-01-03 President And Fellows Of Harvard College Cytosine to guanine base editor
US11268082B2 (en) 2017-03-23 2022-03-08 President And Fellows Of Harvard College Nucleobase editors comprising nucleic acid programmable DNA binding proteins
US11560566B2 (en) 2017-05-12 2023-01-24 President And Fellows Of Harvard College Aptazyme-embedded guide RNAs for use with CRISPR-Cas9 in genome editing and transcriptional activation
US11732274B2 (en) 2017-07-28 2023-08-22 President And Fellows Of Harvard College Methods and compositions for evolving base editors using phage-assisted continuous evolution (PACE)
US11932884B2 (en) 2017-08-30 2024-03-19 President And Fellows Of Harvard College High efficiency base editors comprising Gam
US11319532B2 (en) 2017-08-30 2022-05-03 President And Fellows Of Harvard College High efficiency base editors comprising Gam
US11795443B2 (en) 2017-10-16 2023-10-24 The Broad Institute, Inc. Uses of adenosine base editors
CN108221058A (zh) * 2017-12-29 2018-06-29 苏州金唯智生物科技有限公司 一种猪全基因组sgRNA文库及其构建方法和应用
WO2019128744A1 (zh) 2017-12-29 2019-07-04 苏州金唯智生物科技有限公司 一种全基因组sgRNA文库的构建系统及其应用
CN108205614A (zh) * 2017-12-29 2018-06-26 苏州金唯智生物科技有限公司 一种全基因组sgRNA文库的构建系统及其应用
WO2019128743A1 (zh) 2017-12-29 2019-07-04 苏州金唯智生物科技有限公司 一种猪全基因组sgRNA文库及其构建方法和应用
CN110373430A (zh) * 2018-04-13 2019-10-25 青岛清原化合物有限公司 一种随机突变的基因编辑系统及其应用
CN110689924B (zh) * 2018-07-04 2023-07-14 广州赛业百沐生物科技有限公司 一种基于多种敲除类型的敲除策略筛选方法及系统
CN110689924A (zh) * 2018-07-04 2020-01-14 赛业(广州)生物科技有限公司 一种基于多种敲除类型的敲除策略筛选方法及系统
CN110751982B (zh) * 2018-07-04 2023-11-10 广州赛业百沐生物科技有限公司 一种智能并行化敲除策略筛选的方法及系统
CN110689923A (zh) * 2018-07-04 2020-01-14 赛业(广州)生物科技有限公司 一种自动并行化敲除策略序列重复性分析方法及其系统
CN110689923B (zh) * 2018-07-04 2022-05-17 广州赛业百沐生物科技有限公司 一种自动并行化敲除策略序列重复性分析方法及其系统
CN110751982A (zh) * 2018-07-04 2020-02-04 赛业(广州)生物科技有限公司 一种智能并行化敲除策略筛选的方法及系统
CN109411022A (zh) * 2018-11-07 2019-03-01 宁夏农林科学院农业生物技术研究中心(宁夏农业生物技术重点实验室) 一种基于字符切片技术的含PAM结构gRNA靶向序列筛选方法及应用
WO2020098772A1 (zh) * 2018-11-15 2020-05-22 中国农业大学 CRISPR-Cas12j酶和系统
US11795452B2 (en) 2019-03-19 2023-10-24 The Broad Institute, Inc. Methods and compositions for prime editing nucleotide sequences
US11447770B1 (en) 2019-03-19 2022-09-20 The Broad Institute, Inc. Methods and compositions for prime editing nucleotide sequences
US11643652B2 (en) 2019-03-19 2023-05-09 The Broad Institute, Inc. Methods and compositions for prime editing nucleotide sequences
CN111445947A (zh) * 2020-03-27 2020-07-24 武汉古奥基因科技有限公司 利用三代全长转录组的高原多倍体鱼类基因组注释方法
CN111549061A (zh) * 2020-05-07 2020-08-18 西南大学 一种高通量筛选真核生物细胞响应环境极端pH的靶点基因的方法
US11912985B2 (en) 2020-05-08 2024-02-27 The Broad Institute, Inc. Methods and compositions for simultaneous editing of both strands of a target double-stranded nucleotide sequence
CN112614541A (zh) * 2020-12-16 2021-04-06 广州源井生物科技有限公司 基因编辑位点的自动筛选方法、系统、装置及存储介质
CN113528633A (zh) * 2021-08-12 2021-10-22 湖北伯远合成生物科技有限公司 一种快速分析CRISPR/Cas9基因编辑载体构建情况的方法及应用
CN116206684A (zh) * 2022-12-26 2023-06-02 纳昂达(南京)生物科技有限公司 一种评估基因组重复区探针捕获安全性的方法及其装置
CN116206684B (zh) * 2022-12-26 2024-01-30 纳昂达(南京)生物科技有限公司 一种评估基因组重复区探针捕获安全性的方法及其装置

Also Published As

Publication number Publication date
CN106845151B (zh) 2019-03-26

Similar Documents

Publication Publication Date Title
CN106845151B (zh) CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置
EP3734602A1 (en) Whole genome sgrna library constructing system and application thereof
EP3733936A1 (en) Pig whole genome sgrna library, and construction method therefor and application thereof
CN107446954A (zh) 一种sd大鼠t细胞缺失遗传模型的制备方法
CN104450682B (zh) 一种组装叶绿体基因组序列的方法
CN105297142A (zh) 同时对单细胞基因组和转录组构库及测序的方法基于单细胞整合基因组学的测序方法及应用
CN109559780A (zh) 一种高通量测序的rna数据处理方法
CN108192893B (zh) 基于转录组测序开发艾纳香ssr引物的方法
CN115052994A (zh) 确定胚胎细胞染色体中预定位点碱基类型的方法及其应用
Kandziora et al. How to tackle phylogenetic discordance in recent and rapidly radiating groups? Developing a workflow using Loricaria (Asteraceae) as an example
CN110951911B (zh) 基于转录组的椴树属est-ssr引物及其筛选方法和应用
Giaretta et al. Phylogenetic relationships within the hyper-diverse genus Eugenia (Myrtaceae: Myrteae) based on target enrichment sequencing
CN105528532B (zh) 一种rna编辑位点的特征分析方法
CN105925680A (zh) 一种四倍体马铃薯高通量测序开发标记的方法及其应用
CN105506075B (zh) 一种与梨黑斑病抗性相关的snp标记及应用
CN109486991B (zh) 鉴定梨和苹果属间杂交种的分子标记引物组合物及其应用
CN108588238A (zh) 一种快速鉴定锈斑蟳性别特异分子标记和遗传性别的方法
CN110890134B (zh) 利用叶绿体基因组大单拷贝区鉴别枫斗类石斛基源的方法
Hu et al. Intraspecific phylogeny and genomic resources development for an important medical plant Dioscorea nipponica, based on low-coverage whole genome sequencing data
KR101911307B1 (ko) 유전자 단위에서 단상형을 구분하는 태그-snp 선발 및 활용 기술
CN110684830A (zh) 一种石蜡切片组织rna分析方法
CN102676682A (zh) 一种应用8重pcr进行胡杨群体遗传分析和亲子鉴定的方法
CN108509769A (zh) 确定预定物种的基因表达和甲基化修饰调控的关系的方法
CN113355445B (zh) 梨品种特异性分子标记及其筛选方法和应用
CN110232952A (zh) 一种批量分析微卫星数据的生物信息学方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant