CN107784200B - 一种筛选新型CRISPR-Cas系统的方法和装置 - Google Patents
一种筛选新型CRISPR-Cas系统的方法和装置 Download PDFInfo
- Publication number
- CN107784200B CN107784200B CN201610741844.0A CN201610741844A CN107784200B CN 107784200 B CN107784200 B CN 107784200B CN 201610741844 A CN201610741844 A CN 201610741844A CN 107784200 B CN107784200 B CN 107784200B
- Authority
- CN
- China
- Prior art keywords
- protein
- length
- region
- strain
- cas1
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B25/00—ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
Landscapes
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Medical Informatics (AREA)
- Genetics & Genomics (AREA)
- Biophysics (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Theoretical Computer Science (AREA)
- Chemical & Material Sciences (AREA)
- Analytical Chemistry (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明公开了一种筛选新型CRISPR‑Cas系统的方法和装置,该方法包括:提供菌株的预测出的基因序列和蛋白序列;获取CRISPR区域和含有cas1注释信息的蛋白;寻找cas1或重复序列附近第一长度范围内大于第二长度的蛋白,并提取菌株候选区域的蛋白序列;进行比对;提取出蛋白一致性最高的注释结果,筛选出与cas9或cpf1型具有非100%比对率的高度同源菌株,进行二级结构预测,得到蛋白的元件排布位置信息,并将不符合cas9或cpf1元件排布的蛋白挑选出来,作为候选蛋白。本发明的方法可对单菌种基因组数据进行分析,挑选出可能属于新型CRISPR‑Cas系统的菌株蛋白。
Description
技术领域
本发明涉及基因编辑技术领域,尤其涉及一种筛选新型CRISPR-Cas系统的方法和装置。
背景技术
CRISPR(Clustered regularly interspaced short palindromic repeats),被称为规律成簇间隔短回文重复,实际上是一种基因编辑器,是大多数细菌及古细菌中的一种天然免疫方式。通过对CRISPR簇的侧翼序列分析发现,在其附近存在一个多态性家族基因,并且与CRISPR区域共同发挥作用,因此被命名为CRISPR关联基因(CRISPRassociated),缩写为Cas。大多数的CRISPR-Cas系统都含有cas1蛋白,而且cas1是Cas家族中较为保守的蛋白。根据效应模块的结构,目前被发现的CRISPR-Cas系统主要有两类:一类(Class1)包含多个Cas蛋白并有多个效应蛋白(effector)共同作用,主要包括I型(TypeI)、III型(Type III);二类(Class2)仅包含一个巨大的效应蛋白,包括Ⅱ型(TypeⅡ)和Ⅴ型(TypeⅤ)。目前,Class2主要有Cas9系统(Ⅱ型)和Cpf1(Ⅴ型)系统,并且广泛用于基因编辑应用中(Shmakov S,Abudayyeh OO,et al.“Discovery and FunctionalCharacterization of Diverse Class 2CRISPR-Cas Systems.”Mol Cell.2015,60(3):385-97,通过引用并入本文)。
现有的CRISPR-Cas系统仍存在一些缺点,如CRISPR-Cas9需要特殊的载体或者牺牲转染效率,并且在哺乳动物细胞中很容易被内源RNA干扰,因此寻找新型的基因编辑系统非常重要。
发明内容
本发明提供一种筛选新型CRISPR-Cas系统的方法和装置,可对单菌种基因组数据进行分析,挑选出可能属于新型CRISPR-Cas系统的菌株蛋白。
根据本发明的第一方面,本发明提供一种筛选新型CRISPR-Cas系统的方法,包括:提供菌株的预测出的基因序列和蛋白序列;获取上述基因序列中的CRISPR区域,并对上述蛋白序列进行注释以获得含有cas1注释信息的蛋白;寻找上述cas1或上述CRISPR区域的重复序列附近第一长度范围内大于第二长度的蛋白,并提取满足设定条件的菌株候选区域的蛋白序列;将上述满足设定条件的菌株候选区域的蛋白序列与蛋白质数据库进行比对,获得比对结果;从上述比对结果中,提取出蛋白一致性最高的注释结果,并筛选出与cas9或cpf1型具有非100%比对率的高度同源菌株;对上述高度同源菌株的蛋白序列进行二级结构预测,得到蛋白的元件排布位置信息,并将不符合cas9或cpf1元件排布的蛋白挑选出来,作为候选蛋白。
进一步地,上述设定条件包括如下至少一个:
(a)有cas1和CRISPR区域中的重复序列,并且不属于I型或III型,而且上述cas1与上述重复序列在同一条组装片段上,上述cas1区域附近第一长度范围内具有大于第二长度的蛋白;
(b)无cas1,但有CRISPR区域中的重复序列,上述重复序列区域附近第一长度范围内具有大于第二长度的蛋白。
(c)有cas1,没有CRISPR区域中的重复序列,cas1区域附近第一长度范围内具有大于第二长度的蛋白。
进一步地,上述提取满足设定条件的菌株候选区域的蛋白序列具体包括:
(a)剔除不满足上述设定条件的菌株区域;和
(b)将满足设定条件的菌株区域作为菌株候选区域并提取上述候选区域的蛋白序列。
进一步地,上述步骤(a)中不满足上述设定条件的菌株区域包括:没有cas1和重复序列区域,只属于I型的区域,只属于III型的区域,没有cas1、有重复序列区域但在重复序列区域附近第一长度范围内没有大于第二长度的蛋白,没有重复序列区域、有cas1但在cas1附近上下游第一长度范围内没有大于第二长度的蛋白。
进一步地,上述步骤(b)具体包括:
(b1)对于有cas1的情况,若属于I型或III型则剔除cas1上下游第一长度范围内的区域;若不属于I型或III型,则提取cas1上下游第一长度范围内大于第二长度的蛋白序列,再判断是否存在重复序列区域,
(b11)若存在重复序列区域,并且cas1和重复序列区域在同一条组装片段上,则保留提取的cas1上下游第一长度范围内大于第二长度的蛋白序列;若cas1和重复序列区域不在同一条组装片段上,则剔除cas1上下游第一长度范围内的区域;
(b12)若不存在重复序列区域,则保留提取的cas1上下游第一长度范围内大于第二长度的蛋白序列;
(b2)对于无cas1的情况,提取并保留重复序列区域上下游第一长度范围内大于第二长度的蛋白序列。
进一步地,上述蛋白质数据库是非冗余的蛋白质数据库。
进一步地,上述第一长度为10-40kb个碱基,上述第二长度为400-600个氨基酸。
进一步地,上述第一长度为20kb个碱基,上述第二长度为500个氨基酸。
本发明还提供一种筛选新型CRISPR-Cas系统的方法,包括:提供菌株的预测出的基因序列和蛋白序列;获取上述基因序列中的CRISPR区域,并对上述蛋白序列进行注释以获得含有cas1注释信息的蛋白;寻找上述cas1或上述CRISPR区域的重复序列附近第一长度范围内大于第二长度的蛋白,并提取满足设定条件的菌株候选区域的蛋白序列;将上述满足设定条件的菌株候选区域的蛋白序列与蛋白质数据库进行比对,获得比对结果;从上述比对结果中,提取出蛋白一致性最高的注释结果,将没有注释到cas9或cpf1的菌株保留,将长度大于第二长度的蛋白作为候选蛋白。优选地,上述第二长度为400-600个氨基酸;更优选地,上述第二长度为500个氨基酸。
根据本发明的第二方面,本发明提供一种筛选新型CRISPR-Cas系统的装置,包括:基因和蛋白序列预测单元,用于提供菌株的预测出的基因序列和蛋白序列;CRISPR获取和蛋白注释单元,用于获取上述基因序列中的CRISPR区域,并对上述蛋白序列进行注释以获得含有cas1注释信息的蛋白;菌株候选区域提取单元,用于寻找上述cas1或上述CRISPR区域的重复序列附近第一长度范围内大于第二长度的蛋白,并提取满足设定条件的菌株候选区域的蛋白序列;比对单元,用于将上述满足设定条件的菌株候选区域的蛋白序列与蛋白质数据库进行比对,获得比对结果;高度同源菌株筛选单元,用于从上述比对结果中,提取出蛋白一致性最高的注释结果,并筛选出与cas9或cpf1型具有非100%比对率的高度同源菌株;二级结构预测单元,用于对上述高度同源菌株的蛋白序列进行二级结构预测,得到蛋白的元件排布位置信息,并将不符合cas9或cpf1元件排布的蛋白挑选出来,作为候选蛋白;任选地,还包括非注释菌株保留单元,用于将没有注释到cas9或cpf1的菌株保留,并将长度大于第二长度的蛋白作为候选蛋白。
本发明提供一种筛选新型CRISPR-Cas系统的方法和装置,将菌株的筛选流程化,针对庞大的微生物菌株进行筛选,能够有效缩小候选潜在新系统的菌株范围,并且针对潜在的候选新系统菌株能够准确的挑选出候选效应蛋白,进行有效定位,从而缩小候选区域的范围。能够系统而又快速地缩小候选菌株范围并挑选出潜在的属于新型CRISPR-Cas系统的效应蛋白。
附图说明
图1为本发明一种实施方案的筛选新型CRISPR-Cas系统的方法的流程示意图;
图2为本发明一种实施方案的筛选新型CRISPR-Cas系统的装置的结构框图;
图3显示了属于c2c1、c2c2和c2c3的9株菌株候选区域的元件排布情况,CRISPR中重复序列区域的数量在图中标出,且图中标明了Genbank ID号和其所在基因组中的位置信息。
具体实施方式
下面通过具体实施方式结合附图对本发明作进一步详细说明。
在本发明中,除非另有说明,否则本文中使用的科学和技术名词具有本领域技术人员所通常理解的含义。并且,本文中所使用的各种实验室操作步骤均为相应领域内广泛使用的常规步骤。同时,为了更好地理解本发明,下面提供相关术语的定义和解释。
新型CRISPR-Cas系统:定义为属于非Cas9和Cpf1的二类(Class2)的CRISPR-Cas系统。
CRISPR:Clustered regularly interspaced short palindromic repeats,被称为规律成簇间隔短回文重复。
Cas:对CRISPR簇的侧翼序列分析发现,在其附近存在一个多态性家族基因。并且与CRISPR区域共同发挥作用,因此被命名为CRISPR关联基因(CRISPR associated),缩写为Cas。
效应蛋白(effector):能与向导RNA结合组成核心元件,并行使基因编辑功能的效应蛋白。
重复序列(repeat):CRISPR区域中的重复序列。
高度同源,本发明所称的“高度同源”一般指70%以上的同源率,优选90%以上的同源率。
如图1所示,在本发明一种实施方案中,筛选新型CRISPR-Cas系统的方法包括如下步骤:
102:提供菌株的预测出的基因序列和蛋白序列。
对菌株的基因组数据(本发明中,可以是全基因组,也可以是基因组草图)进行基因和蛋白预测,获得每个菌株预测出的基因序列和蛋白序列。具体可以使用MetaGeneMark(v2.8版本)软件(http://exon.gatech.edu/meta_gmhmmp.cgi)。
104:获取上述基因序列中的CRISPR区域,并对上述蛋白序列进行注释以获得含有cas1注释信息的蛋白。具体可以包括:
104a)寻找CRISPR区域:对预测的菌株基因序列寻找CRISPR区域,具体可以使用pilercer(1.06版本)软件(http://www.drive5.com/pilercr/),是专门寻找CRISPR区域的软件,运行结果中会告知CRISPR区域中重复序列(repeat)区域和间隔序列(spacer)区域在基因组中的位置。其原理是根据36~37bp长度的重复序列寻找到规律成簇间隔短重复序列。
104b)对预测的菌株蛋白序列进行注释,具体可以使用interproscan(5.16-55.0版本)软件,interproscan软件的来源如下:
ftp://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.16-55.0/interproscan-5.16-55.0-64-bit.tar.gz。
104c)寻找cas1区域:根据注释结果,得到含有cas1注释信息的蛋白。
106:寻找上述cas1或上述CRISPR区域的重复序列附近第一长度范围内大于第二长度的蛋白,并提取满足设定条件的菌株候选区域的蛋白序列。
根据经验,第一长度为10-40kb个碱基,第二长度为400-600个氨基酸,能取得较好的效果;更优选地,第一长度为20kb个碱基,第二长度为500个氨基酸。以下说明部分和实施例中,以第一长度为20kb个碱基,第二长度为500个氨基酸为例,应当理解,并不局限于此。
本发明中,上述设定条件可以包括如下至少一个:(a)有cas1和CRISPR区域中的重复序列,并且不属于I型或III型,而且上述cas1与上述重复序列在同一条组装片段上,上述cas1区域附近第一长度范围内具有大于第二长度的蛋白;(b)无cas1,但有CRISPR区域中的重复序列,上述重复序列区域附近第一长度范围内具有大于第二长度的蛋白;(c)有cas1,没有CRISPR区域中的重复序列,上述cas1区域附近第一长度范围内具有大于第二长度的蛋白。
更具体而言,提取满足设定条件的菌株候选区域的蛋白序列可以具体包括:(a)剔除不满足上述设定条件的菌株区域;和(b)将满足设定条件的菌株区域作为菌株候选区域并提取上述候选区域的蛋白序列。
其中,(a)剔除不满足上述设定条件的菌株区域,具体可以是,对于如下五种情况的菌株区域进行剔除,不纳入后续分析:没有cas1和重复序列(repeat)区域、只属于I型的区域、只属于III型的区域、没有cas1有重复序列(repeat)区域但是在重复序列(repeat)区域附近20kb范围内没有>500aa的蛋白、没有重复序列(repeat)区域有cas1但是在cas1附近上下游20kb范围内没有>500的蛋白。
其中,(b)将满足设定条件的菌株区域作为菌株候选区域并提取上述候选区域的蛋白序列,具体可以包括:对满足如下条件的菌株区域将其蛋白序列进行提取,得到其序列文件:有cas1且cas1上下游20kb范围内有>500aa的蛋白、无cas1但在重复序列(repeat)区域上下游20kb范围内有>500aa的蛋白。具体判断方法如下:
i)判断是否有cas1和重复序列(repeat)区域,若两者都不存在,则剔除菌株。
ⅱ)若有cas1,则先判断是否属于I型或III型,若属于I型或III型则剔除cas1上下游20kb范围内的区域;若不属于I型或III型,则提取cas1上下游20kb范围内>500aa的蛋白,再判断是否存在重复序列(repeat)区域。若存在重复序列(repeat)区域,判断cas1和重复序列(repeat)区域是否在同一条组装片段(scaffold)上,若在同一条组装片段上,则保留此菌株区域,将提取的cas1上下游20kb范围>500aa的蛋白序列保留;若不在同一条组装片段上,则剔除cas1上下游20kb范围内的区域。若不存在重复序列(repeat)区域(多个现有的预测重复序列(repeat)区域的软件都未能找到重复序列(repeat)区域,如:Crisprfinder,REPfind),则将提取的cas1上下游20kb范围>500aa的蛋白序列保留。
ⅲ)若无cas1,则提取重复序列(repeat)区域上下游20kb范围内>500aa的蛋白,若重复序列(repeat)区域上下游20kb范围内存在>500aa的蛋白,则将提取的蛋白序列保留;若重复序列(repeat)区域上下游20kb范围内不存在>500aa的蛋白则剔除重复序列(repeat)上下游20kb范围的区域。
108:将上述满足设定条件的菌株候选区域的蛋白序列与蛋白质数据库进行比对,获得比对结果。
该步骤,具体可以使用非冗余的蛋白质数据库(the non-redunant proteindatabase,NR)进行比对(例如psi-blast比对),获得候选菌株区域的蛋白比对结果。
110a:从上述比对结果中,提取出蛋白一致性最高的注释结果,并筛选出与cas9或cpf1型具有非100%比对率的高度同源菌株。
根据一致性(identities),从比对结果中,提取出蛋白最优(一致性最高)的注释结果。获得候选蛋白中具有最高一致性的比对结果。
该步骤,根据比对的注释信息:一方面,筛选出疑似属于与cas9或cpf1型高度同源(具有非100%比对率)的菌株,进入下一步处理;另一方面,剩余菌株没有注释到cas9或cpf1可以保留,用于人工筛选(如蛋白实验),需要对其蛋白的功能和结构进行深入分析。
110b:从比对结果中,提取出蛋白一致性最高的注释结果,将没有注释到cas9或cpf1的菌株保留,将长度大于第二长度的蛋白作为候选蛋白。
该步骤中,第二长度具有上述相同的含义。
需要说明的是,步骤110a和110b是两个并行的步骤,二者并没有互相依赖关系,并且在具体实施例中可以只包括步骤110a和110b中的一个步骤,也可以包括两个步骤,优选包括两个步骤。
112:对上述高度同源菌株的蛋白序列进行二级结构预测,得到蛋白的元件排布位置信息,并将不符合cas9或cpf1元件排布的蛋白挑选出来,作为候选蛋白。具体可以包括:
112a)将100%比对到cas9或cpf1的菌株蛋白20kb区域剔除;
112b)将高度同源(非100%比对率)比对到cas9或cpf1的菌株蛋白20kb范围内的所有>500aa蛋白的比对信息保留,用于蛋白二级结构预测;
112c)蛋白二级结构预测:对与cas9或cpf1高度同源(非100%比对率)的菌株蛋白进行蛋白二级结构预测,获得菌株蛋白二级结构结果,具体可以使用psi-pred(psipred.4.0版本)(http://bioinf.cs.ucl.ac.uk/software_downloads/)。
112d)根据蛋白二级结构预测的结果,分析蛋白内元件排布情况:在蛋白二级结构预测的结果中,可以根据Ruvc(Crossover junction endodeoxyribonuclease RuvC)的保守位点特征判断Ruvc I、Ruvc II和Ruvc III是否存在于蛋白中。根据interproscan的注释结果,可以得到HNH(His-Asn-His)的位置信息。可以根据蛋白内元件的排布情况进行筛选,将不符合cas9或cpf1元件排布的蛋白挑选出来,作为候选蛋白保留;将符合cas9或cpf1元件排布的蛋白进行剔除。
本发明的筛选新型CRISPR-Cas系统的方法在后续有重要的潜在应用。本发明的筛选流程可以不断更新,持续对自然界的菌种信息做筛选,进而可以开发更多的新型CRISPR-Cas基因编辑系统。对于筛选出的新型CRISPR-Cas基因编辑系统,可以增加现有的基因编辑系统的多样性,提供更多的选择。CRISPR-Cas系统由于设计简便、高效和多样性的应用开发,已成为科研、医疗和农业等多个领域的重要基因编辑工具,在基因功能性研究、疾病模型和机理研究、高通量基因功能筛选研究、基因工程细胞治疗和植物抗逆、增产等方向均发挥了巨大的作用,可以应用到特定位点的基因组改造、外源基因定向插入、内源基因的调控等。
对应于上述筛选新型CRISPR-Cas系统的方法,本发明还提供一种筛选新型CRISPR-Cas系统的装置,如图2所示,包括:基因和蛋白序列预测单元202,用于提供菌株的预测出的基因序列和蛋白序列;CRISPR获取和蛋白注释单元204,用于获取上述基因序列中的CRISPR区域,并对上述蛋白序列进行注释以获得含有cas1注释信息的蛋白;菌株候选区域提取单元206,用于寻找上述cas1或上述CRISPR区域的重复序列附近第一长度范围内大于第二长度的蛋白,并提取满足设定条件的菌株候选区域的蛋白序列;比对单元208,用于将上述满足设定条件的菌株候选区域的蛋白序列与蛋白质数据库进行比对,获得比对结果;高度同源菌株筛选单元210a,用于从上述比对结果中,提取出蛋白一致性最高的注释结果,并筛选出与cas9或cpf1型具有非100%比对率的高度同源菌株;二级结构预测单元212,用于对上述高度同源菌株的蛋白序列进行二级结构预测,得到蛋白的元件排布位置信息,并将不符合cas9或cpf1元件排布的蛋白挑选出来,作为候选蛋白;任选地,还包括非注释菌株保留单元210b,用于将没有注释到cas9或cpf1的菌株保留,并将长度大于第二长度的蛋白作为候选蛋白。
本领域普通技术人员可以理解,上述实施方式中各种方法的全部或部分步骤可以通过程序来指令相关硬件完成,该程序可以存储于一计算机可读存储介质中,存储介质可以包括:只读存储器、随机存储器、磁盘或光盘等。
以下通过实施例详细说明本发明的具体实现和技术效果,应当理解,实施例仅是示例性的,不能理解为对本发明保护范围的限制。
实施例1
本实施例,用于证明本发明的方法能够有效地缩小候选菌株和候选蛋白的数量。本实施例,按照图1所示的方法进行。具体地,使用MetaGeneMark(v2.8版本)软件预测每个菌株的基因序列和蛋白序列;使用pilercer(1.06版本)软件寻找CRISPR区域;使用interproscan(5.16-55.0版本)软件对预测的菌株蛋白序列进行注释;设定第一长度为20kb个碱基,第二长度为500个氨基酸,寻找cas1或CRISPR区域的重复序列附近20kb个碱基范围内大于500个氨基酸的蛋白,并提取满足设定条件的菌株候选区域的蛋白序列;设定条件包括:(a)有cas1和CRISPR区域中的重复序列,并且不属于I型或III型,而且上述cas1与上述重复序列在同一条组装片段上,上述cas1区域附近第一长度范围内具有大于第二长度的蛋白;以及(b)无cas1,但有CRISPR区域中的重复序列,上述重复序列区域附近第一长度范围内具有大于第二长度的蛋白;使用非冗余的蛋白质数据库(the non-redunantprotein database,NR)进行比对;提取出蛋白一致性最高的注释结果,并筛选出与cas9或cpf1型具有非100%比对率的高度同源菌株,使用psi-pred(psipred.4.0)对非100%比对到cas9或cpf1型的高度同源菌株的蛋白序列进行二级结构预测,得到蛋白的元件排布位置信息,并将不符合cas9或cpf1元件排布的蛋白挑选出来,作为候选蛋白;同时,将没有注释到cas9或cpf1的菌株保留,将长度大于第二长度的蛋白作为候选蛋白。
本实施例,深圳华大基因研究院的2310株菌株的蛋白数量总共有8142667。通过新型CRISPR-Cas系统的筛选流程分析,筛选出有Cas1和CRISPR的菌株415株,其中候选区域的蛋白总共有2024;筛选出有CRISPR无Cas1的菌株122株,其中候选区域的蛋白总共有759;筛选出无CRISPR有Cas1的菌株181株,其中候选区域的蛋白总共有727。筛选得到的候选蛋白后续可用于人工筛选(如蛋白实验),对其蛋白的功能和结构进行深入分析。从流程筛选前后的数据对比中可以看出,新型CRISPR-Cas系统的筛选流程可以有效缩小候选菌株和候选蛋白的数量。
实施例2
本实施例验证本发明的方法的可行性和高效性。本实施例的实验条件和参数与实施例1相同。
新型CRISPR-Cas系统的筛选流程适用于对单菌种基因组数据进行分析,挑选出可能存在新系统的菌株,此新系统属于非cas9和cpf1的二类(Class2)的CRISPR-Cas系统。为了验证流程的可行性和高效性,从NCBI数据库分别下载了属于c2c1,c2c2和c2c3的非cas9和cpf1的二类(Class2)的CRISPR-Cas系统、I型系统、III型系统、CRISPR-cas9系统、CRISPR-cpf1系统和同时具有cas9系统和cpf1系统的菌株的基因组信息进行流程验证。共对14株菌株进行流程验证,验证新型CRISPR-Cas系统的筛选流程的可行性和高效性。
1)菌株信息统计
总共分析了14株菌株进行流程验证,其中属于c2c1、c2c2和c2c3系统的菌株作为阳性数据进行流程验证,其他5株菌株作为阴性数据来验证流程,菌株的具体信息如表1和表2所示。
表1验证新型CRISPR-Cas系统的筛选流程所需菌株具体信息(阳性数据)
表2验证新型CRISPR-Cas系统的筛选流程所需菌株具体信息(阴性数据)
对于阳性数据,已知属于c2c1、c2c2和c2c3系统的9株菌株候选区域的元件排布情况,如图3所示。图3中标示了重复序列(repeat)区域及其数量、候选蛋白和cas1等信息。对于阴性数据,从NBCI上可以得知其效应蛋白的位置信息,如表2所示。根据图3,对属于c2c1、c2c2和c2c3系统菌株的候选区域所包含的元件进行统计,如表3所示。
表3:候选区域元件信息统计
2)菌株筛查
用如上表1和表2的14株菌株来验证新型CRISPR-Cas系统的筛选流程,最终结果如表4所示。
表4:新型CRISPR-Cas系统的筛选流程对14株菌株分析结果
表3中可以发现,从属于c2c1、c2c2和c2c3系统的9株菌株中正确筛选出来了8株菌株。b1_c2c3在文献中是归为有CRISPR无cas1类中,但是在此筛选流程中却将其丢弃掉,考虑到可能是由于CRISPR本地查找软件pilercer1.06、软件Crispr finder具有一定的错误率存在,所以在b1_c2c3中没有找到重复序列(repeat)区域。对于只属于cas9系统的菌株区域、只属于cpf1系统的菌株区域和同时具有cas9和cpf1系统的菌株区域,都可以准确的将其归类到100%比对到cas9或cpf1系统中。对于属于I和III型的菌株区域,在流程分析过程中已经进行剔除。
根据对14株菌株的分析结果,可以发现新型CRISPR-Cas系统的筛选流程将其中的13株菌株都进行了正确的筛选分析,得到了预期的结果。
3)候选效应蛋白准确度评估
新型CRISPR-Cas系统的筛选流程对菌株进行筛选,需要验证所筛选出的候选效应蛋白区域是否包含图3所示的效应蛋白,从而证明新型CRISPR-Cas系统的筛选流程的准确性和有效性。如表5和表6中所示,展示了新型CRISPR-Cas系统的筛选流程筛选出的候选效应蛋白的准确性。
表5:新型CRISPR-Cas系统的筛选流程筛选出候选效应蛋白的结果统计(阳性数据)
表6:新型CRISPR-Cas系统的筛选流程对阴性数据的结果统计
从表5和表6的分析结果中可以看出,新型CRISPR-Cas系统的筛选流程可以对菌株进行有效的筛选,挑选出可能存在非cas9和cpf1的二类(Class2)的CRISPR-Cas系统的菌株,对属于cas9和cpf1的Class2的菌株区域和属于I型和III型的菌株区域进行剔除。并对筛选出的可能属于非cas9和cpf1的二类(Class2)的CRISPR-Cas系统的菌株区域中潜在存在的效应蛋白进行有效的定位,缩小候选区域范围。
以上内容是结合具体的实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (13)
1.一种筛选新型CRISPR-Cas系统的方法,其特征在于,所述方法包括:
提供菌株的预测出的基因序列和蛋白序列;
获取所述基因序列中的CRISPR区域,并对所述蛋白序列进行注释以获得含有cas1注释信息的蛋白;
寻找所述cas1或所述CRISPR区域的重复序列附近第一长度范围内大于第二长度的蛋白,并提取满足设定条件的菌株候选区域的蛋白序列;
将所述满足设定条件的菌株候选区域的蛋白序列与蛋白质数据库进行比对,获得比对结果;
从所述比对结果中,提取出蛋白一致性最高的注释结果,并筛选出与cas9或cpf1型具有非100%比对率的高度同源菌株;
对所述高度同源菌株的蛋白序列进行二级结构预测,得到蛋白的元件排布位置信息,并将不符合cas9或cpf1元件排布的蛋白挑选出来,作为候选蛋白。
2.根据权利要求1所述的筛选新型CRISPR-Cas系统的方法,其特征在于,所述设定条件包括如下至少一个:
(a)有cas1和CRISPR区域中的重复序列,并且不属于I型或III型,而且所述cas1与所述重复序列在同一条组装片段上,所述cas1区域附近第一长度范围内具有大于第二长度的蛋白;
(b)无cas1,但有CRISPR区域中的重复序列,所述重复序列区域附近第一长度范围内具有大于第二长度的蛋白;
(c)有cas1,没有CRISPR区域中的重复序列,所述cas1区域附近第一长度范围内具有大于第二长度的蛋白。
3.根据权利要求1所述的筛选新型CRISPR-Cas系统的方法,其特征在于,所述提取满足设定条件的菌株候选区域的蛋白序列具体包括:
(a)剔除不满足所述设定条件的菌株区域;和
(b)将满足设定条件的菌株区域作为菌株候选区域并提取所述候选区域的蛋白序列。
4.根据权利要求3所述的筛选新型CRISPR-Cas系统的方法,其特征在于,所述步骤(a)中不满足所述设定条件的菌株区域包括:没有cas1和重复序列区域,只属于I型的区域,只属于III型的区域,没有cas1、有重复序列区域但在重复序列区域附近第一长度范围内没有大于第二长度的蛋白,没有重复序列区域、有cas1但在cas1附近上下游第一长度范围内没有大于第二长度的蛋白。
5.根据权利要求3所述的筛选新型CRISPR-Cas系统的方法,其特征在于,所述步骤(b)具体包括:
(b1)对于有cas1的情况,若属于I型或III型则剔除cas1上下游第一长度范围内的区域;若不属于I型或III型,则提取cas1上下游第一长度范围内大于第二长度的蛋白序列,再判断是否存在重复序列区域,
(b11)若存在重复序列区域,并且cas1和重复序列区域在同一条组装片段上,则保留提取的cas1上下游第一长度范围内大于第二长度的蛋白序列;若cas1和重复序列区域不在同一条组装片段上,则剔除cas1上下游第一长度范围内的区域;
(b12)若不存在重复序列区域,则保留提取的cas1上下游第一长度范围内大于第二长度的蛋白序列;
(b2)对于无cas1的情况,提取并保留重复序列区域上下游第一长度范围内大于第二长度的蛋白序列。
6.根据权利要求1所述的筛选新型CRISPR-Cas系统的方法,其特征在于,所述蛋白质数据库是非冗余的蛋白质数据库。
7.根据权利要求1-6任一项所述的筛选新型CRISPR-Cas系统的方法,其特征在于,所述第一长度为10-40kb个碱基,所述第二长度为400-600个氨基酸。
8.根据权利要求1-6任一项所述的筛选新型CRISPR-Cas系统的方法,其特征在于,所述第一长度为20kb个碱基,所述第二长度为500个氨基酸。
9.一种筛选新型CRISPR-Cas系统的方法,其特征在于,所述方法包括:
提供菌株的预测出的基因序列和蛋白序列;
获取所述基因序列中的CRISPR区域,并对所述蛋白序列进行注释以获得含有cas1注释信息的蛋白;
寻找所述cas1或所述CRISPR区域的重复序列附近第一长度范围内大于第二长度的蛋白,并提取满足设定条件的菌株候选区域的蛋白序列;
将所述满足设定条件的菌株候选区域的蛋白序列与蛋白质数据库进行比对,获得比对结果;
从所述比对结果中,提取出蛋白一致性最高的注释结果,将没有注释到cas9或cpf1的菌株保留,将长度大于第二长度的蛋白作为候选蛋白。
10.根据权利要求9所述的筛选新型CRISPR-Cas系统的方法,其特征在于,所述第二长度为400-600个氨基酸。
11.根据权利要求9所述的筛选新型CRISPR-Cas系统的方法,其特征在于,所述第二长度为500个氨基酸。
12.一种筛选新型CRISPR-Cas系统的装置,其特征在于,所述装置包括:
基因和蛋白序列预测单元,用于提供菌株的预测出的基因序列和蛋白序列;
CRISPR获取和蛋白注释单元,用于获取所述基因序列中的CRISPR区域,并对所述蛋白序列进行注释以获得含有cas1注释信息的蛋白;
菌株候选区域提取单元,用于寻找所述cas1或所述CRISPR区域的重复序列附近第一长度范围内大于第二长度的蛋白,并提取满足设定条件的菌株候选区域的蛋白序列;
比对单元,用于将所述满足设定条件的菌株候选区域的蛋白序列与蛋白质数据库进行比对,获得比对结果;
高度同源菌株筛选单元,用于从所述比对结果中,提取出蛋白一致性最高的注释结果,并筛选出与cas9或cpf1型具有非100%比对率的高度同源菌株;
二级结构预测单元,用于对所述高度同源菌株的蛋白序列进行二级结构预测,得到蛋白的元件排布位置信息,并将不符合cas9或cpf1元件排布的蛋白挑选出来,作为候选蛋白。
13.根据权利要求12所述的筛选新型CRISPR-Cas系统的装置,其特征在于,还包括非注释菌株保留单元,用于将没有注释到cas9或cpf1的菌株保留,并将长度大于第二长度的蛋白作为候选蛋白。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610741844.0A CN107784200B (zh) | 2016-08-26 | 2016-08-26 | 一种筛选新型CRISPR-Cas系统的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610741844.0A CN107784200B (zh) | 2016-08-26 | 2016-08-26 | 一种筛选新型CRISPR-Cas系统的方法和装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107784200A CN107784200A (zh) | 2018-03-09 |
CN107784200B true CN107784200B (zh) | 2020-11-06 |
Family
ID=61440613
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610741844.0A Active CN107784200B (zh) | 2016-08-26 | 2016-08-26 | 一种筛选新型CRISPR-Cas系统的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107784200B (zh) |
Families Citing this family (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2734621B1 (en) | 2011-07-22 | 2019-09-04 | President and Fellows of Harvard College | Evaluation and improvement of nuclease cleavage specificity |
US9163284B2 (en) | 2013-08-09 | 2015-10-20 | President And Fellows Of Harvard College | Methods for identifying a target site of a Cas9 nuclease |
US9359599B2 (en) | 2013-08-22 | 2016-06-07 | President And Fellows Of Harvard College | Engineered transcription activator-like effector (TALE) domains and uses thereof |
US9322037B2 (en) | 2013-09-06 | 2016-04-26 | President And Fellows Of Harvard College | Cas9-FokI fusion proteins and uses thereof |
US9340799B2 (en) | 2013-09-06 | 2016-05-17 | President And Fellows Of Harvard College | MRNA-sensing switchable gRNAs |
US9526784B2 (en) | 2013-09-06 | 2016-12-27 | President And Fellows Of Harvard College | Delivery system for functional nucleases |
US9840699B2 (en) | 2013-12-12 | 2017-12-12 | President And Fellows Of Harvard College | Methods for nucleic acid editing |
AU2015298571B2 (en) | 2014-07-30 | 2020-09-03 | President And Fellows Of Harvard College | Cas9 proteins including ligand-dependent inteins |
IL310721A (en) | 2015-10-23 | 2024-04-01 | Harvard College | Nucleobase editors and their uses |
EP3494215A1 (en) | 2016-08-03 | 2019-06-12 | President and Fellows of Harvard College | Adenosine nucleobase editors and uses thereof |
EP3497214B1 (en) | 2016-08-09 | 2023-06-28 | President and Fellows of Harvard College | Programmable cas9-recombinase fusion proteins and uses thereof |
WO2018039438A1 (en) | 2016-08-24 | 2018-03-01 | President And Fellows Of Harvard College | Incorporation of unnatural amino acids into proteins using base editing |
JP2019530464A (ja) | 2016-10-14 | 2019-10-24 | プレジデント アンド フェローズ オブ ハーバード カレッジ | 核酸塩基エディターのaav送達 |
US10745677B2 (en) | 2016-12-23 | 2020-08-18 | President And Fellows Of Harvard College | Editing of CCR5 receptor gene to protect against HIV infection |
WO2018165504A1 (en) | 2017-03-09 | 2018-09-13 | President And Fellows Of Harvard College | Suppression of pain by gene editing |
CN110914310A (zh) | 2017-03-10 | 2020-03-24 | 哈佛大学的校长及成员们 | 胞嘧啶至鸟嘌呤碱基编辑器 |
IL306092A (en) | 2017-03-23 | 2023-11-01 | Harvard College | Nucleic base editors that include nucleic acid programmable DNA binding proteins |
WO2018209320A1 (en) | 2017-05-12 | 2018-11-15 | President And Fellows Of Harvard College | Aptazyme-embedded guide rnas for use with crispr-cas9 in genome editing and transcriptional activation |
EP3658573A1 (en) | 2017-07-28 | 2020-06-03 | President and Fellows of Harvard College | Methods and compositions for evolving base editors using phage-assisted continuous evolution (pace) |
WO2019139645A2 (en) | 2017-08-30 | 2019-07-18 | President And Fellows Of Harvard College | High efficiency base editors comprising gam |
CN111757937A (zh) | 2017-10-16 | 2020-10-09 | 布罗德研究所股份有限公司 | 腺苷碱基编辑器的用途 |
CN112105728B (zh) * | 2018-05-07 | 2023-01-10 | 中国农业大学 | CRISPR/Cas效应蛋白及系统 |
WO2020056924A1 (zh) * | 2018-09-20 | 2020-03-26 | 中国科学院动物研究所 | 核酸检测方法 |
SG11202105121WA (en) * | 2018-11-15 | 2021-06-29 | Univ China Agricultural | Crispr-cas12j enzyme and system |
DE112020001306T5 (de) | 2019-03-19 | 2022-01-27 | Massachusetts Institute Of Technology | Verfahren und zusammensetzungen zur editierung von nukleotidsequenzen |
CN116694603A (zh) * | 2019-05-14 | 2023-09-05 | 深圳华大生命科学研究院 | 新型的Cas蛋白、Crispr-Cas系统及其在基因编辑领域中的用途 |
JP2023525304A (ja) | 2020-05-08 | 2023-06-15 | ザ ブロード インスティテュート,インコーポレーテッド | 標的二本鎖ヌクレオチド配列の両鎖同時編集のための方法および組成物 |
CN111793707B (zh) * | 2020-06-23 | 2022-04-22 | 中国农业科学院油料作物研究所 | 一种基因编辑转基因作物编辑位点特异性pcr方法及其应用 |
CN115954048B (zh) * | 2023-01-03 | 2023-06-16 | 之江实验室 | 一种针对CRISPR-Cas系统的筛选方法及装置 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103668472A (zh) * | 2013-12-31 | 2014-03-26 | 北京大学 | 利用CRISPR/Cas9系统构建真核基因敲除文库的方法 |
CN103757053A (zh) * | 2014-01-28 | 2014-04-30 | 中国医学科学院医学生物学研究所 | 一种特异性的dna病毒基因组定点改造及筛选方法 |
CN105219765A (zh) * | 2015-11-09 | 2016-01-06 | 中国水产科学研究院 | 利用蛋白质序列构建基因组的方法和装置 |
CN105567735A (zh) * | 2016-01-05 | 2016-05-11 | 华东师范大学 | 一种凝血因子基因突变的定点修复载体系统及方法 |
CN105821072A (zh) * | 2015-01-23 | 2016-08-03 | 深圳华大基因研究院 | 用于DNA组装的CRISPR-Cas9系统及DNA组装方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3406715B1 (en) * | 2012-09-07 | 2023-12-13 | Corteva Agriscience LLC | Fad3 performance loci and corresponding target site specific binding proteins capable of inducing targeted breaks |
-
2016
- 2016-08-26 CN CN201610741844.0A patent/CN107784200B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103668472A (zh) * | 2013-12-31 | 2014-03-26 | 北京大学 | 利用CRISPR/Cas9系统构建真核基因敲除文库的方法 |
CN103757053A (zh) * | 2014-01-28 | 2014-04-30 | 中国医学科学院医学生物学研究所 | 一种特异性的dna病毒基因组定点改造及筛选方法 |
CN105821072A (zh) * | 2015-01-23 | 2016-08-03 | 深圳华大基因研究院 | 用于DNA组装的CRISPR-Cas9系统及DNA组装方法 |
CN105219765A (zh) * | 2015-11-09 | 2016-01-06 | 中国水产科学研究院 | 利用蛋白质序列构建基因组的方法和装置 |
CN105567735A (zh) * | 2016-01-05 | 2016-05-11 | 华东师范大学 | 一种凝血因子基因突变的定点修复载体系统及方法 |
Non-Patent Citations (2)
Title |
---|
CRISPR-CAS9系统定向编辑TCR基因的SGRNA筛选;邵红伟等;《集美大学学报》;20150725;第20卷(第4期);第265-270页 * |
sgRNAcas9:a software package for designing CRISPR sgRNA and evaluating potential off-target cleavage sites;xie shengsong等;《plos one》;20140630;第9卷(第6期);第1-9页 * |
Also Published As
Publication number | Publication date |
---|---|
CN107784200A (zh) | 2018-03-09 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107784200B (zh) | 一种筛选新型CRISPR-Cas系统的方法和装置 | |
López-Jiménez et al. | RNA sequencing and prediction tools for circular RNAs analysis | |
Maze et al. | Analytical tools and current challenges in the modern era of neuroepigenomics | |
Cirulli et al. | Screening the human exome: a comparison of whole genome and whole transcriptome sequencing | |
Dong et al. | Sequencing and automated whole-genome optical mapping of the genome of a domestic goat (Capra hircus) | |
CN108197434B (zh) | 去除宏基因组测序数据中人源基因序列的方法 | |
Liu | Consensus promoter identification in the human genome utilizing expressed gene markers and gene modeling | |
Sinha et al. | Sequence turnover and tandem repeats in cis-regulatory modules in Drosophila | |
Vierstraete et al. | Amplicon_sorter: A tool for reference‐free amplicon sorting based on sequence similarity and for building consensus sequences | |
Machado et al. | Mitogenome assembly from genomic multiplex libraries: comparison of strategies and novel mitogenomes for five species of frogs | |
Nagashima et al. | Optimizing an ion semiconductor sequencing data analysis method to identify somatic mutations in the genomes of cancer cells in clinical tissue samples | |
Du et al. | First insights into the giant panda (A iluropoda melanoleuca) blood transcriptome: a resource for novel gene loci and immunogenetics | |
Crawford et al. | The demographic histories of the M and S molecular forms of Anopheles gambiae ss | |
Alioto et al. | The Genome Sequence of the Eastern Woodchuck (Marmota monax)–A Preclinical Animal Model for Chronic Hepatitis B | |
Gutierrez-Gonzalez et al. | De novo transcriptome assembly in polyploid species | |
CN112908410B (zh) | 一种基于snakemake流程的正选择基因的检测方法和系统 | |
US20130226467A1 (en) | System and method for processing reference sequence for analyzing genome sequence | |
Forsberg et al. | CLC Bio Integrated Platform for Handling and Analysis of Tag Sequencing Data | |
Ding et al. | EAnnot: a genome annotation tool using experimental evidence | |
US9348968B2 (en) | System and method for processing genome sequence in consideration of seed length | |
CN103547681A (zh) | 目标区域捕获方法及其生物信息处理方法和系统 | |
Horvath et al. | Selection on accessible chromatin regions in Capsella grandiflora | |
Henke et al. | Identification of Mutations in Zebrafish Using Next‐Generation Sequencing | |
Neves et al. | Targeted sequencing in the loblolly pine (Pinus taeda) megagenome by exome capture | |
Stodola et al. | Genome-wide map of proximity linkage to renin proximal promoter in rat |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1247333 Country of ref document: HK |
|
CB02 | Change of applicant information |
Address after: Beishan Industrial Zone Building in Yantian District of Shenzhen city of Guangdong Province in 518083 Applicant after: BGI SHENZHEN Address before: Beishan Industrial Zone Building in Yantian District of Shenzhen city of Guangdong Province in 518083 Applicant before: BGI SHENZHEN |
|
CB02 | Change of applicant information | ||
GR01 | Patent grant | ||
GR01 | Patent grant |