CN108205614A - 一种全基因组sgRNA文库的构建系统及其应用 - Google Patents
一种全基因组sgRNA文库的构建系统及其应用 Download PDFInfo
- Publication number
- CN108205614A CN108205614A CN201711481306.3A CN201711481306A CN108205614A CN 108205614 A CN108205614 A CN 108205614A CN 201711481306 A CN201711481306 A CN 201711481306A CN 108205614 A CN108205614 A CN 108205614A
- Authority
- CN
- China
- Prior art keywords
- sgrna
- target sequence
- genome
- sequence
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
- G16B35/10—Design of libraries
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B35/00—ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
-
- C—CHEMISTRY; METALLURGY
- C40—COMBINATORIAL TECHNOLOGY
- C40B—COMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
- C40B40/00—Libraries per se, e.g. arrays, mixtures
- C40B40/04—Libraries containing only organic compounds
- C40B40/06—Libraries containing nucleotides or polynucleotides, or derivatives thereof
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B30/00—ICT specially adapted for sequence analysis involving nucleotides or amino acids
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N15/00—Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
- C12N15/09—Recombinant DNA-technology
- C12N15/11—DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
- C12N15/111—General methods applicable to biologically active non-coding nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2310/00—Structure or type of the nucleic acid
- C12N2310/10—Type of nucleic acid
- C12N2310/20—Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2320/00—Applications; Uses
- C12N2320/10—Applications; Uses in screening processes
- C12N2320/11—Applications; Uses in screening processes for the determination of target sites, i.e. of active nucleic acids
-
- C—CHEMISTRY; METALLURGY
- C12—BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
- C12N—MICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
- C12N2330/00—Production
- C12N2330/30—Production chemically synthesised
- C12N2330/31—Libraries, arrays
Landscapes
- Life Sciences & Earth Sciences (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Engineering & Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Chemical & Material Sciences (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biotechnology (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Analytical Chemistry (AREA)
- Biochemistry (AREA)
- Library & Information Science (AREA)
- Genetics & Genomics (AREA)
- Organic Chemistry (AREA)
- Crystallography & Structural Chemistry (AREA)
- Bioethics (AREA)
- Databases & Information Systems (AREA)
- Chemical Kinetics & Catalysis (AREA)
- General Chemical & Material Sciences (AREA)
- Medicinal Chemistry (AREA)
- Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
Abstract
本发明提供了一种全基因组sgRNA文库的构建系统及其应用,所述系统包括输入模块、sgRNA设计模块和sgRNA过滤模块,通过构建系统的三大模块,优化模块内细节及流程,采用多种设计标准及筛选原则,最终构建得到全基因组sgRNA文库,所述系统及方法简洁高效,得到的文库质量高,活性好,便于应用在基因编辑研究中。
Description
技术领域
本发明涉及基因工程领域,尤其涉及一种全基因组sgRNA文库的构建系统及其应用。
背景技术
CRISPR(Clustered regularly interspaced short palindromic repeats),被称为规律成簇间隔短回文重复,实际上就是一种基因编辑器,是细菌用以保护自身对抗病毒的一个系统,也是一种对付攻击者的基因武器。后来,研究人员发现,它似乎是一种精确的万能基因武器,可以用来删除、添加、激活或抑制其他生物体的目标基因,这些目标基因包括人、老鼠、斑马鱼、细菌、果蝇、酵母、线虫和农作物细胞内的基因,这也意味着基因编辑器是一种可以广泛使用的生物技术,CRISPR基因编辑器的工作过程图如图1所示。
CRISPR簇是一个广泛存在于细菌和古生菌基因组中的特殊DNA重复序列家族,其序列由一个前导区(Leader)、多个短而高度保守的重复序列区(Repeat)和多个间隔区(Spacer)组成。前导区一般位于CRISPR簇上游,是富含AT长度为300~500bp的区域,被认为可能是CRISPR簇的启动子序列。重复序列区长度为21~48bp,含有回文序列,可形成发卡结构。重复序列之间被长度为26~72bp的间隔区隔开。Spacer区域由俘获的外源DNA组成,类似免疫记忆,当含有同样序列的外源DNA入侵时,可被细菌机体识别,并进行剪切使之表达沉默,达到保护自身安全的目的。
通过对CRISPR簇的侧翼序列分析发现,在其附近存在一个多态性家族基因。该家族编码的蛋白质均含有可与核酸发生作用的功能域(具有核酸酶、解旋酶、整合酶和聚合酶等活性),并且与CRISPR区域共同发挥作用,因此被命名为CRISPR关联基因(CRISPRassociated),缩写为Cas。目前发现的Cas包括Cas1~Cas10等多种类型。Cas基因与CRISPR共同进化,共同构成一个高度保守的系统,CRISPR簇的系统结构图如图2所示。
当细菌抵御噬菌体等外源DNA入侵时,在前导区的调控下,CRISPR被转录为长的RNA前体(Pre RISPR RNA,pre-crRNA),然后加工成一系列短的含有保守重复序列和间隔区的成熟crRNA,最终识别并结合到与其互补的外源DNA序列上发挥剪切作用。
目前发现的CRISPR/Cas系统有三种不同类型即I型、II型和III型,它们存在于大约40%已测序的真细菌和90%已测序的古细菌中。其中II型的组成较为简单,以Cas9蛋白以及向导RNA(gRNA)为核心组成,也是目前研究中最深入的类型。
在II型系统中pre-crRNA的加工由Cas家族中的Cas9单独参与,Cas9含有在氨基末端的RuvC和蛋白质中部的HNH2个独特的活性位点,在crRNA成熟和双链DNA剪切中发挥作用。此外,pre-crRNA转录的同时,与其重复序列互补的反式激活crRNA(Trans-activatingcrRNA,tracrRNA)也转录出来,并且激发Cas9和双链RNA特异性RNase III核酸酶对pre-crRNA进行加工。加工成熟后,crRNA、tracrRNA和Cas9组成复合体,识别并结合于crRNA互补的序列,然后解开DNA双链,形成R-loop,使crRNA与互补链杂交,另一条链保持游离的单链状态,然后由Cas9中的HNH活性位点剪切crRNA的互补DNA链,RuvC活性位点剪切非互补链,最终引入DNA双链断裂(DSB)。CRISPR/Cas9的剪切位点位于crRNA互补序列下游邻近的PAM区(Protospacer Adjacent Motif)的5'-GG-N18-NGG-3'特征区域中的NGG位点,而这种特征的序列在每128bp的随机DNA序列中就重复出现一次。研究结果表明,Cas9还可以剪切线性和超螺旋的质粒,其剪切效率堪比限制性内切酶。由于crRNA参与并且起到精确导向的作用,所以CRISPR/Cas9打靶系统也被称为RNA导向(RNA guided)打靶系统,打把系统的原理图如图3所示。
基于CRISPR/Cas9-sgRNA的DNA编辑系统已经发展成基因编辑的一个有效工具。CRISPR/Cas9-sgRNA系统包含两个主要组分—Cas9蛋白和sgRNA。sgRNA决定了基因编辑的位点和基因编辑的效率。研究已经表明,不同的sgRNA有不同的编辑效率。在动物和人类中通过高通量比较分析sgRNA的效率,研究人员已经获得了高效sgRNA的参数。
CN106845151A公开一种CRISPR-Cas9系统sgRNA作用靶点的筛选方法,包括:(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段(x为19~22之间的整数,N代表A/T/C/G),作为CRISPR-Cas9系统sgRNA的候选靶点;(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。CN105886616A公开了一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法,所述筛选方法包括步骤:功能基因筛选及ORF分析、功能基因sgRNA识别位点引导序列预测、全基因组脱靶位点检测、依据脱靶信息与靶位点位置对预测的靶位点打分,排序、结果筛选与统计、算法优化与软件开发。本发明的猪的特异性sgRNA识别位点引导序列经过了严格的筛选与检验,包含所有猪蛋白编码基因的用于CRISPR-Cas9基因编辑的sgRNA识别位点引导序列。但上述现有技术的构建步骤繁琐,优化筛选标准落后,得到的sgRNA质量不高。
但是,由于低质量sgRNA直接浪费科研人员的时间和金钱,因此选择高效率的sgRNA是避免该结果发生的一个有效途径。目前,尽管已经有一些sgRNA设计软件,但是这些软件大多都是逐个基因设计sgRNA,缺乏定制全基因组sgRNA文库设计的生物信息学工作流程。因此,提供一种全基因组定制sgRNA文库构建系统,得到高质量的全基因组sgRNA,具有重要的科研价值和应用前景。
发明内容
针对现有技术的不足及实际的需求,本发明提供一种全基因组sgRNA文库的构建系统及其应用,通过构建系统的三大模块,优化模块内细节及流程,采用多种设计标准及筛选原则,最终构建得到全基因组sgRNA文库,所述系统及方法简洁高效,得到的文库质量高,活性好,便于应用在基因编辑研究中。
为达此目的,本发明采用以下技术方案:
一方面,本发明提供一种sgRNA文库的构建系统,所述系统包括如下模块:
(1)输入模块:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
该模块用来为sgRNA设计模块准备输入数据。首先,从Ensembl或NCBI下载基因组序列和注释文件;然后,通过分析注释文件获取每个基因CDS区域的位置信息;最后,根据每个基因CDS区域的位置信息从基因组序列文件中提取所有基因的CDS序列,保存到fasta文件中,作为sgRNA设计模块的输入靶序列;
(2)sgRNA设计模块:在靶序列的正义链和反义链上根据参数设定选择候选sgRNA,并进行全基因组序列比对,根据指定允许的错配数进行脱靶率评估并分级,其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
该模块在所有基因的CDS序列上设计sgRNA,流程如下:1.根据PAM序列、序列长度、GC含量、单或双链模式等参数设定,在每条输入靶序列上寻找所有满足条件的序列作为候选sgRNA;2.指定允许的错配数,对所有的候选sgRNA进行全基因组序列比对;3.根据错配数和错配位置进行脱靶率评估,根据脱靶率将sgRNA的质量分为以下等级:Best(最优),Low_Risk(低风险),Moderate_Risk(风险适中),High_Risk(高风险)等脱靶风险梯度;
(3)sgRNA过滤模块:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA,确保sgRNA之间没有重叠,确保sgRNA在CDS上尽量均匀分布。
优选地,步骤(1)所述靶序列的选择标准为:蛋白质编码基因选择CDS区域作为靶序列,非蛋白质编码基因选择exon区域作为靶序列。
优选地,步骤(2)所述参数包括PAM序列、序列长度、GC含量、允许的错配数和单双链模式。
优选地,步骤(2)所述允许的错配数为3-6个,例如可以是3个、4个、5个或6个,优选为5个。
优选地,步骤(2)所述脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高。
优选地,步骤(2)所述分级的级别包括:最优、低风险、风险适中和高风险四个级别。
优选地,步骤(3)所述筛选的标准还包括:每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置、GC含量在20%-80%中的任意一种或至少两种的组合,例如可以是每个靶序列最多选择6条sgRNA和只保留级别为最优和低风险的sgRNA的组合,确保选择的sgRNA尽可能覆盖基因的不同转录本和每个基因的多个sgRNA尽量靶定到基因的不同位置的组合,每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%的组合,优选为每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%的组合。
第二方面,本发明提供一种采用如第一方面所述的构建系统构建sgRNA文库的方法,包括如下步骤:
(1)靶序列选择:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
(2)sgRNA设计:在靶序列的正义链和反义链上根据参数设定选择候选sgRNA,并进行全基因组序列比对,根据指定允许的错配数进行脱靶率评估并分级;
其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
(3)sgRNA筛选:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA,确保sgRNA之间没有重叠,确保sgRNA在CDS上尽量均匀分布。
优选地,步骤(1)所述靶序列的选择标准为:蛋白质编码基因选择CDS区域作为靶序列,非蛋白质编码基因选择exon区域作为靶序列。
优选地,步骤(2)所述参数包括PAM序列、序列长度、GC含量、允许的错配数和单双链模式。
优选地,步骤(2)所述允许的错配数为3-6个,例如可以是3个、4个、5个或6个,优选为5个。
优选地,步骤(2)所述脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高。
优选地,步骤(2)所述分级的级别包括:最优、低风险、风险适中和高风险四个级别。
作为优选技术方法,本发明提供一种采用如第一方面所述构建系统构建sgRNA文库的方法,具体包括如下步骤:
(1)靶序列选择:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
对于蛋白质编码基因,选择CDS区域作为靶序列设计sgRNA,如果基因具有多个转录本则使用各个转录本的全部CDS序列作为靶序列,只有单个转录本的基因则使用全部的CDS区域作为靶序列;非蛋白质编码基因使用其exon区域作为靶序列;
首先,从Ensemble或NCBI下载基因组序列和注释文件;然后,通过分析注释文件获取每个基因CDS区域的位置信息;最后,根据每个基因CDS区域的位置信息从基因组序列文件中提取所有基因的CDS序列,保存到fasta文件中,作为sgRNA设计模块的输入靶序列;
(2)sgRNA设计:在靶序列的正义链和反义链上根据PAM序列、序列长度、GC含量和单双链模式的参数设定选择候选sgRNA,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA,并进行全基因组序列比对,距离PAM序列(NGG或者GGN)较远的错配更容易引起脱靶,根据允许的错配数进行脱靶率评估并分为最优、低风险、风险适中和高风险的脱靶风险梯度等级,最后进行sgRNA选择时,去掉Moderate risk和Highrisk的sgRNA,并且优先选择Best的sgRNA,其次选择Low risk的sgRNA;
其中,所述脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高;
(3)sgRNA过滤:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA、确保sgRNA之间没有重叠、确保sgRNA在CDS上尽量均匀分布、每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%;
对于蛋白质编码基因,优先选择靠近5’端的sgRNA,每个CDS片段的sgRNA数量不超过2条,对于非蛋白质编码基因,在基因的exon序列上设计4条,设计得到的sgRNA之间不能有重叠;
选择的sgRNA要尽可能的覆盖基因的不同转录本,并且尽量在不同的CDS片段上均匀分布,从而能保证设计得到的sgRNA能确保敲除基因的全部转录本,并且每个基因的多个sgRNA尽量靶定到基因的不同位置上,以确保敲除效率。
第三方面,本发明提供一种根据第二方面所述的方法构建得到的全基因组sgRNA文库。
与现有技术相比,本发明具有如下有益效果:
(1)本发明提供的全基因组sgRNA文库的构建系统简洁高效,便于操作和实际应用,通过优化模块内流程及细节,调整sgRNA的设计标准及筛选原则,全面且特异性地针对全基因组进行sgRNA设计和过滤,节省时间和人力,便于推广应用;
(2)本发明通过提供的构建系统得到的sgRNA文库质量较高,以猪为实施例,全基因组有91.1%的基因均设计得到对应的sgRNA,所有sgRNA的活性均能满足后续实验的要求。
附图说明
图1为本发明的CRISPR基因编辑器的工作过程图;
图2为本发明的CRISPR簇的系统结构图;
图3为本发明的CRISPR/Cas9打靶系统的原理图;
图4为本发明的sgRNA构建流程图。
具体实施方式
为更进一步阐述本发明所采取的技术手段及其效果,以下结合附图并通过具体实施方式来进一步说明本发明的技术方案,但本发明并非局限在实施例范围内。
实施例1
创建一种全基因组sgRNA文库的构建系统,包括如下模块:
(1)输入模块:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
(2)sgRNA设计模块:在靶序列的正义链和反义链上根据参数设定选择候选sgRNA,并进行全基因组序列比对,根据指定允许的错配数进行脱靶率评估并分级;
其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
(3)sgRNA过滤模块:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA、确保sgRNA之间没有重叠、确保sgRNA在CDS上尽量均匀分布、每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%。
实施例2
根据实施例1的构建系统构建猪全基因组sgRNA文库,构建流程如图4所示,流程依次为全基因组CDS序列筛选、根据sgRNA识别位点选取候选sgRNA序列、全基因组脱靶位点检测、根据脱靶位点信息和脱靶位点位置对设计的候选sgRNA打分、结果筛选和设计以及对全程的算法优化和软件开发,具体步骤如下:
(1)首先在从Ensemble下载猪的全基因组序列和注释文件,使用的版本为release90,然后,通过分析注释文件获取每个基因CDS区域的位置信息;最后,根据每个基因CDS区域的位置信息从基因组序列文件中提取所有基因的CDS序列,保存到fasta文件中,作为sgRNA设计模块的输入靶序列;对于蛋白质编码基因,选择CDS区域作为靶序列设计sgRNA,如果基因具有多个转录本则使用各个转录本的全部CDS序列作为靶序列,只有单个转录本的基因则使用全部的CDS区域作为靶序列,非蛋白质编码基因使用其exon区域作为靶序列。
(2)在靶序列的正义链和反义链上根据PAM序列、序列长度、GC含量和单双链模式的参数设定选择候选sgRNA,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA,并进行全基因组序列比对,距离PAM序列(NGG或者GGN)较远的错配更容易引起脱靶,根据指定5个的允许的错配数进行脱靶率评估并分为最优、低风险、风险适中和高风险的脱靶风险梯度等级,最后进行sgRNA选择时,去掉Moderaterisk和Highrisk的sgRNA,并且优先选择Best的sgRNA,其次选择Lowrisk的sgRNA;
脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高;
(3)将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA、确保sgRNA之间没有重叠、确保sgRNA在CDS上尽量均匀分布、每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%;
对于蛋白质编码基因,优先选择靠近5’端的sgRNA,每个CDS片段的sgRNA数量不超过2条,对于非蛋白质编码基因,在基因的exon序列上设计4条,设计得到的sgRNA之间不能有重叠;
(4)文库总体概况:猪全基因组sgRNA文库构建一共有20438个基因设计得到sgRNA,其中17410个基因设计得到6条sgRNA,2828个基因设计得到sgRNA数量在1-5条之间。实验对sgRNA质量的检验结果显示,Low risk以上的均为高质量的sgRNA,文库构建所得到的sgRNA活性均能满足后续实验的要求。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。
Claims (10)
1.一种全基因组sgRNA文库的构建系统,其特征在于,所述系统包括如下模块:
(1)输入模块:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
(2)sgRNA设计模块:在靶序列的正义链和反义链上根据参数设定选择候选sgRNA,并根据指定的允许错配数进行全基因组序列比对,根据脱靶位点和数量进行脱靶率评估并分级;
其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
(3)sgRNA过滤模块:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA,确保sgRNA之间没有重叠,确保sgRNA在CDS上尽量均匀分布。
2.根据权利要求1所述的构建系统,其特征在于,步骤(1)所述靶序列的选择标准为:蛋白质编码基因选择CDS区域作为靶序列,非蛋白质编码基因选择exon区域作为靶序列。
3.根据权利要求1或2所述的构建系统,其特征在于,步骤(2)所述参数包括PAM序列、序列长度、GC含量、单双链模式和基因组比对允许的错配数。
4.根据权利要求1-3中任一项所述的构建系统,其特征在于,步骤(2)所述允许的错配数为3-6个,优选为5个;
优选地,步骤(2)所述脱靶率评估标准为;
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高。
5.根据权利要求1-4中任一项所述的构建系统,其特征在于,步骤(2)所述分级的级别包括:最优、低风险、风险适中和高风险四个级别。
6.根据权利要求1-5中任一项所述的构建系统,其特征在于,步骤(3)所述筛选的标准还包括:每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置、GC含量在20%-80%中的任意一种或至少两种的组合,优选为每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%的组合。
7.一种采用如权利要求1-6中任一项所述的构建系统构建sgRNA文库的方法,其特征在于,包括如下步骤:
(1)靶序列选择:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
(2)sgRNA设计:在靶序列的正义链和反义链上根据参数设定选择候选sgRNA,并根据指定的允许的错配数进行全基因组序列比对,根据脱靶位点和数量进行脱靶率评估并分级;
其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
(3)sgRNA筛选:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA,确保sgRNA之间没有重叠,确保sgRNA在CDS上尽量均匀分布。
8.根据权利要求7所述的方法,其特征在于,步骤(1)所述靶序列的选择标准为:蛋白质编码基因选择CDS区域作为靶序列,非蛋白质编码基因选择exon区域作为靶序列;
优选地,步骤(2)所述参数包括PAM序列、序列长度、GC含量、单双链模式和基因组比对允许的错配数;
优选地,步骤(2)所述允许的错配数为3-6个,优选为5个;
优选地,步骤(2)所述脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高;
优选地,步骤(2)所述分级的级别包括:最优、低风险、风险适中和高风险四个级别。
9.一种采用如权利要求1-6中任一项所述的构建系统构建sgRNA文库的方法,其特征在于,具体包括如下步骤:
(1)靶序列选择:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
其中,所述靶序列的选择标准为:蛋白质编码基因选择CDS区域作为靶序列,非蛋白质编码基因选择exon区域作为靶序列。
(2)sgRNA设计:在靶序列的正义链和反义链上根据PAM序列、序列长度、GC含量、单双链模式和允许错配数的参数设定选择候选sgRNA,并根据允许的错配数进行全基因组序列比对,然后根据错配数和错配位置进行脱靶率评估并分为最优、低风险、风险适中和高风险的脱靶风险梯度等级;
其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高;
(3)sgRNA过滤:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA、确保sgRNA之间没有重叠、确保sgRNA在CDS上尽量均匀分布、每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%。
10.根据权利要求9所述的方法构建得到的全基因组sgRNA文库。
Priority Applications (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711481306.3A CN108205614A (zh) | 2017-12-29 | 2017-12-29 | 一种全基因组sgRNA文库的构建系统及其应用 |
PCT/CN2018/121328 WO2019128744A1 (zh) | 2017-12-29 | 2018-12-14 | 一种全基因组sgRNA文库的构建系统及其应用 |
EP18897229.3A EP3734602A4 (en) | 2017-12-29 | 2018-12-14 | SYSTEM FOR BUILDING A WHOLE GENOME SGRNA LIBRARY AND APPLICATION OF IT |
US16/958,671 US20230187025A1 (en) | 2017-12-29 | 2018-12-14 | Whole genome sgrna library constructing system and application thereof |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201711481306.3A CN108205614A (zh) | 2017-12-29 | 2017-12-29 | 一种全基因组sgRNA文库的构建系统及其应用 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN108205614A true CN108205614A (zh) | 2018-06-26 |
Family
ID=62606142
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201711481306.3A Pending CN108205614A (zh) | 2017-12-29 | 2017-12-29 | 一种全基因组sgRNA文库的构建系统及其应用 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20230187025A1 (zh) |
EP (1) | EP3734602A4 (zh) |
CN (1) | CN108205614A (zh) |
WO (1) | WO2019128744A1 (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128743A1 (zh) * | 2017-12-29 | 2019-07-04 | 苏州金唯智生物科技有限公司 | 一种猪全基因组sgRNA文库及其构建方法和应用 |
WO2019128744A1 (zh) * | 2017-12-29 | 2019-07-04 | 苏州金唯智生物科技有限公司 | 一种全基因组sgRNA文库的构建系统及其应用 |
CN110322927A (zh) * | 2019-08-02 | 2019-10-11 | 中南大学 | 一种crispr诱导rna文库设计方法 |
CN113073099A (zh) * | 2021-03-19 | 2021-07-06 | 深圳市第三人民医院 | sgRNA库、敲低基因文库及敲低基因文库的构建方法和应用 |
CN113990394A (zh) * | 2021-10-27 | 2022-01-28 | 云舟生物科技(广州)有限公司 | 向导rna作用靶点的筛选方法、计算机存储介质及电子设备 |
WO2023116681A1 (zh) * | 2021-12-21 | 2023-06-29 | 翌圣生物科技(上海)股份有限公司 | 靶序列随机sgRNA全覆盖组的制备方法 |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110656123B (zh) * | 2019-10-12 | 2021-07-13 | 中国农业大学 | 基于CRISPR-Cas13d系统的sgRNA高效作用靶点的筛选方法及应用 |
WO2023108430A1 (zh) * | 2021-12-14 | 2023-06-22 | 中国医学科学院药用植物研究所 | 基于全基因组分析与基因组编辑的植物物种鉴定方法与应用 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105400773A (zh) * | 2015-12-14 | 2016-03-16 | 同济大学 | 应用于大规模筛选癌症基因的CRISPR/Cas9富集测序方法 |
CN105886616A (zh) * | 2016-04-20 | 2016-08-24 | 广东省农业科学院农业生物基因研究中心 | 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法 |
CN106845151A (zh) * | 2015-12-07 | 2017-06-13 | 中国农业大学 | CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 |
CN107365793A (zh) * | 2017-06-19 | 2017-11-21 | 百格基因科技(江苏)有限公司 | 一种适用于植物的大规模基因组编辑的方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
MX9305855A (es) * | 1992-09-24 | 1995-01-31 | Tadatsugu Taniguchi | Factores 1 y 2 reguladores del interferon en el diagnostico de latumorigenicidad. |
US20150067922A1 (en) * | 2013-05-30 | 2015-03-05 | The Penn State Research Foundation | Gene targeting and genetic modification of plants via rna-guided genome editing |
WO2014204727A1 (en) * | 2013-06-17 | 2014-12-24 | The Broad Institute Inc. | Functional genomics using crispr-cas systems, compositions methods, screens and applications thereof |
WO2015065964A1 (en) * | 2013-10-28 | 2015-05-07 | The Broad Institute Inc. | Functional genomics using crispr-cas systems, compositions, methods, screens and applications thereof |
CN107090466B (zh) * | 2017-04-20 | 2020-02-28 | 清华大学 | 双sgRNA表达质粒及其文库的构建方法 |
CN108205614A (zh) * | 2017-12-29 | 2018-06-26 | 苏州金唯智生物科技有限公司 | 一种全基因组sgRNA文库的构建系统及其应用 |
-
2017
- 2017-12-29 CN CN201711481306.3A patent/CN108205614A/zh active Pending
-
2018
- 2018-12-14 EP EP18897229.3A patent/EP3734602A4/en not_active Withdrawn
- 2018-12-14 US US16/958,671 patent/US20230187025A1/en active Pending
- 2018-12-14 WO PCT/CN2018/121328 patent/WO2019128744A1/zh unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106845151A (zh) * | 2015-12-07 | 2017-06-13 | 中国农业大学 | CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 |
CN105400773A (zh) * | 2015-12-14 | 2016-03-16 | 同济大学 | 应用于大规模筛选癌症基因的CRISPR/Cas9富集测序方法 |
CN105886616A (zh) * | 2016-04-20 | 2016-08-24 | 广东省农业科学院农业生物基因研究中心 | 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法 |
CN107365793A (zh) * | 2017-06-19 | 2017-11-21 | 百格基因科技(江苏)有限公司 | 一种适用于植物的大规模基因组编辑的方法 |
Cited By (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019128743A1 (zh) * | 2017-12-29 | 2019-07-04 | 苏州金唯智生物科技有限公司 | 一种猪全基因组sgRNA文库及其构建方法和应用 |
WO2019128744A1 (zh) * | 2017-12-29 | 2019-07-04 | 苏州金唯智生物科技有限公司 | 一种全基因组sgRNA文库的构建系统及其应用 |
CN110322927A (zh) * | 2019-08-02 | 2019-10-11 | 中南大学 | 一种crispr诱导rna文库设计方法 |
CN110322927B (zh) * | 2019-08-02 | 2021-04-09 | 中南大学 | 一种crispr诱导rna文库设计方法 |
CN113073099A (zh) * | 2021-03-19 | 2021-07-06 | 深圳市第三人民医院 | sgRNA库、敲低基因文库及敲低基因文库的构建方法和应用 |
CN113073099B (zh) * | 2021-03-19 | 2023-08-22 | 深圳市第三人民医院 | sgRNA库、敲低基因文库及敲低基因文库的构建方法和应用 |
CN113990394A (zh) * | 2021-10-27 | 2022-01-28 | 云舟生物科技(广州)有限公司 | 向导rna作用靶点的筛选方法、计算机存储介质及电子设备 |
CN113990394B (zh) * | 2021-10-27 | 2023-01-24 | 云舟生物科技(广州)股份有限公司 | 向导rna作用靶点的筛选方法、计算机存储介质及电子设备 |
WO2023116681A1 (zh) * | 2021-12-21 | 2023-06-29 | 翌圣生物科技(上海)股份有限公司 | 靶序列随机sgRNA全覆盖组的制备方法 |
Also Published As
Publication number | Publication date |
---|---|
US20230187025A1 (en) | 2023-06-15 |
WO2019128744A1 (zh) | 2019-07-04 |
EP3734602A4 (en) | 2022-01-05 |
EP3734602A1 (en) | 2020-11-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108205614A (zh) | 一种全基因组sgRNA文库的构建系统及其应用 | |
CN108221058A (zh) | 一种猪全基因组sgRNA文库及其构建方法和应用 | |
CN106845151B (zh) | CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置 | |
Efroni et al. | Quantification of cell identity from single-cell gene expression profiles | |
Salvador-Martínez et al. | Is it possible to reconstruct an accurate cell lineage using CRISPR recorders? | |
Plohl et al. | Satellite DNA evolution | |
Sharbel et al. | Apomictic and sexual ovules of Boechera display heterochronic global gene expression patterns | |
Li et al. | Integrated detection of natural antisense transcripts using strand-specific RNA sequencing data | |
Schneider et al. | Inbreeding drives maize centromere evolution | |
Square et al. | CRISPR/Cas9-mediated mutagenesis in the sea lamprey Petromyzon marinus: a powerful tool for understanding ancestral gene functions in vertebrates | |
Bonchev et al. | Transposable elements and microevolutionary changes in natural populations | |
Ding et al. | Genetic diversity across natural populations of Dendrobium officinale, the endangered medicinal herb endemic to China, revealed by ISSR and RAPD markers | |
Tang et al. | Identification of microRNAs involved in regeneration of the secondary vascular system in Populus tomentosa Carr | |
CN110343724A (zh) | 用于筛选和鉴定功能性lncRNA的方法 | |
Rao et al. | Combined analysis of microRNAs and target genes revealed miR156-SPLs and miR172-AP2 are involved in a delayed flowering phenomenon after chromosome doubling in black goji (Lycium ruthencium) | |
Dluhošová et al. | Red clover (Trifolium pratense) and zigzag clover (T. medium)–a picture of genomic similarities and differences | |
Buckley et al. | Similar evolutionary trajectories for retrotransposon accumulation in mammals | |
Kar et al. | Genetic variability and genetic structure of wild and semi-domestic populations of tasar silkworm (Antheraea mylitta) ecorace Daba as revealed through ISSR markers | |
Pellicer et al. | Genome size doubling arises from the differential repetitive DNA dynamics in the genus Heloniopsis (Melanthiaceae) | |
Sun et al. | DNA methylation in transposable elements buffers the connection between three-dimensional chromatin organization and gene transcription upon rice genome duplication | |
CN106987652B (zh) | 用于鉴定山鸡椒性别的snp标记及该snp标记的筛选方法 | |
Mascagni et al. | The singular evolution of Olea genome structure | |
CN103757020A (zh) | 用于调控烟草尼古丁合成和转运的基因及其应用 | |
KR102412631B1 (ko) | 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템 | |
Pulido-Quetglas et al. | Designing libraries for pooled CRISPR functional screens of long noncoding RNAs |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20180626 |