CN108205614A - 一种全基因组sgRNA文库的构建系统及其应用 - Google Patents

一种全基因组sgRNA文库的构建系统及其应用 Download PDF

Info

Publication number
CN108205614A
CN108205614A CN201711481306.3A CN201711481306A CN108205614A CN 108205614 A CN108205614 A CN 108205614A CN 201711481306 A CN201711481306 A CN 201711481306A CN 108205614 A CN108205614 A CN 108205614A
Authority
CN
China
Prior art keywords
sgrna
target sequence
genome
sequence
risk
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201711481306.3A
Other languages
English (en)
Inventor
徐凤丹
金亮
许朋阳
段广有
赵文妍
葛毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
SUZHOU GENEWIZ BIOLOGICAL TECHNOLOGY Co Ltd
Original Assignee
SUZHOU GENEWIZ BIOLOGICAL TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by SUZHOU GENEWIZ BIOLOGICAL TECHNOLOGY Co Ltd filed Critical SUZHOU GENEWIZ BIOLOGICAL TECHNOLOGY Co Ltd
Priority to CN201711481306.3A priority Critical patent/CN108205614A/zh
Publication of CN108205614A publication Critical patent/CN108205614A/zh
Priority to PCT/CN2018/121328 priority patent/WO2019128744A1/zh
Priority to EP18897229.3A priority patent/EP3734602A4/en
Priority to US16/958,671 priority patent/US20230187025A1/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • G16B35/10Design of libraries
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B15/00ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B35/00ICT specially adapted for in silico combinatorial libraries of nucleic acids, proteins or peptides
    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B40/00Libraries per se, e.g. arrays, mixtures
    • C40B40/04Libraries containing only organic compounds
    • C40B40/06Libraries containing nucleotides or polynucleotides, or derivatives thereof
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B30/00ICT specially adapted for sequence analysis involving nucleotides or amino acids
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B50/00ICT programming tools or database systems specially adapted for bioinformatics
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/111General methods applicable to biologically active non-coding nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2320/00Applications; Uses
    • C12N2320/10Applications; Uses in screening processes
    • C12N2320/11Applications; Uses in screening processes for the determination of target sites, i.e. of active nucleic acids
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2330/00Production
    • C12N2330/30Production chemically synthesised
    • C12N2330/31Libraries, arrays

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Chemical & Material Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Theoretical Computer Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biotechnology (AREA)
  • Evolutionary Biology (AREA)
  • Biophysics (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Analytical Chemistry (AREA)
  • Biochemistry (AREA)
  • Library & Information Science (AREA)
  • Genetics & Genomics (AREA)
  • Organic Chemistry (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Bioethics (AREA)
  • Databases & Information Systems (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明提供了一种全基因组sgRNA文库的构建系统及其应用,所述系统包括输入模块、sgRNA设计模块和sgRNA过滤模块,通过构建系统的三大模块,优化模块内细节及流程,采用多种设计标准及筛选原则,最终构建得到全基因组sgRNA文库,所述系统及方法简洁高效,得到的文库质量高,活性好,便于应用在基因编辑研究中。

Description

一种全基因组sgRNA文库的构建系统及其应用
技术领域
本发明涉及基因工程领域,尤其涉及一种全基因组sgRNA文库的构建系统及其应用。
背景技术
CRISPR(Clustered regularly interspaced short palindromic repeats),被称为规律成簇间隔短回文重复,实际上就是一种基因编辑器,是细菌用以保护自身对抗病毒的一个系统,也是一种对付攻击者的基因武器。后来,研究人员发现,它似乎是一种精确的万能基因武器,可以用来删除、添加、激活或抑制其他生物体的目标基因,这些目标基因包括人、老鼠、斑马鱼、细菌、果蝇、酵母、线虫和农作物细胞内的基因,这也意味着基因编辑器是一种可以广泛使用的生物技术,CRISPR基因编辑器的工作过程图如图1所示。
CRISPR簇是一个广泛存在于细菌和古生菌基因组中的特殊DNA重复序列家族,其序列由一个前导区(Leader)、多个短而高度保守的重复序列区(Repeat)和多个间隔区(Spacer)组成。前导区一般位于CRISPR簇上游,是富含AT长度为300~500bp的区域,被认为可能是CRISPR簇的启动子序列。重复序列区长度为21~48bp,含有回文序列,可形成发卡结构。重复序列之间被长度为26~72bp的间隔区隔开。Spacer区域由俘获的外源DNA组成,类似免疫记忆,当含有同样序列的外源DNA入侵时,可被细菌机体识别,并进行剪切使之表达沉默,达到保护自身安全的目的。
通过对CRISPR簇的侧翼序列分析发现,在其附近存在一个多态性家族基因。该家族编码的蛋白质均含有可与核酸发生作用的功能域(具有核酸酶、解旋酶、整合酶和聚合酶等活性),并且与CRISPR区域共同发挥作用,因此被命名为CRISPR关联基因(CRISPRassociated),缩写为Cas。目前发现的Cas包括Cas1~Cas10等多种类型。Cas基因与CRISPR共同进化,共同构成一个高度保守的系统,CRISPR簇的系统结构图如图2所示。
当细菌抵御噬菌体等外源DNA入侵时,在前导区的调控下,CRISPR被转录为长的RNA前体(Pre RISPR RNA,pre-crRNA),然后加工成一系列短的含有保守重复序列和间隔区的成熟crRNA,最终识别并结合到与其互补的外源DNA序列上发挥剪切作用。
目前发现的CRISPR/Cas系统有三种不同类型即I型、II型和III型,它们存在于大约40%已测序的真细菌和90%已测序的古细菌中。其中II型的组成较为简单,以Cas9蛋白以及向导RNA(gRNA)为核心组成,也是目前研究中最深入的类型。
在II型系统中pre-crRNA的加工由Cas家族中的Cas9单独参与,Cas9含有在氨基末端的RuvC和蛋白质中部的HNH2个独特的活性位点,在crRNA成熟和双链DNA剪切中发挥作用。此外,pre-crRNA转录的同时,与其重复序列互补的反式激活crRNA(Trans-activatingcrRNA,tracrRNA)也转录出来,并且激发Cas9和双链RNA特异性RNase III核酸酶对pre-crRNA进行加工。加工成熟后,crRNA、tracrRNA和Cas9组成复合体,识别并结合于crRNA互补的序列,然后解开DNA双链,形成R-loop,使crRNA与互补链杂交,另一条链保持游离的单链状态,然后由Cas9中的HNH活性位点剪切crRNA的互补DNA链,RuvC活性位点剪切非互补链,最终引入DNA双链断裂(DSB)。CRISPR/Cas9的剪切位点位于crRNA互补序列下游邻近的PAM区(Protospacer Adjacent Motif)的5'-GG-N18-NGG-3'特征区域中的NGG位点,而这种特征的序列在每128bp的随机DNA序列中就重复出现一次。研究结果表明,Cas9还可以剪切线性和超螺旋的质粒,其剪切效率堪比限制性内切酶。由于crRNA参与并且起到精确导向的作用,所以CRISPR/Cas9打靶系统也被称为RNA导向(RNA guided)打靶系统,打把系统的原理图如图3所示。
基于CRISPR/Cas9-sgRNA的DNA编辑系统已经发展成基因编辑的一个有效工具。CRISPR/Cas9-sgRNA系统包含两个主要组分—Cas9蛋白和sgRNA。sgRNA决定了基因编辑的位点和基因编辑的效率。研究已经表明,不同的sgRNA有不同的编辑效率。在动物和人类中通过高通量比较分析sgRNA的效率,研究人员已经获得了高效sgRNA的参数。
CN106845151A公开一种CRISPR-Cas9系统sgRNA作用靶点的筛选方法,包括:(1)利用已公布物种的全基因组序列及基因注释信息,获取基因组中具有5’-Nx-NGG-3’序列的区段(x为19~22之间的整数,N代表A/T/C/G),作为CRISPR-Cas9系统sgRNA的候选靶点;(2)将基因组打断成22~25bp的片段并筛选以NGG结尾的,且在基因组上无重复的序列;(3)将步骤(1)的候选靶点序列与步骤(2)中筛到的序列进行比对,根据错配信息及评选公式对相应的优选序列进行筛选及排序,获取最优的全基因组sgRNA作用靶点集合。CN105886616A公开了一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法,所述筛选方法包括步骤:功能基因筛选及ORF分析、功能基因sgRNA识别位点引导序列预测、全基因组脱靶位点检测、依据脱靶信息与靶位点位置对预测的靶位点打分,排序、结果筛选与统计、算法优化与软件开发。本发明的猪的特异性sgRNA识别位点引导序列经过了严格的筛选与检验,包含所有猪蛋白编码基因的用于CRISPR-Cas9基因编辑的sgRNA识别位点引导序列。但上述现有技术的构建步骤繁琐,优化筛选标准落后,得到的sgRNA质量不高。
但是,由于低质量sgRNA直接浪费科研人员的时间和金钱,因此选择高效率的sgRNA是避免该结果发生的一个有效途径。目前,尽管已经有一些sgRNA设计软件,但是这些软件大多都是逐个基因设计sgRNA,缺乏定制全基因组sgRNA文库设计的生物信息学工作流程。因此,提供一种全基因组定制sgRNA文库构建系统,得到高质量的全基因组sgRNA,具有重要的科研价值和应用前景。
发明内容
针对现有技术的不足及实际的需求,本发明提供一种全基因组sgRNA文库的构建系统及其应用,通过构建系统的三大模块,优化模块内细节及流程,采用多种设计标准及筛选原则,最终构建得到全基因组sgRNA文库,所述系统及方法简洁高效,得到的文库质量高,活性好,便于应用在基因编辑研究中。
为达此目的,本发明采用以下技术方案:
一方面,本发明提供一种sgRNA文库的构建系统,所述系统包括如下模块:
(1)输入模块:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
该模块用来为sgRNA设计模块准备输入数据。首先,从Ensembl或NCBI下载基因组序列和注释文件;然后,通过分析注释文件获取每个基因CDS区域的位置信息;最后,根据每个基因CDS区域的位置信息从基因组序列文件中提取所有基因的CDS序列,保存到fasta文件中,作为sgRNA设计模块的输入靶序列;
(2)sgRNA设计模块:在靶序列的正义链和反义链上根据参数设定选择候选sgRNA,并进行全基因组序列比对,根据指定允许的错配数进行脱靶率评估并分级,其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
该模块在所有基因的CDS序列上设计sgRNA,流程如下:1.根据PAM序列、序列长度、GC含量、单或双链模式等参数设定,在每条输入靶序列上寻找所有满足条件的序列作为候选sgRNA;2.指定允许的错配数,对所有的候选sgRNA进行全基因组序列比对;3.根据错配数和错配位置进行脱靶率评估,根据脱靶率将sgRNA的质量分为以下等级:Best(最优),Low_Risk(低风险),Moderate_Risk(风险适中),High_Risk(高风险)等脱靶风险梯度;
(3)sgRNA过滤模块:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA,确保sgRNA之间没有重叠,确保sgRNA在CDS上尽量均匀分布。
优选地,步骤(1)所述靶序列的选择标准为:蛋白质编码基因选择CDS区域作为靶序列,非蛋白质编码基因选择exon区域作为靶序列。
优选地,步骤(2)所述参数包括PAM序列、序列长度、GC含量、允许的错配数和单双链模式。
优选地,步骤(2)所述允许的错配数为3-6个,例如可以是3个、4个、5个或6个,优选为5个。
优选地,步骤(2)所述脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高。
优选地,步骤(2)所述分级的级别包括:最优、低风险、风险适中和高风险四个级别。
优选地,步骤(3)所述筛选的标准还包括:每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置、GC含量在20%-80%中的任意一种或至少两种的组合,例如可以是每个靶序列最多选择6条sgRNA和只保留级别为最优和低风险的sgRNA的组合,确保选择的sgRNA尽可能覆盖基因的不同转录本和每个基因的多个sgRNA尽量靶定到基因的不同位置的组合,每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%的组合,优选为每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%的组合。
第二方面,本发明提供一种采用如第一方面所述的构建系统构建sgRNA文库的方法,包括如下步骤:
(1)靶序列选择:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
(2)sgRNA设计:在靶序列的正义链和反义链上根据参数设定选择候选sgRNA,并进行全基因组序列比对,根据指定允许的错配数进行脱靶率评估并分级;
其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
(3)sgRNA筛选:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA,确保sgRNA之间没有重叠,确保sgRNA在CDS上尽量均匀分布。
优选地,步骤(1)所述靶序列的选择标准为:蛋白质编码基因选择CDS区域作为靶序列,非蛋白质编码基因选择exon区域作为靶序列。
优选地,步骤(2)所述参数包括PAM序列、序列长度、GC含量、允许的错配数和单双链模式。
优选地,步骤(2)所述允许的错配数为3-6个,例如可以是3个、4个、5个或6个,优选为5个。
优选地,步骤(2)所述脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高。
优选地,步骤(2)所述分级的级别包括:最优、低风险、风险适中和高风险四个级别。
作为优选技术方法,本发明提供一种采用如第一方面所述构建系统构建sgRNA文库的方法,具体包括如下步骤:
(1)靶序列选择:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
对于蛋白质编码基因,选择CDS区域作为靶序列设计sgRNA,如果基因具有多个转录本则使用各个转录本的全部CDS序列作为靶序列,只有单个转录本的基因则使用全部的CDS区域作为靶序列;非蛋白质编码基因使用其exon区域作为靶序列;
首先,从Ensemble或NCBI下载基因组序列和注释文件;然后,通过分析注释文件获取每个基因CDS区域的位置信息;最后,根据每个基因CDS区域的位置信息从基因组序列文件中提取所有基因的CDS序列,保存到fasta文件中,作为sgRNA设计模块的输入靶序列;
(2)sgRNA设计:在靶序列的正义链和反义链上根据PAM序列、序列长度、GC含量和单双链模式的参数设定选择候选sgRNA,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA,并进行全基因组序列比对,距离PAM序列(NGG或者GGN)较远的错配更容易引起脱靶,根据允许的错配数进行脱靶率评估并分为最优、低风险、风险适中和高风险的脱靶风险梯度等级,最后进行sgRNA选择时,去掉Moderate risk和Highrisk的sgRNA,并且优先选择Best的sgRNA,其次选择Low risk的sgRNA;
其中,所述脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高;
(3)sgRNA过滤:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA、确保sgRNA之间没有重叠、确保sgRNA在CDS上尽量均匀分布、每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%;
对于蛋白质编码基因,优先选择靠近5’端的sgRNA,每个CDS片段的sgRNA数量不超过2条,对于非蛋白质编码基因,在基因的exon序列上设计4条,设计得到的sgRNA之间不能有重叠;
选择的sgRNA要尽可能的覆盖基因的不同转录本,并且尽量在不同的CDS片段上均匀分布,从而能保证设计得到的sgRNA能确保敲除基因的全部转录本,并且每个基因的多个sgRNA尽量靶定到基因的不同位置上,以确保敲除效率。
第三方面,本发明提供一种根据第二方面所述的方法构建得到的全基因组sgRNA文库。
与现有技术相比,本发明具有如下有益效果:
(1)本发明提供的全基因组sgRNA文库的构建系统简洁高效,便于操作和实际应用,通过优化模块内流程及细节,调整sgRNA的设计标准及筛选原则,全面且特异性地针对全基因组进行sgRNA设计和过滤,节省时间和人力,便于推广应用;
(2)本发明通过提供的构建系统得到的sgRNA文库质量较高,以猪为实施例,全基因组有91.1%的基因均设计得到对应的sgRNA,所有sgRNA的活性均能满足后续实验的要求。
附图说明
图1为本发明的CRISPR基因编辑器的工作过程图;
图2为本发明的CRISPR簇的系统结构图;
图3为本发明的CRISPR/Cas9打靶系统的原理图;
图4为本发明的sgRNA构建流程图。
具体实施方式
为更进一步阐述本发明所采取的技术手段及其效果,以下结合附图并通过具体实施方式来进一步说明本发明的技术方案,但本发明并非局限在实施例范围内。
实施例1
创建一种全基因组sgRNA文库的构建系统,包括如下模块:
(1)输入模块:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
(2)sgRNA设计模块:在靶序列的正义链和反义链上根据参数设定选择候选sgRNA,并进行全基因组序列比对,根据指定允许的错配数进行脱靶率评估并分级;
其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
(3)sgRNA过滤模块:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA、确保sgRNA之间没有重叠、确保sgRNA在CDS上尽量均匀分布、每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%。
实施例2
根据实施例1的构建系统构建猪全基因组sgRNA文库,构建流程如图4所示,流程依次为全基因组CDS序列筛选、根据sgRNA识别位点选取候选sgRNA序列、全基因组脱靶位点检测、根据脱靶位点信息和脱靶位点位置对设计的候选sgRNA打分、结果筛选和设计以及对全程的算法优化和软件开发,具体步骤如下:
(1)首先在从Ensemble下载猪的全基因组序列和注释文件,使用的版本为release90,然后,通过分析注释文件获取每个基因CDS区域的位置信息;最后,根据每个基因CDS区域的位置信息从基因组序列文件中提取所有基因的CDS序列,保存到fasta文件中,作为sgRNA设计模块的输入靶序列;对于蛋白质编码基因,选择CDS区域作为靶序列设计sgRNA,如果基因具有多个转录本则使用各个转录本的全部CDS序列作为靶序列,只有单个转录本的基因则使用全部的CDS区域作为靶序列,非蛋白质编码基因使用其exon区域作为靶序列。
(2)在靶序列的正义链和反义链上根据PAM序列、序列长度、GC含量和单双链模式的参数设定选择候选sgRNA,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA,并进行全基因组序列比对,距离PAM序列(NGG或者GGN)较远的错配更容易引起脱靶,根据指定5个的允许的错配数进行脱靶率评估并分为最优、低风险、风险适中和高风险的脱靶风险梯度等级,最后进行sgRNA选择时,去掉Moderaterisk和Highrisk的sgRNA,并且优先选择Best的sgRNA,其次选择Lowrisk的sgRNA;
脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高;
(3)将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA、确保sgRNA之间没有重叠、确保sgRNA在CDS上尽量均匀分布、每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%;
对于蛋白质编码基因,优先选择靠近5’端的sgRNA,每个CDS片段的sgRNA数量不超过2条,对于非蛋白质编码基因,在基因的exon序列上设计4条,设计得到的sgRNA之间不能有重叠;
(4)文库总体概况:猪全基因组sgRNA文库构建一共有20438个基因设计得到sgRNA,其中17410个基因设计得到6条sgRNA,2828个基因设计得到sgRNA数量在1-5条之间。实验对sgRNA质量的检验结果显示,Low risk以上的均为高质量的sgRNA,文库构建所得到的sgRNA活性均能满足后续实验的要求。
申请人声明,本发明通过上述实施例来说明本发明的详细方法,但本发明并不局限于上述详细方法,即不意味着本发明必须依赖上述详细方法才能实施。所属技术领域的技术人员应该明了,对本发明的任何改进,对本发明产品各原料的等效替换及辅助成分的添加、具体方式的选择等,均落在本发明的保护范围和公开范围之内。

Claims (10)

1.一种全基因组sgRNA文库的构建系统,其特征在于,所述系统包括如下模块:
(1)输入模块:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
(2)sgRNA设计模块:在靶序列的正义链和反义链上根据参数设定选择候选sgRNA,并根据指定的允许错配数进行全基因组序列比对,根据脱靶位点和数量进行脱靶率评估并分级;
其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
(3)sgRNA过滤模块:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA,确保sgRNA之间没有重叠,确保sgRNA在CDS上尽量均匀分布。
2.根据权利要求1所述的构建系统,其特征在于,步骤(1)所述靶序列的选择标准为:蛋白质编码基因选择CDS区域作为靶序列,非蛋白质编码基因选择exon区域作为靶序列。
3.根据权利要求1或2所述的构建系统,其特征在于,步骤(2)所述参数包括PAM序列、序列长度、GC含量、单双链模式和基因组比对允许的错配数。
4.根据权利要求1-3中任一项所述的构建系统,其特征在于,步骤(2)所述允许的错配数为3-6个,优选为5个;
优选地,步骤(2)所述脱靶率评估标准为;
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高。
5.根据权利要求1-4中任一项所述的构建系统,其特征在于,步骤(2)所述分级的级别包括:最优、低风险、风险适中和高风险四个级别。
6.根据权利要求1-5中任一项所述的构建系统,其特征在于,步骤(3)所述筛选的标准还包括:每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置、GC含量在20%-80%中的任意一种或至少两种的组合,优选为每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%的组合。
7.一种采用如权利要求1-6中任一项所述的构建系统构建sgRNA文库的方法,其特征在于,包括如下步骤:
(1)靶序列选择:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
(2)sgRNA设计:在靶序列的正义链和反义链上根据参数设定选择候选sgRNA,并根据指定的允许的错配数进行全基因组序列比对,根据脱靶位点和数量进行脱靶率评估并分级;
其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
(3)sgRNA筛选:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA,确保sgRNA之间没有重叠,确保sgRNA在CDS上尽量均匀分布。
8.根据权利要求7所述的方法,其特征在于,步骤(1)所述靶序列的选择标准为:蛋白质编码基因选择CDS区域作为靶序列,非蛋白质编码基因选择exon区域作为靶序列;
优选地,步骤(2)所述参数包括PAM序列、序列长度、GC含量、单双链模式和基因组比对允许的错配数;
优选地,步骤(2)所述允许的错配数为3-6个,优选为5个;
优选地,步骤(2)所述脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高;
优选地,步骤(2)所述分级的级别包括:最优、低风险、风险适中和高风险四个级别。
9.一种采用如权利要求1-6中任一项所述的构建系统构建sgRNA文库的方法,其特征在于,具体包括如下步骤:
(1)靶序列选择:从数据库中下载基因组序列和注释文件,提取CDS序列作为输入靶序列;
其中,所述靶序列的选择标准为:蛋白质编码基因选择CDS区域作为靶序列,非蛋白质编码基因选择exon区域作为靶序列。
(2)sgRNA设计:在靶序列的正义链和反义链上根据PAM序列、序列长度、GC含量、单双链模式和允许错配数的参数设定选择候选sgRNA,并根据允许的错配数进行全基因组序列比对,然后根据错配数和错配位置进行脱靶率评估并分为最优、低风险、风险适中和高风险的脱靶风险梯度等级;
其中,在正义链上选择20nt+NGG作为候选sgRNA,在反义链上选择GGN+20nt作为候选sgRNA;
脱靶率评估标准为:
1)将能够精确比对到基因组中多个位点的sgRNA过滤掉;
2)只比对到基因组中该sgRNA对应位置的sgRNA为Best;
3)对于其他的sgRNA根据错配位置从5’->3’罚分逐渐递减,再结合错配数进行综合打分,罚分越高风险越高;
(3)sgRNA过滤:将评估并分级后的sgRNA根据以下标准进行筛选:去掉包含4个及以上连续碱基的sgRNA、确保sgRNA之间没有重叠、确保sgRNA在CDS上尽量均匀分布、每个靶序列最多选择6条sgRNA、只保留级别为最优和低风险的sgRNA、确保选择的sgRNA尽可能覆盖基因的不同转录本、每个基因的多个sgRNA尽量靶定到基因的不同位置和GC含量在20%-80%。
10.根据权利要求9所述的方法构建得到的全基因组sgRNA文库。
CN201711481306.3A 2017-12-29 2017-12-29 一种全基因组sgRNA文库的构建系统及其应用 Pending CN108205614A (zh)

Priority Applications (4)

Application Number Priority Date Filing Date Title
CN201711481306.3A CN108205614A (zh) 2017-12-29 2017-12-29 一种全基因组sgRNA文库的构建系统及其应用
PCT/CN2018/121328 WO2019128744A1 (zh) 2017-12-29 2018-12-14 一种全基因组sgRNA文库的构建系统及其应用
EP18897229.3A EP3734602A4 (en) 2017-12-29 2018-12-14 SYSTEM FOR BUILDING A WHOLE GENOME SGRNA LIBRARY AND APPLICATION OF IT
US16/958,671 US20230187025A1 (en) 2017-12-29 2018-12-14 Whole genome sgrna library constructing system and application thereof

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711481306.3A CN108205614A (zh) 2017-12-29 2017-12-29 一种全基因组sgRNA文库的构建系统及其应用

Publications (1)

Publication Number Publication Date
CN108205614A true CN108205614A (zh) 2018-06-26

Family

ID=62606142

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711481306.3A Pending CN108205614A (zh) 2017-12-29 2017-12-29 一种全基因组sgRNA文库的构建系统及其应用

Country Status (4)

Country Link
US (1) US20230187025A1 (zh)
EP (1) EP3734602A4 (zh)
CN (1) CN108205614A (zh)
WO (1) WO2019128744A1 (zh)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019128743A1 (zh) * 2017-12-29 2019-07-04 苏州金唯智生物科技有限公司 一种猪全基因组sgRNA文库及其构建方法和应用
WO2019128744A1 (zh) * 2017-12-29 2019-07-04 苏州金唯智生物科技有限公司 一种全基因组sgRNA文库的构建系统及其应用
CN110322927A (zh) * 2019-08-02 2019-10-11 中南大学 一种crispr诱导rna文库设计方法
CN113073099A (zh) * 2021-03-19 2021-07-06 深圳市第三人民医院 sgRNA库、敲低基因文库及敲低基因文库的构建方法和应用
CN113990394A (zh) * 2021-10-27 2022-01-28 云舟生物科技(广州)有限公司 向导rna作用靶点的筛选方法、计算机存储介质及电子设备
WO2023116681A1 (zh) * 2021-12-21 2023-06-29 翌圣生物科技(上海)股份有限公司 靶序列随机sgRNA全覆盖组的制备方法

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110656123B (zh) * 2019-10-12 2021-07-13 中国农业大学 基于CRISPR-Cas13d系统的sgRNA高效作用靶点的筛选方法及应用
WO2023108430A1 (zh) * 2021-12-14 2023-06-22 中国医学科学院药用植物研究所 基于全基因组分析与基因组编辑的植物物种鉴定方法与应用

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105400773A (zh) * 2015-12-14 2016-03-16 同济大学 应用于大规模筛选癌症基因的CRISPR/Cas9富集测序方法
CN105886616A (zh) * 2016-04-20 2016-08-24 广东省农业科学院农业生物基因研究中心 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
CN106845151A (zh) * 2015-12-07 2017-06-13 中国农业大学 CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置
CN107365793A (zh) * 2017-06-19 2017-11-21 百格基因科技(江苏)有限公司 一种适用于植物的大规模基因组编辑的方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
MX9305855A (es) * 1992-09-24 1995-01-31 Tadatsugu Taniguchi Factores 1 y 2 reguladores del interferon en el diagnostico de latumorigenicidad.
US20150067922A1 (en) * 2013-05-30 2015-03-05 The Penn State Research Foundation Gene targeting and genetic modification of plants via rna-guided genome editing
WO2014204727A1 (en) * 2013-06-17 2014-12-24 The Broad Institute Inc. Functional genomics using crispr-cas systems, compositions methods, screens and applications thereof
WO2015065964A1 (en) * 2013-10-28 2015-05-07 The Broad Institute Inc. Functional genomics using crispr-cas systems, compositions, methods, screens and applications thereof
CN107090466B (zh) * 2017-04-20 2020-02-28 清华大学 双sgRNA表达质粒及其文库的构建方法
CN108205614A (zh) * 2017-12-29 2018-06-26 苏州金唯智生物科技有限公司 一种全基因组sgRNA文库的构建系统及其应用

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845151A (zh) * 2015-12-07 2017-06-13 中国农业大学 CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置
CN105400773A (zh) * 2015-12-14 2016-03-16 同济大学 应用于大规模筛选癌症基因的CRISPR/Cas9富集测序方法
CN105886616A (zh) * 2016-04-20 2016-08-24 广东省农业科学院农业生物基因研究中心 一种用于猪基因编辑的高效特异性sgRNA识别位点引导序列及其筛选方法
CN107365793A (zh) * 2017-06-19 2017-11-21 百格基因科技(江苏)有限公司 一种适用于植物的大规模基因组编辑的方法

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019128743A1 (zh) * 2017-12-29 2019-07-04 苏州金唯智生物科技有限公司 一种猪全基因组sgRNA文库及其构建方法和应用
WO2019128744A1 (zh) * 2017-12-29 2019-07-04 苏州金唯智生物科技有限公司 一种全基因组sgRNA文库的构建系统及其应用
CN110322927A (zh) * 2019-08-02 2019-10-11 中南大学 一种crispr诱导rna文库设计方法
CN110322927B (zh) * 2019-08-02 2021-04-09 中南大学 一种crispr诱导rna文库设计方法
CN113073099A (zh) * 2021-03-19 2021-07-06 深圳市第三人民医院 sgRNA库、敲低基因文库及敲低基因文库的构建方法和应用
CN113073099B (zh) * 2021-03-19 2023-08-22 深圳市第三人民医院 sgRNA库、敲低基因文库及敲低基因文库的构建方法和应用
CN113990394A (zh) * 2021-10-27 2022-01-28 云舟生物科技(广州)有限公司 向导rna作用靶点的筛选方法、计算机存储介质及电子设备
CN113990394B (zh) * 2021-10-27 2023-01-24 云舟生物科技(广州)股份有限公司 向导rna作用靶点的筛选方法、计算机存储介质及电子设备
WO2023116681A1 (zh) * 2021-12-21 2023-06-29 翌圣生物科技(上海)股份有限公司 靶序列随机sgRNA全覆盖组的制备方法

Also Published As

Publication number Publication date
US20230187025A1 (en) 2023-06-15
WO2019128744A1 (zh) 2019-07-04
EP3734602A4 (en) 2022-01-05
EP3734602A1 (en) 2020-11-04

Similar Documents

Publication Publication Date Title
CN108205614A (zh) 一种全基因组sgRNA文库的构建系统及其应用
CN108221058A (zh) 一种猪全基因组sgRNA文库及其构建方法和应用
CN106845151B (zh) CRISPR-Cas9系统sgRNA作用靶点的筛选方法及装置
Efroni et al. Quantification of cell identity from single-cell gene expression profiles
Salvador-Martínez et al. Is it possible to reconstruct an accurate cell lineage using CRISPR recorders?
Plohl et al. Satellite DNA evolution
Sharbel et al. Apomictic and sexual ovules of Boechera display heterochronic global gene expression patterns
Li et al. Integrated detection of natural antisense transcripts using strand-specific RNA sequencing data
Schneider et al. Inbreeding drives maize centromere evolution
Square et al. CRISPR/Cas9-mediated mutagenesis in the sea lamprey Petromyzon marinus: a powerful tool for understanding ancestral gene functions in vertebrates
Bonchev et al. Transposable elements and microevolutionary changes in natural populations
Ding et al. Genetic diversity across natural populations of Dendrobium officinale, the endangered medicinal herb endemic to China, revealed by ISSR and RAPD markers
Tang et al. Identification of microRNAs involved in regeneration of the secondary vascular system in Populus tomentosa Carr
CN110343724A (zh) 用于筛选和鉴定功能性lncRNA的方法
Rao et al. Combined analysis of microRNAs and target genes revealed miR156-SPLs and miR172-AP2 are involved in a delayed flowering phenomenon after chromosome doubling in black goji (Lycium ruthencium)
Dluhošová et al. Red clover (Trifolium pratense) and zigzag clover (T. medium)–a picture of genomic similarities and differences
Buckley et al. Similar evolutionary trajectories for retrotransposon accumulation in mammals
Kar et al. Genetic variability and genetic structure of wild and semi-domestic populations of tasar silkworm (Antheraea mylitta) ecorace Daba as revealed through ISSR markers
Pellicer et al. Genome size doubling arises from the differential repetitive DNA dynamics in the genus Heloniopsis (Melanthiaceae)
Sun et al. DNA methylation in transposable elements buffers the connection between three-dimensional chromatin organization and gene transcription upon rice genome duplication
CN106987652B (zh) 用于鉴定山鸡椒性别的snp标记及该snp标记的筛选方法
Mascagni et al. The singular evolution of Olea genome structure
CN103757020A (zh) 用于调控烟草尼古丁合成和转运的基因及其应用
KR102412631B1 (ko) 염기교정 유전자가위의 염기교정 효율 및 결과 예측 시스템
Pulido-Quetglas et al. Designing libraries for pooled CRISPR functional screens of long noncoding RNAs

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20180626