CN111094565A - 指导核酸的产生和用途 - Google Patents

指导核酸的产生和用途 Download PDF

Info

Publication number
CN111094565A
CN111094565A CN201880051065.5A CN201880051065A CN111094565A CN 111094565 A CN111094565 A CN 111094565A CN 201880051065 A CN201880051065 A CN 201880051065A CN 111094565 A CN111094565 A CN 111094565A
Authority
CN
China
Prior art keywords
nucleic acid
dna
sequence
site
adaptor
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201880051065.5A
Other languages
English (en)
Other versions
CN111094565B (zh
Inventor
S·B·古尔格钦
M·L·卡彭特
M·拉斯穆森
S·拉德哈基什南
A·K·埃尔默
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
ARC Bio LLC
Original Assignee
ARC Bio LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ARC Bio LLC filed Critical ARC Bio LLC
Publication of CN111094565A publication Critical patent/CN111094565A/zh
Application granted granted Critical
Publication of CN111094565B publication Critical patent/CN111094565B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1068Template (nucleic acid) mediated chemical library synthesis, e.g. chemical and enzymatical DNA-templated organic molecule synthesis, libraries prepared by non ribosomal polypeptide synthesis [NRPS], DNA/RNA-polymerase mediated polypeptide synthesis
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1096Processes for the isolation, preparation or purification of DNA or RNA cDNA Synthesis; Subtracted cDNA library construction, e.g. RT, RT-PCR
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2320/00Applications; Uses
    • C12N2320/10Applications; Uses in screening processes
    • C12N2320/12Applications; Uses in screening processes in functional genomics, i.e. for the determination of gene function
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2330/00Production
    • C12N2330/30Production chemically synthesised
    • C12N2330/31Libraries, arrays
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2800/00Nucleic acids vectors
    • C12N2800/80Vectors containing sites for inducing double-stranded breaks, e.g. meganuclease restriction sites

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Genetics & Genomics (AREA)
  • Engineering & Computer Science (AREA)
  • Chemical & Material Sciences (AREA)
  • Biomedical Technology (AREA)
  • Organic Chemistry (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Microbiology (AREA)
  • Biochemistry (AREA)
  • General Health & Medical Sciences (AREA)
  • Plant Pathology (AREA)
  • Biophysics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Preparation Of Compounds By Using Micro-Organisms (AREA)

Abstract

本文提供了从任何来源的核酸制备指导核酸(gNA)、编码gNA的核酸、gNA的集合和编码gNA的集合的核酸的方法和组合物。本文还提供了在多种应用中使用所得的gNA、编码gNA的核酸、gNA的集合和编码gNA的集合的核酸的方法和组合物。

Description

指导核酸的产生和用途
交叉引用
本申请要求2017年6月7日提交的美国临时专利申请序列号62/516,619和2017年8月21日提交的美国临时专利申请序列号62/548,036的优先权权益,其中的每个通过引用以其整体并入本文。
背景
人类临床DNA样品和样品文库诸如源自RNA的cDNA文库含有高丰度的几乎没有信息价值并且增加测序成本的序列。虽然已经开发了方法来消耗这些不想要的序列(例如,经由杂交捕获),但是这些方法经常是耗时的并且可能效率低。
尽管指导核酸(gNA)介导的核酸酶系统(诸如指导RNA(gRNA)介导的Cas系统)可有效地消耗任何靶DNA,但是靶向消耗极高数量的独特DNA分子是不可行的。例如,源自人类血液的测序文库可含有>99%人类基因组DNA。使用基于gRNA介导的Cas9系统的方法来消耗该基因组DNA以检测在人类血液中循环的感染源,会需要极高数量的gRNA(约10,000,000-100,000,000gRNA),以确保每30-50个碱基对(bp)会存在gRNA,并且不会错过靶DNA。极大数量的gRNA可通过计算来预测,然后化学合成,但是成本过分昂贵。
因此,在本领域中需要提供一种使任何DNA转化成gNA(例如gRNA)文库以能够例如从感兴趣的DNA序列中全基因组消耗不想要的DNA序列,而不事先知道它们的序列。本文提供的是解决该需要的方法和组合物。
发明内容
本文提供了指导核酸的集合,制备该指导核酸的集合的方法和使用该指导核酸的集合的方法。
在一方面中,本文提供了制备核酸的集合的方法,其包括:(a)获得靶核酸,每个靶核酸包含核酸指导的核酸酶的PAM位点;(b)使第一引物与所述靶核酸的PAM位点杂交,其中所述第一引物包含(i)与所述PAM位点互补的MAP位点,(ii)与所述核酸指导的核酸酶的识别位点互补的互补识别位点,和(iii)与启动子位点互补的互补启动子位点;(c)使用所述靶核酸作为模板延伸所述第一引物,由此产生包含所述第一引物的序列和与所述靶核酸互补的序列的第一延伸产物;(d)使第二引物与所述第一延伸产物杂交;和(e)使用所述第一延伸产物作为模板延伸所述第二引物,由此产生包含所述PAM位点、所述识别位点和所述启动子位点的第二延伸产物。
在另一方面中,本文提供了制备核酸的集合的方法,其包括:(a)获得靶核酸,每个靶核酸包含核酸指导的核酸酶的PAM位点;(b)使引物与所述靶核酸的PAM位点杂交,其中所述引物包含(i)与所述PAM位点互补的MAP位点,(ii)与所述核酸指导的核酸酶的识别位点互补的互补识别位点,和(iii)与启动子位点互补的互补启动子位点;(c)使用所述靶核酸作为模板延伸所述引物,由此产生包含所述PAM位点、所述识别位点和所述启动子位点的延伸产物;(d)使所述靶核酸产生切口;和(e)消化有切口的靶核酸。
在另一方面中,本文提供了制备核酸的集合的方法,其包括:(a)获得靶核酸,每个靶核酸包含核酸指导的核酸酶的PAM位点;(b)使第一环衔接子与所述靶核酸的两端连接,其中所述第一环衔接子包含启动子位点;(c)切割所述PAM位点处的靶核酸,由此产生DNA切割产物,每个DNA切割产物包含在第一端处的第一环衔接子和第二端处的PAM位点;(d)使第二环衔接子与所述切割产物的第二端连接,其中所述第二环衔接子包含与所述核酸指导的核酸酶的茎环序列互补的互补茎环序列;和(e)扩增所述切割产物,由此产生包含所述启动子位点、识别位点和所述茎环序列的扩增产物,其中所述识别位点包含与所述靶核酸之一中的PAM位点邻近的序列。
在另一方面中,本文提供了制备核酸的集合的方法,其包括:(a)获得靶核酸的序列读段;(b)将序列读段映射到至少一个参考序列;(c)测定所述序列读段的丰度值;(d)从所述序列读段中鉴定识别位点,其中所述识别位点与核酸指导的核酸酶的PAM位点邻近;和(e)基于所述丰度值分选所述识别位点。
在另一方面中,本文提供了制备指导核酸的集合的方法,其包括:(a)获得靶核酸的序列读段;(b)从所述序列读段中确定最常见的识别位点,其中识别位点与核酸指导的核酸酶的PAM位点邻近;(c)从所述序列读段中确定下一最常见的识别位点;和(d)重复步骤c直至条件被满足,所述条件选自(i)确定一定数目的识别位点,(ii)无法确定另外的识别位点,(iii)一定百分比的靶核酸被所述识别位点覆盖,和(iv)在所述识别位点处或在所述识别位点附近切割所述靶核酸产生低于一定大小的最大片段大小。
在另一方面中,本文提供了包含指导核酸的集合的组合物,其中每个指导核酸包含识别位点和核酸指导的核酸酶的茎环序列,其中每个识别位点与与所述核酸指导的核酸酶的PAM位点邻近的靶核酸的靶位点互补,且其中与所述指导核酸的集合的识别位点互补的靶位点以小于约10,000个碱基对的平均间隔分布在所述靶核酸内。
在另一方面中,本文提供了消耗靶核酸的方法,其包括:(a)获得包含靶核酸和非靶核酸的核酸;(b)使所述核酸与核酸指导的切口酶蛋白-gNA复合物接触,使得所述靶核酸在切口位点处产生切口,且其中所述gNA包含5’茎环序列和3’导向序列;(c)在所述切口位点处进行切口平移,其中所述切口平移是用标记的核苷酸进行的;(d)用所述标记的核苷酸捕获所述靶核酸;和(e)从所述非靶核酸中分离所述靶核酸。
在另一方面中,本文提供了消耗靶核酸的方法,其包括:(a)获得包含靶核酸和非靶核酸的核酸,其中所述核酸在第一端处包含发夹环;(b)使环衔接子与所述核酸的第二端杂交;(c)使所述核酸与核酸指导的切口酶蛋白接触,使得所述靶核酸是有切口的;和(d)消化有切口的靶核酸。
在另一方面中,本文提供了制备测序文库的方法,其包括:(a)提供包含感兴趣的位点的DNA分子,该DNA分子是在经历了本公开的消耗方法或捕获方法之后所获得的;(b)封闭所述DNA分子的3’端,使得该3’端不能通过聚合酶被延伸;(c)使第一引物与所述DNA分子杂交;(d)延伸所述第一引物以产生延伸产物,该延伸产物包含所述第一引物的序列和所述感兴趣的位点的序列;(e)使第二引物与所述延伸产物杂交;和(f)使用所述第二引物来扩增所述延伸产物。
在另一方面中,本文提供了制备测序文库的方法,其包括:(a)提供源自gNA消耗或捕获方法的RNA分子;(b)使第一杂交位点与所述RNA分子附着;(c)使第一寡核苷酸与所述第一杂交位点杂交;(d)使用所述第一寡核苷酸作为引物来反转录所述RNA分子的至少一部分,由此生成cDNA;(e)使第二寡核苷酸与所述cDNA的尾杂交;和(f)使用所述第二寡核苷酸和/或所述第一寡核苷酸作为引物来扩增所述cDNA。
在另一方面中,本文提供了制备核酸的集合的方法,其包括:(a)用限制内切核酸酶消化DNA样品以产生DNA片段的集合;(b)用核酸酶处理所述DNA片段的集合;(c)使第一衔接子与所述DNA片段的集合连接以产生第一衔接子DNA片段的集合;其中编码所述第一衔接子的序列包含MmeI限制位点和FokI限制位点;且其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(d)首先用MmeI,其次用FokI消化所述第一衔接子DNA片段的集合以产生N20 DNA片段的集合;和(e)使第二衔接子与所述N20DNA片段的集合连接;其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接所述第二衔接子后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
在另一方面中,本文提供了制备核酸的集合的方法,其包括:(a)用肌苷取代DNA样品中至少两个连续的腺苷;(b)用人烷基腺嘌呤DNA糖基化酶(hAAG)处理所述DNA样品;(c)用内切核酸酶处理所述DNA样品以产生DNA片段的集合;(d)在第一个连接步骤中使第一衔接子与所述DNA片段的集合连接以生成第一衔接子DNA片段的集合;其中所述第一衔接子包含双链的DNA分子和在所述双链DNA分子的5’端处的5’NAA 3’的单链DNA突出端;其中所述第一衔接子包含MmeI位点和FokI位点;且其中在连接所述第一衔接子后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(e)首先用MmeI,其次用FokI消化第一衔接子连接的片段的集合以产生N20 DNA片段的集合;和(f)在第二连接步骤中使第二衔接子与所述N20DNA片段的集合连接;编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接所述第二衔接子后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
在另一方面中,本文提供了制备核酸的集合的方法,其包括:(a)用尿嘧啶取代DNA样品中的至少一个胸腺嘧啶,以产生包含至少一个碱基对错配的DNA样品;(b)用至少一个DNA修复酶切除至少一个尿嘧啶,以产生具有至少一个碱基对的至少一个单链区的DNA样品;(c)用核酸酶处理所述DNA样品以产生DNA片段的集合;(d)在第一连接步骤中使所述DNA片段的集合与第一衔接子连接以产生第一衔接子DNA片段的集合;其中所述第一衔接子包含MmeI位点和FokI位点;其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(e)首先用MmeI,其次用FokI消化所述第一衔接子DNA片段的集合以产生N20 DNA片段的集合;和(f)在第二连接步骤中使第二衔接子与所述N20 DNA片段的集合连接;其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
在另一方面中,本文提供了制备核酸的集合的方法,其包括:(a)随机片段化DNA样本以产生DNA片段的集合;(b)在第一连接步骤中使第一衔接子与所述DNA片段的集合连接;其中所述第一衔接子包含双链DNA分子和在所述双链DNA分子的5′端处的5’NAA 3’的单链DNA突出端;其中所述第一衔接子包含FokI位点和MmeI位点;且其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(c)首先用MmeI,其次用FokI消化第一衔接子连接的片段的集合以产生N20 DNA片段的集合;和(d)在第二连接步骤中使第二衔接子与所述N20 DNA片段的集合连接;其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接后,核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
在另一方面中,本文提供了制备核酸的集合的方法,其包括:(a)随机剪切DNA样品以产生DNA片段的集合;(b)用甲基化酶使所述DNA片段甲基化;(c)末端修复所述DNA片段的集合以产生平端化的DNA片段的集合;(d)在第一连接步骤中使第一衔接子与所述平端化的DNA片段的集合连接以产生第一衔接子DNA片段的集合;其中所述第一衔接子从5’至3’包含NtBstNBI限制位点、在所述第一衔接子的磷酸骨架中的经修饰的抗切割键和与PAM序列互补的序列;(e)用限制酶和NtBstNBI消化所述第一衔接子DNA片段;(f)在第二连接步骤中使第二衔接子与消化的第一衔接子DNA片段连接以产生第二衔接子DNA片段的集合;其中所述第二衔接子包含FokI位点和MmeI位点;且其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(g)首先用MmeI,其次用FokI消化第二衔接子连接的片段的集合以产生N20 DNA片段的集合;和(h)在第三连接反应中使第三衔接子与所述N20 DNA片段的集合连接;其中编码所述第三衔接子的序列包含编码启动子序列的序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
在另一方面中,本文提供了制备核酸的集合的方法,其包括:(a)随机剪切DNA样品以产生DNA片段的集合;(b)末端修复所述DNA片段的集合以产生平端化的DNA片段;(c)在第一连接步骤中使第一衔接子与所述平端化的DNA片段连接以产生第一衔接子DNA片段的集合;其中所述第一衔接子从5’至3’包含Nt.BstNBI限制位点和与PAM序列互补的序列;(d)用Nt.BstNBI使所述第一衔接子DNA片段产生切口;(e)将所述第一衔接子DNA片段的顶部链从切口沿3’至5’方向降解到5’端;(f)在第二连接步骤中使第二衔接子与所降解的第一衔接子DNA片段连接以产生第二衔接子DNA片段的集合;其中所述第二衔接子在5’至3’方向上包含MlyI序列、与所述PAM序列互补的序列和所述PAM序列;(g)用MlyI消化所述第二衔接子片段;(h)在第三连接步骤中使第三衔接子与MlyI消化的第二-衔接子连接的片段连接以产生第三衔接子DNA片段的集合;其中所述第三衔接子包含FokI位点和MmeI位点;且其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(i)首先用MmeI其次用FokI消化所述第三衔接子DNA片段的集合以产生N20 DNA片段的集合;和(j)在第四连接反应中使第四衔接子与所述N20 DNA片段的集合连接;其中编码所述第四衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列所述启动子之间。
在另一方面中,本文提供了制备核酸的集合的方法,其包括:(a)随机剪切DNA样品以产生DNA片段的集合;(b)在第一连接反应中使环状衔接子与所述DNA片段的集合连接以产生环状衔接子DNA片段的集合;其中所述环状衔接子包含与PAM序列互补的序列;(c)用甲基化酶使所述环状衔接子DNA片段的集合甲基化;(d)用外切核酸酶消化所述环状衔接子DNA片段的集合;(e)用限制酶消化所述环状衔接子DNA片段的集合;(f)在第二连接反应中使第二衔接子与所述环状衔接子DNA片段的集合连接,以产生第二衔接子DNA片段的集合;其中所述第二衔接子从5’至3’包含与PAM位点互补的序列、PAM位点和MlyI位点;(g)PCR扩增所述第二衔接子DNA片段的集合;其中PCR引物包含所述第二衔接子的序列或与所述第二衔接子的序列互补的序列以产生PCR扩增的第二-衔接子DNA片段的集合;(h)用MlyI消化所述PCR扩增的第二衔接子DNA片段的集合;(i)在第三连接反应中使第三衔接子与所述PCR扩增的第二衔接子DNA片段的集合连接以产生第三衔接子DNA片段的集合;其中所述衔接子包含FokI位点和MmeI位点;且其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(j)首先用MmeI,其次用FokI消化所述第三衔接子连接的片段的集合以产生N20 DNA片段的集合;和(k)在第四连接反应中使第四衔接子与所述N20 DNA片段的集合连接;其中编码所述第四衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
在本公开的组合物和方法的一些实施方案中,所述靶核酸包含基因组DNA或cDNA。在一些实施方案中,所述靶核酸包含人DNA。在一些实施方案中,所述靶核酸包含真核生物DNA。
附图说明
图1示例说明了用于从基因组DNA产生gRNA的集合(gRNA文库)的示例性方案。
图2示例说明了用于从基因组DNA产生gRNA的集合(gRNA文库)的另一个示例性方案。
图3示例说明了用于使DNA有切口和随后用聚合酶处理以生成平端的示例性方案。
图4示例说明了用于使用3个衔接子顺序产生gNA的文库的示例性方案。
图5示例说明了用于使用一个衔接子和一个寡核苷酸顺序产生gNA的文库的示例性方案。
图6示例说明了使用切口酶介导的DNA扩增(NEMDA)生成有平端的DNA片段的大库的示例性方案。
图7示例说明了用于生成核酸片段的示例性方案。
图8A示例说明了用于从输入核酸构建指导核酸文库的示例性方案。
图8B示例说明了用于从输入核酸构建指导核酸文库的示例性方案。
图8C示例说明了用于从输入核酸构建指导核酸文库的示例性方案。
图8D示例说明了用于从输入核酸构建指导核酸文库的示例性方案。
图9A和图9B示例说明了用于从输入核酸构建指导核酸文库的示例性方法。
图10示例说明了用于设计指导核酸的集合的示例性方案。
图11示例说明了用于设计指导核酸的集合的示例性方案。
图12示例说明了用于消耗、分割或捕获被靶向的核酸的示例性方案。
图13示例说明了链转换方法的示例性方案。
图14示例说明了用于在单个工作流程中文库生成和富集的示例性方案。
图15示例说明了来自已经由MseI或MluCI任一者切割并用绿豆核酸酶处理以降解单链突出端的DNA来源的指导核酸文库的示例性方案。
图16A和图16B示例说明了来自其中腺苷已经被肌苷取代的DNA来源的指导核酸文库的示例性方案。
图17A和图17B示例说明了来自其中胸苷已经被尿嘧啶取代的DNA来源的指导核酸文库的示例性方案。
图18示例说明了来自已经用非特异性切口酶和T7内切核酸酶I(片段化酶)被随机片段化的DNA来源的指导核酸文库的示例性方案。
图19A和图19B示例说明了来自已经经随机剪切且甲基化的DNA来源的指导核酸文库的示例性方案。
图20A、图20B和图20C示例说明了来自随机剪切的DNA来源的指导核酸文库的示例性方案。
图21A和图21B示例说明了使用环状衔接子的连接来自随机剪切的DNA来源的指导核酸文库的示例性方案。
图22A、图22B、图22C和图22D示例说明了来自已经经平端修复的随机剪切的DNA来源的指导核酸文库的示例性方案。
图23A、图23B和图23C示例说明了来自已经经平端修复的随机剪切的DNA来源的指导核酸文库的示例性方案。
图24示例说明了来自已经被环化的随机剪切的DNA来源的指导核酸文库的示例性方案。
具体实施方案
本领域需要可扩展的、低成本的方法以生成大量不同指导核酸(gNA)(例如gRNA、gDNA)用于多种下游应用。
除非本文另有定义,否则本文所使用的所有技术和科学术语具有与发明所属领域的普通技术人员通常理解的相同的含义。尽管与本文所述的方法和材料相似或等同的任何方法和材料可用于本发明的实践和测试,但是仍描述了优选的方法和材料。
数值范围包含限定范围的数字。
为了解释本说明书的目的,将应用以下定义,并且在任何适当时,以单数形式使用的术语也将包括复数形式,并且反之亦然。在下面列出的任何定义与通过引用并入本文的任何文件相矛盾的情况下,以所列出的定义为准。
除非另有说明,如本文所使用的单数形式“一”、“一个”和“该”包括复数形式的提及。
应该理解的是本文所述的本发明的方面和实施方案包括“包含”方面和实施方案、“由方面和实施方案组成”和“基本上由方面和实施方案组成”。
本文所使用的术语“约”指本技术领域的技术人员容易知道的相应值的通常误差范围。本文提及“约”一个值或参数包括(和描述)针对该值或参数本身的实施方案。
本文所使用的术语“核酸”指包含一个或多个核酸亚单位的分子。核酸可包含选自腺嘌呤(A)、胞嘧啶(C)、鸟嘌呤(G)、胸腺嘧啶(T)和尿嘧啶(U)及其经修饰形式的一个或多个亚单位。核酸包含脱氧核糖核酸(DNA)、核糖核酸(RNA)、它们的组合或衍生物。核酸可以是单链和/或双链的。
本文所使用的核酸包含“核苷酸”,所述核苷酸意欲包括含有嘌呤和嘧啶碱基的那些部分,及其经修饰的形式。这样的修饰包括甲基化的嘌呤或嘧啶、酰化的嘌呤或嘧啶、烷基化的核糖或其他杂环。另外,术语“核苷酸”或“多核苷酸”包括含有半抗原或荧光标记的那些部分,并且可以不但含有常规的核糖和脱氧核糖糖类,而且还含有其他糖类。经修饰的核苷、核苷酸或多核苷酸还包括对糖部分的修饰,例如,其中一个或多个羧基被卤素原子或脂族基团取代,或被官能化为酯、胺等。
术语“核酸”和“多核苷酸”在本文中可互换使用。多核苷酸用来描述由核苷酸例如脱氧核糖核酸或核糖核酸组成的任何长度的核酸聚合物,例如,大于约2个碱基、大于约10个碱基、大于约100个碱基、大于约500个碱基、大于约1000个碱基、高达约10,000个或更多个碱基,并且可酶促或合成产生(例如,如美国专利号5,948,902和在此所引用的参考文献中所述的PNA),其可以与两种天然存在的核酸类似的序列特异性方式与天然存在的核酸杂交,例如可参与Watson-Crick碱基配对相互作用。天然存在的核苷酸包括鸟嘌呤、胞嘧啶、腺嘌呤和胸腺嘧啶(分别是G、C、A和T)。DNA和RNA分别具有脱氧核糖和核糖糖骨架,而PNA的骨架由通过肽键连接的重复的N-(2-氨乙基)-甘氨酸单元组成。在PNA中,多种嘌呤和嘧啶碱基通过亚甲基羰基键与该骨架连接。锁核酸(LNA)经常称为不可达RNA(inaccessibleRNA),是经修饰的RNA核苷酸。LNA核苷酸的核糖部分用连接2′氧和4′碳的额外桥修饰。该桥将核糖“锁定”在3′-内(北)构象(3′-endo(North)conformation)中,这经常在A形双链体中被发现。无论何时需要,LNA核苷酸均可在寡核苷酸中与DNA或RNA残基混合。术语“非结构性核酸”或“UNA”是含有彼此以减小的稳定性结合的非天然核苷酸的核酸。例如,非结构性核酸可含有G′残基和C′残基,其中,这些残基对应于G和C的非天然存在的形式,即类似物,其彼此以减小的稳定性碱基配对,但是保持与天然存在的C和G残基分别碱基配对的能力。非结构性核酸在US20050233340中描述,其通过引用在此并入用于公开UNA。
本文所使用的术语“寡核苷酸”指核苷酸的单链多聚体。
除非另有说明,否则分别地以5′至3′方向从左至右书写核酸;以氨基至羧基方向从左至右书写氨基酸序列。
本文所使用的术语“切割”指断裂双链DNA分子的两条链中两个相邻核苷酸之间的磷酸二酯键的反应,由此得到DNA分子的双链断裂。
本文所使用的术语“使…有切口”指断裂双链DNA分子的仅一条链中两个相邻核苷酸之间的磷酸二酯键的反应,由此得到DNA分子的单链的断裂。
本文所使用的术语“切割位点”指双链DNA分子已经被切割的位点。
“核酸指导的核酸酶-gNA复合物”指包含核酸指导的核酸酶蛋白和指导核酸(gNA,例如gRNA或gDNA)的复合物。例如“Cas9-gRNA复合物”指包含Cas9蛋白和指导RNA(gRNA)的复合物。核酸指导的核酸酶可以是任何类型的核酸指导的核酸酶,其包括但不限于野生型核酸指导的核酸酶,催化死亡的核酸指导的核酸酶(catalytically dead nucleic acid-guided nuclease)或核酸指导的核酸酶-切口酶。
术语“与核酸指导的核酸酶有关的指导NA”指指导核酸(指导NA)。与核酸指导的核酸酶有关的指导NA可作为单独的核酸存在,或作为核酸指导的核酸酶-gNA复合物(例如Cas9-gRNA复合物)的一部分存在。
术语“捕获”和“富集”在本文中可互换使用,并且指选择性分离含有以下的核酸区域的过程:感兴趣的序列、感兴趣的靶向位点、不感兴趣的序列或不感兴趣的靶向位点。
术语“杂交”指核酸的一条链通过如本领域已知的碱基配对与互补链结合的过程。如果两个序列在中度至高度严格杂交和洗涤条件下特异性地互相杂交,则认为一个核酸与一个参考核酸序列“选择性杂交”。中度和高度严格杂交条件是已知的(参见,例如,Ausubel,et al.,Short Protocols in Molecular Biology,第三版.,Wiley&Sons 1995和Sambrook et al.,Molecular Cloning:A Laboratory Manual,第三版,2001Cold SpringHarbor,N.Y.)。高度严格条件的一个实例包括在约42℃,在50%甲酰胺、5X SSC、5XDenhardt氏溶液、0.5%SDS和100μg/ml变性的载体DNA中杂交,然后在室温在2X SSC和0.5%SDS中洗涤两次,和在42℃在0.1X SSC和0.5%SDS中另外洗涤两次。
本文所使用的术语“双链体”或“双链体的”描述了碱基配对即杂交在一起的两个互补的多核苷酸。
本文所使用的术语“扩增”指使用靶核酸作为模板生成该靶核酸的一个或多个拷贝。
本文所使用的术语“基因组区域”指基因组(例如动物或植物基因组,诸如人类、猴、大鼠、鱼或昆虫或植物的基因组)的区域。在某些情况中,在本文所述的方法中使用的寡核苷酸可使用参考基因组区域(即已知核苷酸序列的基因组区域,例如,序列储存在例如NCBI的Genbank数据库或其他数据库中的染色体区域)来设计。
本文所使用的术语“基因组序列”指存在于基因组中的序列。因为RNA从基因组转录,该术语涵盖存在于生物体的核基因组中的序列,以及存在于从这样的基因组转录的RNA(例如,mRNA)的cDNA拷贝中的序列。
本文所使用的术语“基因组片段”指基因组(例如动物或植物基因组,诸如人类、猴、大鼠、鱼或昆虫或植物的基因组)的区域。基因组片段可以是整个染色体或染色体的片段。基因组片段可以是衔接子连接的(在这种情况下,其具有与该片段的一端或两端连接的衔接子或与分子的至少5′端连接的衔接子),或可以不是衔接子连接的。
在某些情况下,在本文所述的方法中使用的寡核苷酸可使用参考基因组区域(即已知核苷酸序列的基因组区域,例如序列储存在例如NCBI的Genbank数据库或其他数据库中的染色体区域)来设计。这样的寡核苷酸可以用于使用含有测试基因组的样品的测定中,其中测试基因组含有该寡核苷酸的结合位点。
本文所使用的术语“连接”指第一个DNA分子的5′端的末端核苷酸与第二个DNA分子的3′端的末端核苷酸的酶催化的连接。
如果两个核酸是“互补的”,一个核酸的每个碱基与另一个核酸中相应的核苷酸碱基配对。术语“互补”和“完美互补”在本文中是同义使用。
如本文所使用的术语“分离”指物理分离两个元件(例如通过尺寸或亲和力等)以及降解一个元件同时保持另一个完整。例如,尺寸排阻可用于分离核酸,所述核酸包括切割的靶向序列。
在细胞中,DNA通常以双链形式存在,并且因此,具有在本文中称为“顶部”和“底部”链的核酸的两条互补链。在某些情况下,染色体区域的互补链可称为“正”链和“负”链,“第一条”链和“第二条”链、“编码”链和“非编码”链、“Watson”链和“Crick”链或“有义”链和“反义”链。成为顶部链或底部链的链的分配是任意的并且不暗示任何特定方向、功能或结构。第一条链和第二条链是不同的分子直到它们变为共价地连接。为了易于描述,其中的顶部链和底部链已经共价连接的双链核酸的“顶部”链和“底部”链仍然会被描述为“顶部”链和“底部”链。换言之,为了本公开的目的,双链DNA的顶部链和底部链不需要成为单独的分子。一些示例性哺乳动物染色体区域(例如,BAC、装配体、染色体等)的第一条链的核苷酸序列是已知的,并且可在例如NCBI的Genbank数据库中找到。
如本文所使用的术语“顶部链”指核酸的任一条链而不是核酸的两条链。当寡核苷酸或引物“仅与顶部链”结合或退火时,其仅与一条链结合,而不与另一条链结合。如本文所使用的术语“底部链”指与“顶部链”互补的链。当寡核苷酸“仅与一条链”结合或退火时,其仅结合一条链,例如,第一条链或第二条链,而不结合另一条链。如果寡核酸与双链DNA的两条链结合或退火,该寡核苷酸可具有两个区域,与双链DNA的顶部链杂交的第一个区域,和与双链DNA的底部链杂交的第二个区域。
术语“双链DNA分子”指其中的顶部链和底部链没有共价连接的双链DNA分子,以及其中的顶部链和底部链共价连接的双链DNA分子。双链DNA的顶部链和底部链通过Watson-Crick相互作用彼此碱基配对。
如本文所使用的术语“变性”指通过将双链体置于合适的变性条件中分离核酸的至少一部分碱基对。变性条件是本领域公知的。在一个实施方案中,为了变性核酸双链体,可使双链体暴露于高于双链体的Tm的温度,由此从双链体的另一条链中释放一条链。在某些实施方案中,可通过暴露于至少90℃的温度持续适量的时间(例如至少30秒,最多30分钟)来使核酸变性。在某些实施方案中,完全变性条件可用于完全分离双链体的碱基对。在其他实施方案中,部分变性条件(例如,具有比完全变性条件更低的温度)可用于分离双链体的某些部分的碱基对(例如,富集A-T碱基对的区域可分离,同时富集G-C碱基对的区域可保持配对)。核酸还可化学地(例如使用尿素或NaOH)变性。
如本文所使用的术语“基因分型”指核酸序列的任何类型的分析,并且包括测序、多态性(SNP)分析和分析以识别重排。
如本文所使用的术语“测序”指获得多核苷酸的连续核苷酸的身份(identity)的方法。
术语“下一代测序”指所谓的平行合成测序平台或连接测序平台,例如,目前由Illumina,Life Technologies和Roche等采用的那些。下一代测序方法还可包括纳米孔测序方法或基于电子检测的方法,诸如由Life Technologies商业化的Ion Torrent技术。
术语“互补DNA”或cDNA指通过以下方法从RNA样品产生的双链DNA样品:通过的逆转录(使用引物,诸如随机的六核苷酸或寡-dT引物),然后通过使用RNA酶H消化RNA和通过DNA聚合酶合成来合成第二条链。
术语“RNA启动子衔接子”是含有用于噬菌体RNA聚合酶(例如来自噬菌体T3、T7、SP6等的RNA聚合酶)的启动子的衔接子。
其他术语定义可出现在整个说明书中。
对于本文所述的任何结构和功能特征,确定这些特征的方法是本领域中已知的。
指导核酸(gNA)
本文提供了可源自任何核酸来源的指导核酸(gNA)。gNA可以是指导RNA(gRNA)或指导DNA(gDNA)。核酸来源可以是DNA或RNA。本文提供了从任何来源核酸生成gNA的方法,所述来源核酸包括来自单一生物体的DNA,或来自多个生物体的DNA的混合物,或来自多个物种的DNA的混合物,或来自临床样品的DNA,或来自法医样品的DNA,或来自环境样品的DNA,或来自宏基因组DNA样品的DNA(例如含有不止一个物种的生物体的样品)。任何来源DNA的实例包括但不限于任何基因组、任何基因组片段、cDNA、合成DNA或DNA集合(例如,SNP集合、DNA文库)。本文提供的gNA可用于全基因组应用。
在一些实施方案中,gNA源自基因组序列(例如,基因组DNA)。在一些实施方案中,gNA源自哺乳动物基因组序列。在一些实施方案中,gNA源自真核基因组序列。在一些实施方案中,gNA源自原核基因组序列。在一些实施方案中,gNA源自病毒基因组序列。在一些实施方案中,gNA源自细菌基因组序列。在一些实施方案中,gNA源自植物基因组序列。在一些实施方案中,gNA源自微生物基因组序列。在一些实施方案中,gNA源自来自寄生虫例如真核寄生虫的基因组序列。
在一些实施方案中,gNA源自重复DNA。在一些实施方案中,gNA源自高丰度DNA。在一些实施方案中,gNA源自线粒体DNA。在一些实施方案中,gNA源自核糖体DNA。在一些实施方案中,gNA源自着丝粒DNA。在一些实施方案中,gNA源自包含Alu元件的DNA(Alu DNA)。在一些实施方案中,gNA源自包含长散布核元件的DNA(LINE DNA)。在一些实施方案中,gNA源自包含短散布核元件的DNA(SINE DNA)。在一些实施方案中,高丰度DNA包含核糖体DNA。在一些实施方案中,高丰度DNA包含宿主DNA(例如,宿主基因组DNA或所有宿主DNA)。在一个实例中,gNA可源自宿主DNA(例如,人类、动物、植物),用于消耗宿主DNA以允许更容易地分析存在的其他DNA(例如,细菌、病毒或其他宏基因组DNA)。在另外的实例中,gNA可源自混合样品中的一个或多个最高丰度的类型(例如物种),诸如宏基因组样品中的一个或多个最高丰度的细菌物种。一个或多个最高丰度的类型(例如,物种)可包含2、3、4、5、6、7、8、9、10或多于10个最高丰度的类型(例如,物种)。最高丰度的类型可以是最高丰度的界、门(phyla或divisions)、纲、目、科、属、种或其他分类。最高丰度的类型可以是最高丰度的细胞类型,诸如上皮细胞、骨细胞、肌细胞、血细胞、脂肪细胞,或其他类型的细胞。最高丰度的类型可以是非癌细胞。最高丰度的类型可以是癌细胞。最高丰度的类型可以是动物、人类、植物、真菌、细菌或病毒。gNA可源自宿主和样品中的一个或多个最高丰度的非宿主类型(例如,物种),诸如源自人类DNA和一个或多个最高丰度的细菌物种的DNA。在一些实施方案中,高丰度DNA包含来自样品中的更高丰度或最高丰度的细胞的DNA。例如,对于特定样品,可提取高度丰度的细胞,并且可将它们的DNA用来产生gNA;这些gNA可用于产生消耗文库并应用于原始样品以能够测序或检测低丰度靶标,或增强低丰度靶标的测序或检测。
在一些实施方案中,gNA源自包含短末端重复序列(STR)的DNA。
在一些实施方案中,gNA源自包含基因组的一个区域的基因组片段或整个基因组本身。在一个实施方案中,基因组是DNA基因组。在另一个实施方案中,基因组是RNA基因组。
在一些实施方案中,gNA源自真核或原核生物体;源自哺乳动物生物体或非哺乳动物生物体;源自动物或植物;源自细菌或病毒;源自动物寄生虫;源自病原体。
在一些实施方案中,gNA源自任何哺乳动物生物体。在一个实施方案中,哺乳动物是人类。在另一个实施方案中,哺乳动物是家畜动物,例如马、绵羊、牛、猪或驴。在另一个实施方案中,哺乳动物生物体是家养宠物,例如猫、狗、沙鼠、小鼠、大鼠。在另一个实施方案中,哺乳动物是一种类型的猴。
在一些实施方案中,gNA源自任何鸟或禽类生物体。禽类生物体包括但不限于鸡、火鸡、鸭或鹅。
在一些实施方案中,感兴趣的序列来自昆虫。昆虫包括但不限于蜜蜂、独居蜂、蚂蚁、苍蝇、黄蜂或蚊子。
在一些实施方案中,gNA源自植物。在一个实施方案中,植物是水稻、玉米、小麦、玫瑰、葡萄、咖啡、水果、番茄、马铃薯或棉花。
在一些实施方案中,gNA源自一个物种的细菌。在一个实施方案中,细菌是导致肺结核的细菌。
在一些实施方案中,gNA源自病毒。
在一些实施方案中,gNA源自一个物种的真菌。
在一些实施方案中,gNA源自一个物种的藻类。
在一些实施方案中,gNA源自任何哺乳动物寄生虫。
在一些实施方案中,gNA源自任何哺乳动物寄生虫。在一个实施方案中,寄生虫是蠕虫。在另一个实施方案中,寄生虫是导致疟疾的寄生虫。在另一个实施方案中,寄生虫是导致利什曼病的寄生虫。在另一个实施方案中,寄生虫是阿米巴变形虫。
在一些实施方案中,gNA源自核酸靶标。预期的靶标包括但不限于病原体;单核苷酸多态性(SNP)、插入、缺失、串联重复或易位;人类SNP或STR;潜在毒素;或动物、真菌和植物。在一些实施方案中,gNA源自病原体,并且是病原体特异性gNA。
在一些实施方案中,本发明的指导NA包含第一NA区段,其包含导向序列,其中导向序列为15-250bp;和第二NA区段,其包含核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列。在一些实施方案中,导向序列大于21bp、大于22bp、大于23bp、大于24bp、大于25bp、大于26bp、大于27bp、大于28bp、大于29bp、大于30bp、大于40bp、大于50bp、大于60bp、大于70bp、大于80bp、大于90bp、大于100bp、大于110bp、大于120bp、大于130bp、大于140bp或甚至大于150bp。在示例性实施方案中,导向序列大于30bp。在一些实施方案中,本发明的导向序列大小在30-50bp的范围内。在一些实施方案中,本发明的导向序列大小在30-75bp的范围内。在一些实施方案中,本发明的导向序列大小在30-100bp的范围内。例如,导向序列可为至少15bp、20bp、25bp、30bp、35bp、40bp、45bp、50bp、55bp、60bp、65bp、70bp、75bp、80bp、85bp、90bp、95bp、100bp、110bp、120bp、130bp、140bp、150bp、160bp、170bp、180bp、190bp、200bp、210bp、220bp、230bp、240bp或250bp。在具体的实施方案中,导向序列为至少20bp。在具体的实施方案中,导向序列为至少22bp。在具体的实施方案中,导向序列为至少30bp。
在一些实施方案中,靶特异性gNA可包含核酸序列,所述核酸序列与位于PAM序列的5’的靶核酸序列的相对链上的区域是互补的,其可被核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白识别。在一些实施方案中,靶核酸序列紧接在PAM序列的5’处。在具体的实施方案中,与靶核酸中的区域互补的gNA的核酸序列为15-250bp。在具体的实施方案中,与靶核酸中的区域互补的gNA的核酸序列为20、22、23、24、25、30、35、40、45、50、60、70、75、80、90或100bp。
在一些具体的实施方案中,导向序列不是20bp。在一些具体的实施方案中,导向序列不是21bp。
在一些实施方案中,gNA包含任何嘌呤或嘧啶(和/或其经修饰的形式)。在一些实施方案中,gNA包含腺嘌呤、尿嘧啶、鸟嘌呤和胞嘧啶(和/或其经修饰的形式)。在一些实施方案中,gNA包含腺嘌呤、胸腺嘧啶、鸟嘌呤和胞嘧啶(和/或其经修饰的形式)。
在一些实施方案中,gNA包含标记,附接于标记,或是能够被标记的。在一些实施方案中,gNA包含能够进一步附接于标记的部分。标记包括但不限于酶、酶底物、抗体、抗原结合片段、肽、发色团、发光团、荧光团、色原、半抗原、抗原、放射性同位素、磁性粒子、金属纳米粒子、氧化还原活性标志物基团(能够经受氧化还原反应)、适配体、结合对的一个成员、FRET对的一个成员(供体或受体荧光团),以及它们的组合。
在一些实施方案中,gNA附接于基底。基底可由玻璃、塑料、硅、硅基材料、功能化聚苯乙烯、功能化聚乙二醇、功能化有机聚合物、硝化纤维素、尼龙膜、纸、棉花和适合于合成的材料制成。基底不需要是平的。在一些实施方案中,基底是二维阵列。在一些实施方案中,二维阵列是平的。在一些实施方案中,二维阵列不是平的,例如,该阵列是波浪样阵列。基底包括任何类型的形状,该形状包括球形(例如珠粒)。附接于基底的材料可附接于基底的任何部分(例如,可附接于有孔基底材料的内部)。在一些实施方案中,基底是三维阵列,例如,微球。在一些实施方案中,微球是磁性的。在一些实施方案中,微球是玻璃。在一些实施方案中,微球由聚苯乙烯制成。在一些实施方案中,微球是硅基的。在一些实施方案中,基底是具有内表面的阵列,例如,是吸管、管子、毛细管、圆筒或微流室(microfluidic chamber)阵列。在一些实施方案中,基底包含多个吸管、毛细管、管子、圆筒或室。
编码gNA的核酸
本文还提供了编码gNA(例如,gRNA或gDNA)的核酸。在一些实施方案中,编码意指gNA从编码gNA(例如,gRNA)的核酸的转录中得到。尽管也考虑使用其他合适的启动子,但在本公开中讨论了T7启动子。在一些实施方案中,编码意指核酸是用于gNA的转录的模板。在一些实施方案中,编码意指gNA从编码gNA的核酸的逆转录中得到。在一些实施方案中,编码意指核酸是gNA的逆转录的模板。在一些实施方案中,gNA是从编码gNA的核酸的扩增中得到的。在一些实施方案中,编码意指核酸是gNA的扩增的模板。
在一些实施方案中,编码gNA的核酸包含第一区段,其包含调控区;第二区段,其包含导向序列,其中第二区段可在15bp-250bp的范围内;和第三区段,其包含编码核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列的核酸。
在一些实施方案中,编码gNA的核酸包含DNA。在一些实施方案中,第一区段是双链DNA。在一些实施方案中,第一区段是单链DNA。在一些实施方案中,第二区段是单链DNA。在一些实施方案中,第三区段是单链DNA。在一些实施方案中,第二区段是双链DNA。在一些实施方案中,第三区段是双链DNA。
在一些实施方案中,编码gNA的核酸包含RNA。
在一些实施方案中,编码gNA的核酸包含DNA和RNA。
在一些实施方案中,调控区是能够结合转录因子的区域。在一些实施方案中,调控区包含启动子。在一些实施方案中,启动子选自下组:T7、SP6和T3。
gNA的集合
本文提供了gNA的集合(可互换地称为文库)。
如本文所使用的,gNA的集合指含有至少102个独特gNA的gNA的混合物。在一些实施方案中,gNA的集合含有至少102、至少103、至少104、至少105、至少106、至少107、至少108、至少109、至少1010个独特gNA。在一些实施方案中,gNA的集合含有总共至少102、至少103、至少104、至少105、至少106、至少107、至少108、至少109、至少1010个gNA。
在一些实施方案中,gNA的集合包含第一NA区段,其包含导向序列;和第-二NA区段,其包含核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列,其中,集合中的至少10%的gNA的大小不同。在一些实施方案中,第一和第二区段是5′-至3′的顺序。在一些实施方案中,第一和第二区段是3′-至5′的顺序。
在一些实施方案中,第一区段的大小在整个gNA的集合中从15-250bp、或20bp、或30-100bp、或20-30bp、或22-30bp、或15-50bp、或15-75bp、或15-100bp、或15-125bp、或15-150bp、或15-175bp、或15-200bp、或15-225bp、或15-250bp、或22-50bp、或22-75bp、或22-100bp、或22-125bp、或22-150bp、或22-175bp、或22-200bp、或22-225bp、或22-250bp变化。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第一区段大于或等于20bp。在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第一区段等于20bp。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第一区段大于21bp。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第一区段大于25bp。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第一区段大于30bp。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第一区段为15-50bp。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第一区段为30-100bp。
在一些具体的实施方案中,第一区段的大小不是20bp。
在一些具体的实施方案中,第一区段的大小不是21bp。
在一些实施方案中,在gRNA的集合中gNA和/或gNA的导向序列包含独特的5’端。在一些实施方案中,gNA的集合在集合的所有成员中表现出导向序列的5’端的序列的可变性。在一些实施方案中,gNA的集合合在集合的所有成员中表现出导向序列的5’端的序列的至少5%、或至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%的可变性。
在一些实施方案中,gNA导向序列的3’端可以是任何嘌呤或嘧啶(和/或其经修饰的形式)。在一些实施方案中,gNA导向序列的3’端是腺嘌呤。在一些实施方案中,gNA导向序列的3’端是鸟嘌呤。在一些实施方案中,gNA导向序列的3’端是胞嘧啶。在一些实施方案中,gNA导向序列的3’端是尿嘧啶。在一些实施方案中,gNA导向序列的3’端是胸腺嘧啶。在一些实施方案中,gNA导向序列的3’端不是胞嘧啶。
在一些实施方案中,gNA的集合包含导向序列,所述导向序列可与靶向的DNA碱基配对,其中感兴趣的靶标在整个感兴趣的基因组中以至少每1bp、至少每2bp、至少每3bp、至少每4bp、至少每5bp、至少每6bp、至少每7bp、至少每8bp、至少每9bp、至少每10bp、至少每11bp、至少每12bp、至少每13bp、至少每14bp、至少每15bp、至少每16bp、至少每17bp、至少每18bp、至少每19bp、20bp、至少每25bp、至少每30bp、至少每40bp、至少每50bp、至少每100bp、至少每200bp、至少每300bp、至少每400bp、至少每500bp、至少每600bp、至少每700bp、至少每800bp、至少每900bp、至少每1000bp、至少每2500bp、至少每5000bp、至少每10,000bp、至少每15,000bp、至少每20,000bp、至少每25,000bp、至少每50,000bp、至少每100,000bp、至少每250,000bp、至少每500,000bp、至少每750,000bp或甚至至少每1,000,000bp间隔。
在一些实施方案中,gNA的集合包含第一NA区段,其包含导向序列;和第二NA区段,其包含核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列,其中,集合中的gNA可具有对核酸指导的核酸酶系统(例如,CRISPR/Cas系统)的蛋白成员具有多种特异性的多种第二NA区段。例如,如本文所提供的gNA的集合可包含其第二区段包含对第一核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白具有特异性的核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列的成员;并且还包含其第二区段包含对第二核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白具有特异性的核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列的成员,其中第一和第二核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白不同。在一些实施方案中,如本文所提供的gNA的集合包含对至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19或甚至至少20个核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白表现出特异性的成员。在一个具体的实施方案中,如本文所提供的gNA的集合包含对Cas9蛋白和选自Cpf1、Cas3、Cas8a-c、Cas10、Cse1、Csy1、Csn2、Cas4、Csm2和Cm5的另一个蛋白表现出特异性的成员。在一些实施方案中,对第一和第二核酸指导的核酸酶系统蛋白特异的核酸指导的核酸酶系统蛋白结合序列是包含导向序列的第一NA区段的两个5’。在一些实施方案中,对第一和第二核酸指导的核酸酶系统蛋白特异的核酸指导的核酸酶系统蛋白结合序列是包含导向序列的第一NA区段的两个3’。在一些实施方案中,对第一核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白特异的核酸指导的核酸酶系统蛋白结合序列是包含导向序列的第一NA区段的5’,且对第二核酸指导的核酸酶系统蛋白特异的第二核酸指导的核酸酶系统蛋白结合序列是包含导向序列的第一NA区段的3’。包含导向序列的第一NA区段和包含核酸指导的核酸酶系统蛋白结合序列的第二NA区段的顺序将取决于核酸指导的核酸酶系统蛋白。第一和第二NA区段的合适的5’至3’排列以及核酸指导的核酸酶系统蛋白的选择对于本领域普通技术人员而言将会是明显的。
在一些实施方案中,集合的多个gNA成员附接于标记,包含标记或是能够被标记的。在一些实施方案中,gNA包含能够进一步附接于标记的部分。示例性部分包含但不限于地高辛(DIG)和荧光素(FITC)。标记包括但不限于酶、酶底物、抗体、抗原结合片段、肽、发色团、发光团、荧光团、色原、半抗原、抗原、放射性同位素、磁性粒子、金属纳米粒子、氧化还原活性标志物基团(能够经受氧化还原反应)、适配体、结合对的一个成员、FRET对的一个成员(供体或受体荧光团),以及它们的组合。
在一些实施方案中,集合的多个gNA成员附接于基底。基底可由玻璃、塑料、硅、硅基材料、功能化聚苯乙烯、功能化聚乙二醇、功能化有机聚合物、硝化纤维素、尼龙膜、纸、棉花和适合于合成的材料制成。基底不需要是平的。在一些实施方案中,基底是二维阵列。在一些实施方案中,二维阵列是平的。在一些实施方案中,二维阵列不是平的,例如,该阵列是波浪样阵列。基底包括任何类型的形状,该形状包括球形(例如珠粒)。附接于基底的材料可附接于基底的任何部分(例如,可附接于有孔基底材料的内部)。在一些实施方案中,基底是三维阵列,例如,微球。在一些实施方案中,微球是磁性的。在一些实施方案中,微球是玻璃。在一些实施方案中,微球由聚苯乙烯制成。在一些实施方案中,微球是硅基的。在一些实施方案中,基底是具有内表面的阵列,例如,是吸管、管子、毛细管、圆筒或微流室阵列。在一些实施方案中,基底包含多个吸管、毛细管、管子、圆筒或室。
编码gNA的核酸的集合
本文提供了编码gNA(例如,gRNA或gDNA)的核酸的集合(可互换地称为文库)。在一些实施方案中,编码意指gNA从编码gNA的核酸的转录中得到。在一些实施方案中,编码意指核酸是gNA的转录的模板。
如本文所使用的,编码gNA的核酸的集合指含有至少102个独特的核酸的核酸混合物。在一些实施方案中,编码gNA的核酸的集合包含至少102个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108个、至少109个、至少1010个独特的编码gNA的核酸。在一些实施方案中,编码gNA的核酸的集合含有总共至少102个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108个、至少109个、至少1010个编码gNA的核酸。
在一些实施方案中,编码gNA的核酸的集合包含第一区段,其包含调控区;第二区段,其包含导向序列;和第三区段,其包含编码核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列的核酸,其中,集合中的至少10%的核酸的大小不同。
在一些实施方案中,第一、第二和第三区段是5′-至3′顺序。
在一些实施方案中,第一、第二和第三区段是以5′-至3′顺序,按第一区段、第三区段然后第二区段排列的。
在一些实施方案中,编码gNA的核酸包含DNA。在一些实施方案中,第一区段是单链DNA。在一些实施方案中,第一区段是双链DNA。在一些实施方案中,第二区段是单链DNA。在一些实施方案中,第三区段是单链DNA。在一些实施方案中,第二区段是双链DNA。在一些实施方案中,第三区段是双链DNA。
在一些实施方案中,编码gNA的核酸包含RNA。
在一些实施方案中,编码gNA的核酸包含DNA和RNA。
在一些实施方案中,调控区是能够结合转录因子的区域。在一些实施方案中,调控区包含启动子。在一些实施方案中,启动子选自下组:T7、SP6和T3。
在一些实施方案中,集合中的第二区段(导向序列)的大小在整个gNA的集合中从15-250bp、或30-100bp、或22-30bp、或15-50bp、或15-75bp、或15-100bp、或15-125bp、或15-150bp、或15-175bp、或15-200bp、或15-225bp、或15-250bp、或22-50bp、或22-75bp、或22-100bp、或22-125bp、或22-150bp、或22-175bp、或22-200bp、或22-225bp、或22-250bp变化。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第二区段大于或等于20bp。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第二区段大于21bp。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第二区段大于25bp。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第二区段大于30bp。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第二区段为15-50bp。
在一些实施方案中,集合中的至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%、或至少80%、或至少85%、或至少90%、或至少95%或100%的第二区段为30-100bp。
在一些具体的实施方案中,第二区段的大小不是20bp。
在一些具体的实施方案中,第二区段的大小不是21bp。
在一些实施方案中,在gNA的集合中gNA和/或gNA的导向序列包含独特的5’端。在一些实施方案中,gNA的集合在集合的所有成员中表现出导向序列的5’端的序列的可变性。在一些实施方案中,gNA的集合在集合的所有成员中表现出导向序列的5’端的序列的至少5%、或至少10%、或至少15%、或至少20%、或至少25%、或至少30%、或至少35%、或至少40%、或至少45%、或至少50%、或至少55%、或至少60%、或至少65%、或至少70%、或至少75%的可变性。
在一些实施方案中,核酸的集合包含导向序列,其中,感兴趣的靶标在整个感兴趣的基因组中以至少每1bp、至少每2bp、至少每3bp、至少每4bp、至少每5bp、至少每6bp、至少每7bp、至少每8bp、至少每9bp、至少每10bp、至少每11bp、至少每12bp、至少每13bp、至少每14bp、至少每15bp、至少每16bp、至少每17bp、至少每18bp、至少每19bp、20bp、至少每25bp、至少每30bp、至少每40bp、至少每50bp、至少每100bp、至少每200bp、至少每300bp、至少每400bp、至少每500bp、至少每600bp、至少每700bp、至少每800bp、至少每900bp、至少每1000bp、至少每2500bp、至少每5000bp、至少每10,000bp、至少每15,000bp、至少每20,000bp、至少每25,000bp、至少每50,000bp、至少每100,000bp、至少每250,000bp、至少每500,000bp、至少每750,000bp或甚至至少每1,000,000bp间隔。
在一些实施方案中,编码gNA的核酸的集合包含编码核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列的第三区段,其中集合中的该区段对于核酸指导的核酸酶系统(例如,CRISPR/Cas系统)的蛋白成员的特异性不同。例如,如本文所提供的编码gNA的核酸的集合可包含其第三区段编码对第一核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白具有特异性的核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列的成员;并且还包含其第三区段编码对第二核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白具有特异性的核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列的成员,其中,第一和第二核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白不同。在一些实施方案中,如本文所提供的编码gNA的核酸的集合包含对至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少11个、至少12个、至少13个、至少14个、至少15个、至少16个、至少17个、至少18个、至少19或甚至至少20个核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白表现出特异性的成员。在一个具体的实施方案中,如本文所提供的编码gNA的核酸的集合包含对Cas9蛋白和选自Cpfl、Cas3、Cas8a-c、Cas10、Csel、Csyl、Csn2、Cas4、Csm2和Cm5的另一个蛋白表现出特异性的成员。在一些实施方案中,对第一和第二核酸指导的核酸酶系统蛋白特异的核酸指导的核酸酶系统蛋白结合序列是包含导向序列的第一NA区段的两个5’。在一些实施方案中,对第一和第二核酸指导的核酸酶系统蛋白特异的核酸指导的核酸酶系统蛋白结合序列是包含导向序列的第一NA区段的两个3’。在一些实施方案中,对第一核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白特异的核酸指导的核酸酶系统蛋白结合序列是包含导向序列的第一NA区段的5’,且对第二核酸指导的核酸酶系统蛋白特异的第二核酸指导的核酸酶系统蛋白结合序列是包含导向序列的第一NA区段的3’。包含导向序列的第一NA区段和包含核酸指导的核酸酶系统蛋白结合序列的第二NA区段的顺序将取决于核酸指导的核酸酶系统蛋白。第一和第二NA区段的适当的5’至3’排列以及核酸指导的核酸酶系统蛋白的选择对于本领域普通技术人员而言将会是明显的。
感兴趣的序列
本文提供了源自任何来源的DNA(例如源自基因组DNA、cDNA、人工DNA、DNA文库)的gNA和gNA的集合,其可用来靶向样品中的感兴趣的序列用于多种应用,其包括但不限于富集、消耗、捕获、分配、标记、调控和编辑。gNA包含针对感兴趣的序列的导向序列。
在一些实施方案中,感兴趣的序列是基因组序列(基因组DNA)。在一些实施方案中,感兴趣的序列是哺乳动物基因组序列。在一些实施方式中,感兴趣的序列是真核基因组序列。在一些实施方案中,感兴趣的序列是原核基因组序列。在一些实施方案中,感兴趣的序列是病毒基因组序列。在一些实施方案中,感兴趣的序列是细菌基因组序列。在一些实施方案中,感兴趣的序列是植物基因组序列。在一些实施方案中,感兴趣的序列是微生物基因组序列。在一些实施方案中,感兴趣的序列是来自寄生虫(例如,真核寄生虫)的基因组序列。在一些实施方案中,感兴趣的序列是宿主基因组序列(例如,微生物组(microbiome)、寄生虫或病原体的宿主生物体)。在一些实施方案中,感兴趣的序列是高丰度基因组序列,诸如来自样品中最高丰度物种的一个或多个基因组的序列。
在一些实施方案中,感兴趣的序列包含重复DNA。在一些实施方案中,感兴趣的序列包含高丰度DNA。在一些实施方案中,感兴趣的序列包含线粒体DNA。在一些实施方案中,感兴趣的序列包含核糖体DNA。在一些实施方案中,感兴趣的序列包含包含Alu元件的DNA(Alu DNA)。在一些实施方案中,感兴趣的序列包含长散布核元件(LINE DNA)。在一些实施方案中,感兴趣的序列包含短散布核元件(SINE DNA)。在一些实施方案中,高丰度DNA包含核糖体DNA。
在一些实施方案中,感兴趣的序列包含单核苷酸多态性(SNP)、短串联重复(STR)、癌症基因、插入、缺失、结构变异、外显子、基因突变或调控区。
在一些实施方案中,感兴趣的序列可以是包含基因组的一个区域的基因组片段,或整个基因组本身。在一个实施方案中,基因组是DNA基因组。在另一个实施方案中,基因组是RNA基因组。
在一些实施方案中,感兴趣的序列来自真核或原核生物体;来自哺乳动物生物体或非哺乳动物生物体;来自动物或植物;来自细菌或病毒;来自动物寄生虫;来自病原体。
在一些实施方案中,感兴趣的序列来自任何哺乳动物生物体。在一个实施方案中,哺乳动物是人类。在另一个实施方案中,哺乳动物是家畜动物,例如马、绵羊、牛、猪或驴。在另一个实施方案中,哺乳动物生物体是家养宠物,例如猫、狗、沙鼠、小鼠、大鼠。在另一个实施方案中,哺乳动物是一种类型的猴。
在一些实施方案中,感兴趣的序列来自任何鸟类或禽类生物体。禽类生物体包括但不限于鸡、火鸡、鸭和鹅。
在一些实施方案中,感兴趣的序列来自昆虫。昆虫包括但不限于蜜蜂、独居蜂、蚂蚁、苍蝇、黄蜂或蚊子。
在一些实施方案中,感兴趣的序列来自植物。在一个实施方案中,植物是水稻、玉米、小麦、玫瑰、葡萄、咖啡、水果、番茄、马铃薯或棉花。
在一些实施方案中,感兴趣的序列来自一个物种的细菌。在一个实施方案中,细菌是导致肺结核的细菌。
在一些实施方案中,感兴趣的序列来自病毒。
在一些实施方案中,感兴趣的序列来自一个物种的真菌。
在一些实施方案中,感兴趣的序列来自一个物种的藻类。
在一些实施方案中,感兴趣的序列来自任何哺乳动物寄生虫。
在一些实施方案中,感兴趣的序列从任何哺乳动物寄生虫获得。在一个实施方案中,寄生虫是蠕虫。在另一个实施方案中,寄生虫是导致疟疾的寄生虫。在另一个实施方案中,寄生虫是导致利什曼病的寄生虫。在另一个实施方案中,寄生虫是阿米巴变形虫。
在一些实施方案中,感兴趣的序列来自病原体。
导向序列
如本文所使用的导向序列是将gNA导向样品中的感兴趣的序列的序列。例如,导向序列靶向感兴趣的特定序列,例如导向序列靶向感兴趣的基因组序列。
本文提供了包含包含导向序列的区段的gNA和gNA的集合。本文还提供了包含编码导向序列的区段的编码gNA的核酸和编码gNA的核酸的集合。
在一些实施方案中,导向序列包含DNA。
在一些实施方案中,导向序列包含RNA。
在一些实施方案中,导向序列包含RNA,并且除了RNA包含代替胸腺嘧啶的尿嘧啶之外,与感兴趣的序列上的位于PAM序列的5’的序列共享至少70%序列同一性、至少75%序列同一性、至少80%序列同一性、至少85%序列同一性、至少90%序列同一性、至少95%序列同一性,或共享100%序列同一性。在一些实施方案中,PAM序列是AGG、CGG或TGG。在一些实施方案中,导向序列包含RNA,并且除了RNA包含代替胸腺嘧啶的尿嘧啶之外,与感兴趣的序列上的位于PAM序列的3’的序列共享至少70%序列同一性、至少75%序列同一性、至少80%序列同一性、至少85%序列同一性、至少90%序列同一性、至少95%序列同一性,或共享100%序列同一性。在一些实施方案中,PAM序列是AGG、CGG、TGG、GGG或NAG。在一些实施方案中,PAM序列是TTN、TCN或TGN。
在一些实施方案中,导向序列包含DNA,并且与感兴趣的序列上的位于PAM序列的5’的序列共享至少70%序列同一性、至少75%序列同一性、至少80%序列同一性、至少85%序列同一性、至少90%序列同一性、至少95%序列同一性,或共享100%序列同一性。在一些实施方案中,导向序列包含DNA,并且与感兴趣的序列上的位于PAM序列的3’的序列共享至少70%序列同一性、至少75%序列同一性、至少80%序列同一性、至少85%序列同一性、至少90%序列同一性、至少95%序列同一性,或共享100%序列同一性。
在一些实施方案中,导向序列包含RNA,并且与位于PAM序列的5’的核苷酸序列的相对的链互补。在一些实施方案中,导向序列与位于PAM序列的5’的核苷酸序列的相对的链至少70%互补、至少75%互补、至少80%互补、至少85%互补、至少90%互补、至少95%互补,或100%互补。在一些实施方案中,导向序列包含RNA,并且与位于PAM序列的3’的核苷酸序列的相对的链互补。在一些实施方案中,导向序列与位于PAM序列的3’的核苷酸序列的相对的链至少70%互补、至少75%互补、至少80%互补、至少85%互补、至少90%互补、至少95%互补,或100%互补。在一些实施方案中,PAM序列是AGG、CGG、TGG、GGG或NAG。在一些实施方案中,PAM序列是TTN、TCN或TGN。
在一些实施方案中,导向序列包含DNA,并且与位于PAM序列的5’的核苷酸序列的相对的链互补。在一些实施方案中,导向序列与位于PAM序列的5’的核苷酸序列的相对的链至少70%互补、至少75%互补、至少80%互补、至少85%互补、至少90%互补、至少95%互补,或100%互补。在一些实施方案中,导向序列包含DNA,并且与位于PAM序列的3’的核苷酸序列的相对的链互补。在一些实施方案中,导向序列与位于PAM序列的3’的核苷酸序列的相对的链至少70%互补、至少75%互补、至少80%互补、至少85%互补、至少90%互补、至少95%互补,或100%互补。在一些实施方案中,PAM序列是AGG、CGG、TGG、GGG或NAG。在一些实施方案中,PAM序列是TTN、TCN或TGN。
在一些实施方案中,编码gRNA的导向序列的DNA与位于PAM序列的5’的核苷酸序列的相对的链共享至少70%序列同一性、至少75%序列同一性、至少80%序列同一性、至少85%序列同一性、至少90%序列同一性、至少95%序列同一性,或共享100%序列同一性。在一些实施方案中,编码gRNA的导向序列的DNA与位于PAM序列的3’的核苷酸序列的相对的链共享至少70%序列同一性、至少75%序列同一性、至少80%序列同一性、至少85%序列同一性、至少90%序列同一性、至少95%序列同一性,或共享100%序列同一性。在一些实施方案中,PAM序列是AGG、CGG、TGG、GGG或NAG。在一些实施方案中,PAM序列是TTN、TCN或TGN。
在一些实施方案中,编码gRNA的导向序列的DNA与位于PAM序列的5’的核苷酸序列相对的链互补,并且与感兴趣的序列上的位于PAM序列的5’的序列至少70%互补、至少75%互补、至少80%互补、至少85%互补、至少90%互补、至少95%互补,或100%互补。在一些实施方案中,编码gRNA的导向序列的DNA与PAM序列的5’的核苷酸序列相对的链互补,并且与感兴趣的序列上的位于PAM序列的3’的序列至少70%互补、至少75%互补、至少80%互补、至少85%互补、至少90%互补、至少95%互补,或100%互补。在一些实施方案中,PAM序列是AGG、CGG、TGG、GGG或NAG。在一些实施方案中,PAM序列是TTN、TCN或TGN。
不同CRISPR/Cas系统蛋白识别不同PAM序列。PAM序列可位于导向序列的5’或3’。例如,Cas9可识别位于导向序列的紧邻3’端的NGG PAM。Cpf1可识别位于导向序列的紧邻5’端的TTN PAM。由所有CRISPR/Cas系统蛋白识别的所有PAM序列被认为在本发明的范围内。对于本领域普通技术人员而言,PAM序列与特定的CRISPR/Cas系统蛋白相容将会是明显的。
核酸指导的核酸酶系统蛋白
本文提供了包含包含核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列的区段的gNA和gNA的集合。本文还提供了包含编码核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白结合序列的区段的编码gNA的核酸和编码gNA的核酸的集合。核酸指导的核酸酶系统可以是RNA指导的核酸酶系统。核酸指导的核酸酶系统可以是DNA指导的核酸酶系统。
本公开的方法可利用核酸指导的核酸酶。如本文所使用的“核酸指导的核酸酶”是切割DNA、RNA或DNA/RNA杂合体的任何核酸酶,并且其使用一个或多个指导核酸(gNA)来赋予特异性。核酸指导的核酸酶包括CRISPR/Cas系统蛋白以及非CRISPR/Cas系统蛋白。
本文所提供的核酸指导的核酸酶可以是DNA指导的DNA核酸酶;DNA指导的RNA核酸酶;RNA指导的DNA核酸酶;或RNA指导的RNA核酸酶。核酸酶可以是内切核酸酶。核酸酶可以是外切核酸酶。在一个实施方案中,核酸指导的核酸酶是核酸指导的DNA内切核酸酶。在一个实施方案中,核酸酶指导的核酸酶是核酸指导的RNA内切核酸酶。
核酸指导的核酸酶系统蛋白结合序列是结合核酸指导的核酸酶系统的任何蛋白成员的核酸序列。例如,CRISPR/Cas系统蛋白结合序列是结合CRISPR/Cas系统的任何蛋白成员的核酸序列。
在一些实施方案中,核酸指导的核酸酶选自下组:CAS I类I型、CAS I类III型、CASI类IV型、CAS II类II型和CAS II类V型。在一些实施方案中,CRISPR/Cas系统蛋白包括来自CRISPR I型系统、CRISPR II型系统和CRISPR III型系统的蛋白。在一些实施方案中,核酸指导的核酸酶选自下组:Cas9、Cpf1、Cas3、Cas8a-c、Cas10、Cse1、Csy1、Csn2、Cas4、Csm2、Cm5、Csf1、C2c2和NgAgo。
在一些实施方案中,核酸指导的核酸酶系统蛋白(例如,CRISPR/Cas系统蛋白)可以来自任何细菌物种或古细菌物种。
在一些实施方案中,核酸指导的核酸酶系统蛋白(例如,CRISPR/Cas系统蛋白)来自或源自来自以下的核酸指导的核酸酶蛋白(例如,CRISPR/Cas系统蛋白):酿脓链球菌(Streptococcus pyogenes)、金黄色葡萄球菌(Streptococcus pyogenes)、脑膜炎奈瑟氏球菌(Neisseria meningitidis)、嗜热链球菌(Streptococcus thermophiles)、齿垢密螺旋体(Treponema denticola)、土拉热弗朗西丝菌(Francisella tularensis)、多杀巴斯德菌(Pasteurella multocida)、空肠弯曲杆菌(Campylobacter jejuni)、红嘴鸥弯曲杆菌(Campylobacter lari)、鸡败血支原体(Mycoplasma gallisepticum)、Nitratifractorsalsuginis、拉瓦氏小杆菌(Parvibaculum lavamentivorans)、肠道罗斯拜瑞氏菌(Roseburia intestinalis)、灰色奈瑟菌(Neisseria cinerea)、重氮营养葡糖酸醋杆菌(Gluconacetobacter diazotrophicus)、固氮螺菌属(Azospirillum)、球形单丝壳菌(Sphaerochaeta globus)、柱状黄杆菌(Flavobacterium columnare)、Fluviicolataffensis、嗜粪杆菌(Bacteroides coprophilus)、运动支原体(Mycoplasma mobile)、香肠乳杆菌(Lactobacillus farciminis)、巴斯德链球菌(Streptococcus pasteurianus)、约翰逊乳杆菌(Lactobacillus johnsonii)、假中间葡萄球菌(Staphylococcuspseudintermedius)、龈沟产线菌(Filifactor alocis)、嗜肺军团菌(Legionellapneumophila)、Suterella wadsworthensis、白喉棒状杆菌(Corynebacter diphtheria)、氨基酸球菌属(Acidaminococcus)、毛螺科菌(Lachnospiraceae bacterium)或普氏菌属(Prevotella)。
在一些实施方案中,核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白的实例可以是天然存在或经工程改造的形式。
在一些实施方案中,天然存在的核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白包括Cas9、Cpf1、Cas3、Cas8a-c、Cas10、Cse1、Csy1、Csn2、Cas4、Csm2和Cm5。还可以采用工程改造形式的这样的蛋白。
在一些实施方案中,核酸指导的核酸酶系统(例如,CRISPR/Cas系统)蛋白的工程改造的实例包括催化死亡的核酸指导的核酸酶系统蛋白。术语“催化死亡”通常指具有失活的核酸酶(例如HNH和RuvC核酸酶)的核酸指导的核酸酶系统蛋白。这样的蛋白可与任何核酸中的靶位点结合(其中靶位点通过指导NA确定),但是该蛋白不能切割靶核酸(例如,双链DNA),或使靶核酸(例如,双链DNA)有切口。在一些实施方案中,核酸指导的核酸酶系统催化死亡蛋白是催化死亡CRISPR/Cas系统蛋白,诸如催化死亡Cas9(dCas9)。因此,dCas9允许将混合物分成未结合的核酸和dCas9结合的片段。在一个实施方案中,dCas9/gRNA复合物与通过gRNA序列确定的靶标结合。dCas9结合可在其他操作进行的同时防止被Cas9切割。在另一个实施方案中,dCas9可与另外的酶(诸如转座酶)融合,以将该酶的活性靶向至特异性位点。还可以采用天然存在的催化死亡的核酸指导的核酸酶系统蛋白。
在一些实施方案中,核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白的工程改造的实例还包括核酸指导的切口酶(例如,Cas切口酶)。核酸指导的切口酶指核酸指导的核酸酶系统蛋白的经修饰的形式,其含有单一失活的催化结构域。在一个实施方案中,核酸指导的切口酶是Cas切口酶,诸如Cas9切口酶。Cas9切口酶可含有单一失活的催化结构域,例如,RuvC-或HNH-结构域。仅具有一个活性核酸酶结构域,Cas9切口酶仅切割靶DNA的一条链,产生单链断裂或“切口”。根据使用哪种突变体,可以切割指导NA杂交链或非杂交链。与靶向相对链的2个gNA结合的核酸指导的切口酶会在靶双链DNA中产生双链断裂。该“双切口酶”策略可增加切割的特异性,因为它需要在形成双链断裂之前核酸指导的核酸酶/gNA(例如,Cas9/gRNA)复合物应该在一个位点特异性结合。还可采用天然存在的切口酶核酸指导的核酸酶系统蛋白。
在一些实施方案中,核酸指导的核酸酶系统蛋白的工程改造的实例还包括核酸指导的核酸酶系统融合蛋白。例如,核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白可与另外的蛋白例如活化剂、抑制剂、核酸酶、荧光分子、放射性标签或转座酶融合。
在一些实施方案中,核酸指导的核酸酶系统蛋白结合序列包含gNA(例如,gRNA)茎环序列。
不同CRISPR/Cas系统蛋白与不同的核酸指导的核酸酶系统蛋白结合序列相容。对于本领域普通技术人员而言,CRISPR/Cas系统蛋白与核酸指导的结合核酸酶系统蛋白的序列相容将会是明显的。
在一些实施方案中,编码gNA(例如,gRNA)茎环序列的双链DNA序列在一条链上包含以下DNA序列(5’>3’,GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT),并且在另一条链上包含其反向互补DNA(5’>3’,AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAAC)。
在一些实施方案中,编码gNA(例如,gRNA)茎环序列的单链DNA序列包含以下DNA序列:(5’>3’,AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAAC),其中,该单链DNA用作转录模板。
在一些实施方案中,gNA(例如,gRNA)茎环序列包含以下RNA序列:(5’>3’,GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU)。
在一些实施方案中,编码gNA(例如,gRNA)茎环序列的双链DNA序列在一条链上包含以下DNA序列(5’>3’,GTTTTAGAGCTATGCTGGAAACAGCATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTC),并且在另一条链上包含其反向互补DNA(5’>3’,GAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATGCTGTTTCCAGCATAGCTCTAAAAC)。
在一些实施方案中,编码gNA(例如,gRNA)茎环序列的单链DNA序列包含以下DNA序列:(5’>3’,GAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATGCTGTTTCCAGCATAGCTCTAAAAC),其中,该单链DNA用作转录模板。
在一些实施方案中,gNA(例如,gRNA)茎环序列包含以下RNA序列:(5’>3’,GUUUUAGAGCUAUGCUGGAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUUC)。
在一些实施方案中,所述CRISPR/Cas系统蛋白是Cpf1蛋白。在一些实施方案中,所述Cpf1蛋白分离自或衍生自弗朗西丝菌属(Franciscella)物种或氨基酸球菌属物种。在一些实施方案中,gNA(例如,gRNA)CRISPR/Cas系统蛋白结合序列包含下列RNA序列:(5’>3’,AAUUUCUACUGUUGUAGAU。
在一些实施方案中,所述CRISPR/Cas系统蛋白是Cpf1蛋白。在一些实施方案中,所述Cpf1蛋白分离自或衍生自弗朗西丝菌属物种或氨基酸球菌属物种。在一些实施方案中,编码gNA(例如,gRNA)CRISPR/Cas系统蛋白结合序列的DNA序列包含下列DNA序列:(5’>3’,AATTTCTACTGTTGTAGAT)。在一些实施方案中,该DNA是单链的。在一些实施方案中,该DNA是双链的。
在一些实施方案中,本文提供了编码gNA(例如,gRNA)的核酸,其包含第一区段,其包含调控区;第二区段,其编码导向序列;和第三区段,其包含编码核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白结合序列的核酸。在一些实施方案中,第三区段包含单一转录组件,其在转录时产生NA(例如,RNA)茎环序列。在一些实施方案中,包含编码gNA(例如,gRNA)茎环序列的单一转录组件的第三区段是双链的,其在一条链上包含以下序列(5’>3’,GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT),并且在另一条链上包含其反向互补DNA(5’>3’,AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAAC)。在一些实施方案中,包含编码gNA(例如,gRNA)茎环序列的单一转录组件的第三区段是单链的,并且包含以下DNA序列:(5’>3’,AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAAC),其中该单链DNA用作转录模板。在一些实施方案中,在从单一转录组件转录时,所得gNA(例如,gRNA)茎环序列包含以下RNA序列:(5’>3’,GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU)。在一些实施方案中,包含编码gNA(例如,gRNA)茎环序列的单一转录组件的第三区段是双链的,其在一条链上包含以下DNA序列(5’>3’,GTTTTAGAGCTATGCTGGAAACAGCATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTC),并且在另一条链上包含其反向互补DNA(5’>3’,GAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATGCTGTTTCCAGCATAGCTCTAAAAC)。在一些实施方案中,包含编码gNA(例如,gRNA)茎环序列的单一转录组件的第三区段是单链的,并且包含以下DNA序列:GAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATGCTGTTTCCAGCATAGCTCTAAAAC),其中该单链DNA用作转录模板。在一些实施方案中,在从单一转录组件转录时,所得gNA茎环序列包含以下RNA序列:(5’>3’,GUUUUAGAGCUAUGCUGGAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUUC)。在一些实施方案中,第三区段包含两个亚区段,其在转录时编码crRNA和tracrRNA。在一些实施方案中,crRNA不包含识别位点(例如,N20序列)加上可与tracrRNA杂交的额外序列。在一些实施方案中,crRNA包含可与tracrRNA杂交的额外序列。在一些实施方案中,两个亚区段独立地转录。在一些实施方案中,两个亚区段作为单一单元转录。在一些实施方案中,编码crRNA的DNA包含N靶标GTTTTAGAGCTATGCTGTTTTG,其中,N靶标代表导向序列。在一些实施方案中,编码tracrRNA的DNA包含序列GGAACCATTCAAAACAGCATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT。
在一些实施方案中,本文提供了编码gNA(例如,gRNA)的核酸,其包含第一区段,其包含调控区;第二区段,其编码导向序列;和第三区段,其包含编码核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白结合序列的核酸。在一些实施方案中,第三区段包含DNA序列,其在转录时产生能够结合核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白的gRNA茎环序列。在一个实施方案中,DNA序列可以是双链的。在一些实施方案中,第三区段双链DNA在一条链上包含以下DNA序列(5’>3’,GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT),并且在另一条链上包含其反向互补DNA(5’>3’,AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAAC)。在一些实施方案中,第三区段双链DNA在一条链上包含以下DNA序列(5’>3’,GTTTTAGAGCTATGCTGGAAACAGCATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTC),并且在另一条链上包含其反向互补DNA(5’>3’,GAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATGCTGTTTCCAGCATAGCTCTAAAAC)。在一些实施方案中,DNA序列可以是单链的。在一些实施方案中,第三区段单链DNA包含以下DNA序列(5’>3’,AAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAAC),其中该单链DNA用作转录模板。在一些实施方案中,第三区段单链DNA包含以下DNA序列(5’>3’,GAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATGCTGTTTCCAGCATAGCTCTAAAAC),其中该单链DNA用作转录模板。在一些实施方案中,第三区段包含DNA序列,其在转录时产生能够与第二RNA序列形成杂交物(hybrid)的第一RNA序列,并且其杂合体能够CRISPR/Cas系统蛋白结合。在一些实施方案中,第三区段是双链DNA,其在一条链上包含DNA序列:(5’>3’,GTTTTAGAGCTATGCTGTTTTG),在另一条链上包含其反向互补DNA序列:(5’>3’,CAAAACAGCATAGCTCTAAAAC)。在一些实施方案中,第三区段是单链DNA,其包含(5’>3’,CAAAACAGCATAGCTCTAAAAC)的DNA序列。在一些实施方案中,第二区段和第三区段一起编码crRNA序列。在一些实施方案中,能够与由编码gRNA的核酸的第三区段编码的第一RNA序列形成杂交物的第二RNA序列是tracrRNA。在一些实施方案中,tracrRNA包含序列(5’>3’,GGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU)。在一些实施方案中,tracrRNA由包含(5’>3’,GGAACCATTCAAAACAGCATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTT)序列的双链DNA编码,并且在其5’端与调控序列任选地融合。在一些实施方案中,调控序列可通过转录因子结合。在一些实施方案中,调控序列是启动子。在一些实施方案中,调控序列是T7启动子,其包含(5’>3’,GCCTCGAGCTAATACGACTCACTATAGAG)序列。在一些实施方案中,T7启动子包含5’-TAATACGACTCACTATAGG-3’序列。在一些实施方案中,T7启动子包含5’-TAATACGACTCACTATAGGG-3’序列。
在一些实施方案中,本文提供了编码gNA(例如,gRNA)的核酸,其包含第一区段,其包含调控区;第二区段,其编码导向序列;和第三区段,其包含编码核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白结合序列的核酸。在一些实施方案中,例如以下那些实施方案:其中CRISPR/Cas系统蛋白是Cpf1系统蛋白,第一、第二和第三区段是从5’至3’按以下排列的:第一区段(调控区),第三区段(核酸指导的核酸酶系统蛋白结合序列),和第二区段(导向序列)。在一些实施方案中,第三区段包含单一转录组件,其在转录时产生NA(例如,RNA)茎环序列。在一些实施方案中,包含编码gNA(例如,gRNA)的茎环序列的单一转录组件的第三区段是双链的,在一条链上包含以下DNA序列(5’>3’,AATTTCTACTGTTGTAGAT),并且在另一条链上包含其反向互补DNA(5’>3’,ATCTACAACAGTAGAAATT)。在一些实施方案中,包含编码gNA(例如,gRNA)茎环序列的单一转录组件的第三区段是单链的,并且包含以下DNA序列:(5’>3’,ATCTACAACAGTAGAAATT),其中单链DNA用作转录模板。在一些实施方案中,在从单一转录组件转录时,所得gNA(例如,gRNA)茎环序列包含以下RNA序列:(5’>3’,AAUUUCUACUGUUGUAGAU)。
在一些实施方案中,本文提供了编码gNA的核酸,其包含第一区段,其包含调控区;第二区段,其编码导向序列;和第三区段,其包含编码核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白结合序列的核酸。在一些实施方案中,第三区段编码RNA序列,所述RNA序列在转录后切割时,产生第一RNA区段和第二RNA区段。在一些实施方案中,第一RNA区段包含crRNA,并且第二RNA区段包含tracrRNA,其可形成杂交物并一起提供核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白结合。在一些实施方案中,第三区段在第一RNA区段的转录单元和第二RNA区段之间进一步包含间隔区,该间隔区包含酶切割位点。
在一些实施方案中,本文提供了gNA(例如,gRNA),其包含第一NA区段,其包含导向序列,和第二NA区段,其包含核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白结合序列。在一些实施方案中,第一区段的大小大于30bp。在一些实施方案中,第二区段包含单一区段,其包含gRNA茎环序列。在一些实施方案中,gRNA茎环序列包含以下RNA序列:(5’>3’,GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU)。在一些实施方案中,gRNA茎环序列包含以下RNA序列:(5’>3’,GUUUUAGAGCUAUGCUGGAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUUC)。在一些实施方案中,第二区段包含两个亚区段:与第二RNA亚区段(tracrRNA)形成杂交物的第一RNA亚区段(crRNA),二者一起起作用以指导核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白结合。在一些实施方案中,第二亚区段的序列包含GUUUUAGAGCUAUGCUGUUUUG。在一些实施方案中,第一RNA区段和第二RNA区段一起形成crRNA序列。在一些实施方案中,会与第二RNA区段形成杂交物的其他RNA是tracrRNA。在一些实施方案中,tracrRNA包含(5’>3’)GGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU序列。
在一些实施方案中,本文提供了gNA(例如,gRNA),其包含包含导向序列的第一NA区段,和包含核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白结合序列的第二NA区段。在一些实施方案中,例如以下那些实施方案:其中CRISPR/Cas系统蛋白是Cpf1系统蛋白,第二区段是第一区段的5’。在一些实施方案中,第一区段的大小为20bp。在一些实施方案中,第一区段的大小大于20bp。在一些实施方案中,第一区段的大小大于30bp。在一些实施方案中,第二区段包含单一区段,其包含gRNA茎环序列。在一些实施方案中,gRNA茎环序列包含以下RNA序列:(5’>3’,AAUUUCUACUGUUGUAGAU)。
CRISPR/Cas系统核酸指导的核酸酶
在一些实施方案中,CRISPR/Cas系统蛋白用于本文提供的实施方案中。在一些实施方案中,CRISPR/Cas系统蛋白包括来自CRISPR I型系统、CRISPR II型系统和CRISPR III型系统的蛋白。
在一些实施方案中,CRISPR/Cas系统蛋白可来自任何细菌或古细菌物种。
在一些实施方案中,CRISPR/Cas系统蛋白是分离的、重组产生的或合成的。
在一些实施方案中,CRISPR/Cas系统蛋白来自或源自来自以下的CRISPR/Cas系统蛋白:酿脓链球菌、金黄色葡萄球菌、脑膜炎奈瑟氏球菌、嗜热链球菌、齿垢密螺旋体、土拉热弗朗西丝菌、多杀巴斯德菌、空肠弯曲杆菌、红嘴鸥弯曲杆菌、鸡败血支原体、Nitratifractor salsuginis、拉瓦氏小杆菌、肠道罗斯拜瑞氏菌、灰色奈瑟菌、重氮营养葡糖酸醋杆菌、固氮螺菌属、球形单丝壳菌、柱状黄杆菌、Fluviicola taffensis、嗜粪杆菌、运动支原体、香肠乳杆菌、巴斯德链球菌、约翰逊乳杆菌、假中间葡萄球菌、龈沟产线菌、嗜肺军团菌、Suterella wadsworthensis、白喉棒状杆菌、氨基酸球菌属、毛螺科菌或普氏菌属。
在一些实施方案中,CRISPR/Cas系统蛋白的实例可以是天然存在的或工程改造的形式。
在一些实施方案中,天然存在的CRISPR/Cas系统蛋白可属于CAS I类I型、III型或IV型,或者CAS II类II型或V型,并且可包括Cas9、Cas3、Cas8a-c、Cas10、Cse1、Csy1、Csn2、Cas4、Csm2、Cmr5、Csf1、C2c2和Cpf1。
在示例性实施方案中,CRISPR/Cas系统蛋白包含Cas9。
在示例性实施方案中,CRISPR/Cas系统蛋白包含Cpf1。
“CRISPR/Cas系统蛋白-gNA复合物”指包含CRISPR/Cas系统蛋白和指导NA(例如gRNA或gDNA)的复合物。当gNA是gRNA时,gRNA可由两个分子(即一个RNA(″crRNA″)(其与靶标杂交并提供序列特异性)和一个RNA(″tracrRNA″,其能够与crRNA杂交))组成。或者,指导RNA可以是含有crRNA和tracrRNA序列的单一分子(即gRNA)。或者,指导RNA可以是含有crRNA序列的单一分子(即gRNA)。
CRISPR/Cas系统蛋白可以与野生型CRISPR/Cas系统蛋白至少60%相同(例如,至少70%、至少80%或至少90%相同,至少95%相同、至少98%相同或至少99%相同)。CRISPR/Cas系统蛋白可具有野生型CRISPR/Cas系统蛋白的所有功能,或仅一个或一些功能,其包括结合活性、核酸酶活性和核酸酶活性。
术语“与CRISPR/Cas系统蛋白有关的指导NA”指指导NA。与CRISPR/Cas系统蛋白有关的指导NA可作为单独的NA存在,或作为CRISPR/Cas系统蛋白-gNA复合物的一部分存在。
Cas9
在一些实施方案中,CRISPR/Cas系统蛋白的核酸指导的核酸酶是Cas9或包含Cas9。本发明的Cas9可以是分离的、重组产生的或合成的。
可用于本文的实施方案中的Cas9蛋白的实例可在F.A.Ran,L.Cong,W.X.Yan,D.A.Scott,J.S.Gootenberg,A.J.Kriz,B.Zetsche,O.Shalem,X.Wu,K.S.Makarova,E.V.Koonin,P.A.Sharp,和F.Zhang;“In vivo genome editing using Staphylococcusaureus Cas9,”Nature 520,186-191(09 April 2015)doi:10.1038/nature14299(其通过提述并入本文)中找到。
在一些实施方案中,Cas9是源自酿脓链球菌、金黄色葡萄球菌、脑膜炎奈瑟氏球菌、嗜热链球菌、齿垢密螺旋体、土拉热弗朗西丝菌、多杀巴斯德菌、空肠弯曲杆菌、红嘴鸥弯曲杆菌、鸡败血支原体、Nitratifractor salsuginis、拉瓦氏小杆菌、肠道罗斯拜瑞氏菌、灰色奈瑟菌、重氮营养葡糖酸醋杆菌、固氮螺菌属、球形单丝壳菌、柱状黄杆菌、Fluviicola taffensis、嗜粪杆菌、运动支原体、香肠乳杆菌、巴斯德链球菌、约翰逊乳杆菌、假中间葡萄球菌、龈沟产线菌、嗜肺军团菌、Suterella wadsworthensis或白喉棒状杆菌的II型CRISPR系统。
在一些实施方案中,Cas9是源自酿脓链球菌的II型CRISPR系统,并且PAM序列是位于紧接靶特异性指导序列的3′端的NGG。来自示例性细菌物种的II型CRISPR系统的PAM序列还可包括:酿脓链球菌(NGG)、金黄色葡萄球菌(NNGRRT)、脑膜炎奈瑟氏球菌(NNNNGA TT)、嗜热链球菌(NNAGAA)、齿垢密螺旋体(NAAAAC),其在不背离本发明的情况下都是可用的。
在一个示例性实施方案中,Cas9序列可例如从以下方法获得:来自pX330质粒(从Addgene获得),通过PCR重新扩增,然后克隆到pET30(来自EMD biosciences)中以在细菌中表达,并且纯化重组6His标记的蛋白。
“Cas9-gNA复合物”指包含Cas9蛋白和指导NA的复合物。Cas9蛋白可以与野生型Cas9蛋白例如与酿脓链球菌Cas9蛋白至少60%相同(例如,至少70%、至少80%或90%相同,至少95%相同或至少98%相同或至少99%相同)。Cas9蛋白可具有野生型Cas9蛋白的所有功能,或仅具有一个或一些功能,包括结合活性、核酸酶活性和核酸酶活性。
术语“与Cas9有关的指导NA”指如上所述的指导NA。与Cas9有关的指导NA可单独存在,或作为Cas9-gNA复合物的一部分存在。
非CRISPR/Cas系统核酸指导的核酸酶
在一些实施方案中,非CRISPR/Cas系统蛋白用于本文所提供的实施方案中。
在一些实施方案中,非CRISPR/Cas系统蛋白可来自任何细菌或古细菌物种。
在一些实施方案中,非CRISPR/Cas系统蛋白是分离的、重组产生的或合成的。
在一些实施方案中,非CRISPR/Cas系统蛋白来自或源自超嗜热菌(Aquifexaeolicus)、嗜热栖热菌(Thermus thermophilus)、酿脓链球菌、金黄色葡萄球菌、脑膜炎奈瑟氏球菌、嗜热链球菌、齿垢密螺旋体、土拉热弗朗西丝菌、多杀巴斯德菌、空肠弯曲杆菌、红嘴鸥弯曲杆菌、鸡败血支原体、Mtratifractor salsuginis、拉瓦氏小杆菌、肠道罗斯拜瑞氏菌、灰色奈瑟菌、重氮营养葡糖酸醋杆菌、固氮螺菌属、球形单丝壳菌、柱状黄杆菌、Fluviicola taffensis、嗜粪杆菌、运动支原体、香肠乳杆菌、巴斯德链球菌、约翰逊乳杆菌、假冲间葡萄球菌、龈沟产线菌、嗜肺军团菌、Suterella wadsworthensis、格氏盐碱杆菌(Natronobacterium gregoryi)或白喉棒状杆菌。
在一些实施方案中,非CRISPR/Cas系统蛋白可以是天然存在的或工程改造的形式。
在一些实施方案中,天然存在的非CRISPR/Cas系统蛋白是NgAgo(来自格氏盐碱杆菌的Argonaute)。
“非CRISPR/Cas系统蛋白-gNA复合物”指包含非CRISPR/Cas系统蛋白和指导NA(例如gRNA或gDNA)的复合物。当gNA是gRNA时,gRNA可以由两个分子(即一个RNA(″crRNA″)(其与靶标杂交并提供序列特异性)和一个RNA(″tracrRNA″,其能够与crRNA杂交))组成。或者,指导RNA可以是含有crRNA和tracrRNA序列的单一分子(即gRNA)。
非CRISPR/Cas系统蛋白可以与野生型非CRISPR/Cas系统蛋白至少60%相同(例如,至少70%、至少80%或90%相同,至少95%相同或至少98%相同或至少99%相同)。非CRISPR/Cas系统蛋白可具有野生型非CRISPR/Cas系统蛋白的所有功能,或仅一个或一些功能,包括结合活性、核酸酶活性和核酸酶活性。
术语“与非CRISPR/Cas系统蛋白有关的指导NA”指指导NA。与非CRISPR/Cas系统蛋白有关的指导NA可作为单独的NA存在,或作为非CRISPR/Cas系统蛋白-gNA复合物的一部分存在。
Cpf1
在一些实施方案中,CRISPR/Cas系统蛋白核酸指导的核酸酶是或包含Cpfl系统蛋白。本发明的Cpf1系统蛋白可以是分离的、重组产生的或合成的。
Cpf1系统蛋白质是II类,V型CRISPR系统蛋白。在一些实施方案中,Cpf1蛋白质是从土拉热弗朗西丝菌分离或衍生的。在一些实施方案中,Cpf1蛋白质从氨基酸球菌属、毛螺科菌或普氏菌属分离或衍生的。
Cpf1系统蛋白结合包含核酸指导的核酸酶系统蛋白结合序列(例如,茎环)和导向序列的单一指导RNA。Cpf1导向序列包含位于靶核酸中Cpf1 PAM序列的紧邻3’的序列。不同于Cas9,Cpf1核酸指导的核酸酶系统蛋白结合序列位于Cpfl gRNA中的导向序列的5’。Cpf1还可在靶核酸中产生错列的而非平端化的切割。在Cpfl蛋白质-gRNA蛋白复合物靶向靶核酸后,弗朗西丝菌属衍生的Cpf1,例如,以错列的方式切割靶核酸,这在距靶序列的3’端处的PAM大约18-23个碱基处产生5核苷酸5’突出端。相反地,通过野生型Cas9的切割在Cas9PAM上游3个核苷酸处产生产生平端。
示例性Cpf1 gRNA茎环序列包含以下RNA序列:(5’>3’,AAUUUCUACUGUUGUAGAU)。
“Cpf1蛋白-gNA复合物”是指包含Cpfl蛋白和指导NA(例如,gRNA)的复合物。当gNA是gRNA时,gRNA可由单一分子(即,一个RNA(“crRNA”),其与靶标杂交并提供序列特异性)组成。
Cpf1蛋白可与野生型Cpf1蛋白至少60%同一(例如,至少70%、至少80%、或90%同一,至少95%同一或至少98%同一或至少99%同一)。Cpf1蛋白可具有野生型Cpf1蛋白的所有功能,或仅具有一种或一些功能,包括结合活性和核酸酶活性。
Cpf1系统蛋白识别多种PAM序列。由Cpf1系统蛋白识别的示例性PAM序列包括,但不限于TTN、TCN和TGN。额外的Cpf1 PAM序列包括,但不限于TTTN。Cpfl PAM序列的一个特征是它们比Cas9蛋白使用的NGG或NAGPAM序列具有更高的A/T含量。靶核酸,例如,不同基因组,在百分比G/C含量上不同。例如,人类疟原虫恶性疟原虫的基因组已知富含A/T。或者,基因组中的编码蛋白质的序列通常具有比整个基因组更高的G/C含量。靶基因组中A/T与G/C核苷酸的比率影响该基因组中指定PAM序列的分布和频率。例如,富含A/T基因组可具有较少的NGG或NAG序列,而富含G/C基因组可具有较少的TTN序列。Cpf1系统蛋白扩展了本领域普通技术人员可用的PAM序列库,这产生了gRNA文库的出众的灵活性和功能。
催化死亡的核酸指导的核酸酶
在一些实施方案中,核酸指导的核酸酶的工程改造的实例包括催化死亡的核酸指导的核酸酶(CRISPR/Cas系统核酸指导的核酸酶或非CRISPR/Cas系统核酸指导的核酸酶)。术语“催化死亡的”通常指具有失活的核酸酶(例如失活的HNH和RuvC核酸酶)的核酸指导的核酸酶。这样的蛋白质可与任何核酸中的靶位点结合(其中,靶位点通过指导NA确定),但是该蛋白质不能切割该核酸或使该核酸有切口。
因此,催化死亡的核酸指导的核酸酶允许使混合物分成未结合的核酸和催化死亡的核酸指导的核酸酶结合的片段。在一个示例性实施方案中,dCas9/gRNA复合物与通过gRNA序列确定的靶标结合。dCas9结合可在其他操作进行的同时防止被Cas9切割。
在另一个实施方案中,催化死亡的核酸指导的核酸酶可与另外的酶诸如转座酶融合,以将该酶的活性靶向到特异性位点。
在一些实施方案中,催化死亡的核酸指导的核酸酶是dCas9、dCpf1、dCas3、dCas8a-c、dCas10、dCse1、dCsy1、dCsn2、dCas4、dCsm2、dCm5、dCsf1、dC2C2或dNgAgo。
在一个示例性实施方案中,催化死亡的核酸指导的核酸酶蛋白是dCas9。
核酸指导的核酸酶切口酶
在一些实施方案中,核酸指导的核酸酶的工程改造的实例包括核酸指导的核酸酶切口酶(可互换地称为切口酶核酸指导的核酸酶)。
在一些实施方案中,核酸指导的核酸酶的工程改造的实例包括CRISPR/Cas系统切口酶或非CRISPR/Cas系统切口酶,含有单一失活的催化结构域。
在一些实施方案中,核酸指导的核酸酶切口酶是Cas9切口酶、Cpf1切口酶、Cas3切口酶、Cas8a-c切口酶、Cas10切口酶、Csel切口酶、Csy1切口酶、Csn2切口酶、Cas4切口酶、Csm2切口酶、Cm5切口酶、Csf1切口酶、C2C2切口酶或NgAgo切口酶。
在一些实施方案中,核酸指导的核酸酶切口酶是Cas9切口酶。
在一些实施方案中,核酸指导的核酸酶切口酶可用来与靶序列结合。在仅一个活性核酸酶结构域的情况下,核酸指导的核酸酶切口酶仅切割靶DNA的一条链,产生单链断裂或“切口”。根据使用哪种突变体,可切割指导NA杂交链或非杂交链。与靶向相对链的2个gNA结合的核酸指导的核酸酶切口酶可在该核酸中产生双链断裂。该“双切口酶”策略增加了切割的特异性,因为需要在形成双链断裂前,两个核酸指导的核酸酶/gNA复合物在一个位点特异性结合。
在示例性实施方案中,Cas9切口酶可用来结合靶序列。术语“Cas9切口酶”指Cas9蛋白的经修饰的形式,其含有单一失活的催化结构域,即RuvC-结构域或HNH-结构域。在仅一个活性核酸酶结构域的情况下,Cas9切口酶仅切割靶DNA的一条链,产生单链断裂或“切口”。根据使用哪种突变体,可切割指导RNA杂交链或非杂交链。与靶向相对链的2个gRNA结合的Cas9切口酶会在DNA中产生双链断裂。该“双切口酶”策略可增加切割的特异性,因为需要在形成双链断裂之前,两个Cas9/gRNA复合物在一个位点特异性结合。
DNA的捕获可使用核酸指导的核酸酶切口酶进行。在一个示例性实施方案中,核酸指导的核酸酶切口酶切割双链核酸的单链,其中该双链区域包含甲基化的核苷酸。
可解离的和热稳定的核酸指导的核酸酶
在一些实施方案中,热稳定的核酸指导的核酸酶用于本文所提供的方法中(热稳定的CRISPR/Cas系统核酸指导的核酸酶或热稳定的非CRISPR/Cas系统核酸指导的核酸酶)。在这样的实施方案中,升高反应温度,诱导蛋白质的解离;降低反应温度,允许生成另外的切割的靶序列。在一些实施方案中,当至少75℃保持至少1分钟时,热稳定的核酸指导的核酸酶保持至少50%活性、至少55%活性、至少60%活性、至少65%活性、至少70%活性、至少75%活性、至少80%活性、至少85%活性、至少90%活性、至少95%活性、至少96%活性、至少97%活性、至少98%活性、至少99%活性或100%活性。在一些实施方案中,当至少在75℃、至少在80℃、至少在85℃、至少在90℃、至少在91℃、至少在92℃、至少在93℃、至少在94℃、至少在95℃,96℃、至少在97℃、至少在98℃、至少在99℃或至少在100℃保持至少1分钟时,热稳定的核酸指导的核酸酶保持至少50%活性。在一些实施方案中,当至少在75℃保持至少1分钟、2分钟、3分钟、4分钟或5分钟时,热稳定的核酸指导的核酸酶保持至少50%活性。在一些实施方案中,当升高温度,降低至25℃-50℃时,热稳定的核酸指导的核酸酶保持至少50%活性。在一些实施方案中,温度降低至25℃、至30℃、至35℃、至40℃、至45℃或至50℃时。在一个示例性实施方案中,在95℃一分钟后,热稳定的酶保留至少90%活性。
在一些实施方案中,热稳定的核酸指导的核酸酶是热稳定的Cas9、热稳定的Cpf1、热稳定的Cas3、热稳定的Cas8a-c、热稳定的Cas10、热稳定的Csel、热稳定的Csy1、热稳定的Csn2、热稳定的Cas4、热稳定的Csm2、热稳定的Cm5、热稳定的Csf1、热稳定的C2C2或热稳定的NgAgo。
在一些实施方案中,热稳定的CRISPR/Cas系统蛋白是热稳定的Cas9。
热稳定的核酸指导的核酸酶可以是分离的,例如在嗜热菌嗜热链球菌和强烈炽热球菌(Pyrococcus furiosus)的基因组中通过序列同源性鉴定的。然后可以将核酸指导的核酸酶基因克隆到表达载体中。在一个示例性实施方案中,热稳定的Cas9蛋白是分离的。
在另一个实施方案中,热稳定的核酸指导的核酸酶可通过非热稳定的核酸指导的核酸酶的体外进化获得。可诱变核酸指导的核酸酶的序列以改善其热稳定性。
制制备gNA的集合的方法
本文提供了能够从任何来源的核酸(例如DNA)生成大量不同gRNA、gNA的集合的方法。本文提供的方法可采用酶促方法,其包括但不限于消化、连接、延伸、突出端充填、转录、逆转录、扩增。
一般地,该方法可包括提供核酸(例如DNA);采用第一酶(或第一酶的组合),其以留下来自PAM序列的残留核酸序列的方式切割核酸中的PAM序列的一部分;连接衔接子,所述衔接子将限制酶typeIIS位点(一种外切但接近其识别基序的酶)放置在位于一定距离以消除PAM序列;采用第二typeIIS酶(或第二酶的组合)消除PAM序列和所述衔接子;和融合可由核酸指导的核酸酶(例如,CRISPR/Cas)系统的蛋白成员识别的序列,例如gRNA茎环序列。在一些实施方案中,第一个酶促反应以留下来自PAM序列的残留核苷酸序列的方式切割PAM序列的一部分,并且紧接在PAM序列的5’处的核苷酸序列可以是任何嘌呤或嘧啶,不仅仅是位于PAM序列的5’具有胞嘧啶的核苷酸序列,例如,不仅仅是C/NGG或C/TAG等。
表1显示示例性策略/方案以使用不同限制酶将任何来源的核酸(例如,DNA)转化成gNA(例如gRNA)的集合。
表1.用于制备指导核酸的集合的示例性策略。
Figure BDA0002380257730000461
表2显示另外的示例性策略/方案以使用不同限制酶将任何来源的核酸(例如,DNA)转化成gNA(例如,gRNA)的集合。
表2.另外的用于制备指导核酸的集合的示例性策略
Figure BDA0002380257730000462
Figure BDA0002380257730000471
在图1、图2、图3、图4、图5和图6中提供了本文所述的组合物和方法的示例性应用。这些图描绘了本发明的非限制性示例性实施方案,包括从输入核酸(例如,DNA)诸如基因组DNA(例如,人类基因组DNA)构建gNA文库(例如,gRNA文库)的方法。例如,参考NGG或HGG的PAM位点以及CCD的互补序列(“MAP”位点)描述了本文中的许多方案。这些实例是非限制性的,且预期了多种核酸指导的核酸酶的其他PAM位点。同样地,本文的方法中描述的示例性限制酶可被替代为与其他PAM序列相容的其他限制酶。
在图1中,起始材料可以是片段化的基因组DNA(例如,人类)或其他来源的DNA。这些片段在构建文库之前被平端化101。T7启动子衔接子与平端化的DNA片段连接102,然后PCR扩增。然后使用Nt.CviPII以紧接在CCD序列的5’处在PCR产物的一条链生成切口103。T7内切核酸酶I在切口的5’的1、2或3bp处的相对链上切割104。用T4 DNA聚合酶平端化所得DNA片段,在DNA片段的末端留下HGG序列105。清洁所得DNA,并在珠粒上回收。将携带MlyI识别位点的衔接子在紧接HGG序列的3’处连接平端化的DNA片段106。MlyI在紧接HGG序列的5’处生成平端切割,去除HGG和衔接子序列107。清洁所得DNA片段,并且再次从珠粒上回收。然后将gRNA茎环序列与被MlyI切割的平端连接,形成覆盖人类基因组的gRNA文库108。然后PCR扩增该DNA的文库,并在珠粒上清洁,为体外转录做准备。
在图2中,起始材料可以是整个基因组DNA(例如,人类)或其他来源的DNA 201。Nt.CviPII和T7内切核酸酶I用来在人类基因组DNA的每条链上生成切口,得到较小DNA片段202。在珠粒上大小选择200-600bp的DNA片段,然后与在5’上携带GG突出端的Y形衔接子连接。Y形衔接子的一条链含有MlyI识别位点,其中,另一条链含有突变的MlyI位点和T7启动子序列203。由于这些特征,在PCR扩增后,T7启动子序列在HGG序列的远端,并且MlyI在HGG的近端204。用MlyI进行消化,紧接在HGG序列的5’处产生切割205。MlyI紧接在HGG序列的5’处产生平端切割,去除HGG连同衔接子序列206。然后将gRNA茎环序列与被MlyI切割的平端连接,形成覆盖人类基因组的gRNA文库。然后PCR扩增该DNA的文库,并在珠粒上清洁,为体外转录做准备。
在图3中,可例如用切口酶使来源DNA(例如,基因组DNA)有切口301。在一些情况下,切口酶可具有长度为3个或更少碱基的识别位点。在一些情况下,使用CviPII,其可在CCD的序列处识别并使其有切口(其中,D表示除C之外的碱基)。切口可以是邻近的,在含有将被用来产生指导RNA识别位点(例如,N20序列)的序列(由粗线表示)的区域附近。当切口邻近时,可发生双链断裂并产生5’或3’突出端302。这些突出端可例如用聚合酶(例如,T4聚合酶)修复。在一些情况下,诸如对于5’链,修复可包括合成互补链。在一些情况下,诸如对于3’链,修复可包含去除突出端。修复可导致平端,所述平端包含识别位点(例如,N20指导序列)和与切口识别序列互补的序列(例如,HGG,其中H表示除G之外的碱基)。
在图4中,例如从图3的结尾继续,衔接子的不同组合可与DNA连接以允许所希望的切割。可以连接具有核酸酶的识别位点的衔接子(例如,MlyI),所述核酸酶从该位点切割3个碱基对401,并且在该位点的消化可用来去除剩余序列,诸如HGG序列402。具有从该位点切割20个碱基对的核酸酶(例如,MmeI)的识别位点的衔接子403。这些衔接子还可包括核酸酶的第二识别位点(例如,BsaXI),所述核酸酶从该位点切割适当数量的核苷酸,以后来去除第一个识别位点。第一酶可用来切下20个核苷酸,由此保留识别位点(例如,N20序列)404。然后,可将启动子衔接子(例如T7)连接在识别位点(例如,N20序列)旁边405。然后,可使用对应于第二个识别位点的核酸酶(例如,BsaXI)去除切割20个核苷酸的位点(例如,MmeI)的衔接子406。最终,指导RNA茎环序列衔接子可与识别位点(例如,N20序列)连接407以准备指导RNA的产生。
或者,图5中所示的方案可跟随诸如图3所示的方案的结尾。可将具有核酸酶(例如,MmeI或EcoP15I)的识别位点的衔接子与DNA连接501,所述核酸酶从该位点切割25个核苷酸。这些衔接子还可包括核酸酶的第二识别位点,所述核酸酶从该位点切割适当数量(或更多)的核苷酸,以后来去除第一识别位点(例如FokI或BaeI)和任何其它剩余序列诸如HGG。然后可使用对应于第一识别位点的酶(例如,MmeI或EcoP15I)在识别位点(例如,N20序列)之后切割502。然后,可以将启动子衔接子(例如,T7)连接到识别位点(例如,N20序列)503之后。然后可使用对应于第二个识别位点的酶(例如,FokI或BaeI)去除识别位点和任何剩余序列(例如HGG)504。最后,可以将指导RNA茎环序列衔接子与识别位点(例如,N20序列)连接(例如,通过单链连接)505。
作为诸如图3所示的方案的替代方案,图6所示的方案可用于准备诸如图4或图5所示的方案。可通过切口酶(例如,CviPII)引入切口601。在一些情况下,切口识别位点的长度为三个或更少碱基。在某些情况下,使用CviPII,其可以在CCD的序列处识别并使其有切口。然后可使用聚合酶(例如,Bst大片段DNA聚合酶)在置换旧链的同时从缺口开始合成新的DNA链602。由于DNA合成,可将缺口密封并使其可以再次有切口603。随后的使其有切口和合成的循环可以用来产生大量的靶序列604。靶序列的这些单链拷贝可例如通过随机引发和延伸制成双链。然后可以通过本文公开的方法(诸如图4或图5所示的那些)进一步处理这些包含识别位点(例如,N20序列)的双链核酸。
作为诸如图3或图6所示的方案的另一个替代方案,如图7所示的方案可以用于制备诸如图4或图5所示的方案。可通过切口酶(例如,CviPII)引入切口701。在一些情况下,切口酶识别位点的长度为三个或更少碱基。在某些情况下,使用CviPII,其可在CCD的序列处识别并使其有切口。然后可使用聚合酶(例如,Bst大片段DNA聚合酶)在置换旧链的同时从切口开始合成新的DNA链(例如,切口核酸内切酶介导的链置换DNA扩增(NEMDA))。可以调整反应参数以控制产生的单链DNA的大小。例如,可以调整切口酶:聚合酶比率(例如,CviPII:Bts大片段聚合酶比率)。也可以调整反应温度。接下来,可添加寡核苷酸704,所述寡核苷酸(在5’>3’方向)具有启动子(例如T7启动子)702,随后是随机n聚体(例如,随机6聚体、随机8聚体)703。随机n聚体区域可结合先前产生的单链DNA的区域。例如,可以通过在高温下变性然后快速冷却来进行结合,这可使随机n聚体区域结合由NEMDA产生的单链DNA。在一些情况下,使DNA在98℃变性7分钟,然后迅速冷却至10℃。可以使用延伸和/或扩增来产生双链DNA。可以例如通过酶促方法(例如,通过在20℃用DNA聚合酶I处理)产生平端。这可导致一端以启动子(例如,T7启动子)结束,另一端以任何切口酶识别位点(例如,任何CCD位点)结束。然后可以通过例如大小选择(例如,通过凝胶纯化、毛细管电泳或其他片段分离技术)来纯化这些片段。在一些情况下,靶片段的长度约为50个碱基对(衔接子序列(例如,T7衔接子)+靶识别(例如,N20)序列+切口酶识别位点或互补序列(complement)(例如,HGG))。然后可将片段与包含核酸酶的核酸酶识别位点的衔接子连接,所述核酸酶切割适当的距离以去除切口酶识别位点705。例如,对于3个核苷酸长的切口酶识别位点(例如,用于CviPII的CCD),可以使用BaeI。也可以使用距离识别位点稍远的限制酶,诸如FokI。然后可以使用适当的核酸酶(例如,FokI或BaeI)去除核酸酶识别位点和切口酶识别位点706。然后可以将剩余的核酸序列(例如,识别位点)与指导RNA的最后的茎环序列连接707。可进行扩增(例如,PCR)。可产生指导RNA。
图8A、图8B、图8C和图8D显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如人类基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。
图8A显示了以核酸片段801(诸如剪切的基因组DNA或从mRNA逆转录的cDNA)开始的方案。然后,引物802可以与GGH位置或其他PAM位点杂交。引物可包含序列MAP-识别-限制-启动子,其中MAP代表核酸指导的核酸酶的PAM位点的互补序列,识别代表核酸指导的核酸酶的识别位点,限制代表限制酶的识别位点,启动子代表启动子位点。核酸指导的核酸酶的识别位点对于指定核酸指导的核酸酶可以是适当长度的(例如,约15个与约25个核苷酸之间,在一些情况下为20个核苷酸)。在一个实例中,引物可包含序列CCDN(17)+NNN-Rest-T7或其互补序列,其中CCD代表MAP位点,+代表修饰的核酸键,Rest代表适当的限制位点,T7代表T7启动子位点或其他适当的启动子位点。可以随机产生N个核酸序列,每个引物与以下核酸片段杂交:其包含与其随机N聚体片段匹配的序列。修饰的核酸的位置可以在引物中变化,并且可以使用一个以上的修饰的核酸位点。修饰的核酸可包括锁核酸(LNA)、桥连核酸(BNA)、肽核酸(PNA)、拉链核酸(ZNA)、乙二醇核酸(GNA)、苏糖核酸(TNA)和其他修饰的核酸,诸如结合特异性或敏感性提高的核酸。然后,可以进行延伸反应803以延伸引物804,并入与核酸片段互补的序列。然后,可用置换链的聚合酶进行反向引发805,延伸反向引物806以并入与第一引物互补的序列807,该第一引物包括例如限制酶识别位点和T7(或其他启动子)位点。反向引物可包含序列N(6-8)GGH。反向引物的长度可取决于片段末端处的限制酶(例如,MmeI)活性。然后可进一步加工这些产物以产生如本文所讨论的指导核酸(例如,gRNA),例如如关于图4或图7所讨论的。
图8B显示了以核酸片段810(诸如剪切的基因组DNA或从mRNA逆转录的cDNA)开始的方案。然后引物811可以与GGH位置或其他PAM位点杂交。引物可包含序列MAP-识别-启动子,其中MAP代表核酸指导的核酸酶的PAM位点的互补序列,识别代表核酸指导的核酸酶的识别位点,启动子代表启动子位点。核酸指导的核酸酶的识别位点对于给定核酸指导的核酸酶可以是适当长度的(例如,介于约15与约25个核苷酸之间,在一些情况下为20个核苷酸)。在一个实例中,引物可包含序列CCDN*N(16)+N(3)-T7*N或其互补序列,其中+代表修饰的核酸键,*代表硫代磷酸(PTO)核酸键,且T7代表T7启动子位点或其他适当的启动子位点。在一个实例中,引物可包含序列CCDH*H(4)N(12)+N(3)-T7*N。修饰的核酸可包括锁核酸(LNA)、桥连核酸(BNA)、肽核酸(PNA)、拉链核酸(ZNA)、乙二醇核酸(GNA)、苏糖核酸(TNA)和其他修饰的核酸,诸如结合特异性或敏感性提高的核酸。预期的引物变化可包括更多修饰的核酸和/或PTO核酸。PTO的使用可以保护感兴趣的产物(例如,指导核酸)免受外切核酸酶的降解。然后可以延伸812引物以并入与核酸片段互补的序列813。在一些情况中,可使用用于随后的纯化的标记的核苷酸(例如,生物素化的尿嘧啶)来进行延伸。接下来,可去除814未延伸的或未结合的引物。在一些情况中,可以通过捕获并入了标签的延伸产物(例如,使用链霉亲和素来捕获生物素化的核苷酸)来去除引物。在一些情况下,可以通过大小选择(例如,电泳,固相可逆固定化(SPRI)珠子)去除引物。在一些情况中,可以通过方法的组合(例如捕获和大小选择)去除引物。接下来,可以诸如用CviPII酶使核酸有切口,并诸如用单链外切核酸酶(例如5’至3’和3’至5’外切核酸酶)消化815。这可以留下单链产物816,其可以包含与核酸片段上的GGH位点或其他PAM位点邻近的序列互补的序列,以及T7位点或其他适当的启动子位点。接下来,连接817可用于将具有3’封闭的5’茎环818连接至单链产物。然后可以转录这些产物(例如,使用T7位点或其他适当的启动子位点)以产生指导核酸(例如,gRNA)。
图8C显示了以核酸片段820(诸如剪切的基因组DNA或从mRNA逆转录的cDNA)开始的方案。然后,引物821可以与与前间区序列邻近基序(PAM)互补的位置(在图中以‘MAP’表示)杂交。引物可包含序列PAM-识别-启动子,其中PAM代表核酸指导的核酸酶的PAM位点,识别代表核酸指导的核酸酶的识别位点,且启动子代表启动子位点。核酸指导的核酸酶的识别位点对于给定核酸指导的核酸酶可以是适当长度的(例如,约15与约25个核苷酸之间,在一些情况下为20个核苷酸)。在一个实例中,引物可包含序列PAM-N*N(16)+N(3)-T7*N或其互补序列,其中+代表修饰的核酸键,*代表硫代磷酸(PTO)核酸键,PAM代表前间区序列邻近基序(PAM),且T7代表T7启动子位点或其他适当的启动子位点。修饰的核酸可包括锁核酸(LNA)、桥连核酸(BNA)、肽核酸(PNA)、拉链核酸(ZNA)、乙二醇核酸(GNA)、苏糖核酸(TNA)和其他修饰的核酸,诸如结合特异性或敏感性提高的核酸。在一个实例中,引物可包含序列PAM-H*H(4)N(12)+N(3)-T7*N。H*H区也可以被非PAM序列取代。预期的引物变化可包括更多修饰的核酸键和/或PTO核酸键。预期的引物变化还包括不同长度的随机核苷酸(例如,介于约15与约25个核苷酸之间)。然后可以延伸822引物以并入与核酸片段互补的序列823。在一些情况中,可使用用于随后的纯化的标记的核苷酸(例如,生物素化的尿嘧啶)来进行延伸。接下来,去除824未延伸的或未结合的引物。在一些情况中,通过捕获并入了标签的延伸产物(例如,使用链霉亲和素来捕获生物素化的核苷酸)来去除引物。在一些情况中,可以通过大小选择(例如,电泳、固相可逆固定化(SPRI)珠子)去除引物。接下来,可以诸如用CviPII酶或用尿嘧啶特异的切除酶(例如USER或尿嘧啶DNA糖基化酶(UDG))使核酸有切口,并诸如用单链外切核酸酶(例如5’至3’和3’至5’外切核酸酶)消化825。这可以留下单链产物826,其可以包含与核酸片段上的GGH位点或其他PAM位点邻近的序列互补的序列,以及T7位点或其他适当的启动子位点。接下来,连接827可用于将具有3’封闭的5’茎环828连接至单链产物。然后可以转录这些产物(例如,使用T7位点或其他适当的启动子位点)以产生指导核酸(例如,gRNA)。
图8D显示了以核酸片段830(诸如剪切的基因组DNA或从mRNA逆转录的cDNA)开始的方案。然后引物831可以与与前间区序列邻近基序(PAM)互补的位置(在图中以‘MAP’表示)杂交。引物可包含序列PAM-识别-启动子,其中PAM代表核酸指导的核酸酶的PAM位点,识别代表核酸指导的核酸酶的识别位点,且启动子代表启动子位点。核酸指导的核酸酶的识别位点对于指定核酸指导的核酸酶可以是适当长度的(例如,介于约15与约25个核苷酸之间,在一些情况下为20个核苷酸)。在一个实例中,引物可包含序列PAM-N*N(16)+N(3)-T7*N或其互补序列,其中+代表修饰的核酸键,*代表硫代磷酸(PTO)核酸键,PAM代表前间区序列邻近基序,且T7代表T7启动子位点或其他适当的启动子位点。修饰的核酸可包括锁核酸(LNA)、桥连核酸(BNA)、肽核酸(PNA)、拉链核酸(ZNA)、乙二醇核酸(GNA)、苏糖核酸(TNA)和其他修饰的核酸,诸如结合特异性或敏感性提高的核酸。在一个实例中,引物可包含序列PAM-H*H(4)N(12)+N(3)-T7*N。预期的引物变化可包括更多修饰的核酸键和/或PTO核酸键。然后可以延伸822引物以并入与核酸片段互补的序列833。在一些情况中,可使用用于随后的纯化的标记的核苷酸(例如,生物素化的尿嘧啶)来进行延伸。接下来,去除834未延伸的或未结合的引物。在一些情况中,通过捕获并入了标签的延伸产物(例如,使用链霉亲和素来捕获生物素化的核苷酸)来去除引物。在一些情况中,可以通过大小选择(例如,电泳、固相可逆固定化(SPRI)珠子)去除引物。接下来,可以诸如用CviPII酶或用尿嘧啶特异的切除酶(例如USER或尿嘧啶DNA糖基化酶(UDG))使核酸有切口,并诸如用单链外切核酸酶(例如5’至3’和3’至5’外切核酸酶)消化335。这可以留下单链产物836,其可以包含与核酸片段上的GGH位点或其他PAM位点邻近的序列互补的序列,以及T7位点或其他适当的启动子位点。接下来,连接837可用于将具有3’封闭的5’茎环828连接至单链产物。还可添加错列的双链茎环839。茎环D-D的末端可包含与H*H区互补的序列或与PAM序列互补的序列。然后可以转录这些产物(例如,使用T7位点或其他适当的启动子位点)以产生指导核酸(例如,gRNA)。
图9A和图9B显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。该方案可以以核酸片段901(诸如剪切的基因组DNA或从mRNA逆转录的cDNA)开始,该核酸片段901具有连接至末端上的环状衔接子以形成环状核酸。环状衔接子可包含启动子位点,诸如T7启动子位点或其他适当的启动子位点。然后,可以例如用CviPII使核酸有切口902。紧密的切口可产生双链断裂,其然后可被平端化(例如,使用T4 DNA聚合酶)。产物903的平端可以具有HGG/GGH序列(或其他PAM位点)或其互补序列(例如,MAP位点)。可以将环状衔接子905连接904至产物的末端。此环状衔接子可包含与指导核酸茎环序列互补的序列,一个或多个限制位点(例如,Nt.AlwI位点),并且可含有一个或多个尿嘧啶核苷酸。然后可用尿嘧啶特异性切除酶(诸如尿嘧啶DNA糖基化酶(UDG)和DNA糖基化酶裂解酶内切核酸酶VIII)处理此产物,以去除U残基并在U残基之前和之后产生切割907。Nt.AlwI处理可用于在CCD基序或其他MAP部位的下游引入切口908。然后可连接产物909(例如,使用环状连接酶,例如CircII连接酶),使得与引导核酸茎环序列互补的序列紧接在指导核酸910的识别区(例如,N20区)的互补序列。在图9B中继续,然后可以例如在启动子位点(例如,T7位点或其他适当的启动子位点)用引物914对产物进行激发913。然后可例如使用滚环扩增,扩增915产物。可以用聚合酶诸如Phi29聚合酶进行扩增。扩增可产生引导核酸的启动子位点、识别位点区和茎环区的许多单链串联体。例如使用相对于序列位于5’和3’的限制位点,可从任何邻近序列中切除917启动子-识别位点-茎环序列。这些启动子-识别位点-茎环序列918中的每一个可用作指导核酸前体。
在一些实施方案中,产生靶向人类线粒体DNA(mtDNA)的gNA(例如,gRNA)的集合,其可用于指导核酸指导的核酸酶(例如,Cas9)蛋白,因为其包含核酸指导的核酸酶(例如,Cas9)靶序列。在一些实施方案中,该gNA的集合(例如,gRNA)的导向序列由包含表3(例如,如果NGG序列在负链上)的最右边中提供的至少20nt序列的DNA序列编码。在一些实施方案中,如本文提供的对人线粒体DNA具有特异性的gRNA核酸的集合包含多个成员,其中这些成员包含表3的最右列中提供的多个导向序列。
表3.在MlyI衔接子情况下使用的寡核苷酸
Figure BDA0002380257730000541
Figure BDA0002380257730000551
本文提供了能够从可与CRISPR/Cas系统内切核酸酶一起使用的任何来源核酸(例如,DNA)生成大量不同的gRNA、gNA的集合的方法。有效合成具有3’核酸指导的核酸酶系统蛋白结合序列和5’导向序列的gRNA集合的一些方法可对具有区段排列的gNA特异。本文提供了具有5’核酸指导的核酸酶系统蛋白结合序列和3’导向序列的gRNA集合的合成方法。与具有5’核酸指导的核酸酶系统蛋白结合序列和3’导向序列的gRNA相容的所有CRISPR/Cas内切核酸酶也被认为在本公开的方法的范围内。
本文提供的方法可采用酶促方法,包括但不限于消化、连接、延伸、突出端填充、转录、反转录、扩增。
采用了若干策略。在一个实施方案中,该方法可包括提供核酸(例如,DNA);采用第一酶(或第一酶的组合),其以保留PAM序列中残留的核苷酸序列的方式切割核酸中的PAM序列的一部分;连接衔接子,该衔接子将IIS型限制酶位点(一种切向外部但仍接近其识别基序的酶)定位一段距离,以消除PAM序列;采用第二IIS型酶(或第二酶的组合)以消除PAM序列连同衔接子;以及融合可被核酸指导的核酸酶(例如,CRISPR/Cas)系统的蛋白质成员识别的序列,例如,gRNA茎环序列。在一些实施方案中,第一次酶促反应切割一部分PAM序列,其方式是保留PAM序列中残留的核苷酸序列,且紧靠PAM序列3’的核苷酸序列可以是嘌呤或嘧啶。具体地,在Cpfl PAM位点上对所提供的核酸(例如DNA)进行片段化的替代策略包括用肌苷取代腺嘌呤,或用尿嘧啶替代胸腺嘧啶,然后在无碱基或错配位点切割,随后进行上述额外步骤。
作为额外的选择,提供的核酸(例如DNA)可以被随机剪切。偶然地,通过随机剪切生成的一定比例的片段化位点将用TTN PAM序列重叠。可将片段连接至具有互补突出端的衔接子,或连接至仅当与具有末端PAM的片段连接时才构成功能性限制位点的平端化衔接子。这些策略仅允许选择性加工成作为提供的原始核酸中PAM序列的3’的那些片段的gRNA。
图15显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。该方案可以从已经用MseI(1501)或MluCI(1502)切割的核酸片段开始。MseI在TTAA位点内切割,而MluCI在AATT位点处切割。MseI和MluCI均识别包含TTN的位点,在某些实施方案中,其充当PAM位点。例如,从土拉弗朗西丝菌分离的Cpf1蛋白将TTN识别为PAM。用MseI或MluCI消化的起始DNA导致了消化的片段的集合,使得片段的末端包含潜在的PAM序列。在其他PAM序列内或邻近切割的除MseI和MluCI以外的酶也被认为在本发明的范围内。表7列出了产生具有末端PAM序列的消化的片段的限制酶的示例性但非限制性实例。然后用绿豆核酸酶处理MseI或MluC消化的DNA片段,以降解单链突出端(1503、1504、1505)。然后将包含MmeI和FokI限制位点的衔接子连接至这些DNA片段。衔接子序列将取决于起始核酸材料是用MseI(1506)还是MluCI(1507)切割的。然后在距离衔接子序列中MmeI位点20bp处使用MmeI酶切割DNA片段,以从20核苷酸核酸导向序列(N20)中去除不需要的DNA序列。在MmeI消化后,然后在邻近衔接子处使用FokI酶进行切割,释放出20核苷酸核酸靶向序列(N20)(1508、1509)。然后将包含启动子序列(诸如T7启动子序列)和核酸指导的核酸酶系统蛋白结合序列的额外衔接子连接至包含N20序列的DNA片段(1510、1511)。这产生了用于crRNA N20单元体外转录以产生gNA的最终模板。
图16显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。在某些实施方案中,用于构建gNA文库的核酸起始材料包含其中腺嘌呤已被肌苷取代的DNA(图16)。当腺嘌呤被肌苷取代后(1602),人烷基腺嘌呤DNA糖基化酶(hAAG)用于去除与胸腺嘧啶配对的肌苷,保留无碱基位点(1603)。这些无碱基位点不能碱基配对,这会导致错配,这些错配会被T7内切核酸酶I识别并切割(1604),产生具有例如TTN突出端的DNA片段(1605)。在某些实施方案中,TTN充当PAM位点。例如,从土拉弗朗西丝菌分离的Cpf1蛋白将TTN识别为PAM。此TTN突出端可用于连接具有AAN突出端的衔接子。此突出端,以5’至3’方向,是5’-NAA-3’,且与通过此方法产生的DNA片段的TTN突出端互补(1606)。这些含有AAN突出端的衔接子的功能是,这些衔接子不会连接至无碱基位点或其他错配,这导致对那些含有包含TTNPAM位点作为突出端的片段的N20特异的衔接子连接。具有例如通过此方法的T7内切核酸酶I切割的TNN末端序列的DNA片段将无法与衔接子连接。这产生了包含衔接子(诸如包含FokI和MmeI限制位点的衔接子)、TTN序列和核酸导向序列(N20)的核酸分子的集合(1606)。然后在距离衔接子序列中的MmeI位点20bp处使用MmeI限制酶进行切割,从20核苷酸核酸导向序列(N20)中去除不需要的DNA序列。在MmeI消化后,在邻近衔接子处使用FokI酶进行切割,释放出20核苷酸核酸导向序列(N20)(1607)。然后将包含启动子序列(诸如T7启动子序列)和核酸指导的核酸酶系统蛋白结合序列的额外的衔接子连接至包含N20序列的DNA片段(1608)。这产生了用于crRNA N20单元体外转录以产生gNA的最终模板。
图17显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如,人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。在某些实施方案中,用于构建gNA文库的核酸起始材料包含其中胸腺嘧啶已被尿嘧啶取代的DNA(1702)。USER酶(尿嘧啶-特异性切除试剂,NEB#M5505S)去除并切除尿嘧啶,留下5’和3’磷酸(1704)。在USER的情况下,尿嘧啶DNA糖基化酶(UDG)催化尿嘧啶碱基的切除以生成无碱基位点,且内切核酸酶VIII破坏无碱基位点的3’和5’侧的磷酸二酯骨架。
在此方法的某些实施方案中,磷酸酶处理可去除邻近无碱基位点的3’磷酸,然后使用双脱氧核糖核酸ddTTP进行单个碱基对延伸,然后再用绿豆核酸酶处理。可以产生脱碱基位点的其他DNA修复酶被认为在本发明的范围内。例如,DNA糖基化酶(诸如人氧鸟嘌呤糖基化酶(hOGG1))可用于切除错配的碱基对并产生无碱基位点。此方法的一个特征是,在TTN位点而不是例如TN位点,起始DNA片段化的特异性部分来自USER介导的切除和ddTTP延伸的组合。对于TN位点,末端产物是切口,这会形成较差的底物。对于TTN(或大于两个T),存在至少一个被有效切割的碱基对切口。在可替换的实施方案中,在USER介导的尿嘧啶切除后,立即进行绿豆核酸酶降解单链区。然后,绿豆核酸酶识别并降解单链区(1705)。绿豆核酸酶处理产生其5’端与TTN位点的TT相邻的DNA片段集合。在某些实施方案中,TTN充当PAM位点。例如,从土拉弗朗西丝菌分离的Cpf1蛋白将TTN识别为PAM。包含FokI和MmeI位点的衔接子与所得的核酸片段连接(1706)。这些衔接子的特征是,这些衔接子将不会连接3’磷酸。在距离衔接子序列中的MmeI位点20bp处使用MmeI限制酶进行切割,从20核苷酸核酸导向序列(N20)中去除不需要的DNA序列,并且在邻近衔接子处使用FokI酶进行切割,释放出20核苷酸核酸导向序列(N20)(1707)。然后将包含启动子序列(诸如T7启动子序列)和核酸指导的核酸酶系统蛋白结合序列的额外的衔接子连接至包含N20序列的DNA片段(1708)。这产生了用于crRNAN20单元体外转录以产生gNA的最终模板。
图18显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如,人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。在某些实施方案中,用于构建gNA文库的核酸起始材料包含已经用非特异性切口酶和T7内切核酸酶I(片段化酶)被随机片段化的DNA。在某些实施方案中,16个片段化位点中有1个将与TTN PAM位点完全重叠(1802),产生可与包含AAN突出端的衔接子连接的TTN突出端。这产生了衔接子连接的DNA片段的集合,所述衔接子连接的DNA片段包含与TTN PAM序列相邻的N20序列。例如,包含FokI和MmeI限制位点的衔接子与DNA片段连接(1803)。然后,在距离衔接子序列中的MmeI位点20bp处使用MmeI酶进行切割,从20核苷酸核酸导向序列(N20)中去除不需要的DNA序列,并且在邻近衔接子处使用FokI进行切割,释放出20核苷酸核酸导向序列(N20)(1804)。然后将包含启动子序列(诸如T7启动子序列)和核酸指导的核酸酶系统蛋白结合序列的额外的衔接子连接至包含N20序列的DNA片段(1805)。这产生了用于crRNA N20单元体外转录以产生gNA的最终模板。
图19显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如,人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。在某些实施方案中,用于构建gNA文库的核酸起始材料包含已经被随机剪切的DNA。在某些实施方案中,16个片段中有1个片段将会具有5’PAM端(1901)。可以使用DNA甲基化酶(诸如EcoGII DNA甲基转移酶)将随机剪切的DNA片段的5’端甲基化,并进行末端修复以产生平端(1901)。将NtBstNBI*cPAM连接至包含N20核酸导向序列的剪切的、甲基化的和末端修复的DNA片段的末端(1902)。(*)表示抗切割磷酸键,其消除第二链切割。然后,NtBstNBI(也称为Nt.NstNBI)在距离硫代磷酸键4个碱基对处使DNA的顶部链有切口(1903)。在一些实施方案中,NtBstNBI*cPAM衔接子包含这样的序列,使得向DNA片段的PAM序列添加衔接子的互补性PAM(cPAM)序列产生限制位点(有关PAM和相关序列和限制酶,参见下表7)。此限制位点可以被限制酶诸如HaeIII、MluCI、AluI、DpnII或FatI切割。通过NtBstNBI*cPAM衔接子(1903)与包含PAM位点的剪切的DNA片段的连接产生限制位点,以及随后对新产生的限制位点的切割(1903、1904)仅允许选择性加工那些含有末端PAM序列的DNA片段。衔接子中抗切割硫代磷酸键消除了限制酶的第二条链切割,并且由于甲基化而不使用内部位点。以AATT PAM和MluCI为例,通过用NtBstNBI在PAM位点处使顶部链有切口,产生AATT(切割)位置,然后再用MluCI(其切割两条链)切割,从而产生平端化片段,而不是切口或4bp突出端。只有平的片段可以连接至衔接子。NtBstNBI切口(1903)和限制酶切割在N20序列邻近产生(1905)平端,其中包含FokI位点和MmeI位点的衔接子与该平端连接(1906)。然后,在距离衔接子序列20bp处使用MmeI酶进行切割,从20核苷酸核酸导向序列(N20)中去除不需要的DNA序列,并且在邻近衔接子处使用FokI进行切割,释放出20核苷酸核酸导向序列(N20)(1907)。然后将包含启动子序列(诸如T7启动子序列)和核酸指导的核酸酶系统蛋白结合序列的额外的衔接子连接至包含N20序列的DNA片段(1908)。这产生了用于crRNAN20单元体外转录以产生gNA的最终模板。
Figure BDA0002380257730000591
图20显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如,人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。在某些实施方案中,用于构建gNA文库的核酸起始材料包含已经被随机剪切且修复成平端的DNA。在某些实施方案中,16个片段中有1个片段将会具有5’PAM末端(2001,PAM和互补性PAM(cPAM)序列,如所示的)。NtBstNBIAA衔接子与随机剪切的、平端化DNA片段连接(2002),然后NtBstNBI在距离4个碱基对处使顶部链有切口(2003)。外切核酸酶3识别该切口(2004),并以3’至5’方向降解顶部链,暴露出底部链(2005)。添加MlyI引物,该引物精确地退火至底部链和PAMcPAM序列。高温连接酶密封了切口(2006),该高温连接酶仅对那些剪切的、平的包含末端PAM序列的DNA片段产生特异性,并且在NtBstNBI衔接子连接后产生PAMcPAM序列。只有产生PAMcPAM序列才允许精确的连接。任何其他片段在连接位点附近将会具有错配,并且这会消除连接酶的活性。在一些实施方案中,修复的MlyI衔接子仅允许选择性PCR扩增2006(图20B)的含TT序列,这产生2007的MlyI片段,即同时包含MlyI序列和PAM邻近的N20序列的PCR扩增的DNA片段。PCR扩增是通过无校对3’至5’外切核酸酶的活性的酶进行的。然后,MlyI在距离5个碱基对处切割两条链,留下平端并去除了PAMcPAM序列(2008)。然后将包含FokI和MmeI限制位点的平的衔接子与MlyI消化的DNA片段连接(2009)。然后,MmeI酶在距离衔接子序列20bp处进行切割,从20核苷酸核酸导向序列(N20)中去除不需要的DNA序列,并且FokI在邻近衔接子处进行切割,释放出20核苷酸核酸导向序列(N20)(2010)。然后将包含启动子序列(诸如T7启动子序列)和核酸指导的核酸酶系统蛋白结合序列的额外的衔接子连接至包含N20序列的DNA片段(2011)。这产生了用于crRNA N20单元体外转录以产生gNA的最终模板。
图21显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如,人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。在某些实施方案中,用于构建gNA文库的核酸起始材料包含已经被随机剪切且经修复具有平端的DNA。在某些实施方案中,16个片段中有1个片段将会具有5’PAM末端(2101,PAM和互补性PAM(cPAM)序列,如所示的)。环状衔接子(circ衔接子)与这些平端化DNA片段连接,并使用λ外切核酸酶降解两端都没有环状衔接子的片段(2102)。在一些实施方案中,向DNA片段的PAM序列添加来自衔接子的cPAM序列产生了限制位点(参见表7和2103)。此限制位点可以被限制酶诸如HaeIII、MluCI、AluI、DpnII或FatI切割。当此位点被限制酶(诸如HaeIII、MluCI、AluI、DpnII或FatI)切割时,它会生成可连接的末端。通过将环状衔接子与包含PAM位点的剪切的DNA片段连接(2102)来产生限制位点,以及随后对新产生的限制位点的切割(2103)仅允许选择性加工那些含有末端PAM序列的DNA片段。在PAM位点处未连接衔接子的片段在此步骤中将会被限制酶切割(例如MluCI)的片段,且因此将保持环状。这些环状片段不可用于随后的连接回合。只有在PAM位点连接了衔接子的片段才能抵抗λ核酸酶(2102),然后被限制内切酶(例如MluCI,和2103)切割,从而打开它们用于随后的连接回合。由于甲基化,不使用内部限制位点。甲基转移酶诸如EcoGII可用作预处理。然后将包含MlyI序列的额外衔接子连接至DNA片段(2104)。使用MlyI衔接子特异性PCR引物来PCR扩增DNA片段(2105)。仅含有PAM序列的DNA分子将会被扩增。然后用MlyI切割扩增的PCR产物以去除衔接子(图21B,2105),并将包含FokI和MmeI限制位点的衔接子连接至所得DNA片段(2106)。然后,MmeI酶在距离衔接子序列20bp处进行切割,从20核苷酸核酸导向序列(N20)中去除不需要的DNA序列,并且FokI在邻近衔接子处进行切割,释放出20核苷酸核酸导向序列(N20)(2107)。然后将包含启动子序列(诸如T7启动子序列)和核酸指导的核酸酶系统蛋白结合序列的额外衔接子连接至包含N20序列的DNA片段(2108)。这产生了用于crRNAN20单元体外转录以产生gNA的最终模板。
图22显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如,人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。在某些实施方案中,用于构建gNA文库的核酸起始材料包含已经被随机剪切且经修复具有平端的DNA。在某些实施方案中,16个片段中有1个片段将会具有5’TT末端(2201,TTN和AAN,如所示的)。在某些实施方案中,TTN可用作PAM位点。例如,TTN是由Cpf1及相关家族成员识别的。然后,将包含末端AA的NtBstNBI衔接子(NtBstNBIAA)连接至TT末端(2202)。向来自DNA片段的5’末端TT添加来自衔接子的3’末端AA产生MluCI限制位点。MluCI切入了此新产生的位点(2203),留下了AATT单链突出端(2204),其被绿豆核酸酶降解以留下平端的片段(2205)。通过将具有末端AA的NtBstNBI衔接子连接到具有末端TT的剪切的DNA片段来产生AATT MluCI限制位点,允许选择性加工邻近TTN PAM序列的N20 DNA片段。将包含FokI和MmeI限制位点的衔接子连接至所得的DNA片段(2206)。
或者,在连接NtBstNBI衔接子后,NtBstNBI可用于在距离4个碱基对处使顶部链产生切口(2207),并且MluCI用于切割顶部和底部链(2208)。来自NtBstNBI的切口和来自MluCI的切口在靠近N20序列处产生平端(2209),其中包含FokI和MmeI限制位点的平端化衔接子与该平端连接(2210)。在某些实施方案中,NtBstNBI衔接子可以是NtBstNBI*AA衔接子,其中(*)表示抗切割硫代磷酸键(2211)。在距离4个碱基对处使用NtBstNBI以使顶部链有切口。向来自DNA片段的TT添加来自衔接子的AA产生MluCI限制位点,且MluCI切割此限制位点的底部链(2213)。来自NtBstNBI的切口和来自MluCI的切口在靠近N20序列处产生平端(2214),其中包含FokI和MmeI限制位点的平端化的衔接子与该平端连接(2215)。在包含FokI和MmeI限制位点的平端化的衔接子已经与包含N20序列的DNA片段连接后,然后,MmeI酶在距离衔接子序列20bp处进行切割,从20核苷酸核酸导向序列(N20)中去除不需要的DNA序列,并且FokI在邻近衔接子处进行切割,释放出20核苷酸核酸导向序列(N20)(2216)。然后将含有启动子(诸如T7)和crRNA序列的额外衔接子连接至包含N20序列的DNA片段(2217)。这产生了用于crRNA N20单元体外转录的最终模板。图23显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如,人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。在某些实施方案中,用于构建gNA文库的核酸起始材料包含已经被随机剪切且经修复具有平端的DNA。在某些实施方案中,16个片段中有1个片段将会具有5’TT末端(2301,TTN和AAN,如所示的)。在某些实施方案中,TTN可用作PAM位点。例如,从土拉弗朗西丝菌分离的Cpfl蛋白将TTN识别为PAM。包含末端AA的NtBstNBI衔接子(NtBstNBIAA)与剪切的、平的DNA片段的末端连接(2302)。当剪切的平的DNA片段包含末端TT时,NtBstNBI衔接子的连接产生AATT序列(2302)。在距离4个碱基对处使用NtBstNBI以使顶部链有切口(2303)。外切核酸酶3识别该切口,并以3’至5’方向降解顶部链,暴露出底部链(2305)。添加MlyI引物,该引物精确地退火至底部链和AATT序列(2306)。高温连接酶密封了切口(图23A,2306),该高温连接酶仅对那些剪切的、平的包含末端TT序列的DNA片段产生特异性,并且在NtBstNBI AA衔接子连接后产生AATT序列。在一些实施方案中,修复的MlyI衔接子允许PCR选择性扩增含AATT的DNA序列,即具有邻近N20序列的TTN PAM的DNA序列(2307,图23B)。然后,MlyI在距离5个碱基对处切割两条链,留下平端,并去除AATT序列(2308)。然后,将包含FokI和MmeI限制位点的平的衔接子与MlyI消化的DNA片段连接(2309)。然后,MmeI酶在距离衔接子序列20bp处进行切割,从20核苷酸核酸导向序列(N20)中去除不需要的DNA序列,并且FokI在邻近衔接子处进行切割,释放出20核苷酸核酸导向序列(N20)(2310)。然后将包含启动子(诸如T7)和核酸指导的核酸酶系统蛋白结合序列的额外衔接子连接至包含N20序列的DNA片段(2311)。这产生了用于crRNAN20单元体外转录以产生gNA的最终模板。
图24显示了用于从输入核酸(例如DNA),诸如基因组DNA(例如,人基因组DNA,诸如从mRNA逆转录的cDNA)构建gNA文库(例如gRNA文库)的额外技术。该方法的一个特征是在高温下连接,这导致寡核苷酸的环化,并将随机化的N20序列转换为N20库,以及建立了crRNA分子的文库。在某些实施方案中,用于构建gNA文库的核酸起始材料包含已经被随机剪切且经修复具有平端的DNA。在某些实施方案中,16个片段中有1个片段将会具有5’TT末端(2401,TTN和AAN,如所示的)。用T7外切核酸酶处理双链DNA片段以暴露出单链(2402)。在用T7外切核酸酶处理后,包含5’磷酸、5’末端处的随机N12序列、T7+茎环序列、2个相对的Fokl位点和3’处的TTN序列(随后是N8序列)的线性寡核苷酸(2403)被添加,退火至暴露的单链DNA,并使用HiFidelity Taq连接酶连接(2404)。高温连接酶需要切口的任一侧上的大于10bp的完全同源性以便连接。如果同源性、切口或错配较少,其不会连接。这产生环化的产物,因此随机核苷酸(N8+N12)形成了与TTN PAM位点邻近的N20序列的文库(例如,如图24中所示的人N20序列的文库)。使用外切核酸酶1和外切核酸酶3降解所有剩余的DNA。将与2个相对的Fokl区互补的寡核苷酸退火(2405)至环状DNA,并用Fok1切割所得产物。这切除了(双链)相对的FokI位点,产生了线性单链DNA片段的集合。消除(2406)了茎环末端与N20之间的TTN和不需要的序列。使用CircLigase(单链DNA连接酶,Lucigen)将这些DNA片段自环化(2407)。然后,通过滚环扩增或用USER线性化,随后进行PCR来扩增所得环状DNA,以提供用于crRNA(gNA)生成的模板。
设计和合成
可以设计(例如,在计算方面上)指导核酸的集合,然后合成以供使用。gNA的合成可以采用标准的寡核苷酸合成技术。在一些情况中,可以合成gNA的前体,可从该前体产生gNA。在一个实例中,合成DNA前体,并从DNA前体转录gNA(例如,经由体外转录)。
图10示例说明了用于设计指导核酸的集合的技术。可获得靶核酸序列(例如,靶基因组、靶转录组)的序列信息。可创建包括靶核酸的多个测序文库,可以将这些文库测序至所需的覆盖范围,并且可以生成原始测序读段数据。来自每个经测序的文库的读段可以被映射到合适的参考序列。考虑到可靠地映射到参考序列的所有读段,可以创建序列读段比对文件(例如,二进制读段比对或“BAM”文件),并且可以计算出源自指定参考序列的靶读段的数目(“丰度”)。每个靶序列获得的丰度测量值可以以降序排列。可以合并来自多个测序库的文件以创建单个文件。可以鉴定出被最小数目的读段覆盖的序列比对区域(本文中为“靶区域”)。可以从靶标区域中提取指导核酸序列(例如,在任一DNA链上的“NGG”基序或其他PAM位点之前紧接的20个核苷酸,或在任一DNA链上的“TTN”基序或其他PAM位点之后的20个核苷酸)。接下来,可进行额外的过滤步骤以确保gNA由最小数目的核苷酸隔开。将来自每个测序文库的图谱读取至合适的参考序列。此方法可以重视靶序列中更丰富的序列(例如,来自转录组的更丰富的mRNA分子的cDNA)。例如,如果测序读段来自cDNA,则读段的数目可以与相关转录物的丰度相关联。
图11示例说明了用于设计指导核酸的集合的技术。可获得靶核酸序列(例如,靶基因组、靶转录组)的序列信息。可以从靶区域中提取最常见的指导核酸识别序列(aka导向序列)(例如,在任一DNA链上的“NGG”基序或其他PAM位点之前紧接的20个核苷酸,或在任一DNA链上的“TTN”基序或其他PAM位点之后的20个核苷酸),并且可使用此最常见的指导来进行或模拟消化。可去除短片段,且可发现第二最常见的指导,且用于消化。可再次去除短片段,且可发现第三常见指导,且用于消化。可以重复此过程,直到指导的数目与预设的数目匹配(例如,由合成方法的能力(诸如阵列)确定的预设数目),所有剩余片段均是短的,未发现指导,或消化或消耗的可接受数目是由发现的指导启用的。可通过计算、定位指导和模拟对靶核酸序列的消化进行此过程。在指定的重复中可以找到多个指导。例如,每个重复可产生较少的潜在指导,因此,在一些重复之后,可以在给定的重复中发现多个指导。在一些情况中,不是确定重复中最常见的指导,而是确定在切割后产生低于某一阈值(例如短片段)的最多片段的指导。此方法可重视靶序列中更丰富的序列(例如,来自转录组的更丰富的mRNA分子的cDNA)。
短片段可以是少于约10000bp、9000bp、8000bp、7000bp、6000bp、5000bp、4000bp、3000bp、2000bp、1000bp、500bp、450bp、400bp、350bp、300bp、250bp、200bp、150bp、100bp、90bp、80bp、70bp、60bp、50bp、40bp、30bp、20bp或10bp的核酸。指导的预设数目可以是至少约100、200、300、400、500、600、700、800、900、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、200000、300000、400000、500000.600000、700000、800000、900000、1000000、2000000、3000000、4000000、5000000、6000000、7000000、8000000、9000000或10000000个。消耗的可接受数目可以是至少约10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、99%、99.9%、99.99%、99.999%或100%。在一些情况中,消耗的数量可以是被切割成短片段的起始靶核酸的百分比。
应用
本文提供的gNA(例如,gRNA)和gNA(例如,gRNA)的集合对于多种应用是有用的,包括消耗、分配、捕获或富集感兴趣的靶序列;全基因组标记;全基因组编辑;全基因组功能筛选;和全基因组调控。
在一个实施方案中,gNA对于来自宿主的生物样品中的宿主核酸是选择性的,但是对于来自宿主的生物样品中的非宿主核酸不是选择性的。在一个实施方案中,gNA对于来自宿主的生物样品中的非宿主核酸是选择性的,但是对于样品中的宿主核酸不是选择性的。在一个实施方案中,gNA对于来自宿主的生物样品中的宿主核酸和非宿主核酸亚组两者是选择性的。例如,当复杂的生物样品包含宿主核酸和来自多于一个非宿主生物体的核酸时,gNA可以对多于一个非宿主物种是选择性的。在这样的实施方案中,gNA用来连续消耗或分配不感兴趣的序列。例如,来自人的唾液含有人DNA,以及多于一个细菌物种的DNA,但是还可含有未知病原生物体的基因组材料。在这样的实施方案中,针对人类DNA和已知细菌的gNA可用来连续消耗人类DNA和已知细菌的DNA,因此产生包含未知病原生物体的基因组材料的样品。
在示例性实施方案中,gNA对于从来自宿主的生物样品中获得的人类宿主DNA是选择性的,但是不与来自同样从该样品中获得的未知病原体的DNA杂交。
在一些实施方案中,gNA对于消耗和分配样品中的靶序列,富集非宿主核酸的样品或连续消耗样品中的靶核酸是有用的,包括:提供从样品中提取的核酸;和使样品与多各复合物接触,所述复合物包含(i)本文所述的gNA的集合中的任何一个和(ii)核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白。
在一些实施方案中,gNA对于消耗和分配样品中的靶序列的方法是有用的,所述方法包括:提供从样品中提取的核酸,其中提取的核酸包含感兴趣的序列和用于消耗或分配的靶序列;在核酸指导的核酸酶系统蛋白切割样品中的核酸的条件下,使样品与多个复合物接触,所述复合物包含(i)本文提供的gNA的集合;和(ii)核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白。
在一些情况中,包含来自核酸指导的核酸酶系统蛋白(例如,CRISPR/Cas系统蛋白)的域的融合蛋白可与gNA一起使用。来自核酸指导的核酸酶系统蛋白的域可包括复合指导核酸的域、靶核酸识别和结合域、核酸酶域和其他域。域可以来自核酸指导的核酸酶系统蛋白的不同变体,其包括但不限于催化活性变体、切口酶变体、催化死亡变体及其组合。融合蛋白中的其他结构域可来自包括限制酶的蛋白、其他内切核酸酶(例如FokI)、修饰DNA的酶(例如甲基转移酶)或标签(例如亲和素或荧光蛋白,例如GFP)。例如,用于与指导核酸复合并结合至靶核酸的核酸指导的核酸酶系统蛋白结构域可以与具有来自限制酶的切割核酸或使核酸产生切口的域的融合蛋白组合。在一些情况中,融合蛋白包含限制酶的催化域加上核酸指导的核酸酶域。在一些情况中,融合蛋白包含限制酶的催化域加上催化死亡的核酸指导的核酸酶域。例如,限制酶的催化域可以是FokI的催化域。核酸指导的核酸酶域可以是Cas9域,包括催化死亡的Cas9域。在一些情况中,融合蛋白包含限制酶的催化域加上核苷酸序列识别域。在一些情况中,融合蛋白包含限制酶域加上核酸指导的核酸酶域。限制酶域可以是缺乏功能性核苷酸序列识别域的突变体。例如,限制酶域可以是FokI,在一些情况下具有N13Y突变以使核苷酸序列识别域失活。在一些情况中,融合蛋白包含限制酶域和催化死亡的核酸指导的核酸酶域。在一些情况中,融合蛋白包含限制酶域和核苷酸序列识别域。核苷酸序列识别域可以例如来自限制酶或核酸指导的核酸酶。
在一些实施方案中,gNA对于消耗、分配或捕获样品中的靶序列(例如,宿主核酸)是有用的。例如,包含针对靶(例如宿主)核酸的导向序列的gNA与核酸指导的切口酶系统蛋白复合并用于使靶核酸产生切口。然后可以用标记的核苷酸,例如生物素化的核苷酸进行切口平移。通过切口平移产生的标记的核酸序列可用于结合靶序列,诸如具有链霉亲和素的核酸序列。此结合可用于捕获靶核酸。然后可以将捕获的靶核酸与未捕获的核酸分离。可进一步分析未捕获的核酸(例如,非宿主核酸),诸如通过测序分析。可替换地或另外地,也可进一步分析捕获的靶核酸。图12显示了此类方法的示例性示意图。在图12中,使包含人和非人核酸的样品与由人靶向的指导核酸(例如,gRNA)指导的核酸指导的核酸酶切口酶(例如,Cas9切口酶)接触。在有切口的位点,用标记的核苷酸(例如,生物素化的核苷酸)进行切口平移,并且可以使用标记(例如,在链霉亲和素底物上)捕获标记的(例如,生物素化的)核酸。然后可以例如通过测序或其他测定法(例如杂交,PCR)进一步分析剩余的非人核酸。
具有发夹环(例如,纳米孔测序衔接子)的核酸也可以被靶向以消耗。可以获得在核酸的一侧(例如,测序衔接子)上具有环的核酸的集合(例如,测序文库)。然后,可将第二环添加至核酸的另一侧,使核酸呈环状。第二环可包含已知的限制位点或特定的核酸指导的核酸酶位点。然后可以将环状核酸的集合与靶标特异性(例如,宿主特异性、人特异性)的核酸指导的核酸酶或切口酶接触。这些核酸指导的核酸酶或切口酶可切割核酸集合体的靶向成分或使其有切口,同时保留集合中的其他核酸完整。然后可以用外切核酸酶消化切割的或有切口的核酸,而完整的核酸保持未消化,由此从集合中消耗靶核酸。然后,可通过在限制位点或特定的核酸指导的核酸酶位点处的消化来去除第二环。然后可例如通过测序(例如,在纳米孔测序平台上测序)进一步分析未消耗的核酸(例如,非宿主核酸)。还可以设计衔接子,诸如第二环,使得形成的任何衔接子二聚体将在衔接子二聚体中产生已知位点(例如,限制酶切位点或特定的核酸指导的核酸酶位点),该位点可被适当的限制酶或核酸指导的核酸酶消化。也可采用此类方法用于不采用发夹衔接子的测序平台的测序文库,例如Illumina文库,例如通过在消化第二环后扩增文库。
在一些实施方案中,靶向消耗的核酸可包含人核糖核酸。在一些情况中,所有人核糖核酸均可被靶向用于消耗。
在一些实施方案中,靶向消耗的核酸包含在受试者中常见或普遍的核酸。例如,消耗的核酸可包含所有细胞类型共有的核酸,或在典型或健康细胞中更为丰富的核酸,包括但不限于与免疫系统因子相关的核酸(例如,mRNA)。消耗后,待分析的剩余核酸可包含较不常见或较不普遍的核酸,诸如细胞类型特异性核酸。这些较不常见的核酸可以是细胞死亡的信号,包括一种或多种特定细胞类型的细胞死亡。此类信号可指示感染、癌症和其他疾病。在一些情况中,该信号是一种或多种特定组织中癌症相关的凋亡的信号。
在一些实施方案中,gNA对富集非宿主核酸的样品是有用的,包括:提供包含宿主核酸和非宿主核酸的样品;在核酸指导的核酸酶系统蛋白切割样品中的宿主核酸的条件下,使样品与多个复合物接触,所述复合物包含(i)本文提供的包含针对宿主核酸的导向序列的gNA集合;和(ii)核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白,由此消耗宿主核酸的样品,并允许富集非宿主核酸。
在一些实施方案中,gNA对连续消耗样品中的靶核酸的一种方法是有用的,所述方法包括:提供来自宿主的包含宿主核酸和非宿主核酸的生物样品,其中所述非宿主核酸包含来自至少一种已知非宿主生物体的核酸和来自未知非宿主生物体的核酸;提供多个复合物,所述复合物包含(i)针对宿主核酸的本文提供的gNA的集合;和(ii)核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白;使来自生物样品的核酸与被配置为与宿主核酸中的靶序列杂交的gNA-核酸指导的核酸酶系统蛋白复合物(例如,gRNA-CRISPR/Cas系统蛋白复合物)混合,其中至少一部分的复合物与宿主核酸中的靶序列杂交,并且其中至少一部分的宿主核酸被切割;使剩余的来自生物样品的核酸与被配置成与至少一种已知非宿主核酸中的靶序列杂交的gNA-核酸指导的核酸酶系统蛋白复合物混合,其中至少一部分的复合物与在至少一种非宿主核酸中的靶序列杂交,并且其中至少一部分的非宿主核酸被切割;并分离剩余的来自未知的非宿主生物体的核酸并且准备进一步分析。
在一些实施方案中,本文生成的gNA用来在细胞的群体中进行全基因组的或者靶向的功能筛选。在这样的实施方案中,以可以对整个基因组的序列或对基因组的特定区域实现gNA指导的核酸指导的核酸酶系统蛋白编辑的方式,可将体外转录的gNA(例如,gRNA)或编码gNA的载体的文库经由转染或本领域已知的其它实验室技术,连同核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白一起引入到细胞的群体中。在一个实施方案中,核酸指导的核酸酶系统蛋白可以作为DNA引入。在一个实施方案中,核酸指导的核酸酶系统蛋白可以作为mRNA导入。在一个实施方案中,核酸指导的核酸酶系统蛋白可以作为蛋白质引入。在一个示例性实施方案中,核酸指导的核酸酶系统蛋白是Cas9。在另一示例性实施方案中,核酸指导的核酸酶系统蛋白是Cpf1。
在一些实施方案中,本文生成的gNA用于选择性捕获和/或富集感兴趣的核酸序列。例如,在一些实施方案中,本文生成的gNA用于捕获靶核酸序列,包括:提供包含多个核酸的样品;并使样品与多个复合物接触,所述复合物包含(i)本文提供的gNA的集合;和(ii)核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白。一旦感兴趣的序列被捕获,它们可以被进一步连接以产生例如测序文库。
在一些实施方案中,本文生成的gNA用于在感兴趣的靶位点引入标记的核苷酸,包括:(a)提供包含多个核酸片段的样品;(b)使样品与多个复合物接触,所述复合物包含(i)本文提供的gNA的集合;和(ii)核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白-切口酶(例如,Cas9-切口酶),其中gNA与核酸片段中的感兴趣的靶位点互补,由此在感兴趣的靶位点处产生多个有切口的核酸片段;和(c)使多个有切口的核酸片段与能够在有切口的位点处开始核酸合成的酶以及标记的核苷酸接触,由此生成在感兴趣的靶位点中包含标记的核苷酸的多个核酸片段。
在一些实施方案中,本文生成的gNA用于捕获感兴趣的靶核酸序列,包括:(a)提供包含多个衔接子连接的核酸的样品,其中核酸在一端与第一衔接子连接并在另一端与第二衔接子连接;和(b)使样品与包含多个死亡的核酸指导的核酸酶-gNA复合物(例如,dCas9-gRNA复合物)的gNA的集合接触,其中死亡的核酸指导的核酸酶(例如,dCas9)与转座酶融合,其中gNA与核酸亚组中包含的靶位点互补,并且其中死亡的核酸指导的核酸酶-gNA转座酶复合物(例如,dCas9-gRNA转座酶复合物)负载有多个第三衔接子以生成多个核酸片段,所述核酸片段在一端包含第一或第二衔接子,在另一端包含第三衔接子。在一个实施方案中,该方法进一步包括使用第一或第二衔接子和第三衔接子特异性PCR扩增步骤(b)的产物。
在一些实施方案中,本文生成的gNA用于在细胞的群体中进行全基因组的或靶向的激活或抑制。在这样的实施方案中,以可在整个基因组的序列或基因组的特定区域上实现gNA-指导的催化死亡的核酸指导的核酸酶系统蛋白介导的激活或抑制的方式,可经由转染或本领域已知的其他实验室技术,将体外转录的gNA(例如,gRNA)或编码所述gNA的载体的文库连同与活化剂(activator)或抑制剂(suppressor)结构域融合的催化死亡的核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白一起(催化死亡的核酸指导的核酸酶系统蛋白-融合蛋白)引入到细胞的群体中。在一个实施方案中,催化死亡的核酸指导的核酸酶系统蛋白-融合蛋白可作为DNA引入。在一个实施方案中,催化死亡的核酸指导的核酸酶系统蛋白-融合蛋白可作为mRNA引入。在一个实施方案中,催化死亡的核酸指导的核酸酶系统蛋白-融合蛋白可作为蛋白质引入。在一些实施方案中,gNA的集合或编码gNA的核酸的集合展示出对多于一种核酸指导的核酸酶系统蛋白的特异性。在一个示例性实施方案中,催化死亡的核酸指导的核酸酶系统蛋白是dCas9。
在一些实施方案中,该集合包含编码对于Cas9和选自Cpf1、Cas3、Cas8a-c、Cas10、Cse1、Csyl、Csn2、Cas4、Csm2和Cm5的一个或多个CRISPR/Cas系统蛋白具有特异性的gRNA的gRNA或核酸。在一些实施方案中,所述集合包含编码gRNA的gRNA或核酸,所述gRNA对与不同荧光团融合的多种催化死亡CRISPR/Cas系统蛋白具有特异性,例如用于标记和/或可视化不同基因组或部分基因组,用于标记和/或可视化不同染色体区域,或用于标记和/或可视化病毒基因/基因组整合到基因组中。
在一些实施方案中,gNA(或编码gNA的核酸)的集合对不同的核酸指导的核酸酶(例如,CRISPR/Cas)系统蛋白具有特异性,并靶向不同的感兴趣的序列,例如来自不同物种的感兴趣的序列。例如,可首先使靶向来自第一物种的基因组的来自gNA的集合(或从编码这样的gNA的核酸的群体转录的gRNA的集合)的第一亚组的gNA与第一核酸指导的核酸酶系统蛋白成员(或工程改造的形式)混合;并且可以使靶向来自第一物种的基因组的来自gNA的集合(或从编码这样的gNA的核酸的群体转录的gRNA的集合)的第二亚组的gNA首与第二不同的核酸指导的核酸酶系统蛋白成员(或工程改造的形式)混合。在一个实施方案中,核酸指导的核酸酶系统蛋白可以是与不同荧光团融合的催化死亡的形式(例如dCas9),从而可以通过不同的荧光标记来标记不同的感兴趣的靶序列例如不同的物种基因组或一个物种的不同染色体。例如,可以通过不同的gRNA-靶向的dCas9-荧光团标记不同的染色体区域,用于可视化基因易位。例如,可以通过不同的gRNA靶向的dCas9-荧光团标记不同的病毒基因组,用于可视化不同病毒基因组整合到宿主基因组中。在另一个实施方案中,核酸指导的核酸酶系统蛋白可以是与激活域或抑制结构域融合的dCas9,从而使不同的感兴趣的靶序列,例如基因组的不同染色体可以被差异调控。在另一个实施方案中,核酸指导的核酸酶系统蛋白可以是融合可以被不同的抗体识别的不同蛋白结构域的dCas9,使得不同的感兴趣的靶序列,例如样品混合物中的不同DNA序列,可以被差异分离。
可以使用链转换方法制备RNA用于测序(例如,如cDNA)。图13显示了此类链转换方法的示例性示意图。RNA分子1301可以是聚腺苷酸化的1302,或另有指定的尾(例如,聚A尾)1303。包含衔接子的寡核苷酸(在此为“衔接子2”)1304可以例如经由寡核苷酸的聚T区与RNA尾杂交。然后可以使用逆转录1305来合成cDNA1306。可以例如通过使用MMLV作为逆转录酶将诸如聚C区1307的区添加至cDNA,这可以实现链转换。然后可以例如经由寡核苷酸的聚G区将链转换寡核苷酸1309与cDNA尾(例如,聚C尾)杂交。链转换寡核苷酸可包含衔接子(此处为“衔接子1”)。然后可以使用衔接子来扩增和/或指引1310双链cDNA测序文库。
衔接子可包含测序衔接子(例如,Illumina测序衔接子)。衔接子可以包含独特的分子标识符(UMI)序列。UMI序列可以包含每个原始RNA分子特有的序列(例如,随机序列)。这样可以定量RNA量,而无测序偏倚。衔接子可包含“条形码”序列。条形码序列可包含在来自特定来源(例如受试者、患者、环境样品、分隔物(例如,小滴、孔、珠子))的RNA分子之间共享的条形码序列。这样可以汇集测序信息用于后续分析,并且可以检测和消除交叉污染。衔接子可包含多个不同的序列,诸如每个RNA分子特有的UMI,在来自特定来源的RNA分子之间共享的条形码,以及测序衔接子。
可以根据本公开的方法进一步处理cDNA文库,诸如通过靶向消化或其他消耗处理。例如,来自宿主(例如,人)的cDNA可以被消化或以其他方式消耗,而来自非宿主(例如,传染剂)的cDNA可以保留。可以对cDNA测序或以其他方式分析(例如,杂交测定、扩增测定)。
gNA的集合,核酸指导的核酸酶或其复合物可排布在一个或多个表面上。表面上的排布可用于控制样品遇到gNA、核酸指导的核酸酶或其复合物的量、时间和/或顺序。例如,可以将gNA、核酸指导的核酸酶或其复合物结合到流入样品的通道的表面。在与接近通道末端结合的gNA、核酸指导的核酸酶或其复合物之前,将会遇到与更靠近通道起点的表面结合的gNA、核酸指导的核酸酶或其复合物。在一些情况中,此方法可用于使样品遇到靶向最常见的识别序列的gNA、核酸指导的核酸酶或其复合物,其可如本文所述设计和产生。在一些情况中,此方法可用于使样品以不同量或相对量遇到gNA、核酸指导的核酸酶或其复合物,例如与靶核酸中gNA的频数成比例。在一个实例中,与第二gNA核酸指导的核酸酶复合物相比,第一个gNA核酸指导的核酸酶复合物靶向的序列在靶基因组中出现频率是两倍,并且与表面结合的第二复合物的数目相比,与表面结合的第一复合物的数量是其两倍。
gNA的集合、核酸指导的核酸酶或其复合物可以与多种表面结合,包括但不限于阵列、流动池、通道、微流体通道、珠和其他底物。
无连接靶向测序
靶向测序可以在不连接衔接子的情况下进行。这可以实现对难于测序的样品(例如高度降解的样品)进行测序。除了主要包含短片段以外,高度降解的DNA通常还具有与其他分子的交联,使得测序文库所需的端对端扩增效率低或无法实现。另外地,现有方案可能需要通过连接衔接子将整个样品转换为DNA文库,随后进行耗时的富集和多次PCR扩增。
图14示例说明了将文库的生成和富集合并到单个工作流程中的方案,该方案可以更快且更有效地回收降解的DNA。首先,提取物中的DNA分子1401的3’端被修饰,所以它们是封闭的1403,且不会被任何聚合酶延伸。接下来,设计测序衔接子有尾引物1404以结合在感兴趣的位点1402(最常见的是SNP,但可以是小STR或其他位点)附近,并延伸超过感兴趣的位点至DNA片段的末端。在去除未使用的引物之后,添加末端转移酶,并且仅延伸的引物将被赋予尾1405,因为其他片段被封闭了。可以通过酶促(例如通过用外切核酸酶消化)或通过结合延伸物中掺入的标记核苷酸(例如生物素化核苷酸)来进行未使用引物的去除。该尾用于逆转具有另一含有衔接子的引物1406的引物,从而使DNA转换为文库1407准备用于扩增和测序。为了更高的灵敏度,可以通过在去除未延伸的引物之前循环第一个延伸步骤来添加线性扩增步骤。
引物还可并入条形码或独特的分子标识符序列,从而能够追踪靶位点的分布以获得定量信息,消除扩增错误并防止与其他样品的交叉污染。在2x 8聚体UMI的情况下,每个引物可能有超过40亿个组合(416),并且作为一个额外的度量标准,原始分子的3’断裂点是已知的,这使得多次遇到相同的组合是几乎不可能的。使用针对每个引物先前使用的UMI的数据库,可以监控先前处理过的样品中的污染物。重要的是,可在不保存可鉴别信息的情况下保存这些数据以保护隐私。
此类方案可用于法医或其他个体鉴定。例如,感兴趣的靶位点可在mtDNA和Y染色体位点中包含SNP和其他标志物用于分配母系和父系单倍体。可采用小STR或其他鉴定区。对于降解的样品,由于线粒体DNA的高拷贝数且特征明确的单倍体树,通常有利于观察线粒体DNA。
此类方案可以用于疾病诊断。例如,感兴趣的靶位点可包括生物分类学标志物,包括进化枝标志物。感兴趣的靶部位可包括疾病特征标志物,例如致病性、毒力、抗药性、菌株鉴定和其他标志物。
感兴趣的位点可用于确定受试者的身份。在一些情况中,可以使用状态一致性(IBS)或亲缘一致性(identity-by-decent,IBD)确定身份。在识别不同的族谱关系时,可以将关系定义为R=(k0,k1,k2),其中km与两个个体共享m个等位基因的基因组的部分匹配。表4具有通常与法医学相关的关系的期望值。这可以用贝叶斯术语表述为:
R=((IBD=k0|数据),(IBD=k1|数据,(/BD=k2|数据)。
将此与表4中的期望值组合,我们可以将似然比检验设置为:
Figure BDA0002380257730000731
通过利用以下渐近性质来获得显著性度量:
Figure BDA0002380257730000732
其中d是自由度。
表4.相关个体之间共享的预期的等位基因。
Figure BDA0002380257730000733
Figure BDA0002380257730000741
高通量测序可能够分析大量的降解/痕量法医样品,该样品对于当前基于STR的基因分型方法是不应验的。HTS生成的SNP数据还含有STR谱不包含的信息,包括可用于生成研究线索的血统和表型预测。这样,本文中公开的方法可以用作样品的补充,在样品中可以生成部分CODIS谱或不可生成CODIS谱,并且本文公开的方法可以在CODIS数据库中找不到匹配项的情况下,添加额外的数据用于研究线索。然而,为了使法证界过渡到HTS,它需要以最有效、最便宜和最有靶向性的方式来收集和分析SNP数据的工具。本文公开的方法通过将提取方法集中在较短的DNA片段上并将测序靶向到感兴趣的位点,随后使用以强大的统计分析为后盾的简化的信息学管线进行分析,可以提供测试高度降解的样品的可靠方法。
示例性的组合物
在一个实施方案中,本文提供了包含核酸片段、切口酶核酸指导的核酸酶-gNA复合物和标记的核苷酸的组合物。在一个示例性实施方案中,本文提供了包含核酸片段、切口酶Cas9-gRNA复合物和标记的核苷酸的组合物。在这样的实施方案中,所述核酸可以包含DNA。所述核苷酸可以是例如生物素标记的。所述核苷酸可以是抗体-缀合物对的一部分。
在一个实施方案中,本文提供了包含核酸片段和催化死亡的核酸指导的核酸酶-gNA复合物的组合物,其中所述催化死亡的核酸指导的核酸酶与转座酶融合。在一个示例性实施方案中,本文提供了包含DNA片段和dCas9-gRNA复合物的组合物,其中dCas9与转座酶融合。
在一个实施方案中,本文提供了包含含有甲基化核苷酸的核酸片段、切口酶核酸指导的核酸酶-gNA复合物和未甲基化的核苷酸的的组合物。在一个示例性实施方案中,本文提供了包含含有甲基化核苷酸的DNA片段、切口酶Cas9-gRNA复合物和未甲基化的核苷酸的组合物。
在一个实施方案中,本文提供了与核酸指导的-DNA内切核酸酶复合的gDNA。在示例性实施方案中,核酸指导的-DNA内切核酸酶是NgAgo。
在一个实施方案中,本文提供了与核酸指导的RNA内切核酸酶复合的gDNA。
在一个实施方案中,本文提供了与核酸指导的DNA内切核酸酶复合的gRNA。
在一个实施方案中,本文提供了与核酸指导的RNA内切核酸酶复合的gRNA。在一个实施方案中,核酸指导的RNA内切核酸酶包含C2c2。
在一个实施方案中,本文提供了通过本公开的方法产生或设计的gNA的集合。
试剂盒和制品
本申请提供了包含任何一个或多个本文所述的组合物(不限于衔接子、gNA(例如,gRNA)、gNA集合(例如,gRNA集合)、编码gNA集合的核酸分子等)的试剂盒。
在一个示例性实施方案中,试剂盒包含能够转录成gRNA文库的DNA分子的集合,其中gRNA靶向人类基因组或其他来源的DNA序列。
在一个实施方案中,试剂盒包含gNA的集合,其中gNA靶向人类基因组或其他来源的DNA序列。
在一些实施方案中,本文提供了包含任何如本文所述的编码gNA的核酸的集合的试剂盒。在一些实施方案中,本文提供了包含任何如本文所述的gNA的集合的试剂盒。
本申请还提供了用于进行如本文所述的制备gNA和编码gNA的核酸的集合的方法的所有必要的试剂和说明书。在一些实施方案中,本文提供了包含用于进行如本文所述的制备单个gNA和gNA的集合的方法的所有必要的试剂和说明书的试剂盒。
本文还提供了在将样品与本文产生的gNA集合接触之前和之后监测信息的计算机软件。在一个示例性实施方案中,该软件可以在提供gNA集合之前和之后计算并报告样品中非靶序列的丰度,以确保不发生脱靶靶向,并且其中该软件可以通过比较向样品提供gNA集合之前和之后的靶序列的丰度检查靶向的消耗/富集/捕获/分配/标记/调控/编辑的功效。
包括以下实施例用于示例说明的目的,并不意图限制本发明的范围。
列举的实施方案
可以通过参考以下列举的说明性实施方案来定义本发明:
1.一种制备核酸的集合的方法,其包括:(a)获得靶核酸,每个靶核酸包含核酸指导的核酸酶的PAM位点;(b)使第一引物与所述靶核酸的PAM位点杂交,其中所述第一引物包含(i)与所述PAM位点互补的MAP位点,(ii)与所述核酸指导的核酸酶的识别位点互补的互补识别位点,和(iii)与启动子位点互补的互补启动子位点;(c)使用所述靶核酸作为模板延伸所述第一引物,由此产生包含所述第一引物的序列和与所述靶核酸互补的序列的第一延伸产物;(d)使第二引物与所述第一延伸产物杂交;和(e)使用所述第一延伸产物作为模板延伸所述第二引物,由此产生包含所述PAM位点、所述识别位点和所述启动子位点的第二延伸产物。
2.根据实施方案1所述的方法,其中所述第二引物包含(i)所述核酸指导的核酸酶的PAM位点和(ii)随机序列。
3.根据实施方案2所述的方法,其中所述随机序列的长度介于约6个与约8个碱基之间。
4.根据实施方案1所述的方法,其中所述第一引物进一步包含限制酶的限制酶位点。
5.根据实施方案1所述的方法,进一步包括:(f)使衔接子与所述第二延伸产物连接,其中所述限制酶的限制酶位点;和(g)用所述限制酶切割所述第二延伸产物,使得从所述识别位点切割所述PAM位点和所述限制位点。
6.根据实施方案4或实施方案5所述的方法,其中所述限制酶包含MmeI、FokI或MlyI。
7.根据实施方案1所述的方法,其进一步包括去除未结合的第一引物或未结合的第二引物。
8.根据实施方案1所述的方法,其中延伸所述第一引物或延伸所述第二引物是用标记的核苷酸进行的。
9.根据实施方案8所述的方法,其中所述标记的核苷酸包含生物素化的核苷酸。
10.根据实施方案1所述的方法,其中所述识别位点的长度为约20个核苷酸。
11.根据实施方案1所述的方法,其中所述识别位点的长度为约15至约25个核苷酸。
12.根据实施方案1所述的方法,其中所述核酸指导的核酸酶包含Cas系统蛋白。
13.根据实施方案1所述的方法,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
14.根据实施方案1所述的方法,其中所述靶核酸包含基因组DNA或cDNA。
15.根据实施方案1所述的方法,其中所述靶核酸包含人DNA。
16.根据实施方案1所述的方法,其中所述靶核酸包含宿主DNA。
17.根据实施方案1所述的方法,其中所述靶核酸包含真核生物DNA。
18.根据实施方案1所述的方法,其中所述互补识别位点包含至少一个修饰的核酸键。
19.根据实施方案18所述的方法,其中所述修饰的核酸键选自锁核酸(LNA)、桥连核酸(BNA)、肽核酸(PNA)、拉链核酸(ZNA)、乙二醇核酸(GNA)、苏糖核酸(TNA)和硫代磷酸(PTO)。
20.根据实施方案1所述的方法,其进一步包括使用所述启动子位点转录所述第二延伸产物。
21.一种制备核酸的集合的方法,其包括:(a)获得靶核酸,每个靶核酸包含核酸指导的核酸酶的PAM位点;(b)使引物与所述靶核酸的PAM位点杂交,其中所述引物包含(i)与所述PAM位点互补的MAP位点,(ii)与所述核酸指导的核酸酶的识别位点互补的互补识别位点,和(iii)与启动子位点互补的互补启动子位点;(c)使用所述靶核酸作为模板延伸所述引物,由此产生包含所述PAM位点、所述识别位点和所述启动子位点的延伸产物;(d)使所述靶核酸产生切口;和(e)消化有切口的靶核酸。
22.根据实施方案21所述的方法,其进一步包括使所述延伸产物与包含所述核酸指导的核酸酶的茎环序列的核酸或其互补物连接。
23.根据实施方案21所述的方法,其进一步包括向所述延伸产物添加错列的双链茎环。
24.根据实施方案21所述的方法,其进一步包括使用所述启动子位点转录所述延伸产物。
25.根据实施方案21所述的方法,其进一步包括去除未结合的引物。
26.根据实施方案21所述的方法,其中延伸所述引物是用标记的核苷酸进行的。
27.根据实施方案26所述的方法,其中所述标记的核苷酸包含生物素化的核苷酸。
28.根据实施方案21所述的方法,其中所述互补识别位点的长度为约20个核苷酸。
29.根据实施方案21所述的方法,其中所述互补识别位点的长度为约15至约25个核苷酸。
30.根据实施方案21所述的方法,其中所述核酸指导的核酸酶包含Cas系统蛋白。
31.根据实施方案21所述的方法,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
32.根据实施方案21所述的方法,其中所述靶核酸包含基因组DNA或cDNA。
33.根据实施方案21所述的方法,其中所述靶核酸包含人DNA。
34.根据实施方案21所述的方法,其中所述靶核酸包含宿主DNA。
35.根据实施方案21所述的方法,其中所述靶核酸包含真核生物DNA。
36.根据实施方案21所述的方法,其中所述互补识别位点包含至少一个修饰的核酸键。
37.根据实施方案36所述的方法,其中所述修饰的核酸键选自锁核酸(LNA)、桥连核酸(BNA)、肽核酸(PNA)、拉链核酸(ZNA)、乙二醇核酸(GNA)、苏糖核酸(TNA)和硫代磷酸(PTO)。
38.一种制备核酸的集合的方法,其包括:(a)获得靶核酸,每个靶核酸包含核酸指导的核酸酶的PAM位点;(b)使第一环衔接子与所述靶核酸的两端连接,其中所述第一环衔接子包含启动子位点;(c)在所述PAM位点处切割靶核酸,由此产生DNA切割产物,每个DNA切割产物包含在第一端处的第一环衔接子之一和第二端处的PAM位点;(d)使第二环衔接子与所述切割产物的第二端连接,其中所述第二环衔接子包含与所述核酸指导的核酸酶的茎环序列互补的互补茎环序列;和(e)扩增所述切割产物,由此产生包含所述启动子位点、识别位点和所述茎环序列的扩增产物,其中所述识别位点包含与所述靶核酸之一中的PAM位点邻近的序列。
39.一种制备指导核酸的集合的方法,其包括:(a)获得靶核酸的序列读段;(b)将序列读段映射到至少一个参考序列;(c)测定所述序列读段的丰度值;(d)从所述序列读段中鉴定识别位点,其中所述识别位点与核酸指导的核酸酶的PAM位点邻近;和(e)基于所述丰度值分选所述识别位点。
40.根据实施方案39所述的方法,其进一步包括合成所述指导核酸的集合,其中所述指导核酸各自包含所述识别位点中的一个和所述核酸指导的核酸酶的茎环序列。
41.根据实施方案40所述的方法,其中所述指导核酸的集合包含具有前100个分选的识别位点、前1000个分选的识别位点或前10,000个分选的识别位点的指导核酸。
42.根据实施方案39所述的方法,其进一步包括过滤所述识别位点,使得所述识别位点在所述至少一个参考序列中彼此间隔至少100个碱基对、至少200个碱基对、至少500个碱基对或至少1000个碱基对。
43.根据实施方案39所述的方法,其中分选所述识别位点是通过分选所述序列读段进行的。
44.根据实施方案39所述的方法,其中所述识别位点包含约20个碱基。
45.根据实施方案39所述的方法,其中所述核酸指导的核酸酶包含Cas系统蛋白。
46.根据实施方案39所述的方法,其中所述核酸的靶位点位于所述PAM位点的5’,且其中所述识别位点是所述茎环序列的5’。
47.根据实施方案46所述的方法,其中所述PAM位点包含NGG或NAG。
48.根据实施方案47所述的方法,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
49.根据实施方案39所述的方法,其中所述核酸的靶位点位于所述PAM位点的3’,且其中所述识别位点是所述茎环序列的3’。
50.根据实施方案49所述的方法,其中所述PAM位点包含TTN、TCN或TGN。
51.根据实施方案50所述的方法,其中所述核酸指导的核酸酶包含Cpf1系统蛋白。
52.根据实施方案39所述的方法,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
53.根据实施方案39所述的方法,其中所述靶核酸包含基因组DNA或cDNA。
54.根据实施方案39所述的方法,其中所述靶核酸包含人DNA。
55.根据实施方案39所述的方法,其中所述靶核酸包含宿主DNA。
56.根据实施方案39所述的方法,其中所述靶核酸包含真核生物DNA。
57.根据实施方案39所述的方法,其进一步包括使所述指导核酸与基质结合。
58.根据实施方案57所述的方法,其中所述基质包含流动池、流体通道、微流体通道或珠。
59.一种制备指导核酸的集合的方法,其包括:(a)获得靶核酸的序列读段;(b)从所述序列读段中确定最常见的识别位点,其中识别位点与核酸指导的核酸酶的PAM位点邻近;(c)从所述序列读段中确定下一最常见的识别位点;和(d)重复步骤c直至条件被满足,其中所述条件选自(i)确定一定数目的识别位点,(ii)无法确定另外的识别位点,(iii)一定百分比的靶核酸被所述识别位点覆盖,和(iv)在所述识别位点处或在所述识别位点附近切割所述靶核酸产生低于一定大小的最大片段大小。
60.根据实施方案59所述的方法,其中所述一定数目的识别位点为至少约100个、至少约1000个或至少约10,000个。
61.根据实施方案59所述的方法,其中所述一定百分比为至少约10%、至少约30%、至少约50%、至少约70%、至少约90%、至少约95%或至少约99%。
62.根据实施方案59所述的方法,其中所述一定大小为至多约1000bp、至多约500bp、至多约200bp或至多约100bp。
63.根据实施方案59所述的方法,其进一步包括合成指导核酸的集合,其中所述指导核酸各自包含所述识别位点中的一个和所述核酸指导的核酸酶的茎环序列。
64.根据实施方案59所述的方法,其中所述识别位点包含约20个碱基。
65.根据实施方案59所述的方法,其中所述核酸指导的核酸酶包含Cas系统蛋白。
66.根据实施方案59所述的方法,其中所述核酸的靶位点位于所述PAM位点的5’,且其中所述识别位点是所述茎环序列的5’。
67.根据实施方案66所述的方法,其中所述PAM位点包含NGG或NAG。
68.根据实施方案67所述的方法,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
69.根据实施方案59所述的方法,其中所述核酸的靶位点位于所述PAM位点的3’,且其中所述识别位点是所述茎环序列的3’。
70.根据实施方案69所述的方法,其中所述PAM位点包含TTN、TCN或TGN。
71.根据实施方案70所述的方法,其中所述核酸指导的核酸酶包含Cpf1系统蛋白。
72.根据实施方案59所述的方法,其中所述靶核酸包含基因组DNA或cDNA。
73.根据实施方案59所述的方法,其中所述靶核酸包含人DNA。
74.根据实施方案59所述的方法,其中所述靶核酸包含宿主DNA。
75.根据实施方案59所述的方法,其中所述靶核酸包含真核生物DNA。
76.根据实施方案59所述的方法,其进一步包括所述指导核酸与基质结合。
77.根据实施方案76所述的方法,其中所述基质包含流动池、流体通道、微流体通道或珠。
78.一种包含指导核酸的集合的组合物,其中每个指导核酸包含识别位点和核酸指导的核酸酶的茎环序列,其中每个识别位点与与所述核酸指导的核酸酶的PAM位点邻近的靶核酸的靶位点互补,且其中与所述指导核酸的集合的识别位点互补的靶位点以小于约10,000个碱基对的平均间隔分布在所述靶核酸内。
79.根据实施方案78所述的组合物,其中所述平均间隔为小于约5,000个碱基对、小于约2,500个碱基对、小于约1,000个碱基对、小于约500个碱基对、小于约250个碱基对或小于约100个碱基对。
80.根据实施方案78所述的组合物,其中所述指导核酸的集合包含具有至少约100个不同识别位点、至少1,000个不同识别位点、至少10,000个不同识别位点、至少100,000个不同识别位点或至少1,000,000个不同识别位点的指导核酸。
81.根据实施方案78所述的组合物,其中所述识别位点包含约20个碱基。
82.根据实施方案78所述的组合物,其中所述核酸的靶位点位于所述PAM位点的5’,且其中所述识别位点是所述茎环序列的5’。
83.根据实施方案82所述的组合物,其中所述PAM位点包含NGG或NAG。
84.根据实施方案83所述的组合物,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
85.根据实施方案78所述的组合物,其中所述核酸的靶位点位于所述PAM位点的3’,且其中所述识别位点是所述茎环序列的3’。
86.根据实施方案85所述的组合物,其中所述PAM位点包含TTN、TCN或TGN。
87.根据实施方案86所述的组合物,其中所述核酸指导的核酸酶包含Cpfl系统蛋白。
88.根据实施方案78所述的组合物,其中所述靶核酸包含基因组DNA或cDNA。
89.根据实施方案78所述的组合物,其中所述靶核酸包含人DNA。
90.根据实施方案78所述的组合物,其中所述靶核酸包含宿主DNA。
91.根据实施方案78所述的组合物,其中所述靶核酸包含真核生物DNA。
92.根据实施方案78所述的组合物,其中所述指导核酸与基质结合。
93.根据实施方案92所述的组合物,其中所述基质包含流动池、流体通道、微流体通道或珠。
94.一种消耗靶核酸的方法,其包括:(a)获得包含靶核酸和非靶核酸的核酸;和(b)使所述靶核酸与与实施方案78-91中任一项所述的指导核酸的集合复合的核酸指导的核酸酶的复合物接触,使得所述靶核酸在所述靶位点处或靶位点附近被切割。
95.根据实施方案94所述的方法,其中所述非靶核酸包含免疫应答信号核酸。
96.根据实施方案94所述的方法,其中所述非靶核酸包含细胞凋亡信号核酸。
97.根据实施方案94所述的方法,其中所述非靶核酸包含癌症相关的细胞凋亡信号核酸。
98.根据实施方案94所述的方法,其中所述核酸指导的核酸酶的复合物与基质结合。
99.根据实施方案98所述的方法,其中所述基质包含流动池、流体通道、微流体通道或珠。
100.一种消耗靶核酸的方法,其包括:(a)获得包含靶核酸和非靶核酸的核酸;(b)使所述核酸与核酸指导的切口酶蛋白-gNA复合物接触,使得所述靶核酸在切口位点处产生切口,且其中所述gNA包含5’茎环序列和3’导向序列;(c)在所述切口位点处进行切口平移,其中所述切口平移是用标记的核苷酸进行的;(d)用所述标记的核苷酸捕获所述靶核酸;和(e)从所述非靶核酸中分离所述靶核酸。
101.根据实施方案100所述的方法,其中所述标记的核苷酸包含生物素化的核苷酸。
102.根据实施方案100所述的方法,其中所述靶核酸是通过结合基质来捕获的。
103.根据实施方案102所述的方法,其中所述基质包含流动池、流体通道、微流体通道或珠。
104.根据实施方案100所述的方法,其进一步包括分析所述非靶核酸。
105.根据实施方案104所述的方法,其中所述分析包括测序。
106.根据实施方案104所述的方法,其中所述分析包括杂交。
107.根据实施方案100所述的方法,其中所述靶核酸来自宿主,且所述非靶核酸来自非宿主。
108.根据实施方案107所述的方法,其中所述非宿主包含传染剂。
109.根据实施方案100所述的方法,其中所述核酸指导的切口酶蛋白包含Cpf1系统切口酶蛋白。
110.根据实施方案109所述的方法,其中所述Cpf1系统切口酶蛋白包含从弗朗西丝菌属(Francisella)或氨基酸球菌属(Acidaminococcus)分离或衍生的Cpf1系统蛋白。
111.根据实施方案100所述的方法,其中所述靶核酸包含基因组DNA或cDNA。
112.根据实施方案100所述的方法,其中所述靶核酸包含人DNA。
113.根据实施方案100所述的方法,其中所述靶核酸包含真核生物DNA。
114.一种消耗靶核酸的方法,其包括:(a)获得包含靶核酸和非靶核酸的核酸,其中所述核酸在第一端处包含发夹环;(b)使环衔接子与所述核酸的第二端杂交;(c)使所述核酸与核酸指导的切口酶蛋白接触,使得所述靶核酸是有切口的;和(d)消化有切口的靶核酸。
115.根据实施方案114所述的方法,其进一步包括切割所述非靶核酸的环衔接子。
116.根据实施方案115所述的方法,其中所述切割是在所述环衔接子的限制位点处进行的。
117.根据实施方案115所述的方法,其中所述切割是在所述环衔接子的核酸指导的核酸酶识别位点处进行的。
118.根据实施方案117所述的方法,其进一步包括分析所述非靶核酸。
119.根据实施方案118所述的方法,其中所述分析包括测序。
120.根据实施方案118所述的方法,其中所述分析包括杂交。
121.根据实施方案114所述的方法,其中所述消化是用外切核酸酶进行的。
122.根据实施方案114所述的方法,其中所述核酸指导的切口酶蛋白与基质结合。
123.根据实施方案122所述的方法,其中所述基质包含流动池、流体通道、微流体通道或珠。
124.一种制备测序文库的方法,其包括:(a)提供包含感兴趣的位点的DNA分子,该DNA分子是在经历了实施方案100-123中任一项所述的消耗方法或捕获方法之后所获得的;(b)封闭所述DNA分子的3’端,使得该3’端不能通过聚合酶被延伸;(c)使第一引物与所述DNA分子杂交;(d)延伸所述第一引物以产生延伸产物,该延伸产物包含所述第一引物的序列和所述感兴趣的位点的序列;(e)使第二引物与所述延伸产物杂交;和(f)使用所述第二引物来扩增所述延伸产物。
125.根据实施方案124所述的方法,其进一步包括,在使所述第二引物杂交之前,向所述延伸产物添加尾。
126.根据实施方案125所述的方法,其中所述第二引物与所述尾杂交。
127.根据实施方案124所述的方法,其进一步包括,在步骤d之后,重复步骤c和d。
128.根据实施方案124所述的方法,其进一步包括,在使第二引物杂交之前,去除未杂交的第一引物。
129.根据实施方案128所述的方法,其中所述去除包括消化。
130.根据实施方案129所述的方法,其中所述消化包括外切核酸酶消化。
131.根据实施方案128所述的方法,其中所述去除包括结合并入至所述延伸产物中的标记的核苷酸。
132.根据实施方案131所述的方法,其中所述标记的核苷酸包含生物素化的核苷酸。
133.根据实施方案124所述的方法,其中所述第一引物和/或所述第二引物包含测序衔接子序列。
134.根据实施方案124所述的方法,其中所述感兴趣的位点包含单核苷酸多态性(SNP)。
135.根据实施方案124所述的方法,其中所述感兴趣的位点包含短串联重复(STR)。
136.根据实施方案135所述的方法,其中所述STR是小STR。
137.一种制备测序文库的方法,其包括:(a)提供源自gNA消耗或捕获方法的RNA分子;(b)使第一杂交位点附着至所述RNA分子;(c)使第一寡核苷酸与所述第一杂交位点杂交;(d)使用所述第一寡核苷酸作为引物来反转录所述RNA分子的至少一部分,由此生成cDNA;(e)使第二寡核苷酸与所述cDNA的尾杂交;和(f)使用所述第二寡核苷酸和/或所述第一寡核苷酸作为引物来扩增所述cDNA。
138.根据实施方案137所述的方法,其中所述第一杂交位点包含尾。
139.根据实施方案137所述的方法,其中所述第一杂交位点包含聚A尾。
140.根据实施方案137所述的方法,其中所述第一寡核苷酸包含至少一个条形码序列。
141.根据实施方案137所述的方法,其中所述第二寡核苷酸包含至少一个条形码序列。
142.根据实施方案137所述的方法,其中所述第一寡核苷酸和/或所述第二寡核苷酸包含一个或多个选自下组的条形码序列:(i)指定RNA分子所独有的独特分子识别符序列,和(ii)在来自同一来源的RNA分子之间共享的来源条形码序列。
143.根据实施方案137所述的方法,其中所述第一寡核苷酸和/或所述第二寡核苷酸包含测序衔接子序列。
144.一种制备核酸的集合的方法,其包括:(a)用限制内切核酸酶消化DNA样品以产生DNA片段的集合;(b)用核酸酶处理所述DNA片段的集合;(c)使第一衔接子与所述DNA片段的集合连接以产生第一衔接子DNA片段的集合;其中编码所述第一衔接子的序列包含MmeI限制位点和FokI限制位点;且其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(d)首先用MmeI,其次用FokI消化所述第一衔接子DNA片段的集合以产生N20DNA片段的集合;和(e)使第二衔接子与所述N20 DNA片段的集合连接;其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接所述第二衔接子后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
145.根据实施方案144所述的方法,其中所述核酸酶包含绿豆(mung bean)核酸酶。
146.根据实施方案144所述的方法,其中所述限制内切核酸酶选自MseI、MluCI、HaeIII、AluI、DnpII和FatI。
147.根据实施方案144所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
148.根据实施方案144所述的方法,其中所述第一衔接子是双链DNA衔接子。
149.根据实施方案144所述的方法,其中所述第二衔接子是双链DNA衔接子。
150.根据实施方案144所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
151.根据实施方案150所述的方法,其中CRISPR/Cas系统是Cpf1系统蛋白。
152.根据实施方案144所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
153.根据实施方案144所述的方法,其中所述DNA样品包含人DNA。
154.根据实施方案144所述的方法,其中所述DNA样品包含宿主DNA。
155.根据实施方案144所述的方法,其中所述DNA样品包含真核生物DNA。
156.一种制备核酸的集合的方法,其包括:(a)用肌苷取代DNA样品中至少两个连续的腺苷;(b)用人烷基腺嘌呤DNA糖基化酶(hAAG)处理所述DNA样品;(c)用内切核酸酶处理所述DNA样品以产生DNA片段的集合;(d)在第一个连接步骤中使第一衔接子与所述DNA片段的集合连接以生成第一衔接子DNA片段的集合;其中所述第一衔接子包含双链DNA分子和在所述双链DNA分子的5′端处的5’NAA 3’的单链DNA突出端;其中所述第一衔接子包含MmeI位点和FokI位点;且其中在连接所述第一衔接子后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(e)首先用MmeI,其次用FokI消化第一衔接子连接的片段的集合以产生N20DNA片段的集合;和(f)在第二连接步骤中使第二衔接子与所述N20 DNA片段的集合连接;其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接所述第二衔接子后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
157.根据实施方案156所述的方法,其中所述内切核酸酶包含T7内切核酸酶I。
158.根据实施方案156所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
159.根据实施方案156所述的方法,其中所述第二衔接子是双链DNA衔接子。
160.根据实施方案156所述的方法,其中所述第一连接步骤是使用高温连接酶进行的。
161.根据实施方案156所述的方法,其中所述第二衔接子是双链DNA衔接子。
162.根据实施方案156所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
163.根据实施方案162所述的方法,其中所述CRISPR/Cas系统蛋白是Cpf1系统蛋白。
164.根据实施方案156所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
165.根据实施方案156所述的方法,其中所述DNA样品包含人DNA。
166.根据实施方案156所述的方法,其中所述DNA样品包含宿主DNA。
167.根据实施方案156所述的方法,其中所述DNA样品包含真核生物DNA。
168.一种制备核酸的集合的方法,其包括:(a)用尿嘧啶取代DNA样品中的至少一个胸腺嘧啶,以产生包含至少一个碱基对错配的DNA样品;(b)用至少一个DNA修复酶切除至少一个尿嘧啶,以产生具有至少一个碱基对的至少一个单链区的DNA样品;(c)用核酸酶处理所述DNA样品以产生DNA片段的集合;(d)在第一连接步骤中使所述DNA片段的集合与第一衔接子连接以产生第一衔接子DNA片段的集合;其中所述第一衔接子包含MmeI位点和FokI位点;其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(e)首先用MmeI,其次用FokI消化所述第一衔接子DNA片段的集合以产生N20 DNA片段的集合;和(f)在第二连接步骤中使第二衔接子与所述N20 DNA片段的集合连接;其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
169.根据实施方案168所述的方法,其进一步包括在(b)切除所述至少一个尿嘧啶后且在(c)用所述核酸酶处理之前,用磷酸酶处理所述DNA样品。
170.根据实施方案169所述的方法,其进一步包括向双链DNA区的3’端添加至少一个ddTTP,该双链DNA区的3’端是所述DNA样品中至少一个碱基对的至少一个单链区的5’。
171.根据实施方案168或169所述的方法,其中所述核酸酶包含绿豆核酸酶。
172.根据实施方案168-170中任一项所述的方法,其中所述至少一个DNA修复酶包含尿嘧啶DNA糖基化酶(UDG)和内切核酸酶VIII。
173.根据实施方案168所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
174.根据实施方案168所述的方法,其中所述第二衔接子是双链DNA衔接子。
175.根据实施方案168所述的方法,其中所述第一连接步骤是使用高温连接酶进行的。
176.根据实施方案168所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
177.根据实施方案176所述的方法,其中所述CRISPR/Cas系统蛋白是Cpf1系统蛋白。
178.根据实施方案169所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
179.根据实施方案168所述的方法,其中所述DNA样品包含人DNA。
180.根据实施方案168所述的方法,其中所述DNA样品包含宿主DNA。
181.根据实施方案168所述的方法,其中所述DNA样品包含真核生物DNA。
182.一种制备核酸的集合的方法,其包括:(a)随机片段化DNA样本以产生DNA片段的集合;(b)在第一连接步骤中使第一衔接子与所述DNA片段的集合连接;其中所述第一衔接子包含双链DNA分子和在所述双链DNA分子的5’端处的5’NAA 3’的单链DNA突出端;其中所述第一衔接子包含FokI位点和MmeI位点;且其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(c)首先用MmeI,其次用FokI消化第一衔接子连接的片段的集合以产生N20 DNA片段的集合;和(d)在第二连接步骤中使第二衔接子与所述N20 DNA片段的集合连接;其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
183.根据实施方案182所述的方法,其中所述DNA是用非特异性切口酶和内切核酸酶随机片段化的。
184.根据实施方案183所述的方法,其中所述内切核酸酶是T7内切核酸酶I。
185.根据实施方案182所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
186.根据实施方案182所述的方法,其中所述第二衔接子是双链DNA衔接子。
187.根据实施方案182所述的方法,其中所述第一连接步骤是使用高温连接酶进行的。
188.根据实施方案182所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
189.根据实施方案188所述的方法,其中所述CRISPR/Cas系统蛋白是Cpf1系统蛋白。
190.根据实施方案182所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
191.根据实施方案182所述的方法,其中所述DNA样品包含人DNA。
192.根据实施方案182所述的方法,其中所述DNA样品包含宿主DNA。
193.根据实施方案182所述的方法,其中所述DNA样品包含真核生物DNA。
194.一种制备核酸的集合的方法,其包括:(a)随机剪切DNA样品以产生DNA片段的集合;(b)用甲基化酶使所述DNA片段甲基化;(c)末端修复所述DNA片段的集合以产生平端化的DNA片段的集合;(d)在第一连接步骤中使第一衔接子与所述平端化的DNA片段的集合连接以产生第一衔接子DNA片段的集合;其中所述第一衔接子从5’至3’包含NtBstNBI限制位点、在所述第一衔接子的磷酸骨架中的经修饰的抗切割键和与PAM序列互补的序列;(e)用限制酶和NtBstNBI消化所述第一衔接子DNA片段;(f)在第二连接步骤中使第二衔接子与消化的第一衔接子DNA片段连接以产生第二衔接子DNA片段的集合;其中所述第二衔接子包含FokI位点和MmeI位点;且其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(g)首先用MmeI,其次用FokI消化第二衔接子连接的片段的集合以产生N20 DNA片段的集合;和(h)在第三连接反应中使第三衔接子与所述N20 DNA片段的集合连接;其中编码所述第三衔接子的序列包含编码启动子序列的序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
195.根据实施方案194所述的方法,其中所述随机剪切包含机械剪切、酶促的化学剪切。
196.根据实施方案194所述的方法,其中所述甲基化酶包含EcoGII DNA甲基转移酶。
197.根据实施方案194所述的方法,其中所述经修饰的抗切割键包含硫代磷酸键。
198.根据实施方案194所述的方法,其中所述PAM位点包含与Cpf1系统蛋白相容的PAM位点。
199.根据实施方案194所述的方法,其中所述PAM位点包含TTN,且所述限制酶包含MluCI或MseI。
200.根据实施方案194所述的方法,其中所述PAM位点包含TCN,且所述限制酶包含DpnII。
201.根据实施方案194所述的方法,其中所述PAM位点包含TGN,且所述限制酶包含FatI。
202.根据实施方案194所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
203.根据实施方案194所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
204.根据实施方案203所述的方法,其中CRISPR/Cas系统蛋白是Cpf1系统蛋白。
205.根据实施方案194所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
206.根据实施方案194所述的方法,其中所述DNA样品包含人DNA。
207.根据实施方案194所述的方法,其中所述DNA样品包含宿主DNA。
208.根据实施方案194所述的方法,其中所述DNA样品包含真核生物DNA。
209.一种制备核酸的集合的方法,其包括:(a)随机剪切DNA样品以产生DNA片段的集合;(b)末端修复所述DNA片段的集合以产生平端化的DNA片段;(c)在第一连接步骤中使第一衔接子与所述平端化的DNA片段连接以产生第一衔接子DNA片段的集合;其中所述第一衔接子从5’至3’包含Nt.BstNBI限制位点和与PAM序列互补的序列;(d)用Nt.BstNBI使所述第一衔接子DNA片段产生切口;(e)将所述第一衔接子DNA片段的顶部链从切口沿3’至5’方向降解到5’端;(f)在第二连接步骤中使第二衔接子与所降解的第一衔接子DNA片段连接以产生第二衔接子DNA片段的集合;其中所述第二衔接子在5’至3’方向上包含MlyI序列、与所述PAM序列互补的序列和所述PAM序列;(g)用MlyI消化所述第二衔接子片段;(h)在第三连接步骤中使第三衔接子与MlyI消化的第二衔接子连接的片段连接以产生第三衔接子DNA片段的集合;其中所述第三衔接子包含FokI位点和MmeI位点;且其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(i)首先用MmeI其次用FokI消化所述第三衔接子DNA片段的集合以产生N20 DNA片段的集合;和(j)在第四连接反应中使第四衔接子与所述N20 DNA片段的集合连接;其中编码所述第四衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
210.根据实施方案209所述的方法,其中所述第二衔接子是单链DNA分子。
211.根据实施方案209所述的方法,其中所述第三衔接子是双链DNA分子。
212.根据实施方案209所述的方法,其进一步包括在(f)的连接步骤之后且在MlyI消化(g)之前,PCR扩增第二衔接子DNA片段的集合。
213.根据实施方案209所述的方法,其中所述随机剪切包含机械剪切、酶促的化学剪切。
214.根据实施方案209所述的方法,其中外切核酸酶3降解(e)中的顶部链。
215.根据实施方案209所述的方法,其中所述第二连接步骤是用高温连接酶进行的。
216.根据实施方案209所述的方法,其中所述PAM位点包含与Cpf1系统蛋白相容的PAM位点。
217.根据实施方案209所述的方法,其中所述PAM位点包含TTN、TCN或TGN。
218.根据实施方案209所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
219.根据实施方案209所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
220.根据实施方案219所述的方法,其中CRISPR/Cas系统蛋白是Cpf1系统蛋白。
221.根据实施方案209所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
222.根据实施方案209所述的方法,其中所述DNA样品包含人DNA。
223.根据实施方案209所述的方法,其中所述DNA样品包含宿主DNA。
224.根据实施方案209所述的方法,其中所述DNA样品包含真核生物DNA。
225.一种制备核酸的集合的方法,其包括:(a)随机剪切DNA样品以产生DNA片段的集合;(b)在第一连接反应中使环状衔接子与所述DNA片段的集合连接以产生环状衔接子DNA片段的集合;其中所述环状衔接子包含与PAM序列互补的序列;(c)用甲基化酶使所述环状衔接子DNA片段的集合甲基化;(d)用外切核酸酶消化所述环状衔接子DNA片段的集合;(e)用限制酶消化所述环状衔接子DNA片段的集合;(f)在第二连接反应中使第二衔接子与所述环状衔接子DNA片段的集合连接,以产生第二衔接子DNA片段的集合;其中所述第二衔接子从5’至3’包含与PAM位点互补的序列、PAM位点和MlyI位点;(g)PCR扩增所述第二衔接子DNA片段的集合;其中PCR引物包含所述第二衔接子的序列或与所述第二衔接子的序列互补的序列以产生PCR扩增的第二衔接子DNA片段的集合;(h)用MlyI消化所述PCR扩增的第二衔接子DNA片段的集合;(i)在第三连接反应中使第三衔接子与所述PCR扩增的第二衔接子DNA片段的集合连接以产生第三衔接子DNA片段的集合;其中所述第三衔接子包含FokI位点和MmeI位点;且其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;(j)首先用MmeI,其次用FokI消化所述第三衔接子连接的片段的集合以产生N20 DNA片段的集合;和(k)在第四连接反应中使第四衔接子与所述N20 DNA片段的集合连接;其中编码所述第四衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
226.根据实施方案225所述的方法,其中所述随机剪切包含机械剪切、酶促的化学剪切。
227.根据实施方案225所述的方法,其中所述外切核酸酶包含λ外切核酸酶。
228.根据实施方案225所述的方法,其中所述甲基化酶包含EcoGII甲基转移酶。
229.根据实施方案225所述的方法,其中所述第二连接步骤包含高温连接酶。
230.根据实施方案225所述的方法,其中所述PAM位点包含与Cpf1系统蛋白相容的PAM位点。
231.根据实施方案225所述的方法,其中所述PAM位点包含TTN、TCN或TGN。
232.根据实施方案225所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
233.根据实施方案232所述的方法,其中CRISPR/Cas系统蛋白是Cpf1系统蛋白。
234.根据实施方案所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
235.根据实施方案225所述的方法,其中所述DNA样品包含人DNA。
236.根据实施方案225所述的方法,其中所述DNA样品包含宿主DNA。
237.根据实施方案225所述的方法,其中所述DNA样品包含真核生物DNA。
238.一种制备核酸的集合的方法,其包括:(a)随机剪切DNA样品以产生DNA片段的集合;(b)用T7外切核酸酶消化所述DNA片段的集合;(c)使衔接子退火至所述DNA片段的集合;其中所述衔接子从5’至3’包含5’磷酸、12碱基对随机序列、启动子序列、核酸指导的核酸酶系统蛋白结合序列、FokI限制位点、与FokI限制位点互补的序列、PAM序列和8碱基对随机序列;(d)使所述衔接子与所述DNA片段的集合连接以产生衔接子DNA片段的集合;(e)用DNA外切核酸酶处理所述衔接子DNA片段的集合;(f)使单链DNA退火至所述衔接子DNA片段的集合,该单链DNA包含与所述FokI位点的序列互补的序列和与FokI位点互补的序列;(g)用FokI消化以产生FokI消化的衔接子DNA片段的集合;且(h)用连接酶自环化FokI消化的衔接子DNA片段。
239.根据实施方案238所述的方法,其进一步包括PCR扩增。
240.根据实施方案239所述的方法,其中所述PCR扩增包含滚环PCR反应。
241.根据实施方案238所述的方法,其进一步包括使FokI消化的衔接子DNA片段线性化。
242.根据实施方案241所述的方法,其中所述FokI消化的衔接子DNA片段是用至少一个DNA修复酶线性化的。
243.根据实施方案242所述的方法,其中所述至少一个DNA修复酶包含尿嘧啶DNA糖基化酶(UDG)和内切核酸酶VIII。
244.根据实施方案242或243所述的方法,其进一步包括PCR扩增。
245.根据实施方案238所述的方法,其中所述PAM位点包含与Cpf1系统蛋白相容的PAM位点。
246.根据实施方案238所述的方法,其中所述PAM位点包含TTN、TCN或TGN。
247.根据实施方案238所述的方法,其中所述连接酶包含HiFidelity Taq连接酶。
248.根据实施方案238所述的方法,其中所述DNA外切核酸酶包含外切核酸酶1、外切核酸酶3,或其组合。
249.根据实施方案238所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
250.根据实施方案249所述的方法,其中所述CRISPR/Cas系统蛋白是Cpf1系统蛋白。
251.根据实施方案238所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
252.根据实施方案238所述的方法,其中所述DNA样品包含人DNA。
253.根据实施方案238所述的方法,其中所述DNA样品包含宿主DNA。
254.根据实施方案238所述的方法,其中所述DNA样品包含真核生物DNA。
实施例
实施例1:从T7启动子人类DNA文库构建gRNA文库
T7启动子文库构建
使用S2 Covaris超声波仪(Covaris)8个循环片段化人类基因组DNA(400ng),以产生长度为200-300bp的片段。使用NEBNext End Repair Module(NEB)修复片段化的DNA并且在25℃孵育30分钟,然后在75℃热失活20分钟。为制备T7启动子衔接子,寡核苷酸T7-1(5’GCCTCGAGC*T*A*ATACGACTCACTATAGAG3’,*表示硫代磷酸酯骨架连接)和T7-2(序列5’Phos-CTCTATAGTGAGTCGTATTA3’)以15μM混合,加热至98℃持续3分钟,然后缓慢冷却(0.1℃/分钟)至30℃。然后将T7启动子平端衔接子(总共15pmol)添加到平端化的人类基因组DNA片段,并且在25℃与Blunt/TA Ligase Master Mix(NEB)孵育30分钟(图1中的(2))。使用Hi-Fidelity 2X Master Mix(NEB)用2μM寡核苷酸T7-1进行10个循环的PCR(98℃20s,63℃20s,72℃35s)来扩增连接物。通过在琼脂糖凝胶电泳上运行小的等分试样来验证扩增。使用0.6X AxyPrep珠粒(Axygen)根据制造商的说明回收PCR扩增产物,并重悬于15μL的10mMTris-HCl pH 8中。也可使用除T7外的其他适当启动子位点。
DNA的消化
在37℃在10μL的NEB缓冲液2(50mM NaCl,10mM Tris-HCl pH 7.9,10mM MgCl2,100μg/mL BSA)中用0.1μL的Nt.CviPII(NEB)消化PCR扩增的T7启动子DNA(每次消化总共2μg)10分钟(图1中的(3)),然后在75℃热失活20分钟。向反应中添加另外的10μL的NEB缓冲液2和1μL的T7内切核酸酶I(NEB),并在37℃孵育20分钟(图1中的(4))。通过琼脂糖凝胶电泳验证DNA的酶消化。根据制造商的说明,通过添加0.6X AxyPrep珠粒(Axygen)来回收消化的DNA,并重悬于15μL的10mM Tris-HCl pH8中。
衔接子的连接和HGG的去除
然后在25℃使用T4 DNA聚合酶(NEB)使DNA平端化20分钟,随后在75℃热失活20分钟(图1中的(5))。
为了制备MlyI衔接子,将寡核苷酸MlyI-1(序列5’>3’,5’Phos-GGGACTCGGATCCCTATAGTGATACAAAGACGATGACGACAAGCG)和MlyI-2(序列5’>3’,TCACTATAGGGATCCGAGTCCC)以15μM混合,加热至98℃3分钟,然后缓慢冷却(0.1℃/分钟)至30℃。然后将MlyI衔接子(总共15pmol)添加到T4 DNA聚合酶平端化的DNA中,并在25℃用Blunt/TA Ligase Master Mix(NEB)孵育30分钟(图1中的(6))。将连接物在75℃热失活20分钟,然后用MlyI和XhoI(NEB)在37℃消化1小时,从而消除HGG基序(图1中的(7))。然后使用0.8X AxyPrep珠粒(Axygen)清洁消化物,并将DNA重悬于10μL的10mM Tris-Cl pH 8中。
为了制备StlgR衔接子,将寡核苷酸stlgR(序列5’>3’,5’Phos-GTTTTAGAGCTAGAAATAGCAAGTTAAAATAAGGCTAGTCCGTTATCAACTTGAAAAAGTGGCACCGAGTCGGTGCTTTTTTTGGATCCGATGC)和stlgRev(序列5’>3’,GGATCCAAAAAAAGCACCGACTCGGTGCCACTTTTTCAAGTTGATAACGGACTAGCCTTATTTTAACTTGCTATTTCTAGCTCTAAAAC)以15μM混合,加热至98℃3分钟,然后缓慢冷却(0.1℃/分钟)至60℃。将StlgR衔接子(总共5pmol)添加至去除HGG的DNA片段中,并在25℃与Blunt/TA Ligase Master Mix(NEB)孵育30分钟(图1中的(8))。然后,将连接物与Hi-Fidelity 2X Master Mix(NEB)使用2μM的寡核苷酸T7-1和gRU(序列5’>3’,AAAAAAAGCACCGACTCGGTG)孵育,并使用20个循环的PCR(98℃20秒,60℃20秒,72℃35秒)扩增。通过在琼脂糖凝胶电泳上运行小的等分试样来验证扩增。根据制造商的说明使用0.6XAxyPrep珠粒(Axygen)回收PCR扩增产物,并重悬于15μL的10mM Tris-HCl pH 8中。
体外转录
然后使用HiScribe T7体外转录试剂盒(NEB)将T7/gRU扩增的PCR产物文库用作体外转录的模板。根据制造商的说明,将500-1000ng的模板在37℃孵育过夜。为了将指导文库转录成gRNA,组合了以下体外转录反应混合物:10μL纯化的文库(~500ng),6.5μL的H2O,2.25μL的ATP,2.25μL的CTP,2.25μL的GTP,2.25μL的GTP,2.25μL的UTP,2.25μL的10X反应缓冲液(NEB)和2.25μL的T7 RNA聚合酶混合物。将反应物在37℃孵育24小时,然后使用RNA清除试剂盒(Life Technologies)纯化,用100μL的无RNA酶水洗脱,定量并储存在-20℃直至使用。
实施例2:从完整人类基因组DNA构建gRNA文库
DNA的消化
在37℃在40μL的NEB缓冲液2(50mM NaCl,10mM Tris-HCl pH 7.9,10mM MgCl2,100μg/mL BSA)中用0.1μL的Nt.CviPII(NEB)消化人类基因组DNA(图2中的(1);每次消化总共20μg)10分钟,然后在75℃热失活20分钟。将另外40μL的NEB缓冲液2和1μL的T7核酸内切酶I(NEB)添加到反应中,在37℃孵育20分钟(例如,图2中的(2))。通过琼脂糖凝胶电泳用小的等分试样验证基因组DNA的片段化。通过添加0.3X AxyPrep珠粒(Axygen)回收200-600bp的DNA片段,在25℃孵育5分钟,在磁性支架上捕获珠粒并将上清液转移至新管中。低于600bp的DNA片段不以该珠粒/DNA比例与珠粒结合并保留在上清液中。然后将0.7X AxyPrep珠粒(Axygen)添加到上清液中(这会结合所有长于200bp的DNA分子),允许其结合5分钟。在磁性支架上捕获珠粒并用80%乙醇洗涤两次,空气干燥。然后将DNA重新悬浮于15μL的10mMTris-HCl pH 8中。使用Qbit测定(Life Technologies)确定DNA浓度。
衔接子的连接
为了制备T7/MlyI衔接子,将寡核苷酸MlyI-1(序列5’>3’,5’Phos-GGGGGACTCGGATCCCTATAGTGATACAAAGACGATGACGACAAGCG)和T7-7(序列5’>3’,GCCTCGAGC*T*A*ATACGACTCACTATAGGGATCCAAGTCCC,*表示硫代磷酸酯骨架连接)以15μM混合,加热至98℃3分钟,然后缓慢冷却(0.1℃/分钟)至30℃。然后在25℃使用Blunt/TA Ligase Master Mix(NEB)将纯化的Nt.CviPII/T7内切核酸酶I消化的DNA(100ng)与15pmol的T7/MlyI衔接子连接30分钟(图2中的(3))。然后使用Hi-Fidelity 2X Master Mix(NEB),和2μM的两种寡核苷酸T7-17(GCCTCGAGC*T*A*ATACGACTCACTATAGGG*表示硫代磷酸酯骨架连接)和Flag(序列5’>3’,CGCTTGTCGTCATCGTCTTTGTA)通过10个循环的PCR(98℃20s,60℃20s,72℃35s)扩增连接物。PCR扩增增加了DNA的产量,并且鉴于我们使用的Y形衔接子的性质,总是导致T7启动子被添加到HGG位点的远端,并且MlyI位点被添加到HGG基序后(图2中的(4))。
然后在37℃用MlyI和XhoI(NEB)消化PCR产物1小时,并在75℃热失活20分钟(图2中的(5))。之后,在25℃使用Blunt/TA Ligase Master Mix(NEB)将5pmol的衔接子StlgR(在实施例1中)连接30分钟(图2中的(6))。然后使用Hi-Fidelity 2X Master Mix(NEB),2μM的寡核苷酸T7-7和gRU(在实施例1中)和20个PCR循环(98℃20秒,60℃20s,72℃35秒)扩增连接物。通过在琼脂糖凝胶电泳上运行小等分试样来验证扩增。使用0.6X AxyPrep珠粒(Axygen)根据制造商的说明回收PCR扩增产物,并重悬于15μL的10mM Tris-HCl pH 8中。
然后将样品用作实施例1中所述的体外转录反应的模板。
实施例3:用CviPII直接切割
在37℃用2单位的NtCviPII(New England Biolabs)消化30μg的人类基因组DNA 1小时,然后在75℃热失活20分钟。使用片段分析仪仪器(Advanced Analytical)验证片段的大小为200-1,000个碱基对。通过添加100单位的T4DNA聚合酶(New England Biolabs),100μM dNTP并在12℃孵育30分钟,将5’或3’突出末端(例如如图3所示)转化为平端。然后使用PCR清洁试剂盒(Zymo)回收DNA,并在20μL洗脱缓冲液中洗脱。然后将DNA与MlyI衔接子(参见例如实施例4)或BaeI/EcoP15I衔接子(参见例如实施例4)或BaeI/EcoP15I衔接子(参见例如实施例5)连接。
实施例4:MlyI衔接子的使用
通过在40μL水中合并2μmol的MlyI Ad1和MlyAd2来制备衔接子MlyI。通过在40μL水中合并2μmol寡核苷酸BsMm-Ad1和2μmol寡核苷酸BsMm-Ad2来制备衔接子BsaXI/MmeI。通过在100μL水中合并1.5μmolT7-Ad1和T7-Ad2寡核苷酸来制备T7衔接子。通过在100μL水中合并1.5μmol的gR-top和gR-bot寡核苷酸来制备茎环衔接子。在所有情况下,混合后在热循环仪中将衔接子加热至98℃3分钟,然后以1℃/分钟的冷却速率冷却至室温。也可使用除T7外的其他适当启动子位点。
然后在室温使用blunt/TA ligation master mix(New England Biolabs)将含有CCD平端的DNA(来自前面部分)连接至50pmol的衔接子MlyI 30分钟。然后通过以下步骤回收DNA:与0.6X Kapa SPRI珠粒(Kapa Biosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠粒5分钟,最后将DNA重悬浮于50μl缓冲液4(50mM乙酸钾,20mMTris-乙酸,10mM乙酸镁,100μg/mL BSA,pH7.9)中。这些步骤消除了小的(<100个核苷酸)DNA和MlyI衔接子二聚体。
然后通过添加20单位的MlyI(New England Biolabs)并在37℃孵育1小时消化纯化的DNA以消除源自衔接子的序列和CCD(和互补HGG)基序。通过以下步骤从消化物中回收DNA:与0.6X Kapa SPRI珠粒(Kapa Biosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠粒5分钟,最后将DNA重悬于30μL缓冲液4中。
然后在室温下使用blunt/TA ligation master mix(New England Biolabs)将纯化的DNA连接至50pmol的衔接子BsaXI/MmeI 30分钟。然后通过以下步骤回收DNA与0.6XKapa SPRI珠粒(Kapa Biosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠粒5分钟,最后将DNA重悬于50μl缓冲液4(50mM乙酸钾,20mM Tris-乙酸,10mM乙酸镁,100μg/mL BSA,pH7.9)中。然后在37℃通过添加20单位MmeI(New England Biolabs)和40pmol/μLSAM(S-腺苷甲硫氨酸)消化DNA 1小时,然后在75℃热失活20分钟。然后在室温下使用blunt/TA ligation master mix(New England Biolabs)将DNA连接至30pmol T7衔接子30分钟。然后使用PCR清洁试剂盒(Zymo)回收DNA并在20μL缓冲液4中洗脱,然后在37℃用20单位的BsaXI消化1小时。在室温下通过添加15pmol茎环衔接子并使用blunt/TAligation master mix(New England Biolabs)来添加指导RNA茎环序列30分钟。然后使用PCR清洁试剂盒(Zymo)回收DNA,在20μL洗脱缓冲液中洗脱,并使用HiFidelity 2X mastermix(New England Biolabs)进行PCR扩增。使用引物T7-Ad1和gRU(序列5’>3’AAAAAAGCACCGACTCGGTG)以下列设置(98℃3分钟;98℃20秒,60℃30秒,72℃20秒,30个循环)扩增。使用PCR清洁试剂盒清洁PCR扩增子并通过DNA测序验证,然后用作体外转录反应的模板以生成指导RNA。
实施例5:BaeI/EcoP15I衔接子的使用
通过在40μL水中合并2μmol的BE Ad1和BE Ad2来制备衔接子BaeI/Ecop15I。通过在100μL水中合并1.5μmol的T7-Ad3和T7-Ad4寡核苷酸来制备T7-E衔接子。在所有情况下,混合后在热循环仪中将衔接子加热至98℃3分钟,然后以1℃/分钟的冷却速率冷却至室温。也可使用除T7外的其他适当启动子位点。
表5.与BaeI/EcoP15I衔接子一起使用的寡核苷酸
Figure BDA0002380257730001011
然后在室温下使用blunt/TA ligation master mix(New England Biolabs)将含有CCD平端的DNA(来自前面部分)连接至50pmol的衔接子BaeI/EcoP15I30分钟。然后通过以下步骤回收DNA:与0.6X Kapa SPRI珠粒(Kapa Biosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠5分钟,最后将DNA重悬于50μl缓冲液4(50mM乙酸钾20mM Tris-乙酸,10mM乙酸镁,100μg/mL BSA,pH7.9)中。然后在37℃用20单位PmeI消化回收的DNA 30分钟;通过以下步骤回收DNA:与1.2X Kapa SPRI珠粒(Kapa Biosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠粒5分钟,最后将DNA重悬于50μL缓冲液4中。这些步骤消除了小的(<100个核苷酸)DNA和BaeI/EcoP15I衔接子多聚体。
然后通过在37℃添加20单位EcoP15I(New England Biolabs)和1mM ATP消化DNA1小时,随后在75℃热失活20分钟。然后在室温使用blunt/TAligation master mix(NewEngland Biolabs)将DNA与30pmol T7-E衔接子连接30分钟。然后使用PCR清洁试剂盒(Zymo)回收DNA,并在20μL缓冲液4中洗脱。
然后通过添加20单位的BaeI(New England Biolabs)、40pmol/μL SAM(S-腺苷甲硫氨酸)并在37℃孵育1小时消化纯化的DNA,以消除源自衔接子的序列和CCD(和互补HGG)基序。然后使用PCR清洁试剂盒(Zymo)回收DNA,并在20μL洗脱缓冲液中洗脱。
然后使用热稳定的5′AppDNA/RNA连接酶(New England Biolabs),通过添加在20μL ss连接缓冲液(10mM Bis-Tris-丙烷-HCl,10mM MgCl2,1mM DTT,2.5mM MnCl2,pH 7@25℃)中的20单位连接酶、20pmol stlgR寡核苷酸,并在65℃孵育1小时,将回收的DNA与stlgR寡核苷酸连接,随后在90℃热失活5分钟。然后使用HiFidelity 2X master mix(NewEngland Biolabs)PCR扩增DNA产物。使用引物T7-Ad3和gRU(序列5’>3’AAAAAAGCACCGACTCGGTG)以以下设置(98℃3分钟;98℃20秒,60℃30秒,72℃20秒,30个循环)扩增。使用PCR清洁试剂盒清洁PCR扩增子并通过DNA测序验证,然后用作体外转录反应的模板以生成指导RNA。
实施例6:FokI/MmeI衔接子的使用
通过在40μL水中稀释2μmol的circMF寡核苷酸来制备衔接子FokI/MmeI。通过在100μL水中合并1.5μmol的T7-Ad3和T7-Ad4寡核苷酸来制备T7-E衔接子。通过在100μL水中合并1.5μmol的N4UstlgR和MNA寡核苷酸来制备N4stlgR衔接子。在所有情况中,混合后,衔接子被加热至98℃,持续3min,然后在热循环仪中以1℃/min的冷却速率冷却至室温。也可使用除T7外的其他适当的启动子位点。
表6.与FokI/MmeI衔接子一起使用的寡核苷酸
Figure BDA0002380257730001021
然后在室温下使用blunt/TA ligation master mix(New England Biolabs)将含有CCD平端的DNA(来自前面部分)连接至50pmol的衔接子FokI/MmeI 20分钟。然后通过添加50ul补充有10单位MfeI和10单位λ核酸外切酶(New England Biolabs)的缓冲液4(50mM乙酸钾20mM Tris-乙酸盐、10mM乙酸镁,100μg/mL BSA,pH7.9)来终止反应,并在37℃下孵育30分钟。然后通过以下步骤回收DNA:与0.6X Kapa SPRI珠粒(Kapa Biosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠5分钟,最后将DNA重悬于50μL缓冲液4中。然后在37℃用20单位PmeI消化回收的DNA 30分钟;通过以下步骤回收DNA:与1.2XKapa SPRI珠粒(Kapa Biosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠粒5分钟,最后将DNA重悬于50μL缓冲液4中。这些步骤消除了非连接的DNA、非连接的FokI/MmeI衔接子、FokI/MmeI衔接子多聚体和部分连接的DNA。
然后通过在37℃添加20单位的MmeI(New England Biolabs)和0.05mM SAM(S-腺苷甲硫氨酸)消化DNA 45分钟,然后在75℃热灭活20分钟。然后在室温下使用平端/TA连接预混液(New England Biolabs)将DNA连接到30pmoles T7-E衔接子上30分钟。然后通过与1.6X Kapa SPRI磁珠(Kapa Biosystems)孵育5分钟,用磁力架捕获磁珠,用80%乙醇洗涤两次,风干磁珠5分钟并最终将DNA重悬于20μL缓冲液4中,由此回收DNA。
然后通过在37℃添加20单位FokI(New England Biolabs)并孵育来消化纯化的DNA1小时,以消除源自衔接子的序列和CCD(和互补HGG)基序。然后使用Quick ligation试剂盒(New England Biolabs)在室温下将DNA与10 pmol N4stlgR衔接子连接20min。然后在75℃使反应热失活20分钟。
然后用可去除尿嘧啶(U)残基的USER酶(New England Biolabs)处理连接的DNA以消除N4stlgR衔接子二聚体。然后通过以下步骤回收DNA:与1.6X Kapa SPRI珠粒(KapaBiosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠5分钟,最后将DNA重悬于20μL缓冲液4中。然后使用HiFidelity 2X master mix(New EnglandBiolabs)PCR扩增DNA产物。使用引物T7-Ad3和gRU(序列5’>3’AAAAAAGCACCGACTCGGTG)以以下设置(98℃3分钟;98℃20秒,60℃30秒,72℃20秒,30个循环)扩增。使用PCR清洁试剂盒清洁PCR扩增子并通过DNA测序验证,然后用作体外转录反应的模板以生成指导RNA。
实施例7:NEMDA方法(BaeI/EcoP15I)
使用50ng的人类基因组DNA进行NEMDA(切口内切核酸酶介导的DNA扩增)。在热循环仪中在100μL补充有0.3mM dNTP、40单位的Bst大片段DNA聚合酶和0.1单位的NtCviPII(New England Biolabs)的热聚合酶缓冲液(20mM Tris-HCl、10mM(NH4)2SO4、10mM KCl、6mMMgSO4、0.1%
Figure BDA0002380257730001041
X-100,pH 8.8)中在55℃孵育DNA进行45分钟,然后在65℃进行30分钟,最后在80℃进行20分钟。
然后用300μL的补充有200pmol的T7-RND8寡核苷酸(序列5’>3’gcctcgagctaatacgactcactatagagnnnnnnnn)的缓冲液4稀释DNA并在98℃煮沸10分钟,然后快速冷却至10℃持续5分钟。也可使用除T7外的其他适当的启动子位点。然后将反应物补充40单位的大肠杆菌(E.coli)DNA聚合酶I和0.1mM dNTP(New England Biolabs)并在室温下孵育20分钟,随后在75℃热失活20分钟。然后使用PCR清洁试剂盒(Zymo)回收DNA,并在30μL洗脱缓冲液中洗脱。
然后在室温使用blunt/TA ligation master mix(New England Biolabs)将DNA与50pmol衔接子BaeI/EcoP15I连接持续30分钟。然后通过以下步骤回收DNA:与0.6X KapaSPRI珠粒(Kapa Biosystems)5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠粒5分钟,最后将DNA重悬于50μl缓冲液4(50mM乙酸钾,20mM Tris-乙酸,10mM乙酸镁,100μg/mL BSA,pH7.9)中。然后在37℃用20单位PmeI消化回收的DNA30分钟;通过以下步骤回收DNA:与1.2X Kapa SPRI珠粒(Kapa Biosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠粒5分钟,最后将DNA重悬于50μL缓冲液4中。这些步骤消除了小的(<100个核苷酸)DNA和BaeI/EcoP15I衔接子多聚体。
然后通过添加20单位BaeI(New England Biolabs)、40pmol/μL SAM(S-腺苷甲硫氨酸)并在37℃孵育1小时消化纯化的DNA以消除源自衔接子的序列和CCD(和互补HGG)基序。然后使用PCR清洁试剂盒(Zymo)回收DNA,并在20μL洗脱缓冲液中洗脱。
然后使用热稳定的5′的AppDNA/RNA连接酶(New England Biolabs)通过在20μLss连接缓冲液(10mM Bis-Tris-丙烷-HCl、10mM MgCl2、1mM DTT、2.5mM MnCl2、pH 7@25℃)中添加20单位的连接酶、20pmol stlgR寡核苷酸并在65℃孵育1小时,将回收的DNA与stlgR寡核苷酸连接,然后在90℃热失活5分钟。然后使用HiFidelity 2X master mix(New EnglandBiolabs)PCR扩增D NA产物。使用以下设置(98℃3分钟;98℃20秒,60℃30秒,72℃20秒,30个循环)使用引物T7-Ad3(序列5’>3’gcctcgagctaatacgactcactatagag)和gRU(序列5’>3’AAAAAAGCACCGACTCGGTG)来扩增。使用PCR清洁试剂盒清洁PCR扩增子并通过DNA测序验证,然后用作体外转录反应的模板以生成指导RNA。
实施例8:NEMDA方法(FokI/MmeI)
使用50ng的人类基因组DNA进行NEMDA(切口内切核酸酶介导的DNA扩增)。在热循环仪中在100μL补充有0.3mM dNTP、40单位的Bst大片段DNA聚合酶和0.1单位的NtCviPII(New England Biolabs)的热聚合酶缓冲液(20mM Tris-HCl、10mM(NH4)2SO4、10mM KCl、6mMMgSO4、0.1%
Figure BDA0002380257730001051
X-100,pH 8.8)中在55℃孵育DNA进行45分钟,然后在65℃进行30分钟,最后在80℃进行20分钟。
然后用300μL的补充有200pmol的T7-RND8寡核苷酸(序列5’>3’gcctcgagctaatacgactcactatagagnnnnnnnn)的缓冲液4稀释DNA并在98℃煮沸10分钟,然后快速冷却至10℃持续5分钟。也可使用除T7外的其他适当的启动子位点。然后将反应物补充40单位的大肠杆菌(E.coli)DNA聚合酶I和0.1mM dNTP(New England Biolabs)并在室温下孵育20分钟,随后在75℃热失活20分钟。然后使用PCR清洁试剂盒(Zymo)回收DNA,并在30μL洗脱缓冲液中洗脱。
然后在室温下使用blunt/TA ligation master mix(New England Biolabs)将DNA与50pmol衔接子FokI/MmeI连接持续30分钟。然后通过添加50ul补充有10单位MfeI和10单位λ外切核酸酶(New England Biolabs)的缓冲液4(50mM乙酸钾20mM Tris-乙酸盐、10mM乙酸镁、100μg/mL BSA,pH 7.9)来终止反应,并在37℃下孵育30分钟。然后通过以下步骤回收DNA:与0.6X Kapa SPRI珠粒(Kapa Biosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠粒5分钟,最后将DNA重悬于50μL缓冲液4中。然后在37℃用20单位PmeI消化回收的DNA30分钟;通过以下步骤回收DNA:与1.2X Kapa SPRI珠粒(KapaBiosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠粒5分钟,最后将DNA重悬于50μL缓冲液4中。这些步骤消除了非连接的DNA、非连接的FokI/MmeI衔接子、FokI/MmeI衔接子多聚体和部分连接的DNA。
然后通过添加20单位FokI(New England Biolabs)并在37℃孵育1小时消化纯化的DNA以消除源自衔接子的序列和CCD(和互补HGG)基序。然后使用Quick ligation试剂盒(New England Biolabs)在室温下将DNA与10pmol N4stlgR衔接子连接20min。然后在75℃使反应热失活20分钟。
然后用可去除尿嘧啶(U)残基的USER酶(New England Biolabs)处理连接的DNA以消除N4stlgR衔接子二聚体。然后通过以下步骤回收DNA:与1.6X Kapa SPRI珠粒(KapaBiosystems)孵育5分钟,用磁力架捕获珠粒,用80%乙醇洗涤两次,空气干燥珠5分钟,最后将DNA重悬于20μL缓冲液4中。然后使用HiFidelity 2X master mix(New EnglandBiolabs)PCR扩增DNA产物。使用引物T7-Ad3(序列5’>3’gcctcgagctaatacgactcactatagag)和gRU(序列5’>3’AAAAAAGCACCGACTCGGTG)以以下设置(98℃3分钟;98℃20秒,60℃30秒,72℃20秒,30个循环)扩增。使用PCR清洁试剂盒清洁PCR扩增子并通过DNA测序验证,然后用作体外转录反应的模板以生成指导RNA。

Claims (254)

1.一种制备核酸的集合的方法,其包括:
a.获得靶核酸,每个靶核酸包含核酸指导的核酸酶的PAM位点;
b.使第一引物与所述靶核酸的PAM位点杂交,其中所述第一引物包含(i)与所述PAM位点互补的MAP位点,(ii)与所述核酸指导的核酸酶的识别位点互补的互补识别位点,和(iii)与启动子位点互补的互补启动子位点;
c.使用所述靶核酸作为模板延伸所述第一引物,由此产生包含所述第一引物的序列和与所述靶核酸互补的序列的第一延伸产物;
d.使第二引物与所述第一延伸产物杂交;和
e.使用所述第一延伸产物作为模板延伸所述第二引物,由此产生包含所述PAM位点、所述识别位点和所述启动子位点的第二延伸产物。
2.根据权利要求1所述的方法,其中所述第二引物包含(i)所述核酸指导的核酸酶的PAM位点和(ii)随机序列。
3.根据权利要求2所述的方法,其中所述随机序列的长度介于约6个与约8个碱基之间。
4.根据权利要求1所述的方法,其中所述第一引物进一步包含限制酶的限制酶位点。
5.根据权利要求1所述的方法,进一步包括:
f.使衔接子与所述第二延伸产物连接,其中所述衔接子包含限制酶的限制酶位点;和
g.用所述限制酶切割所述第二延伸产物,使得从所述识别位点切割所述PAM位点和所述限制位点。
6.根据权利要求4或权利要求5所述的方法,其中所述限制酶包含MmeI、FokI或MlyI。
7.根据权利要求1所述的方法,其进一步包括去除未结合的第一引物或未结合的第二引物。
8.根据权利要求1所述的方法,其中延伸所述第一引物或延伸所述第二引物是用标记的核苷酸进行的。
9.根据权利要求8所述的方法,其中所述标记的核苷酸包含生物素化的核苷酸。
10.根据权利要求1所述的方法,其中所述识别位点的长度为约20个核苷酸。
11.根据权利要求1所述的方法,其中所述识别位点的长度为约15至约25个核苷酸。
12.根据权利要求1所述的方法,其中所述核酸指导的核酸酶包含Cas系统蛋白。
13.根据权利要求1所述的方法,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
14.根据权利要求1所述的方法,其中所述靶核酸包含基因组DNA或cDNA。
15.根据权利要求1所述的方法,其中所述靶核酸包含人DNA。
16.根据权利要求1所述的方法,其中所述靶核酸包含宿主DNA。
17.根据权利要求1所述的方法,其中所述靶核酸包含真核生物DNA。
18.根据权利要求1所述的方法,其中所述互补识别位点包含至少一个修饰的核酸键。
19.根据权利要求18所述的方法,其中所述修饰的核酸键选自锁核酸(LNA)、桥连核酸(BNA)、肽核酸(PNA)、拉链核酸(ZNA)、乙二醇核酸(GNA)、苏糖核酸(TNA)和硫代磷酸(PTO)。
20.根据权利要求1所述的方法,其进一步包括使用所述启动子位点转录所述第二延伸产物。
21.一种制备核酸的集合的方法,其包括:
a.获得靶核酸,每个靶核酸包含核酸指导的核酸酶的PAM位点;
b.使引物与所述靶核酸的PAM位点杂交,其中所述引物包含(i)与所述PAM位点互补的MAP位点,(ii)与所述核酸指导的核酸酶的识别位点互补的互补识别位点,和(iii)与启动子位点互补的互补启动子位点;
c.使用所述靶核酸作为模板延伸所述引物,由此产生包含所述PAM位点、所述识别位点和所述启动子位点的延伸产物;
d.使所述靶核酸产生切口;和
e.消化有切口的靶核酸。
22.根据权利要求21所述的方法,其进一步包括使所述延伸产物与包含所述核酸指导的核酸酶的茎环序列的核酸或其互补物连接。
23.根据权利要求21所述的方法,其进一步包括向所述延伸产物添加错列的双链茎环。
24.根据权利要求21所述的方法,其进一步包括使用所述启动子位点转录所述延伸产物。
25.根据权利要求21所述的方法,其进一步包括去除未结合的引物。
26.根据权利要求21所述的方法,其中延伸所述引物是用标记的核苷酸进行的。
27.根据权利要求26所述的方法,其中所述标记的核苷酸包含生物素化的核苷酸。
28.根据权利要求21所述的方法,其中所述互补识别位点的长度为约20个核苷酸。
29.根据权利要求21所述的方法,其中所述互补识别位点的长度为约15至约25个核苷酸。
30.根据权利要求21所述的方法,其中所述核酸指导的核酸酶包含Cas系统蛋白。
31.根据权利要求21所述的方法,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
32.根据权利要求21所述的方法,其中所述靶核酸包含基因组DNA或cDNA。
33.根据权利要求21所述的方法,其中所述靶核酸包含人DNA。
34.根据权利要求21所述的方法,其中所述靶核酸包含宿主DNA。
35.根据权利要求21所述的方法,其中所述靶核酸包含真核生物DNA。
36.根据权利要求21所述的方法,其中所述互补识别位点包含至少一个修饰的核酸键。
37.根据权利要求36所述的方法,其中所述修饰的核酸键选自锁核酸(LNA)、桥连核酸(BNA)、肽核酸(PNA)、拉链核酸(ZNA)、乙二醇核酸(GNA)、苏糖核酸(TNA)和硫代磷酸(PTO)。
38.一种制备核酸的集合的方法,其包括:
a.获得靶核酸,每个靶核酸包含核酸指导的核酸酶的PAM位点;
b.使第一环衔接子与所述靶核酸的两端连接,其中所述第一环衔接子包含启动子位点;
c.在所述PAM位点处切割靶核酸,由此产生DNA切割产物,每个DNA切割产物包含在第一端处的第一环衔接子之一和第二端处的PAM位点;
d.使第二环衔接子与所述切割产物的第二端连接,其中所述第二环衔接子包含与所述核酸指导的核酸酶的茎环序列互补的互补茎环序列;和
e.扩增所述切割产物,由此产生包含所述启动子位点、识别位点和所述茎环序列的扩增产物,其中所述识别位点包含与所述靶核酸之一中的PAM位点邻近的序列。
39.一种制备指导核酸的集合的方法,其包括:
a.获得靶核酸的序列读段;
b.将序列读段映射到至少一个参考序列;
c.测定所述序列读段的丰度值;
d.从所述序列读段中鉴定识别位点,其中所述识别位点与核酸指导的核酸酶的PAM位点邻近;和
e.基于所述丰度值分选所述识别位点。
40.根据权利要求39所述的方法,其进一步包括合成所述指导核酸的集合,其中所述指导核酸各自包含所述识别位点中的一个和所述核酸指导的核酸酶的茎环序列。
41.根据权利要求40所述的方法,其中所述指导核酸的集合包含具有前100个分选的识别位点、前1000个分选的识别位点或前10,000个分选的识别位点的指导核酸。
42.根据权利要求39所述的方法,其进一步包括过滤所述识别位点,使得所述识别位点在所述至少一个参考序列中彼此间隔至少100个碱基对、至少200个碱基对、至少500个碱基对或至少1000个碱基对。
43.根据权利要求39所述的方法,其中分选所述识别位点是通过分选所述序列读段进行的。
44.根据权利要求39所述的方法,其中所述识别位点包含约20个碱基。
45.根据权利要求39所述的方法,其中所述核酸指导的核酸酶包含Cas系统蛋白。
46.根据权利要求39所述的方法,其中所述核酸的靶位点位于所述PAM位点的5’,且其中所述识别位点是所述茎环序列的5’。
47.根据权利要求46所述的方法,其中所述PAM位点包含NGG或NAG。
48.根据权利要求47所述的方法,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
49.根据权利要求39所述的方法,其中所述核酸的靶位点位于所述PAM位点的3’,且其中所述识别位点是所述茎环序列的3’。
50.根据权利要求49所述的方法,其中所述PAM位点包含TTN、TCN或TGN。
51.根据权利要求50所述的方法,其中所述核酸指导的核酸酶包含Cpf1系统蛋白。
52.根据权利要求39所述的方法,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
53.根据权利要求39所述的方法,其中所述靶核酸包含基因组DNA或cDNA。
54.根据权利要求39所述的方法,其中所述靶核酸包含人DNA。
55.根据权利要求39所述的方法,其中所述靶核酸包含宿主DNA。
56.根据权利要求39所述的方法,其中所述靶核酸包含真核生物DNA。
57.根据权利要求39所述的方法,其进一步包括使所述指导核酸与基质结合。
58.根据权利要求57所述的方法,其中所述基质包含流动池、流体通道、微流体通道或珠。
59.一种制备指导核酸的集合的方法,其包括:
a.获得靶核酸的序列读段;
b.从所述序列读段中确定最常见的识别位点,其中识别位点与核酸指导的核酸酶的PAM位点邻近;
c.从所述序列读段中确定下一最常见的识别位点;和
d.重复步骤c直至条件被满足,其中所述条件选自(i)确定一定数目的识别位点,(ii)无法确定另外的识别位点,(iii)一定百分比的靶核酸被所述识别位点覆盖,和(iv)在所述识别位点处或在所述识别位点附近切割所述靶核酸产生低于一定大小的最大片段大小。
60.根据权利要求59所述的方法,其中所述一定数目的识别位点为至少约100个、至少约1000个或至少约10,000个。
61.根据权利要求59所述的方法,其中所述一定百分比为至少约10%、至少约30%、至少约50%、至少约70%、至少约90%、至少约95%或至少约99%。
62.根据权利要求59所述的方法,其中所述一定大小为至多约1000bp、至多约500bp、至多约200bp或至多约100bp。
63.根据权利要求59所述的方法,其进一步包括合成指导核酸的集合,其中所述指导核酸各自包含所述识别位点中的一个和所述核酸指导的核酸酶的茎环序列。
64.根据权利要求59所述的方法,其中所述识别位点包含约20个碱基。
65.根据权利要求59所述的方法,其中所述核酸指导的核酸酶包含Cas系统蛋白。
66.根据权利要求59所述的方法,其中所述核酸的靶位点位于所述PAM位点的5’,且其中所述识别位点是所述茎环序列的5’。
67.根据权利要求66所述的方法,其中所述PAM位点包含NGG或NAG。
68.根据权利要求67所述的方法,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
69.根据权利要求59所述的方法,其中所述核酸的靶位点位于所述PAM位点的3’,且其中所述识别位点是所述茎环序列的3’。
70.根据权利要求69所述的方法,其中所述PAM位点包含TTN、TCN或TGN。
71.根据权利要求70所述的方法,其中所述核酸指导的核酸酶包含Cpf1系统蛋白。
72.根据权利要求59所述的方法,其中所述靶核酸包含基因组DNA或cDNA。
73.根据权利要求59所述的方法,其中所述靶核酸包含人DNA。
74.根据权利要求59所述的方法,其中所述靶核酸包含宿主DNA。
75.根据权利要求59所述的方法,其中所述靶核酸包含真核生物DNA。
76.根据权利要求59所述的方法,其进一步包括所述指导核酸与基质结合。
77.根据权利要求76所述的方法,其中所述基质包含流动池、流体通道、微流体通道或珠。
78.一种包含指导核酸的集合的组合物,
其中每个指导核酸包含识别位点和核酸指导的核酸酶的茎环序列,
其中每个识别位点与与所述核酸指导的核酸酶的PAM位点邻近的靶核酸的靶位点互补,且
其中与所述指导核酸的集合的识别位点互补的靶位点以小于约10,000个碱基对的平均间隔分布在所述靶核酸内。
79.根据权利要求78所述的组合物,其中所述平均间隔为小于约5,000个碱基对、小于约2,500个碱基对、小于约1,000个碱基对、小于约500个碱基对、小于约250个碱基对或小于约100个碱基对。
80.根据权利要求78所述的组合物,其中所述指导核酸的集合包含具有至少约100个不同识别位点、至少1,000个不同识别位点、至少10,000个不同识别位点、至少100,000个不同识别位点或至少1,000,000个不同识别位点的指导核酸。
81.根据权利要求78所述的组合物,其中所述识别位点包含约20个碱基。
82.根据权利要求78所述的组合物,其中所述核酸的靶位点位于所述PAM位点的5’,且其中所述识别位点是所述茎环序列的5’。
83.根据权利要求82所述的组合物,其中所述PAM位点包含NGG或NAG。
84.根据权利要求83所述的组合物,其中所述核酸指导的核酸酶包含Cas9系统蛋白。
85.根据权利要求78所述的组合物,其中所述核酸的靶位点位于所述PAM位点的3’,且其中所述识别位点是所述茎环序列的3’。
86.根据权利要求85所述的组合物,其中所述PAM位点包含TTN、TCN或TGN。
87.根据权利要求86所述的组合物,其中所述核酸指导的核酸酶包含Cpf1系统蛋白。
88.根据权利要求78所述的组合物,其中所述靶核酸包含基因组DNA或cDNA。
89.根据权利要求78所述的组合物,其中所述靶核酸包含人DNA。
90.根据权利要求78所述的组合物,其中所述靶核酸包含宿主DNA。
91.根据权利要求78所述的组合物,其中所述靶核酸包含真核生物DNA。
92.根据权利要求78所述的组合物,其中所述指导核酸与基质结合。
93.根据权利要求92所述的组合物,其中所述基质包含流动池、流体通道、微流体通道或珠。
94.一种消耗靶核酸的方法,其包括:
a.获得包含靶核酸和非靶核酸的核酸;和
b.使所述靶核酸与与权利要求78-91中任一项所述的指导核酸的集合复合的核酸指导的核酸酶的复合物接触,使得所述靶核酸在所述靶位点处或靶位点附近被切割。
95.根据权利要求94所述的方法,其中所述非靶核酸包含免疫应答信号核酸。
96.根据权利要求94所述的方法,其中所述非靶核酸包含细胞凋亡信号核酸。
97.根据权利要求94所述的方法,其中所述非靶核酸包含癌症相关的细胞凋亡信号核酸。
98.根据权利要求94所述的方法,其中所述核酸指导的核酸酶的复合物与基质结合。
99.根据权利要求98所述的方法,其中所述基质包含流动池、流体通道、微流体通道或珠。
100.一种消耗靶核酸的方法,其包括:
a.获得包含靶核酸和非靶核酸的核酸;
b.使所述核酸与核酸指导的切口酶蛋白-gNA复合物接触,使得所述靶核酸在切口位点处产生切口,且其中所述gNA包含5’茎环序列和3’导向序列;
c.在所述切口位点处进行切口平移,其中所述切口平移是用标记的核苷酸进行的;
d.用所述标记的核苷酸捕获所述靶核酸;和
e.从所述非靶核酸中分离所述靶核酸。
101.根据权利要求100所述的方法,其中所述标记的核苷酸包含生物素化的核苷酸。
102.根据权利要求100所述的方法,其中所述靶核酸是通过结合基质来捕获的。
103.根据权利要求102所述的方法,其中所述基质包含流动池、流体通道、微流体通道或珠。
104.根据权利要求100所述的方法,其进一步包括分析所述非靶核酸。
105.根据权利要求104所述的方法,其中所述分析包括测序。
106.根据权利要求104所述的方法,其中所述分析包括杂交。
107.根据权利要求100所述的方法,其中所述靶核酸来自宿主,且所述非靶核酸来自非宿主。
108.根据权利要求107所述的方法,其中所述非宿主包含传染剂。
109.根据权利要求100所述的方法,其中所述核酸指导的切口酶蛋白包含Cpf1系统切口酶蛋白。
110.根据权利要求109所述的方法,其中所述Cpf1系统切口酶蛋白包含从弗朗西丝菌属(Francisella)或氨基酸球菌属(Acidaminococcus)分离或衍生的Cpf1系统蛋白。
111.根据权利要求100所述的方法,其中所述靶核酸包含基因组DNA或cDNA。
112.根据权利要求100所述的方法,其中所述靶核酸包含人DNA。
113.根据权利要求100所述的方法,其中所述靶核酸包含真核生物DNA。
114.一种消耗靶核酸的方法,其包括:
a.获得包含靶核酸和非靶核酸的核酸,其中所述核酸在第一端处包含发夹环;
b.使环衔接子与所述核酸的第二端杂交;
c.使所述核酸与核酸指导的切口酶蛋白接触,使得所述靶核酸是有切口的;和
d.消化有切口的靶核酸。
115.根据权利要求114所述的方法,其进一步包括切割所述非靶核酸的环衔接子。
116.根据权利要求115所述的方法,其中所述切割是在所述环衔接子的限制位点处进行的。
117.根据权利要求115所述的方法,其中所述切割是在所述环衔接子的核酸指导的核酸酶识别位点处进行的。
118.根据权利要求117所述的方法,其进一步包括分析所述非靶核酸。
119.根据权利要求118所述的方法,其中所述分析包括测序。
120.根据权利要求118所述的方法,其中所述分析包括杂交。
121.根据权利要求114所述的方法,其中所述消化是用外切核酸酶进行的。
122.根据权利要求114所述的方法,其中所述核酸指导的切口酶蛋白与基质结合。
123.根据权利要求122所述的方法,其中所述基质包含流动池、流体通道、微流体通道或珠。
124.一种制备测序文库的方法,其包括:
a.提供包含感兴趣的位点的DNA分子,该DNA分子是在经历了权利要求100-123中任一项所述的消耗方法或捕获方法之后所获得的;
b.封闭所述DNA分子的3’端,使得该3’端不能通过聚合酶被延伸;
c.使第一引物与所述DNA分子杂交;
d.延伸所述第一引物以产生延伸产物,该延伸产物包含所述第一引物的序列和所述感兴趣的位点的序列;
e.使第二引物与所述延伸产物杂交;和
f.使用所述第二引物来扩增所述延伸产物。
125.根据权利要求124所述的方法,其进一步包括,在使所述第二引物杂交之前,向所述延伸产物添加尾。
126.根据权利要求125所述的方法,其中所述第二引物与所述尾杂交。
127.根据权利要求124所述的方法,其进一步包括,在步骤d之后,重复步骤c和d。
128.根据权利要求124所述的方法,其进一步包括,在使第二引物杂交之前,去除未杂交的第一引物。
129.根据权利要求128所述的方法,其中所述去除包括消化。
130.根据权利要求129所述的方法,其中所述消化包括外切核酸酶消化。
131.根据权利要求128所述的方法,其中所述去除包括结合并入至所述延伸产物中的标记的核苷酸。
132.根据权利要求131所述的方法,其中所述标记的核苷酸包含生物素化的核苷酸。
133.根据权利要求124所述的方法,其中所述第一引物和/或所述第二引物包含测序衔接子序列。
134.根据权利要求124所述的方法,其中所述感兴趣的位点包含单核苷酸多态性(SNP)。
135.根据权利要求124所述的方法,其中所述感兴趣的位点包含短串联重复(STR)。
136.根据权利要求135所述的方法,其中所述STR是小STR。
137.一种制备测序文库的方法,其包括:
a.提供源自gNA消耗或捕获方法的RNA分子;
b.使第一杂交位点附着至所述RNA分子;
c.使第一寡核苷酸与所述第一杂交位点杂交;
d.使用所述第一寡核苷酸作为引物来反转录所述RNA分子的至少一部分,由此生成cDNA;
e.使第二寡核苷酸与所述cDNA的尾杂交;和
f.使用所述第二寡核苷酸和/或所述第一寡核苷酸作为引物来扩增所述cDNA。
138.根据权利要求137所述的方法,其中所述第一杂交位点包含尾。
139.根据权利要求137所述的方法,其中所述第一杂交位点包含聚A尾。
140.根据权利要求137所述的方法,其中所述第一寡核苷酸包含至少一个条形码序列。
141.根据权利要求137所述的方法,其中所述第二寡核苷酸包含至少一个条形码序列。
142.根据权利要求137所述的方法,其中所述第一寡核苷酸和/或所述第二寡核苷酸包含一个或多个选自下组的条形码序列:(i)指定RNA分子所独有的独特分子识别符序列,和(ii)在来自同一来源的RNA分子之间共享的来源条形码序列。
143.根据权利要求137所述的方法,其中所述第一寡核苷酸和/或所述第二寡核苷酸包含测序衔接子序列。
144.一种制备核酸的集合的方法,其包括:
a.用限制内切核酸酶消化DNA样品以产生DNA片段的集合;
b.用核酸酶处理所述DNA片段的集合;
c.使第一衔接子与所述DNA片段的集合连接以产生第一衔接子DNA片段的集合;
其中编码所述第一衔接子的序列包含MmeI限制位点和FokI限制位点;且
其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;
d.首先用MmeI,其次用FokI消化所述第一衔接子DNA片段的集合以产生N20 DNA片段的集合;和
e.使第二衔接子与所述N20 DNA片段的集合连接;
其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且
其中在连接所述第二衔接子后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
145.根据权利要求144所述的方法,其中所述核酸酶包含绿豆(mung bean)核酸酶。
146.根据权利要求144所述的方法,其中所述限制内切核酸酶选自MseI、MluCI、HaeIII、AluI、DnpII和FatI。
147.根据权利要求144所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
148.根据权利要求144所述的方法,其中所述第一衔接子是双链DNA衔接子。
149.根据权利要求144所述的方法,其中所述第二衔接子是双链DNA衔接子。
150.根据权利要求144所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
151.根据权利要求150所述的方法,其中CRISPR/Cas系统是Cpf1系统蛋白。
152.根据权利要求144所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
153.根据权利要求144所述的方法,其中所述DNA样品包含人DNA。
154.根据权利要求144所述的方法,其中所述DNA样品包含宿主DNA。
155.根据权利要求144所述的方法,其中所述DNA样品包含真核生物DNA。
156.一种制备核酸的集合的方法,其包括:
a.用肌苷取代DNA样品中至少两个连续的腺苷;
b.用人烷基腺嘌呤DNA糖基化酶(hAAG)处理所述DNA样品;
c.用内切核酸酶处理所述DNA样品以产生DNA片段的集合;
d.在第一个连接步骤中使第一衔接子与所述DNA片段的集合连接以生成第一衔接子DNA片段的集合;
其中所述第一衔接子包含双链DNA分子和在所述双链DNA分子的5'端处的5’NAA 3’的单链DNA突出端;
其中所述第一衔接子包含MmeI位点和FokI位点;且
其中在连接所述第一衔接子后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;
e.首先用MmeI,其次用FokI消化第一衔接子连接的片段的集合以产生N20 DNA片段的集合;和
f.在第二连接步骤中使第二衔接子与所述N20 DNA片段的集合连接;
其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且
其中在连接所述第二衔接子后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
157.根据权利要求156所述的方法,其中所述内切核酸酶包含T7内切核酸酶I。
158.根据权利要求156所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
159.根据权利要求156所述的方法,其中所述第二衔接子是双链DNA衔接子。
160.根据权利要求156所述的方法,其中所述第一连接步骤是使用高温连接酶进行的。
161.根据权利要求156所述的方法,其中所述第二衔接子是双链DNA衔接子。
162.根据权利要求156所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
163.根据权利要求162所述的方法,其中所述CRISPR/Cas系统蛋白是Cpf1系统蛋白。
164.根据权利要求156所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
165.根据权利要求156所述的方法,其中所述DNA样品包含人DNA。
166.根据权利要求156所述的方法,其中所述DNA样品包含宿主DNA。
167.根据权利要求156所述的方法,其中所述DNA样品包含真核生物DNA。
168.一种制备核酸的集合的方法,其包括:
a.用尿嘧啶取代DNA样品中的至少一个胸腺嘧啶,以产生包含至少一个碱基对错配的DNA样品;
b.用至少一个DNA修复酶切除至少一个尿嘧啶,以产生具有至少一个碱基对的至少一个单链区的DNA样品;
c.用核酸酶处理所述DNA样品以产生DNA片段的集合;
d.在第一连接步骤中使所述DNA片段的集合与第一衔接子连接以产生第一衔接子DNA片段的集合;
其中所述第一衔接子包含MmeI位点和FokI位点;
其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;
e.首先用MmeI,其次用FokI消化所述第一衔接子DNA片段的集合以产生N20 DNA片段的集合;和
f.在第二连接步骤中使第二衔接子与所述N20 DNA片段的集合连接;
其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且
其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
169.根据权利要求168所述的方法,其进一步包括在(b)切除所述至少一个尿嘧啶后且在(c)用所述核酸酶处理之前,用磷酸酶处理所述DNA样品。
170.根据权利要求169所述的方法,其进一步包括向双链DNA区的3’端添加至少一个ddTTP,该双链DNA区的3’端是所述DNA样品中至少一个碱基对的至少一个单链区的5’。
171.根据权利要求168或169所述的方法,其中所述核酸酶包含绿豆核酸酶。
172.根据权利要求168-170中任一项所述的方法,其中所述至少一个DNA修复酶包含尿嘧啶DNA糖基化酶(UDG)和内切核酸酶VIII。
173.根据权利要求168所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
174.根据权利要求168所述的方法,其中所述第二衔接子是双链DNA衔接子。
175.根据权利要求168所述的方法,其中所述第一连接步骤是使用高温连接酶进行的。
176.根据权利要求168所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
177.根据权利要求176所述的方法,其中所述CRISPR/Cas系统蛋白是Cpf1系统蛋白。
178.根据权利要求169所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
179.根据权利要求168所述的方法,其中所述DNA样品包含人DNA。
180.根据权利要求168所述的方法,其中所述DNA样品包含宿主DNA。
181.根据权利要求168所述的方法,其中所述DNA样品包含真核生物DNA。
182.一种制备核酸的集合的方法,其包括:
a.随机片段化DNA样本以产生DNA片段的集合;
b.在第一连接步骤中使第一衔接子与所述DNA片段的集合连接;
其中所述第一衔接子包含双链DNA分子和在所述双链DNA分子的5’端处的5’NAA 3’的单链DNA突出端;
其中所述第一衔接子包含FokI位点和MmeI位点;且
其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;
c.首先用MmeI,其次用FokI消化第一衔接子连接的片段的集合以产生N20 DNA片段的集合;和
d.在第二连接步骤中使第二衔接子与所述N20 DNA片段的集合连接;
其中编码所述第二衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且
其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
183.根据权利要求182所述的方法,其中所述DNA是用非特异性切口酶和内切核酸酶随机片段化的。
184.根据权利要求183所述的方法,其中所述内切核酸酶是T7内切核酸酶I。
185.根据权利要求182所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
186.根据权利要求182所述的方法,其中所述第二衔接子是双链DNA衔接子。
187.根据权利要求182所述的方法,其中所述第一连接步骤是使用高温连接酶进行的。
188.根据权利要求182所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
189.根据权利要求188所述的方法,其中所述CRISPR/Cas系统蛋白是Cpf1系统蛋白。
190.根据权利要求182所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
191.根据权利要求182所述的方法,其中所述DNA样品包含人DNA。
192.根据权利要求182所述的方法,其中所述DNA样品包含宿主DNA。
193.根据权利要求182所述的方法,其中所述DNA样品包含真核生物DNA。
194.一种制备核酸的集合的方法,其包括:
a.随机剪切DNA样品以产生DNA片段的集合;
b.用甲基化酶使所述DNA片段甲基化;
c.末端修复所述DNA片段的集合以产生平端化的DNA片段的集合;
d.在第一连接步骤中使第一衔接子与所述平端化的DNA片段的集合连接以产生第一衔接子DNA片段的集合;
其中所述第一衔接子从5’至3’包含NtBstNBI限制位点、在所述第一衔接子的磷酸骨架中的经修饰的抗切割键和与PAM序列互补的序列;
e.用限制酶和NtBstNBI消化所述第一衔接子DNA片段;
f.在第二连接步骤中使第二衔接子与消化的第一衔接子DNA片段连接以产生第二衔接子DNA片段的集合;
其中所述第二衔接子包含FokI位点和MmeI位点;且
其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;
g.首先用MmeI,其次用FokI消化第二衔接子连接的片段的集合以产生N20 DNA片段的集合;和
h.在第三连接反应中使第三衔接子与所述N20 DNA片段的集合连接;
其中编码所述第三衔接子的序列包含编码启动子序列的序列和核酸指导的核酸酶系统蛋白结合序列;且
其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
195.根据权利要求194所述的方法,其中所述随机剪切包含机械剪切、酶促的化学剪切。
196.根据权利要求194所述的方法,其中所述甲基化酶包含EcoGIIDNA甲基转移酶。
197.根据权利要求194所述的方法,其中所述经修饰的抗切割键包含硫代磷酸键。
198.根据权利要求194所述的方法,其中所述PAM位点包含与Cpf1系统蛋白相容的PAM位点。
199.根据权利要求194所述的方法,其中所述PAM位点包含TTN,且所述限制酶包含MluCI或MseI。
200.根据权利要求194所述的方法,其中所述PAM位点包含TCN,且所述限制酶包含DpnII。
201.根据权利要求194所述的方法,其中所述PAM位点包含TGN,且所述限制酶包含FatI。
202.根据权利要求194所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
203.根据权利要求194所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
204.根据权利要求203所述的方法,其中CRISPR/Cas系统蛋白是Cpf1系统蛋白。
205.根据权利要求194所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
206.根据权利要求194所述的方法,其中所述DNA样品包含人DNA。
207.根据权利要求194所述的方法,其中所述DNA样品包含宿主DNA。
208.根据权利要求194所述的方法,其中所述DNA样品包含真核生物DNA。
209.一种制备核酸的集合的方法,其包括:
a.随机剪切DNA样品以产生DNA片段的集合;
b.末端修复所述DNA片段的集合以产生平端化的DNA片段;
c.在第一连接步骤中使第一衔接子与所述平端化的DNA片段连接以产生第一衔接子DNA片段的集合;
其中所述第一衔接子从5’至3’包含Nt.BstNBI限制位点和与PAM序列互补的序列;
d.用Nt.BstNBI使所述第一衔接子DNA片段产生切口;
e.将所述第一衔接子DNA片段的顶部链从切口沿3’至5’方向降解到5’端;
f.在第二连接步骤中使第二衔接子与所降解的第一衔接子DNA片段连接以产生第二衔接子DNA片段的集合;
其中所述第二衔接子在5’至3’方向上包含MlyI序列、与所述PAM序列互补的序列和所述PAM序列;
g.用MlyI消化所述第二衔接子片段;
h.在第三连接步骤中使第三衔接子与MlyI消化的第二衔接子连接的片段连接以产生第三衔接子DNA片段的集合;
其中所述第三衔接子包含FokI位点和MmeI位点;且
其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;
i.首先用MmeI其次用FokI消化所述第三衔接子DNA片段的集合以产生N20 DNA片段的集合;和
j.在第四连接反应中使第四衔接子与所述N20 DNA片段的集合连接;
其中编码所述第四衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且
其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
210.根据权利要求209所述的方法,其中所述第二衔接子是单链DNA分子。
211.根据权利要求209所述的方法,其中所述第三衔接子是双链DNA分子。
212.根据权利要求209所述的方法,其进一步包括在(f)的连接步骤之后且在MlyI消化(g)之前,PCR扩增第二衔接子DNA片段的集合。
213.根据权利要求209所述的方法,其中所述随机剪切包含机械剪切、酶促的化学剪切。
214.根据权利要求209所述的方法,其中外切核酸酶3降解(e)中的顶部链。
215.根据权利要求209所述的方法,其中所述第二连接步骤是用高温连接酶进行的。
216.根据权利要求209所述的方法,其中所述PAM位点包含与Cpf1系统蛋白相容的PAM位点。
217.根据权利要求209所述的方法,其中所述PAM位点包含TTN、TCN或TGN。
218.根据权利要求209所述的方法,其中所述启动子序列选自T7启动子序列、SP6启动子序列和T3启动子序列。
219.根据权利要求209所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
220.根据权利要求219所述的方法,其中CRISPR/Cas系统蛋白是Cpf1系统蛋白。
221.根据权利要求209所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
222.根据权利要求209所述的方法,其中所述DNA样品包含人DNA。
223.根据权利要求209所述的方法,其中所述DNA样品包含宿主DNA。
224.根据权利要求209所述的方法,其中所述DNA样品包含真核生物DNA。
225.一种制备核酸的集合的方法,其包括:
a.随机剪切DNA样品以产生DNA片段的集合;
b.在第一连接反应中使环状衔接子与所述DNA片段的集合连接以产生环状衔接子DNA片段的集合;
其中所述环状衔接子包含与PAM序列互补的序列;
c.用甲基化酶使所述环状衔接子DNA片段的集合甲基化;
d.用外切核酸酶消化所述环状衔接子DNA片段的集合;
e.用限制酶消化所述环状衔接子DNA片段的集合;
f.在第二连接反应中使第二衔接子与所述环状衔接子DNA片段的集合连接,以产生第二衔接子DNA片段的集合;
其中所述第二衔接子从5’至3’包含与PAM位点互补的序列、PAM位点和MlyI位点;
g.PCR扩增所述第二衔接子DNA片段的集合;
其中PCR引物包含所述第二衔接子的序列或与所述第二衔接子的序列互补的序列以产生PCR扩增的第二衔接子DNA片段的集合;
h.用MlyI消化所述PCR扩增的第二衔接子DNA片段的集合;
i.在第三连接反应中使第三衔接子与所述PCR扩增的第二衔接子DNA片段的集合连接以产生第三衔接子DNA片段的集合;
其中所述第三衔接子包含FokI位点和MmeI位点;且
其中在连接后,所述MmeI位点位于所述FokI位点和所述DNA片段之间;
j.首先用MmeI,其次用FokI消化所述第三衔接子连接的片段的集合以产生N20 DNA片段的集合;和
k.在第四连接反应中使第四衔接子与所述N20 DNA片段的集合连接;
其中编码所述第四衔接子的序列包含启动子序列和核酸指导的核酸酶系统蛋白结合序列;且
其中在连接后,所述核酸指导的核酸酶系统蛋白结合序列位于所述N20序列和所述启动子之间。
226.根据权利要求225所述的方法,其中所述随机剪切包含机械剪切、酶促的化学剪切。
227.根据权利要求225所述的方法,其中所述外切核酸酶包含λ外切核酸酶。
228.根据权利要求225所述的方法,其中所述甲基化酶包含EcoGII甲基转移酶。
229.根据权利要求225所述的方法,其中所述第二连接步骤包含高温连接酶。
230.根据权利要求225所述的方法,其中所述PAM位点包含与Cpf1系统蛋白相容的PAM位点。
231.根据权利要求225所述的方法,其中所述PAM位点包含TTN、TCN或TGN。
232.根据权利要求225所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
233.根据权利要求232所述的方法,其中CRISPR/Cas系统蛋白是Cpf1系统蛋白。
234.根据权利要求226所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
235.根据权利要求225所述的方法,其中所述DNA样品包含人DNA。
236.根据权利要求225所述的方法,其中所述DNA样品包含宿主DNA。
237.根据权利要求225所述的方法,其中所述DNA样品包含真核生物DNA。
238.一种制备核酸的集合的方法,其包括
a.随机剪切DNA样品以产生DNA片段的集合;
b.用T7外切核酸酶消化所述DNA片段的集合;
c.使衔接子退火至所述DNA片段的集合;
其中所述衔接子从5’至3’包含5’磷酸、12碱基对随机序列、启动子序列、核酸指导的核酸酶系统蛋白结合序列、FokI限制位点、与FokI限制位点互补的序列、PAM序列和8碱基对随机序列;
d.使所述衔接子与所述DNA片段的集合连接以产生衔接子DNA片段的集合;
e.用DNA外切核酸酶处理所述衔接子DNA片段的集合;
f.使单链DNA退火至所述衔接子DNA片段的集合,该单链DNA包含与所述FokI位点的序列互补的序列和与FokI位点互补的序列;
g.用FokI消化以产生FokI消化的衔接子DNA片段的集合;且
h.用连接酶自环化FokI消化的衔接子DNA片段。
239.根据权利要求238所述的方法,其进一步包括PCR扩增。
240.根据权利要求239所述的方法,其中所述PCR扩增包含滚环PCR反应。
241.根据权利要求238所述的方法,其进一步包括使FokI消化的衔接子DNA片段线性化。
242.根据权利要求241所述的方法,其中所述FokI消化的衔接子DNA片段是用至少一个DNA修复酶线性化的。
243.根据权利要求242所述的方法,其中所述至少一个DNA修复酶包含尿嘧啶DNA糖基化酶(UDG)和内切核酸酶VIII。
244.根据权利要求242或243所述的方法,其进一步包括PCR扩增。
245.根据权利要求238所述的方法,其中所述PAM位点包含与Cpf1系统蛋白相容的PAM位点。
246.根据权利要求238所述的方法,其中所述PAM位点包含TTN、TCN或TGN。
247.根据权利要求238所述的方法,其中所述连接酶包含HiFidelity Taq连接酶。
248.根据权利要求238所述的方法,其中所述DNA外切核酸酶包含外切核酸酶1、外切核酸酶3,或其组合。
249.根据权利要求238所述的方法,其中所述核酸指导的核酸酶系统蛋白结合序列与CRISPR/Cas系统蛋白相容。
250.根据权利要求249所述的方法,其中所述CRISPR/Cas系统蛋白是Cpf1系统蛋白。
251.根据权利要求238所述的方法,其中所述DNA样品包含基因组DNA或cDNA。
252.根据权利要求238所述的方法,其中所述DNA样品包含人DNA。
253.根据权利要求238所述的方法,其中所述DNA样品包含宿主DNA。
254.根据权利要求238所述的方法,其中所述DNA样品包含真核生物DNA。
CN201880051065.5A 2017-06-07 2018-06-07 指导核酸的产生和用途 Active CN111094565B (zh)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201762516619P 2017-06-07 2017-06-07
US62/516,619 2017-06-07
US201762548036P 2017-08-21 2017-08-21
US62/548,036 2017-08-21
PCT/US2018/036563 WO2018227025A1 (en) 2017-06-07 2018-06-07 Creation and use of guide nucleic acids

Publications (2)

Publication Number Publication Date
CN111094565A true CN111094565A (zh) 2020-05-01
CN111094565B CN111094565B (zh) 2024-02-06

Family

ID=64566018

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201880051065.5A Active CN111094565B (zh) 2017-06-07 2018-06-07 指导核酸的产生和用途

Country Status (7)

Country Link
US (1) US20200190508A1 (zh)
EP (1) EP3635114A4 (zh)
JP (1) JP7282692B2 (zh)
CN (1) CN111094565B (zh)
AU (1) AU2018279112A1 (zh)
CA (1) CA3065384A1 (zh)
WO (1) WO2018227025A1 (zh)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DK3386550T3 (da) 2015-12-07 2021-04-26 Arc Bio Llc Fremgangsmåder til fremstilling og anvendelse af guide nukleinsyrer
WO2020072990A1 (en) 2018-10-04 2020-04-09 Arc Bio, Llc Normalization controls for managing low sample inputs in next generation sequencing
CA3136228A1 (en) * 2019-04-09 2020-10-15 Arc Bio, Llc Compositions and methods for nucleotide modification-based depletion
WO2021142197A1 (en) * 2020-01-09 2021-07-15 Duke University Composistions and methods for crispr enabled dna synthesis
AU2021246531A1 (en) * 2020-04-02 2022-11-24 Altius Institute For Biomedical Sciences Methods, compositions, and kits for identifying regions of genomic DNA bound to a protein
WO2021257453A2 (en) * 2020-06-15 2021-12-23 The Broad Institute, Inc. Chimeric amplicon array sequencing
US20240076712A1 (en) * 2021-01-08 2024-03-07 Wuhan University Compositions and methods for instant nucleic acid detection
CN113462755B (zh) * 2021-05-06 2023-03-21 中国人民解放军陆军军医大学第一附属医院 一种用于短链非编码rna检测的模块化酶电路检测系统
CN114293264A (zh) * 2021-12-21 2022-04-08 翌圣生物科技(上海)股份有限公司 酶法靶序列随机sgRNA文库的制备方法
WO2023158739A2 (en) * 2022-02-17 2023-08-24 Claret Bioscience, Llc Methods and compositions for analyzing nucleic acid

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140030704A1 (en) * 2008-04-30 2014-01-30 Population Genetics Technologies Ltd Asymmetric Adapter Library Construction
US20150094212A1 (en) * 2013-10-01 2015-04-02 Life Technologies Corporation Systems and Methods for Detecting Structural Variants
WO2017031360A1 (en) * 2015-08-19 2017-02-23 Arc Bio, Llc Capture of nucleic acids using a nucleic acid-guided nuclease-based system
US20170121694A1 (en) * 2015-01-28 2017-05-04 Pioneer Hi-Bred International. Inc. Crispr hybrid dna/rna polynucleotides and methods of use
WO2017081097A1 (en) * 2015-11-09 2017-05-18 Ifom Fondazione Istituto Firc Di Oncologia Molecolare Crispr-cas sgrna library

Family Cites Families (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050233340A1 (en) 2004-04-20 2005-10-20 Barrett Michael T Methods and compositions for assessing CpG methylation
US8183359B2 (en) * 2007-03-01 2012-05-22 Gen-Probe Incorporated Kits for amplifying DNA
US8323930B2 (en) * 2007-07-28 2012-12-04 Dna Twopointo, Inc. Methods, compositions and kits for one-step DNA cloning using DNA topoisomerase
US11674135B2 (en) * 2012-07-13 2023-06-13 X-Chem, Inc. DNA-encoded libraries having encoding oligonucleotide linkages not readable by polymerases
ES2786193T3 (es) * 2012-12-12 2020-10-09 Broad Inst Inc Modificación por tecnología genética y optimización de sistemas, métodos y composiciones enzimáticas mejorados para la manipulación de secuencias
WO2014165549A1 (en) * 2013-04-01 2014-10-09 University Of Florida Research Foundation, Incorporated Determination of methylation state and chromatin structure of target genetic loci
EP3004381A1 (en) * 2013-06-07 2016-04-13 Keygene N.V. Method for targeted sequencing
JP6656733B2 (ja) * 2013-08-05 2020-03-04 ツイスト バイオサイエンス コーポレーション 新規合成した遺伝子ライブラリ
JP2017534295A (ja) 2014-09-29 2017-11-24 ザ ジャクソン ラボラトリー エレクトロポレーションによる遺伝子改変哺乳動物の高効率ハイスループット生成
EP3218513B1 (en) * 2014-11-11 2018-10-31 Illumina, Inc. Polynucleotide amplification using crispr-cas systems
CN114438169A (zh) 2014-12-20 2022-05-06 阿克生物公司 使用CRISPR/Cas系统蛋白靶向消减、富集、和分割核酸的组合物及方法
WO2016130697A1 (en) * 2015-02-11 2016-08-18 Memorial Sloan Kettering Cancer Center Methods and kits for generating vectors that co-express multiple target molecules
CA2976786A1 (en) * 2015-02-17 2016-08-25 Complete Genomics, Inc. Dna sequencing using controlled strand displacement
US20160362680A1 (en) * 2015-05-15 2016-12-15 Nugen Technologies, Inc. Compositions and methods for negative selection of non-desired nucleic acid sequences
EP3334823B1 (en) * 2015-06-05 2024-05-22 The Regents of The University of California Method and kit for generating crispr/cas guide rnas
EP3359661A4 (en) * 2015-10-08 2019-05-15 President and Fellows of Harvard College MULTIPLEXED GEMONEDITATION
DK3386550T3 (da) * 2015-12-07 2021-04-26 Arc Bio Llc Fremgangsmåder til fremstilling og anvendelse af guide nukleinsyrer
US20200255823A1 (en) * 2016-10-06 2020-08-13 Pioneer Biolabs, Llc Guide strand library construction and methods of use thereof

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140030704A1 (en) * 2008-04-30 2014-01-30 Population Genetics Technologies Ltd Asymmetric Adapter Library Construction
US20150094212A1 (en) * 2013-10-01 2015-04-02 Life Technologies Corporation Systems and Methods for Detecting Structural Variants
US20170121694A1 (en) * 2015-01-28 2017-05-04 Pioneer Hi-Bred International. Inc. Crispr hybrid dna/rna polynucleotides and methods of use
WO2017031360A1 (en) * 2015-08-19 2017-02-23 Arc Bio, Llc Capture of nucleic acids using a nucleic acid-guided nuclease-based system
WO2017081097A1 (en) * 2015-11-09 2017-05-18 Ifom Fondazione Istituto Firc Di Oncologia Molecolare Crispr-cas sgrna library

Also Published As

Publication number Publication date
CN111094565B (zh) 2024-02-06
US20200190508A1 (en) 2020-06-18
AU2018279112A1 (en) 2019-12-19
EP3635114A4 (en) 2021-03-17
WO2018227025A1 (en) 2018-12-13
JP2020524491A (ja) 2020-08-20
CA3065384A1 (en) 2018-12-13
JP7282692B2 (ja) 2023-05-29
EP3635114A1 (en) 2020-04-15

Similar Documents

Publication Publication Date Title
CN109310784B (zh) 用于制备和使用指导核酸的方法和组合物
CN111094565B (zh) 指导核酸的产生和用途
US11692213B2 (en) Compositions and methods for targeted depletion, enrichment, and partitioning of nucleic acids using CRISPR/Cas system proteins
US20210198660A1 (en) Compositions and methods for making guide nucleic acids
US11820980B2 (en) Methods and compositions for preparing nucleic acid sequencing libraries
WO2020072990A1 (en) Normalization controls for managing low sample inputs in next generation sequencing
CN113825836A (zh) 用于基于核苷酸修饰的耗竭的组合物和方法
CA3195700A1 (en) Linked-read sequencing library preparation
US20230295606A1 (en) Ligation free methods of nucleic acid library preparation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant