CN113454233A - 使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法 - Google Patents

使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法 Download PDF

Info

Publication number
CN113454233A
CN113454233A CN201980092154.9A CN201980092154A CN113454233A CN 113454233 A CN113454233 A CN 113454233A CN 201980092154 A CN201980092154 A CN 201980092154A CN 113454233 A CN113454233 A CN 113454233A
Authority
CN
China
Prior art keywords
nucleic acid
site
grna
target region
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201980092154.9A
Other languages
English (en)
Other versions
CN113454233B (zh
Inventor
J·欧莱特
J·梅卢恩达
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
De Pixar
Original Assignee
De Pixar
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by De Pixar filed Critical De Pixar
Priority to CN202211226016.5A priority Critical patent/CN116064730A/zh
Publication of CN113454233A publication Critical patent/CN113454233A/zh
Application granted granted Critical
Publication of CN113454233B publication Critical patent/CN113454233B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • C12Q1/683Hybridisation assays for detection of mutation or polymorphism involving restriction enzymes, e.g. restriction fragment length polymorphism [RFLP]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/30Phosphoric diester hydrolysing, i.e. nuclease
    • C12Q2521/301Endonuclease
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2521/00Reaction characterised by the enzymatic activity
    • C12Q2521/30Phosphoric diester hydrolysing, i.e. nuclease
    • C12Q2521/319Exonuclease
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2537/00Reactions characterised by the reaction format or use of a specific feature
    • C12Q2537/10Reactions characterised by the reaction format or use of a specific feature the purpose or use of
    • C12Q2537/157A reaction step characterised by the number of molecules incorporated or released

Landscapes

  • Chemical & Material Sciences (AREA)
  • Organic Chemistry (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Analytical Chemistry (AREA)
  • Biophysics (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • Physics & Mathematics (AREA)
  • Genetics & Genomics (AREA)
  • Immunology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)
  • Enzymes And Modification Thereof (AREA)

Abstract

本发明涉及一种从核酸分子群中分离核酸靶区域的方法,所述方法包括以下步骤:a)使所述核酸分子群与2类V型Cas蛋白‑gRNA复合物接触,其中gRNA包含与邻近所述靶区域的第一位点互补的引导区段,从而形成2类V型Cas蛋白‑gRNA核酸复合物,b)使包含所述2类V型Cas蛋白‑gRNA核酸复合物的核酸分子群与至少一种具有单链3'至5'核酸外切酶活性的酶接触,从而在所述第一位点形成5'单链突出端,c)从步骤b)的群去除2类V型Cas蛋白‑gRNA复合物,d)使步骤c)的群与寡核苷酸探针接触,所述探针包含与所述突出端至少部分互补的序列,从而在所述探针和所述突出端之间形成双链体,和e)从步骤d)的核酸分子群中分离所述双链体,从而分离所述核酸靶区域。

Description

使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法
技术领域
本发明涉及核酸分离和富集的方法。事实上,靶核酸的分离和富集代表了核酸研究的关键第一步,影响了核酸的数量和质量,进而直接影响了下游应用中获得的数据的质量(例如灵敏度、覆盖度、稳健性和再现性)。这在从更复杂的混合物中仅分析某些靶核酸的应用中,或在存在少量靶核酸的情况下尤为重要。例如,人“外显子组”(蛋白质编码区域)仅占总基因组的约1%,但包含85%的DNA变异已知与遗传疾病相关。因此,分离和富集在与外显子组相关的临床应用,例如,在诊断和遗传风险评估中特别重要。
背景技术
虽然甚至在感兴趣的核酸靶很少时也可以使用全基因组分析,但由于技术、经济和/或时间限制,对整个基因组进行测序通常是不可行的。此外,全基因组测序需要大大增加计算能力和存储空间来分析生成的大量数据。因此需要核酸分离以将分析限制于核酸分子的特定子集。
迄今为止,用于分离特定核酸片段子集的主要方法基于杂交捕获和/或靶向扩增技术(参见,例如,Mertes等人,Brief Funct Genomics,2011,10(6):374-86和WO 2016/014409)。然而,目前的杂交捕获方法富集效率低,有15-25%的捕获脱靶(Garcia-Garcia,Sci Rep.,2016,6:20948),并且通常需要至少两轮选择。核酸也在捕获前变性,从而去除通过两条链的互补性或互补链本身编码的任何信息。使用杂交捕获时,通常还需要进行扩增以增加核酸材料的量。然而,根据AT:GC比率和被扩增片段的二级结构,扩增会产生偏差,并且随着扩增片段长度的增加,效率会降低。此外,由于引物交叉反应,可以以多重方式扩增的靶区域的数量受到限制。此外,原始序列中存在的所有化学修饰(例如碱基修饰)在扩增过程中丢失。最后,扩增可能在核酸中引入假象(即不想要的或非特异性的核酸序列)或错误。
鉴于这些限制,需要分离和/或富集靶核酸的新方法,特别是需要保留原始感兴趣核酸分子特征(例如化学修饰,例如碱基修饰,和核酸序列信息,例如错配或SNP)的核酸分离和富集的方法,其不需要多轮选择,并且与下游分析技术(例如核酸测序)相容。
发明内容
在详细描述本发明之前,应当理解,本发明不限于具体示例的方面并且当然可以变化。还应理解,本文所用的术语仅用于描述本发明的特定实施方案的目的,而非旨在进行限制。
本文引用的所有出版物、专利和专利申请,无论是上文还是下文,均通过整体引用并入本文。此外,除非另外指明,否则本发明的实践使用蛋白质化学、分子生物学、微生物学、重组DNA技术和药理学的常规技术,这些技术在本领域的技术范围内。这些技术在文献中有充分的解释。例如,参见Ausubel等人,Current Protocols in Molecular Biology,Eds.,John Wiley&Sons,Inc.New York,1995,Remington’s Pharmaceutical Sciences,第17版,Mack Publishing Co.,Easton,Pa.,1985,和Sambrook等人,Molecular cloning:Alaboratory manual第2版,Cold Spring Harbor Laboratory Press-Cold SpringHarbor,NY,USA,1989。
在随后的权利要求和前面的描述中,词语“包含”、“包括”、“含有”和其他变形以包含的意义使用,即指定所述特征的存在,但不排除在本发明的各种实施方案中存在或添加进一步的特征,除非上下文由于表达的语言或必要的暗示而另外需要。此外,除非本申请的内容另有明确规定,否则本文使用的术语“一”、“一个”和“该”包括复数形式。例如,“靶区域”因此也包括两个或更多个靶区域。
在第一方面,本发明涉及一种用于从核酸分子群中分离核酸靶区域的新方法,其包括使所述群与2类V型Cas蛋白-gRNA复合物接触,然后与具有单链3'到5'核酸外切酶活性的酶接触。事实上,发明人惊奇地发现这些步骤产生具有至少9个核苷酸长度的5'单链突出端的核酸分子。结果,然后可以有利地通过将寡核苷酸杂交到所述突出端来进行捕获方法,如杂交捕获,从而特异性地富集邻近的靶区域。有利地,仅感兴趣的靶区域被分离,因为2类V型Cas蛋白-gRNA复合物靶向高度特定位点并切割,这在整个基因组中可能仅发生一次。与此形成鲜明对比的是,限制酶识别并切割较短的位点,这些位点因此在给定序列中多次出现,并进一步产生相对短的突出端(例如,3个碱基)。
由于在本发明方法的所有步骤中原始核酸分子保持完整,因此本发明方法相对于当前方法是高度有利的,因为保留了靶核酸的所有特征(例如化学修饰、错配)。与现有的杂交捕获方法相反,通过本发明方法分离的核酸不需要变性。由于在本发明方法中不需要扩增步骤,因此也减少了偏差。此外,可以轻松设计多重检测,没有引物相互作用或交叉识别的风险。小样品尺寸和具有低水平靶核酸的样品也可用于本发明的方法中,而无需靶扩增,因为核酸靶分离的效率高且具有良好的特异性。有利地,当仅进行单轮时,分离是足够的。此外,由于所有步骤都可以在相同容器中进行,因此与现有技术的方法相比,该方法简单,出错的可能性降低。由于容器之间没有材料转移,样品损失进一步减少。最后,本发明的方法优于现有方法,因为它快速且廉价、可以直接在样品上进行、处理步骤很少、并且与现有的下游核酸分析平台相容,包括“第三代”测序技术,其中在微结构中分析单个核酸分子,所述微结构例如纳米孔、零模式波导或微孔。值得注意的是,本发明的方法提供了分离的特异性核酸靶区域,其可以在任一端或两端包含特定的单链核酸突出端,其上可以特异性地连接各种适体或接头,从而为在多种下游分析和应用中使用靶区域提供灵活性。
更具体地,所述从核酸分子群中分离核酸靶区域的方法包括以下步骤:
a)使所述核酸分子群与2类V型Cas蛋白-gRNA复合物接触,其中gRNA包含与邻近所述靶区域的第一位点互补的引导区段,从而形成2类V型Cas蛋白-gRNA核酸复合物,
b)使包含所述2类V型Cas蛋白-gRNA核酸复合物的核酸分子群与至少一种具有单链3'至5'核酸外切酶活性的酶接触,从而在所述第一位点形成5'单链突出端,
c)从步骤b)的群去除2类V型Cas蛋白-gRNA复合物,
d)使步骤c)的群与寡核苷酸探针接触,所述探针包含与所述突出端至少部分互补的序列,从而在所述探针和所述突出端之间形成双链体,和
e)从步骤d)的核酸分子群中分离所述双链体,从而分离所述核酸靶区域。
在上述方法中,按照所提供的顺序依次进行步骤,首先进行步骤a),然后进行步骤b),然后进行步骤c),然后进行步骤d)。或者,特别是当靶核酸区域或分子是双链时,步骤a和步骤b)可以同时进行。
在某些情况下,该方法中可能包括额外的步骤。作为非限制性示例,在上述方法的任何阶段,例如在步骤a)之前、与步骤a)同时、在步骤a)和b)之间、或与步骤b)、步骤c)或步骤e)同时,可以包括将一个或多个核酸分子片段化以获得核酸分子群的额外步骤。作为非限制性示例,可在上述方法的任何步骤之前、期间或之后可以进一步包括额外的孵育步骤。作为非限制性示例,在步骤c)之后、在步骤d)之后或在步骤e)之后可以进一步包括储存步骤。这些可选的额外步骤将在下面进一步详述。
如本文所用,术语“接触”是指将两个或更多个分子和/或产物置于相同溶液中,使得所述分子和/或产物可彼此相互作用。例如,使核酸分子群与2类V型Cas蛋白-gRNA复合物接触,允许这些分子相互作用并形成复合物,其中2类V型Cas蛋白-gRNA复合物已在特定位点结合到核酸分子。类似地,使核酸分子群与寡核苷酸探针接触将导致至少探针的单链区域与核酸分子群内包含的至少部分互补的单链区域杂交。在本文提供的方法的步骤d)中,这更具体地对应于所述探针的单链区域与至少部分互补的5'突出端的杂交。作为进一步的示例,当分子或产物是或包含所述酶的底物时,使所述分子或产物与酶例如核酸外切酶“接触”将导致酶促反应。例如,使核酸分子群与具有单链3’至5’核酸外切酶活性的酶接触将导致这些分子的相互作用,以及所述酶可接触的酶底物(例如具有3’游离端的单链核酸分子或区域)的降解。
如本文所用,术语“分离”是指样品中一个或多个核酸靶区域相对于一个或多个其他区域或分子的比率增加。作为非限制性示例,这些其他分子可包括蛋白质、脂质、碳水化合物、代谢物、核酸或其组合。作为非限制性示例,这些其他区域可对应于与所述靶区域存在于相同分子上但不包含在靶区域中的核酸区域(即“非靶区域”)。如本文所用,靶核酸区域的“分离”可以更具体地指与样品中的一个或多个其他分子相比,或与初始样品中的分子总数相比(即,在进行分离本发明的靶区域的方法之前),样品中一个或多个靶核酸区域的比率增加至少2倍(例如2、3、4、5、10、20、30、40、50、60、70、80、90、100、250、500、750、1000或10,000或更多倍)。靶核酸区域的分离还可以指与样品中一个或多个其他分子的水平相比时,样品中靶核酸区域的比率增加至少5%(例如5%、6%、7%、8%、9%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%)。当靶核酸区域的比率为100%时,样品中不包含其他分子。如本文所用,术语“富集”更具体地指相对于样品中的其他核酸分子,分离一个或多个靶核酸区域。例如,靶区域的富集是指与初始核酸总量相比,分离的靶区域的比率增加,其中分离的靶区域的比率增加至少10%、20%、30%、40%、50%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%或100%。根据一个优选的实施方案,与初始核酸总量相比,分离的靶区域的比率增加至少10%、更优选至少20%、至少30%、至少40%、至少50%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、甚至更优选至少99%或100%。
根据一个实施方案,分离的核酸靶区域被富集至少10倍、至少20倍、至少50倍、至少100倍、至少250倍、至少500倍、至少750倍、优选至少1000倍、至少10,000倍、至少100,000倍、甚至更优选至少1,000,000倍、至少2,000,000倍、或至少3,000,000倍。作为一个特定的示例,从相当于约32亿bp的人基因组的核酸分子群中100%富集单个1kb片段代表了3,000,000倍的增加。
根据替代的实施方案,分离的靶区域是基本上纯的。“基本上纯”是指在根据本发明的方法分离靶区域之后,分离的靶区域包含样品中总核酸的至少99%,优选至少99.5%。
根据一个优选的实施方案,靶区域包含初始样品(例如在根据本发明的方法分离靶区域之前)中总核酸的小于10%、优选小于5%、更优选小于2%、小于0.05%、小于0.02%、甚至更优选小于0.01%、小于0.005%、小于0.001%、小于0.0005%、小于0.0001%、小于0.00005%、小于0.00001%、或小于0.0000005%。技术人员将认识到,样品总核酸中的靶区域的量或百分比将取决于待分离的靶区域的数量和待分离的靶区域长度的不同,而不同。作为一个非限制性示例,约32亿bp的人基因组中,1kb感兴趣的靶区域代表少于0.0000005%的总基因组。
从核酸分子群中分离核酸靶区域,所述核酸分子群通常包含在样品中。如本文所用,术语“样品”是指包含核酸分子群的任何材料或物质,包括例如生物、环境或合成样品。“生物样品”可以是可以包含生物有机体的任何样品,例如细菌、病毒、古细菌、动物、植物和/或真菌。根据本发明的“生物样品”还指可以从生物有机体获得的样品,例如从例如细菌、病毒、古细菌、植物、真菌、动物和/或其他真核生物获得的细胞提取物。感兴趣的核酸分子可以直接从生物体或从生物体获得的生物样品获得,例如从血液、尿液、脑脊液、精液、唾液、痰、粪便和组织(例如细胞组织或植物组织)获得。在本发明的上下文中,任何细胞、组织或体液都可以用作核酸的来源。核酸分子也可以从培养的细胞中回收或纯化,例如从原代细胞培养物或细胞系中回收或纯化。可以使用病毒或其他细胞内病原体感染获得感兴趣核酸的细胞或组织。样品也可以是从生物样品中提取的总核酸。“环境样品”可以是任何样品,其包含不是直接取自生物有机体(例如土壤、海水、空气等)的核酸,并且可以包含不再存在于生物有机体中的核酸。“合成样品”包括人工或工程化的核酸。或者,样品可以来自怀疑包含靶核酸区域的任何来源。
在某些实施方案中,本发明的方法可包括处理样品的一个或多个步骤,以促进根据本发明的方法分离包含靶区域的核酸。作为非限制性示例,样品可以被浓缩、稀释或破坏(例如,通过机械或酶促裂解)。在本发明方法的步骤a)之前,核酸可以是完全或部分纯化的,或者可以是未纯化的形式。
如本文所用,术语“核酸”、“核酸区域”和“核酸分子”是指核苷酸单体的聚合物,包括脱氧核糖核苷酸(DNA)、核糖核苷酸(RNA)或其类似物,以及其组合(例如DNA/RNA嵌合体)。本文所述的脱氧核糖核苷酸和核糖核苷酸单体是指单体单元,其包含三磷酸基团、腺嘌呤(“A”)、胞嘧啶(“C”)、鸟嘌呤(“G”)、胸腺嘧啶(“T”)或尿嘧啶(U)含氮碱基,并分别包含脱氧核糖或核糖。修饰的核苷酸碱基也包括在本文中,其中核苷酸碱基是例如次黄嘌呤、黄嘌呤、7-甲基鸟嘌呤、肌苷、黄嘌呤核苷、7-甲基鸟苷、5,6-二氢尿嘧啶、5-甲基胞嘧啶、假尿苷、二氢尿苷或5-甲基胞苷。在本发明的上下文中,当描述核苷酸时,“N”代表任何核苷酸,“Y”代表任何嘧啶,“R”代表任何嘌呤。核苷酸单体通过核苷酸间键连接,例如磷酸二酯键或其磷酸类似物和相关的反离子(例如,H+、NH4 +、Na+)。本发明的核酸分子可以是双链或单链的,并且最经常是双链DNA。然而,应当理解,本发明也适用于完美配对或不完美配对的单链DNA-单链DNA双链体,或替代地适用于完美配对或不完美配对的单链DNA-单链RNA双链体,或者替代地完美配对或不完美配对的单链RNA-单链RNA双链体,以及单链DNA和单链RNA。特别地,本发明适用于单一单链DNA或单一单链RNA的二级结构。当核酸分子是单链RNA(例如mRNA)或单链RNA-单链RNA双链体(例如病毒dsRNA)时,在与2类V型Cas蛋白-gRNA复合物接触之前,可以逆转录所述RNA。双链体可以由从不同来源样品获得的两个单核酸链至少部分重新配对组成。核酸分子可以是天然存在的(例如是真核或原核生物来源的)或合成的。核酸分子可包括环状核酸分子,例如共价闭合环状DNA和/或环状RNA,包括质粒和/或环状染色体,或线性核酸分子。核酸分子可以特别地包括基因组DNA(gDNA)、cDNA、hnRNA、mRNA、rRNA、tRNA、microRNA、mtDNA、cpDNA、cfDNA(例如ctDNA或cffDNA)、cfRNA等。
核酸的长度范围可以从仅几个单体单元(例如寡核苷酸,其长度范围可以为例如约15至约200个单体)到几千、几万、几十万或几百万单体单元。优选地,核酸分子包含一个或多个cfDNA分子。在第一方面,核酸分子的长度小于300bp,例如包括在约125至225bp之间,优选在130至200bp之间。在第二方面,核酸分子的长度等于或大于300bp。在本申请中,除非另有说明,应当理解为从左到右以5'到3'的方向表达核酸分子。
如本文所用,术语“核酸分子群”是指多于一种核酸分子。所述群可以包含一个或多个如上所定义的任何长度、任何序列的不同的核酸分子。核酸分子群可以特别地包含超过103、104、105、106、107、108、109或1010个不同的核酸分子。
如本文所用,“核酸靶区域”、“靶核酸区域”或“靶区域”是指存在于更复杂的样品或核酸分子群中的特定核酸分子,或存在于更大的核酸分子中的特定核酸区域,并且其将被特异性靶向以用于分离或富集。如本文所用,术语“区域”是指任何长度的不间断核苷酸聚合物。当靶区域存在于更大的核酸分子内时,其优选地在其第一侧侧接第一位点,所述第一位点至少部分与包含在2类V型Cas蛋白-gRNA复合物中的crRNA分子或gRNA的引导区段互补。在一些情况下,核酸靶区域进一步地在其第二侧侧接第二位点。因此,所述第一位点和所述第二位点位于靶区域的任一侧。所述第一位点(和所述第二位点,当存在时)位于所述靶区域邻近,优选地紧邻所述靶区域。所述第一位点和所述靶区域(和所述第二位点,当存在时)可进一步地在一侧或两侧侧接非靶区域。如本文所用,术语“邻近”是指存在第一核苷酸或核酸区域和第二核苷酸或核酸区域,其中两个核苷酸和/或区域存在于相同的不间断核苷酸聚合物上。因此,只要至少部分与包含在2类V型Cas蛋白-gRNA复合物中的crRNA分子或gRNA的引导区段互补的位点和靶区域存在于相同核苷酸聚合物上,它们就被认为是邻近的。如本文所用,术语“紧邻”是指第一核苷酸或核酸区域与第二核苷酸或核酸区域接近,其中两个核苷酸和/或区域在核苷酸聚合物中直接邻近(即没有介于中间的核苷酸存在)。
在本发明的上下文中,“位点”对应于长度不超过100个核苷酸,优选长度不超过60个核苷酸的不间断核苷酸聚合物。所述位点优选是双链核苷酸聚合物。优选地,所述“位点”至少部分与gRNA的引导区段互补,优选与gRNA的引导区段完全互补。优选地,所述位点长度为约12至约35个核苷酸,优选长度为15至35个核苷酸。优选地,所述位点包含至少部分与gRNA的引导区段互补的序列,更优选地包含与gRNA的引导区段完全互补的序列,以及PAM。所述PAM优选地紧邻所述靶区域。所述PAM优选位于不与2类V型Cas蛋白-gRNA复合物杂交的核酸链(即“非靶”链)上。
所述第二位点优选地至少部分与包含在2类Cas蛋白-gRNA复合物(优选地第二2类V型Cas蛋白-gRNA复合物)中的crRNA分子或gRNA的引导区段互补。或者,所述第二位点可包含限制性位点或由限制性位点组成。在这种情况下,所述第二位点的长度优选为约4至8个核苷酸。
在一些实施方案中,可以分离两个或更多个不同的核酸靶区域。本发明的“靶核酸区域”因此可包含一个或多个不同区域,优选至少2、5、10、25、50、100或更多个区域。核酸靶区域可以是编码的或非编码的,或两者的组合。靶区域可以是基因组的或游离型。靶区域可以包含一个或多个重复区域、重排、复制、易位、缺失、错配、SNP和/或修饰的碱基,例如表观遗传修饰。在一些情况下,核酸靶区域可以是相同的(例如对应于重复序列)。在其他情况下,核酸靶区域可以不同。优选地,靶核酸区域将具有至少约10、20、50、100、250、500、1,000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000或100,000个核苷酸的长度。尽管给定的gRNA可以允许分离包含靶区域的多个核酸(例如,由于非特异性结合,或识别在一个核酸分子中多于一次存在的位点),但在本发明的上下文中,每个gRNA优选地识别核酸分子群内的单个位点。在某些情况下,两个或更多个2类V型Cas蛋白-gRNA复合物将在与不同靶区域邻近的不同位点上结合,从而能够分离两个或更多个区域。优选地,当所述靶区域存在于相同核酸分子上时,所述核酸靶区域彼此分开至少100、200、300、500、750、1000、2000、5000或10000个核苷酸。
在某些情况下,两个2类V型Cas蛋白-gRNA复合物将与位于靶区域两侧的位点结合,从而分离位于两个位点之间的单个靶区域。在某些情况下,当分离多个靶区域时,上述两种情况可以串联使用(即一些靶区域与单个位点邻近,而另一些靶区域与两个位点邻近,所述两个位点位于所述靶区域的两侧)。可根据包含靶区域的核酸分子的长度、期望的分离核酸分子的结构(例如在与靶区域邻近的一个或两个位点上存在单链突出端等)、和/或将使用靶区域的下游应用,选择与给定靶区域邻近的位点结合的2类V型Cas蛋白-gRNA复合物的数量。
根据优选实施方案,分离至少两个靶区域,更优选分离至少5、至少10、至少25、至少50或至少100个靶区域。优选地,使核酸分子与至少两个2类V型Cas蛋白-gRNA复合物接触,每个复合物包含不同的gRNA。更优选地,使核酸分子与至少5、至少10、至少25、至少50或至少100个2类V型Cas蛋白-gRNA复合物接触,每个2类V型Cas蛋白-gRNA复合物能够分离不同的靶区域。
Cas蛋白
如本文所用,术语“Cas蛋白”是指RNA引导的核酸内切酶,其特异性识别并结合核酸分子内的位点,在本案中特异性识别并结合与靶区域邻近的位点。为了识别并结合特定位点,Cas蛋白与“引导RNA”或“gRNA”复合,形成“Cas蛋白-gRNA复合物”。Cas蛋白的结合特异性由gRNA决定,该gRNA包含一个“引导区段”,其序列必须至少部分与核酸分子中特定位点的序列互补。Cas蛋白-gRNA复合物中的引导区段与所述位点杂交,从而形成Cas蛋白-gRNA-核酸复合物。Cas蛋白-gRNA复合物与位点的成功结合还需要在位于紧邻杂交区域的核酸分子中存在一个短的、保守的序列。该序列被称为原间隔区相关基序或“PAM”。因此,与核酸分子内特定位点结合的Cas蛋白-gRNA复合物包括通过引导区段与该位点的核酸杂交以及Cas蛋白本身与PAM的相互作用。在Cas蛋白-gRNA复合物与核酸内的位点结合后,Cas蛋白通常通过破坏双链核酸分子每条链中两个邻近核苷酸之间的磷酸二酯键来切割核酸。具体而言,Cas蛋白的一个结构域切割与gRNA杂交的核酸链,而Cas蛋白的第二结构域切割未杂交的核酸链。双链分子的两条链的切割可能是交错的,产生了单链突出端或平端。
迄今为止,已经描述了三个主要类别的Cas蛋白(1类、2类和3类)。在2类Cas蛋白中,迄今为止已鉴定出至少五种不同的型(即I、II、III、IV、V型)。作为非限制性示例,Cas蛋白可以选自2类Cas蛋白,特别是2类V型和2类II型Cas蛋白,更具体地选自Cas9、Cas12a(也称为Cpf1)、C2c1、C2c3和C2c2(Cas13a)蛋白。
作为一个非限制性示例,2类Cas蛋白可以来自以下物种之一:肺炎链球菌(Streptococcus pneumoniae)、化脓性链球菌(Streptococcus pyogenes)、嗜热链球菌(Streptococcus thermophilus)、犬链球菌(Streptococcus canis)、金黄色葡萄球菌(Staphylococcus aureus)、脑膜炎奈瑟菌(Neisseria meningitidis)、齿状密螺旋体(Treponema denticola)、土拉弗朗西斯菌(Francisella tularensis)、新生弗朗西斯菌(Francisella novicida)、多杀性巴氏杆菌(Pasteurella multocida)、变形链球菌(Streptococcus mutans)、空肠弯曲杆菌(Campylobacter jejuni)、拉里弯曲杆菌(Campylobacter lari)、鸡毒支原体(Mycoplasma gallisepticum)、Nitratifractorsalsuginis、科特迪瓦灌洗小杆菌(Parvibaculum lavamentivorans)、肠道罗斯拜瑞氏菌(Roseburia intestinalis)、灰色奈瑟球菌(Neisseria cinerea)、固氮醋杆菌(Gluconacetobacter diazotrophicus)、固氮螺菌属(Azospirillum)、Sphaerochaetaglobosa、柱状黄杆菌(Flavobacterium columnare)、Fluviicola taffensis、嗜粪拟杆菌(Bacteroides coprophilus)、运动支原体(Mycoplasma mobile)、香肠乳杆菌(Lactobacillus farciminis)、巴氏链球菌(Streptococcus pasteurianus)、约氏乳杆菌(Lactobacillus johnsonii)、巴氏葡萄球菌(Staphylococcus pasteuri)、Filifactoralocis、韦永氏球菌属(Veillonella sp.)、华兹华氏鼠尾草(Suterellawadsworthensis)、纤毛菌属(Leptotrichia sp.)、白喉杆菌(Corynebacteriumdiphtheriae)、氨基酸球菌属(Acidaminococcus sp.)、或毛螺旋科的菌属(Lachnospiraceae sp.)、普雷沃氏菌(Prevotella albensis)、挑剔真杆菌(Eubacteriumeligens)、溶纤维丁酸弧菌(Butyrivibrio fibrisolvens)、互营菌属(Smithella sp.)、黄杆菌属(Flavobacterium sp.)、狗口腔红棕色单胞菌(Porphyromonas crevioricanis)、或毛螺菌科的细菌(Lachnospiraceae bacterium)ND2006。
作为一个非限制性示例,2类Cas蛋白可以是J3F2B0,Q0P897,Q6NKI3,A0Q5Y3,Q927P4,A1IQ68,C9X1G5,Q9CLT2,J7RUA5,Q8DTE3,Q99ZW2,G3ECR1,Q73QW6,G1UFN3,Q7NAI2,E6WZS9,A7HP89,D4KTZ0,D0W2Z9,B5ZLK9,F0RSV0,A0A1L6XN42,F2IKJ5,S0FEG1,Q6KIQ7,A0A0H4LAU6,F5X275,F4AF10,U5ULJ7,D6GRK4,D6KPM9,U2SSY7,G4Q6A5,R9MHT9,A0A111NJ61,D3NT09,G4Q6A5,A0Q7Q2或U2UMQ6。登录号来自UniProt(www.uniprot.org),最后修改于2017年1月10日的版本。作为非限制性示例,编码2类Cas蛋白的基因可以是包含核苷酸序列的任何基因,其中所述序列产生相应Cas蛋白(例如上文所列的Cas蛋白之一)的氨基酸序列。技术人员将容易理解,基因的核苷酸序列可因遗传密码的简并性而变化,而不改变氨基酸序列。2类Cas蛋白还可以针对在细菌(例如大肠杆菌)、昆虫、真菌或哺乳动物细胞中的表达进行密码子优化。
也已在其他细菌物种中鉴定到2类Cas蛋白和蛋白直向同源物,并且特别描述于PCT申请号WO2015/071474的实施例1中,通过引用并入本文。在一些情况下,Cas蛋白可以是例如以上所列物种之一的2类Cas蛋白的同源物或直向同源物。
已经描述了野生型Cas蛋白的变体和突变体。作为非限制性示例,已经描述了保留核酸内切酶活性但具有改善的结合特异性的Cas变体(例如2类Cas蛋白eSpCas9,如Slaymaker等人,Science,2015,351(6268):84-86中所述)。
2类V型Cas蛋白
在分离核酸靶区域的本发明方法的上下文中使用的Cas蛋白是2类V型Cas蛋白。实际上,如上所述,分离靶区域的方法的第一步(步骤a)包括使核酸分子群与2类V型Cas蛋白接触。具体地,步骤a)包括使核酸分子群与2类V型Cas蛋白-gRNA复合物接触,其中gRNA包含与邻近所述靶区域的至少第一位点互补的引导区段,从而形成2类V型Cas蛋白-gRNA核酸复合物。当具有催化活性时,与适当的gRNA复合的2类V型蛋白通常产生交错的切割(例如4到6个核苷酸的短5'突出端),其位于双链核酸分子的PAM序列的远端(例如位于距PAM至少10个核苷酸处)(参见,例如Zetsche等人,Cell,2015,163(3):759-771)。已经进一步观察到,2类V型蛋白-gRNA复合物在切割后可保持与核酸分子的结合。此外,本发明人在本文中令人惊讶地表明,当与2类V型蛋白-gRNA复合物结合的核酸分子与具有3'至5’单链核酸外切酶活性的酶接触时,出人意料地产生长的5'突出端(例如长度至少9个核苷酸,优选长度至少12个核苷酸)。不受理论的限制,2类V型蛋白-gRNA复合物在切割后可保持与核酸靶链(不包含PAM序列)结合,而反向链(即包含PAM序列的链)从复合物解离,可用于3'到5'单链核酸外切酶消化。本发明人还惊奇地发现,当2类V型蛋白-gRNA复合物在3'至5'单链核酸外切酶存在下切割时,可降低切割位置的变异性(参见,例如图1B、图1C)。
本发明的2类V型Cas蛋白具有催化活性(即切割双链分子的两条链)。优选地,本发明的2类V型Cas蛋白选自Cas12a和C2c1,更优选Cas12a。Cas12a蛋白优选是上面列出的合适物种之一的Cas12a蛋白,更优选是以下物种或株之一的Cas12a蛋白:新生弗朗西斯菌(F.novicida)U112(登录号:AJI61006.1),普雷沃氏菌(P.albensis)(登录号:WP_024988992.1),氨基酸球菌属(Acidaminococcus sp.)BV3L6(登录号:WP_021736722.1),挑剔真杆菌(E.eligens)(登录号:WP_012739647.1),溶纤维丁酸弧菌(B.fibrisolvens)(登录号:WP_027216152.1),Smithella sp.SCADC(登录号:KFO67988),黄杆菌属(Flavobacterium sp.)316(登录号:WP_045971446.1),狗口腔红棕色单胞菌(P.crevioricanis)(登录号:WP_036890108.1),拟杆菌口腔分类群274(登录号:WP_009217842.1),或毛螺菌科细菌(Lachnospiraceae bacterium)ND2006(登录号:WP_051666128.1)。在一个优选的实施方案中,所述氨基酸球菌属BV3L6Cas12a是包含以下氨基酸取代的变体:S542R/K607R或S542R/K548V/N552R(Gao等人,Nat Biotechnol.2017,35(8):789-792)。Cas12a蛋白甚至更优选选自氨基酸球菌属Cas12a(也称为“AsCas12a”)、毛螺菌科细菌ND2006 Cas12a(也称为“LbaCas12a”)和新生弗朗西斯菌U112 Cas12a(也称为“FnCas12a”)。
引导RNA
如本文所用,术语“引导RNA”或“gRNA”通常是指crRNA分子。当所述gRNA是2类V型gRNA时,尤其如此。然而,在某些情况下,术语gRNA可以指两个引导RNA分子,其由一个crRNA分子和一个tracrRNA分子组成,或术语gRNA可以指单个引导RNA分子或sgRNA,其包括crRNA和tracrRNA序列片段,例如当gRNA是2类II型gRNA时。在一些情况下,crRNA可包含tracr-mate区段。tracr-mate区段和tracrRNA的特征(例如长度、二级结构的存在等)是技术人员众所周知的。此外,技术人员知道何时将此类区段或分子包括在gRNA分子中。特别地,此类片段或分子不需要包含在2类V型gRNA中。
gRNA分子可以被化学修饰,例如包含一个或多个核糖核苷酸的碱基、糖或磷酸修饰。任选地,gRNA分子的5'和/或3'末端可以被修饰,例如通过共价缀合到另一分子或化学基团。
crRNA分子或区段优选长度为20至75个核苷酸,更优选长度为30至60个核苷酸,甚至更优选长度为40至45个核苷酸。crRNA分子或区段优选地包含第一区域,在本文中称为“引导区段”,其序列至少部分与核酸分子中存在的序列互补,所述核酸分子中存在的序列优选地是位于与靶区域邻近的第一位点的序列。优选地,本发明的gRNA的引导区段与核酸分子中存在的序列具有至少70%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或更优选100%的序列互补性。优选地,当互补性小于100%时,错配位于离杂交PAM最远的crRNA端的附近。例如,当2类V型Cas蛋白是Cas12a时,错配优选包含在crRNA分子或片段的3'端(例如在最后7个核苷酸内),因为Cas12a在crRNA 5'端识别PAM。引导区段的长度优选为至少10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25个核苷酸,更优选为15、16、17、18、19、20、21、22、23、24或25个核苷酸,甚至更优选为17、18、19、20、21、22、23或24个核苷酸长度。或者,引导区段的长度优选为10至30,更优选15至25,甚至更优选17至24个核苷酸。
优选地,当2类V型Cas蛋白为Cas12a时,gRNA仅由crRNA分子组成。因此,“Cas12a-gRNA复合物”在本文中也可互换地称为“Cas12a-crRNA复合物”。当gRNA仅仅是crRNA分子时,至少必须存在引导区段。示例性的通用crRNA核苷酸序列显示在SEQ ID NO:1中,其中引导区段由“N”个核苷酸的延伸段表示。优选地,crRNA分子还包含二级结构。作为非限制性示例,gRNA中存在的“二级结构”可以是茎环或发夹、凸起、四环和/或假结。术语“发夹”和“茎环”在本文中在gRNA的上下文中可互换使用,并且定义如下(参见“发夹适体”部分)。根据一个优选的实施方案,所述gRNA包含至少一个发夹二级结构。
优选地,crRNA分子不包含tracr-mate区段。优选地,引导区段位于crRNA分子的3'端。优选地,二级结构位于或靠近crRNA分子的5'端。如本文所用,术语“位于或靠近核酸分子的5’端”是指分子从5'至3’的前半部分内的区段或结构的位置。类似地,如本文所用术语“位于或靠近核酸分子的3’端”是指分子的前半部分内的区段或结构的位置。优选地,所述crRNA的长度为40至50个核苷酸。
如本文所用,术语“互补”是指一个核酸序列或分子(例如gRNA)与另一核酸序列或分子(例如核酸分子中的序列)进行序列特异性反平行核苷酸碱基配对相互作用的能力,导致形成双链体或其他更高阶的结构。相互作用的主要类型是核苷酸碱基特异性的,例如,通过Watson-Crick和Hoogsteen型氢键的A:T、A:U和G:C。这也称为“核酸结合”、“杂交”或“退火”。核酸与靶位点的互补区域杂交的条件是本领域公知的(参见,例如,Nucleic AcidHybridization,APractical Approach,Hames and Higgins,eds.,IRL Press,Washington,D.C.(1985))。杂交条件取决于具体应用,并且可由本领域技术人员常规确定。
在本发明的上下文中,互补结合并不意味着两个核酸序列或分子(例如gRNA和靶区域)必须彼此完全互补。此外,crRNA序列区段或分子不必与核酸分子中的序列完全互补。实际上,已知2类Cas蛋白-gRNA复合物能够特异性结合核酸序列,所述核酸序列具有少到8或9个碱基与gRNA互补。优选地,最靠近PAM的10个gRNA的碱基与相应的位于最靠近PAM的互补核酸序列的10个碱基之间不存在错配,更优选地最靠近PAM的6个gRNA的碱基与相应的位于最靠近PAM的互补核酸序列的6个碱基之间不存在错配,甚至更优选地位于距PAM 4、5和/或6个碱基的gRNA的碱基与相应的位于距PAM 4、5和/或6个碱基的互补核酸序列的碱基之间不存在错配。事实上,如果在一个或多个所述碱基位置存在错配,则结合将不稳定,并且2类Cas蛋白-gRNA复合物在靶位点的切割将减少甚至消除。如上所述,可以通过增加crRNA区段的长度、或通过在位于或靠近距PAM最远的crRNA区段的末端放置错配来减少脱靶杂交。或者,可以通过一个或多个修饰碱基或化学修饰的存在对gRNA进行修饰,以具有增加的结合特异性,例如Cromwell等人,Nat Commun.2018Apr 13;9(1):1448或Orden Rueda等人,Nat Commun.2017;8:1610中所述的那些,通过引用并入本文。此外,核酸可以在一个或多个区域上杂交,使得介于中间的区域不参与杂交事件(例如,环或发夹结构)。本领域技术人员可以基于他们的一般知识并根据上文详述的参数,根据待杂交的核酸序列容易地设计一个或多个gRNA分子。
之前已经表明核酸与Cas蛋白以及gRNA分子数的比率(核酸:Cas蛋白:gRNA)影响靶区域的分离效果。在本文中可以根据核酸靶区域和/或核酸分子群的来源和/或复杂性对包含靶区域的核酸:Cas蛋白:gRNA分子数的比率进行显著优化。不受理论的限制,可具体地根据DNA的复杂性进行优化,其中更复杂的核酸群需要更多数量的Cas蛋白和gRNA。作为非限制性示例,较不复杂的核酸群可基本上包含重复序列或PCR扩增片段,而较复杂的核酸群可包含基因组DNA。作为非限制性示例,当所述核酸分子存在于通过PCR产生的核酸分子群中时,至少1:10:20的比率可用于本发明的方法中。相比之下,当所述群包含或由大肠杆菌基因组DNA组成时,至少1:1600:3200的比率是优选的,而当所述群包含或由人基因组DNA组成时,至少1:100000:200000的比率是优选的。当使用多个gRNA时(例如,其中两个gRNA识别第一位点和第二位点,所述位点位于邻近靶区域并位于所述靶区域的两侧,或在多路中制备包含不同靶区域的多个核酸分子时),可以为所有gRNA选择单个优化的核酸:Cas蛋白:gRNA的比率。或者,可以为每个gRNA单独选择优化的比率。
根据优选的实施方案,该比率为至少1:10:10,更优选至少1:10:20,甚至更优选至少1:10:50。当通过PCR生成模板DNA时,至少1:10:20的比率是特别优选的。优选地,如果需要(例如,如果所述模板不同),则使用PCR模板针对效率选择引导RNA,然后在合适的模板上优化包含靶区域的核酸:Cas蛋白:gRNA的比率。优选地,野生型Cas蛋白-gRNA复合物的切割效率为至少70%,更优选至少80%,甚至更优选至少90%。优选地,Cas蛋白-gRNA复合物对靶区域的保护效率为至少70%,更优选至少80%,甚至更优选至少90%。当核酸由细菌来源的核酸制备时,例如革兰氏阴性菌,例如大肠杆菌,优选地,核酸靶区数:Cas蛋白:gRNA的比率为至少1:200:400,更优选至少1:400:800,甚至更优选至少1:800:1600,至少1:1600:3200,或至少1:3200:6400。根据一个替代的优选实施方案,核酸靶区域:Cas蛋白:gRNA的比率为至少1:10,000:20,000,更优选至少1:100,000:200,000。根据以上提供的比率,技术人员可以根据待制备的靶区域和/或核酸分子的来源和/或复杂性容易地调整核酸靶区域:Cas蛋白:gRNA的比率。虽然Cas蛋白与gRNA的比例可能不同,但gRNA有利地以至少两倍过量于Cas蛋白的量提供,以确保Cas蛋白成功加载gRNA。当然可以使用更高比率的Cas蛋白(例如,对于PCR靶,为1:20:40、1:50:100等)和任选地,gRNA(例如,对于PCR靶,为1:10:30、1:10:40等)。上述比率优选用于本发明方法的步骤a)中,特别是关于包含靶区域的核酸:2类V型Cas蛋白:gRNA的比率。在存在第二2类Cas蛋白的情况下,也可以使用上述比率。
原间隔区邻近基序(PAM)
如本文所用,术语“原间隔区邻近基序”或“PAM”是指被Cas蛋白(例如2类V型Cas蛋白)本身直接识别的短核苷酸序列(例如2至6个核苷酸)。PAM序列及其位置将根据Cas蛋白而变化,并且可以由本领域技术人员根据其一般知识或使用如Karvelis等人,GenomeBiology,2015,16:253中描述的技术容易地确定。作为一个示例,新生弗朗西斯菌的Cas12a蛋白识别PAM 5'-TTTN-3'或5'-YTN-3',而氨基酸球菌属的Cas12a蛋白识别PAM 5'-TTTN-3。作为另一个示例,化脓性链球菌的Cas9蛋白识别PAM 5'-NGG-3'。相比之下,金黄色葡萄球菌的Cas9蛋白识别PAM 5'-NNGRRT-3',而源自新生弗朗西斯菌的工程化的Cas9蛋白识别PAM 5'-YG-3'。PAM基序通常位于双链核酸分子的非杂交(或“非靶)链上,并紧邻与gRNA杂交的核酸位点的5'或3'端。所需的PAM位置取决于所使用的Cas蛋白(例如,当使用Cas9蛋白时,PAM优选位于紧邻gRNA的3'端,而当使用Cas12a蛋白时,PAM优选位于紧邻gRNA的5'端)。在某些情况下,PAM基序可以包含在gRNA分子本身或以单独的DNA寡核苷酸添加到样品中。例如,当使用本方法分离单链RNA分子时,可能需要通过这些方法之一向样品中添加PAM。2类Cas蛋白与PAM的结合被认为会轻微破坏双链核酸的稳定性,从而允许gRNA与核酸序列杂交。
当Cas蛋白属于2类V型时,PAM优选位于紧邻gRNA的5'端的靶区域的非杂交链上。相比之下,2类II型Cas蛋白的PAM优选位于紧邻gRNA的3'端的靶区域的非杂交链上。然而,在一些情况下,PAM优选包含在gRNA分子本身或DNA寡核苷酸上。
具有单链3'至5'核酸外切酶活性的酶
根据本文所述的方法,在使核酸分子群与至少一种2类V型Cas蛋白-gRNA复合物接触后(例如在步骤a)),所述方法进一步包括使核酸分子群与至少一种具有单链3'至5'核酸外切酶活性的酶接触的步骤(例如在步骤b)中)。该步骤从其3'端降解单链核酸分子或双链核酸分子的单链区域。技术人员将理解,当靶核酸是双链分子时,该步骤可以与步骤a)同时进行,因为酶对单链区域或分子具有特异性。然而,在靶核酸是单链的情况下,该步骤必须在步骤a)之后进行,以防止核酸靶发生不希望的降解。
如本文所用,“具有单链3'至5'核酸外切酶活性的酶”可指外切核糖核酸酶或外切脱氧核糖核酸酶或两者。所述具有3'至5'核酸外切酶活性的酶可以具有或不具有一个或多个额外的酶促活性(例如特异性或非特异性核酸内切酶活性)。然而,所述酶优选不包含双链核酸外切酶活性。根据优选的实施方案,所述酶还将具有单链5'至3'核酸外切酶活性。作为非限制性示例,可用于本发明的具有单链3'至5'核酸外切酶活性的酶包括核酸外切酶I(ExoI)、S1核酸外切酶、核酸外切酶T、核酸外切酶VII(ExoVII)等。在一些情况下,可以使用两个或更多个酶的组合,例如选自上面列出的那些。作为一个特定的示例,ExoVII和Exo I可以组合使用。酶促降解可以是部分的(即,即使在群与具有单链3'至5'核酸外切酶活性的酶接触之后,群中也可以存在单链核酸区域或分子)或完全的。这可以取决于孵育条件、样品组成、核酸群本身(例如核酸结构)或技术人员已知的其他变量。因此,术语“降解”包括至少部分地降解存在于核酸分子群中的单链核酸分子或区域。
根据一个优选的实施方案,所述具有核酸外切酶活性的酶不具有核酸内切酶活性。当靶区域包含可以被位点特异性核酸内切酶识别的位点时,或者当靶区域易于被非特异性核酸内切酶降解时,这可能是有利的。根据优选的实施方案,所述至少一种具有单链3'至5'核酸外切酶活性的酶选自核酸外切酶I、S1核酸外切酶、核酸外切酶T、核酸外切酶VII或其两个或更多个的组合。优选地,所述具有单链3'至5'核酸外切酶活性的酶是Exo I和/或ExoVII。
在将本文提供的方法的步骤a)的核酸群(在至少第一位点包含2类V型Cas蛋白-gRNA-核酸复合物)与至少一种具有单链3’至5'核酸外切酶活性的酶孵育后,在所述至少第一位点产生5'单链突出端。5'单链突出端可具有至少9个核苷酸,优选9、10、11、12个或更多个核苷酸的长度,如本文进一步描述的。
去除2类V型Cas蛋白-gRNA复合物
2类V型Cas蛋白-gRNA复合物在特定位点与核酸分子稳定且紧密地结合,形成2类V型Cas蛋白-gRNA-核酸分子复合物(本文也称为2类V型Cas蛋白-gRNA-核酸复合物)。因此,为了为下游步骤提供可接触的与2类V型Cas蛋白-gRNA复合物结合的5'突出端,有必要从2类V型Cas蛋白-gRNA核酸分子复合物中去除2类V型Cas蛋白-gRNA复合物。因此,本文提供的方法进一步包括从步骤b)的群中去除2类V型Cas蛋白-gRNA复合物的步骤c)。如本文所用,术语“去除”是指从2类V型Cas蛋白-gRNA-核酸分子复合物中物理分离2类V型Cas蛋白-gRNA复合物。去除可能是部分的或完全的。优选地,去除是完全的。在某些情况下,2类V型Cas蛋白-gRNA复合物可仍存在于溶液中,虽然未与核酸分子结合,而在其他情况下,其可从溶液中消除。尤其是,可通过降解2类V型蛋白和/或gRNA从溶液中去除2类V型Cas蛋白-gRNA复合物。作为一个非限制性示例,可以通过使核酸分子群与至少一种蛋白酶接触去除2类V型Cas蛋白-gRNA复合物,从而降解2类V型Cas蛋白。有利地,使核酸分子群与至少一种蛋白酶接触还将降解可能存在的任何其他蛋白质(即,其他位点特异性的核酸内切酶,例如可能存在于另外的2类Cas蛋白-gRNA复合物中的2类Cas蛋白、初始样品中残留的污染蛋白,等)。作为非限制性示例,蛋白酶可以选自丝氨酸蛋白酶、半胱氨酸蛋白酶、苏氨酸蛋白酶、天冬氨酸蛋白酶、谷氨酸蛋白酶、金属蛋白酶和/或天冬酰胺肽裂解酶。
另外或可选地,可以通过使核酸分子群与能够螯合二价阳离子(特别是Mg2+)的化合物(例如EDTA或EGTA)接触去除2类V型Cas蛋白-gRNA复合物。事实上,发明人已经令人惊讶地表明,当添加这样的化合物时,可以去除2类V型Cas蛋白-gRNA复合物,而不需要降解2类V型Cas蛋白的酶或其他化学品。因此,根据一个优选的实施方案,通过使核酸分子群与二价阳离子螯合剂(优选螯合Mg2+阳离子的螯合剂)接触去除2类V型Cas蛋白-gRNA复合物。优选地,所述螯合剂是EDTA或EGTA。添加的EDTA或EGTA的量优选是待螯合的二价阳离子的量的至少2倍,更优选至少3倍、4倍、5倍,甚至更优选是存在的二价阳离子量的至少10倍。根据包含核酸分子群的溶液的组成(例如,根据阳离子的存在和数量),并进一步根据本文提供的实施方案,技术人员可以容易地确定螯合剂的合适的量。根据特定示例,以至少20mM、更优选至少25mM的浓度添加EDTA。在步骤c)中使用至少一种蛋白酶和二价阳离子螯合剂的情况下,可以同时添加所述至少一种蛋白酶和所述二价阳离子螯合剂,其中所述螯合剂不抑制所述至少一种蛋白酶的活性.
此外或可选地,通过使核酸分子群与至少一种RNase(例如RNaseA、RNaseH或RNaseI)接触,从而降解gRNA,去除2类V型Cas蛋白-gRNA复合物。在另一个实施方案中,由于RNA在升高的温度下不稳定,因此可以加热样品(例如,加热到至少65℃),可任选地在二价金属离子存在下和/或在碱性pH下加热样品。
寡核苷酸探针
根据本文提供的方法,在去除2类V型Cas蛋白-gRNA复合物后,使核酸分子群与寡核苷酸探针接触(例如,如步骤d)中提供的)。如本文所用,术语“寡核苷酸探针”是指包含至少部分与5'单链突出端互补的单链区域的多核苷酸分子。寡核苷酸探针可以是单链多核苷酸或可以包含单链和双链区域。在一些情况下,寡核苷酸探针可以是发夹适体。尤其是,寡核苷酸探针可以包含等同于gRNA分子的引导区段的DNA序列(即尿嘧啶碱基被胸腺嘧啶碱基取代并且核糖被脱氧核糖取代)。因此,所述探针将包含与5'突出端互补的区域,从而能够通过杂交在所述寡核苷酸探针和所述5'突出端之间形成双链区域或双链体。作为一个非限制性示例,至少部分与5'单链突出端互补的寡核苷酸探针区域包含少于4、3或2个与5'单链突出端的错配,更优选包含少于3或2个与5'单链突出端的错配,甚至更优选地,至少部分与5'单链突出端互补的寡核苷酸探针区域与所述5'单链突出端完全互补(即,不包含错配)。作为非限制性示例,所述5'单链突出端包含9至24个核苷酸。因此,所述5'单链突出端优选包含9至24个核苷酸,优选包含至少9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或24个核苷酸。
考虑到5'突出端可以变化(如图1C中所示),所述探针的序列优选地与延续至PAM位点并且可以包括PAM位点的区域互补。或者,核酸分子群可以与多个寡核苷酸探针(例如两个、三个、四个或更多个寡核苷酸探针)接触,所述多个寡核苷酸探针包含与不同的可能的或预期的5'突出端互补的序列,使得探针将成功杂交至可能存在的(如果不是全部的话)大多数(例如,至少80%、90%、95%、99%)5'突出端,从而形成双链体。或者,所述寡核苷酸探针进一步地可在其5'端包含与靶区域的序列(即延伸超出PAM位点)互补的序列。寡核苷酸探针还可以根据需要在其3’末端(即,不与5'突出端结合的3'区域)进一步包含任何序列和任何长度的额外核苷酸,例如用于下游应用。因此,在寡核苷酸探针中可包含额外的序列,其中所述序列存在于至少部分与5'单链突出端互补的序列的一侧或两侧。图8中提供了寡核苷酸探针的非限制性说明。
虽然寡核苷酸探针可以是任何长度的,优选地,所述探针的长度等于或小于200个核苷酸,优选等于或小于100个核苷酸,甚至更优选等于或小于50个核苷酸。
杂交后,优选地使用本领域公知的方法将所述探针连接到核酸,优选地通过具有连接酶活性的酶,例如通过连接酶如Taq DNA连接酶。当5'突出端的长度为12个核苷酸或更少时,该步骤是特别优选的,但是当5'突出端的长度大于12个核苷酸时,也可以使用该步骤。
一方面,进一步地,使在本文所述方法的步骤c)中获得的核酸分子群与具有连接酶活性的酶接触。优选地,在步骤d)期间或在步骤d)之后但在步骤e)之前的单独步骤中,使所述核酸分子群与具有连接酶活性的酶接触。更优选地,使所述核酸分子群同时与所述寡核苷酸探针和所述具有连接酶活性的酶接触,从而产生至少一种双链体形式的连续核酸分子(即,没有切口)。同时使用所述寡核苷酸探针和所述具有连接酶活性的酶有利地减少了进行该方法所需的时间。
在另一方面,使在本文所述方法的步骤c)中获得的所述核酸分子群与至少一种催化从双链核酸分子上切割5'核酸瓣的酶接触。所述酶因此优选地在切割后磷酸化寡核苷酸探针的5'端。然后可以在所得切口位点将所述5'端连接至核酸分子。在所述酶不磷酸化5'端的情况下,可以在连接之前使所述核酸分子群与磷酸化5'端的酶接触,例如T4多核苷酸激酶。
在一个特定的实施方案中,核酸分子群有利地与FEN1酶接触,所述FEN1酶切割杂交后可能存在于寡核苷酸探针中的任何5'DNA瓣(例如,如图5和图6所示)。可以在步骤d)期间或在步骤d)之后但在步骤e)之前的单独步骤中进行所述使核酸分子群与FEN1酶接触的步骤。在与FEN1酶接触之后或同时,所述核酸分子群可以与连接酶接触,从而封闭FEN1切割后剩余的切口。因此,尤其是,本文提供的方法可以进一步地包括从双链核酸分子切割5'核酸瓣的步骤和/或连接步骤。根据一个特定的实施方案,可以确定在用2类V型Cas蛋白-gRNA复合物切割后获得的突出端的3'端的确切位置,并且设计所述寡核苷酸探针使得在其5’端不存在多余的寡核苷酸。在这种情况下,不需要使核酸分子群与FEN1接触。或者,探针可包含增加探针与5'突出端杂交强度的修饰,例如碱基修饰、骨架修饰或5'或3'寡核苷酸修饰(例如,使用LNA、吖啶等),可以进行链置换,使得寡核苷酸探针的整个长度(包括与靶区域互补的序列)得以杂交。在这些情况下,不一定要进行连接。
寡核苷酸探针可进一步包含能够与捕获剂(例如捕获蛋白)结合的配体。如本文所用,术语“配体”是指与捕获剂具有亲和力的分子、肽、底物等。所述配体可包含官能团。当所述配体是肽时,其尤其可以包含天然、非天然和/或人工氨基酸。所述配体可以在与所述捕获剂相互作用时与其形成非共价或共价键。配体-捕获剂的相互作用在下面进一步详述。在一些情况下,所述配体可以是单链核苷酸突出端,其与锚定在支持物上的寡核苷酸至少部分(优选完全)互补。当使用多个寡核苷酸探针分离多个靶区域时,所述探针可以包含相同或不同的配体(例如,每个靶区域不同的配体,或每个靶区域组不同的配体)。优选地,当分离多个靶区域时,所有寡核苷酸探针将包含相同的配体。因此,本文所用的术语“杂交捕获”是指寡核苷酸与5'突出端杂交以形成双链体(例如,如本文提供的方法的步骤d)中),优选地,其中所述寡核苷酸与所述靶核酸连接形成连续的双链体,然后是从所述核酸分子群中分离所述双链体的步骤(例如,如本文提供的方法的步骤e)中),优选地,通过直接或间接捕获所述双链体(例如,通过寡核苷酸探针上的配体或与所述探针结合的其他分子上的配体,例如第二寡核苷酸分子、蛋白等)。
寡核苷酸探针可进一步地包含切割位点,例如尿嘧啶碱基、脱碱基位点或限制性位点。优选地,所述尿嘧啶碱基或脱碱基位点包含在不与5'突出端互补的寡核苷酸的单链区域内,因此不包含在双链体中。优选地,所述限制性位点包含在寡核苷酸的双链区域内。在一些情况下,可以通过形成双链体而产生所述限制性位点。这是有利的,因为可以通过在所述切割位点的切割从配体分离双链体。因此,根据优选的实施方案,所述寡核苷酸探针优选地包含切割位点,甚至更优选地包含尿嘧啶碱基、脱碱基位点或限制性位点。
双链体
在使所述核酸群与如上所述的寡核苷酸探针接触后,从步骤d)的核酸分子群中分离双链体,从而也从核酸分子群中分离核酸靶区域(例如,如在本文提供的方法的步骤e)中)。优选地,使步骤d)的核酸分子群(即,包含5'突出端和寡核苷酸探针之间的双链体)与捕获剂接触。当所述探针包含配体时,这是特别优选的。
如本文所用,术语“捕获剂”是指寡核苷酸、蛋白质或其他分子,其在与其配体相互作用时与该配体形成非共价或共价键。非共价键通常包括几种弱的相互作用,例如疏水性、范德华力和氢键,它们通常同时发生。在第一个示例中,当所述配体是酶的底物并且所述酶是捕获剂时,所述底物可以与酶非共价键键合。在第二个示例中,生物素配体(或生物素类似物,如脱硫生物素)将与链霉亲和素捕获剂结合,形成准共价键(quasi-covalent bond)。作为第三个示例,地高辛配体将与捕获剂非共价键键合,所述捕获剂是针对地高辛的抗体(抗-DIG)。根据一个具体示例,所述寡核苷酸探针是发夹适体,所述发夹适体包含地高辛配体,其可以与抗DIG捕获剂结合。
或者,“共价键”是指化学键的一种形式,其特征在于原子之间或原子与其他共价键之间共享电子对。作为第一个示例,当所述配体包含氨基酸时,所述氨基酸可以与捕获剂共价结合。在另一个示例中,所述配体将包含第一官能团,而所述捕获剂将包含第二官能团,所述第一和第二官能团相互作用以形成共价键,例如通过点击化学。所述配体和所述捕获剂之间的所述共价键可以是例如酰胺键、胺-硫醇键、Cu(I)-催化的叠氮化物-炔环加成、炔-硝酮环加成等。作为另一个示例,所述配体可包含能够与蛋白捕获剂的羧基(--COOH)或胺(-NH2)端反应的官能团(--COOH、--NH2、-OH等)。专利EP152886中描述的技术使用酶促偶联将DNA连接到捕获剂(如纤维素)上。专利EP146815还描述了将DNA连接到捕获剂的各种方法。类似地,专利申请WO92/16659提出了一种使用聚合物捕获剂来连接DNA的方法。寡核苷酸探针可进一步地包含连接配体的“间隔”分子或区域,其有利地为配体提供了额外的空间以结合其专用捕获剂。作为非限制性示例,所述间隔可以是多核苷酸区域、四甘醇(TEG)或本领域技术人员已知的任何其他间隔。或者,“间隔”可包含切割位点,例如TEV蛋白酶切割位点或尿嘧啶碱基、脱碱基位点或上述限制性位点,或由其组成。
捕获剂优选锚定在固体支持物上。在一些实施方案中,多种捕获剂被锚定到相同的固体支持物上。作为非限制性示例,所述捕获剂可以更具体地通过任何合适的结构或机制(例如,表达为融合、化学连接(例如,直接或间接)、酶促连接、通过接头(例如,肽、核酸、聚合物、酯键、PEG接头、碳链等))融合、拴系、连接等连接到固体支持物上。作为非限制性示例,可能的支持物包括:玻璃和改性或官能化玻璃、塑料(包括丙烯酸树脂、聚苯乙烯和苯乙烯与其他材料的共聚物、聚丙烯、聚乙烯、聚丁烯、聚氨酯、TeflonTM等)、多糖、尼龙或硝化纤维、陶瓷、树脂、二氧化硅或二氧化硅基材料(包括硅和改性硅)、碳、金属、无机玻璃、塑料、光纤束和各种其他聚合物。固体支持物可以选自例如孔、管、载玻片、板、树脂或珠子。在一些实施方案中,固体支持物(例如树脂、珠子等)是磁性的。在一些实施方案中,固体支持物(例如树脂、珠子等)是顺磁性的。当所述固体支持物是珠子时,珠子尺寸范围从纳米(例如100nm)到毫米(例如1mm)。
根据第一方面,在使所述核酸分子群与所述捕获剂接触之前,将捕获剂锚定到固体支持物。在其他情况下,在将所述捕获剂锚定到固体支持物之前,使核酸分子群与所述捕获剂接触。在这两种情况下,核酸靶区域都间接地连接到固体支持物。
在所述双链体和所述捕获剂之间形成键之后,例如,可以通过将所述双链体与所述群分离来将所述双链体从核酸分子群中分离。优选地,通过机械分离、洗涤或本领域技术人员已知的任何方法,使捕获剂锚定的支持物(以及因此使双链体和相关靶区域)与核酸分子群分离。优选地,根据本领域已知的方法通过洗涤分离所述双链体,其中去除非靶核酸分子(其未结合到固体支持物)。优选地,至少进行两次洗涤。作为非限制性示例,用于洗涤的缓冲液可包含或不包含洗涤剂。所述洗涤剂可以是离子或非离子洗涤剂。作为非限制性示例,所述洗涤剂可以是聚山梨醇酯-20(通常称为吐温20)、4-(1,1,3,3-四甲基丁基)苯基-聚乙二醇(通常称为Triton X100)或十二烷基硫酸钠(SDS)。洗涤剂可以以约0.05%至约1.5%的浓度包含在洗涤缓冲液中。可以用单一洗涤缓冲液或多种洗涤缓冲液洗涤双链体。每次洗涤可以使用相同的洗涤缓冲液或不同的洗涤缓冲液。例如,一次洗涤可使用含洗涤剂的洗涤缓冲液,而另一次洗涤可使用不含洗涤剂的洗涤缓冲液。
在某些情况下,包含分离的靶区域的分离双链体可直接用于下游应用。或者,在分离所述双链体后,优选地通过任何合适的机制(例如,化学或酶促切割)释放所述靶区域。作为一个非限制性示例,通过从所述双链体释放所述靶区域,从所述固体支持物(例如珠子)释放所述靶区。尤其是,从所述双链体释放所述靶区域可以包括在所述双链体内的位点特异性切割,例如在所述双链体内的限制性位点处的切割,例如通过使所述双链体与合适的限制酶接触。或者,通过任何合适的机制从固体支持物释放所述双链体(其结合了所述靶区域)本身。作为非限制性示例,切割(例如,化学地、酶促地)存在于捕获剂和双链体之间的切割位点(例如,位于寡核苷酸探针的单链区域或间隔区内)以释放双链体。
根据一个优选的实施方案,本文提供的方法进一步包括从所述靶区域释放所述双链体的步骤,其中从所述靶区域释放所述双链体优选地包括在所述双链体内的切割,更优选如上所述。
作为替代的非限制性示例,在捕获剂和配体之间非共价键键合的情况下,可以添加过量的配体,其中所述配体与结合的配体竞争,使得结合的配体(因此双链体和靶区域)与捕获剂解离。作为非限制性示例,所述配体和所述过量配体可以是地高辛。在特定的示例中,所述过量的配体可以是配体的变体,其中所述过量的配体比寡核苷酸探针中包含的配体具有对捕获剂更高的亲和力。这有利地促进了双链体的解离,从而促进了靶区域的解离。作为特定示例,所述配体可以是脱硫生物素,而所述过量的配体是生物素。在其他实施方案中,捕获剂本身从表面释放,从而释放包含捕获剂、双链体和靶区域的整个复合物。这些替代方案中的每一个都导致靶区域从固体支持物释放。有利地,酶促切割产生5'或3'突出端,优选3'突出端。
根据一个优选实施方案,步骤e)包括:
·使双链体与捕获剂接触,所述捕获剂优选结合寡核苷酸探针的配体。
优选地,所述捕获剂锚定到固体支持物。
根据优选的实施方案,当所述捕获剂锚定到固体支持物时,分离靶区域的方法进一步包括从所述固体支持物释放靶区域,优选地通过从所述靶区域释放所述双链体。
在一个具体的实施方案中,当所述靶区域在步骤a)中与第二2类V型Cas蛋白-gRNA复合物接触时,所述核酸群可以在步骤d)中与第二寡核苷酸探针接触,其中所述第二探针可以包含与第一探针中包含的配体相同或不同的配体(例如,两个探针都包含生物素配体,或者一个探针包含生物素配体,而第二探针包含地高辛配体)。
当两个所述探针都包含相同的配体时,两个双链体(即,存在于所述靶区域的两侧)将与给定的捕获剂键合。例如,当两个双链体都包含结合生物素的寡核苷酸探针时,两者都将键合到链霉亲和素包被的珠子上。这可以有利地改善富集,因为每个靶区域通过两个配体的共价或非共价键键合同时结合到固体支持物。
因此,根据特定实施方案,步骤e)包括:
·使所述第一和第二双链体与捕获剂接触,所述捕获剂结合所述第一和第二探针的配体,
·从所述靶区域释放所述第一和所述第二双链体。
根据替代的优选实施方案,步骤e)包括:
·使所述第一和第二双链体与捕获剂接触,其中所述捕获剂结合所述第一和所述第二探针的配体,并且其中所述捕获剂锚定到固体支持物,
·从所述固体支持物释放所述核酸靶区域,优选地通过从靶区域释放所述第一和所述第二双链体。
在替代的特定实施方案中,当所述第二寡核苷酸探针包含不同的配体时,优选地在分离第二双链体之前分离所述第一双链体。在这种情况下,第二次重复步骤e)。这在图5中具体地说明了,其中每个寡核苷酸探针包含不同的配体,并且进行相继分离。
根据一个优选实施方案,步骤e)包括:
·使所述第一双链体与第一捕获剂接触,所述第一捕获剂与所述第一探针的配体结合,
·从所述靶区域释放所述第一双链体,
·使所述第二双链体与第二捕获剂接触,所述第二捕获剂与所述第二探针的配体结合,
·从所述靶区域释放所述第二双链体。
根据特定实施方案,步骤e)包括:
·使所述第一双链体与第一捕获剂接触,所述第一捕获剂与所述第一探针的配体结合,
·从所述靶区域释放所述第一双链体,
·使发夹适体与第二捕获剂接触,所述第二捕获剂结合所述发夹适体的配体,
·从所述靶区域释放所述发夹适体。
本领域技术人员将理解,例如,当根据以上实施方案中的任一个使用两个或更多个捕获剂进行相继分离时,可以以任何顺序进行第一和第二双链体的分离。
任选的补充步骤
片段化
根据本发明的一个具体实施方案,核酸分子可以在上述方法中与2类V型Cas蛋白-gRNA复合物接触之前或之后被片段化,有利地在与2类V型Cas蛋白-gRNA复合物接触之后被片段化。如本文所用,术语“片段化”是指通过将核酸分子断裂成至少两个较小分子来增加核酸分子5'-和3'-游离端的数量。核酸片段化是有利的,因为根据本发明的方法可以更容易地分离较小的核酸分子。在该步骤中,有利地从所述靶中分离“非靶”核酸区域(例如,除与2类型Cas蛋白-gRNA复合物结合的靶区域和邻近位点以外的区域),从而在进行本发明的方法时改善靶区域的富集。
可以通过剪切进行片段化,例如通过超声降解法、水剪切、超声、雾化或通过酶促片段化,例如通过使用一个或多个位点特异性核酸内切酶,例如使用限制酶。当通过位点特异性核酸内切酶进行片段化时,可以使用一个或多个位点特异性核酸内切酶,优选1、2、3、4、5或更多个位点特异性核酸内切酶。应当理解,数据库中不断增加的可用序列数量使技术人员能够容易地鉴定切割位点位于包含靶区域的核酸以外的一个或多个限制酶。有利地,当同时使用两个或更多个酶时,所述酶彼此相容(例如,相同的缓冲液要求、失活条件)。片段化可以是部分的(例如,并非存在于群的核酸分子中的所有切割位点都被限制酶切割)或完全的。因此,术语“片段化”包括将与2类V型Cas蛋白-gRNA复合物结合的靶区域和邻近位点以外的核酸,至少部分地片段化。
因此,在一些实施方案中,制备包含靶区域的核酸的方法进一步包括以下步骤:
·将核酸分子群片段化,优选地通过使所述群与至少一种位点特异性核酸内切酶接触,更优选地与至少一种限制酶接触。
特别优选地,仅片段化非靶区域(即,与2类V型Cas蛋白结合的所述靶区域和所述第一位点以外的区域)。当第二位点也在邻近所述靶区域存在时,进一步优选地,仅将所述靶区域、所述第一位点和所述第二位点以外的区域片段化。
因此,根据特定实施方案,本文提供的方法进一步包括在步骤b)之前或期间将所述核酸分子群片段化,优选地通过使所述核酸分子群与至少一种位点特异性核酸内切酶接触,其中所述位点特异性核酸内切酶:
·不在靶区域或所述第一位点内切割,并且
·当所述分子包含第二位点时,不在所述第二位点内切割,
优选地,其中所述位点特异性核酸内切酶是限制酶。
本领域技术人员将理解,上述片段化步骤可以发生在任何步骤,例如在步骤a)之前或期间、在步骤a)和b)之间、在步骤b)期间、在步骤b)和c)之间、在步骤c)期间、或在步骤e)期间。在进行酶促片段化并且所述位点特异性核酸内切酶在与2类V型Cas蛋白-gRNA复合物相同的条件下(例如缓冲液、温度)切割的情况下,优选与使核酸分子群与2类V型Cas蛋白-gRNA复合物接触的步骤a)同时进行片段化步骤。
根据一个优选的实施方案,通过使核酸分子群与至少一种位点特异性核酸内切酶,优选至少1、2、3、4、5或更多种位点特异性核酸内切酶接触而使核酸分子片段化。优选地,所述位点特异性核酸内切酶是限制酶,更优选II型、III型或人工限制酶,甚至更优选是II型限制酶,和/或2类V型Cas蛋白-gRNA复合物,例如Cas12a-gRNA复合物。II型限制酶包括IIP、IIS、IIC、IIT、IIG、IIE、IIF、IIG、IIM和IIB型的类别,例如在Pingoud和Jeltsch,Nucleic Acids Res,2001,29(18):3705–3727中描述的。优选地,来自这些类别的一种或多种酶用于在本发明中的核酸分子片段。技术人员可以选择合适的酶。在所使用的多种限制酶彼此不相容的情况下,片段化可包括使用不同的限制酶和条件(例如温度、时间、缓冲液)的多个相继步骤。优选地,至少一种位点特异性核酸内切酶产生非回文突出端。优选地,至少50%、60%、70%、80%、90%、95%或100%的切割位点被位点特异性核酸内切酶切割。在位点特异性核酸内切酶是2类V型Cas蛋白-gRNA复合物的情况下,所述蛋白-gRNA复合物在包含正在制备的靶区域的核酸分子外的位点结合并切割。优选地,位点特异性核酸内切酶结合位于距包含靶区域的核酸100至5000个碱基、更优选距包含靶区域的核酸区域150至1000个碱基、甚至更优选距包含靶区域的核酸区域250至750个碱基的序列。优选地,位点特异性核酸内切酶靶向在核酸分子内多次存在的特异性序列,例如人基因组中的Alu元件,但在包含靶区域的核酸分子中不存在。
根据一个具体的实施方案,在使核酸分子群与2类V型Cas蛋白-gRNA复合物接触后,所述群同时与至少一种具有3'至5’单链核酸外切酶活性的酶和至少一种位点特异性核酸内切酶接触,根据上述任一实施方案片段化所述核酸分子。这是特别有利的,因为其减少了方法的持续时间。根据另一个优选的实施方案,所述具有3'至5'单链核酸外切酶活性的酶还可以具有位点特异性核酸内切酶活性。根据该实施方案,具有位点特异性核酸内切酶活性的酶的切割位点位于所述第一位点和所述靶区域之外。当存在第二位点时,切割位点也位于所述第二位点之外。使用具有核酸外切酶和位点特异性核酸内切酶活性的单一酶是特别有利的,因为其减少了所需试剂的数量和成本。
位点特异性核酸内切酶
在一些情况下,如上所述,该方法可以进一步包括在步骤c)之前的任何阶段(即,在步骤a)或步骤b)之前、期间或之后)使核酸分子群与位点特异性核酸内切酶接触。位点特异性核酸内切酶优选为Cas蛋白-gRNA复合物,更优选为2类Cas蛋白-gRNA复合物,甚至更优选为第二2类V型Cas蛋白-gRNA复合物。然而,在本发明的范围内也包括在特定位点稳定结合核酸的任何其他位点特异性核酸酶,例如转录激活因子样效应核酸酶(TALEN)或锌指蛋白。在将修饰分子的两端的情况下,该步骤特别有利(例如产生两个5'突出端,一个在靶区域的任一侧)。在希望获得在靶区域的一侧包含单个5'突出端而在靶区域的另一侧包含平端的分子的情况下,所述核酸分子群有利地与2类II型Cas蛋白-gRNA复合物接触,优选地与Cas9-gRNA复合物接触。
所述位点特异性核酸内切酶将在核酸分子内结合。
因此,根据一个优选的实施方案,本发明的方法进一步包括在步骤c)之前使所述核酸分子群与位点特异性核酸内切酶接触,所述位点特异性核酸内切酶优选为TALEN、锌指蛋白或2类Cas蛋白-gRNA复合物,更优选为第二2类V型Cas蛋白-gRNA复合物,其中gRNA包含与第二位点互补的引导区段,其中所述第二位点邻近所述靶区域,并且其中所述第一位点和所述第二个位点位于所述靶区域的两侧。当核酸分子群与多个Cas蛋白-gRNA复合物(例如,多个2类V型Cas蛋白-gRNA复合物)接触时,特别优选核酸分子群同时与所有所述Cas蛋白-gRNA复合物接触。这是有利的,因为该方法的持续时间减少了。优选地,所述位点特异性核酸内切酶是Cas12a-gRNA复合物。优选地,PAM位点紧邻核酸靶区域。因此,根据该方法的一个具体实施方案,步骤a)包括使核酸分子群与第一和第二Cas12a-gRNA复合物接触,所述第一和第二复合物分别与第一和第二位点结合,所述第一和第二位点位于所述靶区域的附近和两侧。
根据一个优选的实施方案,位点特异性核酸内切酶结合位于距离2类V型Cas蛋白-gRNA-核酸复合物至少50个核苷酸,优选至少100、250、500、1,000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、500,000、750,000或1,000,000个核苷酸的位点。因此,根据优选的实施方案,靶区域的长度至少为至少50、100、250、500、1,000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、500,000、750,000或1,000,000个核苷酸。
根据一个优选的实施方案,当所述位点特异性核酸内切酶是第二2类V型位点特异性核酸内切酶时,使所述群与包含至少部分与所述第二位点中的第二5'单链突出端互补的序列的第二寡核苷酸探针接触,从而形成第二双链体。在这种情况下,如本文所讨论的,所述第一和第二探针优选地包含不同的配体,所述配体结合不同的捕获剂。
发夹适体
在一些情况下,该方法可进一步包括使核酸分子群与发夹适体接触的步骤。发夹适体与存在于所述群中的一个或多个核酸分子的一个或多个游离端结合。可以在与所述2类V型Cas蛋白-gRNA复合物接触之前、或同时进行所述步骤。当进行片段化时,所述步骤优选在片段化后进行。如本文所用,术语“发夹”或“发夹适体”是指碱基本身进行配对以形成具有双链茎和环的结构的分子,其中一条链的5'端与另一条链的3'端通过未配对的环物理连接。所述物理连接可以是共价的或非共价的。优选地,所述物理连接是共价键。如本文所用,术语“环”是指核酸链的一连串核苷酸,其不通过氢键与所述核酸的相同或另一条链的核苷酸配对,因此是单链的。如本文所用,“茎”是指链内配对的区域。优选地,茎包含至少3、5、10或20个碱基对,更优选包含至少5、10或20个碱基对,甚至更优选包含至少10或20个碱基对。当发夹结合双链核酸分子的游离端时,发夹的3'和5'端分别连接到双链核酸分子的5'和3'端。所述发夹可以与突出端或平端结合。因此,发夹适体不需要与特定的序列或位点结合。
优选地,所述发夹适体与核酸分子的一个或两个游离端结合。所述发夹适体可特异性结合核酸分子的游离端之一或非特异性结合所有核酸分子的所有游离端。作为非限制性示例,可以通过用非回文限制酶片段化核酸分子来进行特异性结合,从而在核酸分子的每个新的游离端产生不同的突出端。在其他情况下,核酸分子可包含平端,发夹适体可连接至所述平端,从而发生非特异性结合。在另一个示例中,核酸分子群(片段化的或未片段化的)可以经历A-加尾,使得包含合适的“T”核苷酸突出端的发夹适体然后可以被杂交并连接到所述位点。在一个优选的实施方案中,由2类V型Cas蛋白-gRNA复合物结合的所述第一位点和所述游离端(以及因此所述发夹适体)位于所述靶区域的两侧。在去除2类V型Cas蛋白-gRNA复合物后,可以通过使核酸群与发夹适体接触来获得这种结构,所述发夹适体与核酸靶区域邻近的游离端特异性结合,其中所述第一侧和所述游离端位于所述靶区域的两侧。或者,所述发夹适体可与所有游离端结合,其中在与所述2类V型Cas蛋白-gRNA复合物接触之前或同时,使所述核酸群与所述发夹适体接触(也参见图3)。
如本文所用,术语“游离端”是指核酸分子的末端,其可在5'端包含磷酸基团和/或在3'端包含羟基。游离端可以是平端或包括单链突出端。所述单链突出端可以是3'或5’突出端。所述单链突出端优选具有小于100、50、25、10、5、4、3或2个核苷酸的长度,更优选所述单链突出端具有1个核苷酸的长度。
根据一个优选的实施方案,发夹适体结合位于距离2类V型Cas蛋白-gRNA核酸复合物至少50个核苷酸,优选至少100、250、500、1,000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、500,000、750,000或1,000,000个核苷酸的游离端。因此,根据优选的实施方案,靶区域的长度至少为至少50、100、250、500、1,000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、100,000、200,000、500,000、750,000或1,000,000个核苷酸。
优选地,所述发夹适体与核酸分子连接,优选地与核酸分子连接。更优选地,步骤a)包括使核酸群与发夹适体接触并使所述发夹适体与核酸分子游离端连接。在一个优选的实施方案中,如果需要(例如,当样品包含环状核酸分子时),该方法还包括在使所述群与发夹适体接触之前将核酸分子群线性化的步骤。
根据一个特定的实施方案,当分离多个靶区域时,除了与2类V型Cas蛋白-gRNA复合物接触外,还可以使核酸分子群与位点特异性核酸内切酶(优选如本文所述的2类Cas蛋白-gRNA复合物)和发夹适体接触。所述核酸分子群可以同时或以任何顺序相继与所述分子接触。
孵育和/或储存
根据本发明的特定实施方案,可以在本文提供的方法的步骤c)、步骤d)或步骤e)之后储存核酸分子。
根据特定实施方案,可以在本文提供的方法的任何步骤之前、期间或之后孵育核酸分子。优选地,可以在与2类V型Cas蛋白-gRNA复合物接触(步骤a)期间或之后、在与至少一种具有3'至5'单链核酸外切酶活性的酶接触(步骤b)期间或之后、在去除V型Cas蛋白-gRNA复合物期间、在使步骤c)的群与寡核苷酸探针接触的步骤d)期间、和/或在从核酸分子群分离所述的双链体的步骤e)期间,对核酸分子群进行孵育。优选地,对核酸分子群进行孵育的时间范围为15分钟至2小时。技术人员尤其知道,使酶活性最大化、或使方法的持续时间减少同时使酶活性最大化的适当的孵育时间/温度,并且如果需要,还可以进一步调整孵育时间/温度。
下游应用
根据上述方法之一分离的核酸靶区域有利地被高度富集。分离的核酸特别可用于广泛的应用中。事实上,根据本发明分离的核酸可以进行进一步的加工、反应或分析,这些加工、反应或分析可以在相同容器中进行,也可以在不相同的容器中进行。例如,根据本发明分离的核酸可用于检测、克隆、测序、扩增、杂交、cDNA合成、诊断和技术人员已知的需要核酸的任何其他方法。在一些情况下,可以对分离的核酸靶区域进行进一步的分离、富集或纯化。
本发明的方法特别适用于在分离一个或多个靶区域后产生发夹文库,其中每个发夹包含至少一个核酸靶区域。因此,该方法特别便于检测或确定感兴趣靶区域的序列,例如,从生物样品中的整个核酸分子群中分离的特定等位基因,或感兴趣靶区域的表观遗传修饰。
根据本发明的优选方面,本发明的方法可进一步包括额外的步骤。作为一个非限制性示例,可以使用众所周知的纯化方法(例如珠子或柱纯化,例如用顺磁珠纯化)进一步纯化分离的核酸,以去除蛋白质,例如蛋白酶、盐、EDTA、过量的寡核苷酸等。作为一个非限制性示例,核酸分子可以杂交和/或连接到靶区域或邻近靶区域的位点,核酸分子中的单链缺口可以通过合成互补链和/或进行链置换而被补平。这些额外步骤中的一个或多个对于生成发夹文库特别有用,但在为其他下游应用制备分离的核酸时也可能是必要的。在一个具体示例中,当根据本发明的方法分离一个或多个双链核酸靶区域或包含所述靶区域的分子时,然后可以将如本文先前定义的发夹分子连接到所述靶区域或分子的一个或两个游离端。优选地,将发夹连接到分离的核酸靶区域或分子的一个游离端(也参见图6)。优选地,所述分离的核酸靶区域或分子的至少一个游离端包含3'或5'突出端。优选地,所述发夹包含分别与所述分离的核酸靶区域或分子的5'或3'突出端中的至少一个至少部分互补的3'或5'突出端。优选地,将所述发夹连接到分离的核酸靶区域或分子的一端上的3'突出端。作为替代示例,有利地在FEN1酶的存在下将发夹连接到突出端,所述FEN1酶切割5'DNA瓣。事实上,发明人已经发现,在使用催化活性的Cas12a制备待分离的片段的情况下,在FEN1存在下将发夹连接到突出端促进了寡核苷酸5'端存在的突出核苷酸的切割(参见图7)。实际上,2类V型Cas蛋白(例如Cas12a)并不总是在相同位置切割,如图1C所示。在连接所述发夹之后,可以使用本领域公知的方法进行缺口补平和连接反应。
因此,根据第一实施方案,本发明的方法进一步包括以下步骤:
·将一个或多个单链或双链核酸分子杂交和/或连接到分离的核酸靶区域。
优选地,所述单链或双链核酸分子与邻近靶区域的5'或3'突出端杂交。杂交后,优选地进行连接。在特定实施方案中,该方法可包括以下步骤:
·将至少一个单链核酸分子杂交到邻近靶区域的5'或3'突出端,和
·将所述单链核酸分子连接到双链区域。
然而,当单链核酸分子(例如,寡核苷酸)与直接邻接双链区域的靶的单链区域结合时,也可以在没有杂交的情况下直接进行连接。
根据优选的实施方案,所述单链核酸分子与寡核苷酸探针的单链区域杂交,该寡核苷酸探针保留在包含靶区域的核酸分子内。优选地,所述寡核苷酸探针包含所有单链核酸分子都可以杂交的单链序列。所述单链序列可以是人工序列(即,不是天然存在的)。当分离多个核酸靶区域时,探针内这种单链序列的存在是特别有利的,因为不需要设计多个序列特异性单链核酸分子,例如用于构建发夹分子。实际上,所有单链核酸分子都可以结合相同的序列,该序列存在于所有探针中。因此,探针中的所述序列和包含互补序列的所述单链核酸分子被称为“通用的”。这在图8中具体地说明了。
根据另一个实施方案,该方法包括以下步骤:
·使至少一种单链核酸分子与分离的靶区域杂交,
·使单链核酸分子延伸至双链区域,优选地通过使所述分离的靶区域与核酸聚合酶接触,和
·将所述延伸的单链核酸分子连接到双链区域。
根据一个优选的实施方案,至少一个单链核酸分子在3'突出端上杂交和聚合。优选地,所述单链核酸分子与位于寡核苷酸探针提供的序列上的第一位点和靶区域之外的区域杂交。优选地,所述单链核酸分子与位于距双链体2个碱基或更多个碱基处的区域杂交,所述双链体由寡核苷酸探针和5'突出端形成(也参见,例如图6(E)、图8)。杂交、延伸和连接的方法是技术人员熟知的。
在一些情况下,可以重复任何上述实施方案,例如将第二单链核酸分子添加到分离的靶区域(参见,例如图6)。所述第二单链核酸分子可以与相同链或相反链杂交,并且可以包含或不包含标记或配体。所述单链核酸分子可以与分离的靶区域的序列仅部分互补。所述单链核酸分子可优选地包含间隔区,例如,12-碳间隔区或本文所述的或技术人员已知的任何其他间隔区,其不与分离的靶区域结合(例如,不与分离的靶区域的序列互补)。优选地,单链核酸分子包含用于连接的5'磷酸基团。
任选地,然后去除过量的试剂,例如非杂交的单链核酸分子。例如,通过使包含分离的靶区域的样品与具有3'至5-核酸外切酶活性的酶(更优选ExoI)接触,消除非杂交的单链核酸分子。
优选地,根据本文所述的任何方法获得发夹结构,所述方法特别适用于下游应用,例如WO 2011/147931、WO 2011/147929、WO 2013/093005和WO2014/114687中描述的那些,在此通过引用整体并入。或者,本文产生的发夹结构可特别适合用作发夹前体分子(例如,WO 2016/177808中描述的HP2分子,其全部内容通过引用并入本文)。
优选地,本文描述的任何实施方案的一个或多个单链核酸分子具有优化的杂交特异性,如Zhang等人,Nat Chem,2012,4(3):208-214中所述,该文献通过引用整体并入本文。或者,本文描述的任何实施方案的所述一个或多个单链核酸分子可以是简并的。
优选地,任何上述实施方案的一个或多个单链核酸分子包含标记或配体。作为非限制性示例,标记或配体可以是FITC、地高辛、生物素或技术人员已知的任何其他标记。可以使用例如化学偶联和化学交联剂的技术将所述标记或配体与蛋白质缀合。有利地,可以在样品内检测并且任选地定量所述靶区域,例如通过荧光标记或技术人员已知的其他可检测标记或配体。在一些情况下,可以使用所述配体进一步分离或纯化靶区域。在第一方面,根据技术人员已知的方法,当寡核苷酸用生物素标记时,可以通过进一步的下拉反应分离靶区域,例如在用链霉亲和素包被的珠子上。在第二方面,靶区域可以通过所述标记或配体连接到支持物,例如珠子或芯片。优选地,所述支持物被官能化以促进标记的靶区域的连接,所述标记或配体与支持物上存在的官能团反应(例如,支持物可以包被有链霉亲和素或COOH基团,其与合适的标记或配体反应)。
根据一个特定的实施方案,任何上述实施方案的至少一个单链核酸分子包含与结合到固体支持物(例如表面)的寡核苷酸互补的序列,当所述序列不包含在寡核苷酸探针中时。优选地,所述寡核苷酸在其3'端包含修饰,以防止延伸。带有或不带有标签的单链核酸分子杂交和连接到3'突出端,有利地产生发夹结构,该结构特别适用于下游应用,例如在WO2011/147931、WO 2011/147929、WO2013/093005和WO 2014/114687中描述的那些。优选地,本文描述的任何实施方案产生具有“Y”形的发夹。
本发明进一步允许技术人员列举携带所述序列的核酸分子数。根据优选的实施方案,本发明的方法进一步包括如WO2013/093005中所述,检测和定量核酸分子。
本发明的分离靶区域特别适合通过以下方法进行下游分析:单分子分析方法,例如WO 2011/147931和WO 2011/147929中描述的方法;核酸检测和定量方法,例如WO2013/093005中描述的方法;以及WO 2014/114687中描述的检测与核酸结合的蛋白的方法。因此,可以在这些申请中找到本发明方法的进一步实施方案和应用,这些申请通过引用整体并入本文。
根据本发明的优选实施方案,方法包括富集包含在分离的靶区域内的SNP或遗传嵌合。在某些情况下,SNP或遗传嵌合位于靶区域本身内(因此,其不位于2类V型Cas蛋白-gRNA复合物中的gRNA识别的位点内)。然而,在其他情况下,SNP或遗传嵌合可位于2类V型Cas蛋白-gRNA复合物中的gRNA识别的位点。在一个具体实施方案中,gRNA包含对应于SNP的次要等位基因的核苷酸碱基。当给定基因座存在多个SNP等位基因时,可以提供多个gRNA分子,对应于每个等位基因,优选地对应于每个次要等位基因。在提供对应于主要和次要等位基因的gRNA分子的情况下,可以定量包含每个等位基因的分离的靶区域的数量,例如以确定受试者在SNP基因座是纯合子还是杂合子。优选地,对应于SNP基因座的碱基位于gRNA序列内,位于相对于PAM位点的碱基-1至-10,优选-1至-6,优选-4、-5或-6中的任一个。事实上,当这些碱基中的一个或多个发生错配时,gRNA与包含SNP基因座的区域的杂交会减少。在这种情况下,核酸区域免受核酸外切酶消化的保护也被减少或消除。这种定位是特别有利的,因为通过降低的错误可能性可以确定SNP的存在或不存在。在一些情况下,对靶核酸区域进行测序以确定SNP基因座上的等位基因。当使用包含SNP基因座上的简并碱基的gRNA来鉴定可能存在于靶区域内邻近SNP基因座上的等位基因时,或者当所述SNP包含在靶区域本身(即,gRNA与邻近所述靶区域的位点互补)时,尤其要进行这种测序。事实上,如本领域技术人员众所周知的,基因组中彼此靠近的SNP倾向于一起遗传。
靶区域切割被减少或消除的程度将根据实验条件、使用的2类Cas蛋白和/或使用的gRNA而不同。例如,已知Cas12a具有比Cas9更高的结合特异性(Strohkendl等人,Molecular Cell,2018,71:1-9)。因此,当使用Cas9时,杂交特异性或对包含错配区域的保护,将比使用Cas12a时更大。根据是否需要分离包含错配的区域,尤其可以使用具有优化的结合特异性的Cas12a蛋白或其变体。
根据本发明的优选实施方案,该方法可以进一步包括对分离的靶区域进行测序。许多测序方法是本领域可用的。本发明的方法特别适用于产生用于单分子测序方法的发夹,例如在WO 2011/147931或WO 2011/147929中描述的那些。分离的核酸可进一步用作特异性或非特异性聚合酶链反应、等温扩增如环介导的等温扩增、链置换扩增、解旋酶依赖性扩增、切口酶扩增反应、逆转录、酶消化、核苷酸并入、寡核苷酸连接和/或链侵入的模板。分离的核酸也可用作测序的底物,例如Sanger双脱氧测序或链终止、全基因组测序、基于杂交的测序、焦磷酸测序、毛细管电泳、循环测序、单碱基延伸、固相测序、高通量测序、大规模平行标识测序、基于纳米孔的测序、透射电子显微镜测序、光学测序、质谱、454测序、可逆终止子测序、“配对末端”或“配对”测序、核酸外切酶测序、连接测序(例如SOLiD技术)、短读取测序、单分子测序、化学降解测序、边合成边测序、大规模平行测序、实时测序、半导体离子测序(例如Ion Torrent)、双端双标签的多重测序(MS-PET)、液滴微流体测序、部分测序、片段作图,以及这些方法的任意组合。
根据一个优选的实施方案,本发明的方法还包括通过单分子测序、下一代测序、部分测序或片段作图对靶区域进行测序,更优选地通过如WO 2011/147931或WO2011/147929中所述的单分子测序的方式对靶区域进行测序。根据本发明的优选实施方案,方法可进一步包括检测蛋白质与特定核酸序列或位点的结合。技术人员可以使用多种检测蛋白质结合的方法。本发明的方法特别适用于产生发夹,所述发夹用于使用单分子进行蛋白质结合方法,例如WO 2014/114687中描述的方法。分离的靶区域可进一步用作检测蛋白质与核酸结合的底物,例如用作检测表观遗传修饰的底物。分离的靶区域可用于,例如亚硫酸氢盐转化、高分辨率熔解分析、免疫沉淀(例如ChIP、enChIP)、微阵列杂交和技术人员熟知的核酸/蛋白质相互作用的其他分析中。如本文所用,术语“表观遗传修饰”是指在核酸分子合成之后发生的构成所述核酸分子的碱基的修饰。作为一个非限制性示例,碱基修饰可能由于对所述碱基的损坏。表观遗传修饰包括,例如尤其是,DNA中的3-甲基胞嘧啶(3mC)、4-甲基胞嘧啶(4mC)、5-甲基胞嘧啶(5mC)、5-羟甲基胞嘧啶(5hmC)、5-甲酰基胞嘧啶(5fC)和5-羧基胞嘧啶(5caC)和6-甲基腺苷(m6A)、RNA中的5-羟甲基尿嘧啶(5hmU)和假尿苷、以及DNA和RNA中的3-甲基胞嘧啶(3mC)和N6-甲基腺苷(m6A)。
同样,该方法可以进一步包括检测由核酸损伤如DNA损伤引起的修饰碱基。由于可能对分离核酸进行的化学(即嵌入剂)、辐射和其他诱变,DNA损伤不断发生。由这些类型的DNA损伤引起的DNA碱基修饰广泛存在,并在影响生理状态和疾病表型方面发挥重要作用。示例包括8-氧代鸟嘌呤、8-氧代腺嘌呤(氧化损伤;衰老;阿尔茨海默病;帕金森病)、1-甲基腺嘌呤、6-O-甲基鸟嘌呤(烷基化;胶质瘤和结直肠癌)、苯并[a]芘二醇环氧化物(BPDE)、嘧啶二聚体(加合物形成;吸烟、工业化学品暴露、紫外线暴露;肺癌和皮肤癌)和5-羟基胞嘧啶、5-羟基尿嘧啶、5-羟基甲基尿嘧啶和胸腺嘧啶乙二醇(电离辐射损伤;慢性炎症疾病、前列腺、乳腺癌和结直肠癌)。
优选地,本发明的方法进一步包括检测蛋白质与特定核酸序列的结合,如WO2014/114687中所述。
试剂盒
本发明的另一个目的是一种可用于根据本文所述的本发明的任何方法或实施方案的核酸分离的试剂盒。该试剂盒将提供用于根据本发明的核酸分离和富集的材料和方法,如前文所述。因此,该试剂盒将包括用于根据本文所述方法分离核酸所必需的材料。根据本文所述的任何方式,试剂盒内容可以根据待使用的2类V型Cas蛋白(例如Cas12a、C2c1)、靶向的核酸区域、捕获方法等而不同。
根据一个特定的实施方案,本发明的试剂盒包含:
a)2类V型Cas蛋白,优选具有催化活性的Cas12a,
b)至少一种gRNA,所述gRNA与邻近核酸靶区域的位点互补,
c)至少一种具有核酸外切酶活性的3'至5’单链酶,优选核酸外切酶I,
d)寡核苷酸探针,
e)任选地,至少一种蛋白酶,和
F)任选地,使用通知。
根据进一步的实施方案,所述试剂盒包含EDTA(优选地EDTA的溶液),代替至少一种蛋白酶,或除了至少一种蛋白酶之外所述试剂盒还包含EDTA。
在一些情况下,该试剂盒可进一步包含2类Cas蛋白,优选地包含第二2类V型Cas蛋白。优选地,该试剂盒包含至少两个gRNA,更优选地至少三个、四个、五个、六个、10个gRNA,每个所述gRNA与特定的核酸区域互补。
根据一个特定的实施方案,所述试剂盒包含每个靶区域的两个gRNA,其中所述gRNA与第一和第二位点互补,所述第一和第二位点位于靶区域的两侧,如上所述。使用两个2类V型Cas蛋白-gRNA复合物是有利的,因为由此可以在靶区域的两侧产生5'突出端。
在需要下游多重分析的情况下,试剂盒可以包含两个或更多个gRNA,每个gRNA至少部分地与不同靶区域邻近的位点互补。根据一个特定的实施方案,所述试剂盒包含2类V型Cas蛋白和2类II型Cas蛋白,更优选地包含Cas9,以及相应的适当gRNA,所述gRNA分别至少部分地与第一和第二位点互补,所述位点位于靶区域的两侧。或者,所述2类V型Cas蛋白的两个gRNA可以识别两个不同的位点,所述位点位于本文所述的靶区域的两侧。在一些情况下,该试剂盒包含一个或多个如本文所述的Cas蛋白,所述Cas蛋白已经预加载了gRNA,从而形成一个或多个Cas蛋白-gRNA复合物,优选地形成一个或多个2类V型Cas蛋白-gRNA复合物。根据一个特定的实施方案,当试剂盒包含多个2类V型Cas蛋白-gRNA复合物时,所述复合物优选地在单个容器中混合在一起。优选地,所述试剂盒中包含的每种Cas蛋白-gRNA复合物的比率已经预先确定,以便于使用。
优选地,gRNA的引导区段与靶区域邻近的区域互补,所述靶区域是临床诊断或遗传风险评估中感兴趣的。例如,所述gRNA与非编码靶区域邻近的位点互补,所述非编码靶区域位于septin 9(SEPT9)或表皮生长因子受体(EGFR)编码区的下游。事实上,已知这些区域的表观遗传状态对癌症结果很重要。作为另一个示例,所述gRNA与参与脆性X染色体综合征的基因FMR1的下游区域邻近的位点互补。该基因中5'-CGG-3'重复序列拷贝数的增加是导致疾病的原因。还已知该CpG岛上游区域的表观遗传状态(例如甲基化)也与疾病的临床严重程度有关。作为另一个示例,所述gRNA与DMPK基因邻近的位点互补。实际上,该基因中5'CTG-3'重复序列数的增加是1型强直性营养不良的特征。作为进一步的示例,所述gRNA与位于cfDNA分子中的区域互补,从而能够分离包含在cfDNA分子中的邻近靶区域。事实上,特定的cfDNA(例如cffDNA或ctDNA)的分离在各种下游应用中具有特别重要的意义,包括产前检测(例如,参见Gahan,Int J Womens Health.2013,5:177–186),和癌症诊断和/或监测(例如,参见Ghorbian和Ardekani,Avicenna J Med Biotech.2012,4(1):3-13)。cfDNA内包含的一个或多个靶区域可以有利地直接从生物样品(例如血浆、血清或尿液样品)中分离。
本文所述的试剂盒优选能够分离至少两个不同的靶区域。事实上,已表明通过多路来改善某些表观遗传癌症诊断测试的价值,其中在单个测试中分析两个或更多个不同靶区域的序列或结构特征(例如甲基化状态)。作为非限制性示例,本文提供的试剂盒能够根据本文所述的任何方法分离靶区域,所述靶区域包含人GSTP1、APC和/或RASSF1基因或经DNA甲基化的其适当的区域,或由其组成。然后可以例如根据本文提供的方法(例如WO2014/114687中提供的方法)对所述分离的靶区域进行甲基化状态的下游分析。这样的试剂盒在确定受试者发生前列腺癌的风险方面特别有利(Wojno等人,American health&drugbenefits,2014,7(3):129),其优于现有的试剂盒,尤其是优于使用亚硫酸氢盐处理样品DNA,然后进行PCR的这些试剂盒。与本发明的方法相反,用现有试剂盒分离的核酸可能尤其容易出现假阳性和假阴性信号,以及由于苛刻和低效的化学处理而导致的样品损失。
根据一个特定的实施方案,试剂盒包含每个靶区域的两个gRNA,所述gRNA与本文定义的人基因GSTP1、APC和RASSF1的两侧的位点互补。
作为另一个非限制性示例,本发明的试剂盒能够分离位于人基因组内以下位置的以下靶区域中的至少一个:17号染色体上的65676359-65676418、9号染色体上的21958446-21958585、6号染色体上的336844-336903、21号染色体上的33319507-33319636、6号染色体上的166502151-166502220、18号染色体上的896902-897031、5号染色体上的32747873-32748022、6号染色体上的27949195-27949264、7号染色体上的27191603-27191672、16号染色体上的170170302-170170361、15号染色体上的30797737-30797876、1号染色体上的7936767-7936866、1号染色体上的170077565-170077634、2号染色体上的1727592-1727661、8号染色体上的72919092-72919231,优选所有15个靶区域。所述靶区域的分离是有利的,因为所述靶区域的DNA甲基化状态的下游分析可用于检测膀胱癌。现有的试剂盒使用甲基化敏感的限制酶,然后进行PCR来识别甲基化序列,因此可能会受到靶区域中存在适当限制性位点的限制,使测试设计复杂化,并限制了灵敏度。因此,用于分离和检测膀胱癌的改善的试剂盒可优选地包含至少部分与靶区域侧翼的序列互补的两个gRNA、和至少部分与位于所述靶区域末端的序列互补的另外两个gRNA,用于根据本文描述的方法分离这15个靶区域中的每一个,优选用于分离所有15个靶区域。
作为非限制性示例,靶区域可包含或不包含特定序列、特定序列重复序列的数量、一个或多个核苷酸碱基修饰。作为进一步的非限制性示例,用于分离的靶区域可以具有特定长度或不同于所述特定长度的长度。优选地,本发明的试剂盒还包含至少一种限制酶和/或RNase。优选地,该试剂盒还包含合适的2类V型Cas蛋白反应缓冲液和合适的2类II型Cas蛋白反应缓冲液,例如以下实施例中详述的那些。
该试剂盒可以进一步包括额外的元件,这对于给定的应用是合适的。例如,该试剂盒还可包含一个或多个发夹适体或位点特异性核酸内切酶、连接酶和/或聚合酶、寡核苷酸、dNTP、合适的缓冲液等。根据一个具体实施方案,所述试剂盒进一步包含连接酶和/或5'瓣核酸内切酶,优选FEN1。
本发明的额外的特征和有利方面在以下附图和实施例中说明。
附图说明
图1:将ExoI添加到Cas12a-gRNA复合物结合的分子群,以产生更长的5'突出端,在切割位点具有较小的变异性。(1A)通过PCR扩增包含SEPT9.2 crRNA#1(SEQ ID NO:2)引导的靶序列的片段(SEQ ID NO:3),其中使用引物PS1462和PS1464,在引物的5'端标记有FITC荧光(分别为SEQ ID NO:4和5)。然后将该片段与单独的Cas12a-gRNA复合物一起孵育,以确定非靶链上的切割位置(左);或者同时与Cas12a-gRNA复合物和ExoI一起孵育,以通过ExoI处理确定3'端的隐没的碱基数(中);或者与Cas12a-gRNA复合物孵育,然后用T4 DNA聚合酶补平以确定与gRNA杂交的链上的切割位置(右)。(1B)通过(1A)中描述的三个实验设置的毛细管电泳获得的结果的代表性轨迹,其允许我们能够以单碱基分辨率确定非杂交链的3'端的位置以及5'杂交链内的切割位置。每个反应都并入已知尺寸的PCR片段(129、273和503bp),并标记有FITC(对应于SEQ ID NO:6至8),用作标记物。如图所示,根据129和273bp峰比对来自三个不同实验的轨迹。中间图中指向左侧的箭头表示通过添加ExoI使片段变短了(因此迁移到更靠近较低标记的129个碱基处)。底部图中指向右侧的箭头表示5'突出端被T4 DNA聚合酶补平(因此迁移到更靠近上部标记物,在273bp)(1C)。基于(1A)中提供的实验设置确定SEPT9.2 crRNA#1与LbaCas12a(NEB)复合的切割位置。相对于gRNA序列(下划线)的第一个碱基提供图中指示的位置,所述gRNA序列从与PAM位点邻近的第一个碱基开始。
图2:使用单个Cas12a-gRNA复合物的本发明方法的步骤a)至c)的示意图。(A)核酸分子群可以任选地被机械或酶促地片段化以产生随机片段。(B)在片段化之后,使核酸分子群与包含引导区段的Cas12a-gRNA复合物接触,该引导区段至少部分与位于邻近靶区域的位点互补。在孵育过程中,靶向任何单链区域以通过ExoI处理进行消化。(C)然后去除Cas12a-gRNA复合物(图中称为“纯化”)。所得片段包含更长且更明确的5'突出端,其随后可经过本发明方法的步骤d)和e)(此处未显示)。
图3:本发明方法的步骤a)至c)的示意图,其中使用Cas12a-gRNA复合物和发夹适体作为替代策略。在可选的片段化和末端修复(A)的第一步之后,可以将发夹(或其他)适体连接到所有游离端,例如使用T/A克隆(B)。(C)在片段化之后,使核酸分子群与包含引导区段的Cas12a-gRNA复合物接触,该引导区段至少部分与位于邻近靶区域的位点互补。在孵育过程中,靶向任何单链区域以通过ExoI处理进行消化。只有包含与gRNA互补的序列的位点才被靶向用于这种处理,因此只有这些位点将包含单链5’突出端。(D)然后去除Cas12a-gRNA复合物。得到的包含5'单链突出端的核酸分子群然后可以进行本发明方法的步骤d)和e)(此处未显示),从而分离核酸靶区域。
图4:本发明方法的步骤a)至c)的示意图,其中使用两个Cas12a-gRNA复合物作为替代策略。(A)通过Cas12a-gRNA复合物的gRNA识别位点的图示,其中设计gRNA使得PAM序列位于紧邻靶区域,如指向内侧的箭头所示。(B)两个Cas12a-gRNA复合物分别在靶区域的第一和第二侧靶向靶区域侧翼的第一和第二位点,所述两个Cas12a-gRNA复合物可与ExoI处理同时使用,以在待分离的靶区域的两侧生成5’突出端。未在此处描述片段化,因为该步骤是可选的。(C)然后去除Cas12a-gRNA复合物。所得的包含5'突出端的核酸分子群然后可以进行本发明方法的步骤d)和e)(此处未显示),从而分离核酸靶区域,然后可以在下游应用中使用,例如但不限于克隆、文库制备或发夹产生。
图5:可以使用位于所述靶区域两侧的两个寡核苷酸探针来分离靶区域。(A)至(C)按照图4中的图例所述进行。(D)用Cas12a和ExoI处理后,使核酸分子群与含有各种配体(例如但不限于生物素和洋地黄毒苷)的合成寡核苷酸探针接触,这些配体在其5'端与至少部分与Cas12a gRNA互补的位点互补。使用FEN1核酸内切酶去除寡核苷酸探针的5'瓣,并用连接酶封闭产生的切口。这允许在分子的每一端共价连接寡核苷酸探针。(E)然后可以如本文所述分离靶区域。(F)可以使用第二配体重复分离步骤。这有利地增加了方法的特异性。(G)所得分子可用于下游应用,例如发夹或文库产生。
图6:用于从大肠杆菌基因组DNA产生适用于SIMDEQ仪器的分子(发夹结构)的方法的示意图。(A)通过Cas12a-gRNA复合物的gRNA识别位点的图示,其中设计gRNA使得PAM序列位于邻近靶区域,如指向内侧的箭头所示。(B)感兴趣的区域(靶#1和2,SEQ ID NO:9和10)的两侧侧翼为两个不同的Cas12a-crRNA复合物(SEQ ID NO:11至14),所述复合物分别与第一和第二位点结合。同时添加3'至5’单链核酸外切酶。由此在靶区域的两侧产生5'突出端。(C)然后去除Cas12a-gRNA复合物(图中称为“纯化”)。优选地也去除盐和任何其他蛋白质。(D)寡核苷酸探针PS1466和PS1468(SEQ ID NO:15和16)包含允许与支持物杂交的必要序列(因此称为表面寡核苷酸),所述寡核苷酸探针在其5'端具有对应于Cas12a crRNA序列的序列(因此它们与邻近靶区域的5'突出端互补)。含有这些寡核苷酸的反应用FEN1和Taq DNA连接酶补充,以去除寡核苷酸的5'瓣区域,并封闭5'瓣消化产生的切口。(E)将具有与寡核苷酸探针单链区域互补的序列的第二寡核苷酸(在其5'端含有生物素(用正方形表示))添加到反应管中。所述第二寡核苷酸是PS1467和PS1469(对于靶#1和2分别为SEQ ID NO:17和18)。第二个寡核苷酸和双链体之间的缺口由DNA聚合酶补平并连接。(F)用BsaI消化所得片段,合成的发夹连接在靶区域的另一侧。在某些情况下,步骤F可以作为该方法的第一步进行(即,在用Cas12a-gRNA复合物和ExoI生成5'突出端之前)。然后使用链霉亲和素珠从核酸分子群中分离所需分子并加载到SIMDEQ平台上。通过该方法生成的发夹的典型指纹轨迹如图10A和图10B所示。
图7:用于从大肠杆菌基因组DNA产生适用于SIMDEQ仪器(发夹结构)的分子的方法的可替代示意图。(A)至(C)使用与图6中所示相同的方法。在(D)中,除了使核酸分子群与寡核苷酸探针接触之外,将发夹连接到第二位点。在这两种情况下,任何5'瓣都可以通过FEN1去除,剩余的切口通过连接封闭。这是有利的,因为可以同时加工存在于靶区域两侧的两个位点,因此减少了该方法的持续时间。
图8:本发明中使用的寡核苷酸探针的示例性结构。gRNA靶向的序列以粗体和大写字母显示。寡核苷酸探针的5'端包含至少部分与gRNA靶向的序列互补的序列,其对应于5'突出端。该序列可以延伸到PAM序列,以解决非靶向链上Cas12a-gRNA切割位置的变异性。任何瓣结构都可以通过FEN1加工去除。探针的单链区域包含“通用”序列,单链寡核苷酸(例如,产生发夹所需的图6(E)的生物素寡核苷酸)可以与该序列结合。任选地,寡核苷酸探针可以进一步包含用于将探针(以及因此将靶区域)锚定到固体支持物(例如流动池表面)的特定序列。在一些情况下,“通用”序列可以包含在发夹分子的环区域中。
图9:由Cas12a-gRNA和ExoI处理产生的5'突出端能够促进寡核苷酸探针的杂交。用FITC标记含有人NDGR4.1 crRNA#1(SEQ ID No:20)识别的位点的287bp PCR片段(SEQ IDNO:19),所述标记在含有5'-TTTV-3'PAM序列的非靶链的5'端进行,并在以下条件下孵育后通过毛细管电泳进行分析。将片段与(A)LbaCas12a crRNA#1在FEN1和Taq DNA连接酶存在下、(B)LbaCas12a crRNA#1和ExoI、(C)LbaCas12a crRNA#1和ExoVII、(D)LbaCas12acrRNA#1和ExoVII在FEN1和Taq DNA连接酶存在下,或(E)LbaCas12a crRNA#1和ExoI在FEN1和Taq DNA连接酶存在下一起孵育。在所有情况下,还存在包含生物素配体的寡核苷酸探针,其可由FEN1加工并通过Taq DNA连接酶连接到靶位点。连接产物将增加片段的尺寸(用星号标记)(SEQ ID NO:21),使峰更靠近273bp标记物。还并入图1B中使用的相同FITC标记物,用于比对轨迹。特别是,基于129和273bp片段比对轨迹。
图10为确定Cas12a-gRNA的切割和使用FEN1和连接酶连接寡核苷酸探针的效率,而开展的qPCR定量测定法的示意图。如图所示,在靠近FMR1的Cas12a-crRNA#2切割位点(SEQ ID NO:29)设计三组不同的引物(A/B、A/C和A/D,SEQ ID NO:94-97)。设计可用于三个qPCR反应中的任何一个的TaqMan探针(SEQ ID NO:93),其允许定量切割以及寡核苷酸探针与基因组DNA的连接效率。使用引物A和B获得的产物标准化每个反应(也称为“总量”),无论Cas12a-crRNA#2是否切割核酸分子,所述引物A和B都扩增片段。为了定量Cas12a的切割效率,我们设计了第二引物C,其位于待富集的靶区域之外。因此,当Cas12a-crRNA#2复合物切割其靶时,该片段不能再作为用于扩增的模板,导致可扩增的起始材料减少。为了估计切割率,我们计算了与Cas12a-crRNA#2复合物孵育后剩余片段的比率,并将该数字除以计算出的“总量”。这提供了未切割片段的量,并可以通过取返分数转化为切割片段的量(即,100-未切割片段的量=切割片段的数量)。最后,为了定量寡核苷酸探针与FMR1片段的连接效率,使用了引物A和D,其扩增对连接的寡核苷酸具有特异性的片段。使用引物A/D获得的部分也称为“FEN1连接”。
图11Cas12a-gRNA复合物的切割效率随反应时间和浓度而变化。为了确定作为反应时间函数的Cas12-crRNA#2复合物的切割效率,将2μg人基因组DNA在补充有10mM DTT的NEB2.1缓冲液中与600fmol FMR1特异性的Cas12a-crRNA#2gRNA(SEQ ID NO:29)一起孵育,在37℃下保持10、20、30和60分钟(左图)。使用两组引物(A/B和A/C,分别为SEQ ID NO:94-95和94-96)与Taqman探针(SEQ ID NO:93)进行qPCR。在不存在Cas12a-crRNA#2复合物下进行了对照反应,并将其用作未切割的参考。通过材料的“总量”(引物组A/B;还参见图10的图例)对切割片段(引物组A/C)的相对定量进行标准化,然后通过未切割的参考进行标准化。当反应时间从10分钟增加到30分钟时,实现了靶的78%切割。还通过增加复合物的量来评估了Cas12a-crRNA#2复合物孵育10分钟时的切割效率(68%)。将2μg人基因组DNA在补充有10mM DTT的NEB2.1缓冲液中与300、600、1200、1500fmol的FMR1特异性Cas12a-crRNA#2引导RNA(SEQ ID NO:29)一起孵育,在37℃下持续10分钟(右图)。通过从600增加至1200fmol而加倍Cas12a-crRNA#2复合物的量,将切割的靶的量增加至84%。
图12添加核酸外切酶I不影响Cas12a-gRNA的切割,但改善探针与FEN1的连接。(A)将2μg人基因组DNA在补充有10mM DTT的NEB2.1缓冲液中与600fmol的FMR1特异性的Cas12a-crRNA#2gRNA(SEQ ID NO:29)一起孵育,在37℃下持续30分钟,使用或不使用核酸外切酶I,以增加3'端的隐没的碱基数。通过使用两组引物(A/B和A/C,分别为SEQ ID NO:94/95和94/96)与Taqman探针(SEQ ID NO:93)进行qPCR。在不存在Cas12a-crRNA#2复合物下进行的对照反应用作未切割的参考。通过材料的“总量”(引物组A/B)对切割片段(引物组A/C)的相对定量进行标准化,然后通过未切割的参考进行标准化。核酸外切酶I的存在不影响Cas12a-crRNA#2的切割;文中在存在或不存在核酸外切酶I的情况下,DNA分别被切割78%和76%。(B)在存在或不存在核酸外切酶I的情况下使用Cas12a-crRNA#2进行切割反应,如图12A中所述,该反应在补充有1mM NAD、40单位Taq DNA连接酶、32单位FEN1和10pmol靶特异性寡核苷酸探针(SEQ ID NO:98)的ThermoPol缓冲液中和与crRNA识别位点互补并包含用于qPCR的已知序列的20个碱基一起孵育。反应在37℃下孵育30分钟。在不存在Cas12a-crRNA#2复合物下进行的对照反应用作未连接的片段的参考。通过材料的“总量”(引物A/B,SEQ ID NO:94/95)对探针连接片段的相对定量(引物A/D,SEQ ID NO:94/97)进行标准化,然后通过“标准参考反应”(在核酸外切酶I和FEN1存在下,在37℃下用Cas12a-crRNA#2进行切割反应30分钟)进行标准化。当核酸外切酶I存在时,FEN1和探针连接的效率增加了两倍。
图13温度对FEN1加工和寡核苷酸探针连接效率的影响。将2μg人基因组DNA在补充有10mM DTT的NEB2.1缓冲液中与600fmol的FMR1特异性的Cas12a-crRNA#2gRNA(SEQ IDNO:29)一起孵育,在有或没有核酸外切酶I的情况下,在37℃下保持30分钟,以确定增加的5'单链突出端的长度对靶特异性寡核苷酸探针连接效率的影响。在存在或不存在核酸外切酶I的情况下,将Cas12a-crRNA#2切割反应在添补充有1mM NAD、40单位Taq DNA连接酶、32单位FEN1(或没有FEN1)的ThermoPol缓冲液中与10pmol寡核苷酸探针寡核苷酸(SEQ IDNO:98)一起孵育,所述寡核苷酸探针具有与crRNA#2识别的位点互补并包含已知序列的20个碱基,用于qPCR反应。测试了三个孵育温度,以观察在37℃、45℃和55℃下持续30分钟的探针连接效率。qPCR反应使用两组引物(A/B和A/D,分别为SEQ ID NO:94/95和94/97)和Taqman探针(SEQ ID NO:93)。通过材料的“总量”(引物组A/B)对探针连接片段(引物组A/D)的相对定量进行标准化,然后通过我们的“标准参考反应”(在核酸外切酶I和FEN1反应存在下,Cas12a切割在37℃下持续30分钟)对定量进行标准化。对于所有测试温度,核酸外切酶I的存在将连接效率提高了2倍。此外,与37℃相比,当反应在45℃下孵育时,连接效率和/或FEN1活性提高了1.8倍。
图14用于从人基因组DNA产生适用于SIMDEQ仪器的分子(发夹结构)的方法的示意图。(A)显示了对crRNA#1和crRNA#2具有特异性的寡核苷酸探针(SEQ ID NO:100和99)。第一探针包含允许与支持物杂交的必要序列(因此称为表面寡核苷酸),并且在其5'端具有对应于Cas12a crRNA#1序列的序列(显示在图像左侧),而第二探针在其5'端包含生物素(用正方形表示)和脱碱基位点修饰(用三角形表示),并且在其5'端具有对应于Cas12a crRNA#2序列的序列,从而形成双链体。含有这些寡核苷酸的反应用FEN1和Taq DNA连接酶补充,以去除各寡核苷酸的5'瓣区域,并封闭5'瓣消化产生的切口。(B)与在(A)中由FEN1和连接酶连接的探针互补的第二组寡核苷酸(SEQ ID NO:101和97)进行杂交,DNA分子被DNA聚合酶补平并连接,以产生完整靶区域的连续dsDNA分子并在一端形成Y形结构。(C)然后使用链霉亲和素珠从核酸分子群中分离双链体。(D)使用核酸内切酶IV从珠子上洗脱双链体,该酶在具有3'-羟基末端的脱碱基位点上催化DNA磷酸二酯骨架的裂解。在先前添加的寡核苷酸的5'端生成了4bp的突出端,以生成(B)中的dsDNA分子。(E)将合成的发夹(SEQ ID NO 102)连接到该5'突出端。使用包被有特定接头(SEQ ID NO:103和104)的链霉亲和素珠分离双链体,并加载到SIMDEQ平台上。
图15.在图6中提供的方法允许成功生产包含靶区域的发夹分子。使用图6所示的方法从大肠杆菌基因组DNA中分离靶#1(A)靶#2(B)后,追踪四碱基寡核苷酸(CAAG)指纹实验。使用CAAG四碱基寡核苷酸在两个靶中正确鉴定了所有预期的峰。
图16使用本发明的方法,在从人基因组DNA制备的文库上进行的针对15种不同人靶的Illumina测序的示例性结果。(A)选择具有相应基因组坐标的用于富集的靶区域。选择这些区域,或者是由于存在表观遗传生物标记物,或者是由于已知具有扩展重复的基因座参与人疾病。(B)使用本发明的方法富集靶区域后,从Illumina测序获得的读取比对的屏幕截图。具体而言,使用图5中所示的方法生成文库,除了仅使用一种包含配体(在这种情况下为生物素)的寡核苷酸探针(因此不进行步骤F)。黑框代表对应于SNCA CpG岛(染色体4:从89,836,538到89,837,940bp)的富集靶区域。每个映射的读取由灰色水平线表示。如深灰色所示,与周围区域(显示小于1x的覆盖)相比,该区域显示出高的覆盖(高达614x的覆盖)。
具体实施方式
实施例
包括以下实施例以说明本发明的优选实施方案。在以下实施例和附图中阐述或示出的所有主题都应被解释为说明性的而非限制性的。以下实施例包括本领域技术人员可以确定的任何替代、等同物和修改。
实施例1:选择gRNA的方法
对于以下描述的所有策略,使用可用的在线工具设计一个或多个引导RNA。然后可以使用病毒转录系统(例如,T7、SP6或T3 RNA聚合酶等)在体外合成RNA向导,或者使用自动合成仪作为单个crRNA向导化学生成RNA向导,其中包含与靶区域互补的序列。使用野生型Cas核酸酶在标准化/对照样品(例如,PCR片段)上对每个gRNA的效率进行体外评估,以确保每个Cas蛋白-gRNA复合物都能高效切割(例如,切割初始PCR片段的至少80%)。
在本实施例中,可以使用自动合成仪根据共同的通用序列(SEQ ID NO:1)化学生成Cas12a引导RNA。
gRNA在相应的缓冲液中在95℃下孵育5分钟,然后通过渐进梯度在80℃、50℃、37℃和室温下持续10分钟,每一步骤用于退火和/或二级结构形成。
实施例2:用于分离包含靶区域的核酸分子的反应方案示例
1.通过在室温(例如25℃)下在适当的反应缓冲液(50mM NaCl、10mM Tris-HCl、10mM MgCl2、10mM DTT、100μg/ml BSA,pH7.9)中孵育10分钟,将引导RNA(例如crRNA)加载到2类V型Cas蛋白上,从而形成蛋白-RNA复合物。
2.将步骤1中制备的加载复合物添加到包含核酸分子的样品中,该样品包含在补充有额外的10mM DTT的NEB缓冲液2.1中。反应管中补充有1μl Exo I(100单位),并在37℃下孵育至少1小时。这将允许使2类V型Cas蛋白-gRNA复合物在与核酸靶区域邻近的位点结合并切割核酸,而Exo I则使非靶链的3'端隐没(recess)。
3.通过添加“终止缓冲液”(包含1.2单位的蛋白酶K和20mM EDTA的混合物)来停止反应,从而去除2类V型Cas蛋白-gRNA复合物。在某些情况下,可以添加RNaseA来消化gRNA。RNaseA和蛋白酶K处理尤其可以在37℃下连续进行15分钟。在这种情况下,添加EDTA可以是任选的。
4.然后可以通过任何已知技术纯化样品,例如珠子或柱纯化,例如用顺磁珠纯化。
5.然后将洗脱的DNA与寡核苷酸探针(在仅有一个靶的情况下)或多个探针同时(在有多个靶的情况下)在ThermoPol缓冲液(20mM Tris-HCl,10mM(NH4)2SO4,10mM KCl,2mMMgSO4,0.1%
Figure BDA0003209257390000391
X-100,1mM NAD+,pH 8.8)(NEB)中在37℃下孵育30分钟。如果第二位点也被第二Cas12a蛋白加工,则可以同时将包含发夹环的探针(或多个探针,取决于靶的数量)添加到反应混合物中。根据起始材料,每种探针的添加浓度介于20到50nM之间。该反应还可以补充1μlFEN1(例如32单位)和1μl Taq DNA连接酶(例如40单位)。
6.然后可以通过任何已知技术纯化样品,例如珠子或柱纯化,例如用顺磁珠纯化。
7.在寡核苷酸探针不包含配体的情况下,可以向从步骤6洗脱的DNA中以100nM的浓度添加含有5'生物素配体的通用寡核苷酸探针,以产生Y形结构。然后通过Bst全长DNA聚合酶(0.2单位,含有0.2mM dNTPs)补平该寡核苷酸和双链体区域5'端(以及发夹环,如果使用)之间的缺口,并通过用1mM NAD和40单位Taq DNA连接酶在50℃下在ThermoPol缓冲液(NEB)中反应30分钟进行封闭。
8.然后可以通过任何已知技术纯化样品,例如珠子或柱纯化,例如用顺磁珠纯化。
9.在室温(25℃)下,在磁珠制造商推荐的结合缓冲液(例如但不限于0.5MNaCl、20mM Tris-HCl(pH 7.5)、1mM EDTA)中,将样品与链霉亲和素包被的顺磁珠孵育30分钟。
10.然后使用推荐的洗涤缓冲液(例如但不限于0.5M NaCl、20mM Tris-HCl(pH7.5)、1mM EDTA,含或不含0.5%Tween-20)清洗珠子,可用于下游应用,例如表观遗传修饰的测序或检测。
实施例3:确定由LbaCas12a联合ExoI产生的突出端。
为了确定用Cas12a和ExoI同时处理核酸产生的5'突出端,使用引物PS1462和PS1464(SEQ ID NO:4和5)与OneTaq DNA聚合酶(NEB)扩增含有SEPT9.2crRNA#1序列识别的位点的221碱基对(bp)的PCR片段(SEQ ID NO:3)。由于PS1464包含5'FITC,用FITC标记含有PAM序列5'TTTV 3'的链。使用相同的PS1464反向引物(因此也用FITC标记)但使用三种不同的正向引物PS1461、PS1463和PS1131(SEQ ID NO:22,23和24的寡核苷酸,SEQ ID NO:6至8的PCR片段),使用OneTaq(NEB),生成128、273和503bp的三个另外的PCR片段。这三个PCR片段用作标记物,分析所得反应片段的长度。
为了确定LbaCas12a(NEB)在有和没有ExoI处理时,在靶和非靶链上的切割位置,将150ng用FITC标记的221bp PCR片段与LbaCas12a:crRNA复合物(DNA:Cas12a:crRNA的比率为1:10:20)孵育、或同时与LbaCas12a复合物和25单位ExoI孵育。制备第三个反应,其中PCR片段仅与LbaCas12a:crRNA孵育,并且5'突出端用T4 DNA聚合酶(NEB)补平,以确定crRNA杂交的靶链5’端上的切割位置(参见图1A-图1C)。将三个所得反应在毛细管电泳系统(Abi3730)上运行,以单碱基分辨率分辨反应中存在的用FITC标记的片段。将已知尺寸的FITC标记的三个PCR片段并入(spiked-in)反应中,用作确定未知片段尺寸的标记物。
如图1B所示,ExoI处理令人惊讶地允许产生更长的5’突出端。这与本领域中描述的5'突出端长度以及本文中仅用LbaCas12a获得的长度(例如,其长度可以少至6个碱基,从相对于PAM的位置-13到-19)形成显著对比。实际上,与不存在ExoI时LbaCas12a在最接近PAM的切割位置(在非靶链上的切割位置可以进一步被最多5个碱基置换)相比,ExoI处理将包含PAM序列的非靶链上的切割置换了至少两个额外的碱基)。用Cas12a-gRNA和ExoI处理获得的5'突出端也令人惊讶地得到了更好的限定。如图1B和图1C所示,与在没有ExoI处理的情况下观察到的切割位置相比,观察到非靶链的切割变异性较小。通过用LbaCas12a和ExoI同时处理产生的5'突出端的长度有利地为11或12个核苷酸。
实施例4:由Cas12a-gRNA和ExoI处理产生的5'突出端能够促进寡核苷酸探针的杂交
用FITC在含有5'-TTTV-3'PAM序列的非靶链的5'端标记含有人NDGR4.1crRNA#1(SEQ ID No:20)识别的位点的287bp PCR片段(SEQ ID NO:19)。PCR片段首先与LbaCas12a-crRNA#1复合物一起孵育以产生突出端。停止反应并纯化。将在其3'端包含生物素以及在其5'端包含与5'突出端互补的序列的寡核苷酸探针添加到洗脱的DNA中,并通过FEN1处理、通过Taq DNA连接酶连接到PCR片段。通过在存在或不存在核酸外切酶VII(ExoVII,具有3'到5'和5'到3'单链核酸外切酶活性)或ExoI(只有3'到5'单链核酸外切酶活性)时与LbaCas12a-crRNA#1复合物一起孵育进行独立的反应。在毛细管电泳中出现了看起来接近273bp标记物的较大尺寸的片段,揭示生物素寡核苷酸探针的成功连接。使用与实施例3中相同的FITC标记物(129、273和503bp PCR片段)来比对不同的轨迹。基于129和273bp片段比对了五个不同的实验。
通过将相应的连接峰的荧光强度除以具有5'突出端的所有片段的总荧光来计算成功连接的百分比。如图9(A)所示,在PCR片段与LbaCas12a-crRNA#1复合物、寡核苷酸探针、FEN1和Taq DNA连接酶孵育后,大约24%的所得片段对应于连接产物。相反,在没有FEN1和Taq DNA连接酶的情况下不存在连接产物。如图9(B)所示,ExoI处理允许A中存在的所有峰(对应于由Cas12a活性产生的不同末端)分成两个主要峰,对应于距离PAM序列的位置-9和-10。虽然ExoVII处理也会产生对应于距离PAM序列的位置-9和-10的峰(图9(C)),但3'端可能没有良好地隐没,因为除了-9和-10峰以外,还存在对应于Cas12a切割活性的额外峰。
与图9(A)中获得的结果相反,当在FEN1和Taq DNA连接酶存在下,将片段与具有3'至5’活性的核酸外切酶进一步孵育时(无论是ExoI还是ExoVII),更高百分比(即,大约50%)的片段现在对应于已与探针连接的PCR产物(见图9(D)和图9(E))。因此,当核酸分子群与至少具有3'至5'核酸外切酶活性的酶接触时,有利地提高了使用本发明的方法分离靶核酸区域的效率。实际上,由于寡核苷酸探针与大量片段的5'突出端形成稳定的双链体,因此通过本发明的方法分离的双链体的数量(以及靶区域的数量)也将得到提高。
实施例5:通过qPCR定量切割效率。
我们开展了一种定量PCR测定法(qPCR,如图10所示),来确定人基因组中Cas12a的切割效率。简而言之,使用寡核苷酸A和B(SEQ ID NO:94和95)的qPCR允许我们定量管中存在的材料的量,而使用寡核苷酸A和C(SEQ ID NO:96)的qPCR仅在Cas12a-crRNA复合物不切割靶时才产生产物。为了提高特异性,我们包括了在扩增子内的TaqMan探针(SEQ ID NO:93),使得相同的探针可用于两个qPCR反应。通过计算qPCR A/C与A/B的Ct比(即ΔΔCt),可以确定复合物切割的分子百分比。
我们将含有CGG重复区的靶向人FMR1启动子(SEQ ID NO:57)的Cas12a-crRNA复合物以不同的复合物:人类基因组DNA的比率孵育不同的时间,以估计切割与未切割片段的分数。为了制备复合物,将AsCas12a蛋白与2倍摩尔比的FMR1特异性的crRNA#2gRNA(SEQ IDNO:29)在补充有10mM DTT的NEB2.1缓冲液(50mM NaCl、10mM Tris-HCl、10mM MgCl2、100μg/ml BSA、pH 7.9,在25℃)中在室温下孵育10分钟。
在第一个实验中,我们估计了Cas12a-crRNA复合物在人基因组中切割其靶所需的时间。将从人胚胎肾细胞系(HEK293)纯化的2μg人基因组DNA与600fmol Cas12a-crRNA复合物(每个人基因组640,000Cas12a-crRNA复合物的比率)在补充有10mM DTT的NEB2.1缓冲液中、在37℃下孵育10、20、30和60分钟。作为对照,我们在37℃下在相同的缓冲液条件下(但没有Cas12a复合物)孵育相同数量的基因组DNA。我们使用引物对A和B、或A和C,并使用上述定量方法对所有样品(一式三份)进行qPCR反应,观察到仅在30分钟后78%的靶被此Cas12a-crRNA复合物切割(图11)。通过将孵育时间增加到60分钟,没有观察到切割效率的增加。
接下来,结合获得的最大切割效率,确定给定孵育时间(10分钟)内每个DNA分子的Cas12a-crRNA复合物的最佳比率。将2μg人基因组DNA与300、600、1200或1800fmol Cas12a复合物(分别对应于每个人基因组中320,000、640,000、1,280,000和1,600,000复合物的比率)在补充有10mM DTT的NEB2.1缓冲液中、在37℃下一起孵育10分钟。如图11所示,Cas12a-crRNA复合物与人基因组的最佳比率为1,280,000,因为在这些条件下获得了84%的切割靶。进一步增加复合物的量(1800pmol)并没有提高切割效率。由于效率没有增加到高于84%(与600pmol持续30分钟孵育时间相似),我们确定优选地反应可以以每个人基因组640,000Cas12a-crRNA复合物的比率孵育至少30分钟。
实施例6:存在或不存在ExoI时,使用qPCR对寡核苷酸探针在Cas12a产生的突出端上的连接效率进行定量
为了证实在实施例4中使用毛细管电泳获得的结果,我们开展了qPCR测定法来定量FEN1和寡核苷酸探针连接对单独的Cas12a-crRNA或Cas12a-crRNA和核酸外切酶ExoI产生的突出端的效率。为了定量这种效率,使用了两组引物和TaqMan探针(如图10所示)。寡核苷酸A和B(SEQ ID NO:94和95)用作内部对照,以定量反应管中存在的DNA的量(以使所有反应标准化),寡核苷酸A和D(对连接的探针具有特异性;SEQ ID NO:94和97)用于确定连接效率,因为只有在连接的情况下,使用寡核苷酸A和D才会扩增产生qPCR产物。通过材料总量(引物组A/B,SEQ ID NO:94/95)标准化探针连接片段量的相对定量(引物组A/D,SEQ IDNO:94/97)。然后使用“标准参考反应”将相对定量标准化为100%(在存在ExoI和FEN1的反应中、在37℃下、Cas12a切割进行30分钟)。如这些实施例中所述,该比率用于在不同实验条件之间进行比较。
最初,从人胚胎肾细胞系(HEK293)中纯化的2μg人基因组DNA与600fmol Cas12a复合物在补充有10mM DTT的NEB2.1缓冲液中、在有或没有100单位核酸外切酶I的情况下、在37℃下持续30分钟。作为对照,我们在37℃下、在相同的缓冲液条件下(但没有Cas12a复合物)孵育了相同量的DNA。使用终止反应缓冲液(1.2单位蛋白酶K和20mM EDTA)停止反应,然后使用制造商的建议(KAPA珠,罗氏)通过顺磁珠进行纯化。
将靶特异性寡核苷酸(SEQ ID NO:98)和与crRNA识别的位点互补的20个碱基(因此与由Cas12a和核酸外切酶I产生的5'突出端互补,见图8)添加到反应管中,所述反应管中具有含有Thermostable Flap核酸内切酶1(FEN1,NEB)和Taq DNA连接酶(NEB)的ThermoPol缓冲液,在37℃下持续30分钟。寡核苷酸探针在其3'端还包含一个通用序列,它与qPCR寡核苷酸D互补。所有这些反应都使用引物对A/B和A/D在两个单独的管中定量。每个qPCR反应进行一式三份。
当核酸外切酶I与Cas12a-crRNA一起加入反应管时,没有观察到切割效率的差异,因为在两种条件下几乎80%的片段都被切割(图12A)。然而,当不存在核酸外切酶I时,观察到FEN1和Taq DNA连接酶对寡核苷酸探针的连接效率降低了50%(图12B)。对照反应(不含Cas12a)用作相对定量的对照。这些结果与使用毛细管电泳观察到的结果一致(从没有ExoI时的24%的效率到在Cas12a裂解期间用ExoI处理的54%的效率,图9)。
实施例7:温度对使用FEN1和Taq DNA连接酶进行靶特异性寡核苷酸探针的连接的影响
为了确定孵育温度对FEN1和连接酶活性的影响,我们测试了其活性范围内的三个温度(37℃、45℃和55℃),并确定了当Cas12a切割产生的突出端被核酸外切酶I放大时探针连接的效率。为了确定这种效果,在存在或不存在100单位核酸外切酶I的情况下,将2μg人基因组DNA(HEK293)与600fmol特异于FMR1的Cas12a/crRNA#2引导RNA(SEQ ID NO:29)在补充有10mM DTT的NEB2.1缓冲液中、在37℃下一起孵育30分钟,以制备两个反应条件。使用终止反应缓冲液(1.2单位蛋白酶K和20mM EDTA)停止反应,然后使用制造商的建议(KAPA珠,罗氏)通过顺磁珠进行纯化。将10pmol靶特异性寡核苷酸(SEQ ID NO:98)以及与crRNA识别的位点互补的20个碱基加入反应管中,所述反应管具有1mM NAD、40单位Taq DNA连接酶(NEB)、32单位Thermostable Flap核酸内切酶1(FEN1,NEB),在37℃、45℃或55℃下持续30分钟。在每个温度下进行另一个没有FEN1的反应,以确定非特异性扩增。使用两组引物(A/B和A/D,分别为SEQ ID NO:94-95和94-97)与Taqman探针(SEQ ID NO:93)进行定量PCR反应,并且每个qPCR反应进行一式三份。通过材料的总量(引物组A/B)对探针连接片段(引物组A/D)的相对定量进行标准化,然后使用“标准参考反应”(在核酸外切酶I和FEN1存在下,Cas12a切割在37℃下反应持续30分钟)对定量进行标准化,如上所述(实施例6)。
如图13所示,温度不影响核酸外切酶I带来的连接改善(核酸外切酶I对连接效率提高了一倍)。然而,当反应在45℃下孵育时,观察到连接和/或FEN1活性的总体效率增加(探针连接比37℃多1.8倍)。
实施例8:从分离的靶区域构建发夹
使用1.6μg大肠杆菌基因组DNA进行图6中说明的和根据实施例2的方法。具体而言,将基因组DNA与2pmol LbaCas12a-crRNA复合物以及感兴趣的区域(靶#1和2,SEQ IDNO:9和10)一起孵育,所述感兴趣的区域在两侧各是两个不同的Cas12a-crRNA复合物(SEQID NO:11-14)所述复合物分别与第一和第二位点结合。每个靶区域使用两个Cas12a-gRNA复合物有利地增加了特异性并限制了该方法的步骤数(例如不需要片段化并且可以同时添加Cas12a-gRNA复合物)。此外,使用两种不同的Cas12a-gRNA复合物有利地允许生成两种不同的、特定的5'单链突出端,可用于后续步骤以生产适合所需下游应用的分子。LbaCas12a-crRNA反应补充了100单位的ExoI,其产生了该方法有效工作所需的5'突出端。使用终止反应缓冲液(1.2单位蛋白酶K和20mM EDTA)停止反应,然后使用制造商的建议(KAPA珠,罗氏)通过顺磁珠进行纯化。
将靶特异性寡核苷酸探针添加到具有Thermostable Flap核酸内切酶1(FEN1)和Taq DNA连接酶的反应管中,所述靶特异性寡核苷酸探针在其5'端具有与crRNA识别的位点互补(因此与Cas12a和核酸外切酶I产生的5'突出端互补)的20个碱基(另请参见图6)。寡核苷酸探针在其3'端还包含一个已知序列的区域,该区域保持单链,从而形成3'突出端(也参见图8)。有利地,所有寡核苷酸探针可以包含相同的3'序列,因此被认为是“通用的”,如图8所示。在本案中,具有5'生物素配体的寡核苷酸PS1465或PS1467(SEQ ID NO:17和18)与寡核苷酸探针上的已知序列杂交,使用Bst全长DNA聚合酶和Taq连接酶补平和封闭缺口。这允许生成Y形适体,这将使分子能够用于SIMDEQ平台上的下游分析。使用制造商的推荐(KAPA珠,罗氏)用顺磁珠纯化所得核酸片段。
这两个靶含有非回文限制酶BsaI位点,在位于与Y适体相对的靶区域另一侧位点上具有相同的四个碱基突出端,发夹适体PS421(SEQ ID NO:69)与其进行杂交和连接。将BsaI反应在37℃下在
Figure BDA0003209257390000441
缓冲液(50mM乙酸钾、20mM Tris-乙酸盐、10mM乙酸镁、100μg/ml BSA,pH 7.9)中孵育30分钟,然后使用制造商的建议(KAPA珠,罗氏)用顺磁珠纯化反应。然后使用T4 DNA连接酶在T4 DNA连接酶缓冲液(50mM Tris-HCl、10mM MgCl2、1mM ATP、10mM DTT,pH 7.5)和10pmol发夹适体在室温下进行连接,持续30分钟。然后,使用制造商的推荐(KAPA珠,罗氏)用顺磁珠纯化连接的产物。
然后在我们的SIMDEQ平台上分析制备的靶区域,以评估该方法的特异性并使用CAAG四碱基寡核苷酸检测预期的峰。结合位置的轨迹显示在图15A和图15B中,表明所有预期的峰都被正确鉴定。流动池中不存在其他发夹分子,表明特异性为100%。这与现有的杂交捕获方法形成了显著对比,现有的杂交捕获方法显示15-25%的脱靶捕获。
实施例9:使用人基因组DNA构建发夹
我们使用了上面提供的图14中所示的方案,使用Cas12a和核酸外切酶I,然后是FEN1和连接步骤,以构建适合在SIMDEQ仪器上分析的发夹分子。简而言之,将5μg人基因组DNA与600fmol位于FMR1靶区域(SEQ ID NO:65)侧翼的每种Cas12a-crRNA复合物(SED IDNO:28和29)、以及含有100单位核酸外切酶I的补充有10mM DTT的NEB2.1缓冲液在37℃下孵育30分钟。使用终止反应缓冲液(1.2单位蛋白酶K、20mM EDTA)停止反应,并使用制造商的建议(KAPA珠,罗氏)通过顺磁珠进行纯化。
然后将所得DNA与10pmol两个寡核苷酸探针中的每一个一起孵育,第一探针与核酸外切酶I在Cas12a-crRNA#1(SEQ ID NO 100)的切割位点上产生的5'突出端互补,第二探针与Cas12a-crRNA#2(SEQ ID NO 99)的5'突出端互补,其在其3'端含有生物素配体,并且在其序列内有脱碱基位点修饰(THF或四氢呋喃),并且用30单位FEN1以切割5’瓣并产生切口。使用40单位的Taq DNA连接酶在补充有1mM NAD+的ThermoPol反应缓冲液中封闭切口。在45℃下持续30分钟后,两种特异性寡核苷酸(SEQ ID NO:101和97)与寡核苷酸探针上的已知序列杂交,使用补充有200nM dNTP的Bst全长DNA聚合酶补平和封闭缺口。这允许生成Y形适体(这将使分子能够用于SIMDEQ平台上的下游分析)和脱碱基位点周围的dsDNA双链体(脱碱基位点后3bp是dsDNA)。产生的核酸片段被链霉亲和素顺磁珠捕获并富集。
具体而言,靶分子在NEB3缓冲液(100mM NaCl、50mM Tris-HCl、10mM MgCl2、1mMDTT,pH 7.9,25℃)中通过核酸内切酶IV在37℃下持续30分钟,从珠子上洗脱,其将通过水解在脱碱基位点催化DNA磷酸二酯骨架的切割,留下1个核苷酸缺口和3'-羟基末端,产生4bp的5'突出端。然后,通过使用T4 DNA连接酶在T4 DNA连接酶缓冲液(50mM Tris-HCl、10mM MgCl2、1mM ATP、10mM DTT,pH 7.5)中与10pmol发夹适体在室温下反应30分钟,将该突出端用于连接发夹适体。
实施例10:来自人基因组DNA中的靶区域的富集
从人胚胎肾细胞系(HEK293)中纯化人基因组DNA。设计Cas12a引导RNA(SEQ IDNO:2、20和25至52),以靶向靶区域侧翼的第一和第二位点(SEQ ID NO:53至68)。我们选择了15个不同的人靶,已知这些靶是与癌症相关的表观遗传标记物,或者由已知会导致人疾病的STR(短串联重复序列)组成(见图16A)。该方法的第一步骤如下进行:将10μg基因组DNA与390fmol的每种Cas12a-crRNA复合物和800单位的核酸外切酶I在37℃下孵育2小时,以生成5'突出端。通过添加终止缓冲液停止反应,并根据制造商的说明使用KAPA珠子(Roche)纯化。
合成在其3'端含有生物素配体的寡核苷酸探针(SEQ ID NO:21和70至83),使得其5'端与产生的5'突出端互补。由于非靶链切割位置的变异性(参见图1C),设计探针,使其5'端包含PAM序列和PAM序列后的额外的5个碱基。与crRNA识别的位点互补的这个5'瓣序列,对应于FEN1酶的典型底物。这些寡核苷酸还包含被以下三种限制酶识别的限制性位点:DdeI(C^TNAG)、HinflI(G^ANTC)和AluI(AG^CT)。
通过LbaCas12a-crRNA复合物和ExoI处理的洗脱DNA,其补充6pmol探针和30单位的FEN1,以切割5’瓣,并产生切口。通过使用40单位Taq DNA连接酶在反应缓冲液(20mM的Tris-HCl、10mM(NH4)2SO4、10mM KCl、2mM MgSO4、0.1%
Figure BDA0003209257390000461
X-100、1mM NAD+,pH 8.8)中封闭该切口。因此,在探针和5'突出端之间形成了双链体。在37℃下持续30分钟后,加入30单位的RecJF(一种5'到3’的ssDNA核酸外切酶),以消化未连接的寡核苷酸。然后使用制造商的推荐(KAPA珠,罗氏)用顺磁珠纯化连接的产物,并使用包被有链霉亲和素的顺磁珠(Ocean Nanotech)在与FEN1反应相同的反应缓冲液中,对所得的DNA制备物捕获1小时。将与双链体(因此是DNA靶区域)结合的珠子分成三个反应,每个反应都用不同的限制酶(DdeI、AluI或HinfI)处理,这使得DNA靶区域从珠子上切割并成为Illumina文库制备的模板。我们将NEB Ultra II试剂盒用于低起始材料,之后按照制造商的方案制备文库。测序反应在NextSeq 500Illumina测序仪上进行,使用配对末端测序(每侧150个碱基对)。使用Bowtie算法在人参考基因组上进行读取比对,并使用Samtools进行覆盖率计算。使用IGV软件可视化读取。靶区域之一(SNCA)的代表性覆盖率如图16B所示(从IGV软件中提取的屏幕截图)。与其余的基因组DNA的覆盖率相比(平均小于1×),在该靶区域内获得的最大覆盖率非常高(614×)。
序列表
<110> 德皮克斯公司
<120> 使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法
<130> B377127PCT D39002
<150> 18306679.4
<151> 2018-12-12
<160> 104
<170> PatentIn version 3.5
<210> 1
<211> 44
<212> RNA
<213> 人工序列
<220>
<223> Cpf1的通用单引导RNA
<220>
<221> misc_feature
<222> (21)..(44)
<223> n是a, c, g或u
<400> 1
uaauuucuac ucuuguagau nnnnnnnnnn nnnnnnnnnn nnnn 44
<210> 2
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-SETP9.2-crRNA#1的靶特异性序列(靶SETP9.2)
<400> 2
uccccucuac cccaggugcu ugcu 24
<210> 3
<211> 221
<212> DNA
<213> 人工序列
<220>
<223> SETP9.2靶的PCR片段
<400> 3
tgctccttct cccttccatg gtcccagcca gcaagcacct ggggtagagg ggacaaaccc 60
aggtggctgt gttccagccc tggctgcagg tctgaatggc tttctggggt ggctggccat 120
gctccctgag agcccagctg tggcgatgtc tgagcaggta ggtgggggag cacctaggaa 180
gcaggggtgt caggcagagc acaaggagag agggtgtcca g 221
<210> 4
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> PS1462 PCR寡核苷酸
<400> 4
tgctccttct cccttccatg 20
<210> 5
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 在5’用FITC标记的PS1464 PCR寡核苷酸
<400> 5
ctggacaccc tctctccttg 20
<210> 6
<211> 128
<212> DNA
<213> 人工序列
<220>
<223> 129bp FITC标记的PCR片段
<400> 6
gaatggcttt ctggggtggc tggccatgct ccctgagagc ccagctgtgg cgatgtctga 60
gcaggtaggt gggggagcac ctaggaagca ggggtgtcag gcagagcaca aggagagagg 120
gtgtccag 128
<210> 7
<211> 272
<212> DNA
<213> 人工序列
<220>
<223> 273bp FITC标记的PCR片段
<400> 7
ggaggaagag ctcagggtga gctgcgcccc catcccctgc ccctcctctc ctgctccttc 60
tcccttccat ggtcccagcc agcaagcacc tggggtagag gggacaaacc caggtggctg 120
tgttccagcc ctggctgcag gtctgaatgg ctttctgggg tggctggcca tgctccctga 180
gagcccagct gtggcgatgt ctgagcaggt aggtggggga gcacctagga agcaggggtg 240
tcaggcagag cacaaggaga gagggtgtcc ag 272
<210> 8
<211> 503
<212> DNA
<213> 人工序列
<220>
<223> 503bp FITC标记的PCR片段
<400> 8
cagaggtcgt ggcactgaga tgggtctggc agatcccagc gtccaggccc agcccctata 60
gtgtcagctc cctcctctgg ggaccccctt gcttgtgccc ctctgggtcc cagcacatcc 120
caggcctgca gggaggggga gaggaagaga ctgactcact ggccaggtcc cccaggggct 180
ggagaggctg gagaggcagg agctggatca gatctgaatc cagaggctct cggaggaaga 240
gctcagggtg agctgcgccc ccatcccctg cccctcctct cctgctcctt ctcccttcca 300
tggtcccagc cagcaagcac ctggggtaga ggggacaaac ccaggtggct gtgttccagc 360
cctggctgca ggtctgaatg gctttctggg gtggctggcc atgctccctg agagcccagc 420
tgtggcgatg tctgagcagg taggtggggg agcacctagg aagcaggggt gtcaggcaga 480
gcacaaggag agagggtgtc cag 503
<210> 9
<211> 5225
<212> DNA
<213> 大肠杆菌
<400> 9
cagacggtaa ttgttcacct tcgccaaatt cacgacggcg gatcatctgt tccagctctt 60
cttccaccat ttcggagagt tttttacgcg ccagcgggcg gctacgcaag ttgcgaccaa 120
ttgcaggtga agaatcttcg gtttgcgaat caaatgcgtt cataaggccc attctgtaag 180
gtcagtgtga ttaacatcat cagtgacatc ctatcacagg attgaaagta ggggaaaatg 240
gcagggtttt ctctttgtgc ctcatcatta ccataattaa cggaataatt aactattgcg 300
aaaaattaat gtaacgcaga taaaaacatc ccgtttgaat tatttataag actattcacg 360
agcattatga atattatgaa tgtgttctta caaaataatc ataagcgcat attttttaat 420
gaaaaatcac ctcacctaca attaaaaaca cgacatccgc accataaata gccttgcaaa 480
aaatataaca tcgttgtttt caatctgccg tttatgggat tgaccgtttt cttttgacac 540
ggagttcaac aatgttcggc ataattatat ctgtcatcgt attaattacg atgggctatt 600
tgatcctgaa aaactacaaa cctcaggtgg tgctggctgc cgcaggtatc ttcctgatga 660
tgtgcggtgt ctggttaggg ttcggtggtg tactcgatcc caccaaaagc agcggctact 720
tgatcgtcga tatttataat gaaatcctgc gcatgctgtc caaccgcatt gccggattgg 780
ggctgtcgat tatggcggtg ggcggttatg cccgctacat ggagcgcata ggggccagtc 840
gcgcgatggt gagcttgtta agccgcccgt taaaactcat tcgctcgccg tatattattc 900
tgtcggcaac ttacgtcatc ggccaaatca tggcgcagtt tattaccagc gcctccggtc 960
tgggtatgtt gctgatggtc accttatttc cgacgctggt gagtctggga gtaagtcgtc 1020
tctctgcggt ggcagttatc gcaaccacga tgtccattga gtgggggatt ctggaaacga 1080
actccatttt tgctgcccag gtagcgggaa tgaaaattgc cacatacttc ttccactacc 1140
agcttccggt cgcctcttgc gtcattatct cggtggcgat ctcccacttt ttcgtgcaac 1200
gcgcttttga caaaaaagat aaaaatatca atcacgaaca ggcagagcaa aaagctctcg 1260
ataatgtccc gccgctctat tacgccattt tacctgtgat gccgttaatc ctgatgctcg 1320
gctcgctgtt cctcgcccac gtcgggctga tgcagtcaga actgcatctg gtggtggtga 1380
tgttactgag tttgactgtg acgatgtttg ttgagttctt ccgcaagcat aacttgcgcg 1440
aaacaatgga cgatgtgcag gcgttttttg acggcatggg tacgcagttt gccaacgtgg 1500
taacgctggt ggtcgcgggt gaaatatttg cgaaaggctt aacgacgatt ggcactgtcg 1560
atgcggttat caggggggcg gagcattctg gtctgggcgg tattggcgtg atgattatta 1620
tggcgctggt cattgccatt tgtgccattg tgatgggctc tggcaatgcg ccgtttatgt 1680
catttgccag tcttattccg aatatcgcag ccggactaca tgtaccagcg gttgtaatga 1740
ttatgccgat gcattttgcc acgacgctag cgcgcgcggt ttcgccgatt actgcggtgg 1800
tggtcgttac gtcaggaatt gcaggcgttt cgccttttgc ggtggtgaag cggacagcga 1860
tccccatggc agtcggtttc gtggtgaata tgattgccac aatcacgcta ttttattaag 1920
tcattaaaaa gacaaaacag gccgcctggg cctgttttgt attacttcac aacgcgtaat 1980
gccggtcgac caccgcgtgg tggctgcgga ggttcatcgt caggatgagt gtcatcatcg 2040
tgatctggct tgtcgccatc aataaccgac ataacggttt cgttgtctgc cgatgcctct 2100
tcatcattca tgatgctggt atcttcatcg taggcagctt caggctcaaa catcgtgcct 2160
gcgccatttt cacgggcgta gatagccagc acggcagcca gcggcacaga aacctgacgc 2220
ggaatgccac caaagcgcgc gttaaagcgc acctcatcat tcgccagttc cagattgccg 2280
acagcacgcg gcgcaatgtt gagtacgatt tgcccgtcac gcgcatattc cataggaacc 2340
tgcacgccag ggagcgtcac atccaccacc aggtgcggcg tgagctggtt atccagcaac 2400
cactcataga atgcacgcag cagataggga cgacgtggtg ttagctgtga caaatccata 2460
cagattaact ccggcccaga cgcatttcac gttctgcttc agttaaagaa gcaaggaaag 2520
agtcacgctc aaagacgcgg gtcatatagc ctttcagctc tttcgcaccc gggccgctga 2580
actcgatgcc cagttgcggc agacgccaca gcagcggagc aagatagcaa tcgaccaggc 2640
tgaactcatc gctcaggaag tacggcttct gaccgaagac cggcgcaatc gccagcagtt 2700
cttcgcgcag ttgcttacgt gcggcatctg cttcagaagc tgaaccgttg atgatggtgt 2760
tcatcagcgt gtaccagtct ttttcgatgc gatgcatgta cagacggctt tcaccgcgag 2820
ctaccgggta aacaggcatc agtggcggat gcgggaaacg ctcatccaga tattccataa 2880
tgatgcgaga ttcccacagg gtcagctcac gatccaccag ggtcggaacg ctctgattcg 2940
ggttgaggtc aatcagatcc tgaggcggat tgtccttttc cacgtgttcg atctcgaaac 3000
ttacaccttt ctcagccagc acaatgcgga cctgatggct atagatgtca gtaggaccgg 3060
aaaacagcgt cattaccgaa cgtttgttgg cagcgacagc catgaaaacc tccaggtata 3120
gtcagaattt ttactgctac cagccaccag gtggccagtc agaagttgtg ttacccaata 3180
aggaacgact ctctttgttc gaaaatcaaa caaaaaatga gcaatacccg acatttgggc 3240
agaaaattgg atgatagttt accagatttt gcgaccattg tggtgagtcg atgccggaaa 3300
tggggaaaaa gagatgcgct ttagtctgaa atagttgact tagtccctta ttggcgatgt 3360
ggtttttgtt ttacctgtct gtcaggtggc agcaaaaagc aactttccag tttttacgct 3420
gattcagatt ttagctataa aaaaacccgc cgaagcgggt tttttcgaaa attgttttct 3480
gccggagcag aagccaatta acgtttggag aactgcggac gacgacgtgc tttacgcaga 3540
ccgactttct tacgttcaac ctgacgagcg tcacgagtaa cgaagccagc tttacgcagt 3600
tcagaacgca gggactcgtc gtattccatc agagcgcggg tgataccgtg acggatcgca 3660
ccagcctgac cagagatacc accaccttta acggtgatgt acaggtccag tttctcaacc 3720
atgtcgacca gttccagcgg ctgacgaact accatgcggg cagtttcacg accgaagtac 3780
tgttccagag aacgttggtt gattacgatt ttaccgttgc ccggtttgat gaaaacgcga 3840
gctgcggaac ttttgcggcg accagtgccg tagtattgat tttcagccat tgcctataat 3900
cccgattaga tgtcaagaac ttgcggttgc tgtgccgcgt ggttgtgctc gttacccgcg 3960
taaactttca gtttacggaa catagcacga cccagcgggc cttttggcaa catgccttta 4020
accgcgattt caatcacacg ctcaggacgg cgagcaatca tctcttcaaa ggtcgcttgt 4080
ttgataccac cgatgtggcc ggtgtggtga tagtacactt tgtcagtacg cttgttgccg 4140
gttacagcaa ctttgtcagc gttcagaacg atgatgtaat caccggtatc tacgtgcgga 4200
gtgtattccg ctttgtgctt accgcgcagg cgacgagcca gttcagtagc cagacggccc 4260
agagttttac cggtcgcgtc aacaacatac cagtcgcgtt ttacggtttc tggtttagct 4320
gtaaaagttt tcattaaaag cttacccaat aaatagttac acgttggtga acacccaaac 4380
gtcttcaatt gttgaggttc acacgacaaa gtccggcaaa cctacccctt cgaatagcct 4440
atgccagcac acaaaaagtt ttgggaaaaa aactttcttg taacgtgggg tcgcaggatt 4500
atagagaagt cggggtcaaa gatcgacccc tttttgtgat ttgtgacagg ttttaacccg 4560
ccaaatgctc gcgcttcaga tactcttcgc tttgcatctc ttgcagacgt gacaggcaac 4620
gctggaactc aaacttcagc cgatcgccct gataaatttc atacagcggc acttctgcac 4680
tcaccactaa tttgacatgg cgctcgtaaa actcatccac cagcgcaata aagcgccgcg 4740
cttcgctctc catcaaccgc gtcataactg gtacatcaaa caacatgacc gtatgaaaga 4800
gacgtgagag cgcaatatag tcatgctgac tgcgggcgtc gacgcacagc gtagtaaaag 4860
agaccgccag cgtctggttc tcgacgccca ttgttgctaa tggccgatgg ttgatttcta 4920
acgtcggtga attttctcgt ttcccccccg ccagcgccaa ccatagttta tccatttgcg 4980
cccgggtttc atcgtgaagt ggcgaaagcc acagatgcgc ctgagtgagt gtacgcagac 5040
gataatcaac accagcgtcc acgttcatta catcacaatg ctgtttaatg gcatcgattg 5100
caggcagaaa acgcgcacgt tgcaggccat ttcgataaag ttcatccggc ggaatatttg 5160
acgtcgctac cagggtaata ccgcgagcga acagggcttt catcagaccg ccaagtagca 5220
tggca 5225
<210> 10
<211> 1643
<212> DNA
<213> 大肠杆菌
<400> 10
ttgctaaaga catacgggtt ctccgaaaat taatatttcc aaatttatca agtgcttaaa 60
taattaaatc tgtgctaaaa accaggtaag gatcagtagg tcagcactgc cgcctggact 120
gagatttcgt tcgatacact ccctgtcgaa ctgccggaga taatcgagat cggcgggggt 180
tcgaatgccc cctttttgca ataatgtttg cgcctcgcgc tgtagccagc gcaggccccc 240
ctcgccaccg cgcgatgcaa cgttggtatc gccgttgatc gccatcagta ggagcaaggt 300
atcgagcaat gccagttcag gatctaaccc ctgatccagc agagtgaggt aatgcggcaa 360
ggcgtgattg atcaccagtg gataacccgc ttcggcttca ccgcgtgcgc cggtaaggcc 420
aagctgttgg tacaaccgtt gacctgccgt cagttgtgaa ttattggtac gcagttcgcg 480
atcggtcagg ccacggcaga aacttgccgc cgtagaacaa acggttgttg gcgttaccgg 540
ttggttgagt tgaagcaaac ggccaattgc cgcacatagc agccctaaag aaaaaatgct 600
gcctttatgc gtgtttacgc ccgcagtggc gcggaacata tcaccttcgc aagccatacc 660
aattgggcgt aatccgtgga gtaccgcttc tggtgccatt tccgcactac aggcaccaaa 720
ttcaatgaaa cggggtagcc agccctgaat cgccagcgcg ctgcggtgga aatcttccag 780
cgccatatct ttgtgcgcac cgcagttaat gcgatccacg aggcctggtt tcggtgacag 840
attgacttca gtcagcatgg cgcgccagcc cagcagggcg tactcatcga ttaatgacgt 900
cgcaagcttt gtggttttag ttgacgttgc aggcatcgac atcgttcagc agtgcctcca 960
tgcggttgag taaatcggtc agttgatggg tttttccacg cgcgcagacg gctgcgcttt 1020
gttcgcacaa caggcagcgg cgaggcggca gtgaatagtc gcggcgggag agaatttcgc 1080
cttcgggcgt caggacatcg atatcccata accgcccgag aggatgacta tgttcaagct 1140
caatggtggc gagcttgagg tcgcgagccg gggcggcaat gctcaacatg ccctccggcc 1200
cgctggcgga aaccagtgca gcctgctcct gaatttgcca gccctgtttt gcggctaagg 1260
cacgcaaggc tgtcacgcca tgattaaaaa ttcggcgtgt gacctcgctg tctttaatcg 1320
gcccaggcgc aaccacggta aaggagacca gtggaacagg atggcgcttg agccagacgt 1380
gttgccgtgc ttgcctttca tcccggctga cgagcagctc gggaattgat accgcatggt 1440
ggctggcgag ttcaggaagc aggtgcatgg cttattcctt cacctgatgc acaacatcga 1500
tcaccgagcc atcgcggtaa cgcacaacgg caacgacgcg gtctgtgaat tcaatcggct 1560
gtggttcacc ggtcagcaga cgcgcacgtt cgcgcagcca ctcaatggaa accactttaa 1620
tgcccgcttc ctgcagacgt tct 1643
<210> 11
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-Ecoli#1-crRNA#1的靶特异性序列 (靶#1)
<400> 11
gcgaagguga acaauuaccg ucug 24
<210> 12
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-Ecoli#1-crRNA#2的靶特异性序列 (靶#1)
<400> 12
aucagaccgc caaguagcau ggca 24
<210> 13
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-Ecoli#2-crRNA#1的靶特异性序列 (靶#2)
<400> 13
ggagaacccg uaugucuuua gcaa 24
<210> 14
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-Ecoli#2-crRNA#2的靶特异性序列 (靶#2)
<400> 14
augcccgcuu ccugcagacg uucu 24
<210> 15
<211> 99
<212> DNA
<213> 人工序列
<220>
<223> PS1466,靶#1的寡核苷酸探针
<400> 15
gtgaatttgg cgaaggtgaa caattaccgt ctgaacgcag aataggggtg aagtagctgg 60
gtcagtgctg caacccactt cctaatctgt catcttctg 99
<210> 16
<211> 99
<212> DNA
<213> 人工序列
<220>
<223> PS1468,靶#2的寡核苷酸探针
<400> 16
ttaattttcg gagaacccgt atgtctttag caaaagatag aataggggtg aagtagctgg 60
gtcagtgctg caacccactt cctaatctgt catcttctg 99
<210> 17
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> PS1467寡核苷酸,带有5’生物素
<400> 17
catcgatctg atgcaagcta cttcacccct attctgcgtt 40
<210> 18
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> PS1469寡核苷酸,带有5’生物素
<400> 18
catcgatctg atgcaagcta cttcacccct attctatctt 40
<210> 19
<211> 287
<212> DNA
<213> 人工序列
<220>
<223> NDRG4.1 crRNA#1区域的PCR片段
<400> 19
tgtctttagc tgtcttgtcc aaataaaatt tttcaggcca tcagatttcc gtactccctg 60
gagtgggact tcatctggga ccaaaggagg gctggtgagg ggagtggcag gagggaggag 120
tgcctcgggg ccccgagcag gatgagcctg aggaagagac gggtccccat gttccctttc 180
ccgctcagat aatggaggtg aattgagggg agcagagacc tccccacctt cagggtggga 240
ccctgaggga ccaggacacc tttgctagac ctgtgggaga gaggaac 287
<210> 20
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-NDRG4.1-crRNA#1的靶特异性序列
<400> 20
gucccagaug aagucccacu ccag 24
<210> 21
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> NDRG4.1 靶的捕获寡核苷酸
<400> 21
cctcctttgg tcccagatga agtcccactc cagggagtga ctcagctaac actgagtc 58
<210> 22
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> PS1463引物
<400> 22
gaatggcttt ctggggtgg 19
<210> 23
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> PS1461引物
<400> 23
ggaggaagag ctcagggtg 19
<210> 24
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> PS1131引物
<400> 24
agaggtcgtg gcactgagat 20
<210> 25
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-NDRG4.1-crRNA#2的靶特异性序列
<400> 25
uuaaugaaga aggagguggc auua 24
<210> 26
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-C9orf72-crRNA#1的靶特异性序列
<400> 26
ccguaagaca cuguuaagug cauu 24
<210> 27
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-C9orf72-crRNA#2的靶特异性序列
<400> 27
uauucagaaa caggagggag gucc 24
<210> 28
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-FMR1-crRNA#1的靶特异性序列
<400> 28
cauuccacug ugaaacaaac cuca 24
<210> 29
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-FMR1-crRNA#2的靶特异性序列
<400> 29
cggucuagca uugggacuuc ggag 24
<210> 30
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-CNRIP1-crRNA#1的靶特异性序列
<400> 30
gcuuguauuc cuccauucuc gcuu 24
<210> 31
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-CNRIP1-crRNA#2的靶特异性序列
<400> 31
cacagauuuu gaagggugag cuau 24
<210> 32
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-DMPK-crRNA#1的靶特异性序列
<400> 32
uugugcauga cgcccugcuc uggg 24
<210> 33
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-DMPK-crRNA#2的靶特异性序列
<400> 33
cugcuggccu cuccagccuu cuca 24
<210> 34
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-EGFR-crRNA#1的靶特异性序列
<400> 34
gagaggcuaa gugucccacu gccc 24
<210> 35
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-EGFR-crRNA#2的靶特异性序列
<400> 35
agccaaccaa aauauuaaac cugu 24
<210> 36
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-FBN1-crRNA#1的靶特异性序列
<400> 36
ugccccaaag gagaggacgu gguu 24
<210> 37
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-FBN1-crRNA#2的靶特异性序列
<400> 37
guggcuuuga aagguauagu auuu 24
<210> 38
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-HTT-crRNA#1的靶特异性序列
<400> 38
ugggagugca ccccugcucu gacc 24
<210> 39
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-HTT-crRNA#2的靶特异性序列
<400> 39
ggcccgcugc agcucccugu cccg 24
<210> 40
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-INA-crRNA#1的靶特异性序列
<400> 40
caguuacagu gaggaccugc agag 24
<210> 41
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-INA-crRNA#2的靶特异性序列
<400> 41
ugucccugcc ccagcccuuc aaac 24
<210> 42
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-MAL-crRNA#1的靶特异性序列
<400> 42
ccugccuguu gacugccggu guuu 24
<210> 43
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-MAL-crRNA#2的靶特异性序列
<400> 43
cggcacccca cccucagaag uguc 24
<210> 44
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-NDRG4.2-crRNA#1的靶特异性序列
<400> 44
cugcagauau gucacccacc cccc 24
<210> 45
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-NDRG4.2-crRNA#2的靶特异性序列
<400> 45
gaaggcaccg cccugggcuc ucga 24
<210> 46
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-SEPT9.1-crRNA#1的靶特异性序列
<400> 46
cgaaggaagg ugugaaggaa ggag 24
<210> 47
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-SEPT9.1-crRNA#2的靶特异性序列
<400> 47
gcuggacgcc aagcagagug ccag 24
<210> 48
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-SEPT9.2-crRNA#2的靶特异性序列
<400> 48
ucuaaaauca cuccgcucaa guua 24
<210> 49
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-SNCA-crRNA#1的靶特异性序列
<400> 49
guccugcuuc ugauauuccc uucu 24
<210> 50
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-SNCA-crRNA#2的靶特异性序列
<400> 50
ccaucagugg aacaaggaau aaau 24
<210> 51
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-SPG20-crRNA#1的靶特异性序列
<400> 51
cguuccaggu uguuacagcc uuug 24
<210> 52
<211> 24
<212> RNA
<213> 人工序列
<220>
<223> Cpf1-SPG20-crRNA#2的靶特异性序列
<400> 52
gaaccaguuu uguuguuguu gugu 24
<210> 53
<211> 2250
<212> DNA
<213> 智人
<400> 53
cccagagcag ggcgtcatgc acaagaaagc tttgcacttt gcgaaccaac gataggtggg 60
ggtgcgtgga ggatggaaca cggacggccc ggcttgctgc cttcccaggc ctgcagtttg 120
cccatccacg tcagggcctc agcctggccg aaagaaagaa atggtctgtg atccccccag 180
cagcagcagc agcagcagca gcagcagcag cagcagcagc agcagcagca gcagcagcat 240
tcccggctac aaggaccctt cgagccccgt tcgccggccg cggacccggc ccctccctcc 300
ccggccgcta gggggcgggc ccggatcaca ggactggagc tgggcggaga cccacgctcg 360
gagcggttgt gaactggcag gcggtgggcg cggcttctgt gccgtgcccc gggcactcag 420
tcttccaacg gggccccgga gtcgaagaca gttctagggt tcagggagcg cgggcggctc 480
ctgggcggcg ccagactgcg gtgagttggc cggcgtgggc caccaaccca atgcagccca 540
gggcggcggc acgagacaga acaacggcga acaggagcag ggaaagcgcc tccgataggc 600
caggcctagg gacctgcggg gagagggcga ggtcaacacc cggcatgggc ctctgattgg 660
ctcctgggac tcgccccgcc tacgcccata ggtgggcccg cactcttccc tgcgccccgc 720
ccccgcccca acagcctaca gctgttgtta gtccactcgc acgcctcgaa tcccgtccga 780
actcgtcatt ggctgcttcc tagcggcctg tgttgattgg ctgcccgaag atccgccctc 840
ctgccgtggg cccagccccg caaatgcgca gctaagcggg tggcaagggg cgggtggagc 900
gcggggcgcg acggcggagg ggggcgtggg cagccggacg taccctggca gggagcagca 960
ggtggcggcg gtgcatgggg cctggcccca ccagcgggca ctggcccaca gccacggccg 1020
gggggccatc tagctggaga gagaagggac aggtgacccg atcggagccc agcccagccc 1080
tcagcggtgg ggcgagagac agcgagggga atcgaggttg gggaggttat ctagggagat 1140
cccggaggga atctggtgag gcctgaacgg agggagatct ggggctgaat aaagggcttc 1200
tgccctctaa agtcgcaaag acgtagggtg agccctatat ctggacgggg agaccaggag 1260
ccagggaggg gatctgcaga atgggcagca ggtctgaggc aggggaaaga gaggggtctt 1320
acatgggaag gtggatccgt ggcccgggga ctggggaccc ccgtgacagc tggaaggaga 1380
agaaagaggc atagggcgcg tggaggggcg aaggagggcg gtggcgcggc gtgccccagc 1440
gtgggtccct tccctcctcc aggtgtctat acacgccccg cggagcagac ggcccacctc 1500
ctcccggtcc tccggggaag gggacacatg agggactcac ctgtggctcc ctctgcctgc 1560
agcaactcca tccgctcctg caactgccgg acgtgtgcct ctaggtcccg gttccgagcc 1620
tctgcctcgc gtagttgact gtggggaggt aaggacggtg agtccgtccg ggccggacga 1680
gaggggatgc caagggttgc caccggcccg catcccggcc ccggccccgg ccccgatccc 1740
gacctggcga agttctggtt gtccgtgcgg atggcctcca tctcccggct caggctctgc 1800
cgggtgagca cctcctcctc cagggcttcc tggagctccc gcagcgtcac ctcggcctca 1860
gcctctgccg cagggacagc cgctggaact gccacttcag cctgtgtatg gggaccaggc 1920
ttaaggctgc ctgtggctcc tggaagactc aggacttggg cactggttcc aggctaggaa 1980
tccttgttta tcccctactc ctccgtcccc tcaacatttc tggaatcccc atagctcctg 2040
caatgatcca agccccctcc cttccctacc tccctcagcc ccatccctga gtctggtcct 2100
ctaaatctac acagggacca gagggctggt gctcaaacac taacacaacc tatgtccctc 2160
tgctgctcaa aatccctcca gctccctaat gccctcacga caaaaggcct tgctgggttt 2220
tgtttcctgc tggcctctcc agccttctca 2250
<210> 54
<211> 1487
<212> DNA
<213> 智人
<400> 54
aatgcactta acagtgtctt acggtaaaaa caaaatttca tccaccaatt atgtgttgag 60
cgcccactgc ctaccaagca caaacaaaac cattcaaaac cacgaaatcg tcttcacttt 120
ctccagatcc agcagcctcc cctattaagg ttcgcacacg ctattgcgcc aacgctcctc 180
cagagcgggt cttaagataa aagaacagga caagttgccc cgccccattt cgctagcctc 240
gtgagaaaac gtcatcgcac atagaaaaca gacagacgta acctacggtg tcccgctagg 300
aaagagaggt gcgtcaaaca gcgacaagtt ccgcccacgt aaaagatgac gcttggtgtg 360
tcagccgtcc ctgctgcccg gttgcttctc ttttgggggc ggggtctagc aagagcaggt 420
gtgggtttag gaggtgtgtg tttttgtttt tcccaccctc tctccccact acttgctctc 480
acagtactcg ctgagggtga acaagaaaag acctgataaa gattaaccag aagaaaacaa 540
ggagggaaac aaccgcagcc tgtagcaagc tctggaactc aggagtcgcg cgctaggggc 600
cggggccggg gccggggcgt ggtcggggcg ggcccggggg cgggcccggg gcggggctgc 660
ggttgcggtg cctgcgcccg cggcggcgga ggcgcaggcg gtggcgagtg ggtgagtgag 720
gaggcggcat cctggcgggt ggctgtttgg ggttcggctg ccgggaagag gcgcgggtag 780
aagcgggggc tctcctcaga gctcgacgca tttttacttt ccctctcatt tctctgaccg 840
aagctgggtg tcgggctttc gcctctagcg actggtggaa ttgcctgcat ccgggccccg 900
ggcttcccgg cggcggcggc ggcggcggcg gcgcagggac aagggatggg gatctggcct 960
cttccttgct ttcccgccct cagtacccga gctgtctcct tcccggggac ccgctgggag 1020
cgctgccgct gcgggctcga gaaaagggag cctcgggtac tgagaggcct cgcctggggg 1080
aaggccggag ggtgggcggc gcgcggcttc tgcggaccaa gtcggggttc gctaggaacc 1140
cgagacggtc cctgccggcg aggagatcat gcgggatgag atgggggtgt ggagacgcct 1200
gcacaatttc agcccaagct tctagagagt ggtgatgact tgcatatgag ggcagcaatg 1260
caagtcggtg tgctccccat tctgtgggac atgacctggt tgcttcacag ctccgagatg 1320
acacagactt gcttaaagga agtgactatt gtgacttggg catcacttga ctgatggtaa 1380
tcagttgtct aaagaagtgc acagattaca tgtccgtgtg ctcattgggt ctatctggcc 1440
gcgttgaaca ccaccaggct ttgtattcag aaacaggagg gaggtcc 1487
<210> 55
<211> 1272
<212> DNA
<213> 智人
<400> 55
aagcgagaat ggaggaatac aagccaaagg gaaggaaggg gacgaaggcg gacagggagt 60
gacctcttcc tccaaccccc gggcccgctg ggagcggcgc gaggccagag gcccttgaga 120
ggctcgggct gtcctggggg cctcagtcct ctgcctgtac cccatggggg accctgctgc 180
caccaggcgc cccgcactca ctcgacctgc agcgtgctgg gtttaatctt cacctcaacc 240
ttgtaggagg agccggtgag cagcttgatg gtgcggttct ggccgaagcg ctgcccgtcc 300
accttgtaaa agaccgggcc gtcattaggc tggatgcgca gcgcgatgga gaggcgcacg 360
aggcccggca ggtcccccat gtctgggcga gggtctggcg cggcggctcc ggggggcgga 420
ggacagcgcc ggctgcggcc gagtggctgg agcgcgaggg gcggagagga agcgcgggga 480
gggtgaggga ggtggtggag ctgaggctgc cgctaggaac ccgcgccgtc gccgccgtcc 540
gcccgggctt ttgaggagca gctccttagg ctgtggcccc cctccccact cggcgaggaa 600
gcgggcccaa gagacggctc caaggccgcg cgcttcccca tcccccgctc cagtgctgcg 660
ccctccacgc acccgaaggc tcgctctggc ccgcaggccg ccgcgcagat ccgcgcagct 720
gggggcgagg gagttaatcc tgtttacgca ccacaatccc cttcagctgg ggaagcggac 780
atttaggctc ctcctagaac agccccgggc aggaggagga gaggtttggg aggcactggg 840
aaggcgctgg agttaagcga ccactatgcc aaggagcgag acccccggaa tctggatacc 900
gcctcggcca gctacgtgag gtggacactg ctgctcgcgg atccggcgcc agccaggcgg 960
gaggaggctg agggggggta aagggaggcg ggaagggggg acaggaaacc gctagccggt 1020
gatttaaatt tcaggaaata tgagtctttc caaagcttag gggaaatggc cgaggaaagg 1080
cgcaattcca cgtgatggag ccacgctgga tgaggaatgg atgcaagagg aagaaaataa 1140
ccatattcaa ggagctacat cttcttgtgg gtgtacattt ccattatacg tatgctcgtc 1200
ccaaaaatga cacatacata aatatatgta atgaatcaca tatatttaca cagattttga 1260
agggtgagct at 1272
<210> 56
<211> 2352
<212> DNA
<213> 智人
<400> 56
gggcagtggg acacttagcc tctctaaaag cacctccacg gctgtttgtg tcaagccttt 60
attccaagag cttcactttt gcgaagtaat gtgcttcaca cattggcttc aaagtaccca 120
tggctggttg caataaacat taaggaggcc tgtctctgca cccggagttg ggtgccctca 180
tttcagatga tttcgagggt gcttgacaag atctgaagga ccctcggact ttagagcacc 240
acctcggacg cctggcaccc ctgccgcgcg ggcacggcga cctcctcagc tgccaggcca 300
gcctctgatc cccgagaggg tcccgtagtg ctgcagggga ggtggggacc cgaataaagg 360
agcagtttcc ccgtcggtgc cattatccga cgctggctct aaggctcggc cagtctgtct 420
aaagctggta caagtttgct ttgtaaaaca aaagaaggga aagggggaag gggaccctgg 480
cacagatttg gctcgacctg gacataggct gggcctgcaa gtccgcgggg accgggtcca 540
gaggggcagt gctgggaacg cccctctcgg aaattaactc ctcagggcac ccgctcccct 600
cccatgcgcc gccccactcc cgccggagac taggtcccgc gggggccacc gctgtccacc 660
gcctccggcg gccgctggcc ttgggtcccc gctgctggtt ctcctccctc ctcctcgcat 720
tctcctcctc ctctgctcct cccgatccct cctccgccgc ctggtccctc ctcctcccgc 780
cctgcctccc cgcgcctcgg cccgcgcgag ctagacgtcc gggcagcccc cggcgcagcg 840
cggccgcagc agcctccgcc ccccgcacgg tgtgagcgcc cgacgcggcc gaggcggccg 900
gagtcccgag ctagccccgg cggccgccgc cgcccagacc ggacgacagg ccacctcgtc 960
ggcgtccgcc cgagtccccg cctcgccgcc aacgccacaa ccaccgcgca cggccccctg 1020
actccgtcca gtattgatcg ggagagccgg agcgagctct tcggggagca gcgatgcgac 1080
cctccgggac ggccggggca gcgctcctgg cgctgctggc tgcgctctgc ccggcgagtc 1140
gggctctgga ggaaaagaaa ggtaagggcg tgtctcgccg gctcccgcgc cgcccccgga 1200
tcgcgccccg gaccccgcag cccgcccaac cgcgcaccgg cgcaccggct cggcgcccgc 1260
gcccccgccc gtcctttcct gtttccttga gatcagctgc gccgccgacc gggaccgcgg 1320
gaggaacggg acgtttcgtt cttcggccgg gagagtctgg ggcgggcgga ggaggagacg 1380
cgtgggacac cgggctgcag gccaggcggg gaacggccgc cgggacctcc ggcgccccga 1440
accgctccca actttcttcc ctcactttcc ccgcccagct gcgcaggatc ggcgtcagtg 1500
ggcgaaagcc gggtgctggt gggcgcctgg ggccggggtc ccgcacgtgc gccccgcgct 1560
gtcttcccag ggcgcgacgg ggtcctggcg cgcacccgag gggcgggcgc tgcccacccg 1620
ccgagactgc actgtttagg gaagctgagg aaggaaccca aaaatacagc ctcccctcgg 1680
accccgcggg acaggcggct ttctgagagg acctccccgc ctccgccctc cgcgcaggtc 1740
tcaaactgaa gccggcgccc gccagcctgg ccccggcccc tctccaggtc cccgcgatcc 1800
tcgttcccca gtgtggagtc gcagcctcga cctgggagct gggagaactc gtctaccacc 1860
acctgcggct cccggggagg ggtggtgctg gcggcggtta gtttcctcgt tggcaaaagg 1920
caggtggggt ccgacccgcc ccttgggcgc agaccccggc cgctcgcctc gcccggtgcg 1980
ccctcgtctt gcctatccaa gagtgccccc cacctcccgg ggaccccagc tccctcctgg 2040
gcgcccgcgc cgaaagcccc aggctctcct tcgatggccg cctcgcggag acgtccgggt 2100
ctgctccacc tgcagccctt cggtcgcgcc tgggcttcgc ggtggagcgg gacgcggctg 2160
tccggccact gcaggggggg atcgcgggac tcttgagcgg aagccccgga agcagagctc 2220
atcctggcca acaccatggt gtttcaaaat ggggctcaca gcaaacttct cctcaaaacc 2280
cggagacttt ctttcttgga tgtctctttt tgctgtttga agaatttgag ccaaccaaaa 2340
tattaaacct gt 2352
<210> 57
<211> 1711
<212> DNA
<213> 智人
<400> 57
tgaggtttgt ttcacagtgg aatgtaaagg gttgcaagga ggtgcatcgg cccctgtgga 60
caggacgcat gactgctaca cacgtgttca ccccaccctc tggcacaggg tgcacataca 120
gtaggggcag aaatgaacct caagtgctta acacaatttt taaaaaatat atagtcaagt 180
gaaagtatga aaatgagttg aggaaaggcg agtacgtggg tcaaagctgg gtctgaggaa 240
aggctcacat tttgagatcc cgactcaatc catgtccctt aaagggcaca gggtgtctcc 300
acagggccgc ccaaaatctg gtgagagagg gcgtagacgc ctcaccttct gcctctacgg 360
gtcacaaaag cctgggtcac cctggttgcc actgttccta gttcaaagtc ttcttctgtc 420
taatccttca cccctattct cgccttccac tccacctccc gctcagtcag actgcgctac 480
tttgaaccgg accaaaccaa accaaaccaa accaaaccaa accagaccag acaccccctc 540
ccgcggaatc ccagagaggc cgaactggga taaccggatg catttgattt cccacgccac 600
tgagtgcacc tctgcagaaa tgggcgttct ggccctcgcg aggcagtgcg acctgtcacc 660
gcccttcagc cttcccgccc tccaccaagc ccgcgcacgc ccggcccgcg cgtctgtctt 720
tcgacccggc accccggccg gttcccagca gcgcgcatgc gcgcgctccc aggccacttg 780
aagagagagg gcggggccga ggggctgagc ccgcgggggg agggaacagc gttgatcacg 840
tgacgtggtt tcagtgttta cacccgcagc gggccggggg ttcggcctca gtcaggcgct 900
cagctccgtt tcggtttcac ttccggtgga gggccgcctc tgagcgggcg gcgggccgac 960
ggcgagcgcg ggcggcggcg gtgacggagg cgccgctgcc agggggcgtg cggcagcgcg 1020
gcggcggcgg cggcggcggc ggcggcggag gcggcggcgg cggcggcggc ggcggcggct 1080
gggcctcgag cgcccgcagc ccacctctcg ggggcgggct cccggcgcta gcagggctga 1140
agagaagatg gaggagctgg tggtggaagt gcggggctcc aatggcgctt tctacaaggt 1200
acttggctct agggcaggcc ccatcttcgc ccttccttcc ctcccttttc ttcttggtgt 1260
cggcgggagg caggcccggg gccctcttcc cgagcaccgc gcctgggtgc cagggcacgc 1320
tcggcgggat gttgttggga gggaaggact ggacttgggg cctgttggaa gcccctctcc 1380
gactccgaga ggccctagcg cctatcgaaa tgagagacca gcgaggagag ggttctcttt 1440
cggcgccgag ccccgccggg gtgagctggg gatgggcgag ggccggcggc aggtactaga 1500
gccgggcggg aagggccgaa atcggcgcta agtgacggcg atggcttatt ccccctttcc 1560
taaacatcat ctcccagcgg gatccgggcc tgtcgtgtgg gtagttgtgg aggagcgggg 1620
ggcgcttcag ccgggccgcc tcctgcagcg ccaagagggc ttcaggtctc ctttggcttc 1680
tcttttccgg tctagcattg ggacttcgga g 1711
<210> 58
<211> 2266
<212> DNA
<213> 智人
<400> 58
aaccacgtcc tctcctttgg ggcagaaatc tctgggagta ggggcaaggt agtttaacca 60
cgaacggggt ggggactaaa caaccctagc acctctaagg tgcccccagg aggtcttgcc 120
aaggagtctt ccacagggag agtcatcctg cccgttgttc tggatcttga aacttgggag 180
acccacacca aaggagggaa ccggttcctt taccctttaa gcgcgtcgtg tcctccaccg 240
cctcttctct tggcccgact ggctctggtt tccttcacgt tcccagcctc caaattggcg 300
tccgccccat ggctcgtgta ggacgctaaa agcacggtaa atcccagggc gatctccagc 360
agacgccctc gacgcatgat gccgagccgc caccggctcc cgccgcctct tgccgcgccc 420
ggggctcggt ctgcggccgc cgctgcgccc tgaagcgcac cgcgccgccg gggtcccgct 480
atcccgccgc ccgtcccccg ggccgggctc ctcccgcctt ctccaggcgc tgctcccact 540
tcaggcggcc cctgccagct gcaacacaga gacaaatccc cgaggcgggg agactttcag 600
ggcatcggga tgctgaagcc tcgcggtccc cattcccaag cccaacccgt gcgccgcctg 660
cgcgtggcgc agttaatttg ggtaagggaa gaccgtttgg tccacagctg gctggaaagc 720
ccaggccccc ggcggcagca gccccggccg atccctcggc ctcccgggcc ccgccagaag 780
agcgcggcgc aaagtaccca tatccccagc ggtcctaagc cccgggcgag ctctctgggt 840
ttattttttt tagcggcacg aattgcgcgc gatgcgcgct ctgaacgccc cactcctcag 900
cctgccctct ccgccaggct ggaagccagc cgcgccgtcc ccgccgactc cgggcgatgc 960
caccgccccc cgaacatctg acgcggagcc cggcaccaag agccccgggc caggaagctg 1020
tcaggcaggg gagggccagc gccagctgtg gacgttccgg gacagcccct caccccagtc 1080
cctgtccctg ccctcggcgc ggcgcaaacg caaaagcctc cgtggccgca gctccagccc 1140
cggtggccgc ccgacccccg tcgggacccc ggctgcaccc actggagaag cggcggctcc 1200
gactcccgag gaggcggcgg cggctgctcc cagtcgtggc cgctacagcc actgctcggc 1260
tccgctcgca gctgtcccag ctgtggctcc tgtccgcttg tggcacccac agtctctgcc 1320
gcggctcccg cagccccctc ctttccccac ctcttcaagt atcgtccgcg cagcggtttc 1380
tcgcgagaga aatacttttt ttaaaaaaag aaagaaaaag aaaatgacac cccctccttc 1440
gtcgccctca tcaccacccc accccccggc cccatccatc ctccctttcc actccccttt 1500
gccagcctcc gcctcggtgc ggggcctctc gctcgcagga ttagcgcagt gggaggaggc 1560
agaggtgatc aggtcctgcc cggcctggga ctttttgtct tgaggtgggg aggggagaaa 1620
tgggaagagg tggagtagcg gttttagccc gctctgcggc tgcgaggttt agatccgaga 1680
ttaacctctc ccgcgatagg tgaagcccta ccggagcaga aagctgttcc acctgcacca 1740
agaatgcgcg ctggagacgg ttgccccgga ggccctggcc cgagagaaaa ccagtccccg 1800
ctgcccgcgc ctcccggtag cgcgctccct gcgcctctcc cgccggacac tcagcagacg 1860
ccggaggccg ggaggctaag actgggcgcg tcgcaggccg ggaccgcggc agaggctgct 1920
gtgccgaccg aggagagggc tctgccgccc ccacttgccc tgggtgtcga gagcccactc 1980
cagacgcggc tcttctgagg ctcaattcaa gccacccagg cctgaatcca gggtgctctc 2040
tctaagtcgg tgtccaaccc aggggcctgt aaatgttgga acctaggatg taggatggga 2100
gcggtgaagg gatggtcctc ttgcccagcc cagattaaga ctggggttca tctggaggac 2160
tctacttaca ccctcccggt cccctcgccc tcccccacac acagctgcct ctccccagga 2220
tatgcgcggc acagtgaatt tagtggcttt gaaaggtata gtattt 2266
<210> 59
<211> 1643
<212> DNA
<213> 智人
<400> 59
ggtcagagca ggggtgcact cccataaaga aacgccccca ggtcgggact cattcctgtg 60
ggcggcatct tgtggccata gctgcttctc gctgcactaa tcacagtgcc tctgtgggca 120
gcaggcgctg accacccagg cctgccccag accctctcct cccttccggg gcgctgcgct 180
gggaccgatg gggggcgcca ggcctgtgga caccgccctg caggggcctc tccagctcac 240
tgggggtggg gtgggggtca cacttggggt cctcaggtcg tgccgaccac gcgcattctc 300
tgcgctctgc gcaggagctc gcccaccctc tccccgtgca gagagccccg cagctggctc 360
cccgcagggc tgtccgggtg agtatggctc tggccacggg ccagtgtggc gggagggcaa 420
accccaaggc cacctcggct cagagtccac ggccggctgt cgccccgctc caggcgtcgg 480
cgggggatcc tttccgcatg ggcctgcgcc cgcgctcggc gccccctcca cggccccgcc 540
ccgtccatgg ccccgtcctt catgggcgag cccctccatg gccctgcccc tccgcgcccc 600
acccctccct cgccccacct ctcaccttcc tgccccgccc ccagcctccc cacccctcac 660
cggccagtcc cctcccctat cccgctccgc ccctcagccg ccccgcccct cagccggcct 720
gcctaatgtc cccgtcccca gcatcgcccc gccccgcccc cgtctcgccc cgcccctcag 780
gcggcctccc tgctgtgccc cgccccggcc tcgccacgcc cctacctcac cacgcccccc 840
gcatcgccac gccccccgca tcgccacgcc tcccttacca tgcagtcccg ccccgtccct 900
tcctcgtccc gcctcgccgc gacacttcac acacagcttc gcctcacccc attacagtct 960
caccacgccc cgtcccctct ccgttgagcc ccgcgccttc gcccgggtgg ggcgctgcgc 1020
tgtcagcggc cttgctgtgt gaggcagaac ctgcgggggc aggggcgggc tggttccctg 1080
gccagccatt ggcagagtcc gcaggctagg gctgtcaatc atgctggccg gcgtggcccc 1140
gcctccgccg gcgcggcccc gcctccgccg gcgcagcgtc tgggacgcaa ggcgccgtgg 1200
gggctgccgg gacgggtcca agatggacgg ccgctcaggt tctgctttta cctgcggccc 1260
agagccccat tcattgcccc ggtgctgagc ggcgccgcga gtcggcccga ggcctccggg 1320
gactgccgtg ccgggcggga gaccgccatg gcgaccctgg aaaagctgat gaaggccttc 1380
gagtccctca agtccttcca gcagcagcag cagcagcagc agcagcagca gcagcagcag 1440
cagcagcagc agcagcaaca gccgccaccg ccgccgccgc cgccgccgcc tcctcagctt 1500
cctcagccgc cgccgcaggc acagccgctg ctgcctcagc cgcagccgcc cccgccgccg 1560
cccccgccgc cacccggccc ggctgtggct gaggagccgc tgcaccgacc gtgagtttgg 1620
gcccgctgca gctccctgtc ccg 1643
<210> 60
<211> 1816
<212> DNA
<213> 智人
<400> 60
ctctgcaggt cctcactgta actggaaaaa cacgacctcg ccctcgggaa ggctttctgt 60
gcgcctcacc tcaggatgag ggtgggtgta ggggacacct cccagaaacc cctaacctcc 120
cagtcggtta aagaagaggg gatagggtca agggatgcga cagagctgtg tggtttccgg 180
atgggaaacc tcagtcgttt aggcacccct ccgctcgagt cacttccgaa gcagtcgatt 240
cttggggaga agcgctgcgg aaaggggcga ctccgatgca gatggccctg tcccggcgcc 300
ccaggtcgtc gcgcgcgcag ctgcggtagt cactgcgcct ccccgccccc actcctggat 360
gccccccttc cctctcccgg ccagactctg agcaggagct ccgcccccag cgcgccgccc 420
cagccccggc gccttaaaag ccgggcgcac cgccccgccg cgccctgcct gccgcacctc 480
tcctttcttc tgtagctcgc gttgaagccg cacgtccggc cccgatcccg gcaccatgag 540
cttcggctcg gagcactacc tgtgctcctc ctcctcctac cgcaaggtgt tcggggatgg 600
ctctcgcctg tccgcccgcc tctctggggc cggcggcgcg ggcggcttcc gctcgcagtc 660
gctgtcccgc agcaatgtgg cctcctcggc cgcctgctcc tcggcctcgt cgctcggcct 720
cggcctggcc tatcgccggc cgccggcgtc cgacgggctg gacctgagcc aggcggcggc 780
gcgcaccaac gagtacaaga tcatccgcac caacgagaag gagcagctgc agggcctcaa 840
cgaccgcttc gccgtgttca tcgagaaggt gcatcagctg gagacgcaga accgcgcgtt 900
ggaggccgag ctggccgcgc tgcgacagcg ccacgctgag ccgtcgcgcg tcggcgagct 960
cttccagcgc gagctgcgcg acctgcgcgc gcagctggag gaggccagct cggctcgctc 1020
gcaggccctg ctggagcgcg acgggctggc ggaggaggtg cagcggctgc gggcgcgctg 1080
cgaggaggag agccgcggac gcgaaggcgc cgagcgcgcc ctgaaggcgc agcagcgcga 1140
cgtggacggc gccacgctgg cccgcctgga cctggagaag aaggtggagt cgctgctgga 1200
cgagctggcc ttcgtacgcc aggtgcacga cgaggaggta gccgagctgc tggccacgct 1260
gcaggcgtcg tcgcaggccg cggccgaggt ggacgtgact gtggctaaac cagacctgac 1320
ctcggctctg agggagatcc gcgcccagta tgagtccctg gccgctaaga acctgcagtc 1380
cgcggaagaa tggtacaagt ccaagtttgc caacctgaac gagcaggcgg cgcgcagcac 1440
cgaggccatc cgggccagcc gcgaggagat ccacgagtat cggcgccagc tgcaggcgcg 1500
caccatcgag atcgagggcc tgcgcggggc caacgagtcc ttggagaggc agatcctgga 1560
gctggaggag cggcacagtg ccgaggtagc tggctaccag gtaagggccg gggctgggcg 1620
tggggagggg tgccctgccc tcttccgcgc gtaccctctt cctctggtaa aactgggccc 1680
caggacttaa ggggagggca aaagagagga gagaagagcc gcggctggag gcgctggtta 1740
acaaaaaacc ctggagtctt taatgttaat tttagggaac gcccctcatt tatgtccctg 1800
ccccagccct tcaaac 1816
<210> 61
<211> 1934
<212> DNA
<213> 智人
<400> 61
aaacaccggc agtcaacagg caggcaaaga acctgggggt gggggtagca gcggtcccac 60
cctcaaaagg cccgggctgc ccagaccaag agaaagcgat gaatctcttc tggtaacgtc 120
ccttcctgtc gcatggattc aaggccgacc tgccccagca ccaccaccag cagccttctg 180
ctggggccgg cacagctggg agcaacctcc tactctcagg cagacgcgca gcaccaagca 240
gagaggcccg gtgcaggatc ccagcgccga accagcgccg gctcagtgga cgcggaaggg 300
gccggcggcc gcggccggtc ccatccccca ctgcagaccc ccagcctgtg gcggtggtcc 360
agttccgcca ggaaaccgcc gcctggagct gtgggtcgcg cacattaacg catccagcgg 420
aaaaatgaag gagacccaaa ttcaaagtta aagtaatggt gacccgagag gtgccttgat 480
gagaaggttt ggggtcccgg ttactgatgg ttatcattct tacgagatgc tggtcaccta 540
cgaagggaga aaggcacgag gagcgcctga ccaaagtggt tttgccctgc ttcccgcaag 600
aggtggcacc cacggctgga acgcaggagt cagacccaca gtccccagct ctggacgccc 660
gcagcggggc ctcgaagagg ttcagggcgg tgcccgcggc gctcgggccg ggtctcccgg 720
ggcgtggggc ggggggcggg gttgggcggc ggccggggct cctccctctt ctgccccggg 780
ctcccctgct cttaacccgc gcgcgggggc gcccaggcca ctgggctccg cggagccagc 840
gagaggtctg cgcggagtct gagcggcgct cgtcccgtcc caaggccgac gccagcacgc 900
cgtcatggcc cccgcagcgg cgacgggggg cagcaccctg cccagtggct tctcggtctt 960
caccaccttg cccgacttgc tcttcatctt tgagtttgtg agtggctcct ggccggggaa 1020
gggacggggt gggctgagcc gtgcgctctc tcgggcgccc agcacagctg tcggacggga 1080
tccgctagct gcgcaggttc tgggagcatc ggggcagcag gcgcagggcg gggactaagc 1140
cagggaagtc ccctcccacc tccggtcctt tgtgcccttc tagaccaaca gaatgagggg 1200
aacagtctac aggactatgg aggaaaaact gggttcccaa ctggggtcag atgtaggcag 1260
cggggcaggg ggggacggct cttggttcgc tggtcccaaa gctgcgcgcg gggcccactt 1320
gacgcgcgca gcgccaccga agctcccgcc gcgctttgcg cggttgggta gaagtgcgca 1380
gcttttacaa gggagaaggt ttcgttaaaa aagaaaaaaa aatcagcaag agaaacatta 1440
gtattaccaa ccgagatttg gagatgagag ggagctgaat ccggtttatt ttcttctggc 1500
cttttaaagt ttctggcgag ggaacgtatt tgcgaccaat tcgatctgga aatgaggcca 1560
tcgtttgctt ggccgcagtc cttctgcccc gtgtgcgggg tgggggtgga ggagatgggg 1620
ggtggggggt ggggggtggc ggcgagagcg atccgcgcgc ctcgactgac cttgggcagg 1680
cccggggcct ctgcacctgc ggtcggtccc gccttgcacg cacggtctct gcctgaggct 1740
gcaggaaagc gcttcctact gagaactcct gataagcgct cacggtgtcg cgaagccgaa 1800
gtgacctccc tcagcctcaa ctccccgggg gccgctggcc ttcacctggg aggggtgtgc 1860
cctgtatgtc ctgtgggtgc ggtccgtcac cgcctgaggg acaccttttc cggcacccca 1920
ccctcagaag tgtc 1934
<210> 62
<211> 2574
<212> DNA
<213> 智人
<400> 62
ctggagtggg acttcatctg ggaccaaagg agggctggtg aggggagtgg caggagggag 60
gagtgcctcg gggccccgag caggatgagc ctgaggaaga gacgggtccc catgttccct 120
ttcccgctca gataatggag gtgaattgag gggagcagag acctccccac cttcagggtg 180
ggaccctgag ggaccaggac acctttgcta ggggatgtcc ctcctcactc ctgcacaagt 240
tcctcaagga caccctcggg ctccgaaaac ggggggaggg ggacgacgcc ccagaggccc 300
ctgagcccct ggttcttccc gaccctaagg gcttttctcc ctcggttccc aggcggcgac 360
ggcgggtagc gcgaagcagc aggcgcaggg gcgctgggat ggggatgtct ctgcaggtct 420
aaggttcccc ttgggagtct aaacaaagac tacggcagcg ccgtcccctc ccccgggaac 480
ccgacgccgc gcggccacag ggggcctgga ggggcgggca gggcctcgca gcgcacccag 540
cacagtccgc gcggcggagc gggtgagaag tcggcggggg cgcggatcga ccggggtgtc 600
ccccaggctc cgcgtcgcgg tccccgctcg ccctcccgcc cgcccaccgg gcaccccagc 660
cgcgcagaag gcggaagcca cgcgcgaggg accgcggtcc gtccgggact agccccaggc 720
ccggcaccgc cccgcgggcc gagcgcccac acccgccaaa cccacgcggg cacgcccccg 780
cggcgcaccg cccccagccc ggcctccgcc cctgcagccg cgggcacgcg gaggggctcc 840
tggctgcccg cacctgcacc cgcgcgtcgg cggcgccgaa gccccgctcc ccgcctgcgc 900
gtctgtctcg tccgcatctc cgcggtgagt cggcggcgcc ctcgcccctg agcccagggc 960
cagcttctct cgccgccgcg gctgctgcgc gcgtccccgc ccagcccagc ccagccccga 1020
gcacgacccc agccccacgc acgaccctag ccccgcgagt cccgcaccga ctcgctcccg 1080
ccccatttcg cctccgcggg ggcggcgccc cctcctcccc gcggctcccg ctctccttcc 1140
tcgccttccc ggccgcgctg gggaccccca gccgccgtcc gcgacccccc accgcgacgc 1200
ccggaggcgg cggggtctct ttgttcgggc ggcgggcacg ggggaccacc tcccacggtg 1260
tcaccgcacc caccccgcgc ccttcctccg cctcctggag ttcaccggga ccaggtggcg 1320
gcgggtgcct ttttgggggt gcgcggccat gcaattggtg gattttttta aaccgttttg 1380
gaggggggag cgcggcgttg ggggcgggag agcgctcctg gctgtgagct gctcctgccg 1440
cttcgctccg cgctctcctg ccgctccgct ccgggtctcc cgcgctcctc tccccggctc 1500
ggccgagcgc gctgccccga cgccgccacc cagagccggg ccgcgccggg cgccgagatg 1560
aaggtgctgg gacaccggct ggagctgctc acaggtaccg cccgcctgcc ccgcagccgg 1620
ccgccacttt ccgagttgga gcggactccg ggcgcggcgg ccggggactg gggcggctcg 1680
ggtctgagca ggaaggggtg cggaccccaa ctaagtccta gttttgtgct acctgtttgt 1740
gtgcggagcc cagccccggg agaggacttg aggttgtggc gagtccctgg cgctggcgtc 1800
cgggctgcgg gagcaccggt cagggggtgg ccccatgggg tctctgacca gcggagctcg 1860
gattaggacc ctgaaagcta gctcagggct cctgccctcc aatcagtgtc gcttgtcccc 1920
taagaaagga cccgtgggct tctggcagga cccgcgccat ggacctctta tttctgcgcc 1980
ctgtgacaat ctgagccgtc tttctctggg ggagaagttt cttgctggga gtggaggcga 2040
cgccaagtgg cctgggaagt gggaagccag attggaccct actgactggg gaccctcagc 2100
cttggggctc ctctggagaa gtgatcagtt gccctgctgg aaactcacat ccagggggca 2160
gtggctggag agcaagagcg aacggtcagg aagaggaggt gggaaaggga gcagggacgg 2220
gggggaggat tcgaggagtg acttctgtgt tctccccggt gtggagagac ccagacagga 2280
ggaaaggaaa gcaacccggt ttcctccagc tctgggactt ataggtgctc catccgtgta 2340
tgtcagatga gcacagattc cagtaagtgt cctccgacac ctgggggagg gggctgatca 2400
ctgccttcca ggaccttaat gtccgatgag ggagcagagc cccggagccc tgttacaagg 2460
ctggaagggg cagccgtctg tgggtgcgct caggaaacgg tggaatccga gtcgggggca 2520
gcttttgaag acctcgaaaa acaatttttg ttaatgaaga aggaggtggc atta 2574
<210> 63
<211> 1393
<212> DNA
<213> 智人
<400> 63
ggggggtggg tgacatatct gcaggaaatg gaacgtggaa ggcactgtct gacttggctg 60
cattgcccgt gtggacccgg gcgctagtgc ctgcatgtcc ctctgaccgt gtgccctctg 120
gtgtgcgctt ggatggtgtc tgccttggtg atgcctgggg ccatcaggcc agggggcggg 180
ggtgtccttg gtgagccccc gaggctgtgt gcccagtgtg cgtgccgggt ctgtgcgtgc 240
aggggctgcc gtcccagtgg gcggccgtct agcttgtttg gatggctgcg ccagtgtgat 300
gggaaggaca ggcggcctct tccttaggag ccacctcaca gttcccaggg ctctgctgcg 360
ccagccgggc agaggcaagg aggtctgggc cacacaggaa tgacagcctt tcaggcaggg 420
gtccctgctg gggaggaacg aggaggggtt gcctgcctgc cttattttgt aggtggggga 480
aggcaacgct ggagccgtga agctggcagg gctaggggac cccaggtgga gcccagggca 540
cctcctctcg ccggggcatc aggtaccccg gccccattct tcctcaggag ggagaggcag 600
gggcagactc acccccaccc ccgggcccca cacgcctgcc ctgccggttc cgcagacgat 660
aggtcacccc gcacgcacgg aggtgacgac gtcagcacct gcccgcccat gcagaccctg 720
tcccctgaat tattgatgcg gctgacaggc cgaaccacag caccaccagc accaactccc 780
acaccggcgc aaagcccggc tcaaagcccc actcccctcc agtgctcaag gtcacaggcg 840
aggggagacg gaccgaccga gaggagccgc cacagccccc tcccctgctg ccgcagtgct 900
tcccgcctgc gcctacctgg aggcggggcc ggctctgacg tcacccagag ccaatgggag 960
tgctcggccc tgagggttgg gggcctcaga gtgcaccgcg ctgtggccct tgtggggctg 1020
cccttgcgca gcgctccaag ggacggggat gtttggcttc gatcaggctg aactgagtcc 1080
tgagctctcc gcagagggtg agagaaggcg ttagggaggt tcgcagcagg gttcagcgaa 1140
ggtcactgga cttcgtagga caggtagccc ggtgacgccc aggcccagcc ccagcccttc 1200
ccatcctggg agatgagccc tagtagagcc tgatcacgtc acctcagggg gatggggaca 1260
ggggcggcca caccagggct gggagaagac agtggggcct cctcagcagc agagagcaga 1320
cacccctcac acccctcagg cggacccgca cgctgcgggt ctgggtttgg aaggcaccgc 1380
cctgggctct cga 1393
<210> 64
<211> 2295
<212> DNA
<213> 智人
<400> 64
ctccttcctt cacaccttcc ttcggaaacg tctgctcctg acaaggtcta cttcctgctc 60
tcaggaggcc cttattgtgg aggaagggag gcgtcgcccg tccctggctt ctctgacagc 120
cgtgttccat ccccgccctg tgccccttct cccggacagt gccttctcca gggctcaccc 180
aggagggtgc agcggtggcc cccggggcgg tggtcgtggt gggggtgtta gctgcagggg 240
tgccctcggt gggtgggagt tggtggcctc tcgctggtgc catgggactc gcatgttcgc 300
cctgcgcccc tcggctcttg agcccacagg ccgggatcct gcctgccagc cgcgtgcgct 360
gccgtttaac ccttgcaggc gcagagcgcg cggcggcggt gacagagaac tttgtttggc 420
tgcccaaata cagcctcctg cagaaggacc ctgcgcccgg ggaaggggag gaatctcttc 480
ccctctgggc gcccgccctc ctcgccatgg cccggcctcc acatccgccc acatctggcc 540
gcagcggggc gcccgggggg aggggctgag gccgcgtctc tcgccgtccc ctgggcgcgg 600
gccaggcggg gaggaggggg gcgctccggt cgtgtgccca ggactgtccc ccagcggcca 660
ctcgggcccc agccccccag gcctggcctt gacaggcggg cggagcagcc agtgcgagac 720
agggaggccg gtgcgggtgc gggaacctga tccgcccggg aggcgggggc ggggcggggg 780
cgcagcgcgc ggggaggggc cggcgcccgc cttcctcccc cattcattca gctgagccag 840
ggggcctagg ggctcctccg gcggctagct ctgcactgca ggagcgcggg cgcggcgccc 900
cagccagcgc gcagggcccg ggccccgccg ggggcgcttc ctcgccgctg ccctccgcgc 960
gacccgctgc ccaccagcca tcatgtcgga ccccgcggtc aacgcgcagc tggatgggat 1020
catttcggac ttcgaaggtg ggtgctgggc tggctgctgc ggccgcggac gtgctggaga 1080
ggaccctgcg ggtgggcctg gcgcgggacg ggggtgcgct gaggggagac gggagtgcgc 1140
tgaggggaga cgggacccct aatccaggcg ccctcccgct gagagcgccg cgcgcccccg 1200
gccccgtgcc cgcgccgcct acgtggggga ccctgttagg ggcacccgcg tagaccctgc 1260
gcgccctcac aggaccctgt gctcgttctg cgcactgccg cctgggtttc cttcctttta 1320
ttgttgtttg tgtttgccaa gcgacagcga cctcctcgag ggctcgcgag gctgcctcgg 1380
aactctccag gacgcacagt ttcactctgg gaaatccatc ggtcccctcc ctttggctct 1440
ccccggcggc tctcgggccc cgcttggacc cggcaacggg atagggaggt cgttcctcac 1500
ctccgactga gtggacagcc gcgtcctgct cgggtggaca gccctcccct cccccacgcc 1560
agtttcgggg ccgccaagtt gtgcagcccg tgggccggga gcaccgaacg gacacagccc 1620
aggtcgtggc agggtctaga gtgggatgtc ccatggcccc catccaggcc tggggatatc 1680
ctcatccgcc tcccagaatc gggccgtggg ggacagaagg ggcctgcgtg cgggcaggga 1740
gagtattttg gctctctcct gtcttcgggg tttacaaagt gtgttgggac ttgcggggct 1800
gctctgtcca agcctgggtc tggcgtccgc gtctctgagc ctgtgagtgc gtgcgctttc 1860
ctgcgtcctc ttgactgccg gtgctggggc tctgcgtcct gcgtccgcgg gagtaaatac 1920
agcaggcgaa ggggaagctc acacaatggt ctccagcgct ctggggcagg gcttctgagg 1980
ggcgggcctg cctctgccgg gacctggagc ccccgcccct cggagaggct cctaggctga 2040
cttgggcaga gccctctggt gggccgggag ggggaaaggc tgtgttgaaa tgagcaaact 2100
gtccaggtgt caggccaagc tgggaggtga ccagcctgag gtcctccccg ctccatggcc 2160
agaaccaggg ctgacatctg ggtgtcctga gcccagctgc ccacacggcc cacctggggt 2220
cagccctatc tgagtggggg aggcggggcc tcctggggga ccagaacttt ggctggacgc 2280
caagcagagt gccag 2295
<210> 65
<211> 1711
<212> DNA
<213> 智人
<400> 65
tgaggtttgt ttcacagtgg aatgtaaagg gttgcaagga ggtgcatcgg cccctgtgga 60
caggacgcat gactgctaca cacgtgttca ccccaccctc tggcacaggg tgcacataca 120
gtaggggcag aaatgaacct caagtgctta acacaatttt taaaaaatat atagtcaagt 180
gaaagtatga aaatgagttg aggaaaggcg agtacgtggg tcaaagctgg gtctgaggaa 240
aggctcacat tttgagatcc cgactcaatc catgtccctt aaagggcaca gggtgtctcc 300
acagggccgc ccaaaatctg gtgagagagg gcgtagacgc ctcaccttct gcctctacgg 360
gtcacaaaag cctgggtcac cctggttgcc actgttccta gttcaaagtc ttcttctgtc 420
taatccttca cccctattct cgccttccac tccacctccc gctcagtcag actgcgctac 480
tttgaaccgg accaaaccaa accaaaccaa accaaaccaa accagaccag acaccccctc 540
ccgcggaatc ccagagaggc cgaactggga taaccggatg catttgattt cccacgccac 600
tgagtgcacc tctgcagaaa tgggcgttct ggccctcgcg aggcagtgcg acctgtcacc 660
gcccttcagc cttcccgccc tccaccaagc ccgcgcacgc ccggcccgcg cgtctgtctt 720
tcgacccggc accccggccg gttcccagca gcgcgcatgc gcgcgctccc aggccacttg 780
aagagagagg gcggggccga ggggctgagc ccgcgggggg agggaacagc gttgatcacg 840
tgacgtggtt tcagtgttta cacccgcagc gggccggggg ttcggcctca gtcaggcgct 900
cagctccgtt tcggtttcac ttccggtgga gggccgcctc tgagcgggcg gcgggccgac 960
ggcgagcgcg ggcggcggcg gtgacggagg cgccgctgcc agggggcgtg cggcagcgcg 1020
gcggcggcgg cggcggcggc ggcggcggag gcggcggcgg cggcggcggc ggcggcggct 1080
gggcctcgag cgcccgcagc ccacctctcg ggggcgggct cccggcgcta gcagggctga 1140
agagaagatg gaggagctgg tggtggaagt gcggggctcc aatggcgctt tctacaaggt 1200
acttggctct agggcaggcc ccatcttcgc ccttccttcc ctcccttttc ttcttggtgt 1260
cggcgggagg caggcccggg gccctcttcc cgagcaccgc gcctgggtgc cagggcacgc 1320
tcggcgggat gttgttggga gggaaggact ggacttgggg cctgttggaa gcccctctcc 1380
gactccgaga ggccctagcg cctatcgaaa tgagagacca gcgaggagag ggttctcttt 1440
cggcgccgag ccccgccggg gtgagctggg gatgggcgag ggccggcggc aggtactaga 1500
gccgggcggg aagggccgaa atcggcgcta agtgacggcg atggcttatt ccccctttcc 1560
taaacatcat ctcccagcgg gatccgggcc tgtcgtgtgg gtagttgtgg aggagcgggg 1620
ggcgcttcag ccgggccgcc tcctgcagcg ccaagagggc ttcaggtctc ctttggcttc 1680
tcttttccgg tctagcattg ggacttcgga g 1711
<210> 66
<211> 1404
<212> DNA
<213> 智人
<400> 66
agaagggaat atcagaagca ggacgaaagc caggtcaagt ctctttcctt aggctcccca 60
aagggacaag tactcacctc ccagagacct ggcccagcgg gtcctcatgg cagcaccacc 120
ccctcccggt gcccacgacc attcgtctcc catccggcgt tctccaggat ttccaaagac 180
gcccgtttag atccacaggt acttacctga gtccctctgc ttctccacaa ctccgactcc 240
tccccgcctc tctctttttt taaaaaaaaa atttaaacaa ttcccaaata atatttaata 300
ggaaagaaga aggaaaagga gcgcacagga agggcggagg cggcacccgg gggggactgt 360
ccccagagga ggccgctgtg agccggcgac gcgaggctgg gggagtggga ggcaaacccg 420
ctaacctgtc gtcgaatggc cactcccagt tctccgctca cgagggtgga aaggcagaag 480
gcttgaaggc aaggcgtgag ggagcgccca ggacgctctc ggaggggccg ggccggggtc 540
tgcgctgcag cccgcacgca cctcacttcc gcgtcgcggc gctcggtcgc tcgccccctc 600
tcttgggccc cttctggtcg tcgccgtcct cctcctccta gtcctcctcc ttctccttct 660
cctcggctct ccgcccccac cgctgatttg tcagcgcttc tgcccgcccc tctcccggcg 720
ctcgctgctt tccctgcagc gtgctcctcg tccctatctc ggatggggat ggggcagggg 780
gcgcggggtg agccatcaac tccagccgcc tgcctggccg cgcaaggcgg gaaagtgggg 840
gcgcttttgc gcctcacgtt aagtttaggg tcacgagcac tcttgtggag atcgggagcg 900
gttgggctag ggatgatgcc tcttcctctt tccccttccc ctcccttctt gtccccgcct 960
ttcctctggg tcctcccggg gaccaccccc tacccctcgt cagagtcgcc ctgggagagc 1020
cgagggcctg agggtcgacc accaagggca gagcctatcc cttggggagc tgctggagga 1080
gacaggcagc gccgggaggt ggctcacacc gcaccgccga gagcgctttg ccctcgcatc 1140
gctgaaattt aatcacggtc acaggttaca acgttagggg tcgctttagt tcaaatatct 1200
tcaaggtttt cgtttgctct taatctagga agagccggaa agggtcctga gggtgaaagg 1260
gagactacta aggaagagtc acaggttgag gaggcaggag aaggctcagc aaatcctctt 1320
tccacgccac tatcaccatt ttcctttcca ccaatcagcg cctgccagac gctgattttc 1380
ccatcagtgg aacaaggaat aaat 1404
<210> 67
<211> 1756
<212> DNA
<213> 智人
<400> 67
caaaggctgt aacaacctgg aacgcaaatt cgttaaatta tgatacaata aggccaacct 60
cgaggatcct cggtggacta ctagcgcact tccttacaat tagaaagtga aaaactgggt 120
cagccctaga gtcacgcaat aatgctgcgt cacgaaactg cgcattccaa gagaaacttt 180
tctcaggccc agaattaagt cggagggatc cgccgcgcag ctcaatccct aggaagcatg 240
aaagaatgta ttgtaaagag taaaatcacg cgcaatccat cccaatataa ccgcagttgt 300
tcgtgggcct tcttgcagag aaaggctgcc caaccttgac ggggccatgg gcgctgcggg 360
agggcaaaag accacagaga tctgcgaagc caaagtaaac aacggggttg gggcggcgag 420
aatgatcaat agcgatgctc cgaaaggact ccgcgatagg aatcgagcgg gaaggattcc 480
ctccatccta acagtccatg ggttaagagg ccgaagcttc cctaaatacc acactcccgc 540
gagagaaggg actgagaaca acttctcaaa ctattctctc tcgaaatcgc tcccttcctc 600
gaaaattcca tctctgagac tcggatgagg tccccacccc ctccaccctt gtcccgtgac 660
cgtcgcccgc tcagcctccc agccgagtcc gcggggcctg gggcgcccac cccgcccacc 720
caagggaccg cgcaggggtg aactcccccg cgccccacct gcgccttcca gacctcgggc 780
gccccggcgt tgcctcgaga gctccctgcg cggccgccgc ggcacggacc agctcccact 840
cccttacact gggcgccgct gcgctcgccg ggggccggtc ccgaggttcc caaggcctcg 900
cgcgcgcgct tgccgtggca accaagacgt tccacgacgc gcgctctcga acgcttcgcg 960
tcacgcggcc gcgcggcccc gcccgtcggc ctcgctcccg ccacagagcc cgcagcacgc 1020
cgccgccgca gcctaggtca cgtgagtacc cacgcgcgcg tcttgccagc ggattcatca 1080
ccggcctgct cagactaggt tctgcccact ctgaccttct aaatggtacg tgggaggacg 1140
tccgtcccct tcggacccaa gagtcaccgt aacactctag aaggggagaa aaggagcgag 1200
ggcggcaggc gacagagaac ctcgcgagtc agcggccccg cgcagacccc cccaggcacg 1260
gtcccctgcg gccacgtcgg ctgctcggcg cctgcgcaat ctctttctct ccagcgaaac 1320
cgaggcctcc ggagagccta gtagagagtg tgggcagtga gcgcttgtag ccgctagagg 1380
gagcgctggg cacagtgcac gagagacaat aaaggctgat tatcccctca atgtctctgc 1440
agcctgagct ttgtgacttc tgtatccaga gcacagttaa tttccaaaag cccgcctgca 1500
ccacgtgttt taagtcttgg tgtgtgtgta aagtctatat cactatcata aaactgttag 1560
ttcctgattc cgggatacaa agagtaaaat caagatgaac atactttacc cttcttgaca 1620
agtgttttta aattagtaaa atattgtaga tgacagactc ttcaataggg ctgccttagg 1680
gaaaaaaaaa cagaaaaaag aaaaagcagt atgtacttgc ccggagcatt tagaaccagt 1740
tttgttgttg ttgtgt 1756
<210> 68
<211> 2161
<212> DNA
<213> 智人
<400> 68
agaggtcgtg gcactgagat gggtctggca gatcccagcg tccaggccca gcccctatag 60
tgtcagctcc ctcctctggg gacccccttg cttgtgcccc tctgggtccc agcacatccc 120
aggcctgcag ggagggggag aggaagagac tgactcactg gccaggtccc ccaggggctg 180
gagaggctgg agaggcagga gctggatcag atctgaatcc agaggctctc ggaggaagag 240
ctcagggtga gctgcgcccc catcccctgc ccctcctctc ctgctccttc tcccttccat 300
ggtcccagcc agcaagcacc tggggtagag gggacaaacc caggtggctg tgttccagcc 360
ctggctgcag gtctgaatgg ctttctgggg tggctggcca tgctccctga gagcccagct 420
gtggcgatgt ctgagcaggt aggtggggga gcacctagga agcaggggtg tcaggcagag 480
cacaaggaga gagggtgtcc aggtcagttt caggacctgg ctgagaggag ggggctcctc 540
acgggcaccg cctctggcaa gcacagggac aagggcaagg acggcatggc cagaggtccc 600
tgggagcctc ttcccctctc ttcttcctag cagctccccc tcactcttcc cagggaccct 660
gtcactttcc tttagcgtgt ggcagctcct tggcgtccct cccgtgcctt caggttgctt 720
ctgcgccggg cctgccgctg ggcgccccta tctctgcctg ccccctcctc ctgctcccct 780
cgccctgccc ccttggagca attccccacc gagcctccct tcccaggcag tcgaggtccc 840
tccctacctc tgccccgcgc tctgggaggc tccttgttcc gcgaccacaa agcccctttg 900
atcctctgct cggctctgag ccatgtgacc cggtgggcgg gccgcggctc tcggcgcgtc 960
cagcgcagcc cgacgttccg ctgctggggt gagtcctgct cctttgttct tcccagcctt 1020
gcaccactgg ctcgggggct ctcaggtggc gcggccgcga ggcggaccct gatggccatg 1080
gtggcggtgc cgggagccac gctgtccctg ggccccggcc cgaggccggc aggaccgagc 1140
ggggtcccca ggagaggggt ggcggggagc tcgatctcca cgcggggacc agattttcgg 1200
cctcaaaata gaagaatagg gctttgtgtg gtcacagcta tctctttgta aatatttggc 1260
caactaagct gagtggctaa gttctcctgc tgcccggagc ttcttggaac atgtttcctt 1320
ttcgcaaggg gtttccctgg cttccaggag ggccaggaag aaattcgaat tggccaccgc 1380
tttctctaaa atcactccgc tcaagttatc acccctctgg gctcccgaag accggctggc 1440
tggaggctgg agatagtctc aatgctcgaa atgccgtaac cgaagctccc cgcggcgccg 1500
gcactgggat ccagggagct gctgctacag cgcagctctg gattcctgga tgtgttggat 1560
atgtgcaggg cgttcctggg aggagcgggg agggagggtg ctgctggcgg ggctggtctg 1620
cgtgtgcttt gcttctctac aatggcatgc tgcgtgtcgg ccatgcagag gcatgtcagt 1680
gagcaggggc tgagggatct ccctaacgga cctgctttca gagggtcttt tcatgctggg 1740
agaaccccag agactaaatc atgcagccaa cggggtggtc cccggcctca aagcagggag 1800
gggcgaggag ctttgtaggc aatgccatct gctcctgaaa cgccgtccca gtgactctgg 1860
ggactgactc agcctccagc ctgctgcact tcatccctgg cccctctctc tttgcttttt 1920
catgtgaaat ctgctgtgtt ttggtcagag gtttggggaa cagctctctg ctcatctaag 1980
ataagtttgt aattcctttc ctggagaaaa atatgccacc cggaagcagg ttgagcagtg 2040
gttttctggc aggtctgttc ggggctgtgg agacagcacc tgctggatca ggatggagtt 2100
ggaatttggt ttggatccca catgagaaaa cccgttggaa gaggaggaag cagaaaaagg 2160
c 2161
<210> 69
<211> 26
<212> DNA
<213> 人工序列
<220>
<223> PS421 环寡核苷酸,具有5’磷酸
<400> 69
taaagcactg agatttttct cagtgc 26
<210> 70
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> FMR1 靶的捕获寡核苷酸
<400> 70
aaccctttac attccactgt gaaacaaacc tcaactttga ctcagctaac actgagtc 58
<210> 71
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> CNRIP1 靶的捕获寡核苷酸
<400> 71
ttccctttgg cttgtattcc tccattctcg cttccctcga ctcagctaac actgagtc 58
<210> 72
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> MAL 靶的捕获寡核苷酸
<400> 72
ggttctttgc ctgcctgttg actgccggtg tttcatgtga ctcagctaac actgagtc 58
<210> 73
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> HTT 靶的捕获寡核苷酸
<400> 73
gtttctttat gggagtgcac ccctgctctg accttccgga ctcagctaac actgagtc 58
<210> 74
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> SNCA 靶的捕获寡核苷酸
<400> 74
ctggctttcg tcctgcttct gatattccct tctccacaga ctcagctaac actgagtc 58
<210> 75
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> EGFR 靶的捕获寡核苷酸
<400> 75
gtgcttttag agaggctaag tgtcccactg cccctgtaga ctcagctaac actgagtc 58
<210> 76
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> C9orf72 靶的捕获寡核苷酸
<400> 76
ttgtttttac cgtaagacac tgttaagtgc attcaaaaga ctcagctaac actgagtc 58
<210> 77
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> INA 靶的捕获寡核苷酸
<400> 77
gtgtttttcc agttacagtg aggacctgca gagcgagcga ctcagctaac actgagtc 58
<210> 78
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> SPG20 靶的捕获寡核苷酸
<400> 78
acgaatttgc gttccaggtt gttacagcct ttgaaataga ctcagctaac actgagtc 58
<210> 79
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> FBN1 靶的捕获寡核苷酸
<400> 79
agagatttct gccccaaagg agaggacgtg gttaaatgga ctcagctaac actgagtc 58
<210> 80
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> NDRG4.2 靶的捕获寡核苷酸
<400> 80
ttccatttcc tgcagatatg tcacccaccc cccaaccaga ctcagctaac actgagtc 58
<210> 81
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> SEPT9.1 靶的捕获寡核苷酸
<400> 81
agacgtttcc gaaggaaggt gtgaaggaag gagctaggga ctcagctaac actgagtc 58
<210> 82
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> SEPT9.2 靶的捕获寡核苷酸
<400> 82
ctgggtttgt cccctctacc ccaggtgctt gctggctgga ctcagctaac actgagtc 58
<210> 83
<211> 58
<212> DNA
<213> 人工序列
<220>
<223> DMPK 靶的捕获寡核苷酸
<400> 83
aaagctttct tgtgcatgac gccctgctct ggggagcgga ctcagctaac actgagtc 58
<210> 84
<211> 26
<212> DNA
<213> 人工序列
<220>
<223> 靶向序列
<400> 84
cctttgcttg cgtttagtat cccaaa 26
<210> 85
<211> 22
<212> DNA
<213> 人工序列
<220>
<223> 靶向序列
<400> 85
cctttgcttg cgtttagtat cc 22
<210> 86
<211> 94
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸探针
<400> 86
tttgggatac taaacgcaag caaaggacct gagtacggtg atacacctag atagggtcag 60
tgctgcaacc cacttcctaa tctgtcatct tctg 94
<210> 87
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 寡核苷酸探针内的区域
<400> 87
ggatactaaa cgcaagcaaa ggac 24
<210> 88
<211> 15
<212> DNA
<213> 人工序列
<220>
<223> 5'瓣结构
<400> 88
tttgggatac taaac 15
<210> 89
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> 将结合单链寡核苷酸的通用序列
<400> 89
ctgagtacgg tgatacacct agat 24
<210> 90
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 连接到表面所需的序列
<400> 90
ggtcagtgct gcaacccact tcctaatctg tcatcttctg 40
<210> 91
<211> 60
<212> DNA
<213> 人工序列
<220>
<223> SEPT9.2 靶的PCR片段内的区域
<400> 91
agcaagcacc tggggtagag gggacaaacc caggtggctg tgttccagcc ctggctgcag 60
<210> 92
<211> 24
<212> DNA
<213> 人工序列
<220>
<223> SEPT9.2 靶的PCR片段内的区域
<400> 92
agcaagcacc tggggtagag ggga 24
<210> 93
<211> 26
<212> DNA
<213> 人工序列 Sequence
<220>
<223> 对FMR1特异的TaqMan探针 (5' FAM 和3' MGB)
<400> 93
aagagggctt caggtctcct ttggct 26
<210> 94
<211> 19
<212> DNA
<213> 人工序列
<220>
<223> FMR1的qPCR寡核苷酸 A
<400> 94
tgtcgtgtgg gtagttgtg 19
<210> 95
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> FMR1的qPCR寡核苷酸 B
<400> 95
ctccgaagtc ccaatgctag 20
<210> 96
<211> 17
<212> DNA
<213> 人工序列
<220>
<223> FMR1的qPCR寡核苷酸 C
<400> 96
gcccagaaca gtggagc 17
<210> 97
<211> 26
<212> DNA
<213> 人工序列
<220>
<223> FMR1的qPCR寡核苷酸 D
<400> 97
gtattagctg aggattaggt cacagg 26
<210> 98
<211> 59
<212> DNA
<213> 人工序列
<220>
<223> FMR1 crRNA#2的靶特异性适体
<400> 98
ctagcattgg gacttcggag cctgtgacct aatcctcagc taatacagct agactacgt 59
<210> 99
<211> 59
<212> DNA
<213> 人工序列
<220>
<223> FMR1 crRNA#2的靶特异性适体,其中n是脱碱基位点修饰,具体地是四氢呋喃(THF)
<220>
<221> misc_feature
<222> (43)..(43)
<223> n是a, c, g或t
<400> 99
ctagcattgg gacttcggag cctgtgacct aatcctcagc tantacagct agactacgt 59
<210> 100
<211> 75
<212> DNA
<213> 人工序列
<220>
<223> FMR1 crRNA#1的靶特异性适体
<400> 100
ccactgtgaa acaaacctca ggcctaggga gccgcacctt gttctgcaac ccacttccta 60
atctgtcatc ttctg 75
<210> 101
<211> 43
<212> DNA
<213> 人工序列
<220>
<223> 用于生成FMR1的Y形的寡核苷酸
<400> 101
tgccggatta tgcggataag tacaaggtgc ggctccctag gcc 43
<210> 102
<211> 26
<212> DNA
<213> 人工序列
<220>
<223> 在FMR1脱碱基位点上的特异性环适体 (5'磷酸)
<400> 102
atacgcactg agatttttct cagtgc 26
<210> 103
<211> 20
<212> DNA
<213> 人工序列
<220>
<223> 5'生物素接头
<400> 103
ccatgattac gccaagctcg 20
<210> 104
<211> 40
<212> DNA
<213> 人工序列
<220>
<223> 接头和发夹分子的互补序列
<400> 104
cttatccgca taatccggca cgagcttggc gtaatcatgg 40

Claims (17)

1.一种从核酸分子群中分离核酸靶区域的方法,所述方法包括以下步骤:
a)使所述核酸分子群与2类V型Cas蛋白-gRNA复合物接触,其中所述gRNA包含与邻近所述靶区域的第一位点互补的引导区段,从而形成2类V型Cas蛋白-gRNA核酸复合物,
b)使包含所述2类V型Cas蛋白-gRNA核酸复合物的核酸分子群与至少一种具有单链3'至5'核酸外切酶活性的酶接触,从而在所述第一位点形成5'单链突出端,
c)从步骤b)的群去除2类V型Cas蛋白-gRNA复合物,
d)使步骤c)的群与寡核苷酸探针接触,所述探针包含与所述突出端至少部分互补的序列,从而在所述探针和所述突出端之间形成双链体,和
e)从步骤d)的核酸分子群中分离所述双链体,从而分离所述核酸靶区域。
2.根据权利要求1所述的方法,其中所述2类V型Cas蛋白是Cas12a或C2c1。
3.根据权利要求1或2所述的方法,其进一步包括在步骤c)之前使所述核酸分子群与位点特异性核酸内切酶接触,所述位点特异性核酸内切酶优选为TALEN、锌指蛋白或2类Cas蛋白-gRNA复合物,更优选为第二2类V型Cas蛋白-gRNA复合物,其中gRNA包含与第二位点互补的引导区段,其中所述第二位点邻近所述靶区域,并且其中所述第一位点和所述第二个位点位于所述靶区域的两侧。
4.根据权利要求1至3中任一项所述的方法,其中所述至少一种具有单链3'至5'核酸外切酶活性的酶选自核酸外切酶I、S1核酸外切酶、核酸外切酶T和核酸外切酶VII,优选其中所述至少一种具有单链3'至5’核酸外切酶活性的酶是核酸外切酶I。
5.根据权利要求1至4中任一项所述的方法,其进一步包括在步骤b)之前或期间将所述核酸分子群片段化,优选通过使所述核酸分子群与至少一种位点特异性核酸内切酶接触,其中所述位点特异性核酸内切酶:
·不在靶区域或所述第一位点内切割,并且
·当所述分子包含第二位点时,不在所述第二位点内切割,
优选地,其中所述位点特异性核酸内切酶是限制酶。
6.根据权利要求1至5中任一项所述的方法,其中步骤c)包括使所述核酸分子群与EDTA和/或至少一种蛋白酶接触,优选丝氨酸蛋白酶,更优选蛋白酶K。
7.根据权利要求1至6中任一项所述的方法,其中步骤d)进一步包括使步骤c)的群与连接酶接触。
8.根据权利要求1至7中任一项所述的方法,其中步骤d)进一步包括使步骤c)的群与FEN1酶接触。
9.根据权利要求1至8中任一项所述的方法,其中所述探针包含配体,所述配体能够与捕获剂结合,并且其中所述探针任选地包含至少一个尿嘧啶碱基、脱碱基位点或限制性位点。
10.根据权利要求9所述的方法,其中步骤e)包括使所述双链体与捕获剂接触,所述捕获剂优选锚定至固体支持物。
11.根据权利要求1至10中任一项所述的方法,其进一步包括从所述靶区域释放所述双链体,其中从所述靶区域释放所述双链体优选包括在所述双链体内切割。
12.根据权利要求3至11中任一项所述的方法,其中当所述位点特异性核酸内切酶是第二2类V型位点特异性核酸内切酶时,使所述群与第二寡核苷酸探针接触,从而形成第二双链体,所述第二寡核苷酸探针包含与所述第二位点中第二5'单链突出端至少部分互补的序列。
13.根据权利要求12所述的方法,其中所述第一和第二探针包含不同的配体,所述配体与不同的捕获剂结合。
14.根据权利要求12至13中任一项所述的方法,其中步骤e)包括:
·使所述第一双链体与第一捕获剂接触,所述第一捕获剂与所述第一探针的配体结合,
·从所述靶区域释放所述第一双链体,
·使所述第二双链体与第二捕获剂接触,所述第二捕获剂与所述第二探针的配体结合,
·从所述靶区域释放所述第二双链体。
15.根据权利要求1至14中任一项所述的方法,其中所述靶区域包含重复区域、重排、复制、易位、缺失或修饰的碱基,例如表观遗传修饰、错配或SNP。
16.根据权利要求1至15中任一项所述的方法,其中分离至少两个靶区域,优选地分离至少5、10、20、50个靶区域,更优选地分离至少100个靶区域。
17.用于分离核酸靶区域的试剂盒,所述试剂盒包含:
a)2类V型Cas蛋白,
b)至少一个gRNA,所述gRNA与第一位点互补,所述第一位点位于核酸靶区域邻近,
c)至少一种具有核酸外切酶活性的3'至5'单链酶,优选核酸外切酶I,和
d)寡核苷酸探针。
CN201980092154.9A 2018-12-12 2019-12-12 使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法 Active CN113454233B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211226016.5A CN116064730A (zh) 2018-12-12 2019-12-12 使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
EP18306679 2018-12-12
EP18306679.4 2018-12-12
PCT/EP2019/084983 WO2020120711A1 (en) 2018-12-12 2019-12-12 Method of nucleic acid enrichment using site-specific nucleases followed by capture

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202211226016.5A Division CN116064730A (zh) 2018-12-12 2019-12-12 使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法

Publications (2)

Publication Number Publication Date
CN113454233A true CN113454233A (zh) 2021-09-28
CN113454233B CN113454233B (zh) 2022-10-28

Family

ID=65279378

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202211226016.5A Pending CN116064730A (zh) 2018-12-12 2019-12-12 使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法
CN201980092154.9A Active CN113454233B (zh) 2018-12-12 2019-12-12 使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202211226016.5A Pending CN116064730A (zh) 2018-12-12 2019-12-12 使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法

Country Status (10)

Country Link
US (2) US11473124B2 (zh)
EP (2) EP4095259A1 (zh)
JP (1) JP7405485B2 (zh)
CN (2) CN116064730A (zh)
AU (1) AU2019398707A1 (zh)
CA (1) CA3123151A1 (zh)
DK (1) DK3837379T3 (zh)
ES (1) ES2921401T3 (zh)
IL (1) IL283866B2 (zh)
WO (1) WO2020120711A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023193748A1 (zh) * 2022-04-08 2023-10-12 翌圣生物科技(上海)股份有限公司 基于crispr技术的靶基因捕获的方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022007959A1 (zh) * 2020-07-10 2022-01-13 中国科学院动物研究所 一种编辑核酸的系统及方法
CN112795624B (zh) * 2020-07-17 2021-11-19 山东舜丰生物科技有限公司 利用含有无碱基间隔物的核酸检测器检测靶核酸的方法
CN112080551B (zh) * 2020-09-10 2022-06-24 湖南农业大学 一种双酶介导级联信号放大的氨苄西林检测适体传感器
US20230366014A1 (en) * 2020-10-06 2023-11-16 Genetics Research, Llc Nucleic acid enrichment method
CN112941051A (zh) * 2021-04-14 2021-06-11 浙江优诺生物科技有限公司 Fenm蛋白突变体及其应用和含该突变体的试剂盒
WO2023039346A1 (en) * 2021-09-10 2023-03-16 The Regents Of The University Of California Temperature regulated crispr-cas systems and methods of use thereof
WO2023183796A2 (en) * 2022-03-23 2023-09-28 The Rockefeller University Compositions and methods for improved dna-encoded library preparation
CN116240200A (zh) * 2022-07-01 2023-06-09 中国科学院基础医学与肿瘤研究所(筹) 一种基于可编程核酸酶的超灵敏目标核酸富集检测方法
CN117603965A (zh) * 2022-08-22 2024-02-27 北京脑神康科技开发中心(有限合伙) sgRNA及其在制备用于治疗亨廷顿舞蹈症的产品中的应用

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160208241A1 (en) * 2014-08-19 2016-07-21 Pacific Biosciences Of California, Inc. Compositions and methods for enrichment of nucleic acids
CN107406875A (zh) * 2014-12-20 2017-11-28 阿克生物公司 使用CRISPR/Cas系统蛋白靶向消减、富集、和分割核酸的组合物及方法
CN107709562A (zh) * 2015-05-15 2018-02-16 先锋国际良种公司 指导rna/cas内切核酸酶系统
US10081829B1 (en) * 2017-06-13 2018-09-25 Genetics Research, Llc Detection of targeted sequence regions
WO2019030306A1 (en) * 2017-08-08 2019-02-14 Depixus ISOLATION AND IN VITRO ENRICHMENT OF NUCLEIC ACIDS USING SITE-SPECIFIC NUCLEASES

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL73577A (en) 1983-12-12 1989-10-31 Miles Lab Method and reagent system for detecting dna or rna sequences in a test medium containing single stranded dna or rna using antibodies to intercalation complexes with double stranded nucleic acid
CA1223222A (en) 1984-02-22 1987-06-23 Nanibhushan Dattagupta Immobilized nucleic acid-containing probes
ES2081613T3 (es) 1991-03-21 1996-03-16 Johnson & Johnson Clin Diag Elemento y procedimiento para amplificacion y deteccion de acido nucleico usando muestras adheridas.
EP2390350A1 (en) 2010-05-27 2011-11-30 Centre National de la Recherche Scientifique (CNRS) Method of DNA sequencing by polymerisation
EP2390351A1 (en) 2010-05-27 2011-11-30 Centre National de la Recherche Scientifique (CNRS) Method of DNA sequencing by hybridisation
WO2013093005A1 (en) 2011-12-22 2013-06-27 Centre National De La Recherche Scientifique (Cnrs) Method of dna detection and quantification by single-molecule hybridization and manipulation
US9365896B2 (en) * 2012-10-19 2016-06-14 Agilent Technologies, Inc. Addition of an adaptor by invasive cleavage
LT2948774T (lt) 2013-01-22 2018-10-10 Centre National De La Recherche Scientifique (Cnrs) Dnr modifikacijų nustatymo būdas, naudojant vieną molekulę
JP2016537028A (ja) 2013-11-18 2016-12-01 クリスパー セラピューティクス アーゲー Crispr−casシステムの材料及び方法
CA3176503A1 (en) 2014-07-21 2016-01-28 Illumina, Inc Polynucleotide enrichment using crispr-cas systems
EP3292217B1 (en) 2015-05-07 2019-07-10 Paris Sciences et Lettres - Quartier Latin Formation of hairpins in situ using force-induced strand invasion
CN116334142A (zh) 2015-06-09 2023-06-27 爱迪塔斯医药公司 用于改善移植的crispr/cas相关方法和组合物
WO2018013840A1 (en) 2016-07-13 2018-01-18 Vertex Pharmaceuticals Incorporated Methods, compositions and kits for increasing genome editing efficiency
WO2020099675A1 (en) * 2018-11-16 2020-05-22 Depixus Optimization of in vitro isolation of nucleic acids using site-specific nucleases

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20160208241A1 (en) * 2014-08-19 2016-07-21 Pacific Biosciences Of California, Inc. Compositions and methods for enrichment of nucleic acids
CN107406875A (zh) * 2014-12-20 2017-11-28 阿克生物公司 使用CRISPR/Cas系统蛋白靶向消减、富集、和分割核酸的组合物及方法
CN107709562A (zh) * 2015-05-15 2018-02-16 先锋国际良种公司 指导rna/cas内切核酸酶系统
US10081829B1 (en) * 2017-06-13 2018-09-25 Genetics Research, Llc Detection of targeted sequence regions
WO2019030306A1 (en) * 2017-08-08 2019-02-14 Depixus ISOLATION AND IN VITRO ENRICHMENT OF NUCLEIC ACIDS USING SITE-SPECIFIC NUCLEASES

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
WINSTON X YAN等: "Functionally diverse type V CRISPR-Cas systems", 《SCIENCE》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023193748A1 (zh) * 2022-04-08 2023-10-12 翌圣生物科技(上海)股份有限公司 基于crispr技术的靶基因捕获的方法

Also Published As

Publication number Publication date
US11473124B2 (en) 2022-10-18
IL283866B (en) 2022-10-01
CN116064730A (zh) 2023-05-05
WO2020120711A1 (en) 2020-06-18
WO2020120711A8 (en) 2021-03-11
US20230086170A1 (en) 2023-03-23
DK3837379T3 (da) 2022-06-13
JP2022527725A (ja) 2022-06-06
AU2019398707A1 (en) 2021-07-08
EP3837379B1 (en) 2022-05-18
EP3837379A1 (en) 2021-06-23
CA3123151A1 (en) 2020-06-18
CN113454233B (zh) 2022-10-28
EP4095259A1 (en) 2022-11-30
US20220145357A1 (en) 2022-05-12
ES2921401T3 (es) 2022-08-25
IL283866B2 (en) 2023-02-01
IL283866A (en) 2021-07-29
JP7405485B2 (ja) 2023-12-26

Similar Documents

Publication Publication Date Title
CN113454233B (zh) 使用位点特异性核酸酶以及随后的捕获进行核酸富集的方法
US20200165650A1 (en) Polynucleotide enrichment using crispr-cas system
EP3625356B1 (en) In vitro isolation and enrichment of nucleic acids using site-specific nucleases
JP2022190130A (ja) ヌクレアーゼ切断を評価する方法
CA2810931C (en) Direct capture, amplification and sequencing of target dna using immobilized primers
EP2929048B1 (en) Restriction enzyme-free target enrichment
US20150197787A1 (en) Recombinase mediated targeted dna enrichment for next generation sequencing
CN110719957B (zh) 用于核酸靶向富集的方法和试剂盒
CN113330122A (zh) 使用位点特异性核酸酶优化核酸的体外分离
JP2020513801A (ja) メチル化状態が維持されるdna増幅方法
US20230056763A1 (en) Methods of targeted sequencing
WO2013074632A1 (en) Mismatch nucleotide purification and identification
JP2012165755A (ja) サブトラクション・ポリヌクレオチドの取得方法
CN114391043B (zh) 哺乳动物dna的甲基化检测及分析
KR20230124636A (ko) 멀티플렉스 반응에서 표적 서열의 고 감응성 검출을위한 조성물 및 방법
WO2022256926A1 (en) Detecting a dinucleotide sequence in a target polynucleotide
CN115175985A (zh) 从未经处理的生物样本中提取单链dna和rna并测序的方法
GB2497480A (en) Nucleic acid libraries depleted in unwanted nucleic acid sequences

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant