CN117441026A - 用于分析复杂基因组区域的方法和系统 - Google Patents

用于分析复杂基因组区域的方法和系统 Download PDF

Info

Publication number
CN117441026A
CN117441026A CN202280040654.XA CN202280040654A CN117441026A CN 117441026 A CN117441026 A CN 117441026A CN 202280040654 A CN202280040654 A CN 202280040654A CN 117441026 A CN117441026 A CN 117441026A
Authority
CN
China
Prior art keywords
interest
nucleotide sequence
artificial sequence
crispr
genomic region
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202280040654.XA
Other languages
English (en)
Inventor
甘特·谢尔勒
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Rippled Diagnostics Co ltd
Original Assignee
Rippled Diagnostics Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Rippled Diagnostics Co ltd filed Critical Rippled Diagnostics Co ltd
Publication of CN117441026A publication Critical patent/CN117441026A/zh
Pending legal-status Critical Current

Links

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N9/00Enzymes; Proenzymes; Compositions thereof; Processes for preparing, activating, inhibiting, separating or purifying enzymes
    • C12N9/14Hydrolases (3)
    • C12N9/16Hydrolases (3) acting on ester bonds (3.1)
    • C12N9/22Ribonucleases RNAses, DNAses
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6876Nucleic acid products used in the analysis of nucleic acids, e.g. primers or probes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/11DNA or RNA fragments; Modified forms thereof; Non-coding nucleic acids having a biological activity
    • C12N15/113Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing
    • C12N15/1137Non-coding nucleic acids modulating the expression of genes, e.g. antisense oligonucleotides; Antisense DNA or RNA; Triplex- forming oligonucleotides; Catalytic nucleic acids, e.g. ribozymes; Nucleic acids used in co-suppression or gene silencing against enzymes
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • C12Q1/683Hybridisation assays for detection of mutation or polymorphism involving restriction enzymes, e.g. restriction fragment length polymorphism [RFLP]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y104/00Oxidoreductases acting on the CH-NH2 group of donors (1.4)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12YENZYMES
    • C12Y301/00Hydrolases acting on ester bonds (3.1)
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N2310/00Structure or type of the nucleic acid
    • C12N2310/10Type of nucleic acid
    • C12N2310/20Type of nucleic acid involving clustered regularly interspaced short palindromic repeats [CRISPRs]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/106Pharmacogenomics, i.e. genetic variability in individual responses to drugs and drug metabolism
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Organic Chemistry (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Genetics & Genomics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Molecular Biology (AREA)
  • Biotechnology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biochemistry (AREA)
  • Analytical Chemistry (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Biophysics (AREA)
  • Immunology (AREA)
  • Biomedical Technology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Medicinal Chemistry (AREA)
  • Plant Pathology (AREA)
  • Virology (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本文提供了分析(例如,测序、基因分型、结构分析)复杂基因组区域的改进方法。在一些情况下,所述方法涉及使用CRISPR相关核酸内切酶以及外向导RNA对和内向导RNA对来从基因组DNA中切除感兴趣的基因组区域。所述方法还涉及使用长读长测序来对所述感兴趣的遗传区域进行测序。在一些情况下,所述方法是无扩增的。

Description

用于分析复杂基因组区域的方法和系统
交叉引用
本申请要求2021年4月6日提交的美国临时申请号63/171,387的权益,所述申请通过引用整体并入本文。
序列表
本申请包含序列表,序列表按ASCII格式以电子方式递交并且特此通过引用整体并入。所述ASCII副本创建于2022年4月5日,名称为57312-702_601_SL.txt并且大小为109,652字节。
背景技术
因为遗传变异可以影响对药物的反应,所以药物遗传学(PGx)代表了精确医学的一个组成部分,其能够对药物反应进行个体化确定。PGx的益处包括降低成本和药物不良反应(SADR)的风险,以及提高药物功效。虽然目前有大量的PGx基因被测试,但细胞色素P4502D6(CYP2D6)具有巨大的诊断价值,因为所有药物中高达25%通过CYP2D6进行激活或代谢。这些药物包括抗癌药物、阿片类激动剂以及几种抗抑郁药和抗焦虑药物。CYP2D6酶由CYP2D6基因编码,并且遗传变异可能导致酶功能降低或完全丧失。CYP2D6主要在肝中表达,并且是肝药物代谢和清除的主要贡献者。正确诊断CYP2D6遗传变异的问题可能直接影响发展SADR的风险。NIH临床药物遗传学实施联盟(CPIC)目前列出了58种与支持CYP2D6临床测试、从而使其成为顶级基因之一的证据相关联的药物。据估计,仅在美国,CYP2D6测试在2019年的市场规模将达到5.22亿美元,年增长率为6%-8%。
此时,CYP2D6中有超过100种描述的药物遗传学相关改变(也称为*星等位基因单倍型),包括频繁的拷贝数变异。另外,与邻近高度同源(具有高达94%同一性)假基因(CYP2D7和CYP2D8)的基因融合和杂交使变体识别复杂化。在美国,~13%的人携带CYP2D6结构变体,并且这些变体占与所述基因相关联的所有变异的7%。这些特征使当前测试平台的遗传分析复杂化,并且许多罕见或更复杂的单倍型无法准确分析。来自许多小组的工作表明,目前使用的商业基因分型平台容易错误地表征CYP2D6。这会导致分配不正确,从而导致不正确的给药建议。当基于短读长(NGS)或模板长度(Sanger测序)时,基因测序类似地受到阻碍。虽然已经开发了许多结合靶向扩增、拷贝数分析和长程PCR的方法,以更精确地确定完整结构,但由于复杂的工作流程、时间要求和总体成本,这些方法不适合常规临床测试。
发明内容
对用于准确且成本有效地分析复杂基因组区域的改进方法和系统的需求尚未得到满足。本公开满足了此尚未满足的需求。
在本公开的一方面,提供了一种分析(例如,测序、基因分型、结构分析)感兴趣的基因组区域的方法,所述方法包括:a)使包含所述感兴趣的基因组区域的基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和外向导RNA(gRNA)对接触,从而生成包含所述感兴趣的基因组区域的第一切除片段;b)使所述第一切除片段与CRISPR相关核酸内切酶和内gRNA对接触,从而生成包含所述感兴趣的基因组区域的第二切除片段;以及c)分析所述第二切除片段内所含的所述感兴趣的基因组区域。在一些情况下,a)的所述CRISPR相关核酸内切酶和所述外gRNA对与所述第一切除片段的5’末端和3’末端缔合并将其封闭。在一些情况下,所述方法还包括在b)之前,使a)的产物与一种或多种核酸外切酶接触,使得背景基因组DNA被消化并且所述第一切除片段不被消化。在一些情况下,所述一种或多种核酸外切酶选自:核酸外切酶I、核酸外切酶II、核酸外切酶III、核酸外切酶IV、核酸外切酶V、核酸外切酶VI、核酸外切酶VII、核酸外切酶VIII及其任何组合。在一些情况下,所述外gRNA对包含第一外gRNA和第二外gRNA。在一些情况下,所述第一外gRNA包含与所述基因组DNA中存在的第一核苷酸序列基本上互补的核苷酸序列,并且所述第二外gRNA包含与所述基因组DNA中存在的第二核苷酸序列基本上互补的核苷酸序列。在一些情况下,所述第一核苷酸序列和所述第二核苷酸序列是不同的。在一些情况下,所述第一核苷酸序列和所述第二核苷酸序列侧接所述感兴趣的基因组区域。在一些情况下,所述第一核苷酸序列、所述第二核苷酸序列或两者存在于所述基因组DNA中,距离所述感兴趣的基因组区域的长度长达约100千碱基。在一些情况下,所述内gRNA对包含第一内gRNA和第二内gRNA。在一些情况下,所述第一内gRNA包含与所述基因组DNA中存在的第三核苷酸序列基本上互补的核苷酸序列,并且所述第二内gRNA包含与所述基因组DNA中存在的第四核苷酸序列基本上互补的核苷酸序列。在一些情况下,所述第三核苷酸序列和所述第四核苷酸序列是不同的。在一些情况下,所述第三核苷酸序列和所述第四核苷酸序列侧接所述感兴趣的基因组区域。在一些情况下,所述第三核苷酸序列和所述第四核苷酸序列以比所述第一核苷酸序列和所述第二核苷酸序列更接近所述感兴趣的基因组区域的碱基长度存在于所述基因组DNA上。在一些情况下,所述第二切除片段的碱基长度小于所述第一切除片段。在一些情况下,所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行测序。在一些情况下,所述基因组DNA以约10μg或更大的量提供。在一些情况下,所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行基因分型。在一些情况下,所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行结构分析。在一些情况下,所述方法还包括在b)之前,分离所述第一切除片段。在一些情况下,所述方法还包括在c)之前,分离所述第二切除片段。在一些情况下,所述方法不涉及DNA扩增。在一些情况下,所述方法还包括在c)之前,将一个或多个适配体附接至所述第二切除片段的所述5’末端、所述3’末端或两者。在一些情况下,所述CRISPR相关核酸内切酶是1类CRISPR相关核酸内切酶或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌(Streptococcus pyogenes)Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。在一些情况下,所述基因组DNA在a)之前未被片段化、消化或剪切。在一些情况下,所述基因组DNA在a)之前未经受限制性酶消化。在一些情况下,所述感兴趣的基因组区域是复杂基因组区域。在一些情况下,所述复杂基因组区域包含感兴趣的基因及其一个或多个假基因。在一些情况下,所述一个或多个假基因包含与所述感兴趣的基因具有至少75%序列同一性的核苷酸序列。在一些情况下,所述复杂基因组区域包含一个或多个重复区域、一个或多个重复、一个或多个插入、一个或多个倒位、一个或多个串联重复序列、一个或多个反转录转座子或其任何组合。在一些情况下,所述感兴趣的基因组区域是高多态性基因座。在一些情况下,所述第一切除片段的长度是至少约0.06千碱基。在一些情况下,所述第一切除片段的长度是长达约200千碱基。在一些情况下,所述第二切除片段的长度是至少约0.02千碱基。在一些情况下,所述第二切除片段的长度是长达约199.98千碱基。在一些情况下,所述测序包括长读长测序(long-read sequencing)。在一些情况下,所述长读长测序包括单分子实时测序或纳米孔测序。在一些情况下,所述方法不涉及聚合酶链式反应(PCR)或等温扩增中的任一种。在一些情况下,所述方法不涉及以下中的任一种:多重置换扩增(MDA)、链置换扩增(SDA)、基于核酸序列的扩增(NASBA)、环介导的等温扩增、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法。在一些情况下,所述基因组DNA是在生物样品中提供或获得的。在一些情况下,所述生物样品包括体液(例如,血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳)或固体组织样品。在一些情况下,所述生物样品是诊断样品。在一些情况下,所述感兴趣的基因组区域是包含CYP2D6、CYP2D7和CYP2D8的遗传基因座。在一些情况下,所述分析包括鉴定CYP2D6中的一个或多个遗传变异。在一些情况下,所述方法还包括基于所述遗传变异,将对象鉴定为具有CYP2D6功能的减少、丧失或增加。在一些情况下,所述方法还包括基于所述鉴定,为所述对象推荐治疗或替代性治疗。在一些情况下,所述对象被鉴定为具有CYP2D6功能的减少、丧失或增加,为所述对象推荐替代性治疗。在一些情况下,所述方法还包括基于所述鉴定,为所述对象推荐治疗剂的剂量。在一些情况下,当所述对象被鉴定为具有CYP2D6功能的减少、丧失或增加时,改变治疗剂的剂量。在一些情况下,所述外gRNA对、所述内gRNA对或两者选自SEQ ID NO:1-418中的任一个。
在另一方面,提供了一种用于分析感兴趣的基因组区域的试剂盒,所述试剂盒包括:a)规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶;b)外gRNA对,其包含:i)包含与基因组DNA中存在的第一核苷酸序列基本上互补的核苷酸序列的第一外gRNA,所述第一核苷酸序列在所述感兴趣的基因组区域的上游;和ii)包含与基因组DNA中存在的第二核苷酸序列基本上互补的核苷酸序列的第二外gRNA,所述第二核苷酸序列在所述感兴趣的基因组区域的下游;c)内gRNA对,其包含:iii)包含与基因组DNA中存在的第三核苷酸序列基本上互补的核苷酸序列的第一内gRNA,所述第三核苷酸序列在所述感兴趣的基因组区域的上游;和iv)包含与基因组DNA中存在的第四核苷酸序列基本上互补的核苷酸序列的第二内gRNA,所述第四核苷酸序列在所述感兴趣的基因组区域的下游,其中所述第三核苷酸序列和所述第四核苷酸序列以比所述第一核苷酸序列和所述第二核苷酸序列更接近所述感兴趣的基因组区域的碱基长度存在于所述基因组DNA上。在一些情况下,所述试剂盒还包括一种或多种核酸外切酶。在一些情况下,所述一种或多种核酸外切酶选自:核酸外切酶I、核酸外切酶II、核酸外切酶III、核酸外切酶IV、核酸外切酶V、核酸外切酶VI、核酸外切酶VII、核酸外切酶VIII及其任何组合。在一些情况下,所述CRISPR相关核酸内切酶是1类或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。在一些情况下,所述感兴趣的基因组区域是包含CYP2D6、CYP2D7和CYP2D8的基因组基因座。在一些情况下,所述第一外向导RNA、所述第一内向导RNA或两者包含SEQ ID NO:3-12、17-26、68-77、82-214和344-418中的任一个的核苷酸序列。在一些情况下,所述第二外向导RNA、所述第二内向导RNA或两者包含SEQ ID NO:1、2、13-16、27-67、78-81和215-343中的任一个的核苷酸序列。在一些情况下,所述试剂盒还包括用于在嵌套CRISPR反应中使用试剂盒的说明书。在一些情况下,所述试剂盒还包括用于使用所述试剂盒从基因组DNA中切除所述感兴趣的基因组区域的说明书。
在一方面,提供了一种分析感兴趣的基因组区域的方法,所述方法包括:(a)使包含所述感兴趣的基因组区域的基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和两种或更多种gRNA接触,从而生成切除的感兴趣的基因组区域;(b)分离包含所述感兴趣的基因组区域的所述基因组DNA;以及(c)分析所述切除的感兴趣的基因组区域,其中所述方法不涉及DNA扩增。在一些情况下,所述分析包括对所述切除的感兴趣的基因组区域进行测序。在一些情况下,所述分析包括对所述切除的感兴趣的基因组区域进行基因分型。在一些情况下,所述分析包括对所述切除的感兴趣的区域进行结构分析。在一些情况下,(b)的所述分离在(a)的所述接触之前进行。在一些情况下,(b)的所述分离在(a)的所述接触之后进行。在一些情况下,所述两种或更多种gRNA各自包含与所述基因组DNA中存在的不同核苷酸序列基本上互补的核苷酸序列。在一些情况下,所述不同核苷酸序列侧接所述感兴趣的基因组区域。在一些情况下,所述CRISPR相关核酸内切酶在侧接所述感兴趣的基因组区域的基因组位点处裂解所述感兴趣的基因组区域。在一些情况下,所述CRISPR相关核酸内切酶是1类或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。在一些情况下,所述基因组DNA在(a)之前未被片段化、消化或剪切。在一些情况下,所述基因组DNA在(a)之前未经受限制性酶消化。在一些情况下,所述感兴趣的基因组区域是复杂基因组区域。在一些情况下,所述复杂基因组区域包含基因及其一个或多个假基因。在一些情况下,所述一个或多个假基因包含与所述基因具有至少75%序列同一性的核苷酸序列。在一些情况下,所述复杂基因组区域包含一个或多个重复区域、一个或多个重复、一个或多个插入、一个或多个倒位、一个或多个串联重复序列、一个或多个反转录转座子或其任何组合。在一些情况下,所述感兴趣的基因组区域是高多态性基因座。在一些情况下,所述切除的感兴趣的基因组区域的长度是至少10千碱基。在一些情况下,所述切除的感兴趣的基因组区域的长度是长达250千碱基。在一些情况下,所述分离包括分离高分子量DNA。在一些情况下,所述高分子量DNA的长度是至少50千碱基。在一些情况下,所述测序包括长读长测序。在一些情况下,所述长读长测序包括单分子实时测序或纳米孔测序。在一些情况下,所述方法还包括将一个或多个测序适配体连接至所述切除的感兴趣的基因组区域的一个或两个末端。在一些情况下,所述方法还包括在a)之前,对所述基因组DNA进行去磷酸化。在一些情况下,所述去磷酸化包括用磷酸酶处理所述基因组DNA。在一些情况下,所述磷酸酶是虾碱性磷酸酶。在一些情况下,所述方法还包括在所述去磷酸化后,用末端转移酶(TdT)处理所述基因组DNA。在一些情况下,所述方法还包括对所述切除的感兴趣的基因组区域进行末端加尾。在一些情况下,所述末端加尾包括将一个或多个腺苷核苷酸添加到所述切除的感兴趣的基因组区域的游离3’末端。在一些情况下,所述方法不涉及聚合酶链式反应(PCR)或等温扩增中的任一种。在一些情况下,所述方法不涉及以下中的任一种:多重置换扩增(MDA)、链置换扩增(SDA)、基于核酸序列的扩增(NASBA)、环介导的等温扩增、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法。在一些情况下,所述基因组DNA是在生物样品中提供的。在一些情况下,所述生物样品包括体液(例如,血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳)或固体组织样品。在一些情况下,所述生物样品是诊断样品。
在另一方面,提供了一种分析长度为至少10千碱基的感兴趣的复杂基因组区域的方法,所述方法包括:(a)提供包含所述感兴趣的复杂基因组区域的基因组DNA;(b)分离包含所述感兴趣的复杂基因组区域的高分子量DNA;(c)使所述基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和两种或更多种gRNA接触,以切除所述感兴趣的复杂基因组区域,其中所述两种或更多种gRNA各自包含与所述基因组DNA中存在的不同核苷酸序列基本上互补的核苷酸序列,并且其中所述不同核苷酸序列侧接所述感兴趣的复杂基因组区域;以及(d)分析所述感兴趣的复杂基因组区域,其中所述方法不涉及DNA扩增。在一些情况下,所述分析包括对所述感兴趣的复杂基因组区域进行测序。在一些情况下,所述测序包括长读长测序。在一些情况下,所述长读长测序包括单分子实时测序或纳米孔测序。在一些情况下,所述分析包括对所述感兴趣的复杂基因组区域进行基因分型。在一些情况下,所述分析包括对所述感兴趣的基因组区域进行结构分析。在一些情况下,(b)的所述分离在(c)的所述接触之前进行。在一些情况下,(b)的所述分离在(c)的所述接触之后进行。在一些情况下,所述高分子量DNA的长度是至少10千碱基。在一些情况下,所述感兴趣的复杂基因组区域包含靶基因及其一个或多个假基因。在一些情况下,所述一个或多个假基因与所述靶基因具有至少75%序列同一性。在一些情况下,所述感兴趣的复杂基因组区域包含CYP2D6、CYP2D7和CYP2D8。在一些情况下,所述感兴趣的复杂基因组区域包含CYP2C8、CYP2C9、CYP2C18和CYP2C19。在一些情况下,所述感兴趣的复杂基因组区域包含一个或多个重复区域、一个或多个重复、一个或多个插入、一个或多个倒位、一个或多个串联重复序列、一个或多个反转录转座子或其任何组合。在一些情况下,所述感兴趣的复杂基因组区域是高多态性基因座。在一些情况下,所述CRISPR相关核酸内切酶是1类或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。在一些情况下,所述基因组DNA在a)之前未被片段化或消化。在一些情况下,所述基因组DNA在a)之前未经受限制性酶消化。在一些情况下,所述感兴趣的复杂基因组区域的长度是长达250千碱基。在一些情况下,所述方法还包括将一个或多个测序适配体连接至所述切除的感兴趣的基因组区域的一个或两个末端。在一些情况下,所述方法不涉及聚合酶链式反应(PCR)或等温扩增中的任一种。在一些情况下,所述方法不涉及以下中的任一种:多重置换扩增(MDA)、链置换扩增(SDA)、基于核酸序列的扩增(NASBA)、环介导的等温扩增、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法。在一些情况下,所述基因组DNA是在生物样品中提供的。在一些情况下,所述生物样品是体液(例如,血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳)或固体组织样品。在一些情况下,所述生物样品是诊断样品。
在另一方面,提供了一种分析包含CYP2D6、CYP2D7和CYP2D8的遗传基因座的方法,所述方法包括:(a)提供包含所述遗传基因座的基因组DNA;(b)使所述基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和两种或更多种gRNA接触,以从所述基因组DNA中切除所述遗传基因座,其中所述两种或更多种gRNA各自包含与所述基因组DNA中存在的不同核苷酸序列基本上互补的核苷酸序列,并且其中所述不同核苷酸序列侧接所述包含CYP2D6、CYP2D7和CYP2D8的遗传基因座;以及(c)分析所述遗传基因座。在一些情况下,所述分析包括对所述遗传基因座进行测序。在一些情况下,所述测序包括长读长测序。在一些情况下,所述长读长测序包括单分子实时测序或纳米孔测序。在一些情况下,所述分析包括对所述遗传基因座进行基因分型。在一些情况下,所述分析包括对所述遗传基因座进行结构分析。在一些情况下,所述方法还包括在c)之前,分离包含所述遗传基因座的高分子量DNA。在一些情况下,所述高分子量DNA的长度是至少10千碱基。在一些情况下,所述两种或更多种gRNA包含选自以下的核苷酸序列:SEQ ID NO:1-418。在一些情况下,所述遗传基因座的长度是至少40千碱基。在一些情况下,所述CRISPR相关核酸内切酶是1类或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。在一些情况下,所述基因组DNA在a)之前未被片段化、消化或剪切。在一些情况下,所述基因组DNA在a)之前未经受限制性酶消化。在一些情况下,所述方法还包括将一个或多个测序适配体连接至所述切除的遗传基因座的一个或两个末端。在一些情况下,所述方法不涉及DNA扩增。在一些情况下,所述方法不涉及聚合酶链式反应(PCR)或等温扩增中的任一种。在一些情况下,所述方法不涉及以下中的任一种:多重置换扩增(MDA)、链置换扩增(SDA)、基于核酸序列的扩增(NASBA)、环介导的等温扩增、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法。在一些情况下,所述基因组DNA是在生物样品中提供的。在一些情况下,所述生物样品是体液(例如,血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳)或固体组织样品。在一些情况下,所述生物样品是诊断样品。
在又一方面,提供了一种鉴定对象中CYP2D6中的遗传变异的方法,所述方法包括:(a)提供从所述对象获得的包含基因组DNA的生物样品;(b)使所述基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和两种或更多种gRNA接触,以切除包含CYP2D6、CYP2D7和CYP2D8的遗传基因座;(c)对所述遗传基因座进行长读长测序;以及(d)鉴定所述对象的CYP2D6中的一个或多个遗传变异。在一些情况下,所述方法还包括基于所述遗传变异,将所述对象鉴定为具有CYP2D6功能的减少、丧失或增加。在一些情况下,所述方法还包括基于所述鉴定,为所述对象推荐治疗或替代性治疗。在一些情况下,当所述对象被鉴定为具有CYP2D6功能的减少、丧失或增加时,所述方法还包括为所述对象推荐替代性治疗。在一些情况下,所述方法还包括基于所述鉴定,为所述对象推荐治疗剂的剂量。在一些情况下,当所述对象被鉴定为具有CYP2D6功能的减少、丧失或增加时,所述方法还包括改变治疗剂的剂量。在一些情况下,所述方法还包括在c)之前,分离包含所述遗传基因座的高分子量DNA。在一些情况下,所述高分子量DNA的长度是至少40千碱基。在一些情况下,所述两种或更多种gRNA各自包含与所述基因组DNA中存在的不同核苷酸序列基本上互补的核苷酸序列,并且其中所述不同核苷酸序列侧接所述包含CYP2D6、CYP2D7和CYP2D8的遗传基因座。在一些情况下,所述两种或更多种gRNA包含选自以下的核苷酸序列:SEQ ID NO:1-418。在一些情况下,所述遗传基因座的长度是至少40千碱基。在一些情况下,所述长读长测序包括单分子实时测序或纳米孔测序。在一些情况下,所述CRISPR相关核酸内切酶是1类或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。在一些情况下,所述基因组DNA在(a)之前未被片段化、消化或剪切。在一些情况下,所述基因组DNA在(a)之前未经受限制性酶消化。在一些情况下,所述方法还包括将一个或多个测序适配体连接至所述切除的感兴趣的基因组区域的一个或两个末端。在一些情况下,所述方法不涉及DNA扩增。在一些情况下,所述方法不涉及聚合酶链式反应(PCR)或等温扩增中的任一种。在一些情况下,所述方法不涉及以下中的任一种:多重置换扩增(MDA)、链置换扩增(SDA)、基于核酸序列的扩增(NASBA)、环介导的等温扩增、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法。在一些情况下,所述生物样品是体液(例如,血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳)或固体组织样品。
在又一方面,提供了一种组合物,其包含:(a)规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶;(b)包含与基因组DNA中存在的核苷酸序列基本上互补的核苷酸序列的第一向导RNA(gRNA),所述基因组DNA中存在的核苷酸序列在包含CYP2D6、CYP2D7和CYP2D8的遗传基因座的上游;以及(c)包含与基因组DNA中存在的核苷酸序列基本上互补的核苷酸序列的第二向导RNA(gRNA),所述基因组DNA中存在的核苷酸序列在所述包含CYP2D6、CYP2D7和CYP2D8的遗传基因座的下游。在一些情况下,所述第一向导RNA包含选自以下的核苷酸序列:SEQ ID NO:1、2或13-16。在一些情况下,所述第二向导RNA包含选自以下的核苷酸序列:SEQ ID NO:3-12或17-26。在一些情况下,所述CRISPR相关核酸内切酶是1类或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。
在又一方面,提供了一种用于对CYP2D6进行基因分型的试剂盒,所述试剂盒包括:(a)规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶;(b)包含与基因组DNA中存在的核苷酸序列基本上互补的核苷酸序列的第一向导RNA(gRNA),所述基因组DNA中存在的核苷酸序列在包含CYP2D6、CYP2D7和CYP2D8的遗传基因座的上游;以及(c)包含与基因组DNA中存在的核苷酸序列基本上互补的核苷酸序列的第二向导RNA(gRNA),所述基因组DNA中存在的核苷酸序列在所述包含CYP2D6、CYP2D7和CYP2D8的遗传基因座的下游。在一些情况下,所述第一向导RNA包含选自以下的核苷酸序列:SEQ ID NO:1、2或13-16。在一些情况下,所述第二向导RNA包含选自以下的核苷酸序列:SEQ ID NO:3-12或17-26。在一些情况下,所述CRISPR相关核酸内切酶是1类或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。
在又一方面,提供了一种用于分析感兴趣的复杂基因组区域的系统,所述系统包括:(a)被配置为接收数据输入的至少一个存储位置,所述数据输入包括由一种方法生成的数据,所述方法包括:(i)从包含所述感兴趣的复杂基因组区域的基因组DNA中分离高分子量DNA;(ii)使所述基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和两种或更多种gRNA接触,以切除所述感兴趣的复杂基因组区域,其中所述两种或更多种gRNA各自包含与所述基因组DNA中存在的不同核苷酸序列基本上互补的核苷酸序列,并且其中所述不同核苷酸序列侧接所述感兴趣的复杂基因组区域;以及(iii)分析所述感兴趣的复杂基因组区域以生成所述数据,其中所述方法不涉及DNA扩增;和(b)可操作地耦合到所述至少一个存储位置的计算机处理器,其中所述计算机处理器被编程为基于所述数据生成输出。在一些情况下,所述输出是报告。在一些情况下,所述输出是所述感兴趣的复杂基因组区域的基因型。在一些情况下,所述输出是所述感兴趣的复杂基因组区域的遗传序列。在一些情况下,所述输出是所述感兴趣的复杂基因组区域的结构分析。在一些情况下,所述分析包括对所述感兴趣的复杂基因组区域进行基因分型。在一些情况下,所述分析包括对所述感兴趣的复杂基因组区域进行结构分析。在一些情况下,所述分析包括对所述感兴趣的复杂基因组区域进行测序。在一些情况下,所述测序包括长读长测序。在一些情况下,所述长读长测序包括单分子实时测序或纳米孔测序。在一些情况下,(i)的所述分离在(ii)的所述接触之前进行。在一些情况下,(i)的所述分离在(ii)的所述接触之后进行。在一些情况下,所述高分子量DNA的长度是至少10千碱基。在一些情况下,所述感兴趣的复杂基因组区域包含靶基因及其一个或多个假基因。在一些情况下,所述一个或多个假基因与所述靶基因具有至少75%序列同一性。在一些情况下,所述感兴趣的复杂基因组区域包含CYP2D6、CYP2D7和CYP2D8。在一些情况下,所述感兴趣的复杂基因组区域包含CYP2C8、CYP2C9、CYP2C18和CYP2C19。在一些情况下,所述感兴趣的复杂基因组区域包含一个或多个重复区域、一个或多个重复、一个或多个插入、一个或多个倒位、一个或多个串联重复序列、一个或多个反转录转座子或其任何组合。在一些情况下,所述感兴趣的复杂基因组区域是高多态性基因座。在一些情况下,所述CRISPR相关核酸内切酶是1类或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。在一些情况下,所述基因组DNA在a)之前未被片段化、消化或剪切。在一些情况下,所述基因组DNA在a)之前未经受限制性酶消化。在一些情况下,所述感兴趣的复杂基因组区域的长度是长达250千碱基。在一些情况下,所述方法还包括将一个或多个测序适配体连接至所述切除的感兴趣的基因组区域的一个或两个末端。在一些情况下,所述方法不涉及聚合酶链式反应(PCR)或等温扩增中的任一种。在一些情况下,所述方法不涉及以下中的任一种:多重置换扩增(MDA)、链置换扩增(SDA)、基于核酸序列的扩增(NASBA)、环介导的等温扩增、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法。在一些情况下,所述基因组DNA是在生物样品中提供的。在一些情况下,所述生物样品包括体液(例如,血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳)或固体组织样品。在一些情况下,所述生物样品是诊断样品。
在又一方面,提供了一种用于鉴定对象的CYP2D6中的遗传变异的系统,所述系统包括:(a)被配置为接收数据输入的至少一个存储位置,所述数据输入包括由一种方法生成的测序数据,所述方法包括:(ii)使从所述对象获得的基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和两种或更多种gRNA接触,以切除包含CYP2D6、CYP2D7和CYP2D8的遗传基因座;以及(iii)对所述遗传基因座进行长读长测序以生成所述测序数据;和(b)可操作地耦合到所述至少一个存储位置的计算机处理器,其中所述计算机处理器被编程为基于所述测序数据生成输出。在一些情况下,所述输出是报告。在一些情况下,所述输出鉴定CYP2D6中的遗传变异。在一些情况下,所述输出鉴定CYP2D6功能的减少、丧失或增加。在一些情况下,所述报告基于所述遗传变异为所述对象推荐治疗。在一些情况下,所述报告基于所述遗传变异为所述对象推荐治疗剂的剂量。在一些情况下,所述报告基于所述遗传变异推荐改变治疗剂的剂量。在一些情况下,所述治疗剂是通过CYP2D6激活或代谢的治疗剂。在一些情况下,所述方法还包括在(ii)之前,分离包含所述遗传基因座的高分子量DNA。在一些情况下,所述高分子量DNA的长度是至少40千碱基。在一些情况下,所述两种或更多种gRNA各自包含与所述基因组DNA中存在的不同核苷酸序列基本上互补的核苷酸序列,并且其中所述不同核苷酸序列侧接所述包含CYP2D6、CYP2D7和CYP2D8的遗传基因座。在一些情况下,所述两种或更多种gRNA包含选自以下的核苷酸序列:SEQ ID NO:1-26。在一些情况下,所述遗传基因座的长度是至少40千碱基。在一些情况下,所述长读长测序包括单分子实时测序或纳米孔测序。在一些情况下,所述CRISPR相关核酸内切酶是1类或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。在一些情况下,所述基因组DNA在(a)之前未被片段化、消化或剪切。在一些情况下,所述基因组DNA在(a)之前未经受限制性酶消化。在一些情况下,所述方法还包括将一个或多个测序适配体连接至所述切除的感兴趣的基因组区域的一个或两个末端。在一些情况下,所述方法不涉及DNA扩增。在一些情况下,所述方法不涉及聚合酶链式反应(PCR)或等温扩增中的任一种。在一些情况下,所述方法不涉及以下中的任一种:多重置换扩增(MDA)、链置换扩增(SDA)、基于核酸序列的扩增(NASBA)、环介导的等温扩增、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法。在一些情况下,所述生物样品是体液(例如,血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳)或固体组织样品。
在另一方面,提供了一种用于分析感兴趣的基因组区域的系统,所述系统包括:(a)被配置为接收数据输入的至少一个存储位置,所述数据输入包括由一种方法生成的数据,所述方法包括:(i)使包含所述感兴趣的基因组区域的基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和外向导RNA(gRNA)对接触,从而生成包含所述感兴趣的基因组区域的第一切除片段;(ii)使所述第一切除片段与CRISPR相关核酸内切酶和内gRNA对接触,从而生成包含所述感兴趣的基因组区域的第二切除片段;以及(iii)分析所述第二切除片段内所含的所述感兴趣的基因组区域;和(b)可操作地耦合到所述至少一个存储位置的计算机处理器,其中所述计算机处理器被编程为基于所述数据生成输出。在一些情况下,所述输出是报告。在一些情况下,所述输出是所述感兴趣的基因组区域的基因型。在一些情况下,所述输出是所述感兴趣的基因组区域的遗传序列。在一些情况下,所述输出是所述感兴趣的基因组区域的结构分析。在一些情况下,所述分析包括对所述感兴趣的基因组区域进行基因分型。在一些情况下,所述分析包括对所述感兴趣的基因组区域进行结构分析。在一些情况下,所述分析包括对所述感兴趣的基因组区域进行测序。在一些情况下,所述测序包括长读长测序。在一些情况下,所述长读长测序包括单分子实时测序或纳米孔测序。在一些情况下,(i)的所述CRISPR相关核酸内切酶和所述外gRNA对与所述第一切除片段的5’末端和3’末端缔合并将其封闭。在一些情况下,所述方法还包括在(ii)之前,使(i)的产物与一种或多种核酸外切酶接触,使得背景基因组DNA被消化并且所述第一切除片段不被消化。在一些情况下,所述一种或多种核酸外切酶选自:核酸外切酶I、核酸外切酶II、核酸外切酶III、核酸外切酶IV、核酸外切酶V、核酸外切酶VI、核酸外切酶VII、核酸外切酶VIII及其任何组合。在一些情况下,所述外gRNA对包含第一外gRNA和第二外gRNA。在一些情况下,所述第一外gRNA包含与所述基因组DNA中存在的第一核苷酸序列基本上互补的核苷酸序列,并且所述第二外gRNA包含与所述基因组DNA中存在的第二核苷酸序列基本上互补的核苷酸序列。在一些情况下,所述第一核苷酸序列和所述第二核苷酸序列是不同的。在一些情况下,所述第一核苷酸序列和所述第二核苷酸序列侧接所述感兴趣的基因组区域。在一些情况下,所述第一核苷酸序列、所述第二核苷酸序列或两者存在于所述基因组DNA中,距离所述感兴趣的基因组区域的长度长达约100千碱基。在一些情况下,所述内gRNA对包含第一内gRNA和第二内gRNA。在一些情况下,所述第一内gRNA包含与所述基因组DNA中存在的第三核苷酸序列基本上互补的核苷酸序列,并且所述第二内gRNA包含与所述基因组DNA中存在的第四核苷酸序列基本上互补的核苷酸序列。在一些情况下,所述第三核苷酸序列和所述第四核苷酸序列是不同的。在一些情况下,所述第三核苷酸序列和所述第四核苷酸序列侧接所述感兴趣的基因组区域。在一些情况下,所述第三核苷酸序列和所述第四核苷酸序列以比所述第一核苷酸序列和所述第二核苷酸序列更接近所述感兴趣的基因组区域的碱基长度存在于所述基因组DNA上。在一些情况下,所述第二切除片段的碱基长度小于所述第一切除片段。在一些情况下,所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行测序。在一些情况下,所述基因组DNA以约10μg或更大的量提供。在一些情况下,所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行基因分型。在一些情况下,所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行结构分析。在一些情况下,所述方法还包括在(ii)之前,分离所述第一切除片段。在一些情况下,所述方法还包括在(iii)之前,分离所述第二切除片段。在一些情况下,所述方法不涉及DNA扩增。在一些情况下,所述方法还包括在(iii)之前,将一个或多个适配体附接至所述第二切除片段的所述5’末端、所述3’末端或两者。在一些情况下,所述CRISPR相关核酸内切酶是1类CRISPR相关核酸内切酶或2类CRISPR相关核酸内切酶。在一些情况下,所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。在一些情况下,所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。在一些情况下,所述CRISPR相关核酸内切酶是Cas9或其变体。在一些情况下,所述Cas9是酿脓链球菌Cas9(spCas9)。在一些情况下,相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。在一些情况下,所述基因组DNA在(i)之前未被片段化、消化或剪切。在一些情况下,所述基因组DNA在(i)之前未经受限制性酶消化。在一些情况下,所述感兴趣的基因组区域是复杂基因组区域。在一些情况下,所述复杂基因组区域包含感兴趣的基因及其一个或多个假基因。在一些情况下,所述一个或多个假基因包含与所述感兴趣的基因具有至少75%序列同一性的核苷酸序列。在一些情况下,所述复杂基因组区域包含一个或多个重复区域、一个或多个重复、一个或多个插入、一个或多个倒位、一个或多个串联重复序列、一个或多个反转录转座子或其任何组合。在一些情况下,所述感兴趣的基因组区域是高多态性基因座。在一些情况下,所述第一切除片段的长度是至少约0.06千碱基。在一些情况下,所述第一切除片段的长度是长达约200千碱基。在一些情况下,所述第二切除片段的长度是至少约0.02千碱基。在一些情况下,所述第二切除片段的长度是长达约199.98千碱基。在一些情况下,所述方法不涉及聚合酶链式反应(PCR)或等温扩增中的任一种。在一些情况下,所述方法不涉及以下中的任一种:多重置换扩增(MDA)、链置换扩增(SDA)、基于核酸序列的扩增(NASBA)、环介导的等温扩增、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法。在一些情况下,所述基因组DNA是在生物样品中提供或获得的。在一些情况下,所述生物样品包括体液(例如,血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳)或固体组织样品。在一些情况下,所述生物样品是诊断样品。在一些情况下,所述感兴趣的基因组区域是包含CYP2D6、CYP2D7和CYP2D8的遗传基因座。在一些情况下,所述分析包括鉴定CYP2D6中的一个或多个遗传变异。在一些情况下,所述输出包括基于所述遗传变异,将对象鉴定为具有CYP2D6功能的减少、丧失或增加。在一些情况下,所述输出包括基于所述鉴定,为所述对象推荐治疗或替代性治疗。在一些情况下,当所述对象被鉴定为具有CYP2D6功能的减少、丧失或增加时,所述输出还包括为所述对象推荐替代性治疗。在一些情况下,所述输出还基于所述鉴定为所述对象推荐治疗剂的剂量。在一些情况下,当所述对象被鉴定为具有CYP2D6功能的减少、丧失或增加时,所述输出还包括推荐改变治疗剂的剂量。在一些情况下,所述外gRNA对、所述内gRNA对或两者包含选自SEQ IDNO:1-418中的任一个的gRNA。
援引并入
本说明书中提到的所有出版物、专利和专利申请都通过引用并入本文,其并入程度如同每个单独的出版物、专利或专利申请被明确且单独地指示通过引用并入。
附图说明
本公开的新颖特征在所附权利要求书中特别地阐述。通过参考阐述了利用本公开的原理的说明性实施方案的以下具体实施方式和附图将获得对本公开的特征和优点的更好的理解,在附图中:
图1描绘了根据本文提供的实施方案的CYP2D6基因座。分图A描绘了含有CYP2D6基因的单个拷贝的参考基因座相对于CYP2D7和CYP2D8的取向。说明CYP2D6基因拷贝数变异的复杂性的结构变体的代表性实例,包括完全CYP2D6缺失(分图B)、重复(分图C)以及5’(分图D)或3’(分图E)CYPD6/CYPD7杂交等位基因的存在。此类排列中的重复基因经常具有类似CYP2D7的下游区域,包括1.6kb长的间隔子序列。示出了相对于参考序列(NG_008376.3)的5’-3’取向。
图2描绘了根据本文提供的实施方案描绘分离CYP2D6基因座并对其进行测序的方法的流程图的非限制性实例。
图3描绘了根据本文提供的实施方案比较基因组DNA提取的非限制性实例。泳道A是用改进的高分子量方案(>50kb)从淋巴母细胞样细胞系(LCL)细胞中提取的50ng gDNA,泳道B是用Maxwell快速样品浓缩器(RSC)提取的50ng gDNA(~10-48kb),泳道C是50nggDNA对照(Coriell;~10kb-50kb),泳道D是λ噬菌体DNA(~50kDa;NEB),并且泳道E是HINDIIIλ噬菌体消化物。
图4A和图4B描绘了根据本文提供的实施方案设计和验证靶向CYP2D6基因座的sgRNA的非限制性实例。图4A描绘了捕获等位基因CYP2D6和杂交等位基因所需的CRISPR切割位点的示意图。图4B描绘了靶位点的CRISPR切割XL-PCR(CRISPR Cut XL-PCR)扩增子。样品A接受Cas9且没有sgRNA,样品B接受Cas9和sgRNA_1,并且样品C接受Cas9和sgRNA_2。
图5A和图5B描绘了根据本公开的实施方案的靶向基因组DNA上的CYP2D6基因座的sgRNA的效率的非限制性实例。图5A描绘了含有在CYP2D6上游和下游的区域的sgRNA结合位点的XL-PCR产物的凝胶图像。泳道C是对照。图5B描绘了相对于阴性对照归一化的未切割gDNA的百分比。*=P值<0.010。
图6描绘了根据本公开的实施方案的基于XL-PCR和NGS的分析方法的NGS比对的非限制性实例。
图7A-图7C描绘了根据本公开的实施方案针对CYP2D6基因座的替代性CRISPR/Cas9设计方法问题的非限制性实例。切割位点用剪刀指示。X代表等位基因,其中A等位基因上所示的设计将在B-E等位基因排列上生成不想要的切割。
图8描绘了CYP2D6基因座的综合靶标设计的非限制性实例。切割位点用剪刀指示。钩号代表等位基因,其中A等位基因上所示的设计将在B-E等位基因排列上仅生成中靶切割。
图9A-图9C描绘了设计和验证靶向CYP2D6基因座的sgRNA的非限制性实例。图9A描绘了靶向以捕获等位基因CYP2D6和杂交等位基因所需的切割位点的示意图。图9B和图9C描绘了靶位点的CRISPR切割XL-PCR扩增子。样品A接受Cas9且没有sgRNA,样品B接受Cas9和sgRNA_1,并且样品C接受Cas9和sgRNA_2。
图10描绘了根据本公开的实施方案分离的高分子量DNA的非限制性实例。从LCL细胞沉淀中提取的100ng高分子量基因组DNA的2%DNA琼脂糖凝胶,与λ对照和从CoriellInstitute预提取的DNA进行比较。
图11A和图11B描绘了根据本文公开的实施方案的序列运行覆盖率的非限制性实例。
图12A和图12B描绘了根据本文公开的实施方案的非限制性示例性序列比对大小。
图13描绘了根据本文公开的实施方案的比对图的非限制性实例。实现了靶向捕获区域的121X覆盖率。方框概述了CYP2D6和CYP2D7。
图14描绘了根据本文公开的实施方案的示出sgRNA特异性的刺身图(Sashimiplot)的非限制性实例。此图示出了两个测序运行的比对区域。上比对示出了使用被设计来捕获感兴趣区域(ROI)(chr22:42,122,115-41,161,320)的sgRNA的运行的序列数据。下比对示出了使用靶向相反链的sgRNA对同一DNA样品进行的富集。
图15描绘了根据本文公开的实施方案的示出多种复杂结构排列的sgRNA特异性的刺身图的非限制性实例。此图示出了四个测序运行的比对区域。来自所述运行的序列数据使用被设计来捕获感兴趣区域(ROI)(chr22:42,122,115-41,161,320)的sgRNA并且包括四个不同的结构事件:(1)一个等位基因上CYP2D6的缺失;(2)一个等位基因上杂交等位基因与CYP2D6串联;(3)一个等位基因上的重复事件;以及(4)一个等位基因上CYP2D6的缺失和第二个等位基因上CYP2D6的重复。
图16描绘了根据本文提供的实施方案的计算机系统的非限制性实例。
图17描绘了根据本文提供的实施方案的用于分析感兴趣的复杂基因组区域的嵌套富集方法的非限制性实例。
图18描绘了使用嵌套富集方法分析感兴趣的复杂基因组区域时ROI的非限制性代表性倍数变化数据。如图中所示,与仅接受内gRNA的样品相比,用于在DNA消化之前进行嵌套富集以及随后与第二内gRNA进行CRISPR反应的不同外gRNA对生成ROI的显著富集以用于下游应用。
具体实施方式
本文公开了用于分析感兴趣的基因组区域(ROI)(例如,来自基因组DNA)的方法。所述感兴趣区域可以是例如复杂(例如,高度复杂)基因组区域。所述复杂基因组区域可以包括例如高多态性区域,包含靶基因和一个或多个与靶基因具有高序列同源性的假基因的区域,包含一个或多个重复元件、一个或多个倒位、一个或多个插入、一个或多个重复、一个或多个串联重复序列、一个或多个反转录转座子的区域等。本文提供的方法通常涉及使用间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和两种或更多种向导RNA(gRNA)来从基因组DNA中切除感兴趣区域。
在一方面,本公开提供了一种用于富集并分析感兴趣的复杂基因组区域的嵌套富集方法。所述嵌套富集方法通常涉及使用CRISPR相关核酸内切酶与外gRNA对(例如,第一外gRNA和第二外gRNA)和/或内gRNA对(例如,第一内gRNA和第二内gRNA)的组合。所述方法涉及使用CRISPR相关核酸内切酶和所述外gRNA对来从含有感兴趣的基因组区域的基因组DNA中切除片段,以生成包含感兴趣的基因组区域的第一切除片段。所述方法还包括通过使用CRISPR相关核酸内切酶和所述内gRNA对来从所述第一切除片段中切除较小片段,以生成包含感兴趣的基因组区域的第二切除片段。在一些情况下,所述方法还涉及用一种或多种核酸外切酶消化背景DNA。
本文提供的方法还涉及分析感兴趣的基因组区域(例如,位于第二片段上)(例如,通过测序,例如经由长读长测序方法,通过基因分型,通过进行结构分析)。本文还提供了分析CYP2D6基因座的方法(例如,包含靶基因CYP2D6以及假基因CYP2D7和CYP2D8)。有利地,在一些实施方案中,所述方法不涉及使用DNA扩增(例如,无扩增)。所述方法可以提高复杂(例如,高度复杂)基因组区域的测序准确性(例如,降低测序错误率)(例如,与传统方法相比),和/或可以减少复杂(例如,高度复杂)基因组区域的测序时间(例如,与传统方法相比),和/或可以降低复杂基因组(例如,高度复杂)区域的测序成本(例如,与传统方法相比)。另外,本文提供的方法可以允许使用比基于CRISPR的标准方法更高的起始材料(例如,更高量的基因组DNA)。另外,本文提供了用于进行本文提供的方法的系统,以及包含CRISPR相关核酸内切酶和两种或更多种gRNA的切除感兴趣的基因组区域(例如,CYP2D6基因座(例如,从基因组DNA中切除CYP2D6基因座))的组合物和试剂盒。
除非上下文另外明确规定,否则如本文和所附权利要求中所用,单数形式“一个/种(a/an)”和“所述(the)”包括复数指代物。还应注意,权利要求书可以被撰写成排除任何可选要素。因此,此陈述旨在用作使用与权利要求要素的叙述有关的诸如“单独地”、“仅”的排他性术语或使用“否定”限制的先行基础。
本文以在数值之前加上术语“约”提供某些范围或数字。术语“约”在本文中用于意指所述术语所指代数字的正负1%、2%、3%、4%或5%。如本文所用,术语“对象”和“个体”可互换使用,并且可以是任何动物,包括哺乳动物(例如,人类或非人类动物)。
如本文所用,术语“CYP2D6”可以是指CYP2D6基因或其任何结构变体或单基因拷贝变体。CYP2D6的结构变体可以包括基因融合、与邻近高度同源假基因(例如,CYP2D7和CYP2D8)的杂交体、拷贝数变异(CNV)、基因复制和增殖、串联重复序列和重排。CYP2D6结构变体的一个实例是在CYP2D6的外显子9中存在CYP2D7衍生序列(称为“外显子9转化”)。单基因拷贝变体可以包括单核苷酸多态性(SNP)或核苷酸插入或缺失(插入缺失)。CYP2D6的等位基因可以是结构变体或单基因拷贝变体,包括但不限于以下中的任一种:*1、*1xN、*2、*2xN、*2A、*2AxN、*35、*35xN、*9、*9xN、*10、*10xN、*17、*17xN、*29、*29xN、*36-*10、*36-*10xN、*36xN-*10、*36xN-*10xN、*41、*41xN、*3、*3xN、*4、*4xN、*4N、*5、*6、*6xN、*36和*36xN。在一些情况下,CYP2D6的每个等位基因是不同的结构变体或单基因拷贝变体。在一些情况下,CYP2D6的每个等位基因是相同的。
如本文所用,术语“CYP2D6基因座”是指包含CYP2D6基因以及高度同源假基因CYP2D7和CYP2D8的基因组区域。在人类中,CYP2D6基因座位于22号染色体上。在一些实施方案中,本文提供的方法涉及分析(例如,测序、基因分型、进行结构分析)部分或整个CYP2D6基因座(例如,包含CYP2D6基因以及高度同源假基因CYP2D7和CYP2D8)。在一些实施方案中,本文提供的方法涉及从基因组DNA中切除部分或整个CYP2D6基因座(例如,包含CYP2D6基因以及高度同源假基因CYP2D7和CYP2D8)(例如,通过使用CRISPR相关核酸内切酶和两种或更多种靶向侧接CYP2D6基因座的基因组序列的gRNA)。
如本文所用,术语“CRISPR/Cas核酸酶系统”是指包含向导RNA(gRNA)和CRISPR相关核酸内切酶(Cas蛋白)的复合物。术语“CRISPR”可以是指规律间隔成簇短回文重复序列及其相关系统。CRISPR/Cas核酸酶系统可以是1类或2类CRISPR/Cas核酸酶系统。CRISPR/Cas核酸酶系统可以是I型、II型、III型、IV型、V型或VI型CRISPR/Cas核酸酶系统。gRNA可以与Cas蛋白相互作用,以将Cas蛋白的核酸酶活性引导至靶序列。靶序列可以包括“原间隔子”和“原间隔子相邻基序”(PAM),并且Cas介导的活性(例如,裂解)可能需要这两个结构域。gRNA可以与原间隔子相反链上的结合位点配对(或杂交),以将Cas引导至靶序列。PAM位点可以是指Cas蛋白所识别的短序列,并且在一些情况下,可能是Cas蛋白活性所需的。
如本文所用,术语“Cas”或“Cas蛋白”是指具有核酸内切酶活性的或衍生自CRISPR/Cas系统的蛋白质。在一些情况下,如本文所用,CRISPR相关核酸内切酶作为Cas蛋白。Cas蛋白可以是天然存在的Cas蛋白、非天然存在的Cas蛋白或其片段。在一些情况下,Cas蛋白是天然存在的Cas蛋白的变体(例如,相对于天然存在的Cas蛋白,具有一个或多个氨基酸取代、插入、缺失等)。在一些情况下,Cas蛋白是I类Cas蛋白,非限制性实例包括Cas3、Cas8a、Cas5、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Cas10、Csx11、Csx10和Csf1。在一些情况下,Cas蛋白是II类Cas蛋白,非限制性实例包括Cas9、Csn2、Cas4、Cas12a(Cpf1)、Cas12b(C2c1)、Cas12c(C2c3)、Cas13a(C2c2)、Cas13b、Cas13c和Cas13d。在一些情况下,Cas蛋白是Cas9。在一些情况下,Cas蛋白是Cas12a。
术语“向导RNA”或“gRNA”在本文中可互换使用,并且通常是指可以与Cas蛋白结合并有助于将Cas蛋白靶向至靶多核苷酸(例如,DNA)内特定位置的RNA分子(或总体上,一组RNA分子)。向导RNA可以包含CRISPR RNA(crRNA)区段,以及任选地反式激活crRNA(tracrRNA)区段。如本文所用,术语“crRNA”可以是指RNA分子或其部分,包含多核苷酸靶向向导序列、茎序列和任选地5’-突出序列。crRNA可以与结合位点结合。如本文所用,术语“tracrRNA”可以是指包含蛋白质结合区段的RNA分子或其部分(例如,所述蛋白质结合区段能够与CRISPR相关蛋白(例如,Cas9)相互作用)。术语“向导RNA”可以是指单个向导RNA(sgRNA),其中crRNA区段和任选的tracrRNA区段位于同一RNA分子中。术语“向导RNA”总体上也可以称为两个或更多个RNA分子的组,其中crRNA和tracrRNA位于单独的RNA分子中。
如本文所用,术语“长读长测序”(也称为“第三代测序”)通常是指能够生成比第二代测序明显更长的测序读长(>10,000bp)的任何测序方法。在一些实施方案中,本文提供的方法涉及使用长读长测序(例如,对感兴趣的复杂基因组区域进行基因分型)。长读长测序系统的非限制性实例包括由Pacific Biosciences、Oxford Nanopore Technology、Quantapore、Stratos和Helicos开发的系统。在一些情况下,长读长测序方法是单分子实时测序(SMRT)(例如,由Pacific Biosciences开发)。在一些情况下,长读长测序方法是纳米孔测序(例如,由Oxford Nanopore Technology开发的MinION、GridION和PromethION)。在一些情况下,长读长测序涵盖目前正在开发或将来开发的任何长读长测序方法或系统(例如,第三代测序方法或系统)。
如本文所用,术语“核酸扩增”通常是指由单个核酸分子生成靶核酸(例如,DNA)的多个拷贝的任何方法。靶核酸可以是DNA(例如,DNA扩增)或RNA(例如,RNA扩增)。核酸扩增包括聚合酶链式反应(PCR)及其任何和所有变体或修改,以及核酸扩增方法的可替代类型,诸如但不限于环介导的等温扩增(LAMP)、基于核酸序列的扩增(NASBA)、链置换扩增(SDA)、多重置换扩增(MDA)、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增和网状分枝扩增方法(RAM)。在本公开的各个方面,本文提供的方法不涉及使用核酸(例如,DNA)扩增(例如,无扩增)。
本公开的方法
本文的公开内容通常提供了一种用于富集并分析(例如,测序、基因分型、结构分析)感兴趣的基因组区域(例如,感兴趣的复杂基因组区域)的嵌套富集方法。在各个方面,所述方法包括使包含感兴趣的基因组区域(例如,感兴趣的复杂基因组区域)的基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和外向导RNA(gRNA)对接触,从而生成包含感兴趣的基因组区域的第一切除片段。在各个方面,所述方法还包括使所述第一切除片段与CRISPR相关核酸内切酶和内gRNA对接触,从而生成包含感兴趣的基因组区域的第二(例如,更小)切除片段。在各个方面,所述方法还包括分析(例如,测序、基因分型、结构分析)感兴趣的基因组区域(例如存在于所述第二切除片段中)。
在各个方面,所述方法涉及使包含感兴趣的基因组区域(例如,感兴趣的复杂基因组区域)的基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和外向导RNA(gRNA)对接触。所述外gRNA对可以包含第一外gRNA和第二外gRNA。
所述第一和第二外gRNA包含与基因组DNA中存在的核苷酸序列基本上互补的核苷酸序列。通常,所述第一和第二外gRNA与基因组DNA中存在的不同核苷酸序列基本上互补。选择所述第一和第二外gRNA序列,使得它们与侧接感兴趣的基因组区域的核苷酸序列基本上互补。例如,第一外gRNA可以与在感兴趣的基因组区域上游的核苷酸序列基本上互补,并且第二外gRNA可以与在感兴趣的基因组区域下游的核苷酸序列基本上互补,或者反之亦然。通常,使基因组DNA与CRISPR相关核酸内切酶和外gRNA对接触导致切除基因组DNA的含有感兴趣的基因组区域(例如,感兴趣的复杂基因组区域)的片段(例如,第一切除片段)。
所述第一和第二外gRNA可以与在碱基长度上距离(例如,上游和/或下游)感兴趣的基因组区域长达约30千碱基的核苷酸序列(例如,存在于基因组DNA中)基本上互补。例如,所述第一和第二外gRNA可以与在碱基长度上距离(例如,上游和/或下游)感兴趣的基因组区域长达至少约5千碱基、至少约10千碱基、至少约15千碱基、至少约20千碱基、至少约25千碱基或更远的核苷酸序列(例如,存在于基因组DNA中)基本上互补。
不希望受理论约束,认为在切除第一片段之后,CRISPR相关核酸内切酶和外gRNA对仍然与第一切除片段的5’末端和3’末端缔合并将其封闭。有利地,此特征可以用于去除背景基因组DNA。在一个优选实施方案中,第一切除片段(和剩余的基因组DNA)与一种或多种核酸外切酶接触。所述一种或多种核酸外切酶能够消化背景DNA,同时保持封闭的片段完整。所述一种或多种核酸外切酶可以选自:核酸外切酶I、核酸外切酶II、核酸外切酶III、核酸外切酶IV、核酸外切酶V、核酸外切酶VI、核酸外切酶VII、核酸外切酶VIII及其任何组合。
在各个方面,所述方法还包括使第一切除片段(例如,含有感兴趣的基因组区域)与CRISPR相关核酸内切酶和内gRNA对接触。在一些情况下,所述接触在第一切除片段(和剩余的基因组DNA)与一种或多种核酸外切酶接触之后发生,如本文所述。内gRNA对可以包含第一内gRNA和第二内gRNA。
所述第一和第二内gRNA包含与第一切除片段(例如,通过使基因组DNA与CRISPR相关核酸内切酶和外gRNA对接触而生成,如本文所述)中存在的核苷酸序列基本上互补的核苷酸序列。通常,所述第一和第二内gRNA与第一切除片段(例如,通过使基因组DNA与CRISPR相关核酸内切酶和外gRNA对接触而生成,如本文所述)中存在的不同核苷酸序列基本上互补。选择所述第一和第二内gRNA序列,使得它们与侧接感兴趣的基因组区域的核苷酸序列基本上互补。例如,第一内gRNA可以与在感兴趣的基因组区域上游的核苷酸序列基本上互补,并且第二内gRNA可以与在感兴趣的基因组区域下游的核苷酸序列基本上互补,或者反之亦然。通常,使含有感兴趣的基因组区域的第一切除片段(例如,通过使基因组DNA与CRISPR相关核酸内切酶和外gRNA对接触而生成,如本文所述)与CRISPR相关核酸内切酶和内gRNA对接触导致切除含有感兴趣的基因组区域的第二片段(例如,第二切除片段)。
所述第一和第二内gRNA可以与在碱基长度上距离(例如,上游和/或下游)感兴趣的基因组区域约0.06至约200千碱基的核苷酸序列(例如,存在于第一切除片段中)基本上互补。通常,内gRNA对是嵌套的,使得它们与在碱基长度上比外gRNA对更接近感兴趣的基因组区域的核苷酸序列基本上互补。换言之,当与CRISPR相关核酸内切酶结合使用时,如本文所述,内gRNA对从第一切除片段中切除一个较小的片段(例如,第二切除片段)。优选地,所述第二切除片段包含(例如,整个)感兴趣的基因组区域。
在各个方面,所述方法涉及分离包含感兴趣的基因组区域的基因组DNA。在一些实施方案中,所述方法涉及分离高分子量基因组DNA。在一些实施方案中,所述方法涉及富集高分子量基因组DNA。在一些实施方案中,所述高分子量基因组DNA的长度是至少10约千碱基。例如,所述高分子量基因组DNA的长度是至少约10千碱基、至少约15千碱基、至少约20千碱基、至少约30千碱基、至少约35千碱基、至少约40千碱基、至少约45千碱基、至少约50千碱基、至少约55千碱基、至少约60千碱基、至少约65千碱基、至少约70千碱基、至少约75千碱基、至少约80千碱基、至少约85千碱基、至少约90千碱基、至少约95千碱基或更大。在一些实施方案中,分离高分子量基因组DNA确保整个完整的感兴趣的基因组区域包含在样品中。在一些实施方案中,高分子量基因组DNA的分离和/或富集在第一CRISPR反应之前(例如,在基因组DNA与CRISPR相关核酸内切酶和外gRNA对接触之前)进行。在一些实施方案中,高分子量基因组DNA的分离和/或富集在第一CRISPR反应之后(例如,在基因组DNA与CRISPR相关核酸内切酶和外gRNA对接触之后)进行。
在各个方面,所述方法涉及用于分离高分子量基因组DNA的任何方法。用于分离高分子量基因组DNA的方法的非限制实例包括基因组DNA和RNA纯化系统(如由Takara Bio制造)和Nanobind CBB Big DNA试剂盒(如由Circulomics制造)。
在一些方面,分离包含感兴趣的基因组区域的基因组DNA可以在使基因组DNA与CRISPR相关核酸内切酶和向导RNA接触之前进行。在其他方面,分离包含感兴趣的基因组区域的基因组DNA可以在使基因组DNA与CRISPR相关核酸内切酶和向导RNA接触之后(例如,在从基因组DNA中切除感兴趣的基因组区域之后)进行。
在各个方面,所述方法中使用的基因组DNA的起始量大于基于CRISPR的方法中常用的起始量。在一些情况下,本文提供的任何方法中使用的基因组DNA的起始量是至少约1μg(例如,至少约5μg、至少约10μg、至少约20μg、至少约50μg、至少约100μg、至少约500μg或更多)。
在各个方面,感兴趣的基因组区域是复杂基因组区域或高度复杂基因组区域。在一些情况下,所述感兴趣的基因组区域是高多态性基因组区域。在一些情况下,所述感兴趣的基因组区域含有多个重复元件或区域。在一些情况下,所述感兴趣的基因组区域含有一个或多个靶基因和一个或多个与靶基因具有高序列同一性(例如,与靶基因具有至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大序列同一性)的额外基因。在一些情况下,所述感兴趣的基因组区域含有一个或多个靶基因和一个或多个与靶基因具有高序列同一性(例如,与靶基因具有至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%或更大序列同一性)的假基因。在一些情况下,所述感兴趣的基因组区域包含一个或多个重复区域、一个或多个重复、一个或多个插入、一个或多个倒位、一个或多个串联重复序列、一个或多个反转录转座子或其任何组合。在一些情况下,所述感兴趣的基因组区域是通常难以通过传统方法(例如,通过短读长测序方法)准确分析或准确分析起来具有挑战性的基因组区域。
在一些情况下,所述感兴趣的基因组区域的长度是至少约10千碱基。例如,所述感兴趣的基因组区域的长度可以是至少约10千碱基、至少约15千碱基、至少约20千碱基、至少约25千碱基、至少约30千碱基、至少约35千碱基、至少约40千碱基、至少约45千碱基、至少约50千碱基、至少约55千碱基、至少约60千碱基、至少约65千碱基、至少约70千碱基、至少约75千碱基、至少约80千碱基、至少约85千碱基、至少约90千碱基、至少约95千碱基、至少约100千碱基、至少约110千碱基、至少约120千碱基、至少约130千碱基、至少约140千碱基、至少约150千碱基、至少约160千碱基、至少约170千碱基、至少约180千碱基、至少约190千碱基、至少约200千碱基、至少约210千碱基、至少约220千碱基、至少约230千碱基、至少约240千碱基或至少约250千碱基。在一些方面,所述感兴趣的基因组区域的长度大于约10千碱基。在一些方面,所述感兴趣的基因组区域的长度小于约250千碱基。
所述CRISPR相关核酸内切酶可以是本文所述的任何CRISPR相关核酸内切酶。在一些情况下,所述CRISPR相关核酸内切酶是I类或II类CRISPR相关核酸内切酶。Cas I CRISPR相关核酸内切酶的非限制性实例包括Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。II类CRISPR相关核酸内切酶的非限制性实例包括Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶是Cas蛋白或多肽。在一些实施方案中,所述CRISPR相关核酸内切酶是Cas12a蛋白或多肽。
在一些实施方案中,所述CRISPR相关核酸内切酶是Cas9蛋白或多肽。在一些情况下,所述Cas9蛋白或多肽衍生自细菌物种酿脓链球菌。在一些情况下,所述Cas9蛋白或多肽具有与野生型Cas9氨基酸序列相同的氨基酸序列。在其他情况下,所述Cas9蛋白或多肽具有相对于野生型Cas9氨基酸序列进行修饰的氨基酸序列。在一些情况下,所述Cas9蛋白或多肽具有一个或多个突变(例如,相对于野生型Cas9蛋白或多肽)。在一些情况下,所述一个或多个突变是取代、缺失或插入。所述Cas9蛋白或多肽可以具有相对于野生型Cas9蛋白或多肽具有至少约50%序列同一性的氨基酸序列。例如,所述Cas9蛋白或多肽相对于野生型Cas9蛋白或多肽可以具有至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的序列同一性。在一些情况下,相对于野生型酿脓链球菌Cas9,所述Cas9变体可以包含一个或多个点突变。例如,相对于野生型酿脓链球菌Cas9,所述Cas9变体可以包含选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。
在各个方面,所述方法涉及使用gRNA(例如,外gRNA对和/或内gRNA对)。所述gRNA可以是CRISPR RNA(crRNA)或单向导RNA(sgRNA)。在一些实施方案中,所述gRNA包含与靶核苷酸序列互补或基本上互补的核苷酸序列,使得所述gRNA能够与靶核苷酸序列结合,并且将CRISPR复合物引导至所需切割位点。在一些实施方案中,所述gRNA(例如,内gRNA、外gRNA)中的每一种与不同的靶核苷酸序列结合。在一些实施方案中,所述gRNA中的至少一种与在感兴趣的基因组区域上游的区域互补或基本上互补,并且所述gRNA中的至少一种与在感兴趣的基因组区域下游的区域互补或基本上互补。例如,所述外gRNA中的至少一种与在感兴趣的基因组区域上游的区域互补或基本上互补,并且所述外gRNA中的至少一种与在感兴趣的基因组区域下游的区域互补或基本上互补。类似地,所述内gRNA中的至少一种与在感兴趣的基因组区域上游的区域互补或基本上互补,并且所述内gRNA中的至少一种与在感兴趣的基因组区域下游的区域互补或基本上互补。在一些实施方案中,所述gRNA对(例如,内gRNA对、外gRNA对)与侧接感兴趣的基因组区域的靶序列结合。通常,所述gRNA被设计成使得它们各自靶向在感兴趣的基因组区域之外的基因组序列,使得所述接触(例如,与CRISPR相关核酸内切酶和所述外或内gRNA对接触)切除整个感兴趣的基因组区域。
在各个方面,所述方法还涉及分析感兴趣的基因组区域。在一些情况下,所述分析包括对所述感兴趣的基因组区域进行基因分型。基因分型可以包括通过使用一种或多种测定来检查感兴趣的基因组区域的序列,并且在一些情况下将所述序列与另一个序列(例如,参考序列)进行比较来鉴定感兴趣的基因组区域的遗传组成差异的过程。基因分型可以通过任何已知方法进行,包括但不限于DNA测序、限制性片段长度多态性鉴定(RFLPI)、随机扩增多态性检测(RAPD)、扩增片段长度多态性检测(AFLPD)、聚合酶链式反应(PCR)、等位基因特异性寡核苷酸(ASO)探针以及与DNA微阵列或磁珠的杂交。在一些情况下,所述分析包括对所述感兴趣的基因组区域进行结构分析。
在一些情况下,所述分析包括对所述感兴趣的基因组区域进行测序。在一些情况下,所述测序是长读长测序方法(例如,第三代测序方法)。所述长读长测序方法可以是任何能够生成比短读长测序方法(例如,第二代测序方法)明显更长的测序读长的测序方法。在一些情况下,长读长测序方法是能够生成至少10,000千碱基的测序读长的测序方法。在一些情况下,长读长测序方法是单分子实时测序(例如,SMRT测序,Pacific Biosciences)。在一些情况下,长读长测序方法是纳米孔测序(例如,由Oxford Nanopore Technologies开发的MinION、GridION和PromethION)。在一些方面,在测序之前,所述方法还涉及将适配体(例如,测序适配体)连接至感兴趣的基因组区域的末端。在一些情况下,所述方法可以涉及适用于测序应用的任何其他处理方法,包括末端加尾步骤、去磷酸化步骤等。
在各个方面,本文提供的方法是无扩增的(例如,不涉及核酸扩增(例如,DNA扩增)步骤)。在一些情况下,本文提供的方法不涉及聚合酶链式反应(PCR)。在一些情况下,本文提供的方法不涉及等温扩增。在一些情况下,本文提供的方法不涉及以下中的任一种:环介导的等温扩增(LAMP)、基于核酸序列的扩增(NASBA)、链置换扩增(SDA)、多重置换扩增(MDA)、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法(RAM)。核酸扩增技术经常引入错误。有利地,本文提供的方法避免使用可能将错误引入测序模板中的核酸扩增方法。
在各个方面,所述方法不涉及将基因组DNA片段化、剪切或消化。在一些情况下,所述方法不涉及用例如限制性酶消化基因组DNA。换言之,所述方法直接对未被剪切、消化或片段化的基因组DNA进行。在其他情况下,所述方法涉及用核酸外切酶进行消化(例如,在基因组DNA与CRISPR相关核酸内切酶和外gRNA对接触,例如以去除背景基因组DNA之后,如本文所述)。
在各个方面,复杂基因组区域包含靶基因以及一个或多个对靶基因具有高序列同一性的假基因。在一些情况下,所述一个或多个假基因对靶基因可以具有至少约75%(例如,至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)的序列同一性。在一个特定方面,遗传基因座包含靶基因CYP2D6以及假基因CYP2D7和CYP2D8。
在各个方面,复杂基因组区域包含靶基因以及一个或多个对靶基因具有高序列同一性的额外基因。在一些情况下,所述一个或多个额外基因对靶基因可以具有至少约75%(例如,至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)的序列同一性。在一个特定方面,遗传基因座包含基因CYP2C8、CYP2C9、CYP2C18和CYP2C19。在一些情况下,遗传基因座通常难以通过传统方法(例如,通过短读长测序方法)准确测序或准确测序起来具有挑战性。
在各个方面,所述复杂基因组区域是高多态性遗传基因座。在各个方面,所述复杂基因组区域包含一个或多个重复区域、一个或多个重复、一个或多个插入、一个或多个倒位、一个或多个串联重复序列、一个或多个反转录转座子或其任何组合。
在一些情况下,所述感兴趣的复杂基因组区域的长度是至少约10千碱基。例如,所述感兴趣的基因组区域的长度可以是至少约10千碱基、至少约15千碱基、至少约20千碱基、至少约25千碱基、至少约30千碱基、至少约35千碱基、至少约40千碱基、至少约45千碱基、至少约50千碱基、至少约55千碱基、至少约60千碱基、至少约65千碱基、至少约70千碱基、至少约75千碱基、至少约80千碱基、至少约85千碱基、至少约90千碱基、至少约95千碱基、至少约100千碱基、至少约110千碱基、至少约120千碱基、至少约130千碱基、至少约140千碱基、至少约150千碱基、至少约160千碱基、至少约170千碱基、至少约180千碱基、至少约190千碱基、至少约200千碱基、至少约210千碱基、至少约220千碱基、至少约230千碱基、至少约240千碱基或至少约250千碱基。在一些方面,所述感兴趣的基因组区域的长度大于约10千碱基。在一些方面,所述感兴趣的基因组区域的长度小于约250千碱基。
在一些情况下,所述gRNA中的至少一种(例如,第一外gRNA、第二外gRNA、第一内gRNA和第二内gRNA中的至少一种)包含根据以下表1中提供的任何核苷酸序列(例如,SEQID NO:1-418)的核苷酸序列。在一些情况下,所述gRNA中的至少一种(例如,第一外gRNA、第二外gRNA、第一内gRNA和第二内gRNA中的至少一种)包含与以下表1中提供的任何核苷酸序列(例如,SEQ ID NO:1-418)具有至少约90%(例如,至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)序列同一性的核苷酸序列。在一些实施方案中,对于gRNA对,选择第一gRNA,使得它与基因组DNA上存在的在CYP2D6上游的核苷酸序列互补或基本上互补,并且选择第二gRNA,使得它与基因组DNA上存在的在CYP2D8下游的核苷酸序列互补或基本上互补。表1提供了可以在本公开中使用(例如,以切除含有整个CYP2D6基因座的基因组DNA的片段)的gRNA的非限制性列表以及相对于CYP2D6基因座的位置(例如,CYP2D6的上游或CYP2D8的下游)。在一些情况下,第一gRNA包含SEQ ID NO:1、2、13-16、27-67、78-81和215-343中任一个的核苷酸序列,或与SEQ IDNO:1、2、13-16、27-67、78-81和215-343中的任一个具有至少90%序列同一性(例如,至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)的核苷酸序列。在一些情况下,第二gRNA包含SEQ ID NO:3-12、17-26、68-77、82-214、344-418中任一个的核苷酸序列,或与SEQ ID NO:3-12、17-26、68-77、82-214和344-418中的任一个具有至少90%序列同一性(例如,至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)的核苷酸序列。在一些情况下,所述gRNA中的至少一种是crRNA。在一些情况下,所述gRNA中的至少一种是sgRNA。
表1.向导RNA序列
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
/>
在各个方面,所述方法还包括鉴定CYP2D6中的一个或多个遗传变异。在一些情况下,所述遗传变异是CYP2D6中的药理遗传学相关变异(例如,星形等位基因单倍型)。在一些情况下,所述遗传变异是CYP2D6中的结构变异。在一些情况下,基于所述遗传变异,对象被鉴定为具有CYP2D6功能的减少或丧失。在一些情况下,对象被鉴定为具有CYP2D6功能的增加或增益。
在各个方面,所述方法还包括基于所述鉴定,为所述对象推荐治疗。在各个方面,所述方法还包括基于所述鉴定,治疗所述对象。在各个方面,所述方法涉及基于所述鉴定,推荐替代性治疗。在各个方面,所述方法涉及基于所述鉴定,推荐药物的剂量。在各个方面,所述方法涉及改变施用于对象的药物(例如,通过CYP2D6进行激活或代谢)的剂量(或推荐改变剂量)。在一些情况下,所述药物(或治疗剂)是通过CYP2D6进行激活或代谢的药物。
组合物和试剂盒
在一方面,本文提供了组合物和试剂盒,其包含:(a)规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶;(b)外gRNA对,所述外gRNA对包含:(i)包含与基因组DNA中存在的第一核苷酸序列基本上互补的核苷酸序列的第一外gRNA,所述第一核苷酸序列在感兴趣的基因组区域的上游;和(ii)包含与基因组DNA中存在的第二核苷酸序列基本上互补的核苷酸序列的第二外gRNA,所述第二核苷酸序列在所述感兴趣的基因组区域的下游;(c)内gRNA对,所述内gRNA对包含:(iii)包含与基因组DNA中存在的第三核苷酸序列基本上互补的核苷酸序列的第一内gRNA,所述第三核苷酸序列在所述感兴趣的基因组区域的上游;和(iv)包含与基因组DNA中存在的第四核苷酸序列基本上互补的核苷酸序列的第二内gRNA,所述第四核苷酸序列在所述感兴趣的基因组区域的下游,其中所述第三核苷酸序列和所述第四核苷酸序列以比所述第一核苷酸序列和所述第二核苷酸序列更接近所述感兴趣的基因组区域的碱基长度存在于所述基因组DNA上。
在一些情况下,所述组合物和/或试剂盒还包含核酸外切酶。所述核酸外切酶可以选自:核酸外切酶I、核酸外切酶II、核酸外切酶III、核酸外切酶IV、核酸外切酶V、核酸外切酶VI、核酸外切酶VII和核酸外切酶VIII。
所述CRISPR相关核酸内切酶可以是本文所述的任何CRISPR相关核酸内切酶。在一些情况下,所述CRISPR相关核酸内切酶是I类或II类CRISPR相关核酸内切酶。Cas I CRISPR相关核酸内切酶的非限制性实例包括,II类CRISPR相关核酸内切酶的非限制性实例包括Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。在一些情况下,所述CRISPR相关核酸内切酶是Cas蛋白或多肽。在一些实施方案中,所述CRISPR相关核酸内切酶是Cas12a蛋白或多肽。
在一些实施方案中,所述CRISPR相关核酸内切酶是Cas9蛋白或多肽。在一些情况下,所述Cas9蛋白或多肽衍生自细菌物种酿脓链球菌。在一些情况下,所述Cas9蛋白或多肽具有与野生型Cas9氨基酸序列相同的氨基酸序列。在其他情况下,所述Cas9蛋白或多肽具有相对于野生型Cas9氨基酸序列进行修饰的氨基酸序列。在一些情况下,所述Cas9蛋白或多肽具有一个或多个突变(例如,相对于野生型Cas9蛋白或多肽)。在一些情况下,所述一个或多个突变是取代、缺失或插入。所述Cas9蛋白或多肽可以具有相对于野生型Cas9蛋白或多肽具有至少约50%序列同一性的氨基酸序列。例如,所述Cas9蛋白或多肽相对于野生型Cas9蛋白或多肽可以具有至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%的序列同一性。在一些情况下,相对于野生型酿脓链球菌Cas9,所述Cas9变体可以包含一个或多个点突变。例如,相对于野生型酿脓链球菌Cas9,所述Cas9变体可以包含选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。
在一些情况下,所述感兴趣的基因组区域是包含CYP2D6、CYP2D7和CYP2D8的遗传基因座。在一些情况下,所述gRNA中的至少一种(例如,第一内gRNA、第二内gRNA、第一外gRNA和第二外gRNA中的至少一种)包含根据表1中提供的任何核苷酸序列(例如,SEQ IDNO:1-418)的核苷酸序列。在一些情况下,所述gRNA中的至少一种(例如,第一内gRNA、第二内gRNA、第一外gRNA和第二外gRNA中的至少一种)包含与表1中提供的任何核苷酸序列(例如,SEQ ID NO:1-418)具有至少约90%(例如,至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)序列同一性的核苷酸序列。在一些情况下,所述gRNA中的至少一种是crRNA。在一些情况下,所述gRNA中的至少一种是sgRNA。在一些情况下,所述第一外向导RNA、所述第一内向导RNA或两者包含SEQID NO:3-12、17-26、68-77、82-214和344-418中的任一个的核苷酸序列。在一些情况下,所述第二外向导RNA、所述第二内向导RNA或两者包含SEQ ID NO:1、2、13-16、27-67、78-81和215-343中的任一个的核苷酸序列。
在一些方面,所述试剂盒还包括用于在本文提供的任何方法中使用试剂盒的说明书。在一些情况下,所述试剂盒还包括用于在嵌套CRISPR反应中使用试剂盒的说明书(例如,如本文所述)。在一些情况下,所述试剂盒还包括用于在一种方法中使用所述试剂盒来从基因组DNA中切除所述感兴趣的基因组区域的说明书(例如,如本文所述)。在一些情况下,所述试剂盒还包括用于在一种方法中使用所述试剂盒来从基因组DNA中切除CYP2D6基因座的说明书(例如,如本文所述)。
对象和生物样品
对象可以提供用于遗传分析的生物样品。生物样品可以是由对象产生的任何物质。通常,生物样品是取自对象的任何组织或由对象产生的任何物质。生物样品可以是体液,诸如血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳等。生物样品可以是细胞和/或固体组织(例如,脸颊组织(例如,来自脸颊拭子)、粪便、皮肤、毛发、器官组织等)。在一些情况下,生物样品是实体瘤或实体瘤的活检。在一些情况下,生物样品是福尔马林固定的石蜡包埋(FFPE)组织样品。生物样品可以是包含基因组DNA的任何生物样品。
生物样品可以衍生自对象。对象可以是哺乳动物、爬行动物、两栖动物、鸟类或鱼类。哺乳动物可以是人、猿、猩猩、猴子、黑猩猩、牛、猪、马、啮齿动物、鸟、爬行动物、狗、猫或其他动物。爬行动物可以是蜥蜴、蛇、短吻鳄、海龟、鳄鱼和乌龟。两栖动物可以是蟾蜍、青蛙、蝾螈和火蜥蜴。鸟类的实例包括但不限于鸭子、鹅、企鹅、鸵鸟和猫头鹰。鱼类的实例包括但不限于鲶鱼、鳗鱼、鲨鱼和箭鱼。优选地,所述对象是人。所述对象可以患有疾病或病症。所述对象可以被开出治疗剂。所述治疗剂可以是通过CYP2D6进行激活和/或代谢的治疗剂。
本公开的系统
本文还提供了用于进行本文提供的方法的系统。在一方面,提供了一种系统,其包括:(a)被配置为接收数据输入的至少一个存储位置,所述数据输入包括由本文所述的任何方法生成的数据;和(b)可操作地耦合到所述至少一个存储位置的计算机处理器,其中所述计算机处理器被编程为基于所述数据生成输出。
在各个方面,所述输出是报告。在各个方面,所述输出是所述感兴趣的复杂基因组区域的基因型。在各个方面,所述输出是所述感兴趣的复杂基因组区域的遗传序列。在各个方面,所述输出是所述感兴趣的复杂基因组区域的结构分析。在各个方面,所述分析包括对所述感兴趣的复杂基因组区域进行基因分型。在各个方面,所述分析包括对所述感兴趣的复杂基因组区域进行结构分析。在各个方面,所述分析包括对所述感兴趣的复杂基因组区域进行测序。
在各个方面,所述输出鉴定CYP2D6中的遗传变异。在各个方面,所述输出鉴定CYP2D6功能的减少、丧失或增加。在各个方面,所述报告基于所述遗传变异为所述对象推荐治疗。在各个方面,所述报告基于所述遗传变异为所述对象推荐治疗剂的剂量。在各个方面,所述报告基于所述遗传变异改变治疗剂的剂量。在一些情况下,所述治疗剂是通过CYP2D6进行激活或代谢的治疗剂。
本公开还提供了用于进行本文所述的方法的基于计算机的系统。在一些方面,所述系统可以用于分析由本文提供的方法生成的数据。所述系统可以包括一个或多个客户端组件。所述一个或多个客户端组件可以包括用户界面。所述系统可以包括一个或多个服务器组件。所述服务器组件可以包括一个或多个存储位置。所述一个或多个存储位置可以被配置为接收数据输入。所述数据输入可以包括测序数据。所述测序数据可以由来自对象的核酸样品(例如,基因组DNA)生成。已经描述了适合与本公开的系统一起使用的测序数据的非限制性实例。所述系统还可以包括一个或多个计算机处理器。所述一个或多个计算机处理器可以可操作地耦合到所述一个或多个存储位置。所述一个或多个计算机处理器可以被编程为生成用于在屏幕上显示的输出。所述输出可以包括一个或多个报告。
本文所述的系统可以包括一个或多个客户端组件。所述一个或多个客户端组件可以包括一个或多个软件组件、一个或多个硬件组件或其组合。所述一个或多个客户端组件可以通过一个或多个服务器组件访问一个或多个服务器。一个或多个服务器可以通过网络由一个或多个客户端组件进行访问。所述网络可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。在一些情况下,所述网络是电信和/或数据网络。网络可以包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在一些情况下,借助于计算机系统,所述网络可以实现对等网络,这可以使耦合到计算机系统的装置表现为客户端或服务器。
所述系统可以包括一个或多个存储位置(例如,随机存取存储器、只读存储器、闪存)、电子存储单元(例如,硬盘)、用于与一个或更多个其他系统通信的通信接口(例如,网络适配器)以及外围装置,诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器、存储单元、接口和外围装置通过通信总线(诸如主板)与CPU通信。存储单元可以是用于存储数据的数据存储单元(或数据储存库)。在一个实例中,一个或多个存储位置可以存储接收的测序数据。
所述系统可以包括一个或多个计算机处理器。所述一个或多个计算机处理器可以可操作地耦合到所述一个或多个存储位置,例如以访问储存的数据。所述一个或多个计算机处理器可以实现机器可执行代码来进行本文所述的方法。
可以用软件的形式提供机器可执行或机器可读代码。在使用期间,代码可以由处理器执行。在一些情况下,代码可以从存储单元中取回并储存在存储器上以供处理器访问。在一些情况下,可以排除电子存储单元,而将机器可执行指令储存在存储器上。
代码可以被预编译和配置成与具有适于执行代码的处理器的机器一起使用,可以在运行时编译或者可以在运行时解释。可以用编程语言提供代码,可以选择所述编程语言以使代码能够以预编译、编译或解释的方式执行。
本文提供的系统和方法的方面,诸如计算机系统,可以在编程中实现。所述技术的各个方面可以被认为是“产品”或“制品”,通常是机器(或处理器)可执行代码和/或相关数据的形式,其被承载或体现在一种类型的机器可读介质中。机器可执行代码可以储存在电子存储单元(诸如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘)上。“存储”类型的介质可以包括计算机、处理器等的任何或所有有形存储器或其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以在任何时候为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如,此类通信可以使得能够将软件从一台计算机或处理器加载到另一台计算机或处理器中,例如,从管理服务器或主计算机加载到应用服务器的计算机平台中。因此,可以承载软件元件的另一种类型的介质包括光、电和电磁波,诸如通过有线和光学陆线网络以及各种空中链路在本地装置之间的物理接口上使用的。携带此类波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所用,除非限于非临时性的、有形的“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质(诸如计算机可执行代码)可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如,光盘或磁盘,诸如任何一个或多个计算机等中的任何存储装置,诸如可以用于实现附图中所示的数据库等。易失性存储介质包括动态存储器,诸如这种计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的电线。载波传输介质可以采取电信号或电磁信号的形式,或者声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间产生的那些声波或光波。因此,计算机可读介质的常见形式包括例如:软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒式磁带、传输数据或指令的载波、传输这种载波的电缆或链路,或者计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。
本文公开的系统可以包括一个或多个电子显示器或与一个或多个电子显示器通信。电子显示器可以是计算机系统的一部分,或者直接或通过网络耦合到计算机系统。计算机系统可以包括用于提供本文公开的各种特性和功能的用户界面(UI)。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。UI可以提供交互式工具,用户可以通过所述交互式工具利用本文所述的方法和系统。以实例的方式,如本文设想的UI可以是基于网络的工具,通过所述工具,医疗保健从业者可以要求基因测试,自定义待测试的遗传变体列表,并且接收和查看报告。
本文公开的方法可以包括生物医学数据库、基因组数据库、生物医学报告、疾病报告、病例对照分析和基于来自一个或多个数据库的数据和/或信息的罕见变体发现分析、一个或多个测定、一个或多个数据或结果、基于或衍生自一个或多个测定的一个或多个输出、基于或衍生自一个或多个数据或结果的一个或多个输出或其组合。
如本文所述,一个或多个计算机处理器可以实现机器可执行代码来进行本公开的方法。机器可执行代码可以包括任意数量的开源或闭源软件。可以实现机器可执行代码来分析数据输入。输入的数据可以是由一个或多个测序反应生成的测序数据。计算机处理器可以可操作地耦合到至少一个存储位置。计算机处理器可以从至少一个存储位置访问数据(例如,测序数据)。在一些情况下,计算机处理器可以实现机器可执行代码以将测序数据映射到参考序列。在一些情况下,计算机处理器可以实现机器可执行代码以确定测序数据中是否存在遗传变体。在一些情况下,计算机处理器可以实现机器可执行代码以生成用于在屏幕上显示的输出(例如,报告)。
机器可执行代码可以包括一种或多种算法。所述一种或多种算法可以用于实现本公开的方法。
本公开的系统可以包括一个或多个计算机系统。图16示出了计算机系统(本文也称为“系统”)1601,其被编程或以其他方式被配置为实现本公开的方法,诸如接收数据和基于所述数据产生输出。系统1601包括中央处理单元(CPU,本文也称为“处理器”和“计算机处理器”)1605,其可以是单核或多核处理器,或者用于并行处理的多个处理器。系统1601还包括存储器1610(例如,随机存取存储器、只读存储器、闪存)、电子存储单元1615(例如,硬盘)、用于与一个或多个其他系统通信的通信接口1620(例如,网络适配器)以及外围装置1625,诸如高速缓存、其他存储器、数据存储和/或电子显示适配器。存储器1610、存储单元1615、接口1620和外围装置1625通过通信总线(实线)(诸如主板)与CPU 1605通信。存储单元1615可以是用于存储数据的数据存储单元(或数据储存库)。借助于通信接口1620,系统1601可操作地耦合到计算机网络(“网络”)1630。网络1630可以是因特网、互联网和/或外联网,或者与因特网通信的内联网和/或外联网。在一些情况下,网络1630是电信和/或数据网络。网络1630可以包括一个或多个计算机服务器,其可以实现分布式计算,诸如云计算。在一些情况下,借助于系统1601,网络1630可以实现对等网络,这可以使耦合到系统1601的装置表现为客户端或服务器。
系统1601与处理系统1640通信。处理系统1640可以被配置为实现本文公开的方法,诸如将测序数据映射到参考序列或为遗传变体分配分类。处理系统1640可以通过网络1630或通过直接(例如,有线、无线)连接与系统1601通信。处理系统1640可以被配置用于分析,诸如核酸序列分析。
如本文所述的方法和系统可以通过储存在系统1601的电子存储位置上(例如像,储存在存储器1610或电子存储单元1615上)的机器(或计算机处理器)可执行代码(或软件)来实现。在使用期间,代码可以由处理器1605执行。在一些实例中,代码可以从存储单元1615中取回并储存在存储器1610上以供处理器1605访问。在一些情况下,可以排除电子存储单元1615,并且机器可执行指令储存在存储器1610上。
代码可以被预编译和配置成与具有适于执行代码的处理器的机器一起使用,可以在运行时编译或者可以在运行时解释。可以用编程语言提供代码,可以选择所述编程语言以使代码能够以预编译、编译或解释的方式执行。
本文提供的系统和方法的方面可以在编程中体现。所述技术的各个方面可以被认为是“产品”或“制品”,通常是机器(或处理器)可执行代码和/或相关数据的形式,其被承载或体现在一种类型的机器可读介质中。机器可执行代码可以储存在电子存储单元(诸如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘)上。“存储”类型的介质可以包括计算机、处理器等的任何或所有有形存储器或其相关模块,诸如各种半导体存储器、磁带驱动器、磁盘驱动器等,它们可以在任何时候为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或各种其他电信网络进行通信。例如,此类通信可以使得能够将软件从一台计算机或处理器加载到另一台计算机或处理器中,例如,从管理服务器或主计算机加载到应用服务器的计算机平台中。因此,可以承载软件元件的另一种类型的介质包括光、电和电磁波,诸如通过有线和光学陆线网络以及各种空中链路在本地装置之间的物理接口上使用的。携带此类波的物理元件,诸如有线或无线链路、光链路等,也可以被认为是承载软件的介质。如本文所用,除非限于非临时性的、有形的“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。
因此,机器可读介质(诸如计算机可执行代码)可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如,光盘或磁盘,诸如任何一个或多个计算机等中的任何存储装置,诸如可以用于实现数据库等。易失性存储介质包括动态存储器,诸如这种计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的电线。载波传输介质可以采取电信号或电磁信号的形式,或者声波或光波的形式,诸如在射频(RF)和红外(IR)数据通信期间产生的那些声波或光波。因此,计算机可读介质的常见形式包括例如:软盘、软磁盘、硬盘、磁带、任何其他磁介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、穿孔卡片纸带、具有孔图案的任何其他物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒式磁带、传输数据或指令的载波、传输这种载波的电缆或链路,或者计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可以涉及将一个或多个指令的一个或多个序列传送到处理器以供执行。
计算机系统1601可以包括电子显示器或与电子显示器通信,所述电子显示器包括用户界面(UI)。UI的实例包括但不限于图形用户界面(GUI)和基于网络的用户界面。
在一些实施方案中,系统1601包括向用户提供视觉信息的显示器。在一些实施方案中,显示器是阴极射线管(CRT)。在一些实施方案中,显示器是液晶显示器(LCD)。在另外的实施方案中,显示器是薄膜晶体管液晶显示器(TFT-LCD)。在一些实施方案中,显示器是有机发光二极管(OLED)显示器。在各种另外的实施方案中,OLED显示器是无源矩阵OLED(PMOLED)或有源矩阵OLED(AMOLED)显示器。在一些实施方案中,显示器是等离子体显示器。在其他实施方案中,显示器是视频投影仪。在又另外的实施方案中,显示器是诸如本文公开的那些装置的组合。显示器可以向终端用户提供一个或多个如通过本文所述的方法生成的生物医学报告。
在一些实施方案中,系统1601包括从用户接收信息的输入装置。在一些实施方案中,输入装置是键盘。在一些实施方案中,输入装置是定点装置,通过非限制性实例的方式,包括鼠标、轨迹球、轨迹板、操纵杆、游戏控制器或触控笔。在一些实施方案中,输入装置是触摸屏或多点触摸屏。在其他实施方案中,输入装置是麦克风,用于捕获语音或其他声音输入。在其他实施方案中,输入装置是摄像机,用于捕获运动或视觉输入。在又另外的实施方案中,输入装置是诸如本文公开的那些装置的组合。
系统1601可以包括一个或多个数据库或可操作地耦合到一个或更多个数据库。数据库可以包括基因组、蛋白质组、药物基因组、生物医学和科学数据库。数据库可以是公开可用的数据库。可替代地或另外,数据库可以包括专有数据库。数据库可以是商业可用的数据库。数据库包括但不限于MendelDB、PharmGKB、Varimed、Regulome、curated BreakSeqjunctions、在线人类孟德尔遗传数据库(OMIM)、人类基因组突变数据库(HGMD)、NCBIdbSNP、NCBI RefSeq、GENCODE、GO(基因本体)和京都基因和基因组大百科全书(KEGG)。
数据可以在包括与数据用户相同的国家的地理位置中产生和/或传送。例如,数据可以从一个国家的地理位置中产生和/或传送,而数据用户可以存在于不同的国家。在一些情况下,由本公开的系统访问的数据可以从多个地理位置之一传送至用户。数据可以例如通过网络、安全网络、不安全网络、互联网或内联网在多个地理位置之间来回传送。
实施例
给出以下实施例是出于说明本公开的各种实施方案的目的,并不意味着以任何方式限制本公开。本发明的实施例连同本文所述的方法目前代表优选实施方案,是示例性的,并且不旨在作为对本公开的实施方案范围的限制。本领域技术人员将会想到其中的变化和如由权利要求的范围定义的本公开精神内涵盖的其他用途。
实施例1.
CYP2D6和临床测试
CYP2D6遗传结构:CYP2D6是小基因(4382bp),并且具有九个外显子。然而,由于基因座内存在高度相似的非功能性CYP2D7和CYP2D8假基因,因此对此高多态性基因座的遗传分析是困难的,如图1所示。CYP2D6与CYP2D7之间的相似性以及大重复区域的存在不仅生成了基因缺失和基因重复,而且还生成了含有3'CYP2D7和5'CYP2D6或3'CYP2D6和5'CYP2D7的复杂基因杂交体。目前,需要多种测试测定来检测这些结构变异的存在。
目前的测试平台:分析CYP2D6的一种常用方法是对长程等位基因特异性PCR产物进行序列分析。简而言之,采用等位基因特异性引物来扩增靶向区域。在PCR产物上发现的单核苷酸变体(SNV)代表此等位基因的单倍型。等位基因特异性扩增子也可以由重复基因拷贝以及CYP2D6-2D7和CYP2D7-2D6杂交基因生成。最近,长读长测序技术,诸如单分子实时(SMRT)测序或纳米孔测序也已经用于更准确地表征CYP2D6单倍型;然而,长读长CYP2D6测序的文库生成仍然存在局限性。目前用于生成用于测序的CYP2D6模板的XL-PCR反应受到可以生成的产物大小的限制,具有引物特异性,并且不能捕获复杂杂交体或许多已知的CNV,除非变异先前已经被表征并且已知存在于感兴趣的样品中。
总之,CYP2D6是一种高多态性基因,直接参与所有处方药中~25%的代谢。基因的遗传变异,包括拷贝数变化,可以直接影响患者的药物代谢状态。包括拷贝数的准确基因型至关重要,并且目前的技术无法完全测定基因区域的复杂性。
本文提出了一种利用CRISPR/Cas9技术和位点特异性适配体连接结合长读长测序来开发用于CYP2D6分析的诊断质量方法的方法。所述方法利用单个样品不可知的CRISPR裂解步骤来分离整个CYP2D6基因座以进行长读长测序。此方法能够准确地检测单核苷酸多态性(SNP)和CNV,并且分配可能最准确的分期CYP2D6基因型和代谢物状态。
CRISPR技术可以用于靶向和切除体外和体内感兴趣的基因组区域(ROI)。简而言之,当CRISPR-C相关蛋白9(Cas9)与合成生成的靶标特异性向导RNA(sgRNA)复合时,在与向导RNA的靶标特异性序列互补的序列上产生双链切割。通过设计sgRNA来靶向ROI两个末端的序列,CRISPR-Cas9可以用于切除DNA,其长度可以长达兆碱基。
长读长测序:虽然短读长下一代测序(NGS)的发展彻底改变了人类遗传学,但也充分认识到了其局限性。分离的HMW DNA片段的长读长测序最近引起了人们的兴趣,因为它允许人们获得分期信息,鉴定小的结构变异并更好地组装基因组的高复杂性区域,包括串联重复序列。使用CRISPR技术以靶标特异性方式分离DNA片段提供了一种创新且简明的方法来靶向基因组的相关区域以进行长读长测序。
GeT-RM队列:作为系统性表征CYP2D6基因结构的主要工作的一部分,已经提供了CYP2D6基因分型数据,以建立一套最先进的表征良好的参考材料,用于测定开发、验证、质量控制和能力测试。这项工作是与基于遗传测试参考材料协调计划的疾病控制和预防中心的遗传测试参考材料协调计划(GeT-RM)、科里尔医学研究所以及其他PGx社区成员合作进行的。作为此研究的一部分,对含有复杂结构排列和/或罕见CYP2D6基因型的几个样品提供了基于PharmacoscanTM的CYP2D6基因分型。此数据与基于XL-PCR的NGS分析相结合,用于确定这些样品在当前的分析方法的情况下可能最准确的基因型。所有细胞系的信息以及一致性基因分型和注释数据为验证所提出的新测序和分析方法奠定了基础。
研究设计和方法
目标1(方法开发):(a)优化特定的CRISPR/Cas9方法,用于创建含有在基因组人DNA(例如,血液样品)中用于后续大小分析(例如,凝胶)的CYP2D6-D7基因组基因座的高分子量DNA区段。(b)分离/富集靶向区域并生成用于测序的XL文库。(c)建立NGS方法,用于CYP2D6-D7基因组基因座中基因组变体的长模板测序(例如,PacBio、MinION)。所提出的工作流程的概述在图2中描绘。
HMW DNA的分离:ROI(CYP2D6和CYP2D7)的正常长度是28-35kb。为了确保用于下游分析的整个ROI是完整的,使用基因组DNA和RNA纯化系统开发了一种方案,以分离高分子量gDNA(高达70kb)。经修改的方案能够提取分子量>50kb的gDNA,而用其他方法观察到的范围为10kb-50kb(图3)。
高特异性sgRNA的设计和验证:由于CYP2D6基因座的复杂性和高多态性,传统PCR和基于阵列的技术需要多种测定来进行CNV和SNP分析。仅靶向CYP2D6基因的CRISPR Cas9方法无法捕获含有结构变异的等位基因,诸如D6/D7杂交等位基因或CYP2D6重复事件。为了克服这一限制,鉴定了侧接涵盖CYP2D6和CYP2D7两者的区域的独特序列。通过设计靶向这些独特区域的sgRNA,进行一次CRISPR/Cas9裂解反应以分离整个CYP2D6/CYP2D7区域(图4A)。
为了确认sgRNA的特异性和功效,由gDNA生成含有靶向sgRNA结合位点的XL-PCR产物。将XL-PCR产物与Cas9且没有sgRNA(图4B,样品A)或Cas9和不同的sgRNA(图4B,样品B和C)一起温育。将所有与Cas9和sgRNA一起温育的PCR产物裂解以产生预期大小的DNA片段,但不同的sgRNA显示出不同程度的裂解效率。
基因组DNA中CYP2D6-CYP2D7基因座的切割:sgRNA必须以高效率和特异性与gDNA结合,所述gDNA可能含有脱靶识别位点。为了询问CRISPR切割效率和特异性,将基因组DNA与Cas9且没有sgRNA(阴性对照)或Cas9和切割CYP2D6的5’和CYP2D7的3’的两个sgRNA池一起温育。用侧接每个预测裂解位点的引物进行PCR反应。如果sgRNA与正确的结合位点结合并发生裂解,则预期PCR产物会减少。事实上,这就是所观察到的(图5A,图5B)。还使用在sgRNA结合位点内部的引物对CYP2D6基因座进行PCR,以确定Cas9介导的脱靶裂解是否发生在CYP2D6基因内。没有观察到CYP2D6内脱靶裂解的证据(图5A,图5B)。
总之,通过XL-PCR和基因组DNA询问证明了Cas9-sgRNA复合物以高效率在靶向CYP2D6-CYP2D7基因座的两侧进行切割,并且在基因座内没有显著的脱靶活性。裂解创建了预测的28kb片段,所述片段可以用于在富集之后进行下游长读长NGS。
实施例2.CRISPR/Cas9方法的进一步优化
开发并测试了其他sgRNA和Cas酶。使用标准软件来鉴定和设计如上所述测试的sgRNA。目标是获得以高效率和特异性裂解ROI的sgRNA。优先考虑较短但仍然含有完整ROI的DNA片段。较短的片段可能具有降低测序和处理成本的益处。还尝试用CRISPR Cas12a酶裂解同一区域。Cas12a核酸内切酶的功能与Cas9相似,但具有不同的PAM序列要求(TTTV),并在裂解之后产生5’交错突出。相比之下,Cas9产生钝端。这对于后续步骤很重要。
实施例3.基因组DNA中CYP2D6-CYP2D7基因座的富集
作为概念验证,用靶向CYP2D6的5’和CYP2D7的3’裂解位点的Cas9-sgRNA切割5μggDNA,如上所述。使用0.75%琼脂糖凝胶盒在BluePippen(Sage Science)仪器上运行裂解的DNA,所述琼脂糖凝胶盒允许在1-50kb范围内进行大小选择。使用PCR确认洗脱样品含有所需的CYP2D6-CYP2D7基因座。虽然这种基于凝胶的方法允许分离HMW样品,但也存在几个缺点,包括时间(每次Blue Pippen运行~10-12小时),样品数量有限(每次运行4-5个样品),材料损失显著/回收率差以及每个样品的成本高(~$50.00)。
为了克服这些限制,测试了几种靶标富集方法。这允许鉴定各种方法的优缺点,并最终鉴定最适合用于进一步临床测试开发的方法。这是临床诊断测试开发的典型方法。以下对长读长测序的讨论是指牛津纳米孔(ONT)测序;然而,任何方案都可以通过少量修改进行调整,以适应PacBio测序要求。
方法1:靶标的无扩增富集
DNA制备:这种无扩增文库制备方法涉及DNA样品的去磷酸化和3’末端加帽,接着进行CRISPR处理和位点特异性ONT适配体连接。在第一步中,用虾碱性磷酸酶和末端转移酶处理gDNA,所述虾碱性磷酸酶从DNA片段的5’末端去除磷酸基团,所述末端转移酶将单个胸苷二脱氧核苷酸添加到3’末端。此步骤确保gDNA末端无法进行连接。然后用CRISPR Cas9:gRNA复合物处理DNA,产生钝端~28-35kb CYP2D6/CYP2D7片段(关于详细信息,参见前面的段落)。接下来是“A加尾”步骤,其中用DNA聚合酶将腺苷核苷酸添加到DNA的游离3’末端(例如,末端未用ddTTP加帽)。最后,将具有胸苷突出的ONT适配体添加到DNA中。只有通过CRISPR-Cas9裂解产生的DNA末端与适配体连接,因为它们是唯一具有互补的3’-突出和5’-磷酸基团的末端。
测序:直接在ONT仪器上对所得的文库进行测序。如果通过此方法生成的DNA文库数量对于进行ONT测序具有挑战性,则可以通过在测序之前对样品进行多重复用和/或增加输入gDNA数量来克服这个问题。此外,可以通过用核酸外切酶处理样品来降低背景(ONT适配体对核酸外切酶III和λ核酸外切酶具有抗性),这会导致所有背景DNA都被降解。
方法2:使用体外转录进行富集
原理:如果先前的方法无法生成足够的DNA,或者如果存在过量的背景DNA,则经由体外转录(IVT)评估靶向扩增的替代性方法。IVT与PCR相比有一些优势。(1)转录不太可能传播错误。(2)转录可以产生长度长达20-30kb的RNA分子,比大多数长程PCR产物的大小还要长。
DNA制备:在CRISPR裂解之后,用核酸外切酶处理DNA以生成交错末端,并且将含有T7启动子和与CYP26-CYP2D7基因座的交错末端互补的突出的双链DNA片段连接到靶片段。DNA聚合酶和DNA连接酶用于填充间隙并密封任何切口。噬菌体T7 RNA聚合酶能够产生长达~20kb的转录物。因为启动子连接到~28kb基因座的两个末端,因此通过T7 RNA聚合酶由基因座末端的启动子产生的最长转录物可以足够长以覆盖整个区域。然而,很大一部分T7产物的长度通常小于4kb。最近发现的Syn5噬藻体RNA聚合酶能够产生长达30kb的转录物。将Syn5启动子与T7启动子一起进行测试。
体外转录:用T7和Syn5 RNA聚合酶进行IVT。前一种酶是可商购获得的,而后一种酶已经在我们的实验室中表达和纯化。有几种商业T7 RNA聚合酶IVT试剂盒经过优化以产生长RNA转录物。先前的工作显示,随机插入人基因组中的T7启动子序列在IVT期间产生显著比例的大于5kb的RNA转录物。总RNA产量、大转录物(>15kb)的比例和错误率是决定哪种聚合酶和IVT方法为最佳选择的关键因素。由于可能产生广泛范围的RNA转录物长度,因此可以使用SPRI珠来选择最大的转录物。直接在ONT仪器上对RNA进行测序。
方法3:用于体外转录的启动子的多位点引入
原理:如果以上方法不足,则将T7或Syn5启动子插入靶向区域中的多个位点。这种方法的一个潜在问题是,基因座的片段化使得明确地将变体分配为CYP2D7或CYP2D6(因为基因和假基因共享~94%的序列同一性)和获得分期信息变得具有挑战性。为了克服这一限制,使用多个交错插入位点来生成重叠片段。
启动子的引入:CRISPR裂解发生在ROI侧接位点和基因座内规律间隔(~10kb)的位点处。裂解在两个独立的反应中进行,每个反应具有一组不同的靶位点,使得所得的重叠片段可以用于在测序之后将读长拼接在一起。核酸外切酶处理、含有启动子的适配体的连接、IVT和cDNA合成如上所述。含有启动子的适配体含有紧邻启动子下游的短固定序列。当进行cDNA合成时,使用与此固定序列互补的引物用于逆转录(RT)。如果通过IVT产生的RNA跨越两个插入位点之间的长度,则对于此序列具有特异性的RT引物选择跨越相同区域的cDNA分子。
潜在的替代方案:如有必要,可以使用几个周期的长程PCR,使用每个IVT产物开头的固定序列,选择性扩增跨越插入位点的cDNA分子。
潜在的替代方案:通过ONT进行的RNA测序需要大量的RNA。如有必要,使用引物进行cDNA合成,所述引物退火到远离(15-20kb)转录开始的位点,以选择长转录物。如果显著比例的测序读长没有映射到靶基因座,将尝试防止适配体连接到非靶位点。在CRISPR处理之前对gDNA进行去磷酸化和用所谓的“哑铃”适配体对gDNA的末端加帽是两种可能的选择。
实施例4.对变体进行长模板测序的NGS方法的建立
方法:目前有两个主要的商业平台适于开发潜在的诊断测试。PacBio一直是第一个且最突出的长读长测序技术,但相关成本很高。最近,纳米孔测序技术已成为一种成本有效且潜在可行的平台。牛津纳米孔(ONT)作为一个平台,在通量、成本和准确性方面不断成熟。鉴于这些优势,ONT在此受到关注。然而,所提出的方法在很大程度上是平台不可知的,并且可以修改以适应目前或未来的两个长读长平台中的任一个。在牛津纳米孔MinION上进行测序运行。
目标2(验证):(a)使用目前用于长读长序列比对的软件和平台进行序列分析,以进行变体识别、CNV分析和分期。(b)将CYP2D6-D7长读长序列分析结果与序列/拷贝数变异进行比较,并表征与来自Get-RM项目的那些一致的基因分型和注释结果,以估计性能特征并为进一步诊断测试开发提供指导。对每种方法的可行性进行测试,并在时间和成本效益、所需步骤的最小化和结果质量方面进行比较。总体目标是选择最合适的方法来对整个CYP2D6基因进行分离、富集和测序。
用于验证的样品选择:一旦开发了样品制备方法,将分析具有已知基因型和单倍型的扩展组的额外样品。包括具有复杂结构(诸如重复、杂交体、所选缺失和复杂重排)的样品,以便在扩展数据集上评价平台。样品选自GeT-RM项目(参见以上“GeT-RM队列”)。这些细胞系和数据提供了独特的资源,因为它们允许针对目前的黄金标准评价新颖的长读长序列数据。对于这个提议,已经获取了这些细胞系的子集-LCL细胞系。从细胞系储存库和现有合作中获得用于表征其他相关变体和单倍型的额外样品。为了用额外的样品进一步验证所述方法,利用来自NIST Coriell队列的额外细胞系,所述队列被广泛表征,包括全基因组测序。另外,还获取了代表典型诊断样本的额外样品类型,包括全血和唾液。在此目标中,总计选择了48个细胞系进行测序,代表重复、缺失、杂交体和串联排列。分析一式两份进行,总计96个测序样品。
变体识别、CNV识别和分期:使用专门为长读长ONT数据开发的软件包。Clair是Clairvoyante的最近更新版本,它是一种多任务五层卷积神经网络模型,用于预测变体类型、接合性、替代性等位基因和插入/缺失长度。最近开发的另一个包是Megalodon。Megalodon的功能集中在将高信息神经网络碱基识别锚定到参考序列上。Bowden等人最近使用标准参考样品评价了纳米孔技术用于全基因组测序的性能特征。82x覆盖率的一致性准确率为99.9%,尽管数据也显示了所述平台目前的一些局限性。由于所述提议仅对一个小的靶向区域进行测序,并且鉴于在超高深度下对所述区域进行测序的能力,因此预期目前的分析平台产生足够准确的靶向序列数据。未来的软件开发也受到监控,并且在新方法可用时加以利用。
与一致性数据的比较:将数据与GeT-RM一致性结果(所述结果是基于来自所有平台的结果以及专家小组对变体的审查)进行比较。确定单倍型识别SNP和CNV的一致性,评价鉴定杂交单倍型的序列特征的能力,并且测量确定代谢物状态的一致性。接下来,将额外变体与来自GeT-RM项目的基因分型数据进行比较。结合分期信息(例如,确定的单倍型)分析数据,以确定分期基因分型数据是否与结果一致,因为这提供了非输入的分期信息。最后,鉴定了仅通过测序鉴定的任何额外变体。还进行了CYP2D6与其假基因之间的序列相似性的探索性序列比较。
预期问题:一个问题与测序平台的整体准确性有关。初始方法是在超高深度下进行测序。这种方法应允许确定非系统测序错误,但由于平台的技术限制导致的固有错误更难确定。与CYP2D6参考样品的一致性数据进行比较允许估计这种效应。另外,预期ONT平台的进一步基准研究和改进的序列分析方法增加长读长数据的序列注释。
未来方向:在药物遗传学中,CYP2D6作为测试最广泛的基因之一而引人注意,同时使用目前的测试技术进行分析在技术上具有挑战性。最终目标是开发一种统一的临床测试方法,其可以代替目前不完整且容易出错的平台。此应用充当概念验证证明,即基于CRISPR的序列靶向、创新的片段富集和长读长测序是一种可行的方法。
实施例5.
用于分析的特定基因组基因座的靶向
与PCR或寡核苷酸杂交等传统方法相比,此方法使用具有基因座特异性向导RNA的CRISPR/CAS9系统仅用于感兴趣区域(ROI)的靶向切割。富集区域选择和sgRNA设计的新颖方法允许捕获整个基因座,其包括高度相似的假基因和重复区域,这种区域的实例在图1中示出。
目前的问题
常见的DNA提取方法和对于高多态性基因(诸如CYP2D6,其包含重复区域(例如,REP6等)并与相邻假基因共享高序列相似性)的测序方法具有许多缺点。这些问题包括PCR引入的错误、PCR可捕获的大小限制、脱靶阵列杂交、需要多种测定(例如,用qPCR进行扩展测序+CNV分析)、脱靶比对、缺乏变体分期以及高昂的金钱和时间成本。图6突出显示了6个NGS测序的传统制备文库的实例的IGV比对。这些文库(A-F)由CYP2D6长程PCR(XL-PCR)扩增子生成。扩增子在NGS分析前进行了片段化(100-300bp)、适配体连接和PCR扩增。这种方法具有几个局限性。首先,如对于CYP2D6所示,为了扩增每个样品中的CYP2D6基因,必须在XL-PCR之前知道CYP2D6拷贝数状态以及是否存在杂交等位基因。必须为每个等位基因使用正常、重复、缺失和杂交等位基因的特异性引物。这需要在NGS之前进行额外的拷贝数测定。另外,XL-PCR扩增时间通常是0.5至1小时/kb长度的靶扩增子。
短读长序列数据的分析也受到分期能力降低的阻碍,并且容易与高度相似的假基因或同源区域(例如,如图1所示的CYP2D6和94%同一性的CYP2D7假基因)进行脱靶比对。此外,同一基因的不同单倍型可能与假基因具有不同水平的相似性,并且变体可能无法正确比对。
与传统的基于PCR的方法相比,无PCR文库具有显著优势。无PCR文库消除了引入PCR衍生序列错误的可能性,并克服了目前对最大PCR产物大小的限制。去除了XL-PCR反应时间,这代表时间显著减少,并且所述方法允许进行杂合变体分期和拷贝数变异(CNV)的检测。
sgRNA的设计
如上所示,由于CYP2D6基因座的复杂性和高多态性,传统PCR和基于阵列的技术需要多种测定来进行CNV和SNP分析。由于在提取和样品处理期间的DNA剪切,为了使完整靶区域的量最大化以进行富集,凭直觉选择尽可能小的CRISPR/Cas9靶区域来捕获感兴趣的基因。然而,仅靶向CYP2D6基因的CRISPR/Cas9方法无法捕获含有结构变异的等位基因,诸如D6/D7杂交等位基因或CYP2D6重复事件,这构成所检测的等位基因的至少20%。适当向导RNA设计的高度复杂要求的实例在图7A-7C中示出。
第一个设计限制是,将Cas9复合物靶向至ROI的RNA不能被设计成在CYP2D6基因本身附近。这是针对两个主要区域。首先,侧接CYP2D6的独特序列的位点有限,这与CYP2D7不同。那些位点含有重复区域,所述重复区域不能很好地工作或能够捕获重要的启动子区域变异。第二个原因是,如果存在CYP2D6 CNV或D6/D7或D7/D6杂交等位基因,则存在额外的切割和准确CNV分析和序列比对的能力损失(图7A)。接近CYP2D7和CYP2D8进行切割的方法的类似局限性分别在图7B和图7C中示出。
为了克服这些限制,已经鉴定了侧接涵盖CYP2D6、CYP2D7和CYP2D8的区域并且仍然生成适当大小的切割片段以用于长程序列分析的独特序列。通过设计靶向这些独特区域的sgRNA,进行一次CRISPR/Cas9裂解反应以分离整个CYP2D6/CYP2D7/CYP2D8区域(图8)。另外,根据下游应用,所述设计必须靶向正确的链(+或-),这取决于sgRNA是靶向ROI的5’末端还是3’末端。所测试的sgRNA序列的非限制性实例在以下表2中示出。CYP2D6在-链上编码,但是向导RNA位置(上游或下游)是相对于+链参考的。具有较低染色体位置的序列被认为在更上游,然后是具有较高染色体位置的序列,其被认为在下游。
表2.向导RNA序列
/>
/>
/>
/>
sgRNA性能分析和验证
为了确认sgRNA的特异性和功效,由gDNA生成含有靶向sgRNA结合位点的XL-PCR产物。将XL-PCR产物与Cas9+无sgRNA(或脱靶sgRNA)或Cas9+感兴趣的sgRNA一起温育。图9A示出了代表性琼脂糖凝胶,其示出了两种不同sgRNA(T_1和T_2)在多个反应时间点的切割效率。将所有与Cas9和sgRNA一起温育的PCR产物裂解以产生预期大小的DNA片段,但不同的sgRNA显示出不同程度的裂解效率。
在确定XL-PCR扩增子的裂解效率之后,分析在基因组DNA上进行裂解的效率。这是通过用特定sgRNA进行Cas介导的切割,然后在切割的DNA上进行定量PCR反应来进行的。在预测的sgRNA靶切割位点的任一侧上设计引物。在来自Cas9反应或未切割对照的100ng总基因组DNA上运行PCR反应。如果在适当的位点裂解DNA,则与未切割对照样品(例如,使用脱靶区域的sgRNA的Cas9反应)中生成的PCR产物量相比,将观察到PCR产物减少。使用这种方法,确定sgRNA是否能够靶向基因组DNA中所需的ROI,并且确定此切割的效率,如图9B和图9C中所示。整个CYP2D6基因的XL-PCR显示切割与未切割对照之间没有差异。这指示在跨越反应的切割位点中观察到的PCR产物量减少不是由于DNA的随机切割,而是由于Cas9介导的对这些特定区域的靶向切割。
高分子量(HMW)DNA的分离
在长片段(≥50kb)中分离高分子量基因组(HMW)DNA允许生成测序文库而无需PCR扩增。如图10所示,使用Nanobind CCB Dig DNA试剂盒(Circulomics,Madison Wi)从淋巴母细胞(18959和19213)内部提取HMW DNA。将提取的DNA在2%琼脂糖凝胶上运行,并且与λHINDIII梯(上条带23.1kb)、λDNA(48.5kb)和从Corriel Institute获取的先前提取基因组DNA(通过替代性方法提取)进行大小比较。内部提取的DNA的大小显著大于经由其他方法提取的DNA(ex.Coriell gDNA 18996),大部分运行高于48.5kbλDNA。高分子量DNA的进一步富集是用Short Read Eliminator试剂盒(Circulomics,Madison Wi)进行的。
CRISPR/Cas9富集和文库制备
使用纳米孔Cas介导的方案(VNR_9084_v109_revK_04Dec2018)的修改版本对上述sgRNA进行CRISPR/Cas9富集。对过程中使用的sgRNA的体积和浓度进行修改以实现最佳结果(具体地,33.3μlsgRNA(3μM)/sgRNA)。使用扩增子连接方案(SQK-LSK109)连接适配体,并且在MinION测序平台(Oxford Nanopore,UK)上运行制备的测序文库并进行数据分析。
概念验证
利用富集整个CYP2D6-CYP2D7-CYP2D8区域(chr22:42,122,115-42,161,317)的sgRNA进行测序,确认了3个关键事项:(1)sgRNA设计成功捕获整个靶区域,(2)所述策略允许相比于脱靶读长显著富集整个ROI,并且(3)所述方法能够成功地对整个ROI(~40kb)进行长读长测序。
如图11A所示,在整个基因组范围内,仅观察到含有靶向ROI的22号染色体(chr22)的显著序列富集。所有其他基因组区域显示微小的覆盖率。对chr22的进一步分析发现,只有含有ROI的区域被富集并且具有>10x覆盖率(图11B)。总体而言,映射到chr22的176个读长中有121个是与ROI比对的全长读长(68.75%)。所有22号染色体读长的平均准确性和同一性/读长在图11B中示出。
运行比对和时间
中位数比对读长长度是~39.35kb(图12A),从而指示靶设计大小的成功测序和比对。值得注意的是,所有比对的读长都是在minION上测序的前2.5小时内捕获的(图12B)。这指示使用本文所述的方法的测序时间相比于标准长读长测序运行时间大大降低。这在结果周转时间和仪器通量方面都具有巨大的价值。
IGV分析
对序列数据比对的进一步IGV分析显示,序列读长与正确的基因组位置(chr22:42,122,115-42,161,317)对齐,并且在整个ROI中具有统一的深度和覆盖率。图13示出了与靶CYP2D6区域对齐的121个38.5kb读长的IGV比对。为了进一步审查所述方法的特异性,在靶区域中进行了sgRNA富集,但在相反DNA链上未富集(+或-),并且将序列数据比对与原始链设计上的sgRNA富集进行了比较。如图14所示,在ROI(CYP2D6-CYP2D7-CYP2D8区域(chr22:42,122,115-42,161,317,在图中上比对中示出),或侧接区域(在图中下比对中示出),这取决于sgRNA链靶标)中生成100%序列富集。根据设计,没有观察到与侧接脱靶区域的重叠。这证明了所述方法的两个关键方面:(1)在我们的设计ROI内没有生成显著的脱靶切割,并且(2)富集方法不导致ROI的显著剪切。
图15描绘了刺身图,其示出多种复杂结构排列的sgRNA特异性。此图示出了四个测序运行的比对区域。来自所述运行的序列数据使用被设计来捕获感兴趣区域(ROI)(chr22:42,122,115-41,161,320)的sgRNA并且包括四个不同的结构事件:(1)一个等位基因上CYP2D6的缺失;(2)一个等位基因上杂交等位基因与CYP2D6串联;(3)一个等位基因上的重复事件;以及(4)一个等位基因上CYP2D6的缺失和第二个等位基因上CYP2D6的重复。此数据代表所有重组取向的ROI的结构变异的成功富集,包括CYP2D6 CNV或D6/D7或D7/D6杂交等位基因,包括具有上游CYP2D6样或CYP2D7样区域的那些等位基因以及具有CYP2D6样或CYP2D7样下游区域的那些等位基因。无论存在何种结构变异,CYP2D6上游区域与CYP2D8下游区域之间均未发生脱靶切割,从而克服了图7中描述的设计局限性并确认了图8中描述的方法。
实施例6.用于富集感兴趣的基因组区域的嵌套CRISPR-Cas9方法。
在此实施例中,使用嵌套CRISPR-Cas9方法来富集(例如,复杂的)感兴趣的基因组区域。与目前的方法相比,这些方法具有许多益处,包括:(1)增加对于感兴趣区域的富集特异性;和(2)增加输入DNA材料的容量,以增加ROI的整体富集。图17提供了用于进行如本文所述的嵌套富集的示例性示意图。
在此实施例中,使用下游使用所需的尽可能多的基因组DNA进行CRISPR-Cas9反应。设计了一组外向导RNA,其距离感兴趣的靶向区域(例如,CYP2D6基因座)的下游和上游高达30kb。Cas9-向导RNA复合物从基因组DNA中切割感兴趣的基因组区域,并封闭含有感兴趣区域的切除DNA片段的末端。然后进行核酸外切酶消化,从而消化未受保护的DNA(例如,不含感兴趣区域的DNA)。因为含有感兴趣的基因组区域的DNA片段的末端受到保护而免受核酸外切酶消化(例如,通过由于结合的Cas9-向导RNA复合物引起的空间位阻),因此含有感兴趣区域的切除DNA片段保持完整。此步骤既允许对增加特异性的感兴趣区域进行额外富集,又能够使用比基于Cas的富集方案期间通常使用的更大量的基因组DNA(例如,>10μg)。
在进行核酸外切酶消化之后,将富集的大的未消化片段在使用一组内向导RNA的CRISPR-Cas9反应中使用,所述向导RNA靶向适当大小的所需感兴趣区域以进行长读长测序。此步骤进一步增加第一个富集方案的特异性,并提供感兴趣区域的末端以用于下游文库生成。
图18示出了嵌套CRISPR-Cas9方法对于两组代表性sgRNA的效率。如图18所示,使用位于内gRNA切割位点上游10kb(第1组)或20kb(第2组)的两组代表性外gRNA来进行初始富集。未切割的样品未接受外gRNA富集。然后在第1组、第2组和未切割的样品上使用同一组内gRNA,并且如上所述制备文库。如图18所示,第2组相对于未切割样品观察到的倍数富集为大约1.7倍,并且第1组相对于未切割样品的倍数富集为大约3.4倍。
虽然本文已经示出并描述了本公开的优选实施方案,但对于本领域技术人员显而易见的是,此类实施方案仅以实例的方式提供。在不脱离本公开内容的情况下,本领域技术人员将会想到许多变化、改变和替换。应理解,在实践本公开的实施方案时可以采用本文所述的本公开的实施方案的各种替代方案。旨在以所附权利要求书限定本公开的范围,并且由此涵盖这些权利要求范围内的方法和结构及其等同方案。
序列表
<110> 瑞普瑞德诊断有限责任公司
<120> 用于分析复杂基因组区域的方法和系统
<130> 57312-702.601
<140>
<141>
<150> 63/171,387
<151> 2021-04-06
<160> 418
<170> PatentIn 版本 3.5
<210> 1
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 1
aagguggugg acacucguga guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 2
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 2
cacuauggag auugugucca guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 3
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 3
acggacacua ccaaggagcg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 4
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 4
cuugaagaac cuccucgugg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 5
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 5
augucucaag acuaccccuc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 6
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 6
cugucauggg cacguagacc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 7
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 7
uccucaccga cauaaugggc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 8
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 8
ggcuuacaag uugguccuaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 9
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 9
uaucaccuuu uagucaauuc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 10
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 10
ugucaagaau uagugguggu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 11
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 11
ccauucaccc uuaugcucag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 12
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 12
aaccuccggu ugcuuccuga guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 13
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 13
gguggacacu cgugauggaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 14
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 14
gguggacacu cgugauggaa guuuuagagc uaugcu 36
<210> 15
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 15
aagguggugg acacucguga guuuuagagc uaugcu 36
<210> 16
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 16
cacuauggag auugugucca guuuuagagc uaugcu 36
<210> 17
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 17
acggacacua ccaaggagcg guuuuagagc uaugcu 36
<210> 18
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 18
cuugaagaac cuccucgugg guuuuagagc uaugcu 36
<210> 19
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 19
augucucaag acuaccccuc guuuuagagc uaugcu 36
<210> 20
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 20
cugucauggg cacguagacc guuuuagagc uaugcu 36
<210> 21
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 21
uccucaccga cauaaugggc guuuuagagc uaugcu 36
<210> 22
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 22
ggcuuacaag uugguccuaa guuuuagagc uaugcu 36
<210> 23
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 23
uaucaccuuu uagucaauuc guuuuagagc uaugcu 36
<210> 24
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 24
ugucaagaau uagugguggu guuuuagagc uaugcu 36
<210> 25
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 25
ccauucaccc uuaugcucag guuuuagagc uaugcu 36
<210> 26
<211> 36
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 26
aaccuccggu ugcuuccuga guuuuagagc uaugcu 36
<210> 27
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 27
ugguccaugu uuucaagagu 20
<210> 28
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 28
acucaaacca gugacaccac 20
<210> 29
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 29
aaagacccaa gacguuggaa 20
<210> 30
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 30
guucagaaaa cacuagaccc 20
<210> 31
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 31
gggucuagug uuuucugaac 20
<210> 32
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 32
acccucaucu caugaaggac 20
<210> 33
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 33
acuugucauc ggaacaaauu 20
<210> 34
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 34
cuccccccac auugucacua 20
<210> 35
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 35
ccagggguac cacggaacag 20
<210> 36
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 36
cccucaucuc augaaggacg 20
<210> 37
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 37
acacacccga gaccaaugcc 20
<210> 38
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 38
aacagccauu ccaacgucuu 20
<210> 39
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 39
uaccacggaa cagcggcugu 20
<210> 40
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 40
ugguccaugu uuucaagagu guuuagagcu augcu 35
<210> 41
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 41
acucaaacca gugacaccac guuuagagcu augcu 35
<210> 42
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 42
aaagacccaa gacguuggaa guuuagagcu augcu 35
<210> 43
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 43
guucagaaaa cacuagaccc guuuagagcu augcu 35
<210> 44
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 44
gggucuagug uuuucugaac guuuagagcu augcu 35
<210> 45
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 45
acccucaucu caugaaggac guuuagagcu augcu 35
<210> 46
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 46
acuugucauc ggaacaaauu guuuagagcu augcu 35
<210> 47
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 47
cuccccccac auugucacua guuuagagcu augcu 35
<210> 48
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 48
ccagggguac cacggaacag guuuagagcu augcu 35
<210> 49
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 49
cccucaucuc augaaggacg guuuagagcu augcu 35
<210> 50
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 50
acacacccga gaccaaugcc guuuagagcu augcu 35
<210> 51
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 51
aacagccauu ccaacgucuu guuuagagcu augcu 35
<210> 52
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 52
uaccacggaa cagcggcugu guuuagagcu augcu 35
<210> 53
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 53
ugguccaugu uuucaagagu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 54
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 54
acucaaacca gugacaccac guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 55
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 55
aaagacccaa gacguuggaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 56
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 56
guucagaaaa cacuagaccc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 57
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 57
gggucuagug uuuucugaac guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 58
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 58
acccucaucu caugaaggac guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 59
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 59
acuugucauc ggaacaaauu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 60
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 60
cuccccccac auugucacua guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 61
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 61
ccagggguac cacggaacag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 62
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 62
cccucaucuc augaaggacg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 63
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 63
acacacccga gaccaaugcc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 64
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 64
aacagccauu ccaacgucuu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 65
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 65
uaccacggaa cagcggcugu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 66
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 66
aagguggugg acacucguga 20
<210> 67
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 67
cacuauggag auugugucca 20
<210> 68
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 68
acggacacua ccaaggagcg 20
<210> 69
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 69
cuugaagaac cuccucgugg 20
<210> 70
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 70
augucucaag acuaccccuc 20
<210> 71
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 71
cugucauggg cacguagacc 20
<210> 72
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 72
uccucaccga cauaaugggc 20
<210> 73
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 73
ggcuuacaag uugguccuaa 20
<210> 74
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 74
uaucaccuuu uagucaauuc 20
<210> 75
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 75
ugucaagaau uagugguggu 20
<210> 76
<211> 19
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 76
cauucacccu uaugcucag 19
<210> 77
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 77
aaccuccggu ugcuuccuga 20
<210> 78
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 78
gguggacacu cgugauggaa 20
<210> 79
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 79
gguggacacu cgugauggaa 20
<210> 80
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 80
aagguggugg acacucguga 20
<210> 81
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 81
cacuauggag auugugucca 20
<210> 82
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 82
acggacacua ccaaggagcg 20
<210> 83
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 83
cuugaagaac cuccucgugg 20
<210> 84
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 84
augucucaag acuaccccuc 20
<210> 85
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 85
cugucauggg cacguagacc 20
<210> 86
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 86
uccucaccga cauaaugggc 20
<210> 87
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 87
ggcuuacaag uugguccuaa 20
<210> 88
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 88
uaucaccuuu uagucaauuc 20
<210> 89
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 89
ugucaagaau uagugguggu 20
<210> 90
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 90
ccauucaccc uuaugcucag 20
<210> 91
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 91
aaccuccggu ugcuuccuga 20
<210> 92
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 92
gaggucacca acuugggcag 20
<210> 93
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 93
cccaaguugg ugaccucagc 20
<210> 94
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 94
ccagcugagg ucaccaacuu 20
<210> 95
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 95
aggugccgaa cacuggugag 20
<210> 96
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 96
ggaccccgag guaacugcug 20
<210> 97
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 97
ggccuugaag aaccuccucg 20
<210> 98
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 98
ugacucugag gcucucggau 20
<210> 99
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 99
ucgugaagcc cauuuucagu 20
<210> 100
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 100
acugaaaaug ggcuucacga 20
<210> 101
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 101
cacgacccag cgaccuccug 20
<210> 102
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 102
gaugcuuugg caagauggcg 20
<210> 103
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 103
uugaagaacc uccucguggc 20
<210> 104
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 104
acaugaacga ggccaagcgg 20
<210> 105
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 105
caugaacgag gccaagcgga 20
<210> 106
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 106
cgacagaugg uguaguccaa 20
<210> 107
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 107
cuugaagaac cuccucgugg 20
<210> 108
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 108
aaugggcuuc acgaaggugc 20
<210> 109
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 109
gaaugucccu gucuacgaug 20
<210> 110
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 110
agggucaccc gagccuacca 20
<210> 111
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 111
acggacacua ccaaggagcg 20
<210> 112
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 112
gacacuacca aggagcgcgg 20
<210> 113
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 113
uuucagucgg gacaugaacg 20
<210> 114
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 114
acacuaccaa ggagcgcggc 20
<210> 115
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 115
gggucacccg agccuaccau 20
<210> 116
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 116
ugagagguag cggcuuacgu 20
<210> 117
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 117
gaggucacca acuugggcag guuuagagcu augcu 35
<210> 118
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 118
cccaaguugg ugaccucagc guuuagagcu augcu 35
<210> 119
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 119
ccagcugagg ucaccaacuu guuuagagcu augcu 35
<210> 120
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 120
aggugccgaa cacuggugag guuuagagcu augcu 35
<210> 121
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 121
ggaccccgag guaacugcug guuuagagcu augcu 35
<210> 122
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 122
ggccuugaag aaccuccucg guuuagagcu augcu 35
<210> 123
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 123
ugacucugag gcucucggau guuuagagcu augcu 35
<210> 124
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 124
ucgugaagcc cauuuucagu guuuagagcu augcu 35
<210> 125
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 125
acugaaaaug ggcuucacga guuuagagcu augcu 35
<210> 126
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 126
cacgacccag cgaccuccug guuuagagcu augcu 35
<210> 127
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 127
gaugcuuugg caagauggcg guuuagagcu augcu 35
<210> 128
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 128
uugaagaacc uccucguggc guuuagagcu augcu 35
<210> 129
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 129
acaugaacga ggccaagcgg guuuagagcu augcu 35
<210> 130
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 130
caugaacgag gccaagcgga guuuagagcu augcu 35
<210> 131
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 131
cgacagaugg uguaguccaa guuuagagcu augcu 35
<210> 132
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 132
cuugaagaac cuccucgugg guuuagagcu augcu 35
<210> 133
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 133
aaugggcuuc acgaaggugc guuuagagcu augcu 35
<210> 134
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 134
gaaugucccu gucuacgaug guuuagagcu augcu 35
<210> 135
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 135
agggucaccc gagccuacca guuuagagcu augcu 35
<210> 136
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 136
acggacacua ccaaggagcg guuuagagcu augcu 35
<210> 137
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 137
gacacuacca aggagcgcgg guuuagagcu augcu 35
<210> 138
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 138
uuucagucgg gacaugaacg guuuagagcu augcu 35
<210> 139
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 139
acacuaccaa ggagcgcggc guuuagagcu augcu 35
<210> 140
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 140
gggucacccg agccuaccau guuuagagcu augcu 35
<210> 141
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 141
ugagagguag cggcuuacgu guuuagagcu augcu 35
<210> 142
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 142
gaggucacca acuugggcag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 143
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 143
cccaaguugg ugaccucagc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 144
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 144
ccagcugagg ucaccaacuu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 145
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 145
aggugccgaa cacuggugag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 146
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 146
ggaccccgag guaacugcug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 147
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 147
ggccuugaag aaccuccucg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 148
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 148
ugacucugag gcucucggau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 149
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 149
ucgugaagcc cauuuucagu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 150
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 150
acugaaaaug ggcuucacga guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 151
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 151
cacgacccag cgaccuccug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 152
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 152
gaugcuuugg caagauggcg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 153
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 153
uugaagaacc uccucguggc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 154
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 154
acaugaacga ggccaagcgg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 155
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 155
caugaacgag gccaagcgga guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 156
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 156
cgacagaugg uguaguccaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 157
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 157
cuugaagaac cuccucgugg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 158
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 158
aaugggcuuc acgaaggugc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 159
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 159
gaaugucccu gucuacgaug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 160
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 160
agggucaccc gagccuacca guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 161
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 161
acggacacua ccaaggagcg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 162
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 162
gacacuacca aggagcgcgg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 163
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 163
uuucagucgg gacaugaacg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 164
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 164
acacuaccaa ggagcgcggc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 165
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 165
gggucacccg agccuaccau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 166
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 166
ugagagguag cggcuuacgu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 167
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 167
uuaaugcuag aauuaggcac 20
<210> 168
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 168
uuaggcacag gcuuacaagu 20
<210> 169
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 169
gaaguggccu gcccuucaaa 20
<210> 170
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 170
ggcuuacaag uugguccuaa 20
<210> 171
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 171
uuaaugcuag aauuaggcac guuuagagcu augcu 35
<210> 172
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 172
uuaggcacag gcuuacaagu guuuagagcu augcu 35
<210> 173
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 173
gaaguggccu gcccuucaaa guuuagagcu augcu 35
<210> 174
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 174
ggcuuacaag uugguccuaa guuuagagcu augcu 35
<210> 175
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 175
uuaaugcuag aauuaggcac guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 176
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 176
uuaggcacag gcuuacaagu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 177
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 177
gaaguggccu gcccuucaaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 178
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 178
ggcuuacaag uugguccuaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 179
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 179
cuaaacaaca auuuagcugu 20
<210> 180
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 180
cuaaacaaca auuuagcugu guuuagagcu augcu 35
<210> 181
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 181
cuaaacaaca auuuagcugu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 182
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 182
cuucacgguu cugagucuug 20
<210> 183
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 183
accgagccgu gugaccacag 20
<210> 184
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 184
ucuguccuca ccgacauaau 20
<210> 185
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 185
aggugaagca gccuucucgu 20
<210> 186
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 186
ucugacugac ucggugccag 20
<210> 187
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 187
uucugacuga cucggugcca 20
<210> 188
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 188
acugugguca cacggcucgg 20
<210> 189
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 189
uucccuaaga aggucugccc 20
<210> 190
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 190
gucuguccuc accgacauaa 20
<210> 191
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 191
ccucaccgac auaaugggcu 20
<210> 192
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 192
ggcacguaga cccgguccca 20
<210> 193
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 193
cuucacgguu cugagucuug guuuagagcu augcu 35
<210> 194
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 194
accgagccgu gugaccacag guuuagagcu augcu 35
<210> 195
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 195
ucuguccuca ccgacauaau guuuagagcu augcu 35
<210> 196
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 196
aggugaagca gccuucucgu guuuagagcu augcu 35
<210> 197
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 197
ucugacugac ucggugccag guuuagagcu augcu 35
<210> 198
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 198
uucugacuga cucggugcca guuuagagcu augcu 35
<210> 199
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 199
acugugguca cacggcucgg guuuagagcu augcu 35
<210> 200
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 200
uucccuaaga aggucugccc guuuagagcu augcu 35
<210> 201
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 201
gucuguccuc accgacauaa guuuagagcu augcu 35
<210> 202
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 202
ccucaccgac auaaugggcu guuuagagcu augcu 35
<210> 203
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 203
ggcacguaga cccgguccca guuuagagcu augcu 35
<210> 204
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 204
cuucacgguu cugagucuug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 205
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 205
accgagccgu gugaccacag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 206
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 206
ucuguccuca ccgacauaau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 207
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 207
aggugaagca gccuucucgu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 208
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 208
ucugacugac ucggugccag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 209
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 209
uucugacuga cucggugcca guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 210
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 210
acugugguca cacggcucgg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 211
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 211
uucccuaaga aggucugccc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 212
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 212
gucuguccuc accgacauaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 213
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 213
ccucaccgac auaaugggcu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 214
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 214
ggcacguaga cccgguccca guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 215
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 215
uauuaauggu ccaucacagc 20
<210> 216
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 216
ggaagcacaa uucacguucc 20
<210> 217
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 217
cucacuggua uaaaccccug 20
<210> 218
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 218
gcacaauuca cguuccuggc 20
<210> 219
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 219
agggaccaca cgagcagcaa 20
<210> 220
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 220
ggguuuauac cagugaggac 20
<210> 221
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 221
ucugacaagg ccucccaugc 20
<210> 222
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 222
acgugaauug ugcuuccuga 20
<210> 223
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 223
acaauucacg uuccuggcag 20
<210> 224
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 224
ggaacgcauu uccuaacaug 20
<210> 225
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 225
auugagagac cuugacuggc 20
<210> 226
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 226
cuguucucau acauguccac 20
<210> 227
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 227
cacaauucac guuccuggca 20
<210> 228
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 228
caugaggcgu guuuuauuaa 20
<210> 229
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 229
ccuugacugg cuggccaugu 20
<210> 230
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 230
ucuggcagca agcacuaugc 20
<210> 231
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 231
aaacuaaugc cagauacauc 20
<210> 232
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 232
uauuaauggu ccaucacagc guuuagagcu augcu 35
<210> 233
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 233
ggaagcacaa uucacguucc guuuagagcu augcu 35
<210> 234
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 234
cucacuggua uaaaccccug guuuagagcu augcu 35
<210> 235
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 235
gcacaauuca cguuccuggc guuuagagcu augcu 35
<210> 236
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 236
agggaccaca cgagcagcaa guuuagagcu augcu 35
<210> 237
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 237
ggguuuauac cagugaggac guuuagagcu augcu 35
<210> 238
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 238
ucugacaagg ccucccaugc guuuagagcu augcu 35
<210> 239
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 239
acgugaauug ugcuuccuga guuuagagcu augcu 35
<210> 240
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 240
acaauucacg uuccuggcag guuuagagcu augcu 35
<210> 241
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 241
ggaacgcauu uccuaacaug guuuagagcu augcu 35
<210> 242
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 242
auugagagac cuugacuggc guuuagagcu augcu 35
<210> 243
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 243
cuguucucau acauguccac guuuagagcu augcu 35
<210> 244
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 244
cacaauucac guuccuggca guuuagagcu augcu 35
<210> 245
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 245
caugaggcgu guuuuauuaa guuuagagcu augcu 35
<210> 246
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 246
ccuugacugg cuggccaugu guuuagagcu augcu 35
<210> 247
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 247
ucuggcagca agcacuaugc guuuagagcu augcu 35
<210> 248
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 248
aaacuaaugc cagauacauc guuuagagcu augcu 35
<210> 249
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 249
uauuaauggu ccaucacagc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 250
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 250
ggaagcacaa uucacguucc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 251
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 251
cucacuggua uaaaccccug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 252
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 252
gcacaauuca cguuccuggc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 253
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 253
agggaccaca cgagcagcaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 254
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 254
ggguuuauac cagugaggac guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 255
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 255
ucugacaagg ccucccaugc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 256
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 256
acgugaauug ugcuuccuga guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 257
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 257
acaauucacg uuccuggcag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 258
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 258
ggaacgcauu uccuaacaug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 259
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 259
auugagagac cuugacuggc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 260
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 260
cuguucucau acauguccac guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 261
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 261
cacaauucac guuccuggca guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 262
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 262
caugaggcgu guuuuauuaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 263
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 263
ccuugacugg cuggccaugu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 264
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 264
ucuggcagca agcacuaugc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 265
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 265
aaacuaaugc cagauacauc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 266
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 266
auccuuagua gggucacaug 20
<210> 267
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 267
ugugacccua cuaaggaugc 20
<210> 268
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 268
acacuccucc uuauaugguc 20
<210> 269
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 269
acgugcugag gucuaacaga 20
<210> 270
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 270
aaccacaugu gacccuacua 20
<210> 271
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 271
aagagccagc auccuuagua 20
<210> 272
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 272
gcacgugucu cugugguuag 20
<210> 273
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 273
ucugugguua gaggaguccg 20
<210> 274
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 274
gugguuagag gaguccgugg 20
<210> 275
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 275
uugagacacu ccuccuuaua 20
<210> 276
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 276
cugugagugc ucauccuguc 20
<210> 277
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 277
ccauucacug accacaccau 20
<210> 278
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 278
gugcugaggu cuaacagaug 20
<210> 279
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 279
acacaaccag caagacuagc 20
<210> 280
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 280
ggacacauuu cuuaccugac 20
<210> 281
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 281
gaagagccag cauccuuagu 20
<210> 282
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 282
auccuuagua gggucacaug guuuagagcu augcu 35
<210> 283
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 283
ugugacccua cuaaggaugc guuuagagcu augcu 35
<210> 284
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 284
acacuccucc uuauaugguc guuuagagcu augcu 35
<210> 285
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 285
acgugcugag gucuaacaga guuuagagcu augcu 35
<210> 286
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 286
aaccacaugu gacccuacua guuuagagcu augcu 35
<210> 287
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 287
aagagccagc auccuuagua guuuagagcu augcu 35
<210> 288
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 288
gcacgugucu cugugguuag guuuagagcu augcu 35
<210> 289
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 289
ucugugguua gaggaguccg guuuagagcu augcu 35
<210> 290
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 290
gugguuagag gaguccgugg guuuagagcu augcu 35
<210> 291
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 291
uugagacacu ccuccuuaua guuuagagcu augcu 35
<210> 292
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 292
cugugagugc ucauccuguc guuuagagcu augcu 35
<210> 293
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 293
ccauucacug accacaccau guuuagagcu augcu 35
<210> 294
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 294
gugcugaggu cuaacagaug guuuagagcu augcu 35
<210> 295
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 295
acacaaccag caagacuagc guuuagagcu augcu 35
<210> 296
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 296
ggacacauuu cuuaccugac guuuagagcu augcu 35
<210> 297
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 297
gaagagccag cauccuuagu guuuagagcu augcu 35
<210> 298
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 298
auccuuagua gggucacaug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 299
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 299
ugugacccua cuaaggaugc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 300
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 300
acacuccucc uuauaugguc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 301
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 301
acgugcugag gucuaacaga guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 302
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 302
aaccacaugu gacccuacua guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 303
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 303
aagagccagc auccuuagua guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 304
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 304
gcacgugucu cugugguuag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 305
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 305
ucugugguua gaggaguccg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 306
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 306
gugguuagag gaguccgugg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 307
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 307
uugagacacu ccuccuuaua guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 308
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 308
cugugagugc ucauccuguc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 309
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 309
ccauucacug accacaccau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 310
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 310
gugcugaggu cuaacagaug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 311
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 311
acacaaccag caagacuagc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 312
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 312
ggacacauuu cuuaccugac guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 313
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 313
gaagagccag cauccuuagu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 314
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 314
gaguauucuu guaagacacg 20
<210> 315
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 315
gguguaggga accaacacag 20
<210> 316
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 316
ugaugaggug agcacacacg 20
<210> 317
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 317
cucggaguuu uucacuggag 20
<210> 318
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 318
ucguuguugu ccucuacuuu 20
<210> 319
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 319
ggcuuuauca aagugauccc 20
<210> 320
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 320
aagcugauau gcaggaaccc 20
<210> 321
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 321
gcaaguuuua ggcuaugucc 20
<210> 322
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 322
gagcacaacu cugagagggu 20
<210> 323
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 323
aaguucucgg aguuuuucac 20
<210> 324
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 324
gaguauucuu guaagacacg guuuagagcu augcu 35
<210> 325
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 325
gguguaggga accaacacag guuuagagcu augcu 35
<210> 326
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 326
ugaugaggug agcacacacg guuuagagcu augcu 35
<210> 327
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 327
cucggaguuu uucacuggag guuuagagcu augcu 35
<210> 328
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 328
ucguuguugu ccucuacuuu guuuagagcu augcu 35
<210> 329
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 329
ggcuuuauca aagugauccc guuuagagcu augcu 35
<210> 330
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 330
aagcugauau gcaggaaccc guuuagagcu augcu 35
<210> 331
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 331
gcaaguuuua ggcuaugucc guuuagagcu augcu 35
<210> 332
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 332
gagcacaacu cugagagggu guuuagagcu augcu 35
<210> 333
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 333
aaguucucgg aguuuuucac guuuagagcu augcu 35
<210> 334
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 334
gaguauucuu guaagacacg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 335
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 335
gguguaggga accaacacag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 336
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 336
ugaugaggug agcacacacg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 337
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 337
cucggaguuu uucacuggag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 338
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 338
ucguuguugu ccucuacuuu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 339
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 339
ggcuuuauca aagugauccc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 340
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 340
aagcugauau gcaggaaccc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 341
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 341
gcaaguuuua ggcuaugucc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 342
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 342
gagcacaacu cugagagggu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 343
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 343
aaguucucgg aguuuuucac guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 344
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 344
aacauuuuca auccgaugag 20
<210> 345
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 345
gaaacauuuu caauccgaug 20
<210> 346
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 346
aacauuuuca auccgaugag guuuagagcu augcu 35
<210> 347
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 347
gaaacauuuu caauccgaug guuuagagcu augcu 35
<210> 348
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 348
aacauuuuca auccgaugag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 349
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 349
gaaacauuuu caauccgaug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 350
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 350
acggacacua ccaaggagcg 20
<210> 351
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 351
acaugaacga ggccaagcgg 20
<210> 352
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 352
gacacuacca aggagcgcgg 20
<210> 353
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 353
uuucagucgg gacaugaacg 20
<210> 354
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 354
acacuaccaa ggagcgcggc 20
<210> 355
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 355
ugagagguag cggcuuacgu 20
<210> 356
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 356
aaugggcuuc acgaaggugc 20
<210> 357
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 357
gaaugucccu gucuacgaug 20
<210> 358
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 358
caugaacgag gccaagcgga 20
<210> 359
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 359
cgacagaugg uguaguccaa 20
<210> 360
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 360
cuugaagaac cuccucgugg 20
<210> 361
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 361
gaugcuuugg caagauggcg 20
<210> 362
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 362
uugaagaacc uccucguggc 20
<210> 363
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 363
ucgugaagcc cauuuucagu 20
<210> 364
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 364
acugaaaaug ggcuucacga 20
<210> 365
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 365
cacgacccag cgaccuccug 20
<210> 366
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 366
uucugagugu cucucuucgc 20
<210> 367
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 367
ugacucugag gcucucggau 20
<210> 368
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 368
aggugccgaa cacuggugag 20
<210> 369
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 369
ggaccccgag guaacugcug 20
<210> 370
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 370
ggccuugaag aaccuccucg 20
<210> 371
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 371
cccaaguugg ugaccucagc 20
<210> 372
<211> 20
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 372
ccagcugagg ucaccaacuu 20
<210> 373
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 373
acggacacua ccaaggagcg guuuagagcu augcu 35
<210> 374
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 374
acaugaacga ggccaagcgg guuuagagcu augcu 35
<210> 375
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 375
gacacuacca aggagcgcgg guuuagagcu augcu 35
<210> 376
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 376
uuucagucgg gacaugaacg guuuagagcu augcu 35
<210> 377
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 377
acacuaccaa ggagcgcggc guuuagagcu augcu 35
<210> 378
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 378
ugagagguag cggcuuacgu guuuagagcu augcu 35
<210> 379
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 379
aaugggcuuc acgaaggugc guuuagagcu augcu 35
<210> 380
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 380
gaaugucccu gucuacgaug guuuagagcu augcu 35
<210> 381
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 381
caugaacgag gccaagcgga guuuagagcu augcu 35
<210> 382
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 382
cgacagaugg uguaguccaa guuuagagcu augcu 35
<210> 383
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 383
cuugaagaac cuccucgugg guuuagagcu augcu 35
<210> 384
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 384
gaugcuuugg caagauggcg guuuagagcu augcu 35
<210> 385
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 385
uugaagaacc uccucguggc guuuagagcu augcu 35
<210> 386
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 386
ucgugaagcc cauuuucagu guuuagagcu augcu 35
<210> 387
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 387
acugaaaaug ggcuucacga guuuagagcu augcu 35
<210> 388
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 388
cacgacccag cgaccuccug guuuagagcu augcu 35
<210> 389
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 389
uucugagugu cucucuucgc guuuagagcu augcu 35
<210> 390
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 390
ugacucugag gcucucggau guuuagagcu augcu 35
<210> 391
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 391
aggugccgaa cacuggugag guuuagagcu augcu 35
<210> 392
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 392
ggaccccgag guaacugcug guuuagagcu augcu 35
<210> 393
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 393
ggccuugaag aaccuccucg guuuagagcu augcu 35
<210> 394
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 394
cccaaguugg ugaccucagc guuuagagcu augcu 35
<210> 395
<211> 35
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
寡核苷酸
<400> 395
ccagcugagg ucaccaacuu guuuagagcu augcu 35
<210> 396
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 396
acggacacua ccaaggagcg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 397
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 397
acaugaacga ggccaagcgg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 398
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 398
gacacuacca aggagcgcgg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 399
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 399
uuucagucgg gacaugaacg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 400
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 400
acacuaccaa ggagcgcggc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 401
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 401
ugagagguag cggcuuacgu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 402
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 402
aaugggcuuc acgaaggugc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 403
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 403
gaaugucccu gucuacgaug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 404
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 404
caugaacgag gccaagcgga guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 405
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 405
cgacagaugg uguaguccaa guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 406
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 406
cuugaagaac cuccucgugg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 407
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 407
gaugcuuugg caagauggcg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 408
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 408
uugaagaacc uccucguggc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 409
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 409
ucgugaagcc cauuuucagu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 410
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 410
acugaaaaug ggcuucacga guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 411
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 411
cacgacccag cgaccuccug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 412
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 412
uucugagugu cucucuucgc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 413
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 413
ugacucugag gcucucggau guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 414
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 414
aggugccgaa cacuggugag guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 415
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 415
ggaccccgag guaacugcug guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 416
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 416
ggccuugaag aaccuccucg guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 417
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 417
cccaaguugg ugaccucagc guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100
<210> 418
<211> 100
<212> RNA
<213> 人工序列
<220>
<223> 人工序列的描述: 合成的
多核苷酸
<400> 418
ccagcugagg ucaccaacuu guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc 60
cguuaucaac uugaaaaagu ggcaccgagu cggugcuuuu 100

Claims (134)

1.一种分析(例如,测序、基因分型、结构分析)感兴趣的基因组区域的方法,所述方法包括:
a)使包含所述感兴趣的基因组区域的基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和外向导RNA(gRNA)对接触,从而生成包含所述感兴趣的基因组区域的第一切除片段;
b)使所述第一切除片段与CRISPR相关核酸内切酶和内gRNA对接触,从而生成包含所述感兴趣的基因组区域的第二切除片段;以及
c)分析所述第二切除片段内所含的所述感兴趣的基因组区域。
2.如权利要求1所述的方法,其中a)的所述CRISPR相关核酸内切酶和所述外gRNA对与所述第一切除片段的5’末端和3’末端缔合并将其封闭。
3.如权利要求2所述的方法,还包括在b)之前,使a)的产物与一种或多种核酸外切酶接触,使得背景基因组DNA被消化并且所述第一切除片段不被消化。
4.如前述权利要求中任一项所述的方法,其中所述一种或多种核酸外切酶选自:核酸外切酶I、核酸外切酶II、核酸外切酶III、核酸外切酶IV、核酸外切酶V、核酸外切酶VI、核酸外切酶VII、核酸外切酶VIII及其任何组合。
5.如前述权利要求中任一项所述的方法,其中所述外gRNA对包含第一外gRNA和第二外gRNA。
6.如权利要求5所述的方法,其中所述第一外gRNA包含与所述基因组DNA中存在的第一核苷酸序列基本上互补的核苷酸序列,并且所述第二外gRNA包含与所述基因组DNA中存在的第二核苷酸序列基本上互补的核苷酸序列。
7.如权利要求6所述的方法,其中所述第一核苷酸序列和所述第二核苷酸序列是不同的。
8.如权利要求7所述的方法,其中所述第一核苷酸序列和所述第二核苷酸序列侧接所述感兴趣的基因组区域。
9.如权利要求8所述的方法,其中所述第一核苷酸序列、所述第二核苷酸序列或两者存在于所述基因组DNA中,距离所述感兴趣的基因组区域的长度长达约100千碱基。
10.如前述权利要求中任一项所述的方法,其中所述内gRNA对包含第一内gRNA和第二内gRNA。
11.如权利要求10所述的方法,其中所述第一内gRNA包含与所述基因组DNA中存在的第三核苷酸序列基本上互补的核苷酸序列,并且所述第二内gRNA包含与所述基因组DNA中存在的第四核苷酸序列基本上互补的核苷酸序列。
12.如权利要求11所述的方法,其中所述第三核苷酸序列和所述第四核苷酸序列是不同的。
13.如权利要求12所述的方法,其中所述第三核苷酸序列和所述第四核苷酸序列侧接所述感兴趣的基因组区域。
14.如权利要求6-9或11-13中任一项所述的方法,其中所述第三核苷酸序列和所述第四核苷酸序列以比所述第一核苷酸序列和所述第二核苷酸序列更接近所述感兴趣的基因组区域的碱基长度存在于所述基因组DNA上。
15.如前述权利要求中任一项所述的方法,其中所述第二切除片段的碱基长度小于所述第一切除片段。
16.如权利要求1所述的方法,其中所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行测序。
17.如前述权利要求中任一项所述的方法,其中所述基因组DNA以约10μg或更大的量提供。
18.如前述权利要求中任一项所述的方法,其中所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行基因分型。
19.如前述权利要求中任一项所述的方法,其中所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行结构分析。
20.如前述权利要求中任一项所述的方法,还包括在b)之前,分离所述第一切除片段。
21.如前述权利要求中任一项所述的方法,还包括在c)之前,分离所述第二切除片段。
22.如前述权利要求中任一项所述的方法,其中所述方法不涉及DNA扩增。
23.如前述权利要求中任一项所述的方法,还包括在c)之前,将一个或多个适配体附接至所述第二切除片段的所述5’末端、所述3’末端或两者。
24.如前述权利要求中任一项所述的方法,其中所述CRISPR相关核酸内切酶是1类CRISPR相关核酸内切酶或2类CRISPR相关核酸内切酶。
25.如权利要求24所述的方法,其中所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。
26.如权利要求24所述的方法,其中所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。
27.如前述权利要求中任一项所述的方法,其中所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。
28.如前述权利要求中任一项所述的方法,其中所述CRISPR相关核酸内切酶是Cas9或其变体。
29.如权利要求28所述的方法,其中所述Cas9是酿脓链球菌Cas9(spCas9)。
30.如权利要求28或29所述的方法,其中相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。
31.如前述权利要求中任一项所述的方法,其中所述基因组DNA在a)之前未被片段化、消化或剪切。
32.如前述权利要求中任一项所述的方法,其中所述基因组DNA在a)之前未经受限制性酶消化。
33.如前述权利要求中任一项所述的方法,其中所述感兴趣的基因组区域是复杂基因组区域。
34.如权利要求33所述的方法,其中所述复杂基因组区域包含感兴趣的基因及其一个或多个假基因。
35.如权利要求34所述的方法,其中所述一个或多个假基因包含与所述感兴趣的基因具有至少75%序列同一性的核苷酸序列。
36.如权利要求33中任一项所述的方法,其中所述复杂基因组区域包含一个或多个重复区域、一个或多个重复、一个或多个插入、一个或多个倒位、一个或多个串联重复序列、一个或多个反转录转座子或其任何组合。
37.如前述权利要求中任一项所述的方法,其中所述感兴趣的基因组区域是高多态性基因座。
38.如前述权利要求中任一项所述的方法,其中所述第一切除片段的长度是至少约0.06千碱基。
39.如前述权利要求中任一项所述的方法,其中所述第一切除片段的长度是长达约200千碱基。
40.如前述权利要求中任一项所述的方法,其中所述第二切除片段的长度是至少约0.02千碱基。
41.如前述权利要求中任一项所述的方法,其中所述第二切除片段的长度是长达约199.98千碱基。
42.如前述权利要求中任一项所述的方法,其中所述测序包括长读长测序。
43.如权利要求42所述的方法,其中所述长读长测序包括单分子实时测序或纳米孔测序。
44.如前述权利要求中任一项所述的方法,其中所述方法不涉及聚合酶链式反应(PCR)或等温扩增中的任一种。
45.如权利要求44所述的方法,其中所述方法不涉及以下中的任一种:多重置换扩增(MDA)、链置换扩增(SDA)、基于核酸序列的扩增(NASBA)、环介导的等温扩增、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法。
46.如前述权利要求中任一项所述的方法,其中所述基因组DNA是在生物样品中提供或获得的。
47.如权利要求46所述的方法,其中所述生物样品包括体液(例如,血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳)或固体组织样品。
48.如权利要求47所述的方法,其中所述生物样品是诊断样品。
49.如前述权利要求中任一项所述的方法,其中所述感兴趣的基因组区域是包含CYP2D6、CYP2D7和CYP2D8的遗传基因座。
50.如权利要求49所述的方法,其中所述分析包括鉴定CYP2D6中的一个或多个遗传变异。
51.如权利要求50所述的方法,还包括基于所述遗传变异,将对象鉴定为具有CYP2D6功能的减少、丧失或增加。
52.如权利要求51所述的方法,还包括基于所述鉴定,为所述对象推荐治疗或替代性治疗。
53.如权利要求51所述的方法,其中当所述对象被鉴定为具有CYP2D6功能的减少、丧失或增加时,为所述对象推荐替代性治疗。
54.如权利要求51所述的方法,还包括基于所述鉴定,为所述对象推荐治疗剂的剂量。
55.如权利要求51所述的方法,其中当所述对象被鉴定为具有CYP2D6功能的减少、丧失或增加时,改变治疗剂的剂量。
56.如前述权利要求中任一项所述的方法,其中所述外gRNA对、所述内gRNA对或两者包含选自SEQ ID NO:1-418中的任一个的gRNA。
57.一种用于分析感兴趣的基因组区域的试剂盒,所述试剂盒包括:
a)规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶;
b)外gRNA对,所述外gRNA对包含:
i)包含与基因组DNA中存在的第一核苷酸序列基本上互补的核苷酸序列的第一外gRNA,所述第一核苷酸序列在所述感兴趣的基因组区域的上游;和
ii)包含与基因组DNA中存在的第二核苷酸序列基本上互补的核苷酸序列的第二外gRNA,所述第二核苷酸序列在所述感兴趣的基因组区域的下游;
c)内gRNA对,所述内gRNA对包含:
iii)包含与基因组DNA中存在的第三核苷酸序列基本上互补的核苷酸序列的第一内gRNA,所述第三核苷酸序列在所述感兴趣的基因组区域的上游;和
iv)包含与基因组DNA中存在的第四核苷酸序列基本上互补的核苷酸序列的第二内gRNA,所述第四核苷酸序列在所述感兴趣的基因组区域的下游,
其中所述第三核苷酸序列和所述第四核苷酸序列以比所述第一核苷酸序列和所述第二核苷酸序列更接近所述感兴趣的基因组区域的碱基长度存在于所述基因组DNA上。
58.如权利要求57所述的试剂盒,还包括一种或多种核酸外切酶。
59.如权利要求58所述的试剂盒,其中所述一种或多种核酸外切酶选自:核酸外切酶I、核酸外切酶II、核酸外切酶III、核酸外切酶IV、核酸外切酶V、核酸外切酶VI、核酸外切酶VII、核酸外切酶VIII及其任何组合。
60.如权利要求57-59中任一项所述的试剂盒,其中所述CRISPR相关核酸内切酶是1类或2类CRISPR相关核酸内切酶。
61.如权利要求60所述的试剂盒,其中所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。
62.如权利要求60所述的试剂盒,其中所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。
63.如权利要求57-62中任一项所述的试剂盒,其中所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。
64.如权利要求57-63中任一项所述的试剂盒,其中所述CRISPR相关核酸内切酶是Cas9或其变体。
65.如权利要求64所述的试剂盒,其中所述Cas9是酿脓链球菌Cas9(spCas9)。
66.如权利要求64或65所述的试剂盒,其中相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。
67.如权利要求57-66中任一项所述的试剂盒,其中所述感兴趣的基因组区域是包含CYP2D6、CYP2D7和CYP2D8的基因组基因座。
68.如权利要求67所述的试剂盒,其中所述第一外向导RNA、所述第一内向导RNA或两者包含SEQ ID NO:3-12、17-26、68-77、82-214和344-418中的任一个的核苷酸序列。
69.如权利要求67或68所述的试剂盒,其中所述第二外向导RNA、所述第二内向导RNA或两者包含SEQ ID NO:1、2、13-16、27-67、78-81和215-343中的任一个的核苷酸序列。
70.如权利要求57-69中任一项所述的试剂盒,还包括用于在嵌套CRISPR反应中使用所述试剂盒的说明书。
71.如权利要求57-70中任一项所述的试剂盒,还包括用于使用所述试剂盒从基因组DNA中切除所述感兴趣的基因组区域的说明书。
72.一种用于分析感兴趣的基因组区域的系统,所述系统包括:
(a)被配置为接收数据输入的至少一个存储位置,所述数据输入包括由一种方法生成的数据,所述方法包括:
(i)使包含所述感兴趣的基因组区域的基因组DNA与规律间隔成簇短回文重复序列(CRISPR)相关核酸内切酶和外向导RNA(gRNA)对接触,从而生成包含所述感兴趣的基因组区域的第一切除片段;
(ii)使所述第一切除片段与CRISPR相关核酸内切酶和内gRNA对接触,从而生成包含所述感兴趣的基因组区域的第二切除片段;以及
(iii)分析所述第二切除片段内所含的所述感兴趣的基因组区域;和
(b)可操作地耦合到所述至少一个存储位置的计算机处理器,其中所述计算机处理器被编程为基于所述数据生成输出。
73.如权利要求72所述的系统,其中所述输出是报告。
74.如权利要求72或73所述的系统,其中所述输出是所述感兴趣的基因组区域的基因型。
75.如权利要求72或73所述的系统,其中所述输出是所述感兴趣的基因组区域的遗传序列。
76.如权利要求72或73所述的系统,其中所述输出是所述感兴趣的基因组区域的结构分析。
77.如权利要求72-76中任一项所述的系统,其中所述分析包括对所述感兴趣的基因组区域进行基因分型。
78.如权利要求72-77中任一项所述的系统,其中所述分析包括对所述感兴趣的基因组区域进行结构分析。
79.如权利要求72-78中任一项所述的系统,其中所述分析包括对所述感兴趣的基因组区域进行测序。
80.如权利要求79所述的系统,其中所述测序包括长读长测序。
81.如权利要求80所述的系统,其中所述长读长测序包括单分子实时测序或纳米孔测序。
82.如权利要求72-81中任一项所述的系统,其中(i)的所述CRISPR相关核酸内切酶和所述外gRNA对与所述第一切除片段的5’末端和3’末端缔合并将其封闭。
83.如权利要求82所述的系统,还包括在(ii)之前,使(i)的产物与一种或多种核酸外切酶接触,使得背景基因组DNA被消化并且所述第一切除片段不被消化。
84.如权利要求72-83中任一项所述的系统,其中所述一种或多种核酸外切酶选自:核酸外切酶I、核酸外切酶II、核酸外切酶III、核酸外切酶IV、核酸外切酶V、核酸外切酶VI、核酸外切酶VII、核酸外切酶VIII及其任何组合。
85.如权利要求72-84中任一项所述的系统,其中所述外gRNA对包含第一外gRNA和第二外gRNA。
86.如权利要求85所述的系统,其中所述第一外gRNA包含与所述基因组DNA中存在的第一核苷酸序列基本上互补的核苷酸序列,并且所述第二外gRNA包含与所述基因组DNA中存在的第二核苷酸序列基本上互补的核苷酸序列。
87.如权利要求86所述的系统,其中所述第一核苷酸序列和所述第二核苷酸序列是不同的。
88.如权利要求87所述的系统,其中所述第一核苷酸序列和所述第二核苷酸序列侧接所述感兴趣的基因组区域。
89.如权利要求88所述的系统,其中所述第一核苷酸序列、所述第二核苷酸序列或两者存在于所述基因组DNA中,距离所述感兴趣的基因组区域的长度长达约100千碱基。
90.如权利要求72-89中任一项所述的系统,其中所述内gRNA对包含第一内gRNA和第二内gRNA。
91.如权利要求90所述的系统,其中所述第一内gRNA包含与所述基因组DNA中存在的第三核苷酸序列基本上互补的核苷酸序列,并且所述第二内gRNA包含与所述基因组DNA中存在的第四核苷酸序列基本上互补的核苷酸序列。
92.如权利要求91所述的系统,其中所述第三核苷酸序列和所述第四核苷酸序列是不同的。
93.如权利要求92所述的系统,其中所述第三核苷酸序列和所述第四核苷酸序列侧接所述感兴趣的基因组区域。
94.如权利要求91-93中任一项所述的系统,其中所述第三核苷酸序列和所述第四核苷酸序列以比所述第一核苷酸序列和所述第二核苷酸序列更接近所述感兴趣的基因组区域的碱基长度存在于所述基因组DNA上。
95.如权利要求72-94中任一项所述的系统,其中所述第二切除片段的碱基长度小于所述第一切除片段。
96.如权利要求72-95中任一项所述的系统,其中所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行测序。
97.如权利要求72-96中任一项所述的系统,其中所述基因组DNA以约10μg或更大的量提供。
98.如权利要求72-97中任一项所述的系统,其中所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行基因分型。
99.如权利要求72-98中任一项所述的系统,其中所述分析包括对所述第二切除片段内所含的所述感兴趣的基因组区域进行结构分析。
100.如权利要求72-99中任一项所述的系统,还包括在(ii)之前,分离所述第一切除片段。
101.如权利要求72-100中任一项所述的系统,还包括在(iii)之前,分离所述第二切除片段。
102.如权利要求72-101中任一项所述的系统,其中所述方法不涉及DNA扩增。
103.如权利要求72-102中任一项所述的系统,还包括在(iii)之前,将一个或多个适配体附接至所述第二切除片段的所述5’末端、所述3’末端或两者。
104.如权利要求72-103中任一项所述的系统,其中所述CRISPR相关核酸内切酶是1类CRISPR相关核酸内切酶或2类CRISPR相关核酸内切酶。
105.如权利要求104所述的系统,其中所述1类CRISPR相关核酸内切酶选自:Cas3、Cas5、Cas8a、Cas8b、Cas8c、Cas10d、Cse1、Cse2、Csy1、Csy2、Csy3、GSU0054、Cas10、Csm2、Cmr5、Csx11、Csx10和Csf1。
106.如权利要求104所述的系统,其中所述2类CRISPR相关核酸内切酶选自:Cas9、Cas12a、Csn2、Cas4、Cas12b、Cas12c、Cas13a、Cas13b、Cas13c和Cas13d。
107.如权利要求72-106中任一项所述的系统,其中所述CRISPR相关核酸内切酶包含与野生型CRISPR相关核酸内切酶具有至少80%序列同一性的氨基酸序列。
108.如权利要求72-107中任一项所述的系统,其中所述CRISPR相关核酸内切酶是Cas9或其变体。
109.如权利要求108所述的系统,其中所述Cas9是酿脓链球菌Cas9(spCas9)。
110.如权利要求108或109所述的系统,其中相对于野生型酿脓链球菌Cas9(spCas9),所述Cas9变体包含一个或多个选自以下的点突变:R780A、K810A、K848A、K855A、H982A、K1003A、R1060A、D1135E、N497A、R661A、Q695A、Q926A、L169A、Y450A、M495A、M694A和M698A。
111.如权利要求72-110中任一项所述的系统,其中所述基因组DNA在(i)之前未被片段化、消化或剪切。
112.如权利要求72-111中任一项所述的系统,其中所述基因组DNA在(i)之前未经受限制性酶消化。
113.如权利要求72-112中任一项所述的系统,其中所述感兴趣的基因组区域是复杂基因组区域。
114.如权利要求113所述的系统,其中所述复杂基因组区域包含感兴趣的基因及其一个或多个假基因。
115.如权利要求114所述的系统,其中所述一个或多个假基因包含与所述感兴趣的基因具有至少75%序列同一性的核苷酸序列。
116.如权利要求113所述的系统,其中所述复杂基因组区域包含一个或多个重复区域、一个或多个重复、一个或多个插入、一个或多个倒位、一个或多个串联重复序列、一个或多个反转录转座子或其任何组合。
117.如权利要求72-116中任一项所述的系统,其中所述感兴趣的基因组区域是高多态性基因座。
118.如权利要求72-117中任一项所述的系统,其中所述第一切除片段的长度是至少约0.06千碱基。
119.如权利要求72-118中任一项所述的系统,其中所述第一切除片段的长度是长达约200千碱基。
120.如权利要求72-119中任一项所述的系统,其中所述第二切除片段的长度是至少约0.02千碱基。
121.如权利要求72-120中任一项所述的系统,其中所述第二切除片段的长度是长达约199.98千碱基。
122.如权利要求72-121中任一项所述的系统,其中所述方法不涉及聚合酶链式反应(PCR)或等温扩增中的任一种。
123.如权利要求122所述的系统,其中所述方法不涉及以下中的任一种:多重置换扩增(MDA)、链置换扩增(SDA)、基于核酸序列的扩增(NASBA)、环介导的等温扩增、滚环扩增(RCA)、连接酶链式反应(LCR)、解旋酶依赖性扩增或网状分枝扩增方法。
124.如权利要求72-123中任一项所述的系统,其中所述基因组DNA是在生物样品中提供或获得的。
125.如权利要求124所述的系统,其中所述生物样品包括体液(例如,血液(例如,全血、血浆、血清)、尿液、唾液、骨髓、脊髓液、痰液、腹水、淋巴液、胸膜液、羊水、精液、阴道液、汗液、粪便、腺体分泌物、眼液、母乳)或固体组织样品。
126.如权利要求124所述的系统,其中所述生物样品是诊断样品。
127.如权利要求72-126中任一项所述的系统,其中所述感兴趣的基因组区域是包含CYP2D6、CYP2D7和CYP2D8的遗传基因座。
128.如权利要求127所述的系统,其中所述分析包括鉴定CYP2D6中的一个或多个遗传变异。
129.如权利要求128所述的系统,其中所述输出包括基于所述遗传变异,将对象鉴定为具有CYP2D6功能的减少、丧失或增加。
130.如权利要求129所述的系统,其中所述输出包括基于所述鉴定,为所述对象推荐治疗或替代性治疗。
131.如权利要求129所述的系统,其中当所述对象被鉴定为具有CYP2D6功能的减少、丧失或增加时,所述输出还包括为所述对象推荐替代性治疗。
132.如权利要求129所述的系统,其中所述输出还基于所述鉴定为所述对象推荐治疗剂的剂量。
133.如权利要求129所述的系统,其中当所述对象被鉴定为具有CYP2D6功能的减少、丧失或增加时,所述输出还包括推荐改变治疗剂的剂量。
134.如权利要求72-133中任一项所述的系统,其中所述外gRNA对、所述内gRNA对或两者包含选自SEQ ID NO:1-418中的任一个的gRNA。
CN202280040654.XA 2021-04-06 2022-04-05 用于分析复杂基因组区域的方法和系统 Pending CN117441026A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US202163171387P 2021-04-06 2021-04-06
US63/171,387 2021-04-06
PCT/US2022/023483 WO2022216711A1 (en) 2021-04-06 2022-04-05 Methods and systems for analyzing complex genomic regions

Publications (1)

Publication Number Publication Date
CN117441026A true CN117441026A (zh) 2024-01-23

Family

ID=83545695

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202280040654.XA Pending CN117441026A (zh) 2021-04-06 2022-04-05 用于分析复杂基因组区域的方法和系统

Country Status (7)

Country Link
US (1) US20240209442A1 (zh)
EP (1) EP4320266A1 (zh)
JP (1) JP2024513236A (zh)
CN (1) CN117441026A (zh)
AU (1) AU2022255315A1 (zh)
CA (1) CA3216210A1 (zh)
WO (1) WO2022216711A1 (zh)

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8688385B2 (en) * 2003-02-20 2014-04-01 Mayo Foundation For Medical Education And Research Methods for selecting initial doses of psychotropic medications based on a CYP2D6 genotype
US20200157599A9 (en) * 2017-06-13 2020-05-21 Genetics Research, Llc, D/B/A Zs Genetics, Inc. Negative-positive enrichment for nucleic acid detection
AU2020362200A1 (en) * 2019-10-07 2022-04-21 Rprd Diagnostics, Llc Methods and systems for analyzing complex genomic regions
EP4165179A2 (en) * 2020-06-12 2023-04-19 Qiagen Sciences LLC Methods of enriching for target nucleic acid molecules and uses thereof

Also Published As

Publication number Publication date
CA3216210A1 (en) 2022-10-13
WO2022216711A1 (en) 2022-10-13
US20240209442A1 (en) 2024-06-27
AU2022255315A1 (en) 2023-10-05
EP4320266A1 (en) 2024-02-14
JP2024513236A (ja) 2024-03-22

Similar Documents

Publication Publication Date Title
Sarver et al. TAPDANCE: an automated tool to identify and annotate transposon insertion CISs and associations between CISs from next generation sequence data
CN113774132A (zh) 检测染色体片段中的突变和倍性
CA2965849A1 (en) Sequencing controls
CN107614697A (zh) 用于提高突变评估准确性的方法和装置
US20180135120A1 (en) Comprehensive methods for detecting genomic variations
US20230360727A1 (en) Computational modeling of loss of function based on allelic frequency
US20240011073A1 (en) Methods and systems for analyzing complex genomic regions
Li et al. VarBen: generating in silico reference data sets for clinical next-generation sequencing bioinformatics pipeline evaluation
JP2022514010A (ja) 核酸分子の回収率を改善するための方法、組成物、およびシステム
CN117441026A (zh) 用于分析复杂基因组区域的方法和系统
US11718873B2 (en) Correcting for deamination-induced sequence errors
US20210002700A1 (en) Identification, characterization, and quantitation of crispr-introduced double-stranded dna break repairs
CN114746560A (zh) 改进甲基化多核苷酸结合的方法、组合物和系统
US20190287648A1 (en) Methods for the non-invasive detection and monitoring of therapeutic nucleic acid constructs
CN113227393A (zh) 用于校准表观遗传分区测定的方法、组合物和系统
US20240233871A9 (en) Methods for the non-invasive detection and monitoring of therapeutic nucleic acid constructs
Moradi Impact of genetic polymorphisms on the cancer risk, alternative splicing, and miRNA expression
Khuder Human Genome and Transcriptome Analysis with Next-Generation Sequencing
CN115428087A (zh) 克隆水平缺乏靶变体的显著性建模
Veeneman Development and Application of Methods to Discover Cancer-Associated Transcript Variants.
CN114555824A (zh) 使用长读测序鉴定基因组结构变体

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination