CN114341638A - 用于邻近连接的方法和组合物 - Google Patents

用于邻近连接的方法和组合物 Download PDF

Info

Publication number
CN114341638A
CN114341638A CN202080061082.4A CN202080061082A CN114341638A CN 114341638 A CN114341638 A CN 114341638A CN 202080061082 A CN202080061082 A CN 202080061082A CN 114341638 A CN114341638 A CN 114341638A
Authority
CN
China
Prior art keywords
cases
biological sample
fragments
less
dnase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080061082.4A
Other languages
English (en)
Inventor
伊丽莎白·蒙丁
马可·布兰切特
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Dovetail Genomics LLC
Original Assignee
Dovetail Genomics LLC
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Dovetail Genomics LLC filed Critical Dovetail Genomics LLC
Publication of CN114341638A publication Critical patent/CN114341638A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C40COMBINATORIAL TECHNOLOGY
    • C40BCOMBINATORIAL CHEMISTRY; LIBRARIES, e.g. CHEMICAL LIBRARIES
    • C40B50/00Methods of creating libraries, e.g. combinatorial synthesis
    • C40B50/14Solid phase synthesis, i.e. wherein one or more library building blocks are bound to a solid support during library creation; Particular methods of cleavage from the solid support
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6827Hybridisation assays for detection of mutation or polymorphism
    • C12Q1/683Hybridisation assays for detection of mutation or polymorphism involving restriction enzymes, e.g. restriction fragment length polymorphism [RFLP]
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1065Preparation or screening of tagged libraries, e.g. tagged microorganisms by STM-mutagenesis, tagged polynucleotides, gene tags
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12NMICROORGANISMS OR ENZYMES; COMPOSITIONS THEREOF; PROPAGATING, PRESERVING, OR MAINTAINING MICROORGANISMS; MUTATION OR GENETIC ENGINEERING; CULTURE MEDIA
    • C12N15/00Mutation or genetic engineering; DNA or RNA concerning genetic engineering, vectors, e.g. plasmids, or their isolation, preparation or purification; Use of hosts therefor
    • C12N15/09Recombinant DNA-technology
    • C12N15/10Processes for the isolation, preparation or purification of DNA or RNA
    • C12N15/1034Isolating an individual clone by screening libraries
    • C12N15/1093General methods of preparing gene libraries, not provided for in other subgroups
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6804Nucleic acid analysis using immunogens
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6806Preparing nucleic acids for analysis, e.g. for polymerase chain reaction [PCR] assay
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6844Nucleic acid amplification reactions
    • C12Q1/6853Nucleic acid amplification reactions using modified primers or templates
    • C12Q1/6855Ligating adaptors
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Chemical & Material Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Organic Chemistry (AREA)
  • Engineering & Computer Science (AREA)
  • Genetics & Genomics (AREA)
  • Zoology (AREA)
  • Wood Science & Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biotechnology (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Microbiology (AREA)
  • Physics & Mathematics (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Biophysics (AREA)
  • Analytical Chemistry (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Plant Pathology (AREA)
  • Crystallography & Structural Chemistry (AREA)
  • Immunology (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Structural Engineering (AREA)
  • General Chemical & Material Sciences (AREA)
  • Medicinal Chemistry (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本文提供了邻近连接的方法和用于这样的方法的组合物。本文还提供了与单个细胞核酸构象评估或单个细胞核酸序列或相位信息确定相关的实施方案。可以将构象保留或构象重建的核酸样品片段化并分成等分试样,向其中添加等分试样区分序列片段,以便在分析从样品产生的配对末端文库时,将配对末端分配给来源的分区或细胞。因此可以确定序列和三维核酸构象的细胞特异性变异。

Description

用于邻近连接的方法和组合物
交叉引用
本申请要求于2019年6月27日提交的美国临时专利申请号62/867,463、于2019年11月5日提交的美国临时专利申请号62/931,069、于2020年4月17日提交的美国临时专利申请号63/011,490、于2019年7月3日提交的美国临时专利申请号62/870,297和于2020年4月23日提交的美国临时专利申请号63/014,422的权益,其中的每一个均通过引用以其整体并入本文。
背景技术
特别是当可用于序列分析的源材料有限的情况下,获得高质量、连续的基因组序列通常很困难。虽然获取原始序列数据变得更快且成本更低,但用于有效且准确地分析和组装数据的合适方法仍然是一个挑战。
发明内容
在一方面,提供了核酸分析的方法。在一些情况下,方法可以包括:(a)获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品;(b)将所述稳定化生物样品与非特异性核酸内切酶接触以将所述核酸分子切割成多个片段;(c)将所述多个片段中的第一片段和第二片段在连接序列处附接;以及(d)对所述多个片段进行大小选择以获得多个选择片段。在一些情况下,所述多个选择片段为约145bp至约600bp。在一些情况下,所述多个选择片段为约100bp至约2500bp。在一些情况下,所述多个选择片段为约100bp至约600bp。在一些情况下,所述多个选择片段为约600bp至约2500bp。在一些情况下,所述方法进一步包括,在步骤(d)之前,从所述多个片段制备测序文库。在一些情况下,所述方法进一步包括对所述测序文库进行大小选择以获得大小选择的文库。在一些情况下,所述大小选择的文库的大小为约350bp至约1000bp。在一些情况下,使用凝胶电泳、毛细管电泳、大小选择珠或凝胶过滤柱进行所述大小选择。在一些情况下,所述方法进一步包括分析所述多个选择片段以获得QC值。在一些情况下,所述QC值是基于步骤(d)之前100bp至2500bp大小的片段比例的染色质消化效率(CDE)。在一些情况下,所述方法进一步包括当所述CDE值为至少65%时,选择样品以进行进一步分析。在一些情况下,所述QC值是基于步骤(d)之前单核小体大小的片段数量与双核小体大小的片段数量之比的染色质消化指数(CDI)。在一些情况下,所述方法进一步包括当所述CDI值大于-1.5且小于1时,选择样品以进行进一步分析。在一些情况下,所述方法进一步包括在所述将所述稳定化生物样品与非特异性核酸内切酶接触之后,将所述多个片段结合至一个或更多个表面。在一些情况下,所述一个或更多个表面包括一个或更多个珠。在一些情况下,所述一个或更多个珠是固相可逆固定(SPRI)珠。在一些情况下,所述稳定化生物样品包括稳定化细胞裂解物。在一些情况下,所述稳定化生物样品包括稳定化完整细胞。在一些情况下,所述稳定化生物样品包括稳定化完整细胞核。在一些情况下,步骤(b)在所述完整细胞或所述完整细胞核的裂解之前进行。在一些情况下,所述方法进一步包括在步骤(c)之前,裂解所述稳定化生物样品中的细胞和/或细胞核。在一些情况下,所述稳定化生物样品包含少于3,000,000个细胞。在一些情况下,所述稳定化生物样品包含少于1,000,000个细胞。在一些情况下,所述稳定化生物样品包含少于100,000个细胞。在一些情况下,所述稳定化生物样品包含小于10μg的DNA。在一些情况下,所述稳定化生物样品包含小于1μg的DNA。在一些情况下,所述非特异性核酸内切酶是DNase。在一些情况下,所述DNase是DNase I。在一些情况下,所述DNase是DNase II。在一些情况下,所述DNase是微球菌核酸酶。在一些情况下,所述DNase选自DNase I、DNase II和微球菌核酸酶中的一种或更多种。在一些情况下,所述稳定化生物样品已用交联剂处理。在一些情况下,所述交联剂是化学固定剂。在一些情况下,所述化学固定剂包括甲醛。在一些情况下,所述化学固定剂包括补骨脂素。在一些情况下,化学固定剂包括双琥珀酰亚胺戊二酸酯(DSG)。在一些情况下,所述化学固定剂包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS)。在一些情况下,所述化学固定剂包括双琥珀酰亚胺戊二酸酯(DSG)和乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS)。在一些情况下,所述交联剂是紫外光。在一些情况下,所述稳定化生物样品是交联的石蜡包埋的组织样品。在一些情况下,所述方法进一步包括将所述多个选择片段与抗体接触。在一些情况下,所述方法进一步包括对所述多个片段进行免疫沉淀。在一些情况下,在所述附接之后进行所述免疫沉淀。在一些情况下,附接包括使用生物素标签化的核苷酸填充粘性末端。在一些情况下,附接包括使用未标签化的核苷酸填充粘性末端。在一些情况下,附接包括连接钝性末端。在一些情况下,附接包括添加突出端。在一些情况下,添加突出端包括腺苷酸化。在一些情况下,附接包括将至少所述第一片段和所述第二片段与至少一个桥接寡核苷酸接触。在一些情况下,所述桥接寡核苷酸的长度为至少10bp。在一些情况下,所述桥接寡核苷酸的长度为至少12bp。在一些情况下,所述桥接寡核苷酸的长度为12bp。在一些情况下,所述桥接寡核苷酸包含条形码序列。在一些情况下,所述桥接寡核苷酸包含亲和标签。在一些情况下,所述亲和标签是生物素。在一些情况下,附接包括将至少所述第一片段和所述第二片段与多个桥接寡核苷酸串联接触。在一些情况下,附接导致所述稳定化生物样品的样品、细胞、细胞核、染色体或核酸分子接收独特的桥接寡核苷酸序列。在一些情况下,所述至少一个桥接寡核苷酸与免疫球蛋白结合蛋白或其片段偶联。在一些情况下,所述至少一个桥接寡核苷酸与两个或更多个免疫球蛋白结合蛋白或其片段偶联或融合。在一些情况下,所述免疫球蛋白结合蛋白选自蛋白质A、蛋白质G、蛋白质A/G和蛋白质L。在一些情况下,附接包括将至少所述第一片段和所述第二片段与条形码接触。在一些情况下,所述方法不包括剪切步骤。在一些情况下,所述方法进一步包括:(e)在所述连接序列的每一侧获得至少一些序列以生成第一读取对。在一些情况下,所述方法进一步包括(f)将所述第一读取对映射到重叠群的集合上;以及(g)确定通过所述重叠群的集合的代表到基因组的顺序和/或取向的路径。替代地或组合地,所述方法进一步包括(f)将所述第一读取对映射到重叠群的集合上;以及(g)从所述重叠群的集合确定所述稳定化生物样品中的结构变体的存在或杂合性丢失。替代地或组合地,所述方法进一步包括(f)将所述第一读取对映射到重叠群的集合上;以及(g)将所述重叠群的集合中的变体分配给相位。在一些情况下,所述变体是人类白细胞抗原(HLA)变体。在一些情况下,所述变体是杀伤细胞免疫球蛋白样受体(KIR)变体。替代地或组合地,所述方法进一步包括(f)将所述第一读取对映射到重叠群的集合上;(g)从所述重叠群的集合确定所述重叠群的集合中的变体的存在;以及(h)进行选自以下一项或多项的步骤:(1)鉴定所述稳定化生物样品的疾病分期、预后或治疗过程;(2)基于所述变体的所述存在选择药物;或(3)鉴定所述稳定化生物样品的药物疗效。在一些情况下,所述DNase与免疫球蛋白结合蛋白或其片段偶联或融合。在一些情况下,所述DNase与两个或更多个免疫球蛋白结合蛋白或其片段偶联。在一些情况下,所述免疫球蛋白结合蛋白选自蛋白质A、蛋白质G、蛋白质A/G和蛋白质L。
在另一方面,提供了方法包括:(a)获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品;(b)将所述稳定化生物样品与微球菌核酸酶(MNase)接触以将所述核酸分子切割成多个片段;以及(c)将所述多个片段中的第一片段和第二片段在连接序列处附接。在一些情况下,所述方法进一步包括(d)对所述多个片段进行大小选择以获得多个选择片段。在一些情况下,所述多个选择片段为约145bp至约600bp。在一些情况下,所述多个选择片段为约100bp至约2500bp。在一些情况下,所述多个选择片段为约100bp至约600bp。在一些情况下,所述多个选择片段为约600bp至约2500bp。在一些情况下,所述方法进一步包括在步骤(d)之前,从所述多个片段制备测序文库。在一些情况下,所述方法进一步包括对所述测序文库进行大小选择以获得大小选择的文库。在一些情况下,所述大小选择的文库的大小为约350bp至约1000bp。在一些情况下,使用凝胶电泳、毛细管电泳、大小选择珠或凝胶过滤柱进行所述大小选择。在一些情况下,所述方法进一步包括分析所述多个选择片段以获得QC值。在一些情况下,所述QC值是基于步骤(d)之前100bp至2500bp大小的片段比例的染色质消化效率(CDE)。在一些情况下,所述方法进一步包括当所述CDE值为至少65%时,选择样品以进行进一步分析。在一些情况下,所述QC值是基于步骤(d)之前单核小体大小的片段数量与双核小体大小的片段数量之比的染色质消化指数(CDI)。在一些情况下,所述方法进一步包括当所述CDI值大于-1.5且小于1时,选择样品以进行进一步分析。在一些情况下,所述方法进一步包括在所述将所述稳定化生物样品与所述MNase接触之后,将所述多个片段结合至一个或更多个表面。在一些情况下,所述一个或更多个表面包括一个或更多个珠。在一些情况下,所述一个或更多个珠是固相可逆固定(SPRI)珠。在一些情况下,所述稳定化生物样品包括稳定化细胞裂解物。在一些情况下,所述稳定化生物样品包括稳定化完整细胞。在一些情况下,所述稳定化生物样品包括稳定化完整细胞核。在一些情况下,步骤(b)在所述完整细胞或所述完整细胞核的裂解之前进行。在一些情况下,所述方法进一步包括在步骤(c)之前,裂解所述稳定化生物样品中的细胞和/或细胞核。在一些情况下,所述稳定化生物样品包含少于3,000,000个细胞。在一些情况下,所述稳定化生物样品包含少于1,000,000个细胞。在一些情况下,所述稳定化生物样品包含少于100,000个细胞。在一些情况下,所述稳定化生物样品包含小于10μg的DNA。在一些情况下,所述稳定化生物样品包含小于1μg的DNA。在一些情况下,使用DNase进一步处理所述稳定化生物样品。在一些情况下,所述DNase是DNase I。在一些情况下,所述DNase是DNase II。在一些情况下,所述DNase选自DNase I和DNase II中的一种或更多种。在一些情况下,所述稳定化生物样品已用交联剂处理。在一些情况下,所述交联剂是化学固定剂。在一些情况下,所述化学固定剂包括甲醛。在一些情况下,所述化学固定剂包括补骨脂素。在一些情况下,所述化学固定剂包括双琥珀酰亚胺戊二酸酯(DSG)。在一些情况下,所述化学固定剂包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS)。在一些情况下,所述化学固定剂包括双琥珀酰亚胺戊二酸酯(DSG)和乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS)。在一些情况下,所述交联剂是紫外光。在一些情况下,所述稳定化生物样品是交联的石蜡包埋的组织样品。在一些情况下,所述方法进一步包括将所述多个选择片段与抗体接触。在一些情况下,所述方法进一步包括对所述多个片段进行免疫沉淀。在一些情况下,在所述附接之后进行所述免疫沉淀。在一些情况下,附接包括使用生物素标签化的核苷酸填充粘性末端。在一些情况下,附接包括使用未标签化的核苷酸填充粘性末端。在一些情况下,附接包括连接钝性末端。在一些情况下,附接包括添加突出端。在一些情况下,所述添加突出端包括腺苷酸化。在一些情况下,附接包括将至少所述第一片段和所述第二片段与桥接寡核苷酸接触。在一些情况下,所述桥接寡核苷酸的长度为至少10bp。在一些情况下,所述桥接寡核苷酸的长度为至少12bp。在一些情况下,所述桥接寡核苷酸的长度为12bp。在一些情况下,所述桥接寡核苷酸包含条形码序列。在一些情况下,所述桥接寡核苷酸包含亲和标签。在一些情况下,所述亲和标签是生物素。在一些情况下,附接包括将至少所述第一片段和所述第二片段与多个桥接寡核苷酸串联接触。在一些情况下,所述附接导致所述稳定化生物样品的样品、细胞、细胞核、染色体或核酸分子接收独特的桥接寡核苷酸序列。在一些情况下,所述至少一个桥接寡核苷酸与免疫球蛋白结合蛋白或其片段偶联。在一些情况下,所述至少一个桥接寡核苷酸与两个或更多个免疫球蛋白结合蛋白或其片段偶联。在一些情况下,所述免疫球蛋白结合蛋白选自蛋白质A、蛋白质G、蛋白质A/G和蛋白质L。在一些情况下,附接包括将至少所述第一片段和所述第二片段与条形码接触。在一些情况下,所述方法不包括剪切步骤。在一些情况下,所述方法进一步包括(e)在所述连接序列的每一侧获得至少一些序列以生成第一读取对。在一些情况下,所述方法进一步包括(f)将所述第一读取对映射到重叠群的集合上;以及(g)确定通过所述重叠群的集合的代表到基因组的顺序和/或取向的路径。替代地或组合地,所述方法进一步包括(f)将所述第一读取对映射到重叠群的集合上;以及(g)从所述重叠群的集合确定所述稳定化生物样品中的结构变体的存在或杂合性丢失。替代地或组合地,所述方法进一步包括(f)将所述第一读取对映射到重叠群的集合上;以及(g)将所述重叠群的集合中的变体分配给相位。在一些情况下,所述变体是人类白细胞抗原(HLA)变体。在一些情况下,所述变体是杀伤细胞免疫球蛋白样受体(KIR)变体。替代地或组合地,所述方法进一步包括(f)将所述第一读取对映射到重叠群的集合上;(g)从所述重叠群的集合确定所述重叠群的集合中的变体的存在;以及(h)进行选自以下一项或多项的步骤:(1)鉴定所述稳定化生物样品的疾病分期、预后或治疗过程;(2)基于所述变体的所述存在选择药物;或(3)鉴定所述稳定化生物样品的药物疗效。在一些情况下,所述MNase与免疫球蛋白结合蛋白偶联或融合。在一些情况下,所述MNase与两个或更多个免疫球蛋白结合蛋白或其片段偶联或融合。在一些情况下,所述免疫球蛋白结合蛋白选自蛋白质A、蛋白质G、蛋白质A/G和蛋白质L。
在附加的方面,提供了核酸文库,包括:(a)包含多个第一细胞基因组片段对的第一细胞基因组文库组件,其中所述第一细胞基因组片段对中的至少一个包含经由包含第一细胞基因组文库指示标签的核酸片段拴系的两个第一细胞基因组片段;以及(b)包含多个第二细胞基因组片段对的第二细胞基因组文库组件,其中所述第二细胞基因组片段对中的至少一个包含经由包含第二细胞基因组文库指示标签的核酸片段拴系的两个第二细胞基因组片段。在一些情况下,经由包含第一细胞基因组文库指示标签的核酸片段拴系的所述两个第一细胞基因组片段指示第一细胞中的第一细胞基因组构象。在一些情况下,经由包含第二细胞基因组文库指示标签的核酸片段拴系的所述两个第二细胞基因组片段指示第二细胞中的第二细胞基因组构象,其中所述第二细胞基因组构象与所述第一细胞基因组构象不同。在一些情况下,所述第一细胞基因组文库组件从分离的真核细胞核获得。在一些情况下,所述多个第一细胞基因组片段对由重组酶位点隔开。在一些情况下,所述重组酶位点是整合酶整合位点。在一些情况下,所述重组酶位点是转座酶嵌合末端。在一些情况下,所述重组酶位点中的至少一个重组酶位点包含核酸外切酶抗性部分。在一些情况下,所述核酸外切酶抗性部分包含硫代磷酸酯。在一些情况下,所述包含第一细胞基因组文库指示标签的核酸片段进一步包含重组酶左边界和重组酶右边界。在一些情况下,所述重组酶是整合酶。在一些情况下,所述重组酶是转座酶。在一些情况下,所述包含第一细胞基因组文库指示标签的核酸片段包含亲和标签。在一些情况下,所述亲和标签包括生物素。在一些情况下,至少一些文库成员是克隆拷贝。在一些情况下,映射到核酸参考的可比较区域的读取对的共现指示细胞中区域彼此之间的距离。在一些情况下,所述距离是相对距离。
在附加的方面,提供了系统,包括:多个细胞基因组等分试样,其中所述细胞基因组等分试样中的至少一些包含保留基因组组件位置信息的基因组结合部分;以及多个重组酶核酸等分试样,其中所述重组酶核酸等分试样中的至少一些包含相对于至少一个其他等分试样的可区分序列。在一些情况下,所述重组酶是整合酶。在一些情况下,所述重组酶是转座酶。在一些情况下,所述细胞基因组等分试样中的至少一些包含片段化基因组分子。在一些情况下,所述片段化基因组分子中的至少一些包含整合位点末端。在一些情况下,所述细胞基因组等分试样包括真核细胞基因组等分试样。在一些情况下,保留基因组组件位置信息的所述基因组结合部分包含染色质成分。在一些情况下,保留基因组组件位置信息的所述基因组结合部分包含核小体。在一些情况下,所述多个细胞基因组等分试样包含整合酶。在一些情况下,所述多个重组酶核酸等分试样包含具有整合酶整合位点的整合酶核酸分子。在一些情况下,所述多个细胞基因组等分试样包含转座酶。在一些情况下,所述多个重组酶核酸等分试样包含具有转座酶嵌合末端的转座酶核酸分子。在一些情况下,所述整合位点中的至少一个整合位点包含核酸外切酶抗性部分。在一些情况下,所述嵌合末端中的至少一个嵌合末端包含核酸外切酶抗性部分。在一些情况下,所述核酸外切酶抗性部分包含硫代磷酸酯。在一些情况下,所述重组酶核酸分子中的至少一些包含重组酶左边界和重组酶右边界。在一些情况下,所述包含第一细胞基因组文库指示标签的核酸片段包含亲和标签。在一些情况下,所述亲和标签包括生物素。在一些情况下,相对于至少一个其他等分试样的所述可区分序列在等分试样中包含多个相同的核酸序列。在一些情况下,第一等分试样包含相对于至少一个其他等分试样具有共同可区分序列的多个核酸分子。在一些情况下,所述多个细胞基因组等分试样包括单个细胞基因组等分试样。
在附加的方面,提供了用于测定至少两个细胞之间染色体构象变异的方法。在一些情况下,方法包括从保留染色体构象变异的所述两个细胞中获得基因组核酸;将内部断裂引入来自所述两个细胞的基因组核酸;以及经由多个标签化片段之一将与所述内部断裂相邻的两个暴露端彼此链接,其中第一细胞的标签与第二细胞的标签是可区分的。在一些情况下,在所述链接之前分离来自所述两个细胞的所述基因组核酸。在一些情况下,扩增由所述链接产生的核酸分子以产生包含染色体断裂连接序列末端的扩增子,所述染色体断裂连接序列末端由包含可区分序列的内部片段链接,使得来自所述两个细胞的染色体断裂接头是可区分的。在一些情况下,从包含由第一标签化片段链接的两个先前暴露端的所述两个细胞中的第一细胞分离片段并从包含由第二标签化片段链接的两个先前暴露端的所述至少两个细胞中的第二细胞分离片段。在一些情况下,获得的配对末端序列信息包括至少一些第一标签信息和至少一些第二标签信息。在一些情况下,将配对末端分配到细胞中的共有邻近区域。在一些情况下,将配对末端分配到细胞中的共有邻近区域包括评估配对末端映射到两个共有簇的出现次数,以及将相对接近区域与出现次数相关联。在一些情况下,将来自第一细胞的所述片段与来自第二细胞的所述片段在共有体积中分离。在一些情况下,将来自第一细胞的所述片段与来自第二细胞的所述片段在共有体积中测序。在一些情况下,将与所述内部断裂相邻的两个暴露端彼此链接包括在所述将内部断裂引入之前将不直接相邻的两个暴露端链接。在一些情况下,将与所述内部断裂相邻的两个暴露端彼此链接包括在所述将内部断裂引入之前将两个彼此远离的暴露端在共有核酸分子上链接。在一些情况下,将与所述内部断裂相邻的两个暴露端彼此链接包括在所述将内部断裂引入之前将物理上彼此接近的的两个暴露端链接。在一些情况下,所述至少两个细胞包括至少两个细胞群。
在进一步的方面,提供了方法,包括获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化样品;将所述核酸分子切割成包括至少第一片段和第二片段的多个片段;将包含第一重组酶位点的衔接子与所述第一片段和所述第二片段附接;以及在重组酶的存在下将所述第一片段和所述第二片段与包含第二重组酶位点的接头接触,从而生成包含来自所述第一片段的第一序列、来自所述接头的接头序列和来自所述第二片段的第二序列的链接核酸。在一些情况下,所述重组酶是整合酶。在一些情况下,所述重组酶是转座酶。在一些情况下,所述方法进一步包括对所述链接核酸的至少一部分进行测序。在一些情况下,所述测序包括对所述第一序列的至少一部分和所述第二序列的至少一部分进行测序。在一些情况下,所述方法进一步包括将所述第一序列的至少一部分和所述第二序列的至少一部分映射到基因组。在一些情况下,所述方法进一步包括使用来自所述测序的信息进行三维基因组分析。在一些情况下,所述稳定化样品是交联样品。在一些情况下,获得所述稳定化样品包括获得样品并使所述样品稳定化。在一些情况下,获得所述稳定化样品包括获得先前已稳定化的样品。在一些情况下,所述核酸结合蛋白包含染色质或其成分。在一些情况下,切割包括酶消化。在一些情况下,所述酶消化包括使用一种或更多种限制酶进行消化。在一些情况下,所述酶消化包括使用一种或更多种非特异性核酸酶进行消化。在一些情况下,所述一种或更多种非特异性核酸酶包括DNase或MNase。在一些情况下,所述将所述第一重组酶位点附接包括连接。在一些情况下,所述第一重组酶位点和所述第二重组酶位点包括整合酶位点attP和attB。在一些情况下,所述衔接子进一步包含测序衔接子区域。在一些情况下,所述测序衔接子区域包括Y衔接子。在一些情况下,所述测序衔接子区域包括P5和/或P7衔接子。在一些情况下,所述第一重组酶位点和所述第二重组酶位点包括转座酶嵌合末端。在一些情况下,所述接头序列包含亲和标签。在一些情况下,所述亲和标签是生物素。在一些情况下,所述接头序列包括条形码序列。在一些情况下,所述条形码序列指示来源的分区。在一些情况下,所述条形码序列指示来源的细胞。在一些情况下,所述条形码序列指示来源的细胞群。在一些情况下,所述条形码序列指示来源的生物体。在一些情况下,所述条形码序列指示来源的物种。
在进一步的方面,提供了方法,包括:获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化样品;将所述核酸分子切割成包括至少第一片段和第二片段的多个片段;将所述第一片段与所述第二片段附接,从而产生邻近连接片段;恢复所述邻近连接片段;以及对所述邻近连接片段的至少一部分进行测序,其中测序衔接子在所述恢复之后不附接至所述邻近连接片段。在一些情况下,通过将所述第一片段与所述第二片段连接来进行附接。在一些情况下,使用重组酶进行附接。在一些情况下,经由接头进行附接。在一些情况下,所述接头包含亲和标签。在一些情况下,所述亲和标签是生物素。在一些情况下,所述方法进一步包括在步骤(c)中所述的附接之前,将包含重组酶位点的重组衔接子与所述第一片段和所述第二片段附接。在一些情况下,所述重组衔接子包括测序衔接子。在一些情况下,所述测序衔接子包括Y衔接子。在一些情况下,所述测序衔接子包括P5和/或P7衔接子。
本文提供了方法,包括:(a)获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品;(b)将所述稳定化生物样品与DNase接触以将所述核酸分子切割成多个片段;(c)将所述多个片段中的第一片段和第二片段在连接序列处附接;以及(d)对所述多个片段进行大小选择以获得多个选择片段。在一些情况下,所述多个选择片段为约145bp至约600bp。在一些情况下,所述多个选择片段为约100bp至约2500bp。在一些情况下,所述多个选择片段为约100bp至约600bp。在一些情况下,所述多个选择片段为约600bp至约2500bp。在一些情况下,所述方法进一步包括在步骤(d)之前,从所述多个片段制备测序文库。在一些情况下,所述方法进一步包括对所述测序文库进行大小选择以获得大小选择的文库。在一些情况下,所述大小选择的文库的大小为约350bp至约1000bp。在一些情况下,使用凝胶电泳、毛细管电泳、大小选择珠或凝胶过滤柱进行所述大小选择。在一些情况下,所述方法进一步包括分析所述多个选择片段以获得QC值。在一些情况下,所述QC值是基于步骤(d)之前100bp至2500bp大小的片段比例的染色质消化效率(CDE)。在一些情况下,所述方法进一步包括当所述CDE值为至少65%时,选择样品以进行进一步分析。在一些情况下,所述QC值是基于步骤(d)之前单核小体大小的片段数量与双核小体大小的片段数量之比的染色质消化指数(CDI)。在一些情况下,所述方法进一步包括当所述CDI值大于-1.5且小于1时,选择样品以进行进一步分析。在一些情况下,所述稳定化生物样品包括稳定化细胞裂解物。在一些情况下,所述稳定化生物样品包括稳定化完整细胞。在一些情况下,所述稳定化生物样品包括稳定化完整细胞核。在一些情况下,步骤(b)在所述完整细胞或所述完整细胞核的裂解之前进行。在一些情况下,所述方法进一步包括,在步骤(c)之前,裂解所述稳定化生物样品中的细胞和/或细胞核。在一些情况下,所述稳定化生物样品包含少于3,000,000个细胞。在一些情况下,所述稳定化生物样品包含少于1,000,000个细胞。在一些情况下,所述稳定化生物样品包含少于100,000个细胞。在一些情况下,所述稳定化生物样品包含小于10μg的DNA。在一些情况下,所述稳定化生物样品包含小于1μg的DNA。在一些情况下,所述DNase是DNase I。在一些情况下,所述DNase是DNase II。在一些情况下,所述DNase是微球菌核酸酶。在一些情况下,所述DNase选自DNase I和DNase II和微球菌核酸酶中的一种或更多种。在一些情况下,所述稳定化生物样品已用交联剂处理。在一些情况下,所述交联剂是化学固定剂。在一些情况下,所述化学固定剂包括甲醛。在一些情况下,所述化学固定剂包括补骨脂素。在一些情况下,所述化学固定剂包括双琥珀酰亚胺戊二酸酯(DSG)。在一些情况下,所述化学固定剂包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS)。在一些情况下,所述交联剂是紫外光。在一些情况下,所述稳定化生物样品是交联的石蜡包埋的组织样品。在一些情况下,所述方法进一步包括将所述多个选择片段与抗体接触。在一些情况下,附接包括使用生物素标签化的核苷酸填充粘性末端并连接钝性末端。在一些情况下,附接包括将至少所述第一片段和所述第二片段与至少一个桥接寡核苷酸接触。在一些情况下,所述桥接寡核苷酸包含条形码序列。在一些情况下,附接包括将至少所述第一片段和所述第二片段与多个桥接寡核苷酸串联接触。在一些情况下,所述附接导致所述稳定化生物样品的细胞、细胞核、染色体或核酸分子接收独特的桥接寡核苷酸序列。在一些情况下,附接包括将至少所述第一片段和所述第二片段与条形码接触。在一些情况下,所述方法不包括剪切步骤。在一些情况下,所述方法进一步包括:(e)在所述连接序列的每一侧获得至少一些序列以生成第一读取对。在一些情况下,所述方法进一步包括:(f)将所述第一读取对映射到重叠群的集合上;以及(g)确定通过所述重叠群的集合的代表到基因组的顺序和/或取向的路径。在一些情况下,所述方法进一步包括:(f)将所述第一读取对映射到重叠群的集合上;以及(g)从所述重叠群的集合确定所述稳定化生物样品中的结构变体的存在或杂合性丢失。在一些情况下,所述方法进一步包括:(f)将所述第一读取对映射到重叠群的集合上;以及(g)将所述重叠群的集合中的变体分配给相位。在一些情况下,所述变体是人类白细胞抗原(HLA)变体。在一些情况下,所述变体是杀伤细胞免疫球蛋白样受体(KIR)变体。在一些情况下,所述方法进一步包括:(f)将所述第一读取对映射到重叠群的集合上;(g)从所述重叠群的集合确定所述重叠群的集合中的变体的存在;以及(h)进行选自以下一项或多项的步骤:(1)鉴定所述稳定化生物样品的疾病分期、预后或治疗过程;(2)基于所述变体的所述存在选择药物;或(3)鉴定所述稳定化生物样品的药物疗效。
在附加的方面,提供了方法,包括:(a)获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品;(b)将所述稳定化生物样品与微球菌核酸酶(MNase)接触以将所述核酸分子切割成多个片段;以及(c)将所述多个片段中的第一片段和第二片段在连接序列处附接。在一些情况下,本文的方法进一步包括(d)对所述多个片段进行大小选择以获得多个选择片段。在一些情况下,所述多个选择片段为约145bp至约600bp。在一些情况下,所述多个选择片段为约100bp至约2500bp。在一些情况下,所述多个选择片段为约100bp至约600bp。在一些情况下,所述多个选择片段为约600bp至约2500bp。在一些情况下,本文的方法进一步包括在步骤(d)之前,从所述多个片段制备测序文库。在一些情况下,本文的方法进一步包括对所述测序文库进行大小选择以获得大小选择的文库。在一些情况下,所述大小选择的文库的大小为约350bp至约1000bp。在一些情况下,使用凝胶电泳、毛细管电泳、大小选择珠或凝胶过滤柱进行所述大小选择。在一些情况下,所述方法进一步包括分析所述多个选择片段以获得QC值。在一些情况下,所述QC值是基于步骤(d)之前100bp至2500bp大小的片段比例的染色质消化效率(CDE)。在一些情况下,所述方法进一步包括当所述CDE值为至少65%时,选择样品以进行进一步分析。在一些情况下,所述QC值是基于步骤(d)之前单核小体大小的片段数量与双核小体大小的片段数量之比的染色质消化指数(CDI)。在一些情况下,所述方法进一步包括当所述CDI值大于-1.5且小于1时,选择样品以进行进一步分析。在一些情况下,所述稳定化生物样品包括稳定化细胞裂解物。在一些情况下,所述稳定化生物样品包括稳定化完整细胞。在一些情况下,所述稳定化生物样品包括稳定化完整细胞核。在一些情况下,步骤(b)在所述完整细胞或所述完整细胞核的裂解之前进行。在一些情况下,本文的方法进一步包括,在步骤(c)之前,裂解所述稳定化生物样品中的细胞和/或细胞核。在一些情况下,所述稳定化生物样品包含少于3,000,000个细胞。在一些情况下,所述稳定化生物样品包含少于1,000,000个细胞。在一些情况下,所述稳定化生物样品包含少于100,000个细胞。在一些情况下,所述稳定化生物样品包含小于10μg的DNA。在一些情况下,所述稳定化生物样品包含小于1μg的DNA。在一些情况下,用DNase进一步处理所述稳定化生物样品。在一些情况下,所述DNase是DNase I。在一些情况下,所述DNase是DNaseII。在一些情况下,所述DNase选自DNase I和DNase II中的一种或更多种。在一些情况下,所述稳定化生物样品已用交联剂处理。在一些情况下,所述交联剂是化学固定剂。在一些情况下,所述化学固定剂包括甲醛。在一些情况下,所述化学固定剂包括补骨脂素。在一些情况下,所述化学固定剂包括双琥珀酰亚胺戊二酸酯(DSG)。在一些情况下,所述化学固定剂包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS)。在一些情况下,所述交联剂是紫外光。在一些情况下,所述稳定化生物样品是交联的石蜡包埋的组织样品。在一些情况下,本文的方法进一步包括将所述多个选择片段与抗体接触。在一些情况下,附接包括使用生物素标签化的核苷酸填充粘性末端并连接钝性末端。在一些情况下,附接包括将至少所述第一片段和所述第二片段与至少一个桥接寡核苷酸接触。在一些情况下,所述桥接寡核苷酸包含条形码序列。在一些情况下,附接包括将至少所述第一片段和所述第二片段与多个桥接寡核苷酸串联接触。在一些情况下,所述附接导致所述稳定化生物样品的细胞、细胞核、染色体或核酸分子接收独特的桥接寡核苷酸序列。在一些情况下,附接包括将至少所述第一片段和所述第二片段与条形码接触。在一些情况下,所述方法不包括剪切步骤。在一些情况下,本文的方法进一步包括:(e)在所述连接序列的每一侧获得至少一些序列以生成第一读取对。在一些情况下,本文的方法进一步包括:(f)将所述第一读取对映射到重叠群的集合上;以及(g)确定通过所述重叠群的集合的代表到基因组的顺序和/或取向的路径。在一些情况下,本文的方法进一步包括:(f)将所述第一读取对映射到重叠群的集合上;以及(g)从所述重叠群的集合确定所述稳定化生物样品中的结构变体的存在或杂合性丢失。在一些情况下,本文的方法进一步包括:(f)将所述第一读取对映射到重叠群的集合上;以及(g)将所述重叠群的集合中的变体分配给相位。在一些情况下,所述变体是人类白细胞抗原(HLA)变体。在一些情况下,所述变体是杀伤细胞免疫球蛋白样受体(KIR)变体。在一些情况下,本文的方法进一步包括:(f)将所述第一读取对映射到重叠群的集合上;(g)从所述重叠群的集合确定所述重叠群的集合中的变体的存在;以及(h)进行选自以下一项或多项的步骤:(1)鉴定所述稳定化生物样品的疾病分期、预后或治疗过程;(2)基于所述变体的所述存在选择药物;或(3)鉴定所述稳定化生物样品的药物疗效。
援引并入
本说明书中所提到的所有出版物、专利和专利申请均通过引用并入本文,其程度如同特别地且单独地指出每个单独的出版物、专利或专利申请通过引用而并入。
附图说明
专利申请文件包含至少一张彩色附图。带有彩色附图的本专利申请的副本将由专利局根据要求提供,并支付必要的费用。
通过参考以下对利用本发明原理的说明性实施方案加以阐述的详细描述和附图,将会获得对本发明的特征和优点的理解,在这些附图中:
图1A和图1B图示了未充分处理(图1A)和充分处理(图1B)的稳定化组织样品。
图2图示了量化和片段大小分析。
图3图示了根据本公开内容的各种实施方案的示例性计算机系统的各种组件。
图4是图示可结合本公开内容的各种实施方案使用的示例性计算机系统的架构的框图。
图5是图示可结合本公开内容的各种实施方案使用的示例性计算机网络的示意图。
图6是图示可结合本公开内容的各种实施方案使用的另一示例性计算机系统的架构的框图。
图7示出了与MNase-C相比,DNase-C的读取对分离分布图。
图8示出了与MNase-C相比,对DNase-C的染色体1计算的连锁距离的累积分布图。
图9示出了在MNase消化的各种时间和条件下,高占位CTCF结合位点周围的相对读取覆盖度图。
图10示出了MNase处理的样品的消化模式,以及在MNase消化的各种时间和条件下,每个样品中单核小体:双核小体的计算比率。
图11示出了与加利福尼亚大学圣克鲁兹分校(UCSC)基因组浏览器的DNA元件百科全书(ENCODE)中报告的峰相比的ChIP-seq和HiChIP结果。
图12示出了HiChIP样品的CTCF结合位点周围的相对读取覆盖度。
图13示出了在示出与靶蛋白相关的读取堆积的读取覆盖度图(如图11所示)上以及在基因注释图上呈现的读取对接触图。
图14示出了如图11中的MNase HiChIP结果与ENCODE峰的相同比较,但是样品在相同和随后的几天重复。
图15示出了根据本公开内容的各种实施方案使用桥接寡核苷酸链接每个DNA片段的改进的邻近连接的示例性工作流程。
图16示出了根据本公开内容的各种实施方案使用分离和汇集方法的示例性工作流程。
图17示出了根据本公开内容的各种实施方案使用分离和汇集方法的示例性工作流程。
图18示出了根据本公开内容的各种实施方案由分离和汇集方法产生的条形码和桥的组合的示例。
图19A-19D示出了示例性整合酶活性的步骤。在图19A,可以看到phiC31前噬菌体DNA整合到链霉菌中。在图19B,可以看到整合酶与细菌基因组中的噬菌体attB位点和attP序列结合并触发链交换。在图19C,可以看到整合分解成两个新的序列attL和attR,它们短了三个碱基。在图19D,可以看到整合不需要环形接头。
图20描绘了通过衔接子连接到DNA酶消化的染色质的attP递送,作为递送到整合位点的内部暴露末端的示例。
图21指示侧接33个碱基attB片段的序列可以被替换,例如,使用分区区分片段。
图22指示attB线性DNA的整合导致聚集体内连接。
图23A-23D描绘了文库制备方法。在图23A,可以看到生物素整合在含有attB的分子中,而attP衔接子携带磷酸硫醇化核苷酸。在图23B,可以看到链霉亲和素拉下仅用于拉下含有生物素的分子。在图23C,可以看到attP特异性扩增仅用于扩增整合的分子。在图23D,可以看到,交替或组合地使用核酸外切酶活性来去除非整合分子和非衔接子连接的核酸。
图24描绘了对邻近连接事件的单个细胞核标签化使用整合。
图25示出了基于重组酶(例如,整合酶)的邻近连接的示例性示意图,包括(从图的顶部到底部)片段化(例如,通过酶促消化,诸如使用DNase)、末端精修和A-加尾、重组位点(例如,A尾兼容的attB位点)的连接、与接头(例如,attP接头)的重组和交联逆转,从而产生来自基因组不同区域的邻近连接的核酸。
图26示出了用于基于重组酶的邻近连接的示例性核酸序列,包括(从图的顶部到底部)连接至未重组gDNA的示例性EP突出端attB位点、连接至未重组gDNA的示例性attB位点、具有attP位点的示例性未重组生物素接头、接头的一个末端与gDNA上的attB位点重组、接头的两个末端与gDNA上的attB位点重组。
图27示出了具有测序衔接子位点(例如,P7和P5测序Y-衔接子)的attB位点的示例性设计和核酸序列,其本身(顶部)和连接至未重组的gDNA(底部)。
具体实施方式
在一方面,本文提供了与确定包括长范围和结构基因组信息的基因组序列、确定细胞中的核酸物理构象有关以及用于生成核酸的极长范围读取对(与本领域先前公开的方法相比具有改进的结果)的组合物、系统和方法。本文的方法可以利用包括但不限于DNase消化、微球菌核酸酶(MNase)消化、重组酶处理、大小选择、QC控制、全细胞或全核核酸酶消化、单个细胞分析和低输入要求的技术来实现最佳结果。本文的方法还可以包括利用免疫球蛋白结合蛋白或其片段将寡核苷酸或寡核苷酸和核酸酶靶向核酸样品中的抗体结合位点。本文还提供了HiChIP、HiChIRP和甲基HiC的改进方法。
在另一方面,本文提供了与用于单个细胞或多个细胞或细胞群的核酸构象评估、核酸序列分析或核酸相位信息确定相关的实施方案。
在一些情况下,可以将构象保留或构象重建的核酸样品片段化并分布在等分试样或分区中,可以向其中添加等分试样区分序列片段,以便在分析从样品产生的配对末端文库时,可以将配对末端分配给来源的分区或细胞。因此可以确定序列和/或三维核酸构象的细胞特异性变异。
核酸构象评估
本文公开了区别于第二细胞或细胞群的物理构象确定细胞(诸如单个细胞或细胞群)中的核酸物理构象的组合物、系统和方法。通过本文公开内容的实践,可以生成指示三维核酸相对位置并且任选地具有标签(例如,核酸条形码)的核酸分子以辨别多个分子的共有细胞或来源群体。
通过本文公开方法的实践,可以获得核酸以便在细胞中保留它们的全部或至少一些三维构象。可以切割这样的核酸的暴露核酸环以暴露内部片段末端,该内部片段末端随机彼此重新附接,使得在物理上邻近的暴露末端更可能彼此附接(邻近附接)。因此,通过确定哪些暴露末端会相互附接,可以获得关于天然细胞构象中末端邻近核酸的物理邻近的数据信息。
例如,在Dekker等人于2016年9月6日出版的US9434985B2中公开了相关方法,其通过引用以其整体并入本文。
通过本文公开方法的实践,可以进一步标签化配对末端文库成分或以其他方式提供指示来源的细胞的序列信息,使得对于细胞群可以很容易地辨别出细胞群中单个细胞之间的构象差异,或者使得即使同时进行分析,也可以很容易地辨别第一细胞群和第二细胞群之间的构象差异。标签可以包括例如核酸条形码。在一些情况下,标签可以包括基因组中不连续的两个核酸片段之间的连接序列。可以生成核酸分子,使得当全部或部分测序时,通常获得足以将每个基因组末端映射到其基因组位点的至少一些基因组序列,并且进一步获得足以鉴定精确或可能的来源细胞或细胞群的标签化或链接序列。因此,获得关于物理上彼此接近的两个基因组区域的序列信息,同时还获得关于发生这种物理构象的细胞或细胞群的信息,使得可以在该细胞或细胞群中共现的其他物理构象信息的背景下对其进行评估。
可以使细胞中的基因组或其他核酸稳定化,并且对于真核细胞,任选地根据本领域已知的方法(诸如并入本文或以其他方式已知的那些方法)分离细胞核。例如,在图1A和图1B中图示了处理的稳定化组织样品。图1A图示了未充分处理的组织样品。图1B图示了充分处理的稳定化组织样品。
与本文公开内容一致的核酸包括任何数量的细胞核酸,诸如原核初级基因组或质粒核酸、真核细胞核、线粒体或质体核酸,或在一些情况下细胞质核酸,诸如rRNA、mRNA,或样品中的外源核酸,诸如病毒或其他病原体或样品的其他外源核酸。
在一些情况下,可以分布稳定化核酸,使得至少一些核酸分布在单独的分区中。示例性的分区包括孔、乳液中的液滴或表面位置(例如,阵列点、珠等),其包含如本文其他地方所述的差异序列接头分子的不同斑块。本领域已知的或本领域技术人员可获得的附加的分区也被考虑并且与本文公开的方法、组合物和系统一致。
可以将稳定化核酸片段化以暴露内部断裂用于以后重新连接,从而获得特定细胞的核酸构象信息。许多片段化方法是本领域已知的并且与本文的公开内容一致。可以使用一种或更多种限制性核酸内切酶、可编程核酸内切酶(诸如与引导RNA偶联的CRISPR/Cas分子)、非特异性核酸内切酶(例如DNase)、标签化、剪切、超声处理、加热或其他机制将核酸片段化。在一些情况下,DNase是非序列特异性的。在一些情况下,DNase对单链DNA和双链DNA都有活性。在一些情况下,DNase对双链DNA具有特异性。在一些情况下,DNase优先于双链DNA。在一些情况下,DNase对单链DNA具有特异性。在一些情况下,DNase优先于单链DNA。在一些情况下,DNase是DNase I。在一些情况下,DNase是DNase II。在一些情况下,DNase选自DNase I和DNase II中的一种或更多种。在一些情况下,DNase是微球菌核酸酶。在一些情况下,DNase选自DNase I和DNase II和微球菌核酸酶中的一种或更多种。其他合适的核酸酶也在本公开内容的范围内。
特别地,Green等人于2014年8月7日公布的WO2014121091A1的公开内容(后来于2015年12月17日公布为US20150363550A1以及于2018年10月2日公告为US10089437B2)以其整体并入本文。类似地,Fields等人于2016年2月4日公布的WO2016019360A1的公开内容(后来于2017年11月23日公布为US20170335369A1)以其整体并入本文。类似地,Green等人于2017年8月31日公布的WO2017147279A1的公开内容以其整体并入本文。
可以在附接之前或之后将核酸结合至表面。示例性的表面包括但不限于珠、阵列和孔。在一些情况下,表面是固相可逆固定(SPRI)表面,诸如SPRI珠。在附接之前将核酸结合至表面可以提高下游步骤的性能,诸如减少染色体间的连接或附接以及增加染色体内的连接或附接。
可以在附接之前或之后对核酸进行免疫沉淀。这样的方法可以包括将染色质片段化,然后将片段与特异性鉴定并结合乙酰化组蛋白(特别是H3)的抗体接触。这样的抗体的示例包括但不限于抗乙酰化组蛋白H3,可从Upstate Biotechnology,Lake Placid,N.Y.获得。随后可以从免疫沉淀物中收集来自免疫沉淀物的多核苷酸。类似的靶向富集方法也可用于目标特异性化合物,包括但不限于适体、寡核苷酸或其他核酸探针以及核酸引导的核酸酶(例如Cas家族酶,诸如Cas9,包括无催化活性或“死”的核酸酶)。
可以将链接核酸(诸如具有条形码、分区特异性序列或分区鉴定序列的链接核酸)附接至暴露的内部末端以产生具有左基因组片段、通常具有分区特异性或分区鉴定序列(例如,核酸条形码)的链接区域和右基因组片段的核酸片段,其中左基因组片段和右基因组片段映射到源细胞中物理上邻近的基因组片段。
在附接暴露的核酸末端之前,可以对末端进行处理。这样的处理可以包括末端精修(polishing)或钝性末端化。例如,可以将钝性末端化的暴露核酸末端直接连接至其他钝性末端化的暴露核酸末端或者连接至衔接子或接头。这样的处理可以包括例如通过加尾(tailing)(例如,A-加尾或腺苷酸化)生成突出端。在一个示例中,突出端的大小是一个核苷酸。在一个示例中,突出端单个A核苷酸。例如,可以将加尾的暴露核酸末端直接连接至其他加尾的暴露核酸末端或者连接至衔接子或接头。在一些情况下,钝性末端化或加尾可以掺入亲和标签的核酸,诸如生物素化的核酸。亲和标签可用于例如下游捕获或富集步骤。在其他情况下,可以在不掺入亲和标签的核酸的情况下(例如,不含生物素化的核酸)执行钝性末端化或加尾。如果需要,可以随后将亲和标签添加到例如衔接子或接头中(例如,桥接)。在一个实例中,对暴露的核酸进行末端精修,生成突出端,并经由桥接寡核苷酸附接暴露末端。
附接可以是直接的,诸如经由连接。
附接可以经由接头或桥接,诸如通过将连接一个暴露核酸末端的一个或更多个接头或桥接核酸连接至另一接头或桥接核酸。
可以通过使用诸如与重组酶掺入(诸如整合酶或转座酶掺入)一致的加帽核酸衔接子片段进行附接。可以将具有重组酶位点的衔接子添加至暴露核酸末端,然后可以例如通过重组连接这些末端。
以phiC31整合酶条码传递为例,可以如下通过酶促添加接头,诸如细胞鉴定或细胞特异性接头(例如,核酸条码)。
在暴露内部核酸末端之后,可以将整合酶位点连接至暴露核酸末端,诸如内部末端或暴露线性染色体末端(诸如已经去除端粒的染色体末端)。示例性的整合位点是attPphiC31整合酶整合位点或包含attP整合位点的核酸,尽管其他整合位点与本文公开内容一致。连接产生核酸片段的群体,其中至少一些单独地包含在每个末端以整合位点为边界的细胞核酸片段,诸如包含attP片段的片段。在各种实施方案中,片段化或整合位点附接中的一者或两者在分区之前发生,或者片段化或整合位点附接中的一者或两者在分区之后发生。
图19A-D示出了基于phiC31整合酶的附接方法的示例性示意图。在图19A中,可以看到phiC31经由整合酶整合到链霉菌中的示意图。指示了包含attP(由虚线表示)和attB(由实线表示)的核酸,尽管在各种实施方案中,attB和attP以外的位点以及整合酶以外的酶活性也被考虑并且与本文公开内容一致。在图19B中,可以看到整合酶和相关蛋白(由圆圈表示)与噬菌体attB位点和细菌基因组中的attP序列结合并触发链交换。在图19C中,可以看到整合事件的结果。整合分解为缺乏attB和attP但具有attL和attR的线性核酸,该attL和attR是attB和attP部分的嵌合片段。与attB和attP相比,attL和attR位点短3bp且序列不同。在图19D中,可以看到不需要循环整合或接头基因组。包含attB位点的线性DNA的整合将导致包含attP的DNA的裂解。
图20描绘了整合酶位点向如本文所考虑的稳定化核酸的暴露内部末端的递送。例如,attP可以通过衔接子连接递送至DNase消化的染色质(由圆柱体表示)的暴露内部末端。可以使核酸稳定化以保留与结合部分(诸如核小体)的接触,以便在一些情况下保留相位信息或三维物理位置。
图21示出了使用整合酶位点(诸如attB位点)生成接头构建体。例如,最少33个核苷酸的attB位点足以用于整合。可以使用诸如条形码或指定来自特定来源(例如,细胞、液滴或其他分区、生物体)的核酸的其他序列等选择序列替换侧翼序列。图22展示了经由整合attB线性DNA的聚集体内连接。结果是线性分子,其具有同相位或在单个文库成分上接合的物理上接近的核酸片段的暴露的内部末端。文库成分以完整的整合位点(在这种情况下为attP)为界,但内部整合位点已被破坏并被attR和attL边界取代,使得attP相关引物可以扩增文库片段。通过获得内部末端邻近序列并将其映射到基因组或重叠群集合,能够将重叠群或基因组片段分配到细胞内的共有相位或共有的三维位置中。
图25示出了基于重组的邻近连接方案的另一示例。例如,用DNase消化包含交联染色质的基因组DNA。将暴露末端精修并加A尾,例如,具有单个A碱基突出端。将包含重组酶位点(诸如attB位点)的A尾相容性衔接子连接至暴露末端。将具有相应重组酶位点(诸如attP位点)的接头与样品接触,并使用重组酶(例如,phiC31)执行重组以实现邻近连接。接头任选地包含亲和剂(诸如生物素(b))以实现下游拉下(pull-down)或其他纯化或加工。逆转交联并回收邻近连接的核酸,例如包括约40bp的attB位点,然后是约150bp的基因组DNA区域1,然后是约90bp的包括attR位点和亲和剂的接头序列然后是约150bp的基因组DNA区域2,然后是约40bp的attB位点。
图26示出了与图25中所示类似的方案,具有示例性的衔接子和接头序列。顶部示出了具有EP突出端attB衔接子的未重组gDNA,其序列为GTGCCAGGGCGTGCCCttGGGCTCCCCGGGCGCGATC包括attB位点GCCCTTGGGC,其互补序列为CGCGCCCGGGGAGCCCaaGGGCACGCCCTGGCAC包括逆转attB位点GCCCAAGGGC。从上数第二个示出了具有attB衔接子的未重组gDNA,其序列为GTGCCAGGGCGTGCCCttGGGCTCCCCGGGCGCGTCCCC并且互补序列为GGGGACGCGCCCGGGGAGCCCaaGGGCACGCCCTGGCAC。从上数第三个示出了包含attP位点和生物素的未重组接头,其序列为ggagCCCCAACTGGGGTAACCTttGAGTTCTCTCAGTTGGGGaccatggaga/iBiodT/caCCCCAACTGAGAGAACTCaaAGGTTACCCCAGTTGGGGCACTAC包含序列为ACCTTTGAGT的attP位点和序列为CATGGAGATC的接头。从上数第四个示出了用attB/gDNA重组的接头的一个末端,其序列为ggagCCCCAACTGGGGTAACCTttGAGTTCTCTCAGTTGGGGaccatggaga/iBiodT/caCCCCAACTGAGAGAACTCaaGGGCACGCCCTGGCAC。底部示出了用attB/gDNA重组的接头的两个末端,其序列为GTGCCAGGGCGTGCCCttGAGTTCTCTCAGTTGGGGaccatggaga/iBiodT/caCCCCAACTGAGAGAACTCaaGGGCACGCCCTGGCAC,包括序列为GCCCTTGAGT的attR位点和序列为ACTCAAGGGC的逆转attR位点。
图23A示出了示例性的接头分子和衔接子分子修饰以促进文库生成。接头分子被赋予亲和标签(在这种情况下为生物素,由圆圈表示),而衔接子具有抗核酸外切酶修饰(在这种情况下为硫代磷酸化(PS),由星号表示)。亲和标签促进接头分子的分离,而与它们是否整合到末端邻近分子无关。接头上的抗核酸外切酶修饰促进未添加接头的核酸分子的选择性降解并促进未与末端邻近核酸样品分子整合的接头分子。图23B示出了标签化分子的亲和纯化(在这种情况下为链霉亲和素,由半圆弧表示)与它们是否整合到添加至内部末端的连接位点无关。图23C指示attP定向扩增用于选择性扩增保留诸如attP位点的整合酶位点(在这种情况下通过用引物靶向这样的位点)的亲和分离分子。亲和标签和attP位点的存在指示发生成功整合事件的分子。图23D指示替代方案,其中核酸外切酶(由圆形扇区或“吃豆人”表示)用于清除缺乏抗核酸外切酶修饰(在这种情况下为硫代磷酸化)的亲和标签分子。亲和标签和抗核酸外切酶位点的存在指示发生成功整合事件的分子。
替代地,转座酶(诸如Tn3、Tn5、Tn7或睡美人转座酶)可用于条码递送。在暴露内部核酸末端之后,可以将嵌合末端连接至暴露核酸末端,诸如内部末端或暴露线性染色体末端(诸如已经去除端粒的染色体末端)。示例性的嵌合末端是Tn5嵌合末端或包含Tn5嵌合末端的核酸,尽管其他嵌合末端与本文公开内容一致。连接产生核酸片段的群体,其中至少一些单独地包含在每个末端以嵌合末端(诸如Tn5嵌合末端)为边界的细胞核酸片段。
重组酶衔接子分子还可以包含测序衔接子位点,例如P5和P7位点。图27(上图)示出了具有测序Y衔接子的示例性attB衔接子,其具有attB衔接子序列GTGCCAGGGCGTGCCCttGGGCTCCCCGGGCGCG、P7序列GATCGGAAGAGCACACGTCTGAACTCCAGTCAC和P5序列ACACTCTTTCCCTACACGACGCTCTTCCGATC。图27(下图)示出了具有重组酶衔接子(其具有测序衔接子)的未重组gDNA的示意图。测序衔接子附接至attB位点的一部分,attB位点将保留重组后的基因组DNA,允许重组后测序,包括无需进一步扩增或衔接子连接。使用包含测序衔接子的重组酶衔接子(包括但不限于图27中所示的重组酶衔接子)可以实现邻近连接产物的直接测序,而无需扩增或单独的衔接子掺入步骤。这可以减少偏差,诸如所得序列信息中的扩增偏差。
在各种实施方案中,片段化或嵌合末端附接中的一者或两者在分区之前发生,或者片段化或嵌合末端附接中的一者或两者在分区之后发生。图24描绘了使用整合酶介导的聚集体内连接进行单个细胞HiC(或其他邻近连接技术)的示例性系统。将单个细胞核与整合酶一起封装在第一组分区中。在这种情况下,分区是乳液中的液滴。对细胞核进行链断裂,以便产生内部暴露的末端并保留局部三维信息。将衔接子连接至暴露的内部末端。衔接子任选地包含抗核酸外切酶末端。在该实施方案中,衔接子不传达分区区分信息。在第二组分区中,将具有诸如独特分子标识符(UMI)分区区分序列的接头封装并任选地进行扩增和切割定向的线性化。将第一和第二组分区以大约1:1的比例合并,或者在来自两个细胞的核酸不太可能合并成单个所得分区的条件下合并。
在一些情况下,诸如整合酶位点或嵌合末端的重组酶位点可以携带在未修饰的单链或双链片段上,以连接到内部核酸末端。替代地,为了便于后续的测序文库纯化(clean-up),一些含有整合位点(诸如attP序列)或嵌合末端(诸如Tn3、Tn5、Tn7或睡美人转座酶嵌合末端)的单链或双链片段可以包含至少一个修饰(诸如干扰核酸外切酶或其他核酸降解活性的修饰)。示例包括用于防止片段的核酸外切酶降解硫代硫酸盐修饰,其中向每个末端添加含有整合位点的双链片段。
通常,重组酶位点(诸如整合位点或嵌合末端)是非特异性的,因为这样的整合位点或嵌合末端(诸如attP序列或者Tn3、Tn5、Tn7或睡美人转座酶嵌合末端)中的序列不用于指定相邻核酸的细胞来源。替代地,通常在对核酸进行分区之后,可以向分区提供具有与整合位点或嵌合末端相邻的不同、特异性的或细胞区分序列(例如,核酸条形码)的衔接子,或者可以提供不同的整合位点或嵌合末端,使得第一分区的核酸接收具有第一鉴定片段的整合片段或嵌合末端,而第二分区的核酸片段接收具有第二鉴定片段的整合片段。
然后可以在共有溶液中将具有重组酶边界(诸如包含整合酶attP片段的边界)的片段与重组酶位点(诸如attB phiC31整合位点)接触。在一个示例中,整合酶可以包括phi31整合酶,整合边界可以包含attP片段,斌且整合位点可以包括attB整合位点。替代地,片段具有嵌合末端边界,诸如Tn3、Tn5、Tn7或睡美人转座酶嵌合末端边界。
当重组酶位点(诸如attB整合位点或者Tn3、Tn5、Tn7或睡美人转座酶嵌合末端)侧接具有鉴定分区或细胞的序列(诸如特定于片段或细胞来源的序列(例如,核酸条形码))的链接片段时,该序列将相邻细胞核酸鉴定为源自特定或共有细胞来源或分区,使得即使在序列测定之前或同时它们被第二分区的片段填充,也可以容易地将来自由共有细胞区分或分区区分片段接合的共同细胞的多个暴露端鉴定为源自共有细胞。
当细胞区分序列经由重组酶位点边界片段递送时,整合或转座优选在分区之后执行。至少一些分区的核酸含量可以由此通过其接头的细胞区分序列来区分,使得即使在形成多个细胞来源的核酸被大量用于测序后,仍能够将内部末端对(以及被分配给它们在重叠群集合中映射到的附近的邻近信息,直到并包括大部分或完全测序的基因组)分配给与样品的至少一个其他细胞不同的共有细胞,从而可以确定预测的核酸三维构象的差异。
以重组位点为边界的片段不同地包含由任选地包含细胞或分区指定序列的接头区域链接(例如,核酸条形码)的左边界片段和右边界片段(例如,attB位点或Tn3、Tn5、Tn7或睡美人转座酶嵌合末端)。接头区域任选地进一步包含促进后续分离的部分。多种亲和标签或修饰碱基与本文的公开内容一致。在整合酶或转座酶处理之后,示例性部分促进接头的物理或化学分离。本领域技术人员已知的任何数量的亲和标签(诸如一个或更多个可促进基于亲和素或链霉亲和素的分离的生物素标签)与本文的公开内容一致。替代地,促进分离而不干扰整合酶或转座酶活性的任何抗原、受体或配体都适用于本文的一些实施方案。
如上所述,一些文库生成方法包括纯化步骤,诸如选择性地去除未结合试剂的步骤。例如,核酸外切酶处理通常用于选择性地去除未附接的接头分子、未附接整合位点的基因组片段,或未附接的接头分子和未附接整合位点的基因组片段。与具有抗核酸外切酶修饰(诸如硫代硫酸盐骨架)的整合位点片段连接的基因组片段可抵抗从该末端开始的核酸外切酶降解,并且两端均结合具有核酸外切酶抗性修饰(诸如硫代硫酸盐骨架)的整合位点片段的核酸分子在两端都可抵抗降解并且可以在核酸外切酶处理后存活。
替代地或组合地,一些接头分子在重组位点(诸如attP整合位点或者Tn3、Tn5、Tn7或睡美人转座酶嵌合末端)的相对侧包含反亲和标签,从而根据成功的重组反应去除反亲和标签。在这样的情况下,可以通过与反亲和标签的结合配偶体接触来去除不需要的试剂。
作为整合事件的一部分,整合酶活动会部分破坏两个整合位点,例如attB和attP位点。因此,通过将引物设计为单独地或与基于接头的分离组合地与连接衔接子位点退火,可以生成跨越至少一个接头的克隆扩增子,从而扩增细胞或等分试样区分信息和内部末端相邻信息,在一些情况下促进测序或其他下游分析。
在文库生成和任选地文库纯化之后,可以对核酸进行完全或部分测序,以便获得足够的信息用于细胞区分或细胞特异性三维核酸位置评估。如上所述,优选进行测序,从而获得足以将文库成分的每个基因组末端映射到其基因组位点的至少一些基因组序列,并进一步获得足以鉴定精确或可能的起源细胞的链接序列。因此,获得关于物理上彼此接近的两个基因组区域的序列信息,同时还获得关于发生这种物理构象的细胞的信息,使得可以在该细胞中共现的其他物理构象信息的背景下对其进行评估。通常,该信息是通过配对末端测序而不是全长测序获得的,尽管这两种方法和其他方法都与本文的公开内容一致。
与确定细胞(诸如可与第二个细胞在物理构象上区分的单个细胞)中的核酸物理构象有关的组合物和方法可以在与本文公开内容一致的许多系统上实施。一些系统包括将固定细胞核酸材料分布在乳液的第一个液滴中或在孔(例如,在孔板上)中。这些液滴进一步包含重组酶位点,诸如整合酶位点或嵌合末端,任选地修饰为如本文所述的具有核酸外切酶抗性,以及整合酶或转座酶和连接酶。单独地,接头核酸分子可以被配置用于递送至乳液的第一个液滴。接头核酸可以任选地分布到第二乳液或第二孔的液滴中并且任选地被扩增(例如使用滚环扩增),并且被处理以在每个第二乳液液滴中产生给定接头分子的多个拷贝。
然后可以将第二乳液液滴和第一乳液液滴成对合并,以便将整合酶或转座酶-连接核酸片段与整合酶或转座酶相容性接头组装在一起,通常每个液滴表现出统一的标记。然而,每个核酸样品具有两个或更多个标识符的液滴仍然能够产生有意义的数据,特别是当数据分析表明液滴中存在不止一种类型的标签时。
作为成对合并的替代方案,在一些情况下,整合酶或转座酶相容性接头可以作为试剂流中的固体颗粒菌落递送,试剂流经由到合并流的液滴与第一乳液液滴接触,诸如于2017年11月23日公布的US20170335369A1中所述,其通过引用以其整体并入本文。可以任选地在固体颗粒或凝胶中扩增接头核酸。可以将第一乳液液滴合并到流中,并且可以对流进行片段化或分区来回收第二乳液液滴,从而获得期望的核酸簇与接头颗粒比例,诸如1:1、大于1:1或小于1:1。
替代地,一些系统和方法包括将固定细胞核酸材料分布到芯片或板的孔中,然后将接头核酸递送到分区中,如上文所讨论的未扩增或扩增的。
替代地,在一些情况下,接头核酸的递送与分区不暂时分离。相反,接头核酸或酶促活性或酶促活性所必需的因子被隔离直至特定处理(诸如加热、电磁激活或其他施用),以便暂时激活酶促活性,导致接头共价结合至暴露末端的核酸样品(诸如经由接头)。
多种整合酶与本文的公开内容一致。PhiC31整合酶(诸如可由ThermoFisher商购的PhiC31整合酶)对方法的实践、系统的操作和用于本文的组合物表现出许多益处。该整合酶的一些益处如下。它使用小整合位点(attB/attP)。该酶本身是一个小的单个多肽。如果不使用单独的酶来切除整合事件,整合是不可逆的。活性高,并且该酶很容易被工程化以改变活性。尽管如此,其使用不需要排除其他酶,因为许多整合系统与本文的公开内容一致。本公开内容的方面可以关于PhiC31整合酶进行描述,但考虑使用任何相容的酶。
多种转座酶与本文的公开内容一致。Tn5转座酶(诸如可由Lucigen商购的PhiC31整合酶)对方法的实践、系统的操作和用于本文的组合物表现出许多益处。该转座酶的一些益处如下:Tn5使用19bp的嵌合末端鉴定序列,插入的偏差小且稳定,Tn5可以被递送至细胞进行体内转座或递送至分离核酸进行体外反应。尽管如此,其使用不需要排除其他酶,因为许多转座酶系统(诸如Tn3、Tn7或睡美人转座酶)与本文的公开内容一致。本公开内容的方面可以关于Tn3、Tn5、Tn7或睡美人转座酶进行描述,但考虑使用任何相容的酶。
通过多种方法评估从文库成分获得的序列信息,诸如在Hi-C、
Figure BDA0003523933710000311
体外邻近连接或其他三维构象分析的背景下本领域已知的方法。重要的是,可以获得细胞特异性读取对频率,从而可以基于细胞特异性评估末端相邻序列映射到基因组特定区域或特定重叠群的频率。也就是说,能够评估可能的三维构象的细胞特异性发生。在一些情况下,还能够评估信号的细胞特异性强度,与三维构象中的细胞特异性距离相关,从而可以得出结论,核酸的某些区域在一个细胞中相对于第二个细胞具有相对接近的邻近,其中它们具有可比性但“较弱”或具有更远的邻近,而在第三个细胞中没有指示邻近的信号。也就是说,三维构象的定性和定量评估均与本文公开内容一致。在一些情况下,一个区域与第二个区域的邻近至少部分通过计算在配对末端读取中与第二个簇的簇成分共现的第一个簇的簇成分的数量来评估的,特别是在共享共有分区区分序列(诸如独特分区标签)的库成分中。
构象信息不需要通过在多个文库成分中多次出现相同的末端相邻序列来获得。相反,在一些情况下,当簇的两个成员映射到核酸参考(诸如基因组)的第二个区域上的第二个簇的不同区域时,映射到靠近第二末端相邻序列映射位点(映射到共有“簇”)的末端相邻序列可以重新加强三维构象评估。
在一些情况下,本文公开的方法用于标记和/或关联多核苷酸或其序列片段,并将该数据用于各种应用。在一些情况下,本公开内容提供了产生具有小于约10,000、约20,000、约50,000、约100,000、约200,000、约500,000、约1百万、约2百万、约5百万、约1千万、约2千万、约3千万、约4千万、约5千万、约6千万、约7千万、约8千万、约9千万、约1亿、约2亿、约3亿、约4亿、约5亿、约6亿、约7亿、约8亿、约9亿或约10亿个读取对的高度连续且准确的人类基因组装配的方法。在一些情况下,本公开内容提供了以约50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更高的准确度对人类基因组中约50%、60%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的杂合变体进行定相或分配物理链接信息的方法。
在一些实施方案中,本文所述的组合物和方法允许研究宏基因组,例如在人类肠道中发现的宏基因组。因此,可以研究栖息在给定生态环境中的一些或所有生物的部分或全部基因组序列。示例包括对所有肠道微生物、皮肤某些区域发现的微生物以及生活在有毒废物场所的微生物进行随机测序。可以使用本文所述的组合物和方法来确定这些环境中微生物群体的组成以及由它们各自的基因组编码的相关生物化学的方面。本文所述的方法可以实现来自复杂生物环境的宏基因组研究,例如,包含超过2、3、4、5、6、7、8、9、10、12、15、20、25、30、40、50、60、70、80、90、100、125、150、175、200、250、300、400、500、600、700、800、900、1000、5000、10000或更多个生物体和/或生物体变体的那些环境。
因此,本文公开的方法可应用于完整的人类基因组DNA样品,但也可应用于广泛多样的核酸样品,诸如逆转录RNA样品、循环游离DNA样品、癌组织样品、犯罪现场样品、考古样品、非人类基因组样品或环境样品(诸如包含来自一种以上生物体(诸如在实验室条件下不易培养的生物体)的遗传信息的环境样品)。
可以使用本文所述的方法和系统实现癌症基因组测序所需的高准确度。当对癌症基因组进行测序时,不准确的参考基因组可能带来碱基判定挑战。异质样品和小的起始材料,例如通过活检获得的样品引入了附加的挑战。此外,大规模的结构变体和/或杂合性丢失的检测对于癌症基因组测序,以及区分体细胞变体和碱基判定错误的能力来说往往至关重要。
本文所述的系统和方法可由含有2、3、4、5、6、7、8、9、10、12、15、20个或更多个不同基因组的复杂样品生成准确的长序列。可以对正常、良性和/或肿瘤来源的混合样品进行分析(任选地不需要正常对照)。在一些实施方案中,利用仅100ng或甚至仅数百个基因组当量的起始样品生成准确的长序列。本文描述的系统和方法可允许检测大规模结构变体和重排,可以在跨越约1kbp、约2kbp、约5kbp、约10kbp、约20kbp、约50kbp、约100kbp、约200kbp、约500kbp、约1Mbp、约2Mbp、约5Mbp、约10Mbp、约20Mbp、约50Mbp或约100Mbp或更多的核苷酸的长序列上获得定相的变体判定。例如,可以在跨越约1Mbp或约2Mbp的长序列上获得相位变体判定。
在某些方面,本文公开的方法用于组装源自单个DNA分子的多个重叠群。在一些情况下,该方法包括从与多个纳米颗粒交联的单个DNA分子生成多个读取对并使用读取对组装重叠群。在某些情况下,单个DNA分子在细胞外交联。在一些情况下,至少0.1%、0.2%、0.3%、0.4%、0.5%、0.6%、0.7%、0.8%、0.9%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%、20%、25%、30%、35%、40%、45%或50%的读取对在单个DNA分子上跨越超过1kB、2kB、3kB、4kB、5kB、6kB、7kB、8kB、9kB、10kB、15kB、20kB、30kB、40kB、50kB、60kB、70kB、80kB、90kB、100kB、150kB、200kB、250kB、300kB、400kB、500kB、600kB、700kB、800kB、900kB或1MB的距离。在某些情况下,至少0.5%、0.6%、0.7%、0.8%、0.9%、1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%或20%的读取对在单个DNA分子上跨越超过5kB、6kB、7kB、8kB、9kB、10kB、15kB、20kB、30kB、40kB、50kB、60kB、70kB、80kB、90kB、100kB、150kB或200kB的距离。在进一步的情况下,至少0.5%、0.6%、0.7%、0.8%、0.9%、1%、2%、3%、4%或5%的读取对在单个DNA分子上跨越超过20kB、30kB、40kB、50kB、60kB、70kB、80kB、90kB或100kB的距离。在特定的情况下,至少1%或5%的读取对在单个DNA分子上跨越超过50kB或100kB的距离。在一些情况下,读取对在1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、30、40、50或60天内生成。在某些情况下,读取对在3、4、5、6、7、8、9、10、11、12、13、14、15、16、17或18天内生成。在进一步的情况下,读取对在7、8、9、10、11、12、13或14内生成。在特定的情况下,读取对在7或14内生成。
可将使用本文所述的方法和系统确定的单元型分配给计算资源,例如经由网络的计算资源,如云系统。如果需要的话,可以使用储存在计算资源中的有关信息来校正短变体判定。可以基于来自短变体判定的复合信息和储存在计算资源中的信息来检测结构变体。基因组的有问题部分,如片段重复、有结构变异倾向的区域、高度变异的医学上有关的MHC区域、着丝粒和端粒区域以及其他异染色质区域(包括具有重复区域、低序列准确度、高变异率、ALU重复、片段重复或本领域已知的任何其他有关的有问题部分的那些异染色质区域),可进行重新装配以提高准确度。
可将样品类型分配给本地或网络化的计算资源(诸如云)中的序列信息。在信息的来源已知的情况下,例如,当信息的来源来自癌症或正常组织时,可将来源以样品类型的一部分的形式分配给样品。其他样品类型实例通常包括但不限于组织类型、样品收集方法、感染的存在、感染的类型、处理方法、样品的大小等。在可获得完全或部分比较基因组序列,如正常基因组与癌症基因组的比较的情况下,可以确定样品数据与比较基因组序列之间的差异并任选地输出该差异。
本公开内容的方法可用于分析感兴趣的选择性基因组区域以及可与感兴趣的选择性区域相互作用的基因组区域的遗传信息。本文公开的扩增方法可用于本领域已知的用于遗传分析的装置、试剂盒和方法,诸如但不限于在美国专利号6,449,562、6,287,766、7,361,468、7,414,117、6,225,109和6,110,709中发现的装置、试剂盒和方法。在一些情况下,本公开内容的扩增方法可用于扩增用于DNA杂交研究的靶核酸以确定多态性的存在或不存在。多态性或等位基因可能与诸如遗传病的疾病或病况相关。在一些其他情况下,多态性可能与对疾病或病况的易感性相关,例如,与成瘾、退行性和年龄相关病症、癌症等相关的多态性。在其他情况下,多态性可能与有益的性状相关,诸如增加的冠状动脉健康,或对诸如HIV或疟疾等疾病的抵抗力,或对诸如骨质疏松症、阿尔茨海默氏症或痴呆症等退行性疾病的抵抗力。
本公开内容的组合物和方法可用于诊断、预后、治疗、患者分层、药物开发、治疗选择和筛选目的。本公开内容提供的优点是可以使用本公开内容的方法一次从单个生物分子样品中分析许多不同的目标分子。例如,这允许对一个样品进行多项诊断测试。
本文提供的方法可以通过由克服这些重复区域造成的实质性障碍来极大地推进基因组学领域,从而可以在基因组分析的许多领域取得重要进展。要使用以前的技术进行从头组装,必须要么满足于将组装件分解为许多小支架,要么投入大量时间和资源来生产大型插入文库或使用其他方法来生成更连续的组装件。这样的方法可以包括获得非常深的测序覆盖度、构建BAC或福斯质粒文库、光学映射,或者最有可能的是这些和其他技术的一些组合。大量的资源和时间要求使大多数小型实验室无法使用这样的方法,并阻止研究非模式生物。由于本文所述的方法可以产生非常长范围的读取集,因此可以通过单次测序运行实现从头组装。这将组装成本降低了几个数量级,并将所需时间从数月或数年缩短到数周。在一些情况下,本文公开的方法允许在少于14天、少于13天、少于12天、少于11天、少于10天、少于9天、少于8天、少于7天、少于6天、少于5天、少于4天、少于3天、少于2天、少于1天,或者在上述指定时间段的任意两个之间的范围内生成多个读取集。在一些情况下,该方法允许在约10天至14天内生成多个读取集。即使是为最小生态位的生物体构建基因组也将成为常规,系统发育分析将不会缺乏比较,并且可以实现诸如Genome 10k的项目。
本文所述的方法允许将先前提供的、先前生成的或从头合成的重叠群信息分配到物理连锁群(诸如染色体或较短的连续核酸分子)中。类似地,本文公开的方法允许所述重叠群沿着物理核酸分子以线性顺序相对于彼此定位。类似地,本文公开的方法允许所述重叠群沿着物理核酸分子以线性顺序相对于彼此定向。
类似地,本文公开的方法可以提供用于医学目的的结构和定相分析的进展。在癌症、具有相同类型癌症的个体之间或甚至在相同肿瘤内存在惊人的异质性。从结果影响中梳理原因影响需要在每个样品的低成本下有非常高的精度和通量。在个性化医学的领域中,基因组治疗的金标准之一是具有完全表征和定相的全部变体的经测序的基因组,包括大的和小的结构重排以及新型突变。为了实现该标准,先前的技术需要与从头装配所需的努力类似的努力,所述从头装配目前太过昂贵和费力而不能成为常规医疗程序。在一些情况下,本文公开的方法以低成本快速产生完整、准确的基因组,从而在人类疾病的研究和治疗中产生许多备受追捧的能力。
此外,将本文公开的方法应用于定相可以将统计方法的便利性与家族分析的准确性相结合,提供比单独使用任一方法更多的节省(金钱、劳动力和样品)。从头变体定相是一种先前技术所禁止的非常理想的定相分析,可以使用本文公开的方法容易地进行。这尤其重要,因为绝大多数人类变异都很罕见(次要等位基因频率低于5%)。定相信息对于群体遗传研究很有价值,相对于非链接基因型,群体遗传研究从高度连接的单倍型网络(分配给单个染色体的变体集合)中获得显着优势。单倍型信息可以对群体大小、迁徙和亚种群间交换的历史变化进行更高分辨率的研究,并使我们能够将特定变异追溯到特定的父母和祖父母。这反过来阐明了与疾病相关的变体的遗传传递,以及变体在单个个体中的相互作用。在进一步的情况下,本公开内容的方法能够制备、测序和分析极长范围的读数集(XLRS)或极长范围的读数对(XLRP)文库。
在本公开内容的一些实施方案中,提供来自受试者的组织或DNA样品,并且该方法返回装配的基因组、与被判定的变体(包括大结构变体)的比对、定相的变体判定或任何其他分析。在其他实施方案中,本文公开的方法直接为个体提供XLRP文库。
在各个实施方案中,本文公开的方法生成相隔大距离的极长范围读取对。该距离的上限可通过收集大尺寸DNA样品的能力来改善。在一些情况下,读取对跨越多达50、60、70、80、90、100、125、150、175、200、225、250、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000kbp或更远的基因组距离。在一些情况下,读取对跨越多达500kbp的基因组距离。在其他情况下,读取对跨越多达2000kbp的基因组距离。本文公开的方法可整合并基于分子生物学方面的标准技术进行构建,并且进一步地非常适合于提高效率、特异性和基因组覆盖度。在一些情况下,读取对在少于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、60或90天内生成。在一些情况下,读取对在少于约14天内生成。在进一步的情况下,读取对在少于约10天内生成。在一些情况下,本公开内容的方法在正确排序和/或定向多个重叠群方面以至少约50%、约60%、约70%、约80%、约90%、约95%、约99%或约100%的准确度提供大于约5%、约10%、约15%、约20%、约30%、约40%、约50%、约60%、约70%、约80%、约90%、约95%、约99%或约100%的读取对。在一些情况下,该方法在正确排序和/或定向多个重叠群方面提供约90%至100%的准确度。
在其他实施方案中,本文公开的方法与目前采用的测序技术一起使用。在一些情况下,所述方法与经过良好测试的和/或广泛部署的测序仪器组合使用。在进一步的实施方案中,本文公开的方法与从当前采用的测序技术衍生的技术和方法一起使用。
本文公开的方法可以显着简化众多生物体的从头基因组组装。使用先前的技术,这样的组装目前受限于经济的配对文库的短插入。虽然有可能在福斯质粒可访问的多达40-50kbp的基因组距离上生成读取对,但这是昂贵的、笨重的,而且太短而无法跨越最长的重复延伸,包括丝粒内的重复延伸,其在人类中大小为300kbp至5Mbp。在一些情况下,本文公开的方法提供了能够跨越大距离(例如,兆碱基或更长)的读取对,从而克服这些支架完整性挑战。因此,通过利用本文公开的方法,产生染色体水平的组装可能是常规的。类似地,获取长范围定相信息可以为群体基因组、系统发育和疾病研究提供巨大的附加力量。在某些情况下,本文公开的方法能够对大量个体进行准确定相,从而扩展我们在群体和深度时间水平上探测基因组的能力的广度和深度。
在个性化医疗领域,从本文公开的方法生成的XLRS读取集代表了朝着准确、低成本、定相和快速产生的个人基因组迈出的有意义的一步。先前的方法在长距离定相变体的能力方面不足,从而阻止了对复合杂合基因型的表型影响的表征。此外,与用于研究它们的读取和读取插入相比,由于它们的大小较大,因此很难用先前的技术准确鉴定和表征对基因组疾病有重大意义的结构变体。跨越数万碱基到数百万碱基或更长的读取集可以帮助缓解这一困难,从而允许对结构变体进行高度并行和个性化的分析。
高通量测序技术的进步可以推动基础进化和生物医学研究。现在生成大量DNA序列数据的成本相对较低。然而,在理论上和实践中难以用先前技术产生高质量、高度连续的基因组序列。此外,包括人类在内的许多生物体都是二倍体,其中每个个体都有基因组的两个单倍体拷贝。在杂合性的位点(例如,母本提供的等位基因与父本提供的等位基因不同),很难知道哪组等位基因来自哪个亲本(称为单倍型定相)。该信息对于执行许多进化和生物医学研究(诸如疾病和性状关联研究)至关重要。
本公开内容提供了用于基因组组装的方法,该方法将DNA制备技术与标签化序列读数相结合,以高通量发现对应于来自与复合物(诸如给定基因组内的染色质复合物)结合的单个物理核酸分子的序列读取的短期、中期和长期连接。本公开内容进一步提供了使用这些连接来辅助基因组组装,用于单倍型定相和/或用于宏基因组研究的方法。虽然本文提出的方法可用于确定受试者基因组的组装,但是还应当理解,在某些情况下,本文提出的方法可用于确定受试者的基因组的一部分(诸如染色体)的组装,或受试者的不同长度的染色质的组装。还应当理解,在某些情况下,本文提出的方法用于确定或指导非染色体核酸分子的组装。实际上,可以使用本文公开的方法促进因存在分离非重复重叠群的重复区域而使测序复杂化的任何核酸。
在进一步的情况下,本文公开的方法允许使用少量材料获得基因型组装、单倍型定相和宏基因组学的准确和预测结果。在一些情况下,本文公开的方法使用约100皮克(pg)、约200pg、约300pg、约400pg、约500pg、约600pg、约700pg、约800pg、约900pg、约1.0纳克(ng)、约2.0ng、约3.0ng、约4.0ng、约5.0ng、约6.0ng、约7.0ng、约8.0ng、约9.0ng、约10ng、约15ng、约20ng、约30ng、约40ng、约50ng、约60ng、约70ng、约80ng、约90ng、约100ng、约200ng、约300ng、约400ng、约500ng、约600ng、约700ng、约800ng、约900ng、约1.0微克(μg)、约1.2μg、约1.4μg、约1.6μg、约1.8μg、约2.0μg、约2.5μg、约3.0μg、约3.5μg、约4.0μg、约4.5μg、约5.0μg、约6.0μg、约7.0μg、约8.0μg、约9.0μg、约10μg、约15μg、约20μg、约30μg、约40μg、约50μg、约60μg、约70μg、约80μg、约90μg、约100μg、约150μg、约200μg、约300μg、约400μg、约500μg、约600μg、约700μg、约800μg、约900μg或约1000μg的DNA。在一些情况下,在本文公开的方法中使用的DNA是从少于约10,000,000、约5,000,000、约4,000,000、约3,000,000、约2,000,000、约1,000,000、约500,000、约200,000、约100,000、约50,000、约20,000、约10,000、约5,000、约2,000、约1,000、约500、约200、约100、约50、约20或约10个细胞中提取的。
在二倍体基因组中,通常重要的是了解哪些等位基因变体在同一条染色体上物理链接,而不是映射到染色体对上的同源位置。将等位基因或其他序列映射到二倍体染色体对的特定物理染色体上被称为单倍型定相。来自高通量序列数据的短读取很少允许人们直接观察哪些等位基因变异是链接的,特别是在最常见的情况下,如果等位基因变体之间的距离大于最长的单个读取。单倍型定相的计算推断在长距离上可能不可靠。本文公开的方法允许使用读取对上的等位基因变体来确定哪些等位基因变体物理链接。
在各种情况下,本公开内容的方法和组合物能够关于多个等位基因变体对二倍体或多倍体基因组进行单倍型定相。因此,本文所述的方法提供基于来自标记序列片段和/或使用标记序列片段的组装重叠群的变体信息来确定链接的等位基因变体。等位基因变体的案例包括但不限于从1000genomes、UK10K、HapMap和用于在人类中发现遗传变体的其他项目中已知的等位基因变体。在一些情况下,通过获得单倍型定相数据更容易揭示疾病与特定基因的关联,例如如以下发现所示:SH3TC2的两个拷贝中未链接的失活突变导致腓骨肌萎缩(Charcot-Marie-Tooth)神经病(Lupski JR,Reid JG,Gonzaga-Jauregui C等人N.Engl.J.Med.362:1181–91,2010)以及ABCG5的两个拷贝中未链接的失活突变导致高胆固醇血症9(Rios J,Stein E,Shendure J等人Hum.Mol.Genet.19:4313–18,2010)。
人类平均每1,000个位点有1个位点是杂合的。在一些情况下,使用高通量测序方法的单通道数据生成至少约150,000,000个读数。在进一步的情况下,单个读取长约100个碱基对。如果我们假设输入DNA片段的平均大小为150kbp并且我们得到每个片段100个配对末端读数,那么我们期望每个集(即每100个读数对)观察30个杂合位点。一个集内包含杂合位点的每个读取对与同一集内的所有其他读取对同相(即分子链接)。在一些情况下,与单个读取对相反,该属性为使用集合进行定相提供了更大的能力。人类基因组中约有30亿个碱基,千分之一是杂合的,平均人类基因组中大约有300万个杂合位点。使用包含杂合位点的大约45,000,000个读取对,使用典型的高通量测序仪,使用高通量测序方法的单个通道进行定相的每个杂合位点的平均覆盖度约为(15X)。因此,二倍体人类基因组可以可靠且完全地用与来自使用本文公开的方法制备的样品的序列变体相关的高通量序列数据的一个通道进行定相。在一些情况下,数据通道是DNA序列读取数据的集。在进一步的情况下,数据通道是来自高通量测序仪器单次运行的DNA序列读取数据的集。
由于人类基因组由两组同源染色体组成,因此要了解个体的真实基因组成需要描述遗传物质的母本和父本拷贝或单倍型。获得个体的单倍型可用于若干方面。例如,单倍型在临床上可用于预测器官移植中供体-宿主匹配的结果。单倍型越来越多地用于检测疾病关联。在显示复合杂合性的基因中,单倍型提供关于两个有害变异是位于同一个等位基因(即“顺式”,使用遗传学术语)还是位于两个不同的等位基因(“反式”)的信息,极大地影响对这些变体的遗传是否有害的预测,并影响关于是个体携带一个功能性等位基因和一个具有两个有害变体位点的非功能性等位基因还是该个体携带两个非功能性等位基因,每个等位基因都有不同的缺陷的结论。来自个体群组的单倍型为流行病学家和人类学家提供了有关人口结构的信息,并提供了人类进化史的信息。此外,已经报道了基因表达中广泛的等位基因失衡,并表明等位基因相位之间的遗传或表观遗传差异可能导致表达的数量差异。对单倍型结构的理解将描述导致等位基因失衡的变体的机制。
在某些实施方案中,本文公开的方法包括体外技术以根据长距离连锁和定相的需要固定和捕获基因组的远距离区域之间的关联。在一些情况下,该方法包括构建和测序一个或更多个读取集以递送基因组上非常远的读取对。在进一步的情况下,每个读数集包含两个或更多个由共同条形码标记的读数,其可以代表来自共同多核苷酸的两个或更多个序列片段。在一些情况下,相互作用主要来自单个多核苷酸内的随机关联。在一些情况下,推断序列片段之间的基因组距离是因为多核苷酸中彼此靠近的序列片段相互作用更频繁且概率更高,而分子远处部分之间的相互作用则不太频繁。因此,连接两个基因座的对数与其在输入DNA上的邻近之间存在系统关系。
在一些方面,本公开内容提供产生数据以实现极高定相准确度的方法和组合物。与先前的方法相比,本文所述的方法可以对高比例的变体进行定相。在一些情况下,在保持高水平准确度的同时实现定相。在进一步的情况下,该相位信息延伸至更长的范围,例如大于约200kbp、约300kbp、约400kbp、约500kbp、约600kbp、约700kbp、约800kbp、约900kbp、约1Mbp、约2Mbp、约3Mbp、约4Mbp、约5Mbp或约10Mbp,或长于约10Mbp,直到并包括染色体的整个长度。在一些实施方案中,使用少于约2.5亿个读取(例如,通过使用Illumina HiSeq数据的仅1个通道)以超过99%的准确度对人类样品中超过90%的杂合SNP进行定相。在其他实施方案中,使用少于约2.5亿或约5亿个读取(例如,通过使用Illumina HiSeq数据的仅1个或2个通道)以超过约70%、80%、90%、95%或99%的准确度对人类样品中超过约40%、50%、60%、70%、80%、90%、95%或99%的杂合SNP进行定相。在一些情况下,使用少于约2.5亿或约5亿个读取以超过约95%或99%的准确度对人类样品中超过约95%或99%的杂合SNP进行定相。在进一步的情况下,通过将读取长度增加至约200bp、250bp、300bp、350bp、400bp、450bp、500bp、600bp、800bp、1000bp、1500bp、2kbp、3kbp、4kbp、5kbp、10kbp、20kbp、50kbp或100kbp来捕获附加的变体。
本公开内容的组合物和方法可用于基因表达分析。本文所述的方法区分核苷酸序列。靶核苷酸序列之间的差异可以是例如单个核酸碱基差异、核酸缺失、核酸插入或重排。还可以检测涉及超过一个碱基的这样的序列差异。本公开内容的过程能够检测传染病、遗传病和癌症。它还可用于环境监测、法医学和食品科学。可以对核酸执行的遗传分析的示例包括例如SNP检测、STR检测、RNA表达分析、启动子甲基化、基因表达、病毒检测、病毒亚型分类和耐药性。
本方法可用于分析获自或衍生自患者的生物分子样品,以便确定样品中是否存在患病细胞类型、疾病的阶段、患者的预后、患者对特定治疗的反应能力或患者的最佳治疗。本方法还可用于鉴定特定疾病的生物标志物。
在一些实施方案中,本文所述的方法用于诊断病况。如本文所用,病况的术语“诊断”可包括预测或诊断病况、确定病况的易感性、监测病况的治疗、诊断疾病的治疗反应或病况的预后、病况进展或对病况的特定治疗的反应。例如,可以根据本文所述的任何方法分析血液样品以确定样品中疾病或恶性细胞类型的标志物的存在和/或数量,从而诊断疾病或癌症或对疾病或癌症进行分期。
在一些实施方案中,本文所述的方法和组合物用于病况的诊断和预后。
许多免疫学、增殖性和恶性疾病和病症特别适合本文所述的方法。免疫学疾病和病症包括过敏性疾病和病症、免疫功能紊乱以及自身免疫疾病和病症。过敏性疾病和病症包括但不限于过敏性鼻炎、过敏性结膜炎、过敏性哮喘、特应性湿疹、特应性皮炎和食物过敏。免疫缺陷包括但不限于严重联合免疫缺陷(SCID)、嗜酸性粒细胞增多综合征、慢性肉芽肿病、白细胞粘附缺陷I和II、高IgE综合征、先天性白细胞颗粒异常综合征(ChediakHigashi)、中性粒细胞增多症、中性粒细胞减少症、发育不全、无丙种球蛋白血症、高IgM综合征、DiGeorge/腭心面综合征和干扰素γ-TH1通路缺陷。自身免疫和免疫失调病症包括但不限于类风湿性关节炎、糖尿病、系统性红斑狼疮、格雷夫斯病、格雷夫斯眼病、克罗恩病、多发性硬化症、银屑病、系统性硬化症、甲状腺肿和淋巴瘤(桥本甲状腺炎、淋巴结样甲状腺肿)、斑秃、自身免疫性心肌炎、硬化性苔藓、自身免疫性葡萄膜炎、阿狄森病、萎缩性胃炎、重症肌无力、特发性血小板减少性紫癜、溶血性贫血、原发性胆汁性肝硬化、韦格纳肉芽肿、结节性多动脉炎和炎症性肠病、同种异体移植排斥和对感染性微生物或环境抗原的过敏反应造成的组织破坏。
可以通过本公开的方法评估的增殖性疾病和病症包括但不限于新生儿血管瘤病;继发性进行性多发性硬化;慢性进行性骨髓退行性疾病;神经纤维瘤病;神经节瘤病;瘢痕疙瘩形成;佩吉特骨病;纤维囊性疾病(例如,乳房或子宫的纤维囊性疾病);结节病;Peyronie和Dupuytren纤维化、肝硬化、动脉粥样硬化和血管再狭窄。
可以通过本公开内容的方法评估的恶性疾病和病症包括血液恶性肿瘤和实体瘤。
当样品是血液样品时,血液恶性肿瘤尤其适合本公开内容的方法,因为这样的恶性肿瘤涉及血源性细胞的变化。这样的恶性肿瘤包括非霍奇金淋巴瘤、霍奇金淋巴瘤、非B细胞淋巴瘤和其他淋巴瘤、急性或慢性白血病、红细胞增多症、血小板增多症、多发性骨髓瘤、骨髓增生异常病症、骨髓增生性病症、骨髓纤维化、非典型免疫淋巴增生和浆细胞病症。
可以通过本公开的方法评估的浆细胞病症包括多发性骨髓瘤、淀粉样变性和瓦尔登斯特伦巨球蛋白血症。
实体瘤的示例包括但不限于结肠癌、乳腺癌、肺癌、前列腺癌、脑肿瘤、中枢神经系统肿瘤、膀胱肿瘤、黑色素瘤、肝癌、骨肉瘤和其他骨癌、睾丸癌和卵巢癌、头颈部肿瘤和宫颈肿瘤。
也可以通过本公开的过程检测遗传病。这可以通过对染色体和遗传畸变或遗传病进行产前或产后筛查来进行。可检测的遗传病的示例包括:21羟化酶缺乏症、囊性纤维化、脆性X综合征、特纳综合征、杜氏肌营养不良症、唐氏综合征或其他三体性综合征、心脏病、单基因疾病、HLA分型、苯丙酮尿症、镰状细胞性贫血、泰-萨克斯病、地中海贫血、克兰费尔特综合征、亨廷顿病、自身免疫性疾病、脂质沉积症、肥胖缺陷、血友病、先天性代谢障碍和糖尿病。
通过分别测定样品中细菌或病毒标志物的存在和/或数量,本文所述的方法可用于诊断病原体感染,例如由细胞内细菌和病毒引起的感染。
通过本公开内容的过程可以检测多种传染病。传染性疾病可由细菌、病毒、寄生虫和真菌传染原引起。还可以使用本公开内容来确定各种传染原对药物的抗性。
可通过本公开内容检测的细菌传染源包括大肠杆菌、沙门氏菌、志贺氏菌、克雷伯氏菌、假单胞菌、李斯特菌、结核分枝杆菌、鸟胞内分枝杆菌、耶尔森氏菌、弗朗西斯氏菌、巴氏杆菌、布鲁氏菌、梭状芽孢杆菌、百日咳博德特氏菌、拟杆菌、金黄色葡萄球菌、肺炎链球菌、B-溶血性链球菌、棒状杆菌、军团菌、支原体、脲原体、衣原体、淋病奈瑟菌、脑膜炎奈瑟菌、流感嗜血杆菌、粪肠球菌、普通变形杆菌、奇异变形杆菌、幽门螺杆菌、梅毒螺旋体、伯氏疏螺旋体、回归热螺旋体、立克次体病原体、诺卡氏菌和放线菌。
可通过本公开内容检测的真菌传染源包括新型隐球菌、皮炎芽生菌、荚膜组织胞浆菌、粗球孢子菌、巴西副球孢子菌、白色念珠菌、烟曲霉、藻菌纲(根霉属)、申克孢子丝菌、着色真菌病和马杜拉真菌病。
可通过本公开内容检测的病毒传染原包括人类免疫缺陷病毒、人类T细胞淋巴细胞病毒、肝炎病毒(例如,乙型肝炎病毒和丙型肝炎病毒)、Epstein-Barr病毒、巨细胞病毒、人乳头瘤病毒、正粘病毒、副粘病毒、腺病毒、冠状病毒、弹状病毒、脊髓灰质炎病毒、披膜病毒、布尼亚病毒、沙粒病毒、风疹病毒和呼肠孤病毒。
可通过本公开内容检测的寄生原包括恶性疟原虫、三日疟原虫、间日疟原虫、卵形疟原虫、盘尾丝虫、利什曼原虫、锥虫属、血吸虫属、溶组织内阿米巴、隐孢子虫、贾第虫属、毛滴虫属、结肠小袋纤毛虫、班氏吴策线虫、弓形虫属、蠕形住肠线虫、似蚓蛔线虫、毛首鞭形线虫、麦地那龙线虫、吸虫、阔节裂头绦虫、带绦虫属、卡氏肺孢子虫和美洲钩虫。
本公开内容也可用于检测传染原的耐药性。例如,耐万古霉素粪肠球菌、耐甲氧西林金黄色葡萄球菌、耐青霉素肺炎链球菌、耐多药结核分枝杆菌和耐AZT人类免疫缺陷病毒均可使用本公开内容鉴定。
因此,使用本公开内容的组合物和方法检测的靶分子可以是患者标志物(诸如癌症标志物)或外源感染的标志物(诸如细菌或病毒标志物)。
本公开内容的组合物和方法可用于鉴定和/或量化其丰度指示生物学状态或疾病状况(例如,由于疾病状态而上调或下调的血液标志物)的靶分子。
在一些实施方案中,本公开内容的方法和组合物可用于细胞因子表达。本文所述方法的低灵敏度将有助于细胞因子(例如,作为病况的生物标志物)的早期检测、疾病(诸如癌症)的诊断或预后以及亚临床病况的鉴定。
衍生目标多核苷酸的不同样品可包括来自相同个体的多个样品、来自不同个体的样品或其组合。在一些实施方案中,样品包含来自单个个体的多个多核苷酸。在一些实施方案中,样品包含来自两个或更多个个体的多个多核苷酸。个体是可以衍生靶多核苷酸的任何生物体或其部分,其非限制性示例包括植物、动物、真菌、原生生物、无核原虫类、病毒、线粒体和叶绿体。样品多核苷酸可以从受试者中分离,诸如细胞样品、组织样品或衍生自其的器官样品,包括例如培养的细胞系、活检、血液样品或含有细胞的流体样品。受试者可以是动物,包括但不限于牛、猪、小鼠、大鼠、鸡、猫、狗等动物,并且通常是哺乳动物,诸如人类。样品也可以人工获得,诸如通过化学合成。在一些实施方案中,样品包含DNA。在一些实施方案中,样品包含基因组DNA。在一些实施方案中,样品包含线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体、寡核苷酸标签或其组合。在一些实施方案中,样品包含通过使用引物和DNA聚合酶的任何合适组合的引物延伸反应生成的DNA,包括但不限于聚合酶链反应(PCR)、逆转录及其组合。在引物延伸反应的模板是RNA的情况下,逆转录的产物被称为互补DNA(cDNA)。用于引物延伸反应的引物可包含对一种或更多种靶标特异的序列、随机序列、部分随机序列及其组合。适用于引物延伸反应的反应条件是本领域已知的。一般而言,样品多核苷酸包括样品中存在的任何多核苷酸,其可以包括或不包括靶多核苷酸。
在一些实施方案中,核酸模板分子(例如,DNA或RNA)是从含有多种其他成分(诸如蛋白质、脂质和非模板核酸)的生物样品中分离出来的。核酸模板分子可以从任何细胞材料中获得,从动物、植物、细菌、真菌或任何其他细胞生物中获得。用于本公开内容的生物样品包括病毒颗粒或制剂。核酸模板分子可以直接从生物体获得或者从获自生物体的生物样品获得,例如,从血液、尿液、脑脊液、精液、唾液、痰、粪便和组织获得。任何组织或体液样品均可用作本公开内容中使用的核酸的来源。核酸模板分子也可以从培养的细胞(诸如原代细胞培养物或细胞系)中分离。从中获得模板核酸的细胞或组织可以被病毒或其他细胞内病原体感染。样品也可以是从生物样品、cDNA文库、病毒或基因组DNA中提取的总RNA。样品也可以是来自非细胞来源的分离的DNA,例如来自冷冻机的扩增/分离的DNA。
用于提取和纯化核酸的方法是本领域公知的。例如,核酸可以通过用苯酚、苯酚/氯仿/异戊醇或类似制剂(包括TRIzol和TriReagent)进行有机提取来纯化。提取技术的其他非限制性示例包括:(1)有机萃取,然后乙醇沉淀,例如,使用使用苯酚/氯仿有机试剂(Ausubel等人,1993),使用或不使用自动核酸提取仪,例如,可获自Applied Biosystems(加利福尼亚州福斯特城)的Model 341 DNA提取仪;(2)固定相吸附法(美国专利号5,234,809;Walsh等人,1991);以及(3)盐诱导的核酸沉淀方法(Miller等人,(1988)),这种沉淀方法通常被称为“盐析”方法。核酸分离和/或纯化的另一示例包括使用核酸可以特异性或非特异性结合的磁性颗粒,然后使用磁体分离珠,并从珠中洗涤和洗脱核酸(参见例如美国专利号5,705,628)。在一些实施方案中,可在上述分离方法之前进行酶消化步骤以帮助从样品中消除不需要的蛋白质,例如用蛋白酶K或其他类似蛋白酶消化。参见例如美国专利号7,001,724。如果需要,可以向裂解缓冲液中添加RNase抑制剂。对于某些细胞或样品类型,可能需要在方案中添加蛋白质变性/消化步骤。纯化方法可以针对分离DNA、RNA或两者。当在提取程序期间或之后一起分离DNA和RNA时,可以采用进一步的步骤来将一者或两者与另一者分开纯化。也可以生成提取核酸的亚级分,例如通过大小、序列或其他物理或化学特征进行纯化。除了初始的核酸分离步骤之外,核酸的纯化可以在本公开内容的方法中的任何步骤之后进行,诸如用于去除过量或不需要的试剂、反应物或产物。
核酸模板分子可以如于2003年10月9日公布的美国专利申请公开号US2002/0190663 A1中所述获得。通常,可以通过多种技术从生物样品中提取核酸,诸如由Maniatis等人,Molecular Cloning:A Laboratory Manual,Cold Spring Harbor,N.Y.,pp.280-281(1982)描述的技术。在一些情况下,可以首先从生物样品中提取核酸,然后在体外进行交联。在一些情况下,可以从核酸中进一步去除天然结合蛋白(例如,组蛋白)。
在其他实施方案中,本公开内容可以容易地应用于任何高分子量双链DNA,包括例如从组织、细胞培养物、体液、动物组织、植物、细菌、真菌、病毒等中分离的DNA。
包含大小选择的Hi-C方法
本文提供了方法,包括获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品;将稳定化生物样品与DNase接触以将核酸分子切割成多个片段;将多个片段中的第一片段和第二片段在连接序列处附接;以及对多个片段进行大小选择以获得多个选择片段。在一些情况下,多个选择片段为约145bp至约600bp。在一些情况下,多个选择片段为约100bp至约2500bp。在一些情况下,多个选择片段为约100bp至约600bp。在一些情况下,多个选择片段为约600bp至约2500bp。在一些情况下,多个选择片段为约100bp至约600bp、约100bp至约700bp、约100bp至约800bp、约100bp至约900bp、约100bp至约1000bp、约100bp至约1100bp、约100bp至约1200bp、约100bp至约1300bp、约100bp至约1400bp、约100bp至约1500bp、约100bp至约1600bp、约100bp至约1700bp、约100bp至约1800bp、约100bp至约1900bp、约100bp至约2000bp、约100bp至约2100bp、约100bp至约2200bp、约100bp至约2300bp、约100bp至约2400bp或约100bp至约2500bp。
在涉及本文提供的大小选择步骤的方法的另一方面中,方法进一步包括,在大小选择步骤之前,从多个片段制备测序文库。在一些实施方案中,方法进一步包括对测序文库进行大小选择以获得大小选择的文库。在一些情况下,大小选择的文库的大小为约350bp至约1000bp。在一些情况下,大小选择的文库的大小为约100bp至约2500bp,例如,约100bp至约350bp、约350bp至约500bp、约500bp至约1000bp、约1000至约1500bp至约2000bp、约2000bp至约2500bp、约350bp至约1000bp、约350bp至约1500bp、约350bp至约2000bp、约350bp至约2500bp、约500bp至约1500bp、约500bp至约2000bp、约500bp至约3500bp、约1000bp至约1500bp、约1000bp至约2000bp、约1000bp至约2500bp、约1500bp至约2000bp、约1500bp至约2500bp或约2000bp至约2500bp。
在包含本文提供的大小选择步骤的方法中使用的大小选择可以使用凝胶电泳、毛细管电泳、大小选择珠、凝胶过滤柱、其他合适的方法或其组合进行。
在另一方面,包含本文提供的大小选择步骤的方法可以进一步包括分析多个选择片段以获得QC值。在一些情况下,QC值选自染色质消化效率(CDE)和染色质消化指数(CDI)。CDE被计算为具有所需长度的片段的比例。例如,在一些情况下,CDE被计算为在大小选择前大小为100bp至2500bp的片段的比例。在一些情况下,当CDE值为至少65%时,选择样品以进行进一步分析。在一些情况下,当CDE值为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%或至少约95%时,选择样品以进行进一步分析。CDI被计算为在大小选择前单核小体大小的片段数量与双核小体大小的片段数量之比。例如,CDI可被计算为大小为600-2500bp的片段与大小为100-600bp的片段之比的对数。在一些情况下,当CDI值大于-1.5且小于1时,选择样品以进行进一步分析。在一些情况下,当CDI值大于约-2且小于约1.5、大于约-1.9且小于约1.5、大于约-1.8且小于约1.5、大于约-1.7且小于约1.5、大于约-1.6且小于约1.5、大于约-1.5且小于约1.5、大于约-1.4且小于约1.5、大于约-1.3且小于约1.5、大于约-1.2且小于约1.5、大于约-1.1且小于约1.5、大于约-2且小于约1.5、大于约-1且小于约1.5、大于约-0.9且小于约1.5、大于约-0.8且小于约1.5、大于约-0.7且小于约1.5、大于约-0.6且小于约1.5、大于约-0.5且小于约1.5、大于约-2且小于约1.4、大于约-2且小于约1.3、大于约-2且小于约1.2、大于约-2且小于约1.1、大于约-2且小于约1、大于约-2且小于约0.9、大于约-2且小于约0.8、大于约-2且小于约0.7、大于约-2且小于约0.6或大于约-2且小于约0.5时,选择样品以进行进一步分析。
在另一方面,在包含本文的大小选择步骤的方法中使用的稳定化生物样品包括已用稳定剂处理的生物材料。在一些情况下,稳定化生物样品包括稳定化细胞裂解物。替代地,稳定化生物样品包括稳定化完整细胞。替代地,稳定化生物样品包括稳定化完整细胞核。在一些情况下,将稳定化完整细胞或完整细胞核样品与DNase接触是在完整细胞或完整细胞核的裂解之前进行的。在一些情况下,在将多个片段中的第一片段和第二片段在连接序列处附接之前裂解细胞和/或细胞核。
在另一方面,包含本文的大小选择步骤的方法是在含有少量细胞或少量核酸的小样品上进行的。例如,在一些情况下,稳定化生物样品包含少于3,000,000个细胞。在一些情况下,稳定化生物样品包含少于2,000,000个细胞。在一些情况下,稳定化生物样品包含少于1,000,000个细胞。在一些情况下,稳定化生物样品包含少于500,000个细胞。在一些情况下,稳定化生物样品包含少于400,000个细胞。在一些情况下,稳定化生物样品包含少于300,000个细胞。在一些情况下,稳定化生物样品包含少于200,000个细胞。在一些情况下,稳定化生物样品包含少于100,000个细胞。在一些情况下,稳定化生物样品包含小于10μg的DNA。在一些情况下,稳定化生物样品包含小于9μg的DNA。在一些情况下,稳定化生物样品包含小于8μg的DNA。在一些情况下,稳定化生物样品包含小于7μg的DNA。在一些情况下,稳定化生物样品包含小于6μg的DNA。在一些情况下,稳定化生物样品包含小于5μg的DNA。在一些情况下,稳定化生物样品包含小于4μg的DNA。在一些情况下,稳定化生物样品包含小于3μg的DNA。在一些情况下,稳定化生物样品包含小于2μg的DNA。在一些情况下,稳定化生物样品包含小于1μg的DNA。在一些情况下,稳定化生物样品包含小于0.5μg的DNA。
在另一方面,包含本文的大小选择步骤的方法可以在单独或单个样品上进行。例如,本文的方法可以在分布到各个分区的细胞上进行。示例性的分区包括但不限于孔、乳液中的液滴或表面位置(例如,阵列点、珠等),其包含如本文其他地方所述的差异序列接头分子的不同斑块。附加的分区也被考虑并且与本文公开的方法、组合物和系统一致。
在附加的方面,用诸如DNase的核酸酶处理在包含本文的大小选择步骤的方法中使用的稳定化生物样品以产生DNA的片段。在一些情况下,DNase是非序列特异性的。在一些情况下,DNase对单链DNA和双链DNA都有活性。在一些情况下,DNase对双链DNA具有特异性。在一些情况下,DNase优先切割双链DNA。在一些情况下,DNase对单链DNA具有特异性。在一些情况下,DNase优先切割单链DNA。在一些情况下,DNase是DNase I。在一些情况下,DNase是DNase II。在一些情况下,DNase选自DNase I和DNase II中的一种或更多种。在一些情况下,DNase是微球菌核酸酶。在一些情况下,DNase选自DNase I和DNase II和微球菌核酸酶中的一种或更多种。在一些情况下,DNase可以与免疫球蛋白结合蛋白或其片段偶联或融合。免疫球蛋白结合蛋白可以是例如蛋白质A、蛋白质G、蛋白质A/G和蛋白质L。在一些情况下,DNase可以与包括两个或更多个免疫球蛋白结合蛋白和/或其片段的融合蛋白偶联。其他合适的核酸酶也在本公开内容的范围内。
在附加的方面,用一种或更多种交联剂处理如本文提供的用于在包含大小选择步骤的方法中使用的稳定化生物样品。在一些情况下,交联剂是化学固定剂。在一些情况下,化学固定剂包括甲醛,其具有约2.3-2.7埃(A)的间隔臂长度。在一些情况下,化学固定剂包括具有长间隔臂长度的交联剂,例如,交联剂可以具有至少约3A、4A、5A、6A、7A、8A、9A、10A、11A、12A、13A、14A、15A、16A、17A、18A、19A或20A的间隔臂长度。化学固定剂可以包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS),其具有约16.1A的间隔臂长度。化学固定剂可以包括双琥珀酰亚胺戊二酸酯(DSG),其具有约7.7A的间隔臂长度。在一些情况下,化学固定剂包括甲醛和EGS、甲醛和DSG或者甲醛、EGS和DSG。在一些情况下,当使用多种化学固定剂时,每种化学固定剂依次使用;在其他情况下,将多种化学固定剂中的一些或全部同时应用于样品。使用具有长间隔臂的交联剂可以增加具有大(例如,>1kb)读取对间隔距离的读取对的比例。例如,图7示出了单独用甲醛交联与用甲醛加DSG或EGS交联所得的文库(均经DNase和MNase消化)的比较。DSG在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。DSG是可透过膜的,允许细胞内交联。在一些应用中,与双琥珀酰亚胺辛二酸酯(DSS)相比,DSG可以提高交联效率。EGS在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。EGS是可透过膜的,允许细胞内交联。EGS交联可以逆转,例如,通过在pH 8.5下用羟胺处理3至6小时;在一个示例中,乳糖脱氢酶在与EGS可逆交联后保留60%的活性。在一些情况下,化学固定剂包括补骨脂素。在一些情况下,交联剂是紫外光。在一些情况下,稳定化生物样品是交联的石蜡包埋的组织样品。
在进一步的方面,包含本文提供的大小选择步骤的方法包括将多个选择片段与抗体接触。
在附加的方面,包含本文提供的大小选择步骤的方法包括将多个片段中的第一片段和第二片段在连接序列处附接。在一些情况下,附接包括使用生物素标签化的核苷酸填充粘性末端并连接钝性末端。在一些情况下,附接包括将至少第一片段和第二片段与桥接寡核苷酸接触。在一些情况下,附接包括将至少第一片段和第二片段与条形码接触。在一些实施方案中,本文的桥接寡核苷酸的长度可以为至少约5个核苷酸至约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸的长度可以为约15至约18个核苷酸。在一些实施方案中,桥接寡核苷酸的长度可以为约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约25、约30、约35、约40、约45或约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸可以包含条形码。在一些实施方案中,桥接寡核苷酸可以包含多个条形码。在一些实施方案中,桥接寡核苷酸包括连接在一起的多个桥接寡核苷酸。在一些实施方案中,桥接寡核苷酸可以与诸如蛋白质A、蛋白质G、蛋白质A/G和蛋白质L的免疫球蛋白结合蛋白或其片段偶联或链接。在一些情况下,偶联的桥接寡核苷酸可被递送至样品核酸中结合抗体的位置。
可以采用分裂和汇集(splitting and pooling)方法来生产具有独特条形码的桥接寡核苷酸。可以将样品群体分裂成多个组,可以将桥接寡核苷酸附接至样品,使得桥接寡核苷酸条码在组间不同但在一个组内相同,可以将样品的组再次汇集在一起,并且可以将该过程重复多次。重复该过程最终会导致群体中的每个样品都具有一系列独特的桥接寡核苷酸条形码,从而允许进行单个样品(例如,单个细胞、单个细胞核、单个染色体)分析。在一个说明性示例中,将附着在珠固体支持物上的交联消化核样品分成8个试管,每个试管含有第一衔接子组(第一次迭代)的8个独特成员中的一个,第一衔接子组包含待连接的双链DNA(dsDNA)衔接子。8个衔接子中的每一个都可以具有用于与细胞核中交联染色质聚集体的核酸末端连接的相同5'突出端序列,但在其他方面具有独特的dsDNA序列。在将第一衔接子组连接之后,可以将细胞核汇集回一起并洗涤以去除连接反应组分。可以将分布、连接和汇集的方案再重复2次(2次迭代)。连接每个衔接子组的成员后,可以将交联染色质聚集体串联附接至多个条码上。在一些情况下,多个衔接子组(迭代)的多个成员的顺序连接导致条形码组合。可用的条码组合数取决于每次迭代的组数和所用条码寡核苷酸的总数。例如,每次包含8个成员的3次迭代可以具有83个可能的组合。在一些情况下,条形码组合是独特的。在一些情况下,条形码组合是多余的。可以通过增加或减少接收独特条码的组数和/或增加或减少迭代次数来调整条码组合的总数。当使用超过一个衔接子组时,可以使用分布、附接和汇集方案进行迭代衔接子附接。在一些情况下,可以将分布、附接和汇集的方案再重复至少3、4、5、6、7、8、9或10次。在一些情况下,最后一个衔接子组的成员包括随后例如在通过PCR扩增制备测序文库期间用于富集衔接子附接的DNA的序列。
在附加的方面,包含本文的大小选择步骤的方法部包含剪切步骤(例如,不剪切核酸)。
在包含本文的大小选择步骤的方法的进一步的方面,方法包括在连接序列的每一侧获得至少一些序列以生成第一读取对。例如,该方法可以包括在连接序列的每一侧获得至少约50bp、至少约100bp、至少约150bp、至少约200bp、至少约250bp或至少约300bp的序列以生成第一读取对。
在包含本文的大小选择步骤的方法的附加方面,方法包括将第一读取对映射到重叠群的集合上,以及确定通过重叠群的集合的代表到基因组的顺序和/或取向的路径。
在包含本文的大小选择步骤的方法的进一步的方面,方法包括将第一读取对映射到重叠群的集合上;以及从重叠群的集合确定稳定化生物样品中的结构变体的存在或杂合性丢失。
在包含本文的大小选择步骤的方法的附加方面,方法包括将第一读取对映射到重叠群的集合上,以及将重叠群的集合中的变体分配给相位。
在包含本文的大小选择步骤的方法的进一步的方面,方法包括将第一读取对映射到重叠群的集合上;从重叠群的集合确定重叠群的集合中的变体的存在,以及进行选自以下一项或多项的步骤:(1)鉴定稳定化生物样品的疾病分期、预后或治疗过程;(2)基于变体的存在选择药物;或(3)鉴定稳定化生物样品的药物疗效。
包含QC计算的Hi-C方法
附加地,本文提供了方法,包括获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品,将稳定化生物样品与DNase接触以将核酸分子切割成多个片段,将多个片段中的第一片段和第二片段在连接序列处附接,以及分析多个片段以确定QC值。在一些情况下,QC值选自染色质消化效率(CDE)和染色质消化指数(CDI)。CDE被计算为具有所需长度的片段的比例。例如,在一些情况下,CDE被计算为在大小选择前大小为100bp至2500bp的片段的比例。在一些情况下,当CDE值为至少65%时,选择样品以进行进一步分析。在一些情况下,当CDE值为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%或至少约95%时,选择样品以进行进一步分析。CDI被计算为在大小选择前单核小体大小的片段数量与双核小体大小的片段数量之比。例如,CDI可被计算为大小为600-2500bp的片段与大小为100-600bp的片段之比的对数。在一些情况下,当CDI值大于-1.5且小于1时,选择样品以进行进一步分析。在一些情况下,当CDI值大于约-2且小于约1.5、大于约-1.9且小于约1.5、大于约-1.8且小于约1.5、大于约-1.7且小于约1.5、大于约-1.6且小于约1.5、大于约-1.5且小于约1.5、大于约-1.4且小于约1.5、大于约-1.3且小于约1.5、大于约-1.2且小于约1.5、大于约-1.1且小于约1.5、大于约-2且小于约1.5、大于约-1且小于约1.5、大于约-0.9且小于约1.5、大于约-0.8且小于约1.5、大于约-0.7且小于约1.5、大于约-0.6且小于约1.5、大于约-0.5且小于约1.5、大于约-2且小于约1.4、大于约-2且小于约1.3、大于约-2且小于约1.2、大于约-2且小于约1.1、大于约-2且小于约1、大于约-2且小于约0.9、大于约-2且小于约0.8、大于约-2且小于约0.7、大于约-2且小于约0.6或大于约-2且小于约0.5时,选择样品以进行进一步分析。
在另一方面,包含本文的QC确定步骤的方法可以包括对多个片段进行大小选择以获得多个选择片段。在一些情况下,多个选择片段为约145bp至约600bp。在一些情况下,多个选择片段为约100bp至约2500bp。在一些情况下,多个选择片段为约100bp至约600bp。在一些情况下,多个选择片段为约600bp至约2500bp。在一些情况下,多个选择片段为约100bp至约600bp、约100bp至约700bp、约100bp至约800bp、约100bp至约900bp、约100bp至约1000bp、约100bp至约1100bp、约100bp至约1200bp、约100bp至约1300bp、约100bp至约1400bp、约100bp至约1500bp、约100bp至约1600bp、约100bp至约1700bp、约100bp至约1800bp、约100bp至约1900bp、约100bp至约2000bp、约100bp至约2100bp、约100bp至约2200bp、约100bp至约2300bp、约100bp至约2400bp或约100bp至约2500bp。
在涉及本文提供的QC确定步骤的方法的另一方面中,方法可以进一步包括,在大小选择步骤之前,从多个片段制备测序文库。在一些实施方案中,该方法进一步包括对测序文库进行大小选择以获得大小选择的文库。在一些情况下,大小选择的文库的大小为约350bp至约1000bp。在一些情况下,大小选择的文库的大小为约100bp至约2500bp,例如,约100bp至约350bp、约350bp至约500bp、约500bp至约1000bp、约1000至约1500bp至约2000bp、约2000bp至约2500bp、约350bp至约1000bp、约350bp至约1500bp、约350bp至约2000bp、约350bp至约2500bp、约500bp至约1500bp、约500bp至约2000bp、约500bp至约3500bp、约1000bp至约1500bp、约1000bp至约2000bp、约1000bp至约2500bp、约1500bp至约2000bp、约1500bp至约2500bp或约2000bp至约2500bp。
在包含本文的QC确定步骤的方法中使用的大小选择可以使用凝胶电泳、毛细管电泳、大小选择珠、凝胶过滤柱或其组合进行。其他合适的大小选择方法也在本公开内容的范围内。
在另一方面,在包含本文的QC确定步骤的方法中使用的稳定化生物样品包括已用稳定剂处理的生物材料。在一些情况下,稳定化生物样品包括稳定化细胞裂解物。替代地,稳定化生物样品包括稳定化完整细胞。替代地,稳定化生物样品包括稳定化完整细胞核。在一些情况下,将稳定化完整细胞或完整细胞核样品与DNase接触是在完整细胞或完整细胞核的裂解之前进行的。在一些情况下,在将多个片段中的第一片段和第二片段在连接序列处附接之前裂解细胞和/或细胞核。
在另一方面,包含本文的QC确定步骤的方法是在含有少量细胞或少量核酸的小样品上进行的。在一些情况下,稳定化生物样品包含少于3,000,000个细胞。在一些情况下,稳定化生物样品包含少于2,000,000个细胞。在一些情况下,稳定化生物样品包含少于1,000,000个细胞。在一些情况下,稳定化生物样品包含少于500,000个细胞。在一些情况下,稳定化生物样品包含少于400,000个细胞。在一些情况下,稳定化生物样品包含少于300,000个细胞。在一些情况下,稳定化生物样品包含少于200,000个细胞。在一些情况下,稳定化生物样品包含少于100,000个细胞。在一些情况下,稳定化生物样品包含小于10μg的DNA。在一些情况下,稳定化生物样品包含小于9μg的DNA。在一些情况下,稳定化生物样品包含小于8μg的DNA。在一些情况下,稳定化生物样品包含小于7μg的DNA。在一些情况下,稳定化生物样品包含小于6μg的DNA。在一些情况下,稳定化生物样品包含小于5μg的DNA。在一些情况下,稳定化生物样品包含小于4μg的DNA。在一些情况下,稳定化生物样品包含小于3μg的DNA。在一些情况下,稳定化生物样品包含小于2μg的DNA。在一些情况下,稳定化生物样品包含小于1μg的DNA。在一些情况下,稳定化生物样品包含小于0.5μg的DNA。
在另一方面,包含本文的QC确定步骤的方法可以在单独或单个样品上进行。例如,本文的方法可以在分布到各个分区的细胞上进行。示例性的分区包括但不限于孔、乳液中的液滴或表面位置(例如,阵列点、珠等),其包含如本文其他地方所述的差异序列接头分子的不同斑块。附加的分区也被考虑并且与本文公开的方法、组合物和系统一致。
在附加的方面,用诸如DNase的核酸酶处理在包含本文的QC确定步骤的方法中使用的稳定化生物样品以产生DNA的片段。在一些情况下,DNase是非序列特异性的。在一些情况下,DNase对单链DNA和双链DNA都有活性。在一些情况下,DNase对双链DNA具有特异性。在一些情况下,DNase优先切割双链DNA。在一些情况下,DNase对单链DNA具有特异性。在一些情况下,DNase优先切割单链DNA。在一些情况下,DNase是DNase I。在一些情况下,DNase是DNase II。在一些情况下,DNase选自DNase I和DNase II中的一种或更多种。在一些情况下,DNase是微球菌核酸酶。在一些情况下,DNase选自DNase I和DNase II和微球菌核酸酶中的一种或更多种。在一些情况下,DNase可以与诸如蛋白质A、蛋白质G、蛋白质A/G或蛋白质L的免疫球蛋白结合蛋白或其片段偶联或融合。其他合适的核酸酶也在本公开内容的范围内。
在附加的方面,用交联剂处理在包含本文的QC确定步骤的方法中使用的稳定化生物样品。在一些情况下,交联剂是化学固定剂。在一些情况下,化学固定剂包括甲醛,其具有约2.3-2.7埃(A)的间隔臂长度。在一些情况下,化学固定剂包括具有长间隔臂长度的交联剂,例如,交联剂可以具有至少约3A、4A、5A、6A、7A、8A、9A、10A、11A、12A、13A、14A、15A、16A、17A、18A、19A或20A的间隔臂长度。化学固定剂可以包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS),其具有约16.1A的间隔臂长度。化学固定剂可以包括双琥珀酰亚胺戊二酸酯(DSG),其具有约7.7A的间隔臂长度。在一些情况下,化学固定剂包括甲醛和EGS、甲醛和DSG或者甲醛、EGS和DSG。在一些情况下,当使用多种化学固定剂时,每种化学固定剂依次使用;在其他情况下,将多种化学固定剂中的一些或全部同时应用于样品。使用具有长间隔臂的交联剂可以增加具有大(例如,>1kb)读取对间隔距离的读取对的比例。例如,图7示出了单独用甲醛交联与用甲醛加DSG或EGS交联所得的文库(均经DNase和MNase消化)的比较。DSG在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。DSG是可透过膜的,允许细胞内交联。在一些应用中,与双琥珀酰亚胺辛二酸酯(DSS)相比,DSG可以提高交联效率。EGS在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。EGS是可透过膜的,允许细胞内交联。EGS交联可以逆转,例如,通过在pH 8.5下用羟胺处理3至6小时;在一个示例中,乳糖脱氢酶在与EGS可逆交联后保留60%的活性。在一些情况下,化学固定剂包括补骨脂素。在一些情况下,交联剂是紫外光。在一些情况下,稳定化生物样品是交联的石蜡包埋的组织样品。
在进一步的方面,包含本文提供的QC确定步骤的方法包括将多个选择片段与抗体接触。
在附加的方面,包含本文提供的QC确定步骤的方法包括将多个片段中的第一片段和第二片段在连接序列处附接。在一些情况下,附接包括使用生物素标签化的核苷酸填充粘性末端并连接钝性末端。在一些情况下,附接包括将至少第一片段和第二片段与桥接寡核苷酸接触。在一些情况下,附接包括将至少第一片段和第二片段与条形码接触。在一些实施方案中,本文的桥接寡核苷酸的长度可以为至少约5个核苷酸至约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸的长度可以为约15至约18个核苷酸。在一些实施方案中,桥接寡核苷酸的长度可以为约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约25、约30、约35、约40、约45或约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸可以包含条形码。在一些实施方案中,桥接寡核苷酸可以包含多个条形码。在一些实施方案中,桥接寡核苷酸包括连接在一起的多个桥接寡核苷酸。在一些实施方案中,桥接寡核苷酸可以与诸如蛋白质A、蛋白质G、蛋白质A/G和蛋白质L的免疫球蛋白结合蛋白或其片段偶联或链接。在一些情况下,偶联的桥接寡核苷酸可被递送至样品核酸中结合抗体的位置。
在附加的方面,包含本文的QC确定步骤的方法不包括剪切步骤。
在包含本文的QC确定步骤的方法的进一步的方面,方法包括在连接序列的每一侧获得至少一些序列以生成第一读取对。例如,该方法可以包括在连接序列的每一侧获得至少约50bp、至少约100bp、至少约150bp、至少约200bp、至少约250bp或至少约300bp的序列以生成第一读取对。
在包含本文的QC确定步骤的方法的附加方面,方法包括将第一读取对映射到重叠群的集合上以及确定通过重叠群的集合的代表到基因组的顺序和/或取向的路径。
在包含本文的QC确定步骤的方法的进一步方面,方法可以包括将第一读取对映射到重叠群的集合上以及从重叠群的集合确定稳定化生物样品中的结构变体的存在或杂合性丢失。
在包含本文的QC确定步骤的方法的附加方面,方法包括将第一读取对映射到重叠群的集合上以及将重叠群的集合中的变体分配给相位。
在包含本文的QC确定步骤的方法的进一步的方面,方法包括将第一读取对映射到重叠群的集合上;从重叠群的集合确定重叠群的集合中的变体的存在;以及进行选自以下一项或多项的步骤:(1)鉴定稳定化生物样品的疾病分期、预后或治疗过程;(2)基于变体的存在选择药物;或(3)鉴定稳定化生物样品的药物疗效。
包含全细胞或全核消化的Hi-C方法
本文进一步提供了方法,包括获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品;将稳定化生物样品与DNase接触以将核酸分子切割成多个片段;以及将多个片段中的第一片段和第二片段在连接序列处附接,其中稳定化生物样品包括完整细胞和/或完整细胞核。在一些情况下,稳定化生物样品包括稳定化完整细胞。替代地或组合地,稳定化生物样品包括稳定化完整细胞核。在一些情况下,将稳定化完整细胞或完整细胞核样品与DNase接触是在完整细胞或完整细胞核的裂解之前进行的。在一些情况下,在将多个片段中的第一片段和第二片段在连接序列处附接之前裂解细胞和/或细胞核。
在另一方面,本文涉及消化全细胞或全核的方法可以包括对多个片段进行大小选择以获得多个选择片段。在一些情况下,多个选择片段为约145bp至约600bp。在一些情况下,多个选择片段为约100bp至约2500bp。在一些情况下,多个选择片段为约100bp至约600bp。在一些情况下,多个选择片段为约600bp至约2500bp。在一些情况下,多个选择片段为约100bp至约600bp、约100bp至约700bp、约100bp至约800bp、约100bp至约900bp、约100bp至约1000bp、约100bp至约1100bp、约100bp至约1200bp、约100bp至约1300bp、约100bp至约1400bp、约100bp至约1500bp、约100bp至约1600bp、约100bp至约1700bp、约100bp至约1800bp、约100bp至约1900bp、约100bp至约2000bp、约100bp至约2100bp、约100bp至约2200bp、约100bp至约2300bp、约100bp至约2400bp或约100bp至约2500bp。
在本文提供的涉及消化全细胞或全细胞核的方法的另一方面,方法进一步包括,在大小选择步骤之前,从多个片段制备测序文库。在一些实施方案中,该方法进一步包括对测序文库进行大小选择以获得大小选择的文库。在一些情况下,大小选择的文库的大小为约350bp至约1000bp。在一些情况下,大小选择的文库的大小为约100bp至约2500bp,例如,约100bp至约350bp、约350bp至约500bp、约500bp至约1000bp、约1000至约1500bp至约2000bp、约2000bp至约2500bp、约350bp至约1000bp、约350bp至约1500bp、约350bp至约2000bp、约350bp至约2500bp、约500bp至约1500bp、约500bp至约2000bp、约500bp至约3500bp、约1000bp至约1500bp、约1000bp至约2000bp、约1000bp至约2500bp、约1500bp至约2000bp、约1500bp至约2500bp或约2000bp至约2500bp。
在本文涉及消化全细胞或全细胞核的方法中使用的大小选择可以使用凝胶电泳、毛细管电泳、大小选择珠、凝胶过滤柱或其组合进行。
在另一方面,本文涉及消化全细胞或全细胞核的方法可以进一步包括分析多个选择片段以获得QC值。在一些情况下,QC值选自染色质消化效率(CDE)和染色质消化指数(CDI)。CDE被计算为具有所需长度的片段的比例。例如,在一些情况下,CDE被计算为在大小选择前大小为100至2500bp的片段的比例。在一些情况下,当CDE值为至少65%时,选择样品以进行进一步分析。在一些情况下,当CDE值为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%或至少约95%时,选择样品以进行进一步分析。CDI被计算为在大小选择前单核小体大小的片段数量与双核小体大小的片段数量之比。例如,CDI可被计算为大小为600-2500bp的片段与大小为100-600bp的片段之比的对数。在一些情况下,当CDI值大于-1.5且小于1时,选择样品以进行进一步分析。在一些情况下,当CDI值大于约-2且小于约1.5、大于约-1.9且小于约1.5、大于约-1.8且小于约1.5、大于约-1.7且小于约1.5、大于约-1.6且小于约1.5、大于约-1.5且小于约1.5、大于约-1.4且小于约1.5、大于约-1.3且小于约1.5、大于约-1.2且小于约1.5、大于约-1.1且小于约1.5、大于约-2且小于约1.5、大于约-1且小于约1.5、大于约-0.9且小于约1.5、大于约-0.8且小于约1.5、大于约-0.7且小于约1.5、大于约-0.6且小于约1.5、大于约-0.5且小于约1.5、大于约-2且小于约1.4、大于约-2且小于约1.3、大于约-2且小于约1.2、大于约-2且小于约1.1、大于约-2且小于约1、大于约-2且小于约0.9、大于约-2且小于约0.8、大于约-2且小于约0.7、大于约-2且小于约0.6或大于约-2且小于约0.5时,选择样品以进行进一步分析。
在另一方面,本文涉及消化全细胞或全细胞核的方法是在含有少量细胞或少量核酸的小样品上进行的。在一些情况下,稳定化生物样品包含少于3,000,000个细胞。在一些情况下,稳定化生物样品包含少于2,000,000个细胞。在一些情况下,稳定化生物样品包含少于1,000,000个细胞。在一些情况下,稳定化生物样品包含少于500,000个细胞。在一些情况下,稳定化生物样品包含少于400,000个细胞。在一些情况下,稳定化生物样品包含少于300,000个细胞。在一些情况下,稳定化生物样品包含少于200,000个细胞。在一些情况下,稳定化生物样品包含少于100,000个细胞。在一些情况下,稳定化生物样品包含小于10μg的DNA。在一些情况下,稳定化生物样品包含小于9μg的DNA。在一些情况下,稳定化生物样品包含小于8μg的DNA。在一些情况下,稳定化生物样品包含小于7μg的DNA。在一些情况下,稳定化生物样品包含小于6μg的DNA。在一些情况下,稳定化生物样品包含小于5μg的DNA。在一些情况下,稳定化生物样品包含小于4μg的DNA。在一些情况下,稳定化生物样品包含小于3μg的DNA。在一些情况下,稳定化生物样品包含小于2μg的DNA。在一些情况下,稳定化生物样品包含小于1μg的DNA。在一些情况下,稳定化生物样品包含小于0.5μg的DNA。
在另一方面,本文涉及消化全细胞或全细胞核的方法可以在单独或单个样品上进行。例如,本文的方法可以在分布到各个分区的细胞上进行。示例性的分区包括但不限于孔、乳液中的液滴或表面位置(例如,阵列点、珠等),其包含如本文其他地方所述的差异序列接头分子的不同斑块。附加的分区也被考虑并且与本文公开的方法、组合物和系统一致。
在附加的方面,用诸如DNase的核酸酶处理在本文涉及消化全细胞或全细胞核的方法中使用的稳定化生物样品以产生DNA的片段。在一些情况下,DNase是非序列特异性的。在一些情况下,DNase对单链DNA和双链DNA都有活性。在一些情况下,DNase对双链DNA具有特异性。在一些情况下,DNase优先切割双链DNA。在一些情况下,DNase对单链DNA具有特异性。在一些情况下,DNase优先切割单链DNA。在一些情况下,DNase是DNase I。在一些情况下,DNase是DNase II。在一些情况下,DNase选自DNase I和DNase II中的一种或更多种。在一些情况下,DNase是微球菌核酸酶。在一些情况下,DNase选自DNase I和DNase II和微球菌核酸酶中的一种或更多种。在一些情况下,DNase可以与诸如蛋白质A、蛋白质G、蛋白质A/G或蛋白质L的免疫球蛋白结合蛋白或其片段偶联或融合。其他合适的核酸酶也在本公开内容的范围内。
在附加的方面,用交联剂处理在本文涉及消化全细胞或全细胞核的方法中使用的稳定化生物样品。在一些情况下,交联剂是化学固定剂。在一些情况下,化学固定剂包括甲醛,其具有约2.3-2.7埃(A)的间隔臂长度。在一些情况下,化学固定剂包括具有长间隔臂长度的交联剂,例如,交联剂可以具有至少约3A、4A、5A、6A、7A、8A、9A、10A、11A、12A、13A、14A、15A、16A、17A、18A、19A或20A的间隔臂长度。化学固定剂可以包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS),其具有约16.1A的间隔臂长度。化学固定剂可以包括双琥珀酰亚胺戊二酸酯(DSG),其具有约7.7A的间隔臂长度。在一些情况下,化学固定剂包括甲醛和EGS、甲醛和DSG或者甲醛、EGS和DSG。在一些情况下,当使用多种化学固定剂时,每种化学固定剂依次使用;在其他情况下,将多种化学固定剂中的一些或全部同时应用于样品。使用具有长间隔臂的交联剂可以增加具有大(例如,>1kb)读取对间隔距离的读取对的比例。例如,图7示出了单独用甲醛交联与用甲醛加DSG或EGS交联所得的文库(均经DNase和MNase消化)的比较。DSG在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。DSG是可透过膜的,允许细胞内交联。在一些应用中,与双琥珀酰亚胺辛二酸酯(DSS)相比,DSG可以提高交联效率。EGS在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。EGS是可透过膜的,允许细胞内交联。EGS交联可以逆转,例如,通过在pH 8.5下用羟胺处理3至6小时;在一个示例中,乳糖脱氢酶在与EGS可逆交联后保留60%的活性。在一些情况下,化学固定剂包括补骨脂素。在一些情况下,交联剂是紫外光。在一些情况下,稳定化生物样品是交联的石蜡包埋的组织样品。
在进一步的方面,本文提供的涉及消化全细胞或全细胞核的方法包括将多个选择片段与抗体接触。
在附加的方面,本文提供的涉及消化全细胞或全细胞核的方法包括将多个片段中的第一片段和第二片段在连接序列处附接。在一些情况下,附接包括使用生物素标签化的核苷酸填充粘性末端并连接钝性末端。在一些情况下,附接包括将至少第一片段和第二片段与桥接寡核苷酸接触。在一些情况下,附接包括将至少第一片段和第二片段与条形码接触。在一些实施方案中,本文的桥接寡核苷酸的长度可以为至少约5个核苷酸至约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸的长度可以为约15至约18个核苷酸。在一些实施方案中,桥接寡核苷酸的长度可以为约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约25、约30、约35、约40、约45或约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸可以包含条形码。在一些实施方案中,桥接寡核苷酸可以包含多个条形码。在一些实施方案中,桥接寡核苷酸包括连接在一起的多个桥接寡核苷酸。在一些实施方案中,桥接寡核苷酸可以与诸如蛋白质A、蛋白质G、蛋白质A/G和蛋白质L的免疫球蛋白结合蛋白或其片段偶联或链接。在一些情况下,偶联的桥接寡核苷酸可被递送至样品核酸中结合抗体的位置。
可以采用分裂和汇集方法来生产具有独特条形码的桥接寡核苷酸。可以将样品群体分裂成多个组,可以将桥接寡核苷酸附接至样品,使得桥接寡核苷酸条码在组间不同但在一个组内相同,可以将样品的组再次汇集在一起,并且可以将该过程重复多次。重复该过程最终会导致群体中的每个样品都具有一系列独特的桥接寡核苷酸条形码,从而允许进行单个样品(例如,单个细胞、单个细胞核、单个染色体)分析。在一个说明性示例中,将附着在珠固体支持物上的交联消化核样品分成8个试管,每个试管含有第一衔接子组(第一次迭代)的8个独特成员中的一个,第一衔接子组包含待连接的双链DNA(dsDNA)衔接子。8个衔接子中的每一个都可以具有用于与细胞核中交联染色质聚集体的核酸末端连接的相同5'突出端序列,但在其他方面具有独特的dsDNA序列。在将第一衔接子组连接之后,可以将细胞核汇集在一起并洗涤以去除连接反应组分。可以将分布、连接和汇集的方案再重复2次(2次迭代)。连接每个衔接子组的成员后,可以将交联染色质聚集体串联附接至多个条码上。在一些情况下,多个衔接子组(迭代)的多个成员的顺序连接导致条形码组合。可用的条码组合数取决于每次迭代的组数和所用条码寡核苷酸的总数。例如,每次包含8个成员的3次迭代可以具有83个可能的组合。在一些情况下,条形码组合是独特的。在一些情况下,条形码组合是多余的。可以通过增加或减少接收独特条码的组数和/或增加或减少迭代次数来调整条码组合的总数。当使用超过一个衔接子组时,可以使用分布、附接和汇集方案进行迭代衔接子附接。在一些情况下,可以将分布、附接和汇集的方案再重复至少3、4、5、6、7、8、9或10次。在一些情况下,最后一个衔接子组的成员包括随后例如在通过PCR扩增制备测序文库期间用于富集衔接子附接的DNA的序列。
在附加的方面,本文涉及消化全细胞或全细胞核的方法不包括剪切步骤。
在本文涉及消化全细胞或全细胞核的方法的进一步方面,方法包括在连接序列的每一侧获得至少一些序列以生成第一读取对。例如,该方法可以包括在连接序列的每一侧获得至少约50bp、至少约100bp、至少约150bp、至少约200bp、至少约250bp或至少约300bp的序列以生成第一读取对。
在本文涉及消化全细胞或全细胞核的方法的附加方面,方法包括将第一读取对映射到重叠群的集合上以及确定通过重叠群的集合的代表到基因组的顺序和/或取向的路径。
在本文涉及消化全细胞或全细胞核的方法的进一步方面,方法包括将第一读取对映射到重叠群的集合上;以及从重叠群的集合确定稳定化生物样品中的结构变体的存在或杂合性丢失。
在本文涉及消化全细胞或全细胞核的方法的附加方面,方法包括将第一读取对映射到重叠群的集合上以及将重叠群的集合中的变体分配给相位。
在本文涉及消化全细胞或全细胞核的方法的进一步方面,方法包括将第一读取对映射到重叠群的集合上;从重叠群的集合确定重叠群的集合中的变体的存在;以及进行选自以下一项或多项的步骤:(1)鉴定稳定化生物样品的疾病分期、预后或治疗过程;(2)基于变体的存在选择药物;或(3)鉴定稳定化生物样品的药物疗效。
具有低核酸输入需求的Hi-C方法
附加地,本文提供了方法,包括获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品;将稳定化生物样品与DNase接触以将核酸分子切割成多个片段;以及将多个片段中的第一片段和第二片段在连接序列处附接,其中稳定化生物样品包含少于3,000,000个细胞或小于10μg的DNA。在一些情况下,稳定化生物样品包含少于3,000,000个细胞。在一些情况下,稳定化生物样品包含少于2,000,000个细胞。在一些情况下,稳定化生物样品包含少于1,000,000个细胞。在一些情况下,稳定化生物样品包含少于500,000个细胞。在一些情况下,稳定化生物样品包含少于400,000个细胞。在一些情况下,稳定化生物样品包含少于300,000个细胞。在一些情况下,稳定化生物样品包含少于200,000个细胞。在一些情况下,稳定化生物样品包含少于100,000个细胞。在一些情况下,稳定化生物样品包含小于10μg的DNA。在一些情况下,稳定化生物样品包含小于9μg的DNA。在一些情况下,稳定化生物样品包含小于8μg的DNA。在一些情况下,稳定化生物样品包含小于7μg的DNA。在一些情况下,稳定化生物样品包含小于6μg的DNA。在一些情况下,稳定化生物样品包含小于5μg的DNA。在一些情况下,稳定化生物样品包含小于4μg的DNA。在一些情况下,稳定化生物样品包含小于3μg的DNA。在一些情况下,稳定化生物样品包含小于2μg的DNA。在一些情况下,稳定化生物样品包含小于1μg的DNA。在一些情况下,稳定化生物样品包含小于0.5μg的DNA。
在另一方面,本文具有低核酸输入需求的方法可以在单独或单个样品上进行。例如,本文的方法可以在分布到各个分区的细胞上进行。示例性的分区包括但不限于孔、乳液中的液滴或表面位置(例如,阵列点、珠等),其包含如本文其他地方所述的差异序列接头分子的不同斑块。附加的分区也被考虑并且与本文公开的方法、组合物和系统一致。
在另一方面,本文具有低核酸输入需求的方法包括对多个片段进行大小选择以获得多个选择片段。在一些情况下,多个选择片段为约145bp至约600bp。在一些情况下,多个选择片段为约100bp至约2500bp。在一些情况下,多个选择片段为约100bp至约600bp。在一些情况下,多个选择片段为约600bp至约2500bp。在一些情况下,多个选择片段为约100bp至约600bp、约100bp至约700bp、约100bp至约800bp、约100bp至约900bp、约100bp至约1000bp、约100bp至约1100bp、约100bp至约1200bp、约100bp至约1300bp、约100bp至约1400bp、约100bp至约1500bp、约100bp至约1600bp、约100bp至约1700bp、约100bp至约1800bp、约100bp至约1900bp、约100bp至约2000bp、约100bp至约2100bp、约100bp至约2200bp、约100bp至约2300bp、约100bp至约2400bp或约100bp至约2500bp。
在本文提供的具有低核酸输入需求的方法的另一方面,方法进一步包括,在大小选择步骤之前,从多个片段制备测序文库。在一些实施方案中,该方法进一步包括对测序文库进行大小选择以获得大小选择的文库。在一些情况下,大小选择的文库的大小为约350bp至约1000bp。在一些情况下,大小选择的文库的大小为约100bp至约2500bp,例如,约100bp至约350bp、约350bp至约500bp、约500bp至约1000bp、约1000至约1500bp至约2000bp、约2000bp至约2500bp、约350bp至约1000bp、约350bp至约1500bp、约350bp至约2000bp、约350bp至约2500bp、约500bp至约1500bp、约500bp至约2000bp、约500bp至约3500bp、约1000bp至约1500bp、约1000bp至约2000bp、约1000bp至约2500bp、约1500bp至约2000bp、约1500bp至约2500bp或约2000bp至约2500bp。
在本文具有低核酸输入需求的方法中使用的大小选择可以使用凝胶电泳、毛细管电泳、大小选择珠、凝胶过滤柱或其组合进行。
在另一方面,本文具有低核酸输入需求的方法可以进一步包括分析多个选择片段以获得QC值。在一些情况下,QC值选自染色质消化效率(CDE)和染色质消化指数(CDI)。CDE被计算为具有所需长度的片段的比例。例如,在一些情况下,CDE被计算为在大小选择前大小为100bp至2500bp的片段的比例。在一些情况下,当CDE值为至少65%时,选择样品以进行进一步分析。在一些情况下,当CDE值为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%或至少约95%时,选择样品以进行进一步分析。CDI被计算为在大小选择前单核小体大小的片段数量与双核小体大小的片段数量之比。例如,CDI可被计算为大小为600-2500bp的片段与大小为100-600bp的片段之比的对数。在一些情况下,当CDI值大于-1.5且小于1时,选择样品以进行进一步分析。在一些情况下,当CDI值大于约-2且小于约1.5、大于约-1.9且小于约1.5、大于约-1.8且小于约1.5、大于约-1.7且小于约1.5、大于约-1.6且小于约1.5、大于约-1.5且小于约1.5、大于约-1.4且小于约1.5、大于约-1.3且小于约1.5、大于约-1.2且小于约1.5、大于约-1.1且小于约1.5、大于约-2且小于约1.5、大于约-1且小于约1.5、大于约-0.9且小于约1.5、大于约-0.8且小于约1.5、大于约-0.7且小于约1.5、大于约-0.6且小于约1.5、大于约-0.5且小于约1.5、大于约-2且小于约1.4、大于约-2且小于约1.3、大于约-2且小于约1.2、大于约-2且小于约1.1、大于约-2且小于约1、大于约-2且小于约0.9、大于约-2且小于约0.8、大于约-2且小于约0.7、大于约-2且小于约0.6或大于约-2且小于约0.5时,选择样品以进行进一步分析。
在另一方面,在本文具有低核酸输入需求的方法中使用的稳定化生物样品包括已用稳定剂处理的生物材料。在一些情况下,稳定化生物样品包括稳定化细胞裂解物。替代地,稳定化生物样品包括稳定化完整细胞。替代地,稳定化生物样品包括稳定化完整细胞核。在一些情况下,将稳定化完整细胞或完整细胞核样品与DNase接触是在完整细胞或完整细胞核的裂解之前进行的。在一些情况下,在将多个片段中的第一片段和第二片段在连接序列处附接之前裂解细胞和/或细胞核。
在附加的方面,用诸如DNase的核酸酶处理在本文具有低核酸输入需求的方法中使用的稳定化生物样品以产生DNA的片段。在一些情况下,DNase是非序列特异性的。在一些情况下,DNase对单链DNA和双链DNA都有活性。在一些情况下,DNase对双链DNA具有特异性。在一些情况下,DNase优先切割双链DNA。在一些情况下,DNase对单链DNA具有特异性。在一些情况下,DNase优先切割单链DNA。在一些情况下,DNase是DNase I。在一些情况下,DNase是DNase II。在一些情况下,DNase选自DNase I和DNase II中的一种或更多种。在一些情况下,DNase是微球菌核酸酶。在一些情况下,DNase选自DNase I和DNase II和微球菌核酸酶中的一种或更多种。在一些情况下,DNase可以与诸如蛋白质A、蛋白质G、蛋白质A/G或蛋白质L的免疫球蛋白结合蛋白或其片段偶联或融合。其他合适的核酸酶也在本公开内容的范围内。
在附加的方面,用交联剂处理在本文具有低核酸输入需求的方法中使用的稳定化生物样品。在一些情况下,交联剂是化学固定剂。在一些情况下,化学固定剂包括甲醛,其具有约2.3-2.7埃(A)的间隔臂长度。在一些情况下,化学固定剂包括具有长间隔臂长度的交联剂,例如,交联剂可以具有至少约3A、4A、5A、6A、7A、8A、9A、10A、11A、12A、13A、14A、15A、16A、17A、18A、19A或20A的间隔臂长度。化学固定剂可以包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS),其具有约16.1A的间隔臂长度。化学固定剂可以包括双琥珀酰亚胺戊二酸酯(DSG),其具有约7.7A的间隔臂长度。在一些情况下,化学固定剂包括甲醛和EGS、甲醛和DSG或者甲醛、EGS和DSG。在一些情况下,当使用多种化学固定剂时,每种化学固定剂依次使用;在其他情况下,将多种化学固定剂中的一些或全部同时应用于样品。使用具有长间隔臂的交联剂可以增加具有大(例如,>1kb)读取对间隔距离的读取对的比例。例如,图7示出了单独用甲醛交联与用甲醛加DSG或EGS交联所得的文库(均经DNase和MNase消化)的比较。DSG在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。DSG是可透过膜的,允许细胞内交联。在一些应用中,与双琥珀酰亚胺辛二酸酯(DSS)相比,DSG可以提高交联效率。EGS在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。EGS是可透过膜的,允许细胞内交联。EGS交联可以逆转,例如,通过在pH 8.5下用羟胺处理3至6小时;在一个示例中,乳糖脱氢酶在与EGS可逆交联后保留60%的活性。在一些情况下,化学固定剂包括补骨脂素。在一些情况下,交联剂是紫外光。在一些情况下,稳定化生物样品是交联的石蜡包埋的组织样品。
在进一步的方面,本文提供的方法包括将多个选择片段与抗体接触。
在附加的方面,本文提供的具有低核酸输入需求的方法包括将多个片段中的第一片段和第二片段在连接序列处附接。在一些情况下,附接包括使用生物素标签化的核苷酸填充粘性末端并连接钝性末端。在一些情况下,附接包括将至少第一片段和第二片段与桥接寡核苷酸接触。在一些情况下,附接包括将至少第一片段和第二片段与条形码接触。在一些实施方案中,本文的桥接寡核苷酸的长度可以为至少约5个核苷酸至约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸的长度可以为约15至约18个核苷酸。在一些实施方案中,桥接寡核苷酸的长度可以为约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约25、约30、约35、约40、约45或约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸可以包含条形码。在一些实施方案中,桥接寡核苷酸可以包含多个条形码。在一些实施方案中,桥接寡核苷酸包括连接在一起的多个桥接寡核苷酸。在一些实施方案中,桥接寡核苷酸可以与诸如蛋白质A、蛋白质G、蛋白质A/G和蛋白质L的免疫球蛋白结合蛋白或其片段偶联或链接。在一些情况下,偶联的桥接寡核苷酸可被递送至样品核酸中结合抗体的位置。
可以采用分裂和汇集方法来生产具有独特条形码的桥接寡核苷酸。可以将样品群体分裂成多个组,可以将桥接寡核苷酸附接至样品,使得桥接寡核苷酸条码在组间不同但在一个组内相同,可以将样品的组再次汇集在一起,并且可以将该过程重复多次。重复该过程最终会导致群体中的每个样品都具有一系列独特的桥接寡核苷酸条形码,从而允许进行单个样品(例如,单个细胞、单个细胞核、单个染色体)分析。在一个说明性示例中,将附着在珠固体支持物上的交联消化核样品分成8个试管,每个试管含有第一衔接子组(第一次迭代)的8个独特成员中的一个,第一衔接子组包含待连接的双链DNA(dsDNA)衔接子。8个衔接子中的每一个都可以具有用于与细胞核中交联染色质聚集体的核酸末端连接的相同5'突出端序列,但在其他方面具有独特的dsDNA序列。在将第一衔接子组连接之后,可以将细胞核汇集回一起并洗涤以去除连接反应组分。可以将分布、连接和汇集的方案再重复2次(2次迭代)。连接每个衔接子组的成员后,可以将交联染色质聚集体串联附接至多个条码上。在一些情况下,多个衔接子组(迭代)的多个成员的顺序连接导致条形码组合。可用的条码组合数取决于每次迭代的组数和所用条码寡核苷酸的总数。例如,每次包含8个成员的3次迭代可以具有83个可能的组合。在一些情况下,条形码组合是独特的。在一些情况下,条形码组合是多余的。可以通过增加或减少接收独特条码的组数和/或增加或减少迭代次数来调整条码组合的总数。当使用超过一个衔接子组时,可以使用分布、附接和汇集方案进行迭代衔接子附接。在一些情况下,可以将分布、附接和汇集的方案再重复至少3、4、5、6、7、8、9或10次。在一些情况下,最后一个衔接子组的成员包括随后例如在通过PCR扩增制备测序文库期间用于富集衔接子附接的DNA的序列。
在附加的方面,本文具有低核酸输入需求的方法不包括剪切步骤。
在本文具有低核酸输入需求的方法的进一步方面,方法包括在连接序列的每一侧获得至少一些序列以生成第一读取对。例如,该方法可以包括在连接序列的每一侧获得至少约50bp、至少约100bp、至少约150bp、至少约200bp、至少约250bp或至少约300bp的序列以生成第一读取对。
在本文具有低核酸输入需求的方法的附加方面,方法包括将第一读取对映射到重叠群的集合上以及确定通过重叠群的集合的代表到基因组的顺序和/或取向的路径。
在本文具有低核酸输入需求的方法的进一步方面,方法包括将第一读取对映射到重叠群的集合上;以及从重叠群的集合确定稳定化生物样品中的结构变体的存在或杂合性丢失。
在本文具有低核酸输入需求的方法的附加方面,方法包括将第一读取对映射到重叠群的集合上以及将重叠群的集合中的变体分配给相位。
在本文具有低核酸输入需求的方法的进一步方面,方法包括将第一读取对映射到重叠群的集合上;从重叠群的集合确定重叠群的集合中的变体的存在;以及进行选自以下一项或多项的步骤:(1)鉴定稳定化生物样品的疾病分期、预后或治疗过程;(2)基于变体的存在选择药物;或(3)鉴定稳定化生物样品的药物疗效。
使用微球菌核酸酶(MNase)的Hi-C方法
附加地,本文提供的方法可以包括获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品;将稳定化生物样品与微球菌核酸酶(MNase)接触以将核酸分子切割成多个片段;以及将多个片段中的第一片段和第二片段在连接序列处附接。在本文的方法中使用MNase可以提供关于DNA结合蛋白在何处以高达单碱基对分辨率与染色质结合的特定信息,因为例如,MNase可以切割所有未与DNA结合蛋白结合的碱基对。此外,使用MNase消化可以允许创建接触图和拓扑相关域来破译三维染色质结构信息。在一些情况下,MNase可以与诸如蛋白质A、蛋白质G、蛋白质A/G或蛋白质L的免疫球蛋白结合蛋白或其片段偶联或融合。
例如,MNase Hi-C方法可以以小于或等于约1bp、2bp、3bp、4bp、5bp、6bp、7bp、8bp、9bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1000bp、2000bp、3000bp、4000bp、5000bp、6000bp、7000bp、8000bp、9000bp、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb或100kb的分辨率提供蛋白质结合或基因组接触相互作用的位置。在一些情况下,可以将蛋白质结合位点、蛋白质足迹、接触相互作用或其他特征映射到1000bp以内、900bp以内、800bp以内、700bp以内、600bp以内、500bp以内、400bp以内、300bp以内、200bp以内、190bp以内、180bp以内、170bp以内、160bp以内、150bp以内、140bp以内、130bp以内、120bp以内、110bp以内、100bp以内、90bp以内、80bp以内、70bp以内、60bp以内、50bp以内、40bp以内、30bp以内、20bp以内、10bp以内、9bp以内、8bp以内、7bp以内、6bp以内、5bp以内、4bp以内、3bp以内、2bp或1bp以内。
在某些方面,涉及MNase消化步骤的方法可以进一步包括对多个片段进行大小选择以获得多个选择片段。在一些情况下,多个选择片段可以为约145bp至约600bp。在一些情况下,多个选择片段可以为约100bp至约2500bp。在一些情况下,多个选择片段可以为约100至约600bp。在一些情况下,多个选择片段可以为约600bp至约2500bp。在一些情况下,多个选择片段可以为约100bp至约600bp、约100bp至约700bp、约100bp至约800bp、约100bp至约900bp、约100bp至约1000bp、约100bp至约1100bp、约100bp至约1200bp、约100bp至约1300bp、约100bp至约1400bp、约100bp至约1500bp、约100bp至约1600bp、约100bp至约1700bp、约100bp至约1800bp、约100bp至约1900bp、约100bp至约2000bp、约100bp至约2100bp、约100bp至约2200bp、约100bp至约2300bp、约100bp至约2400bp或约100bp至约2500bp。
在如本文所提供的涉及MNase消化步骤的方法的另一方面,该方法可以进一步包括从多个片段制备测序文库。在一些实施方案中,该方法可以进一步包括对测序文库进行大小选择以获得大小选择的文库。在一些情况下,大小选择的文库的大小可以为约350bp至约1000bp。在一些情况下,大小选择的文库的大小可以为约100bp至约2500bp,例如,约100bp至约350bp、约350bp至约500bp、约500bp至约1000bp、约1000至约1500bp、约2000bp至约2500bp、约350bp至约1000bp、约350bp至约1500bp、约350bp至约2000bp、约350bp至约2500bp、约500bp至约1500bp、约500bp至约2000bp、约500bp至约3500bp、约1000bp至约1500bp、约1000bp至约2000bp、约1000bp至约2500bp、约1500bp至约2000bp、约1500bp至约2500bp或约2000bp至约2500bp。
在另一方面,如本文所提供的涉及MNase消化步骤的方法可以进一步包括分析多个片段以获得QC值。在一些情况下,QC值可以选自染色质消化效率(CDE)和染色质消化指数(CDI)。CDE可以被计算为具有所需长度的片段的比例。例如,在一些情况下,CDE可以被计算为在大小选择前大小为100bp至2500bp的片段的比例。在一些情况下,当CDE值为至少65%时,可以选择样品以进行进一步分析。在一些情况下,当CDE值为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%或至少约95%时,可以选择样品以进行进一步分析。
CDI可以被计算为在大小选择前单核小体大小的片段数量与双核小体大小的片段数量之比。例如,CDI可被计算为大小为600-2500bp的片段与大小为100-600bp的片段之比的对数。在一些情况下,当CDI值大于-1.5且小于1时,可以选择样品以进行进一步分析。在一些情况下,当CDI值大于约-2且小于约1.5、大于约-1.9且小于约1.5、大于约-1.8且小于约1.5、大于约-1.7且小于约1.5、大于约-1.6且小于约1.5、大于约-1.5且小于约1.5、大于约-1.4且小于约1.5、大于约-1.3且小于约1.5、大于约-1.2且小于约1.5、大于约-1.1且小于约1.5、大于约-2且小于约1.5、大于约-1且小于约1.5、大于约-0.9且小于约1.5、大于约-0.8且小于约1.5、大于约-0.7且小于约1.5、大于约-0.6且小于约1.5、大于约-0.5且小于约1.5、大于约-2且小于约1.4、大于约-2且小于约1.3、大于约-2且小于约1.2、大于约-2且小于约1.1、大于约-2且小于约1、大于约-2且小于约0.9、大于约-2且小于约0.8、大于约-2且小于约0.7、大于约-2且小于约0.6或大于约-2且小于约0.5时,可以选择样品以进行进一步分析。
在另一方面,在如本文所提供的涉及MNase消化步骤的方法中使用的稳定化生物样品包括已用稳定剂处理的生物材料。在一些情况下,稳定化生物样品可以包括稳定化细胞裂解物。替代地,稳定化生物样品可以包括稳定化完整细胞。替代地,稳定化生物样品可以包括稳定化完整细胞核。在一些情况下,将稳定化完整细胞或完整细胞核样品与MNase接触可以在完整细胞或完整细胞核的裂解之前进行。在一些情况下,在将多个片段中的第一片段和第二片段在连接序列处附接之前可以裂解细胞和/或细胞核。
在另一方面,如本文所提供的涉及MNase消化步骤的方法可以在含有少量细胞或少量核酸的小样品上进行。例如,在一些情况下,稳定化生物样品可以包含少于3,000,000个细胞。在一些情况下,稳定化生物样品可以包含少于2,000,000个细胞。在一些情况下,稳定化生物样品可以包含少于1,000,000个细胞。在一些情况下,稳定化生物样品可以包含少于500,000个细胞。在一些情况下,稳定化生物样品可以包含少于400,000个细胞。在一些情况下,稳定化生物样品可以包含少于300,000个细胞。在一些情况下,稳定化生物样品可以包含少于200,000个细胞。在一些情况下,稳定化生物样品可以包含少于100,000个细胞。在一些情况下,稳定化生物样品可以包含小于10μg的DNA。在一些情况下,稳定化生物样品可以包含小于9μg的DNA。在一些情况下,稳定化生物样品可以包含小于8μg的DNA。在一些情况下,稳定化生物样品可以包含小于7μg的DNA。在一些情况下,稳定化生物样品可以包含小于6μg的DNA。在一些情况下,稳定化生物样品可以包含小于5μg的DNA。在一些情况下,稳定化生物样品可以包含小于4μg的DNA。在一些情况下,稳定化生物样品可以包含小于3μg的DNA。在一些情况下,稳定化生物样品可以包含小于2μg的DNA。在一些情况下,稳定化生物样品包含小于1μg的DNA。在一些情况下,稳定化生物样品包含小于0.5μg的DNA。
在另一方面,本文涉及MNase消化步骤的方法可以在单独或单个样品上进行。例如,本文的方法可以在分布到各个分区的细胞上进行。示例性的分区包括但不限于孔、乳液中的液滴或表面位置(例如,阵列点、珠等),其包含如本文其他地方所述的差异序列接头分子的不同斑块。附加的分区也被考虑并且与本文公开的方法、组合物和系统一致。
在附加的方面,可以用诸如DNase的附加的核酸酶进一步处理在本文涉及MNase消化步骤的方法中使用的稳定化生物样品以产生DNA的片段。在一些情况下,DNase可以是非序列特异性的。在一些情况下,DNase可以对单链DNA和双链DNA都有活性。在一些情况下,DNase可以对双链DNA具有特异性。在一些情况下,DNase可以优先切割双链DNA。在一些情况下,DNase可以对单链DNA具有特异性。在一些情况下,DNase可以优先切割单链DNA。在一些情况下,DNase可以是DNase I。在一些情况下,DNase可以是DNase II。在一些情况下,DNase可以选自DNase I和DNase II中的一种或更多种。在一些情况下,DNase可以与诸如蛋白质A、蛋白质G、蛋白质A/G或蛋白质L的免疫球蛋白结合蛋白或其片段偶联或融合。其他合适的核酸酶也在本公开内容的范围内。
在附加的方面,可以用交联剂处理如本文提供的用于在涉及MNase消化步骤的方法中使用的稳定化生物样品。在一些情况下,交联剂可以是化学固定剂。在一些情况下,化学固定剂包括甲醛,其具有约2.3-2.7埃(A)的间隔臂长度。在一些情况下,化学固定剂包括具有长间隔臂长度的交联剂,例如,交联剂可以具有至少约3A、4A、5A、6A、7A、8A、9A、10A、11A、12A、13A、14A、15A、16A、17A、18A、19A或20A的间隔臂长度。化学固定剂可以包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS),其具有约16.1A的间隔臂长度。化学固定剂可以包括双琥珀酰亚胺戊二酸酯(DSG),其具有约7.7A的间隔臂长度。在一些情况下,化学固定剂包括甲醛和EGS、甲醛和DSG或者甲醛、EGS和DSG。在一些情况下,当使用多种化学固定剂时,每种化学固定剂依次使用;在其他情况下,将多种化学固定剂中的一些或全部同时应用于样品。使用具有长间隔臂的交联剂可以增加具有大(例如,>1kb)读取对间隔距离的读取对的比例。例如,图7示出了单独用甲醛交联与用甲醛加DSG或EGS交联所得的文库(均经DNase和MNase消化)的比较。DSG在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。DSG是可透过膜的,允许细胞内交联。在一些应用中,与双琥珀酰亚胺辛二酸酯(DSS)相比,DSG可以提高交联效率。EGS在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。EGS是可透过膜的,允许细胞内交联。EGS交联可以逆转,例如,通过在pH 8.5下用羟胺处理3至6小时;在一个示例中,乳糖脱氢酶在与EGS可逆交联后保留60%的活性。在一些情况下,化学固定剂可以包括补骨脂素。在一些情况下,交联剂可以是紫外光。在一些情况下,稳定化生物样品可以是交联的石蜡包埋的组织样品。
在进一步的方面,本文提供的涉及MNase消化步骤的方法可以包括将多个选择片段与抗体接触。在一些情况下,可以将与寡核苷酸衔接子相连的免疫球蛋白结合蛋白或其片段靶向与多个选择片段结合的抗体。
在附加的方面,本文提供的涉及MNase消化步骤的方法可以包括将多个片段中的第一片段和第二片段在连接序列处附接。在一些情况下,附接可以包括使用生物素标签化的核苷酸填充粘性末端并连接钝性末端。在一些情况下,附接可以包括将至少第一片段和第二片段与桥接寡核苷酸接触。在一些情况下,附接可以包括将至少第一片段和第二片段与条形码接触。在一些实施方案中,本文的桥接寡核苷酸的长度可以为至少约5个核苷酸至约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸的长度可以为约15至约18个核苷酸。在一些实施方案中,桥接寡核苷酸的长度可以为约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约25、约30、约35、约40、约45或约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸可以包含条形码。
在本文涉及MNase消化步骤的方法的进一步方面,方法可以包括在连接序列的每一侧获得至少一些序列以生成第一读取对。例如,该方法可以包括在连接序列的每一侧获得至少约50bp、至少约100bp、至少约150bp、至少约200bp、至少约250bp或至少约300bp的序列以生成第一读取对。
在本文涉及MNase消化步骤的方法的附加方面,方法可以包括将第一读取对映射到重叠群的集合上,以及确定通过重叠群的集合的代表到基因组的顺序和/或取向的路径。
在本文涉及MNase消化步骤的方法的进一步方面,方法可以包括将第一读取对映射到重叠群的集合上以及从重叠群的集合确定稳定化生物样品中的结构变体的存在或杂合性丢失。
在本文涉及MNase消化步骤的方法的附加方面,方法可以包括将第一读取对映射到重叠群的集合上以及将重叠群的集合中的变体分配给相位。
在本文涉及MNase消化步骤的方法的进一步的方面,方法可以包括将第一读取对映射到重叠群的集合上;从重叠群的集合确定重叠群的集合中的变体的存在,以及进行选自以下一项或多项的步骤:(1)鉴定稳定化生物样品的疾病分期、预后或治疗过程;(2)基于变体的存在选择药物;或(3)鉴定稳定化生物样品的药物疗效。
用于HiChIP、HiChIRP和甲基HiC的改进的方法
HiChIP是一种将HiC方法与染色质免疫沉淀方法相结合的方法,允许对涉及一种或更多种感兴趣蛋白质的相互作用进行靶向分析。可以制备邻近连接的核酸,并且可以对目标区域进行免疫沉淀以进行进一步分析。相关方法HiChIRP使用通过RNA纯化的染色质分离(ChIRP)富集与HiC方法相结合,使得能够研究RNA,诸如长非编码RNA(lncRNA)的支架功能。甲基化HiC将甲基化分析与HiC方法相结合,允许同时捕获染色体构象和DNA甲基化组信息。甲基HiC可以揭示细胞核中空间邻近的远端基因组片段之间的协调的DNA甲基化状态,描绘混合群体中染色质结构和DNA甲基化组的异质性,并能够同时表征复杂组织中细胞类型特异性染色质组织和表观基因组。这些方法和其他方法可以通过使用本公开内容的技术来改进,包括但不限于大小选择步骤、表面结合步骤(例如,与诸如SPRI珠的珠结合)、使用桥接寡核苷酸进行邻近连接、使用重组进行邻近连接等。
在附加的方面,本文提供了用于HiChIP、HiChIRP和甲基HiC的改进的方法,其可以包括获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品,例如,通过对与核酸结合蛋白结合的核酸进行免疫沉淀或通过对甲基化核酸进行免疫沉淀;将稳定化生物样品与DNase接触以将核酸分子切割成多个片段;将多个片段中的第一片段和第二片段在连接序列处附接;以及对多个片段进行大小选择以获得多个选择片段。替代地或组合地,本文的方法可以包括获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品,例如,通过对与核酸结合蛋白结合的核酸进行免疫沉淀或通过对甲基化核酸进行免疫沉淀;将稳定化生物样品与微球菌核酸酶(MNase)接触以将核酸分子切割成多个片段;以及将多个片段中的第一片段和第二片段在连接序列处附接。
在本文用于HiChIP、HiChIRP和甲基HiC的改进方法的一些方面,稳定化生物样品可以包括完整细胞和/或完整细胞核。在一些情况下,稳定化生物样品可以包括稳定化完整细胞。替代地或组合地,稳定化生物样品可以包括稳定化完整细胞核。在一些情况下,将稳定化完整细胞或完整细胞核样品与DNase接触可以在完整细胞或完整细胞核的裂解之前进行。在一些情况下,在将多个片段中的第一片段和第二片段在连接序列处附接之前可以裂解细胞和/或细胞核。
在另一方面,本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法可以包括对多个片段进行大小选择以获得多个选择片段。在一些情况下,多个选择片段可以为约145至约600bp。在一些情况下,多个选择片段可以为约100至约2500bp。在一些情况下,多个选择片段可以为约100至约600bp。在一些情况下,多个选择片段可以为约600至约2500bp。在一些情况下,多个选择片段可以为约100bp至约600bp、约100bp至约700bp、约100bp至约800bp、约100bp至约900bp、约100bp至约1000bp、约100bp至约1100bp、约100bp至约1200bp、约100bp至约1300bp、约100bp至约1400bp、约100bp至约1500bp、约100bp至约1600bp、约100bp至约1700bp、约100bp至约1800bp、约100bp至约1900bp、约100bp至约2000bp、约100bp至约2100bp、约100bp至约2200bp、约100bp至约2300bp、约100bp至约2400bp或约100bp至约2500bp。
在本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法的另一方面,该方法可以进一步包括,在大小选择步骤之前,从多个片段制备测序文库。在一些实施方案中,该方法可以进一步包括对测序文库进行大小选择以获得大小选择的文库。在一些情况下,大小选择的文库的大小可以为约350bp至约1000bp。在一些情况下,大小选择的文库的大小可以为约100bp至约2500bp,例如,约100bp至约350bp、约350bp至约500bp、约500bp至约1000bp、约1000至约1500bp、约2000bp至约2500bp、约350bp至约1000bp、约350bp至约1500bp、约350bp至约2000bp、约350bp至约2500bp、约500bp至约1500bp、约500bp至约2000bp、约500bp至约3500bp、约1000bp至约1500bp、约1000bp至约2000bp、约1000bp至约2500bp、约1500bp至约2000bp、约1500bp至约2500bp或约2000bp至约2500bp。
在本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法中使用的大小选择可以使用凝胶电泳、毛细管电泳、大小选择珠、凝胶过滤柱、其组合或任何其他合适的方法进行。
在另一方面,本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法可以包括进一步分析多个选择片段以获得QC值。在一些情况下,QC值可以选自染色质消化效率(CDE)和染色质消化指数(CDI)。CDE可以被计算为具有所需长度的片段的比例。例如,在一些情况下,CDE可以被计算为在大小选择前大小为100至2500bp的片段的比例。在一些情况下,当CDE值为至少65%时,可以选择样品以进行进一步分析。在一些情况下,当CDE值为至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%或至少约95%时,可以选择样品以进行进一步分析。
CDI可以被计算为在大小选择前单核小体大小的片段数量与双核小体大小的片段数量之比。例如,CDI可被计算为大小为600-2500bp的片段与大小为100-600bp的片段之比的对数。在一些情况下,当CDI值大于-1.5且小于1时,可以选择样品以进行进一步分析。在一些情况下,当CDI值大于约-2且小于约1.5、大于约-1.9且小于约1.5、大于约-1.8且小于约1.5、大于约-1.7且小于约1.5、大于约-1.6且小于约1.5、大于约-1.5且小于约1.5、大于约-1.4且小于约1.5、大于约-1.3且小于约1.5、大于约-1.2且小于约1.5、大于约-1.1且小于约1.5、大于约-2且小于约1.5、大于约-1且小于约1.5、大于约-0.9且小于约1.5、大于约-0.8且小于约1.5、大于约-0.7且小于约1.5、大于约-0.6且小于约1.5、大于约-0.5且小于约1.5、大于约-2且小于约1.4、大于约-2且小于约1.3、大于约-2且小于约1.2、大于约-2且小于约1.1、大于约-2且小于约1、大于约-2且小于约0.9、大于约-2且小于约0.8、大于约-2且小于约0.7、大于约-2且小于约0.6或大于约-2且小于约0.5时,可以选择样品以进行进一步分析。
在另一方面,本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法可以在含有少量细胞或少量核酸的小样品上进行。在一些情况下,稳定化生物样品可以包含少于3,000,000个细胞。在一些情况下,稳定化生物样品可以包含少于2,000,000个细胞。在一些情况下,稳定化生物样品可以包含少于1,000,000个细胞。在一些情况下,稳定化生物样品可以包含少于500,000个细胞。在一些情况下,稳定化生物样品可以包含少于400,000个细胞。在一些情况下,稳定化生物样品可以包含少于300,000个细胞。在一些情况下,稳定化生物样品可以包含少于200,000个细胞。在一些情况下,稳定化生物样品可以包含少于100,000个细胞。在一些情况下,稳定化生物样品可以包含小于10μg的DNA。在一些情况下,稳定化生物样品可以包含小于9μg的DNA。在一些情况下,稳定化生物样品可以包含小于8μg的DNA。在一些情况下,稳定化生物样品可以包含小于7μg的DNA。在一些情况下,稳定化生物样品可以包含小于6μg的DNA。在一些情况下,稳定化生物样品可以包含小于5μg的DNA。在一些情况下,稳定化生物样品可以包含小于4μg的DNA。在一些情况下,稳定化生物样品可以包含小于3μg的DNA。在一些情况下,稳定化生物样品可以包含小于2μg的DNA。在一些情况下,稳定化生物样品可以包含小于1μg的DNA。在一些情况下,稳定化生物样品可以包含小于0.5μg的DNA。
在另一方面,本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法可以在单独或单个细胞上进行。例如,本文的方法可以在分布到各个分区的细胞上进行。示例性的分区包括但不限于孔、乳液中的液滴或表面位置(例如,阵列点、珠等),其包含如本文其他地方所述的差异序列接头分子的不同斑块。附加的分区也被考虑并且与本文公开的方法、组合物和系统一致。
在附加的方面,可以用诸如DNase的核酸酶处理在本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法中使用的稳定化生物样品以产生DNA的片段。在一些情况下,DNase可以是非序列特异性的。在一些情况下,DNase可以对单链DNA和双链DNA都有活性。在一些情况下,DNase可以对双链DNA具有特异性。在一些情况下,DNase可以优先切割双链DNA。在一些情况下,DNase可以对单链DNA具有特异性。在一些情况下,DNase可以优先切割单链DNA。在一些情况下,DNase可以是DNase I。在一些情况下,DNase可以是DNase II。在一些情况下,DNase可以选自DNase I和DNase II中的一种或更多种。在一些情况下,DNase可以是微球菌核酸酶。在一些情况下,DNase可以选自DNase I和DNase II和微球菌核酸酶中的一种或更多种。在一些情况下,DNase可以与诸如蛋白质A、蛋白质G、蛋白质A/G或蛋白质L的免疫球蛋白结合蛋白或其片段偶联或融合。其他合适的核酸酶也在本公开内容的范围内。
在附加的方面,可以用交联剂处理在本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法中使用的稳定化生物样品。在一些情况下,交联剂可以是化学固定剂。在一些情况下,化学固定剂包括甲醛,其具有约2.3-2.7埃(A)的间隔臂长度。在一些情况下,化学固定剂包括具有长间隔臂长度的交联剂,例如,交联剂可以具有至少约3A、4A、5A、6A、7A、8A、9A、10A、11A、12A、13A、14A、15A、16A、17A、18A、19A或20A的间隔臂长度。化学固定剂可以包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS),其具有约16.1A的间隔臂长度。化学固定剂可以包括双琥珀酰亚胺戊二酸酯(DSG),其具有约7.7A的间隔臂长度。在一些情况下,化学固定剂包括甲醛和EGS、甲醛和DSG或者甲醛、EGS和DSG。在一些情况下,当使用多种化学固定剂时,每种化学固定剂依次使用;在其他情况下,将多种化学固定剂中的一些或全部同时应用于样品。使用具有长间隔臂的交联剂可以增加具有大(例如,>1kb)读取对间隔距离的读取对的比例。例如,图7示出了单独用甲醛交联与用甲醛加DSG或EGS交联所得的文库(均经DNase和MNase消化)的比较。DSG在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。DSG是可透过膜的,允许细胞内交联。在一些应用中,与双琥珀酰亚胺辛二酸酯(DSS)相比,DSG可以提高交联效率。EGS在两端都有NHS酯反应基团,并且可以与氨基(例如,伯胺)反应。EGS是可透过膜的,允许细胞内交联。EGS交联可以逆转,例如,通过在pH 8.5下用羟胺处理3至6小时;在一个示例中,乳糖脱氢酶在与EGS可逆交联后保留60%的活性。在一些情况下,化学固定剂可以包括补骨脂素。在一些情况下,交联剂可以是紫外光。在一些情况下,稳定化生物样品可以是交联的石蜡包埋的组织样品。
在附加的方面,本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法可以包括将多个片段中的第一片段和第二片段在连接序列处附接。在一些情况下,附接可以包括使用生物素标签化的核苷酸填充粘性末端并连接钝性末端。在一些情况下,附接可以包括将至少第一片段和第二片段与桥接寡核苷酸接触。在一些情况下,附接可以包括将至少第一片段和第二片段与条形码接触。在一些实施方案中,本文的桥接寡核苷酸的长度可以为至少约5个核苷酸至约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸的长度可以为约15至约18个核苷酸。在一些实施方案中,桥接寡核苷酸的长度可以为约5、约6、约7、约8、约9、约10、约11、约12、约13、约14、约15、约16、约17、约18、约19、约20、约25、约30、约35、约40、约45或约50个核苷酸。在一些实施方案中,本文的桥接寡核苷酸可以包含条形码。
在附加的方面,本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法不包括剪切步骤。
在本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法的进一步方面,方法可以包括在连接序列的每一侧获得至少一些序列以生成第一读取对。例如,该方法可以包括在连接序列的每一侧获得至少约50bp、至少约100bp、至少约150bp、至少约200bp、至少约250bp或至少约300bp的序列以生成第一读取对。
在本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法的附加方面,方法可以包括将第一读取对映射到重叠群的集合上以及确定通过重叠群的集合的代表到基因组的顺序和/或取向的路径。
在本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法的进一步方面,方法可以包括将第一读取对映射到重叠群的集合上以及从重叠群的集合确定稳定化生物样品中的结构变体的存在或杂合性丢失。
在本文涉及消化全细胞或全细胞核的方法的附加方面,方法可以包括将第一读取对映射到重叠群的集合上以及将重叠群的集合中的变体分配给相位。
在本文涉及HiChIP、HiChIRP和甲基HiC的改进方法的方法的进一步方面,方法可以包括将第一读取对映射到重叠群的集合上;从重叠群的集合确定重叠群的集合中的变体的存在;以及进行选自以下一项或多项的步骤:(1)鉴定稳定化生物样品的疾病分期、预后或治疗过程;(2)基于变体的存在选择药物;或(3)鉴定稳定化生物样品的药物疗效。
生成长范围读取对
本公开内容提供了用于生成极长范围读取对并将该数据用于推进所有上述追求的方法。在一些实施方案中,本公开内容提供了生成高度连续且准确的仅具有约3亿个读取对的人类基因组组装的方法。在其他实施方案中,本公开内容提供了以99%或更高的准确度对人类基因组中90%或更多的杂合变体进行定相的方法。此外,可以将通过本公开内容生成的读数对的范围扩展到跨越更大的基因组距离。组装由标准鸟枪(shotgun)文库以及极长范围读取对文库产生。在又一些其他实施方案中,本公开内容提供了能够利用这两种测序数据集合的软件。用单个长范围读取对文库产生定相变体,将来自该长范围读取对文库的读取映射到参考基因组然后用于将变体分配给个体的两个亲本染色体之一。最后,本公开内容使用已知技术提取甚至更大的DNA片段,以便生成特别长的读数。
这些重复阻碍组装和比对过程的机制相当简单并且最终为模棱两可的结果。在较大重复区域的情况下,困难可以是跨度之一。如果读取或读取对的长度不足以跨越重复区域,则可能无法置信地将重复元件的边界区域连接起来。在较小重复元件的情况下,问题可能主要是放置。当区域的两侧是基因组中常见的两个重复元件时,由于两侧的元件与其同类中的所有其他元件相似,确定其确切位置变得困难,甚至不可能。在这两种情况下,正是由于重复中缺乏可区分的信息,才使得鉴定并由此放置特定重复变得具有挑战性。需要在被重复区域包围或分离的独特片段之间实验性地建立连接的能力。
本公开内容的方法通过由克服这些重复区域造成的实质性障碍来推进基因组学领域,从而可以在基因组分析的许多领域取得重要进展。要使用以前的技术进行从头组装,必须要么满足于将组装件分解为许多小支架,要么投入大量时间和资源来生产大型插入文库或使用其他方法来生成更连续的组装件。这样的方法可以包括获得非常深的测序覆盖度、构建BAC或福斯质粒文库、光学映射或者这些和/或其他技术的一些组合。大量的资源和时间要求使大多数小型实验室无法使用这样的方法,并阻止研究非模式生物。由于本文所述的方法可以产生非常长范围的读取对,因此可以通过单次测序运行实现从头组装。这会将组装成本降低了几个数量级,并将所需时间从数月或数年缩短到数周。在一些情况下,本文公开的方法允许在少于14天、少于13天、少于12天、少于11天、少于10天、少于9天、少于8天、少于7天、少于6天、少于5天、少于4天,或者在上述指定时间段的任意两个之间的范围内生成多个读取对。例如,该方法可以允许在约10天至14天内生成多个读取对。即使是为最小生态位的生物体构建基因组也将成为常规,系统发育分析将不会缺乏比较,并且可以实现诸如Genome 10k的项目。
类似地,用于医学目的的结构和定相分仍然具有挑战性。在癌症、具有相同类型癌症的个体之间或甚至在相同肿瘤内存在惊人的异质性。从结果影响中梳理原因影响需要在每个样品的低成本下有非常高的精度和通量。在个性化医学的领域中,基因组治疗的金标准之一是具有完全表征和定相的全部变体的经测序的基因组,包括大的和小的结构重排以及新型突变。为了实现该标准,先前的技术需要与从头装配所需的努力类似的努力,所述从头装配目前太过昂贵和费力而不能成为常规医疗程序。本公开内容的方法可以以低成本快速产生完整、准确的基因组,从而可以在人类疾病的研究和治疗中产生许多备受追捧的能力。
将本文公开的方法应用于定相可以将统计方法的便利性与家族分析的准确性相结合,相比单独使用任一方法提供节省(金钱、劳动力和样品)。从头变体定相是一种先前技术所禁止的非常理想的定相分析,可以使用本文公开的方法容易地进行。这尤其重要,因为绝大多数人类变异都很罕见(次要等位基因频率低于5%)。定相信息对于群体遗传研究很有价值,相对于非链接基因型,群体遗传研究从高度连接的单倍型网络(分配给单个染色体的变体集合)中获得显着优势。单倍型信息可以对群体大小、迁徙和亚种群间交换的历史变化进行更高分辨率的研究,并使我们能够将特定变异追溯到特定的父母和祖父母。这反过来阐明了与疾病相关的变体的遗传传递,以及变体在单个个体中的相互作用。本公开内容的方法最终可以实现超长范围读取对(XLRP)文库的制备、测序和分析。
在本公开内容的一些实施方案中,可以提供来自受试者的组织或DNA样品,并且该方法可以返回装配的基因组、与被判定的变体(包括大结构变体)的比对、定相的变体判定或任何其他分析。在其他实施方案中,本文公开的方法可以直接为个体提供XLRP文库。
极长范围读取对
在本公开内容的各个实施方案中,本文公开的方法可以生成相隔大距离的极长范围读取对。该距离的上限可通过收集大尺寸DNA样品的能力来改善。在一些情况下,读取对可跨越多达50、60、70、80、90、100、125、150、175、200、225、250、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000kbp或更远的基因组距离。在一些实例中,读取对可跨越多达500kbp的基因组距离。在其他实例中,读取对可跨越多达2000kbp的基因组距离。本文公开的方法可整合并基于分子生物学方面的标准技术进行构建,并且进一步地非常适合于提高效率、特异性和基因组覆盖度。在一些情况下,读取对可以在少于约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、60或90天内生成。在一些示例中,读取对可以在少于约14天内生成。在进一步的示例中,读取对可以在少于约10天内生成。在一些情况下,本公开内容的方法可以在正确排序和/或定向多个重叠群方面以至少约50%、约60%、约70%、约80%、约90%、约95%、约99%或约100%的准确度提供大于约5%、约10%、约15%、约20%、约30%、约40%、约50%、约60%、约70%、约80%、约90%、约95%、约99%或约100%的读取对。例如,该方法可以在正确排序和/或定向多个重叠群方面提供约90%至100%的准确度。
在其他实施方案中,本文公开的方法可与目前采用的测序技术一起使用。例如,所述方法可与经过良好测试的和/或广泛部署的测序仪器组合使用。在进一步的实施方案中,本文公开的方法可以与从当前采用的测序技术衍生的技术和方法一起使用。
本公开内容的方法可以显着简化众多生物体的从头基因组组装。使用先前的技术,这样的组装目前受限于经济的配对文库的短插入。虽然有可能在福斯质粒可访问的多达40-50kbp的基因组距离上生成读取对,但这是昂贵的、笨重的,而且太短而无法跨越最长的重复延伸,包括丝粒内的重复延伸,其在人类中大小可为300kbp至5Mbp。本文公开的方法可以提供能够跨越大距离(例如,兆碱基或更长)的读取对,从而克服这些支架完整性挑战。因此,通过利用本公开内容的方法,产生染色体水平的组装可能是常规的。更费力的组装途径(目前花费研究实验室大量的时间和金钱,并禁止扩展基因组目录)可能变得不必要,从而为更有意义的分析腾出资源。类似地,获取长范围定相信息可以为群体基因组、系统发育和疾病研究提供巨大的附加力量。本文公开的方法能够对大量个体进行准确定相,从而扩展我们在群体和深度时间水平上探测基因组的能力的广度和深度。
在个性化医疗领域,从本文公开的方法生成的XLRP读取对代表了朝着准确、低成本、定相和快速产生的个人基因组迈出的有意义的一步。当前的方法在长距离定相变体的能力方面不足,从而阻止了对复合杂合基因型的表型影响的表征。此外,与用于研究它们的读取和读取对插入相比,由于它们的大小较大,因此很难用当前的技术准确鉴定和表征对基因组疾病有重大意义的结构变体。跨越数万碱基到数百万碱基或更长的读取对可以帮助缓解这一困难,从而允许对结构变体进行高度并行和个性化的分析。
高通量测序技术的进步正在推动基础进化和生物医学研究。尽管全基因组测序和组装曾经是大型基因组测序中心的起源,但现在市售的测序仪已经足够便宜,大多数研究型大学都拥有一台或几台这样的机器。现在生成大量DNA序列数据的成本相对较低。然而,在理论上和实践中仍然难以用当前技术产生高质量、高度连续的基因组序列。此外,因为人们愿意分析的大多数生物体(包括人类)都是二倍体,每个个体都有基因组的两个单倍体拷贝。在杂合性的位点(例如,母本提供的等位基因与父本提供的等位基因不同),很难知道哪组等位基因来自哪个亲本(称为单倍型定相)。该信息可用于执行许多进化和生物医学研究(诸如疾病和性状关联研究)。
在各种实施方案中,本公开内容提供了基因组组装方法,该方法将DNA制备技术与配对末端测序技术相结合,用于高通量地发现给定基因组内的短期、中间和长期连接。本公开内容进一步提供了使用这些连接来辅助基因组组装,用于单倍型定相和/或用于宏基因组研究的方法。虽然本文提出的方法可用于确定受试者基因组的组装,但是还应当理解,本文提出的方法也可用于确定受试者的基因组的一部分(诸如染色体)的组装,或受试者的不同长度的染色质的组装。
在一些实施方案中,本公开内容提供了本文公开的一种或更多种方法,其包括从获自受试者的靶DNA的测序片段生成多个重叠群的步骤。可以通过用一种或更多种核酸酶(例如,DNase I、DNase II、微球菌核酸酶等)切割DNA来使长延伸的目标DNA片段化。可以使用高通量测序方法对所得片段进行测序以获得多个测序读数。可以与本公开的方法一起使用的高通量测序方法的示例包括但不限于Roche Diagnostics开发的454焦磷酸测序方法、由Illumina开发的“簇(cluster)”测序方法、由Life Technologies开发的SOLiD和Ion半导体测序方法以及由Complete Genomics开发的DNA纳米球测序方法。然后可以组装不同测序读数的重叠末端以形成重叠群。替代地,可以将片段化目标DNA克隆到载体中。然后用DNA载体转染细胞或生物体以形成文库。在复制转染的细胞或生物体后,分离载体并测序以生成多个测序读数。然后可以组装不同测序读数的重叠末端以形成重叠群。
基因组组装(尤其是使用高通量测序技术的基因组组装)可能会出现问题。通常,该组装由成千上万个短重叠群组成。这些重叠群的排序和取向通常是未知的,这限制了基因组组装的有效性。存在对这些支架进行排序或取向的技术,但它们通常昂贵、劳动密集并且经常无法发现非常长距离的相互作用。
可以通过多种方式从受试者获得包含用于生成重叠群的目标DNA的样品,包括通过采集体液(例如,血液、尿液、血清、淋巴液、唾液、口腔拭子、肛门和阴道分泌物、汗液和精液等)、采集组织或通过采集细胞/生物体。获得的样品可以由单一类型的细胞/生物体组成,或者可以由多种类型的细胞/生物体组成。可以从受试者的样品中提取和制备DNA。例如,可以使用已知的裂解缓冲液、超声处理技术、电穿孔等处理样品以裂解包含多核苷酸的细胞。可以通过使用醇萃取、铯梯度和/或柱层析进一步纯化靶DNA以去除污染物,诸如蛋白质。
在本公开内容的其他实施方案中,提供了提取非常高分子量的DNA的方法。在一些情况下,可以通过增加输入DNA的片段大小来改进来自XLRP文库的数据。在一些示例中,从细胞中提取兆碱基大小的DNA片段可以产生由基因组中的兆碱基分隔的读取对。在一些情况下,产生的读取对可以提供超过约10kB、约50kB、约100kB、约200kB、约500kB、约1Mb、约2Mb、约5Mb、约10Mb或约100Mb跨度的序列信息。在一些示例中,读取对可以提供超过约500kB跨度的序列信息。在进一步的示例中,读取对可以提供超过约2Mb跨度的序列信息。在一些情况下,可以通过非常温和的细胞裂解(Teague,B.等人(2010)Proc.Nat.Acad.Sci.USA 107(24),10848–53)和琼脂糖包埋(agarose plugs)(Schwartz,D.C.和Cantor,C.R.(1984)Cell,37(1),67–75)提取非常高分子量的DNA。在其他情况下,可以使用可纯化长度达兆碱基的DNA分子的市售机器提取非常高分子量的DNA。
探测染色体的物理布局
在各个实施方案中,本公开内容提供了一种或更多种本文公开的方法,该方法包括探测活细胞内染色体的物理布局的步骤。通过测序探测染色体物理布局的技术实例包括“C”类技术,如染色体构象捕获(“3C”)、环化染色体构象捕获(“4C”)、碳拷贝染色体捕获(“5C”)和基于Hi-C的方法;以及基于ChIP的方法,如ChIP-loop、ChIA-PET和HiChIP。这些技术利用活细胞中染色质的固定来巩固细胞核中的空间关系。产物的后续处理和测序允许研究人员恢复基因组区域之间邻近关联的矩阵。通过进一步分析,这些关联可用于产生染色体的三维几何图,因为它们物理地排列在活细胞核中。这样的技术描述了活细胞中染色体的离散空间组织,并提供了染色体位点之间功能相互作用的准确视图。困扰这些功能研究的一个问题是存在非特异性相互作用,数据中存在的关联仅归因于染色体邻近。在本公开内容中,通过本文提出的方法捕获这些非特异性染色体内相互作用,以便为组装提供有价值的信息。
在一些实施方案中,染色体内相互作用与染色体连接性有关。在一些情况下,染色体内数据可帮助基因组装配。在一些情况下,在体外重构染色质。这可能是有利的,因为染色质——特别是组蛋白(染色质的主要蛋白质成分)——对于在通过测序检测染色质构象和结构的最常见“C”类技术3C、4C、5C和Hi-C下的固定是重要的。染色质关于序列是高度非特异性的,并且通常将在整个基因组上均匀地装配。在一些情况下,不使用染色质的物种的基因组可以在重构的染色质上进行装配,从而将本公开内容的范围扩大至所有生命领域。
总结了染色质构象捕获技术。简而言之,在物理上非常邻近的基因组区域之间创建了交联。可以根据本文其他地方进一步详细描述的或本领域已知的其他合适方法完成蛋白质(诸如组蛋白)与染色质内DNA分子(诸如基因组DNA)的交联。在一些情况下,两个或更多个核苷酸序列可以经由与一个或更多个核苷酸序列结合的蛋白质交联。一种方法是将染色质暴露于紫外线照射(Gilmour等人,Proc.Nat’l.Acad.Sci.USA 81:4275-4279,1984)。还可以利用其他方法,如化学或物理(例如,光)交联,进行多核苷酸片段的交联。合适的化学交联剂包括但不限于甲醛和补骨脂素(Solomon等人,Proc.Nat’l.Acad.Sci.USA 82:6470-6474,1985;Solomon等人,Cell 53:937-947,1988)。例如,可通过将2%甲醛添加至包含DNA分子和染色质蛋白质的混合物中进行交联。可用来交联DNA的试剂的其他实例包括但不限于紫外线、丝裂霉素C、氮芥、美法仑、1,3-丁二烯双环氧化物、顺二胺二氯铂(II)和环磷酰胺。适当地,所述交联剂将形成桥接相对较短距离如约
Figure BDA0003523933710000931
的交联,从而选择可以逆转的密切相互作用。
在一些实施方案中,在交联之前或之后可以对DNA分子进行免疫沉淀。在一些情况下,DNA分子可以是片段化的。片段可以与结合配偶体接触,诸如特异性鉴定并结合乙酰化组蛋白的抗体,例如H3。这样的抗体的示例包括但不限于抗乙酰化组蛋白H3,可从UpstateBiotechnology,Lake Placid,N.Y.获得。随后可以从免疫沉淀物中收集来自免疫沉淀物的多核苷酸。在将染色质片段化之前,可以将乙酰化组蛋白与邻近的多核苷酸序列交联。然后处理混合物以对混合物中的多核苷酸进行分级。本文的分级技术包括使用脱氧核糖核酸酶(DNase)。适用于本文方法的DNase包括但不限于DNase I、DNase II和微球菌核酸酶。所得片段的大小可以不同。所得片段也可能在5’或3’末端包含单链突出物。
在一些实施方案中,可以获得约145bp至约600bp的片段。替代地,可以获得约100bp至约2500bp、约100bp至约600bp或约600至约2500的片段。可以制备样品用于对交联的偶联序列片段进行测序。在一些情况下,可以例如通过连接分子内交联的两个序列片段来产生单个短延伸的多核苷酸。可以使用本文别处进一步详细描述的任何合适的测序技术或其他合适的方法(诸如高通量测序方法)从样品中获得序列信息。例如,可以对连接产物进行配对末端测序,从片段的每个末端获取序列信息。可以在获得的序列信息中表示成对的序列片段,在沿着多核苷酸分隔两个序列片段的线性距离上关联单倍型信息。
Hi-C生成的数据的一个特征是,发现大多数读取对在映射回基因组时是紧密线性邻近的。也就是说,发现大多数读取对在基因组中彼此接近。在所得数据集中,染色体内接触的概率平均远高于染色体间接触的概率,正如预期的那样,如果染色体占据不同的区域。此外,尽管相互作用的概率随着线性距离迅速衰减,但在相同染色体上即使是相隔>200Mb的基因座也比在不同染色体上的基因座更有可能发生相互作用。在检测长范围染色体内(尤其是染色体间)接触时,这种短距离和中距离染色体内接触的“背景”是需要使用Hi-C分析排除的背景噪声。
值得注意的是,真核生物中的Hi-C实验表明,除了物种特异性和细胞类型特异性染色质相互作用外,还有两种典型的相互作用模式。一种模式,距离依赖性衰减(DDD),是作为基因组距离函数的相互作用频率衰减的一般趋势。第二种模式,顺反比(CTR),是位于相同染色体上的基因座之间的相互作用频率显着高于位于不同染色体上的基因座,即使相隔数十兆碱基的序列也是如此。这些模式可能反映了一般聚合物动力学,其中邻近基因座具有更高的随机相互作用概率,以及特定的核组织特征,诸如染色体区域的形成,间期染色体倾向于在细胞核中占据不同体积而几乎没有混合的现象。尽管这两种模式的确切细节可能在物种、细胞类型和细胞条件之间不同,但它们普遍存在且突出。这些模式是如此强大和一致,以至于它们被用来评估实验质量,并且通常从数据中标准化以便揭示详细的相互作用。然而,在本文公开的方法中,基因组组装可以利用基因组的三维结构。使典型的Hi-C相互作用模式成为分析特定循环相互作用的障碍的特征,即它们的普遍性、强度和一致性,可以用作估计重叠群的基因组位置的有力工具。
在特定的实现方式中,检查染色体内读数对之间的物理距离指示数据在基因组组装方面的若干有用特征。首先,较短范围相互作用比较长范围相互作用更常见。也就是说,读取对中的每个读取都更有可能与实际基因组中靠近的区域配对,而不是与远离的区域配对。其次,存在中长范围相互作用的长尾。也就是说,读取对携带关于千碱基(kB)甚至兆碱基(Mb)距离的染色体内排列的信息。例如,读取对可以提供超过约10kB、约50kB、约100kB、约200kB、约500kB、约1Mb、约2Mb、约5Mb、约10Mb或约100Mb跨度的序列信息。数据的这些特征简单地指示,相同染色体上接近的基因组区域更有可能在物理上接近——这是预期的结果,因为它们通过DNA主链相互化学链接。据推测,全基因组染色质相互作用数据集(诸如由Hi-C生成的数据集)将提供有关沿整个染色体的序列分组和线性组织的长范围信息。
尽管Hi-C的实验方法简单且成本相对较低,但目前的基因组组装和单倍型分析方案需要3-5百万个细胞,这是相当大量的材料,可能无法获得,特别是从某些人类患者样品中获得。相比之下,本文公开的方法包括允许使用来自细胞的显著减少的材料获得基因型组装、单倍型定相和宏基因组学的准确和预测结果的方法。例如,本文公开的方法可以使用小于约0.1μg、约0.2μg、约0.3μg、约0.4μg、约0.5μg、约0.6μg、约0.7μg、约0.8μg、约0.9μg、约1.0μg、约1.2μg、约1.4μg、约1.6μg、约1.8μg、约2.0μg、约2.5μg、约3.0μg、约3.5μg、约4.0μg、约4.5μg、约5.0μg、约6.0μg、约7.0μg、约8.0μg、约9.0μg、约10μg、约15μg、约20μg、约30μg、约40μg、约50μg、约60μg、约70μg、约80μg、约90μg、约100μg、约150μg、约200μg、约300μg、约400μg、约500μg、约600μg、约700μg、约800μg、约900μg、约1000μg、约1200μg、约1400μg、约1600μg、约1800μg、约2000μg、约2200μg、约2400μg、约2600μg、约2800μg、约3000μg、约3200μg、约3400μg、约3600μg、约3800μg、约4000μg、约4200μg、约4400μg、约4600μg、约4800μg、约5000μg、约5200μg、约5400μg、约5600μg、约5800μg、约6000μg、约6200μg、约6400μg、约6600μg、约6800μg、约7000μg、约7200μg、约7400μg、约7600μg、约7800μg、约8000μg、约8200μg、约8400μg、约8600μg、约8800μg、约9000μg、约9200μg、约9400μg、约9600μg、约9800μg或约10,000μg的DNA。在一些示例中,在本文公开的方法中使用的DNA是从少于约3,000,000、约2,500,000、约2,000,000、约1,500,000、约1,000,000、约500,000、约100,000、约50,000、约10,000、约5,000、约1,000、约500或约100个细胞中提取的。
通常,用于探测染色体物理布局的程序,如基于Hi-C的技术,利用在细胞/生物体内形成的染色质,如从培养的细胞或原代组织中分离的染色质。本公开内容不仅提供了采用从细胞/生物体中分离的染色质的这类技术的使用,而且还提供了采用重构的染色质的这类技术的使用。重构的染色质在多种特征方面与细胞/生物体内形成的染色质不同。首先,对于许多样品,可通过使用多种非侵入性至侵入性的方法,如通过收集体液、擦拭口腔或直肠区域、采集上皮样品等,实现裸DNA样品的收集。第二,重构染色质基本上防止了染色体间和其他长范围相互作用的形成,所述相互作用生成用于基因组装配和单元型定相的人工制品。在一些情况下,根据本公开内容的方法和组合物,样品可具有少于约20%、15%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.5%、0.4%、0.3%、0.2%、0.1%或更少的染色体间或分子间交联。在一些实例中,所述样品可具有少于约5%的染色体间或分子间交联。在一些实例中,所述样品可具有少于约3%的染色体间或分子间交联。在另外的实例中,可具有少于约1%的染色体间或分子间交联。第三,可以调节能够交联的位点的频率,并因此可以调节多核苷酸内的分子内交联的频率。例如,DNA与组蛋白的比可以变化,使得核小体密度可以调节至所需的值。在一些情况下,核小体密度减小至生理学水平以下。因此,可以改变交联的分布以有利于较长范围相互作用。在一些实施方案中,可制备具有不同交联密度的子样品以涵盖短范围和长范围缔合。例如,可以调节交联条件,使得至少约1%、约2%、约3%、约4%、约5%、约6%、约7%、约8%、约9%、约10%、约11%、约12%、约13%、约14%、约15%、约16%、约17%、约18%、约19%、约20%、约25%、约30%、约40%、约45%、约50%、约60%、约70%、约80%、约90%、约95%或约100%的交联发生在样品DNA分子上相隔至少约50kb、约60kb、约70kb、约80kb、约90kb、约100kb、约110kb、约120kb、约130kb、约140kb、约150kb、约160kb、约180kb、约200kb、约250kb、约300kb、约350kb、约400kb、约450kb或约500kb的DNA片段之间。
接触映射和拓扑
通过本公开内容的方法生成的读取对可用于分析基因组和其中的染色体和核酸分子的三维结构。如本文所讨论的,可以将读取对中的每个读数映射到基因组中的不同区域。可以推断,对于给定的读取对,它们映射到的基因组中的两个不同区域将在空间上彼此邻近,以便能够连接在一起。通过根据读取对中两个读取的坐标绘制来自样品的读取对,可以为样品创建接触图。示例接触图可如图13所示,其中接触图上的每个点代表根据其读数对的映射位置绘制的读数对。
对整个样品的接触分析可以允许分析染色体和基因组的结构。可以在千碱基或兆碱基规模上分析基因组进入A和B区室、活跃和非活跃区室、染色体区室、常染色质和异染色质、拓扑相关结构域(TAD)(包括TAD亚型)的组织结构和其他结构。接触图分析还可以允许检测基因组特征,诸如结构变体,诸如重排、易位、拷贝数变异、倒位、缺失和插入。
本公开内容的方法可以以小于或等于约1bp、2bp、3bp、4bp、5bp、6bp、7bp、8bp、9bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1000bp、2000bp、3000bp、4000bp、5000bp、6000bp、7000bp、8000bp、9000bp、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb或100kb的分辨率提供蛋白质结合、结构变异或基因组接触相互作用的位置。在一些情况下,可以将蛋白质结合位点、蛋白质足迹、接触相互作用或其他特征映射到1000bp以内、900bp以内、800bp以内、700bp以内、600bp以内、500bp以内、400bp以内、300bp以内、200bp以内、190bp以内、180bp以内、170bp以内、160bp以内、150bp以内、140bp以内、130bp以内、120bp以内、110bp以内、100bp以内、90bp以内、80bp以内、70bp以内、60bp以内、50bp以内、40bp以内、30bp以内、20bp以内、10bp以内、9bp以内、8bp以内、7bp以内、6bp以内、5bp以内、4bp以内、3bp以内、2bp或1bp以内。在一个示例中,本公开内容的方法可以实现对基因组上彼此相距10,000bp、5,000bp、2,000bp或1,000bp以内的位点(例如,蛋白质结合位点,诸如CTCF位点)的分辨。在一些情况下,通过使用MNase或其他可降解未受保护的核酸(例如,不在结合蛋白足迹内的核酸)的核酸内切酶,可以提高分辨率或映射,从而导致在受保护区域(例如,蛋白质足迹)的边缘发生邻近连接事件。
重叠群映射
在各种实施方案中,本公开内容提供了能够将多个读数对映射到多个重叠群的各种方法。有若干公开可用的计算机程序用于将读取映射到重叠群序列。这些读取映射程序数据还提供了描述特定读取映射在基因组中的独特性的数据。从在重叠群内以高置信度独特映射的读取群体,我们可以推断每个读取对中读取之间的距离分布。对于其读数置信地映射到不同重叠群的读数对,该映射数据意味着所讨论的两个重叠群之间的连接。它还意味着两个重叠群之间的距离与从上述分析中得知的距离分布成比例。因此,读取映射到不同重叠群的每个读取对意味着正确组装中这两个重叠群之间的连接。可以将从所有这样地映射读取对推断的连接总结在邻接矩阵中,其中每个重叠群由行和列表示。连接重叠群的读取对在相应的行和列中标记为非零值,表示读取对中的读取映射到的重叠群。大多数读取对将映射在一个重叠群中,并且可以从中得知读取对之间的距离分布,并且可以使用映射到不同重叠群的读取对从中构造重叠群的邻接矩阵。
在各种实施方案中,本公开内容提供了包括使用来自读取对数据的读取映射数据构造重叠群的邻接矩阵的方法。在一些实施方案中,邻接矩阵对读取对使用加权方案,该方案将短范围相互作用的趋势结合到长范围相互作用中。跨越较短距离的读取对通常比跨越较长距离的读取对更常见。可以使用映射到单个重叠群的读取对数据来拟合描述特定距离概率的函数以得知该分布。因此,映射到不同重叠群的读取对的一个重要特征是它们映射到重叠群的位置。对于都映射在重叠群的一端附近的读取对,这些重叠群之间的推断距离可能很短,因此连接的读取之间的距离很小。由于读取对之间的较短距离比较长距离更常见,因此与远离重叠群边缘的读取映射相比,这种配置提供了更强的证据表明这两个重叠群是相邻的。因此,邻接矩阵中的连接通过读取到重叠群边缘的距离进一步加权。在进一步的实施方案中,可以进一步对邻接矩阵重新缩放,以对代表基因组混杂区域的一些重叠群上的大量接触进行降权。基因组的这些区域(可通过将高比例的读取映射到它们来鉴定)先天地更可能包含可能误导组装的虚假读取映射。在又进一步的实施方案中,该缩放可以通过寻找调节染色质(诸如转录抑制因子CTCF、内分泌受体、黏连蛋白或共价修饰的组蛋白)的支架相互作用的一种或更多种试剂的一个或更多个保守结合位点来指导。
在一些实施方案中,本公开内容提供了本文公开的一种或更多种方法,其包括分析邻接矩阵以确定通过重叠群的代表它们到基因组的顺序和/或取向的路径的步骤。在其他实施方案中,可以选择通过重叠群的路径,使得每个重叠群仅被访问一次。在进一步的实施方案中,选择通过重叠群的路径,使得通过邻接矩阵的路径将访问的边权重之和最大化。通过这种方式,为正确的组装提出了最可能的重叠群连接。在又进一步的实施方案中,可以选择通过重叠群的路径,使得每个重叠群仅被访问一次并且将邻接矩阵的边权重最大化。
单倍型定相
在二倍体基因组中,了解哪些等位基因变体链接在同一条染色体上通常很重要。这被称为单倍型定相。来自高通量序列数据的短读取很少允许直接观察哪些等位基因变体是链接的。单倍型定相的计算推断在长距离上可能不可靠。本公开内容提供了一种或更多种方法,其允许使用读数对上的等位基因变体确定哪些等位基因变体链接。在一些情况下,在没有填充(imputation)的情况下进行本公开内容的方法的定相。
在各种实施方案中,本公开内容的方法和组合物能够关于多个等位基因变体对二倍体或多倍体基因组进行单倍型定相。因此,本文所述的方法可以基于来自读取对和/或使用读取对的组装重叠群的变体信息来确定链接的等位基因变体。等位基因变体的示例包括但不限于从1000genomes、UK10K、HapMap和用于在人类中发现遗传变体的其他项目中已知的等位基因变体。通过获得单倍型定相数据可以更容易地揭示疾病与特定基因的关联,例如如以下发现所示:SH3TC2的两个拷贝中未链接的失活突变导致腓骨肌萎缩(Charcot-Marie-Tooth)神经病(Lupski JR,Reid JG,Gonzaga-Jauregui C等人N.Engl.J.Med.362:1181–91,2010)以及ABCG5的两个拷贝中未链接的失活突变导致高胆固醇血症9(Rios J,Stein E,Shendure J等人Hum.Mol.Genet.19:4313–18,2010)。
人类平均每1,000个位点有1个位点是杂合的。在一些情况下,使用高通量测序方法的单通道数据可以生成至少约150,000,000个读取对。读取对的长度可以为约100个碱基对。根据这些参数,估计人类样品中所有读数的十分之一涵盖杂合位点。因此,估计人类样品中所有读取对的平均百分之一涵盖杂合位点对。因此,约1,500,000个读取对(150,000,000的百分之一)使用单个通道提供定相数据。人类基因组中约有30亿个碱基,千分之一是杂合的,平均人类基因组中大约有300万个杂合位点。使用代表杂合位点对的约1,500,000个读取对,使用典型的高通量测序仪,使用高通量测序方法的单个通道进行定相的每个杂合位点的平均覆盖度约为(1X)。因此,二倍体人类基因组可以可靠且完全地用与来自使用本文公开的方法制备的样品的序列变体相关的高通量序列数据的一个通道进行定相。在一些示例中,数据通道可以是DNA序列读取数据的集。在进一步的示例中,数据通道可以是来自高通量测序仪器单次运行的DNA序列读取数据的集。
由于人类基因组由两组同源染色体组成,因此要了解个体的真实基因组成需要描述遗传物质的母本和父本拷贝或单倍型。获得个体的单倍型可用于若干方面。第一,单倍型在临床上可用于预测器官移植中供体-宿主匹配的结果并且越来越多地用于检测疾病关联。第二,在显示复合杂合性的基因中,单倍型提供关于两个有害变体是否位于同一个等位基因的信息,极大地影响对这些变体的遗传是否有害的预测。第三,来自个体群组的单倍型提供了有关人口结构和人类进化史的信息。最后,最近描述的基因表达中广泛的等位基因失衡表明,等位基因之间的遗传或表观遗传差异可能导致表达的数量差异。对单倍型结构的理解将描述导致等位基因失衡的变体的机制。
在某些实施方案中,本文公开的方法包括体外技术以根据长距离连锁和定相的需要固定和捕获基因组的远距离区域之间的关联。在一些情况下,该方法包括构建和测序XLRP文库以递送基因组上非常远的读取对。在一些情况下,相互作用主要来自单个DNA片段内的随机关联。在一些示例中,可以推断片段之间的基因组距离是因为DNA分子中彼此靠近的片段相互作用更频繁且概率更高,而分子远处部分之间的相互作用则不太频繁。因此,连接两个基因座的对数与其在输入DNA上的邻近之间存在系统关系。本公开内容可以产生能够跨越提取物中最大的DNA片段的读数对。该文库的输入DNA最大长度为150kbp,这是从测序数据中观察到的最长的有意义读取对。这表明,如果提供更大的输入DNA片段,本方法还可以链接基因组上更远的基因座。通过应用特别适用于处理由本方法产生的数据类型的改进的组装软件工具,完整的基因组组装是可能的。
使用本公开内容的方法和组合物产生的数据可以实现极高的定相精度。与先前的方法相比,本文所述的方法可以对高比例的变体进行定相。可以在保持高水平准确度的同时实现定相。本文的技术可以允许以超过约70%、80%、90%、95%、96%、97%、98%、99%、99.9%、99.99%或99.999%的准确度进行定相。本文的技术可以允许以小于约500x测序深度、450x测序深度、400x测序深度、350x测序深度、300x测序深度、250x测序深度、200x测序深度、150x测序深度、100x测序深度或50x测序深度进行准确定相。该相位信息可以延伸至更长的范围,例如,超过约200kbp、约300kbp、约400kbp、约500kbp、约600kbp、约700kbp、约800kbp、约900kbp、约1Mbp、约2Mbp、约3Mbp、约4Mbp、约5Mbp或约10Mbp。在一些实施方案中,可以使用少于约2.5亿个读取或读取对(例如,通过使用Illumina HiSeq数据的仅1个通道)以超过99%的准确度对人类样品中超过90%的杂合SNP进行定相。在其他情况下,可以使用少于约2.5亿或约5亿个读取或读取对(例如,通过使用Illumina HiSeq数据的仅1或2个通道)以超过约70%、80%、90%、95%、96%、97%、98%、99%、99.9%、99.99%或99.999%的准确度对人类样品中超过约40%、50%、60%、70%、80%、90%、95%或99%的杂合SNP进行定相。例如,可以使用少于约2.5亿或约5亿个读取以超过约95%或99%的准确度对人类样品中超过约95%或99%的杂合SNP进行定相。在进一步的情况下,可以通过将读取长度增加至约200bp、250bp、300bp、350bp、400bp、450bp、500bp、600bp、800bp、1000bp、1500bp、2kbp、3kbp、4kbp、5kbp、10kbp、20kbp、50kbp或100kbp来捕获附加的变体。
在本公开内容的其他实施方案中,可以使用来自XLRP文库的数据确认长范围读取对的定相能力。这些结果的准确性与先前可用的最佳技术相当,但进一步延伸至更长的距离。当前用于特定测序方法的样品制备方案可鉴定位于目标位点读取长度(例如,150bp)内的变体以进行定相。在一个示例中,从为NA12878(组装的基准样品)构建的XLRP文库中,对存在的1,703,909个杂合SNP中的44%进行定向,准确度超过99%。在一些情况下,通过明智地选择酶或消化条件,可将该比例扩展到几乎所有可变位点。
单倍型定相可以包括对人类白细胞抗原(HLA)区域(例如,I类HLA-A、B和C;II类HLA-DRB1/3/4/5、HLA-DQA1、HLA-DQB1、HLA-DPA1、HLA-DPB1)进行定相。基因组的HLA区域具有密集的多态性,并且可能难以用标准测序方法进行测序或定相。本公开内容的技术可以提供基因组的HLA区域的改进的测序和定相准确度。使用本公开内容的技术,可以将基因组的HLA区域作为定相较大区域(例如,染色体臂、染色体、全基因组)的一部分或者对其本身(例如,通过诸如杂交捕获等靶向富集)进行定相。在一个示例中,以大约300x的深度对HLA区域本身进行定相。这些技术可以提供优于传统HLA分析方法(诸如长范围PCR)的优势;例如,长范围PCR可能涉及复杂的方案和许多单独的反应。如本文进一步所讨论的,可以对样品进行多重测序以进行测序分析,例如通过在桥寡核苷酸或其他地方包括样品鉴定条形码,并基于条形码对序列信息进行多重测序解析。在一个示例中,对多个样品进行邻近连接,使用样品鉴定条码进行条码化(例如,在桥寡核苷酸中),靶向HLA区域(例如,通过杂交捕获),并进行多重测序,允许对多个样品的HLA区域进行定相。在一些情况下,在没有填充的情况下对HLA区域进行定相。
单倍型定相可以包括对杀伤细胞免疫球蛋白样受体(KIR)区域进行定相。由于转座子介导的重组,基因组的KIR区域具有高度同源性和结构动态性,并且可能难以用标准测序方法进行测序或定相。本公开内容的技术可以提供基因组的KIR区域的改进的测序和定相准确度。使用本公开内容的技术,可以将基因组的KIR区域作为定相较大区域(例如,染色体臂、染色体、全基因组)的一部分或者对其本身(例如,通过诸如杂交捕获等靶向富集)进行定相。这些技术可以提供优于传统HLA分析方法(诸如长范围PCR)的优势;例如,长范围PCR可能涉及复杂的方案和许多单独的反应。如本文进一步所讨论的,可以对样品进行多重测序以进行测序分析,例如通过在桥寡核苷酸或其他地方包括样品鉴定条形码,并基于条形码对序列信息进行多重测序解析。在一个示例中,对多个样品进行邻近连接,使用样品鉴定条码进行条码化(例如,在桥寡核苷酸中),靶向KIR区域(例如,通过杂交捕获),并进行多重测序,允许对多个样品的KIR区域进行定相。可以对至少约8、9、10、11、12、13、14、15、16、17或更多个基因和/或假基因进行定相。在一些情况下,在没有填充的情况下对KIR区域进行定相。
宏基因组学分析
在一些实施方案中,本文所述的组合物和方法允许研究宏基因组,例如在人类肠道中发现的宏基因组。因此,可以研究栖息在给定生态环境中的一些或所有生物的部分或全部基因组序列。示例包括对所有肠道微生物、皮肤某些区域发现的微生物以及生活在有毒废物场所的微生物进行随机测序。可以使用本文所述的组合物和方法来确定这些环境中微生物群体的组成以及由它们各自的基因组编码的相关生物化学的方面。本文所述的方法可以实现来自复杂生物环境的宏基因组研究,例如,包含超过2、3、4、5、6、7、8、9、10、12、15、20、25、30、40、50、60、70、80、90、100、125、150、175、200、250、300、400、500、600、700、800、900、1000、5000、10000或更多个生物体和/或生物体变体的那些环境。
可以使用本文所述的方法和系统实现癌症基因组测序所需的高准确度。当对癌症基因组进行测序时,不准确的参考基因组可能带来碱基判定挑战。异质样品和小的起始材料,例如通过活检获得的样品引入了附加的挑战。此外,大规模的结构变体和/或杂合性丢失的检测对于癌症基因组测序,以及区分体细胞变体和碱基判定错误的能力来说往往至关重要。
改进的测序准确度
本文所述的系统和方法可由含有2、3、4、5、6、7、8、9、10、12、15、20个或更多个不同基因组的复杂样品生成准确的长序列。可以对正常、良性和/或肿瘤来源的混合样品进行分析(任选地不需要正常对照)。在一些实施方案中,利用仅100ng或甚至仅数百个基因组当量的起始样品生成准确的长序列。本文描述的系统和方法可允许检测大规模结构变体和重排,可以在跨越约1kbp、约2kbp、约5kbp、约10kbp、约20kbp、约50kbp、约100kbp、约200kbp、约500kbp、约1Mbp、约2Mbp、约5Mbp、约10Mbp、约20Mbp、约50Mbp或约100Mbp或更多的核苷酸的长序列上获得定相的变体判定。例如,可以在跨越约1Mbp或约2Mbp的长序列上获得相位变体判定。
可将使用本文所述的方法和系统确定的单元型分配给计算资源,例如经由网络的计算资源,如云系统。如果需要的话,可以使用储存在计算资源中的有关信息来校正短变体判定。可以基于来自短变体判定的复合信息和储存在计算资源中的信息来检测结构变体。基因组的有问题部分,如片段重复、有结构变异倾向的区域、高度变异的医学上有关的MHC区域、着丝粒和端粒区域以及其他异染色质区域(包括但不限于具有重复区域、低序列准确度、高变异率、ALU重复、片段重复或本领域已知的任何其他有关的有问题部分的那些异染色质区域),可进行重新装配以提高准确度。
可将样品类型分配给本地或网络化的计算资源(诸如云)中的序列信息。在信息的来源已知的情况下,例如,当信息的来源来自癌症或正常组织时,可将来源以样品类型的一部分的形式分配给样品。其他样品类型实例通常包括但不限于组织类型、样品收集方法、感染的存在、感染的类型、处理方法、样品的大小等。在可获得完全或部分比较基因组序列,如正常基因组与癌症基因组的比较的情况下,可以确定样品数据与比较基因组序列之间的差异并任选地输出该差异。
临床应用
本公开内容的方法可用于分析感兴趣的选择性基因组区域以及可与感兴趣的选择性区域相互作用的基因组区域的遗传信息。本文公开的扩增方法可用于本领域已知的用于遗传分析的装置、试剂盒和方法,诸如但不限于在美国专利号6,449,562、6,287,766、7,361,468、7,414,117、6,225,109和6,110,709中发现的装置、试剂盒和方法。在一些情况下,本公开内容的扩增方法可用于扩增用于DNA杂交研究的靶核酸以确定多态性的存在或不存在。多态性或等位基因可能与诸如遗传病的疾病或病况相关。在其他情况下,多态性可能与对疾病或病况的易感性相关,例如,与成瘾、退行性和年龄相关病症、癌症等相关的多态性。在其他情况下,多态性可能与有益的性状相关,诸如增加的冠状动脉健康,或对诸如HIV或疟疾等疾病的抵抗力,或对诸如骨质疏松症、阿尔茨海默氏症或痴呆症等退行性疾病的抵抗力。
本公开内容的组合物和方法可用于诊断、预后、治疗、患者分层、药物开发、治疗选择和筛选目的。本公开内容提供的优点是可以使用本公开内容的方法一次从单个生物分子样品中分析许多不同的目标分子。例如,这允许对一个样品进行多项诊断测试。
本公开内容的组合物和方法可用于基因组学。本文描述的方法可以快速提供答案,这对于本应用来说是非常理想的。本文所述的方法和组合物可用于寻找可用于诊断或预后以及作为健康和疾病指示物的生物标志物的过程。本文所述的方法和组合物可用于筛选药物,例如药物开发、治疗选择、治疗功效的确定和/或鉴定药物开发的靶标。在涉及药物的筛选试验中测试基因表达的能力非常重要,因为蛋白质是体内的最终基因产物。在一些实施方案中,本文所述的方法和组合物将同时测量蛋白质和基因表达,这将提供关于所进行的特定筛选的最多信息。
本公开内容的组合物和方法可用于基因表达分析。本文所述的方法区分核苷酸序列。靶核苷酸序列之间的差异可以是例如单个核酸碱基差异、核酸缺失、核酸插入或重排。还可以检测涉及超过一个碱基的这样的序列差异。本公开内容的过程能够检测传染病、遗传病和癌症。它还可用于环境监测、法医学和食品科学。可以对核酸执行的遗传分析的示例包括例如SNP检测、STR检测、RNA表达分析、启动子甲基化、基因表达、病毒检测、病毒亚型分类和耐药性。
本方法可用于分析获自或衍生自患者的生物分子样品,以便确定样品中是否存在患病细胞类型、疾病的阶段、患者的预后、患者对特定治疗的反应能力或患者的最佳治疗。本方法还可用于鉴定特定疾病的生物标志物。
在一些实施方案中,本文所述的方法用于诊断病况。如本文所用,病况的术语“诊断”可包括预测或诊断病况、确定病况的易感性、监测病况的治疗、诊断疾病的治疗反应或病况的预后、病况进展或对病况的特定治疗的反应。例如,可以根据本文所述的任何方法分析血液样品以确定样品中疾病或恶性细胞类型的标志物的存在和/或数量,从而诊断疾病或癌症或对疾病或癌症进行分期。
在一些实施方案中,本文所述的方法和组合物用于病况的诊断和预后。
许多免疫学、增殖性和恶性疾病和病症特别适合本文所述的方法。免疫学疾病和病症包括过敏性疾病和病症、免疫功能紊乱以及自身免疫疾病和病症。过敏性疾病和病症包括但不限于过敏性鼻炎、过敏性结膜炎、过敏性哮喘、特应性湿疹、特应性皮炎和食物过敏。免疫缺陷包括但不限于严重联合免疫缺陷(SCID)、嗜酸性粒细胞增多综合征、慢性肉芽肿病、白细胞粘附缺陷I和II、高IgE综合征、先天性白细胞颗粒异常综合征(ChediakHigashi)、中性粒细胞增多症、中性粒细胞减少症、发育不全、无丙种球蛋白血症、高IgM综合征、DiGeorge/腭心面综合征和干扰素γ-TH1通路缺陷。自身免疫和免疫失调病症包括但不限于类风湿性关节炎、糖尿病、系统性红斑狼疮、格雷夫斯病、格雷夫斯眼病、克罗恩病、多发性硬化症、银屑病、系统性硬化症、甲状腺肿和淋巴瘤(桥本甲状腺炎、淋巴结样甲状腺肿)、斑秃、自身免疫性心肌炎、硬化性苔藓、自身免疫性葡萄膜炎、阿狄森病、萎缩性胃炎、重症肌无力、特发性血小板减少性紫癜、溶血性贫血、原发性胆汁性肝硬化、韦格纳肉芽肿、结节性多动脉炎和炎症性肠病、同种异体移植排斥和对感染性微生物或环境抗原的过敏反应造成的组织破坏。
可以通过本公开的方法评估的增殖性疾病和病症包括但不限于新生儿血管瘤病;继发性进行性多发性硬化;慢性进行性骨髓退行性疾病;神经纤维瘤病;神经节瘤病;瘢痕疙瘩形成;佩吉特骨病;纤维囊性疾病(例如,乳房或子宫的纤维囊性疾病);结节病;Peyronie和Dupuytren纤维化、肝硬化、动脉粥样硬化和血管再狭窄。
可以通过本公开内容的方法评估的恶性疾病和病症包括血液恶性肿瘤和实体瘤。
当样品是血液样品时,血液恶性肿瘤尤其适合本公开内容的方法,因为这样的恶性肿瘤涉及血源性细胞的变化。这样的恶性肿瘤包括非霍奇金淋巴瘤、霍奇金淋巴瘤、非B细胞淋巴瘤和其他淋巴瘤、急性或慢性白血病、红细胞增多症、血小板增多症、多发性骨髓瘤、骨髓增生异常病症、骨髓增生性病症、骨髓纤维化、非典型免疫淋巴增生和浆细胞病症。
可以通过本公开的方法评估的浆细胞病症包括多发性骨髓瘤、淀粉样变性和瓦尔登斯特伦巨球蛋白血症。
实体瘤的示例包括但不限于结肠癌、乳腺癌、肺癌、前列腺癌、脑肿瘤、中枢神经系统肿瘤、膀胱肿瘤、黑色素瘤、肝癌、骨肉瘤和其他骨癌、睾丸癌和卵巢癌、头颈部肿瘤和宫颈肿瘤。
也可以通过本公开的过程检测遗传病。这可以通过对染色体和遗传畸变或遗传病进行产前或产后筛查来进行。可检测的遗传病的示例包括:21羟化酶缺乏症、囊性纤维化、脆性X综合征、特纳综合征、杜氏肌营养不良症、唐氏综合征或其他三体性综合征、心脏病、单基因疾病、HLA分型、苯丙酮尿症、镰状细胞性贫血、泰-萨克斯病、地中海贫血、克兰费尔特综合征、亨廷顿病、自身免疫性疾病、脂质沉积症、肥胖缺陷、血友病、先天性代谢障碍和糖尿病。
本公开内容的方法可用于检测与遗传疾病相关的遗传或基因组特征,包括但不限于基因融合、结构变异、重排和拓扑学变化,诸如TAD边界缺失或改变、TAD亚型变化、区室变化、染色质类型变化以及诸如甲基化状态(例如,CpG甲基化、H3K4me3、H3K27me3或其他组蛋白甲基化)等修饰状态变化。
通过分别测定样品中细菌或病毒标志物的存在和/或数量,本文所述的方法可用于诊断病原体感染,例如由细胞内细菌和病毒引起的感染。
通过本公开内容的过程可以检测多种传染病。传染性疾病可由细菌、病毒、寄生虫和真菌传染原引起。还可以使用本公开内容来确定各种传染原对药物的抗性。
可通过本公开内容检测的细菌传染源包括大肠杆菌、沙门氏菌、志贺氏菌、克雷伯氏菌、假单胞菌、李斯特菌、结核分枝杆菌、鸟胞内分枝杆菌、耶尔森氏菌、弗朗西斯氏菌、巴氏杆菌、布鲁氏菌、梭状芽孢杆菌、百日咳博德特氏菌、拟杆菌、金黄色葡萄球菌、肺炎链球菌、B-溶血性链球菌、棒状杆菌、军团菌、支原体、脲原体、衣原体、淋病奈瑟菌、脑膜炎奈瑟菌、流感嗜血杆菌、粪肠球菌、普通变形杆菌、奇异变形杆菌、幽门螺杆菌、梅毒螺旋体、伯氏疏螺旋体、回归热螺旋体、立克次体病原体、诺卡氏菌和放线菌。
可通过本公开内容检测的真菌传染源包括新型隐球菌、皮炎芽生菌、荚膜组织胞浆菌、粗球孢子菌、巴西副球孢子菌、白色念珠菌、烟曲霉、藻菌纲(根霉属)、申克孢子丝菌、着色真菌病和马杜拉真菌病。
可通过本公开内容检测的病毒传染原包括人类免疫缺陷病毒、人类T细胞淋巴细胞病毒、肝炎病毒(例如,乙型肝炎病毒和丙型肝炎病毒)、Epstein-Barr病毒、巨细胞病毒、人乳头瘤病毒、正粘病毒、副粘病毒、腺病毒、冠状病毒、弹状病毒、脊髓灰质炎病毒、披膜病毒、布尼亚病毒、沙粒病毒、风疹病毒和呼肠孤病毒。
可通过本公开内容检测的寄生原包括恶性疟原虫、三日疟原虫、间日疟原虫、卵形疟原虫、盘尾丝虫、利什曼原虫、锥虫属、血吸虫属、溶组织内阿米巴、隐孢子虫、贾第虫属、毛滴虫属、结肠小袋纤毛虫、班氏吴策线虫、弓形虫属、蠕形住肠线虫、似蚓蛔线虫、毛首鞭形线虫、麦地那龙线虫、吸虫、阔节裂头绦虫、带绦虫属、卡氏肺孢子虫和美洲钩虫。
本公开内容也可用于检测传染原的耐药性。例如,耐万古霉素粪肠球菌、耐甲氧西林金黄色葡萄球菌、耐青霉素肺炎链球菌、耐多药结核分枝杆菌和耐AZT人类免疫缺陷病毒均可使用本公开内容鉴定。
因此,使用本公开内容的组合物和方法检测的靶分子可以是患者标志物(诸如癌症标志物)或外源感染的标志物(诸如细菌或病毒标志物)。
本公开内容的组合物和方法可用于鉴定和/或量化其丰度指示生物学状态或疾病状况(例如,由于疾病状态而上调或下调的血液标志物)的靶分子。
在一些实施方案中,本公开内容的方法和组合物可用于细胞因子表达。本文所述方法的低灵敏度将有助于细胞因子(例如,作为病况的生物标志物)的早期检测、疾病(诸如癌症)的诊断或预后以及亚临床病况的鉴定。
本公开内容的方法可用于检测与癌症相关的遗传或基因组特征,包括但不限于基因融合、结构变异、重排和拓扑学变化,诸如TAD边界缺失或改变、TAD亚型变化、区室变化、染色质类型变化以及诸如甲基化状态(例如,CpG甲基化、H3K4me3、H3K27me3或其他组蛋白甲基化)等修饰状态变化。
样品
衍生目标多核苷酸的不同样品可包括来自相同个体的多个样品、来自不同个体的样品或其组合。在一些实施方案中,样品包含来自单个个体的多个多核苷酸。在一些实施方案中,样品包含来自两个或更多个个体的多个多核苷酸。个体是可以衍生靶多核苷酸的任何生物体或其部分,其非限制性示例包括植物、动物、真菌、原生生物、无核原虫类、病毒、线粒体和叶绿体。样品多核苷酸可以从受试者中分离,诸如细胞样品、组织样品或衍生自其的器官样品,包括例如培养的细胞系、活检、血液样品或含有细胞的流体样品。受试者可以是动物,包括但不限于牛、猪、小鼠、大鼠、鸡、猫、狗等动物,并且通常是哺乳动物,诸如人类。样品也可以人工获得,诸如通过化学合成。在一些实施方案中,样品包含DNA。在一些实施方案中,样品包含基因组DNA。在一些实施方案中,样品包含线粒体DNA、叶绿体DNA、质粒DNA、细菌人工染色体、酵母人工染色体、寡核苷酸标签或其组合。在一些实施方案中,样品包含通过使用引物和DNA聚合酶的任何合适组合的引物延伸反应生成的DNA,包括但不限于聚合酶链反应(PCR)、逆转录及其组合。在引物延伸反应的模板是RNA的情况下,逆转录的产物被称为互补DNA(cDNA)。用于引物延伸反应的引物可包含对一种或更多种靶标特异的序列、随机序列、部分随机序列及其组合。适用于引物延伸反应的反应条件是本领域已知的。一般而言,样品多核苷酸包括样品中存在的任何多核苷酸,其可以包括或不包括靶多核苷酸。
在一些实施方案中,核酸模板分子(例如,DNA或RNA)是从含有多种其他成分(诸如蛋白质、脂质和非模板核酸)的生物样品中分离出来的。核酸模板分子可以从任何细胞材料中获得,从动物、植物、细菌、真菌或任何其他细胞生物中获得。用于本公开内容的生物样品包括病毒颗粒或制剂。核酸模板分子可以直接从生物体获得或者从获自生物体的生物样品获得,例如,从血液、尿液、脑脊液、精液、唾液、痰、粪便和组织获得。任何组织或体液样品均可用作本公开内容中使用的核酸的来源。核酸模板分子也可以从培养的细胞(诸如原代细胞培养物或细胞系)中分离。从中获得模板核酸的细胞或组织可以被病毒或其他细胞内病原体感染。样品也可以是从生物样品、cDNA文库、病毒或基因组DNA中提取的总RNA。样品也可以是来自非细胞来源的分离的DNA,例如来自冷冻机的扩增/分离的DNA。
用于提取和纯化核酸的方法是本领域公知的。例如,核酸可以通过用苯酚、苯酚/氯仿/异戊醇或类似制剂(包括TRIzol和TriReagent)进行有机提取来纯化。提取技术的其他非限制性示例包括:(1)有机萃取,然后乙醇沉淀,例如,使用使用苯酚/氯仿有机试剂(Ausubel等人,1993),使用或不使用自动核酸提取仪,例如,可获自Applied Biosystems(加利福尼亚州福斯特城)的Model 341 DNA提取仪;(2)固定相吸附法(美国专利号5,234,809;Walsh等人,1991);以及(3)盐诱导的核酸沉淀方法(Miller等人,(1988)),这种沉淀方法通常被称为“盐析”方法。核酸分离和/或纯化的另一示例包括使用核酸可以特异性或非特异性结合的磁性颗粒,然后使用磁体分离珠,并从珠中洗涤和洗脱核酸(参见例如美国专利号5,705,628)。在一些实施方案中,可在上述分离方法之前进行酶消化步骤以帮助从样品中消除不需要的蛋白质,例如用蛋白酶K或其他类似蛋白酶消化(参见例如美国专利号7,001,724)。如果需要,可以向裂解缓冲液中添加RNase抑制剂。对于某些细胞或样品类型,可能需要在方案中添加蛋白质变性/消化步骤。纯化方法可以针对分离DNA、RNA或两者。当在提取程序期间或之后一起分离DNA和RNA时,可以采用进一步的步骤来将一者或两者与另一者分开纯化。也可以生成提取核酸的亚级分,例如通过大小、序列或其他物理或化学特征进行纯化。除了初始的核酸分离步骤之外,核酸的纯化可以在本公开内容的方法中的任何步骤之后进行,诸如用于去除过量或不需要的试剂、反应物或产物。
核酸模板分子可以如于2003年10月9日公布的美国专利申请公开号US2002/0190663 A1中所述获得。通常,可以通过多种技术从生物样品中提取核酸,诸如由Maniatis等人,Molecular Cloning:A Laboratory Manual,Cold Spring Harbor,N.Y.,pp.280-281(1982)描述的技术。在一些情况下,可以首先从生物样品中提取核酸,然后在体外进行交联。在一些情况下,可以从核酸中进一步去除天然结合蛋白(例如,组蛋白)。
在其他实施方案中,本公开内容可以容易地应用于任何高分子量双链DNA,包括例如从组织、细胞培养物、体液、动物组织、植物、细菌、真菌、病毒等中分离的DNA。
在一些实施方案中,多个独立样品中的每个可以独立地包含至少约1ng、2ng,5ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg、5μg、10μg、20μg、50μg、100μg、200μg、500μg或1000μg或更多核酸物质。在一些实施方案中,多个独立样品中的每个可以独立地包含小于约1ng、2ng,5ng、10ng、20ng、30ng、40ng、50ng、75ng、100ng、150ng、200ng、250ng、300ng、400ng、500ng、1μg、1.5μg、2μg、5μg、10μg、20μg、50μg、100μg、200μg、500μg或1000μg或更多核酸。
在一些实施方案中,使用诸如可获自Epicentre Biotechnologies(Madison,WI)的商业试剂盒进行末端修复以产生钝性末端5'磷酸化核酸末端。
衔接子
衔接子寡核苷酸包括具有可与靶多核苷酸接合的序列(其至少一部分是已知的)的任何寡核苷酸。衔接子寡核苷酸可以包括DNA、RNA、核苷酸类似物、非常规核苷酸、标记核苷酸、修饰的核苷酸或其组合。衔接子寡核苷酸可以是单链的、双链的或部分双链的。一般而言,部分双链的衔接子包含一个或更多个单链区和一个或更多个双链区。双链衔接子可以包含彼此杂交的两个单独的寡核苷酸(也称为“寡核苷酸双链体”),杂交可能留下一个或更多个钝性末端、一个或更多个3'突出端、一个或更多个5'突出端、由错配和/或未配对核苷酸引起的一个或更多个凸起,或这些的任何组合。在一些实施方案中,单链衔接子包含两个或更多个能够相互杂交的序列。当两个这样的可杂交序列包含在单链衔接子中时,杂交产生发夹结构(发夹衔接子)。当衔接子的两个杂交区域被一个非杂交区域彼此隔开时,会产生“气泡”结构。包含气泡结构的衔接子可以由包含内部杂交的单个衔接子寡核苷酸组成,或者可以包含彼此杂交的两个或更多个衔接子寡核苷酸。内部序列杂交(诸如衔接子中两个可杂交序列之间的杂交)可以在单链衔接子寡核苷酸中产生双链结构。不同种类的衔接子可以组合使用,诸如发夹衔接子和双链衔接子,或不同序列的衔接子。发夹衔接子中的可杂交序列可以包括或者可以不包括寡核苷酸的一个或两个末端。当可杂交序列中不包含任何末端时,两个末端都是“游离的”或“突出的”。当衔接子中只有一个末端可与另一序列杂交时,另一末端形成突出端,诸如3'突出端或5'突出端。当5'-末端核苷酸和3'-末端核苷酸都包含在可杂交序列中,使得5'-末端核苷酸和3'-末端核苷酸互补并相互杂交时,该末端称为“钝性”。可以将不同的衔接子在顺序反应中或同时与靶多核苷酸接合。例如,可以将第一和第二衔接子添加到相同的反应中。可以在与目标多核苷酸结合之前对衔接子进行操作。例如,可以添加或去除末端磷酸盐。
衔接子可以包含多个序列元件中的一个或更多个,包括但不限于一个或更多个扩增引物退火序列或其互补序列、一个或更多个测序引物退火序列或其互补序列、一个或更多个条形码序列、在多个不同衔接子或不同衔接子子集之间共享的一个或更多个共有序列、一个或更多个限制酶鉴定位点、与一个或更多个靶多核苷酸突出端互补的一个或更多个突出端、一个或更多个探针结合位点(例如,用于附接至测序平台,诸如用于大规模并行测序的流动池,诸如由Illumina,Inc.开发的)、一个或更多个随机或近随机序列(例如,在一个或更多个位置从一组两个或更多个不同核苷酸中随机选择的一个或更多个核苷酸,其中在一个或更多个位置选择的不同核苷酸中的每一个代表在包含随机序列的衔接子池中),及其组合。两个或更多个序列元件可以彼此不相邻(例如,被一个或更多个核苷酸隔开)、彼此相邻、部分重叠或完全重叠。例如,扩增引物退火序列也可以用作测序引物退火序列。序列元件可以位于或靠近3'末端,位于或靠近5'末端,或者在衔接子寡核苷酸的内部。当衔接子寡核苷酸能够形成二级结构(诸如发夹结构)时,序列元件可以部分或完全位于二级结构外,部分或完全位于二级结构内,或在参与二级结构的序列之间。例如,当衔接子寡核苷酸包含发夹结构时,序列元件可以部分或完全位于可杂交序列(“茎”)内部或外部,包括在可杂交序列之间的序列(“环”)中。在一些实施方案中,具有不同条形码序列的多个第一衔接子寡核苷酸中的第一衔接子寡核苷酸包含在多个中的所有第一衔接子寡核苷酸中共有的序列元件。在一些实施方案中,所有第二衔接子寡核苷酸包含在所有第二衔接子寡核苷酸中共有的序列元件,该序列元件不同于由第一衔接子寡核苷酸共有的共有序列元件。序列元件的差异可以是使得不同衔接子的至少一部分不完全对齐的任何差异,例如,由于序列长度的变化,一个或更多个核苷酸的缺失或插入,或者一个或更多个核苷酸位置处核苷酸组成的变化(诸如碱基变化或碱基修饰)。在一些实施方案中,衔接子寡核苷酸包含与一个或更多个靶多核苷酸互补的5'突出端、3'突出端或两者。互补突出端的长度可以为一个或更多个核苷酸,包括但不限于长度为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15或更多个核苷酸。例如,互补突出端的长度可以为约1、2、3、4、5或6个核苷酸。互补突出端可以包含固定序列。互补突出端可以包含一个或更多个核苷酸的随机序列,使得一个或更多个核苷酸在一个或更多个位置从一组两个或更多个不同核苷酸中随机选择,其中在一个或更多个位置选择的不同核苷酸中的每一个表示在具有包含随机序列的互补突出端的衔接子池中。在一些实施方案中,衔接子突出端由腺嘌呤或胸腺嘧啶组成。
衔接子寡核苷酸可以具有任何合适的长度,至少足以容纳它们包含的一个或更多个序列元件。在一些实施方案中,衔接子的长度为约,小于约,或大于约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200或更多个核苷酸。在一些示例中,衔接子的长度可以为约10至约50个核苷酸。在进一步的示例中,衔接子的长度可以为约20至约40个核苷酸。
如本文所用,术语“条形码”是指允许鉴定与条形码相关的多核苷酸的一些特征的已知核酸序列。在一些实施方案中,待鉴定的多核苷酸的特征是多核苷酸的来源样品。在一些实施方案中,条形码的长度可以为至少3、4、5、6、7、8、9、10、11、12、13、14、15或更多个核苷酸。例如,条形码的长度可以为至少10、11、12、13、14或15个核苷酸。在一些实施方案中,条形码的长度可以小于10、9、8、7、6、5或4个核苷酸。例如,条形码的长度可以小于10个核苷酸。在一些实施方案中,与一些多核苷酸相关的条形码的长度不同于与其他多核苷酸相关的条形码的长度。一般而言,条形码具有足够的长度并包含足够不同的序列,以允许基于条形码来鉴定与它们相关的样品。在一些实施方案中,可以在条形码序列中的一个或更多个核苷酸发生突变、插入或缺失(诸如1、2、3、4、5、6、7、8、9、10或更多个核苷酸的突变、插入或缺失)后准确鉴定条形码及其相关的样品来源。在一些示例中,1、2或3个核苷酸可以突变、插入和/或缺失。在一些实施方案中,多个条形码中的每个条形码与多个条形码中的所有其他条形码在至少两个核苷酸位置(诸如至少2、3、4、5、6、7、8、9、10或更多个位置)不同。在一些示例中,每个条形码与所有其他条形码在至少2、3、4或5个位置不同。在一些实施方案中,第一位点和第二位点包括多个条形码序列中的至少一个。在一些实施方案中,第二位点的条形码独立于第一衔接子寡核苷酸的条形码选择。在一些实施方案中,将具有条形码的第一位点和第二位点配对,使得该序列对包含相同或不同的一个或更多个条形码。在一些实施方案中,本公开内容的方法还包括基于与目标多核苷酸接合的条形码序列来鉴定衍生目标多核苷酸的样品。一般而言,条形码可以包含核酸序列,当与目标多核苷酸接合时,该核酸序列用作衍生目标多核苷酸的样品的标识符。
可以将衔接子寡核苷酸与免疫球蛋白或免疫球蛋白结合蛋白或其片段偶联、链接或拴系。例如,在用DNase(诸如MNase)对交联样品进行原位基因组消化后,可以将一种或更多种抗体添加到样品中以结合消化的染色质,诸如在甲基化位点或转录因子结合位点。接下来,可以将与免疫球蛋白结合蛋白或其片段(诸如蛋白质A、蛋白质G、蛋白质A/G或蛋白质L)偶联、链接或拴系的生物素化衔接子寡核苷酸添加到样品中,以将衔接子靶向染色质中的一个或更多个特定位点。然后可以用连接酶处理样品以实现邻近连接。此外,可以使用链霉亲和素分离与衔接子连接的DNA。然后可以在使用PCR和测序扩增样品之前逆转交联。替代地,衔接子链接的寡核苷酸可以包含能够使用点击化学链接到纯化试剂的修饰核苷酸。
桥接寡核苷酸
本文提供的方法可以包括将多个片段中的第一片段和第二片段在连接序列处附接。在一些情况下,附接可以包括使用生物素标签化的核苷酸填充粘性末端并连接钝性末端。在某些情况下,附接可以包括将至少所述第一片段和所述第二片段与桥接寡核苷酸接触。图15图示了使用桥寡核苷酸连接第一片段和第二片段的示例性工作流程,其中核酸被原位消化以形成第一片段和第二片段。在将桥寡核苷酸连接到第一片段和第二片段中的每一个之前,对末端进行精修和多聚腺苷酸化。然后将第一片段和第二片段连接以产生包含桥寡核苷酸的连接序列。在各种情况下,附接可以包括将至少所述第一片段和所述第二片段与条形码接触。
在一些实施方案中,如本文所提供的桥接寡核苷酸的长度可以为至少约5个核苷酸至约50个核苷酸。在某些实施方案中,桥接寡核苷酸的长度可以为约15个核苷酸至约18个核苷酸。在各种实施方案中,桥接寡核苷酸的长度可以为至少5、至少6、至少7、至少8、至少9、至少10、至少11、至少12、至少13、至少14、至少15、至少16、至少17、至少18、至少19、至少20、至少25、至少30、至少35、至少40、至少45、至少50或更多个核苷酸。在一个示例中,桥接寡核苷酸的长度为至少10个核苷酸。在另一示例中,桥接寡核苷酸的长度为12个核苷酸或约12个核苷酸。在一些情况下,至少10bp的桥寡核苷酸可以增加稳定性并减少不利的邻近连接事件,诸如短插入、染色体间连接、非特异性链接和桥自连接。
在一些情况下,桥接寡核苷酸可以包含条形码。在某些实施方案中,桥接寡核苷酸可以包含多个条形码(例如,两个或更多个条形码)。在各种实施方案中,桥接寡核苷酸可以包括偶联或连接在一起的多个桥接寡核苷酸。在一些实施方案中,桥接寡核苷酸可以与诸如蛋白质A、蛋白质G、蛋白质A/G和蛋白质L的免疫球蛋白结合蛋白或其片段偶联或链接。在一些情况下,偶联的桥接寡核苷酸可被递送至样品核酸中结合抗体的位置。
可以采用分裂和汇集方法来生产具有独特条形码的桥接寡核苷酸。可以将样品群体分裂成多个组,可以将桥接寡核苷酸附接至样品,使得桥接寡核苷酸条码在组间不同但在一个组内相同,可以将样品的组再次汇集在一起,并且可以将该过程重复多次。例如,可以将多核苷酸的群体分成组A和组B。将第一桥接寡核苷酸附接至组A中的多核苷酸并且将第二桥接寡核苷酸附接至组B中的多核苷酸。因此,组A内的桥接寡核苷酸条形码相同,但是组A和组B之间的桥接寡核苷酸不同。重复该过程最终会导致群体中的每个样品都具有一系列独特的桥接寡核苷酸条形码,从而允许进行单个样品(例如,单个细胞、单个细胞核、单个染色体)分析。在一个说明性示例中,将附着在珠固体支持物上的交联消化核样品分成8个试管,每个试管含有第一衔接子组(第一次迭代)的8个独特成员中的一个,第一衔接子组包含待连接的双链DNA(dsDNA)衔接子。8个衔接子中的每一个都可以具有用于与细胞核中交联染色质聚集体的核酸末端连接的相同5'突出端序列,但在其他方面具有独特的dsDNA序列。在将第一衔接子组连接之后,可以将细胞核汇集回一起并洗涤以去除连接反应组分。可以将分布、连接和汇集的方案再重复2次(2次迭代)。连接每个衔接子组的成员后,可以将交联染色质聚集体串联附接至多个条码上。在一些情况下,多个衔接子组(迭代)的多个成员的顺序连接导致条形码组合。可用的条码组合数取决于每次迭代的组数和所用条码寡核苷酸的总数。例如,每次包含8个成员的3次迭代可以具有83个可能的组合。在一些情况下,条形码组合是独特的。在一些情况下,条形码组合是多余的。可以通过增加或减少接收独特条码的组数和/或增加或减少迭代次数来调整条码组合的总数。当使用超过一个衔接子组时,可以使用分布、附接和汇集方案进行迭代衔接子附接。在一些情况下,可以将分布、附接和汇集的方案再重复至少3、4、5、6、7、8、9或10次。在一些情况下,最后一个衔接子组的成员包括随后例如在通过PCR扩增制备测序文库期间用于富集衔接子附接的DNA的序列。
重复该过程(分裂和汇集)最终会导致群体中的每个样品都具有一系列独特的桥接寡核苷酸条形码,从而允许进行单个样品(例如,单个细胞、单个细胞核和单个染色体)分析。图16和图17示出了使用分裂和汇集方法的示例性工作流程,其中核酸被原位消化,然后末端被精修和多聚腺苷酸化。分配单个细胞,并将条形码连接至每个细胞中存在的末端(例如,条形码bc1)。汇集细胞然后分离单个细胞,并将第二条形码连接至每个细胞中存在的末端(例如,条形码bc2)。再次汇集细胞并分离成单个细胞,然后连接桥接衔接子(例如,生物桥),其可以连接至另一DNA片段形成两个片段之间的连接序列,该连接序列具有鉴定连接序列来源细胞的条形码和衔接子的独特组合(例如,条形码bc1和bc2)。桥接衔接子可以包含一种或更多种亲和试剂,诸如生物素,用于随后的拉下或其他纯化。图18示出了由分离和汇集方法产生的条形码和桥的组合的示例。
在另一说明性示例中,可以将附着在珠固体支持物上的交联消化核样品分成八个试管,每个试管含有第一衔接子组(第一次迭代)的八个独特成员中的一个,第一衔接子组包含待连接的双链DNA(dsDNA)衔接子。八个衔接子中的每一个都可以具有用于与细胞核中交联染色质聚集体的核酸末端连接的相同5'突出端序列,但在其他方面具有独特的dsDNA序列。在将第一衔接子组连接之后,可以将细胞核汇集回一起并洗涤以去除连接反应组分。可以将分布、连接和汇集的方案再重复两次(两次迭代)。连接每个衔接子组的成员后,可以将交联染色质聚集体串联附接至多个条码上。
在一些情况下,多个衔接子组(迭代)的多个成员的顺序连接可以形成条形码组合。可用的条码组合数可以取决于每次迭代的组数和所用条码寡核苷酸的总数。例如,每次包含八个成员的三次迭代可以具有83个可能的组合。在一些情况下,条形码组合是独特的。在某些情况下,条形码组合是多余的。可以通过增加或减少接收独特条码的组数和/或增加或减少迭代次数来调整条码组合的总数。当使用超过一个衔接子组时,可以使用分布、附接和汇集方案进行迭代衔接子附接。在各种情况下,可以将分布、附接和汇集的方案再重复至少3,3、4、5、6、7、8、9、10或更多次。在一些情况下,最后一个衔接子组的成员可以包括随后例如在通过PCR扩增制备测序文库期间用于富集衔接子附接的DNA的序列。
在一些情况下,可以使用三寡核苷酸设计,允许使用分离-汇集策略,其中可以使用两个96孔板结合八种不同的生物素化寡核苷酸,从而允许对73,728种不同的分子进行不同的条形码化。在某些情况下,八个寡核苷酸的前两组不被生物素化,而八个寡核苷酸的第三组被生物素化。在各种情况下,每个条形码化的寡核苷酸都是定向的,使得每轮只能添加一个寡核苷酸。桥接寡核苷酸可以具有允许其与相应末端匹配的序列。
在某些情况下,条形码和衔接子可以具有较短的序列,以减少完全连接的桥占据的序列空间量。在各种情况下,桥可以占据30bp的序列空间。在一些情况下,桥可以占据54bp的序列空间,但是为独特分子标识符(UMI)提供附加位置。在一些情况下,UMI可以实现具有73,728种不同组合的单个细胞鉴定。在各种情况下,前两个寡核苷酸组未修饰,第三个寡核苷酸组经过生物素化。
桥接衔接子中的条形码序列可用于对样品进行多重测序。例如,可以在若干不同的样品上进行邻近连接,每个样品使用具有不同条形码序列的桥接寡核苷酸。然后可以汇集样品以进行多重测序分析,并且可以根据条形码序列将序列信息多重测序解析回单个样品。
核酸
在真核生物中,基因组DNA被包装在染色质中,在细胞核内形成染色体。染色质的基本结构单元是核小体,它由包裹在组蛋白八聚体上的146个碱基对(bp)的DNA组成。组蛋白八聚体由核心组蛋白H2A-H2B二聚体和H3-H4二聚体各两个拷贝组成。核小体以通常称为“串珠”的方式沿着DNA有规律地分布。
核心组蛋白和DNA组装成核小体是由伴侣蛋白和相关的组装因子介导的。几乎所有这些因子都是核心组蛋白结合蛋白。一些组蛋白伴侣,诸如核小体组装蛋白-1(NAP-1),表现出与组蛋白H3和H4结合的偏好。还观察到新合成的组蛋白在组装成染色质后被乙酰化,然后被脱乙酰化。因此,介导组蛋白乙酰化或去乙酰化的因素在染色质组装过程中起重要作用。
一般而言,已开发出两种体外方法用于重组或组装染色质。一种方法不依赖于ATP,而第二种方法依赖于ATP。用于重建染色质的不依赖于ATP的方法涉及DNA和核心组蛋白以及作为组蛋白伴侣的蛋白质(如NAP-1)或盐。这种方法产生的DNA上组蛋白的随机排列不能准确模拟细胞中的天然核心核小体颗粒。这些颗粒通常被称为单核小体,因为它们是不规则排序的、延伸的核小体阵列,并且使用的DNA序列通常不超过250bp(Kundu,T.K.等人.,Mol.Cell 6:551-561,200)。为了在更长的DNA序列上生成延伸的有序核小体阵列,可以通过依赖于ATP的过程组装染色质。
周期性核小体阵列的ATP依赖性组装,类似于天然染色质中所见的组装,需要DNA序列、核心组蛋白颗粒、伴侣蛋白和利用ATP的染色质组装因子。ACF(利用ATP的染色质组装和重塑因子)或RSF(重塑和间隔因子)是两个广泛研究的组装因子,用于在体外将核小体的延伸有序阵列生成到染色质中(Fyodorov,D.V.和Kadonaga,J.T.Method Enzymol.371:499-515,2003;Kundu,T.K.等人Mol.Cell6:551-561,2000)。
在特定的实施方案中,本公开内容的方法可以容易地应用于任何类型的片段化双链DNA,包括但不限于例如,从血浆、血清和/或尿液中分离的游离DNA;来自细胞和/或组织的凋亡DNA;和/或体外酶促片段化的DNA(例如,通过DNase I)。
可以将从生物样品中获得的核酸片段化以产生用于分析的合适片段。可以使用多种酶促方法将模板核酸片段化至所需长度。短暂暴露于DNase可以随机剪切DNA。可以通过短暂暴露于RNase、加热加镁或通过剪切将RNA片段化。可以将RNA转化为cDNA。如果使用片段化,则可以将RNA在片段化之前或之后转化为cDNA。核酸分子可以是单链、双链或具有单链区的双链(例如,茎和环结构)。
在一些实施方案中,可以对交联的DNA分子进行大小选择步骤。可以对低于或高于一定大小的交联DNA执行核酸大小选择。大小选择还可能受到交联频率和/或片段化方法的影响。在一些实施方案中,可以制备组合物,包括交联约145bp至约600bp、约100bp至约2500bp、约600至约2500bp、约350bp至约1000bp,或由这些值中的任何值限定的任何范围(例如,约100bp至约2500bp)的DNA分子。
在一些实施方案中,将样品多核苷酸片段化成一个或更多个特定大小范围的片段化DNA分子群体。在一些实施方案中,可以从至少约1、约2、约5、约10、约20、约50、约100、约200、约500、约1000、约2000、约5000、约10,000、约20,000、约50,000、约100,000、约200,000、约500,000、约1,000,000、约2,000,000、约5,000,000、约10,000,000或更多个起始DNA的基因组等效物生成片段。可以通过DNA酶处理完成片段化。在一些实施方案中,片段具有约10至约10,000、约20,000、约30,000、约40,000、约50,000、约60,000、约70,000、约80,000、约90,000、约100,000、约150,000、约200,000、约300,000、约400,000、约500,000、约600,000、约700,000、约800,000、约900,000、约1,000,000、约2,000,000、约5,000,000、约10,000,000或更多个核苷酸的平均长度。在一些实施方案中,片段具有约145bp至约600bp、约100bp至约2500bp、约600至约2500bp、约350bp至约1000bp,或由这些值中的任何值限定的任何范围(例如,约100bp至约2500bp)的平均长度。在一些实施方案中,片段具有小于约2500bp、小于约1200bp、小于约1000bp、小于约800bp、小于约600bp、小于约350bp或小于约200bp的平均长度。在其他实施方案中,片段具有大于约100bp、大于约350bp、大于约600bp、大于约800bp、大于约1000bp、大于约1200bp或大于约2000bp的平均长度。DNase的非限制性示例包括DNase I、DNase II、微球菌核酸酶、其变体及其组合。例如,在不存在Mg++且存在Mn++的情况下,用DNase I消化可以诱导DNA的随机双链断裂。片段化可以产生具有5’突出物、3’突出物、钝性末端或其组合的片段。在一些实施方案中,该方法包括通过标准方法(诸如柱纯化或从琼脂糖凝胶中分离)对片段进行大小选择的步骤。
靶向核酸酶
如本文所提供的片段化DNA可以通过消化产生或生成,诸如通过用多种核酸酶(例如,限制性核酸内切酶)或DNase(例如,MNase)进行原位消化。在一些情况下,酶可以组合使用以实现所需的消化或片段化。在各种情况下,可以使用一种或更多种抗体将核酸酶(或其结构域或片段)靶向某些基因组位点。例如,可以将交联的样品与结合DNA某些区域(诸如组蛋白结合位点、转录因子结合位点或甲基化DNA位点)的抗体接触。然后可以将与免疫球蛋白结合蛋白或其片段(诸如蛋白质A、蛋白质G、蛋白质A/G或蛋白质L)链接或融合的核酸酶添加到样品中,并且核酸酶可以仅在抗体结合的区域中消化DNA。这可以组合进行,例如,其中将第一抗体结合至DNA样品,然后将核酸酶靶向第一抗体,然后将第二抗体结合至DNA样品并将核酸酶靶向第二抗体等等,以实现所需的消化模式。
连接
在一些实施方案中,片段化DNA的5'和/或3'末端核苷酸序列在连接前没有被修饰。例如,通过留下可预测钝性末端的酶切割后,可以将钝性末端化的DNA片段连接至包含钝性末端的核酸,诸如衔接子、寡核苷酸或多核苷酸。在一些实施方案中,在接合至衔接子之前,对片段化DNA分子进行钝性末端精修(或“末端修复”)以产生具有钝性末端的DNA片段。可以通过用合适的酶(诸如具有3'至5'核酸外切酶活性和5'至3'聚合酶活性的DNA聚合酶,例如T4聚合酶)温育来完成钝性末端精修步骤。在一些实施方案中,末端修复后可以添加1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个核苷酸(诸如一种或更多种腺嘌呤、一种或更多种胸腺嘧啶、一种或更多种鸟嘌呤或一种或更多种胞嘧啶)以产生突出端。例如,末端修复后可以添加1、2、3、4、5或6个核苷酸。具有突出端的DNA片段可以诸如在连接反应中接合至具有互补突出端的一个或更多个核酸,诸如寡核苷酸、衔接子寡核苷酸或多核苷酸。例如,可以使用不依赖模板的聚合酶将单个腺嘌呤添加到末端修复的DNA片段的3'末端,然后连接至一个或更多个衔接子,每个衔接子在3'末端具有一个胸腺嘧啶。在一些实施方案中,可以将核酸(诸如寡核苷酸或多核苷酸)接合至钝性末端双链DNA分子(其已通过用一个或更多个核苷酸延伸3'末端并随后进行5'磷酸化进行修饰)。在一些情况下,可以使用聚合酶(诸如Klenow聚合酶或本文提供的任何合适的聚合酶)或者在可含有镁的合适缓冲液中存在一种或更多种dNTP的情况下使用末端脱氧核苷酸转移酶进行3’末端的延伸。在一些实施方案中,将具有钝性末端的靶多核苷酸接合至包含钝性末端的一个或更多个衔接子。例如,可以在含有ATP和镁的合适缓冲液中用T4多核苷酸激酶进行DNA片段分子的5'末端的磷酸化。可以任选地处理片段化的DNA分子以使5'末端或3'末端去磷酸化,例如,通过使用本领域已知的酶,诸如磷酸酶。
如本文关于两个多核苷酸(诸如衔接子寡核苷酸和目标多核苷酸)所用的术语“连接(connecting)”、“接合”和“连接(ligation)”是指两个单独的DNA片段的共价连接以产生具有连续主链的单个较大的多核苷酸。用于接合两个DNA片段的方法在本领域中是已知的,并且包括但不限于酶促和非酶促(例如,化学)方法。非酶促连接反应的示例包括美国专利号5,780,613和5,476,930中描述的非酶促连接技术,其通过引用并入本文。在一些实施方案中,通过连接酶(例如DNA连接酶或RNA连接酶)将衔接子寡核苷酸与靶多核苷酸接合。多种连接酶(各自具有特征的反应条件)是本领域已知的,并且包括但不限于NAD+依赖性连接酶,包括tRNA连接酶、Taq DNA连接酶、丝状栖热菌DNA连接酶、大肠杆菌DNA连接酶、Tth DNA连接酶、水管致黑栖热菌DNA连接酶(I和II)、热稳定连接酶、Ampligase热稳定DNA连接酶、VanC型连接酶、9°N DNA连接酶、Tsp DNA连接酶和生物勘探发现的新型连接酶;ATP依赖性连接酶,包括T4RNA连接酶、T4DNA连接酶、T3DNA连接酶、T7DNA连接酶、Pfu DNA连接酶、DNA连接酶1、DNA连接酶III、DNA连接酶IV以及生物勘探发现的新型连接酶;及其野生型、突变同种型及其基因工程化变体。
连接可以在具有可杂交序列(诸如互补突出端)的DNA片段之间进行。连接也可以在两个钝性末端之间。通常,在连接反应中使用5'磷酸盐。5'磷酸盐可以由目标多核苷酸、衔接子寡核苷酸或两者提供。根据需要,可以在待接合的DNA片段中添加或去除5'磷酸盐。用于添加或去除5'磷酸盐的方法是本领域中已知的,并且包括但不限于酶促和化学过程。可用于添加和/或去除5'磷酸盐的酶包括激酶、磷酸酶和聚合酶。在一些实施方案中,连接反应中接合的两个末端(例如,衔接子末端和靶多核苷酸末端)均提供5'磷酸盐,使得在接合两个末端时产生两个共价键。在一些实施方案中,在连接反应中接合的两个末端中的仅一个(例如,衔接子末端和靶多核苷酸末端中的仅一个)提供了5'磷酸盐,使得在接合两个末端时仅形成一个共价键。
在一些实施方案中,在目标多核苷酸的一个或两个末端的仅一条链处与衔接子寡核苷酸连接。在一些实施方案中,在目标多核苷酸的一个或两个末端的两条链处与衔接子寡核苷酸连接。在一些实施方案中,在连接之前去除3’磷酸盐。在一些实施方案中,将衔接子寡核苷酸添加到靶多核苷酸的两个末端,其中每个末端的一条或两条链与一个或更多个衔接子寡核苷酸接合。当两个末端的两条链都接合至衔接子寡核苷酸上时,可以在接合后进行切割反应留下5'突出端,该5’突出端可以作为相应3'末端延伸的模板,该3'末端可以包括也可以不包括衍生自衔接子寡核苷酸的一个或更多个核苷酸。在一些实施方案中,靶多核苷酸在一个末端与第一衔接子寡核苷酸接合,在另一末端与第二衔接子寡核苷酸接合。在一些实施方案中,目标多核苷酸的两个末端接合至单个衔接子寡核苷酸的相对末端。在一些实施方案中,靶多核苷酸和与其接合的衔接子寡核苷酸包含钝性末端。在一些实施方案中,可以对每个样品进行单独的连接反应,对每个样品使用包含至少一个条形码序列的不同的第一衔接子寡核苷酸,使得没有条形码序列与多于一个样品的目标多核苷酸接合。具有与其接合的衔接子寡核苷酸的DNA片段或靶多核苷酸被认为由接合衔接子“标签化”。
在一些情况下,连接反应可以在约0.1ng/μL、约0.2ng/μL、约0.3ng/μL、约0.4ng/μL、约0.5ng/μL、约0.6ng/μL、约0.7ng/μL、约0.8ng/μL、约0.9ng/μL、约1.0ng/μL、约1.2ng/μL、约1.4ng/μL、约1.6ng/μL、约1.8ng/μL、约2.0ng/μL、约2.5ng/μL、约3.0ng/μL、约3.5ng/μL、约4.0ng/μL、约4.5ng/μL、约5.0ng/μL、约6.0ng/μL、约7.0ng/μL、约8.0ng/μL、约9.0ng/μL、约10ng/μL、约15ng/μL、约20ng/μL、约30ng/μL、约40ng/μL、约50ng/μL、约60ng/μL、约70ng/μL、约80ng/μL、约90ng/μL、约100ng/μL、约150ng/μL、约200ng/μL、约300ng/μL、约400ng/μL、约500ng/μL、约600ng/μL、约800ng/μL或约1000ng/μL的DNA片段或靶多核苷酸浓度下执行。例如,连接反应可以在约100ng/μL、约150ng/μL、约200ng/μL、约300ng/μL、约400ng/μL或约500ng/μL的DNA片段或靶多核苷酸浓度下执行。
在一些情况下,连接反应可以在约0.1至1000ng/μL、约1至1000ng/μL、约1至800ng/μL、约10至800ng/μL、约10至600ng/μL、约100至600ng/μL或约100至500ng/μL的DNA片段或靶多核苷酸浓度下执行。
在一些情况下,连接反应可以进行超过约5分钟、约10分钟、约20分钟、约30分钟、约40分钟、约50分钟、约60分钟、约90分钟、约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时、约12小时、约18小时、约24小时、约36小时、约48小时或约96小时。在其他情况下,连接反应可以进行少于约5分钟、约10分钟、约20分钟、约30分钟、约40分钟、约50分钟、约60分钟、约90分钟、约2小时、约3小时、约4小时、约5小时、约6小时、约8小时、约10小时、约12小时、约18小时、约24小时、约36小时、约48小时或约96小时。例如,连接反应可以进行约30分钟至约90分钟。在一些实施方案中,衔接子与靶多核苷酸的接合产生具有3'突出端的接合产物多核苷酸,该3'突出端包含源自衔接子的核苷酸序列。
在一些实施方案中,在将至少一个衔接子寡核苷酸接合至靶多核苷酸之后,使用一个或更多个接合的衔接子寡核苷酸作为模板来延伸一个或更多个靶多核苷酸的3'端。例如,仅与目标多核苷酸的5'端接合的包含两个杂交寡核苷酸的衔接子允许使用衔接子的接合链作为模板延伸目标的未接合3'端(与未接合链的位移同时进行或在其之后进行)。可以将包含两个杂交寡核苷酸的衔接子的两条链都接合至目标多核苷酸,使得接合的产物具有5'突出端,并且可以使用5'突出端作为模板来延伸互补的3'端。作为进一步的示例,可以将发夹衔接子寡核苷酸接合至目标多核苷酸的5'端。在一些实施方案中,延伸的靶多核苷酸的3'端包含来自衔接子寡核苷酸的一个或更多个核苷酸。对于两端接合有衔接子的靶多核苷酸,可以对具有5'突出端的双链靶多核苷酸的两个3'末端进行延伸。这种3'末端延伸或“填入(fill-in)”反应生成与模板杂交的衔接子寡核苷酸模板的互补序列或“补体”,从而填入5'突出端以产生双链序列区域。如果双链靶多核苷酸的两端都具有通过互补链的3'端的延伸填入的5'突出端,则产物是完全双链的。可以通过本领域已知的任何合适的聚合酶进行延伸,诸如DNA聚合酶,其中许多是可商购的。DNA聚合酶可以包含DNA依赖性DNA聚合酶活性、RNA依赖性DNA聚合酶活性或DNA依赖性和RNA依赖性DNA聚合酶活性。DNA聚合酶可以是热稳定的或非热稳定的。DNA聚合酶的示例包括但不限于Taq聚合酶、Tth聚合酶、Tli聚合酶、Pfu聚合酶、Pfutubo聚合酶、Pyrobest聚合酶、Pwo聚合酶、KOD聚合酶、Bst聚合酶、Sac聚合酶、Sso聚合酶、Poc聚合酶、Pab聚合酶、Mth聚合酶、Pho聚合酶、ES4聚合酶、VENT聚合酶、DEEPVENT聚合酶、EX-Taq聚合酶、LA-Taq聚合酶、Expand聚合酶、铂Taq聚合酶、Hi-Fi聚合酶、Tbr聚合酶、Tfl聚合酶、Tru聚合酶、Tac聚合酶、Tne聚合酶、Tma聚合酶、Tih聚合酶、Tfi聚合酶、Klenow片段及其变体、修饰产物和衍生物。3'末端延伸可以在从独立样品中汇集目标多核苷酸之前或之后进行。
靶富集
在某些实施方案中,本公开内容提供了用于富集靶核酸和分析靶核酸的方法。在一些情况下,富集方法采用基于溶液的形式。在一些情况下,可以使用标记试剂标记靶核酸。在其他情况下,可以将靶核酸与用标记试剂标记的一个或更多个缔合分子交联。标记试剂的示例包括但不限于生物素、多组氨酸标签和化学标签(例如,点击化学方法中使用的炔烃和叠氮化物衍生物)。此外,可以使用捕获剂捕获并富集标记靶核酸。捕获剂可以是链霉亲和素和/或亲和素、抗体、化学部分(例如,炔烃、叠氮化物)和本领域已知的用于亲和纯化的任何生物、化学、物理或酶试剂。
在一些情况下,可以使用固定化或非固定化核酸探针来捕获目标核酸。例如,可以通过与固体支持物上或溶液中的探针杂交而从样品中富集靶核酸。在一些示例中,样品可以是基因组样品。在一些示例中,探针可以是扩增子。扩增子可以包含预定序列。此外,可以将杂交的靶核酸从探针上洗涤和/或洗脱出来。靶核酸可以是DNA、RNA、cDNA或mRNA分子。
在一些情况下,富集方法可以包括使包含靶核酸的样品与探针接触并将靶核酸与固体支持物结合。在一些情况下,可以使用酶促方法将样品片段化以产生目标核酸。在一些情况下,探针可以与靶核酸特异性杂交。在一些情况下,靶核酸可以具有约145bp至约600bp、约100bp至约2500bp、约600至约2500bp或约350bp至约1000bp的平均大小。可以进一步将靶核酸与样品中未结合的核酸分离。可以洗涤和/或洗脱固体支持物以提供富集的靶核酸。在一些示例中,富集步骤可以重复约1、2、3、4、5、6、7、8、9或10次。例如,富集步骤可以重复约1、2或3次。
在一些情况下,富集方法可以包括提供探针衍生的扩增子,其中用于扩增的所述探针附接至固体支持物。固体支持物可以包含固定支持物的核酸探针以从样品中捕获特定的靶核酸。探针衍生的扩增子可以与靶核酸杂交。在与探针扩增子杂交后,可以通过捕获(例如,通过捕获剂,诸如生物素、抗体等)并从捕获的探针洗涤和/或洗脱杂交的靶核酸来富集样品中的靶核酸。可以使用例如PCR方法进一步扩增靶核酸序列以产生富集的PCR产物的扩增池。
在一些情况下,固体支持物可以是微阵列、载玻片、芯片、微孔、柱、管、颗粒或珠。在一些示例中,固体支持物可由链霉亲和素和/或亲和素蛋白包被。在其他示例中,固体支持物可由抗体包被。此外,固体支持物可以包括玻璃、金属、陶瓷或聚合材料。在一些实施方案中,固体支持物可以是核酸微阵列(例如,DNA微阵列)。在其他实施方案中,固体支持物可以是顺磁珠。
在特定的实施方案中,本公开内容提供了用于扩增富集的DNA的方法。在一些情况下,富集的DNA是读取对。可以通过本公开内容的方法获得读取对。
在一些实施方案中,一个或更多个扩增和/或复制步骤用于制备待测序的文库。可以使用本领域已知的任何扩增方法。可以使用的扩增技术的示例包括但不限于定量PCR、定量荧光PCR(QF-PCR)、多重荧光PCR(MF-PCR)、实时PCR(RTPCR)、单个细胞PCR、限制性片段长度多态性PCR(PCR-RFLP)、PCK-RFLPIRT-PCR-IRFLP、热启动PCR、巢式PCR、原位polononyPCR、原位滚环扩增(RCA)、桥式PCR、连接介导的PCR、Qb复制酶扩增、反向PCR、picotiter PCR和乳液PCR。其他合适的扩增方法包括连接酶链式反应(LCR)、转录扩增、自持序列复制、靶多核苷酸序列的选择性扩增、共有序列引物聚合酶链反应(CP-PCR)、任意引物聚合酶链反应(AP-PCR)、简并寡核苷酸引物PCR(DOP-PCR)和基于核酸的序列扩增(NABSA)。本文可以使用的其他扩增方法包括在美国专利号5,242,794;5,494,810;4,988,617;和6,582,938中描述的那些方法。
在特定的实施方案中,在将DNA分子分配到单独的分区中后,PCR用于扩增它们。在一些情况下,扩增衔接子内的一个或更多个特异性引发序列用于PCR扩增。扩增衔接子可以在分配到各个分区之前或之后连接至片段化DNA分子。包含在两端具有合适的引发序列的扩增衔接子的多核苷酸可以以指数方式进行PCR扩增。由于例如包含引发序列的扩增衔接子的不完美连接效率,仅具有一个合适的引发序列的多核苷酸可能仅进行线性扩增。此外,如果没有连接包含合适的引发序列的衔接子,则可以从扩增(例如PCR扩增)中消除多核苷酸。在一些实施方案中,PCR循环的数量在10-30之间变化,但可以低至9、8、7、6、5、4、3、2或更少或高至40、45或更多。因此,在PCR扩增后,与线性可扩增或不可扩增片段相比,携带具有合适引发序列的扩增衔接子的指数可扩增片段可以以高得多(1000倍或更多)的浓度存在。与全基因组扩增技术(诸如使用随机引物的扩增或使用phi29聚合酶的多重置换扩增)相比,PCR的优势包括但不限于:更统一的相对序列覆盖度——因为每个片段最多可以在每个循环中复制一次,并且扩增由热循环程序控制;形成嵌合分子的速率显著低于例如MDA(Lasken等人,2007,BMC Biotechnology)——因为嵌合分子通过在装配图中呈现非生物序列对准确的序列装配提出了重大挑战,这可能导致更高的错误装配率或高度模糊和碎片化的组装,与使用具有特定序列的特定引发位点相比,MDA中常用的随机引物结合可能导致的序列特异性偏差减少;最终扩增DNA产物的数量具有更高的可重复性,这可以通过选择PCR循环数来控制;以及与本领域已知的普通全基因组扩增技术相比,PCR中常用的聚合酶在复制中的保真度更高。
在一些实施方案中,在填入反应之后使用第一引物和第二引物扩增一个或更多个靶多核苷酸或者将填入反应作为其一部分进行,其中第一引物包含可与一个或更多个第一衔接子寡核苷酸的互补序列的至少一部分杂交的序列,并且进一步其中第二引物包含可与一种或更多种第二衔接子寡核苷酸的互补序列的至少一部分杂交的序列。第一和第二引物中的每一个可以具有任何合适的长度,诸如约、少于约、或超过约10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100或更多个核苷酸,其中的任何部分或全部可以与相应的靶序列互补(例如,约、少于约或超过约5、10、15、20、25、30、35、40、45、50或更多个核苷酸)。例如,约10至50个核苷酸可以与相应的靶序列互补。
“扩增”是指增加靶序列拷贝数的任何过程。在一些情况下,复制反应可以仅产生多核苷酸的单个互补拷贝/复制品。用于靶多核苷酸的引物定向扩增的方法是本领域已知的,并且包括但不限于基于聚合酶链式反应(PCR)的方法。有利于通过PCR扩增靶序列的条件是本领域已知的,可以在过程中的多个步骤进行优化,并且取决于反应中元件的特性,诸如目标类型、目标浓度、待扩增的序列长度、目标和/或一个或更多个引物的序列、引物长度、引物浓度、使用的聚合酶、反应体积、一个或更多个元件与一个或更多个其他元件的比例等,其中的一些或全部可以改变。一般而言,PCR涉及待扩增的靶标变性(如果是双链的)、一种或更多种引物与靶标的杂交以及通过DNA聚合酶延伸引物的步骤,重复这些步骤(或“循环”)以便扩增目标序列。可以针对各种结果优化该过程中的步骤,诸如用于提高产量、减少假产物的形成和/或增加或减少引物退火的特异性。优化方法在本领域是众所周知的,包括调整扩增反应中元件的类型或数量和/或过程中给定步骤的条件,诸如特定步骤的温度、特定步骤的持续时间和/或循环数。
在一些实施方案中,扩增反应可以包括至少约5、10、15、20、25、30、35、40、50、60、70、80、90、100、150、200或更多个循环。在一些示例中,扩增反应可以包括至少约20、25、30、35或40个循环。在一些实施方案中,扩增反应可以包括不超过5、10、15、20、25、35、40、50、60、70、80、90、100、150、200或更多个循环。循环可以包含任意数量的步骤,诸如1、2、3、4、5、6、7、8、9、10或更多个步骤。步骤可以包括适合于实现给定步骤的目的的任何温度或温度梯度,包括但不限于3'末端延伸(例如,衔接子填入)、引物退火、引物延伸和链变性。步骤可以具有任何持续时间,包括但不限于约、小于约、或大于约1、5、10、15、20、25、30、35、40、45、50、55、60、70、80、90、100、120、180、240、300、360、420、480、540、600、1200、1800或更多秒,包括无限期直到手动中断。包含不同步骤的任意数量的循环可以以任意顺序组合。在一些实施方案中,将包含不同步骤的不同循环组合,使得组合中的循环总数为约、小于约、或大于约5、10、15、20、25、30、35、40、50、60、70、80、90、100、150、200或更多个循环。在一些实施方案中,在填入反应之后进行扩增。
在一些实施方案中,可以对至少约1、2、3、4、5、6、7、8、9、10、12、14、16、18、20、25、30、40、50、100、200、300、400、500、600、800、1000ng的靶DNA分子进行扩增反应。在其他实施方案中,可以对小于约1、2、3、4、5、6、7、8、9、10、12、14、16、18、20、25、30、40、50、100、200、300、400、500、600、800、1000ng的靶DNA分子进行扩增反应。
可以在汇集来自独立样品的靶多核苷酸之前或之后进行扩增。
本公开内容的方法涉及确定样品中存在的可扩增核酸的量。可以使用任何已知的方法来量化可扩增的核酸,并且示例性的方法是聚合酶链式反应(PCR),特别是定量聚合酶链式反应(qPCR)。qPCR是一种基于聚合酶链式反应的技术,用于扩增并同时定量目标核酸分子。qPCR允许对DNA样品中的特定序列进行检测和量化(当标准化为DNA输入或其他标准化基因时,作为绝对拷贝数或相对量)。该程序遵循聚合酶链式反应的一般原理,具有附加的特点,即扩增的DNA在每个扩增循环后实时在反应中累积时被量化。在例如Kurnit等人(美国专利号6,033,854)、Wang等人(美国专利号5,567,583和5,348,853)、Ma等人(TheJournal of American Science,2(3),2006)、Heid等人(Genome Research 986-994,1996)、Sambrook和Russell(Quantitative PCR,Cold Spring Harbor Protocols,2006)和Higuchi(美国专利号6,171,785和5,994,056)中描述了QPCR。这些内容通过引用以其整体并入本文。
其他定量方法包括使用嵌入双链DNA的荧光染料,以及在与互补DNA杂交时发出荧光的修饰DNA寡核苷酸探针。这些方法可以广泛使用,但也特别适用于实时PCR,如作为示例进一步详细描述的。在第一种方法中,DNA结合染料与PCR中的所有双链(ds)DNA结合,从而产生染料荧光。因此,PCR期间DNA产物的增加会导致荧光强度的增加,并在每个循环中进行测量,从而可以量化DNA浓度。该反应的制备方法与标准PCR反应类似,但添加了荧光(ds)DNA染料。反应在热循环仪中进行,每个循环后,用检测器测量荧光水平;该染料仅在与(ds)DNA(即PCR产物)结合时发出荧光。参考标准稀释度,可以确定PCR中的(ds)DNA浓度。与其他实时PCR方法一样,获得的值没有与之关联的绝对单位。将测得的DNA/RNA样品与标准稀释度进行比较,得出样品相对于标准品的分数或比率,从而可以在不同组织或实验条件之间进行相对比较。为了确保目标基因的定量和/或表达的准确性,可以相对于稳定表达的基因进行标准化。未知基因的拷贝数可以类似地相对于已知拷贝数的基因进行标准化。
第二种方法使用序列特异性RNA或基于DNA的探针仅对包含探针序列的DNA进行定量;因此,报告探针的使用显著提高了特异性,并且允许即使在存在一些非特异性DNA扩增的情况下进行定量。这允许多重测序,即通过使用具有不同颜色标记的特定探针在同一反应中检测多个基因,前提是所有基因都以相似的效率扩增。
该方法通常使用基于DNA的探针进行,该探针在一端具有荧光报告子(例如,6-羧基荧光素),在探针的另一端具有荧光淬灭剂(例如,6-羧基-四甲基罗丹明)。报告基因与淬灭剂的紧密邻近阻止了对其荧光的检测。聚合酶(例如,Taq聚合酶)的5'至3'核酸外切酶活性对探针的分解破坏了报告基因与淬灭剂的邻近,因此可以检测到未淬灭的荧光发射。由于探针的分解和报告的释放,在每个PCR循环中报告子探针靶向的产物的增加导致荧光的成比例增加。与标准PCR反应类似地制备反应,并添加报告探针。随着反应开始,在PCR的退火阶段期间,探针和引物都与DNA靶标退火。新DNA链的聚合从引物开始,一旦聚合酶到达探针,其5'-3'-核酸外切酶会降解探针,将荧光报告基因与淬灭剂物理分离,从而导致荧光增强。在实时PCR热循环仪中检测和测量荧光,并使用对应于产物指数增加的荧光几何增加来确定每个反应中的阈值循环。
在反应的指数阶段存在的DNA的相对浓度是通过在对数尺度上绘制荧光与循环数的关系来确定的(因此指数增加的量将给出一条直线)。确定高于背景的荧光检测的阈值。来自样品的荧光超过阈值的循环称为循环阈值,Ct。由于在指数阶段每个循环DNA的数量翻倍,因此可以计算DNA的相对量,例如,Ct比另一个早3个循环的样品具有23=8倍的模板。然后通过将结果与由已知量核酸的连续稀释(例如,未稀释、1:4、1:16、1:64)的实时PCR产生的标准曲线进行比较来确定核酸(例如,RNA或DNA)的量。
在某些实施方案中,qPCR反应涉及利用荧光共振能量转移(FRET)的双荧光团方法,例如,LIGHTCYCLER杂交探针,其中两个寡核苷酸探针与扩增子退火(参见例如美国专利号6,174,670)。寡核苷酸被设计用于以头尾方向杂交,荧光团以与有效能量转移相容的距离分开。当与核酸结合或掺入延伸产物时,被构造为发出信号的标记寡核苷酸的其他示例包括:SCORPIONS探针(例如,Whitcombe等人,Nature Biotechnology 17:804-807,1999,以及美国专利号6,326,145),Sunrise(或AMPLIFLOUR)引物(例如,Nazarenko等人,Nuc.AcidsRes.25:2516-2521,1997,以及美国专利号6,117,635)以及LUX引物和MOLECULAR BEACONS探针(例如,Tyagi等人,Nature Biotechnology 14:303-308,1996以及美国专利号5,989,823)。
在其他实施方案中,qPCR反应使用荧光Taqman方法和能够实时测量荧光的仪器(例如,ABI Prism 7700序列检测器)。Taqman反应使用标记有两种不同荧光染料的杂交探针。一种染料是报告子染料(6-羧基荧光素),另一种是淬灭染料(6-羧基-四甲基罗丹明)。当探针完好无损时,会发生荧光能量转移,并且报告染料荧光发射被淬灭染料吸收。在PCR循环的延伸阶段,荧光杂交探针被DNA聚合酶的5'-3'溶核活性切割。探针被切割后,报告染料发射不再有效地转移到淬灭染料,导致报告染料荧光发射光谱增加。任何核酸定量方法,包括实时方法或单点检测方法都可用于定量样品中核酸的量。可以通过若干不同的方法(例如,染色,与标记探针杂交;掺入生物素化引物,然后进行亲和素-酶缀合物检测;将32P标记的脱氧核苷酸三磷酸(诸如dCTP或dATP)掺入到扩增片段中)以及本领域已知的用于核酸定量的任何其他合适的检测方法进行检测。定量可以包括也可以不包括扩增步骤。
在一些实施方案中,本公开内容提供了用于鉴定或量化链接的DNA片段的标记。在一些情况下,可以标记链接的DNA片段以辅助下游应用,诸如阵列杂交。例如,可以使用随机引物法或切口平移来标记链接的DNA片段。
可以使用多种标记(例如,报告子)标记本文所述的核苷酸序列,包括但不限于在扩增步骤期间。合适的标记包括放射性核素、酶、荧光剂、化学发光剂或显色剂以及配体、辅因子、抑制剂、磁性颗粒等。这样的标记的示例包括在美国专利号3,817,837;美国专利号3,850,752;美国专利号3,939,350;美国专利号3,996,345;美国专利号4,277,437;美国专利号4,275,149和美国专利号4,366,241中,其通过引用以其整体并入。
附加的标记包括但不限于β-半乳糖苷酶、转化酶、绿色荧光蛋白、荧光素酶、氯霉素、乙酰转移酶、β-葡糖苷酸酶、外切葡聚糖酶和葡糖淀粉酶。也可以使用荧光标记,以及专门合成具有特定化学性质的荧光试剂。有多种测量荧光的方法可供使用。例如,一些荧光标记表现出激发或发射光谱的变化,一些表现出共振能量转移,其中一个荧光报告分子失去荧光,而第二个荧光增加,一些表现出荧光的损失(淬灭)或出现,而一些报告旋转运动。
此外,为了获得足够的标记材料,可以汇集多个扩增,而不是增加每个反应的扩增循环数。替代地,可以将标记的核苷酸掺入到扩增反应的最后几个循环中,例如30个PCR循环(无标记)+10个PCR循环(加标记)。
在特定的实施方案中,本公开内容提供了可以附接至链接的DNA片段的探针。如本文所用,术语“探针”是指能够与另一感兴趣分子(例如,另一寡核苷酸)杂交的分子(例如,寡核苷酸,无论是在纯化的限制性消化物中天然存在还是通过合成、重组或通过PCR扩增产生的)。当探针是寡核苷酸时,它们可以是单链的或双链的。探针可用于检测、鉴定和分离特定目标(例如,基因序列)。在一些情况下,探针可以与标记结合,以便可在任何检测系统中检测,包括但不限于酶(例如,ELISA,以及基于酶的组织化学测定)、荧光、放射性和发光系统。
关于阵列和微阵列,术语“探针”用于指为了检测已与所述探针杂交的核苷酸序列而附着于阵列的任何可杂交材料。在一些情况下,探针可以为约10bp至500bp、约10bp至250bp、约20bp至250bp、约20bp至200bp、约25bp至200bp、约25bp至100bp、约30bp至100bp或约30bp至80bp。在一些情况下,探针的长度可以大于约10bp、约20bp、约30bp、约40bp、约50bp、约60bp、约70bp、约80bp、约90bp、约100bp、约150bp、约200bp、约250bp、约300bp、约400bp或约500bp。例如,探针的长度可以为约20至约50bp。探针设计的示例和基本原理可在WO95/11995、EP 717,113和WO97/29212中发现。
探针、探针阵列或探针组可以固定在支持物上。支持物(例如,固体支持物)可以由多种材料制成——诸如玻璃、二氧化硅、塑料、尼龙或硝酸纤维素。支撑物可以是刚性的并且具有平坦的表面。支持物可以具有1至10,000,000个已解析的基因座。例如,支持物可以具有约10至10,000,000、约10至5,000,000、约100至5,000,000、约100至4,000,000、约1000至4,000,000、约1000至3,000,000、约10,000至3,000,000、约10,000至2,000,000、约100,000至2,000,000或约100,000至1,000,000个已解析的基因座。已解析的基因座的密度可以是每平方厘米内至少约10、约100、约1000、约10,000、约100,000或约1,000,000个已解析的基因座。在一些情况下,每个已解析的基因座可以被>95%的单一类型寡核苷酸占据。在其他情况下,每个已解析的基因座可以被探针或探针组的汇集混合物占据。在进一步的情况下,一些已解析的基因座被探针或探针组的汇集混合物占据,而其他已解析的基因座被>95%的单一类型寡核苷酸占据。
在一些情况下,阵列上给定核苷酸序列的探针数量可以远超要与这样的阵列杂交的DNA样品。例如,相对于输入样品中的DNA量,阵列可以具有约10、约100、约1000、约10,000、约100,000、约1,000,000、约10,000,000或约100,000,000倍的探针数量。
在一些情况下,阵列可以具有约10、约100、约1000、约10,000、约100,000、约1,000,000、约10,000,000、约100,000,000或约1,000,000,000个探针。
可以在支持物上以逐步方式合成,或者可以以预先合成的形式附接探针阵列或探针组。一种合成方法是
Figure BDA0003523933710001371
(如美国专利号5,143,854和EP 476,014中所述),其需要在高密度、小型化阵列中使用光来指导合成寡核苷酸探针。美国专利号5,571,639和美国专利号5,593,839中描述了用于设计掩模以减少合成循环数的算法。也可以通过机械约束的流路将单体递送至支持物细胞以组合方式合成阵列,如EP 624,059中所述。也可以通过使用喷墨打印机将试剂点样到支持物上来合成阵列(参见例如EP 728,520)。
在一些实施方案中,本公开内容提供了用于将连接的DNA片段杂交到阵列上的方法。“底物”或“阵列”是有意创建的核酸集合,其可以经合成或生物合成制备并筛选各种不同形式(例如,可溶性分子的文库库;以及拴系到树脂珠、硅胶芯片或其他固体支持物的寡核苷酸的文库)的生物活性。附加地,术语“阵列”包括可以通过将基本上任何长度(例如,长度为1至约1000个核苷酸单体)的核酸点样到底物上来制备的那些核酸文库。
阵列技术和各种相关的技术和应用在许多教科书和文档中都有大体描述。例如,这些包括Lemieux等人,1998,Molecular Breeding 4,277-289;Schena和Davis,ParallelAnalysis with Biological Chips.in PCR Methods Manual(编辑M.Innis,D.Gelfand,J.Sninsky);Schena和Davis,1999,Genes,Genomes and Chips.In DNA Microarrays:APractical Approach(编辑M.Schena),Oxford University Press,Oxford,UK,1999);TheChipping Forecast(Nature Genetics special issue;January1999Supplement);MarkSchena(编辑),Microarray Biochip Technology,(Eaton Publishing Company);Cortes,2000,The Scientist 14[17]:25;Gwynn和Page,Microarray analysis:the nextrevolution in molecular biology,Science,1999Aug.6;以及Eakins和Chu,1999,Trendsin Biotechnology,17,217-218。
一般而言,任何文库都可以通过在空间上分离文库的成员以有序的方式排列成阵列。用于排列的合适文库的示例包括核酸文库(包括DNA、cDNA、寡核苷酸等文库)、肽、多肽和蛋白质文库,以及包含任何分子的文库,例如配体文库等。
文库可以固定或固定化在固相(例如,固体底物)上,以限制成员的扩散和混合。在一些情况下,可以制备DNA结合配体的文库。特别地,文库可以固定在基本上平面的固相上,包括膜和无孔底物,诸如塑料和玻璃。此外,可以以便于索引(即,参考或访问特定成员)的方式排列文库。在一些示例中,可以将库的成员应用为网格形式中的点。通用测定系统可适用于此目的。例如,阵列可以固定在微孔板的表面上,或者在孔中具有多个成员,或者在每个孔中具有单个成员。此外,固体基质可以是膜,诸如硝酸纤维素膜或尼龙膜(例如,用于印迹实验的膜)。替代的基底包括玻璃或基于的二氧化硅基底。因此,文库可以通过本领域已知的任何合适的方法固定,例如,通过电荷相互作用,或通过化学偶联到孔的壁或底部,或膜的表面。可以使用其他排列和固定方式,例如移液、滴触、压电方式、喷墨和喷泡技术、静电应用等。在基于硅的芯片的情况下,可以利用光刻技术在芯片上排列和固定文库。
可以通过“点样”到固体基质上来排列文库;这可以通过手动完成,或者通过使用机器人来放置成员。一般而言,阵列可以描述为宏阵列或微阵列,区别在于点的大小。宏阵列可以包含约300微米或更大的点大小,并且可以通过现有的凝胶和印迹扫描仪容易地成像。微阵列中的点大小可以为直径小于200微米,并且这些阵列通常包含数千个点。因此,微阵列可能需要专门的机器人和成像设备,这些机器人和成像设备可能需要定制。Cortese,2000,The Scientist 14[11]:26的综述中对仪器进行了大体描述。
本领域已经描述了产生固定化DNA分子文库的技术。通常,大多数现有技术方法描述了如何合成单链核酸分子文库,例如使用掩蔽技术在固体基质上的各种离散位置处建立各种序列的排列。美国专利号5,837,832描述了一种改进的方法,用于生产基于超大规模集成技术固定在硅基板上的DNA阵列。特别地,美国专利号5,837,832描述了一种称为“平铺”的策略,用于在基底上的空间定义位置合成特定的探针组,其可用于产生本公开内容的固定化DNA文库。美国专利号5,837,832还提供了早期技术的参考,这些技术也可以使用。在其他情况下,也可以使用光沉积化学来构建阵列。
也可以在表面上合成肽(或肽模拟物)的阵列,其方式是将每个不同的文库成员(例如,独特的肽序列)放置在阵列中的离散的、预定义的位置。每个文库成员的身份由其在阵列中的空间位置确定。确定阵列中预定分子(例如,靶或探针)与反应性文库成员之间发生结合相互作用的位置,从而基于空间位置鉴定反应性文库成员的序列。美国专利号5,143,854;WO90/15070和WO92/10092;Fodor等人(1991)Science,251:767;Dower和Fodor(1991)Ann.Rep.Med.Chem.,26:271中描述了这些方法。
为了有助于检测,可以使用标记(如上所述)——诸如任何容易检测的报告子,例如荧光、生物发光、磷光、放射性等报告子。这样的报告子、它们的检测、与目标/探针的耦合等在本文档的其他地方进行了讨论。Shalon等人,1996,Genome Res 6(7):639-45中也公开了探针和靶标的标记。
Marshall和Hodgson,1998,Nature Biotechnology,16(1),27-31中列出了一些可商购的微阵列格式的示例。
为了从基于阵列的测定中产生数据,可以检测信号以表示探针和核苷酸序列之间存在或不存在杂交。此外,还可以使用直接和间接标记技术。例如,直接标记法将荧光染料直接掺入与阵列相关探针杂交的核苷酸序列中(例如,在标记的核苷酸或PCR引物存在下通过酶促合成将染料掺入核苷酸序列中)。例如,通过使用具有相似化学结构和特性的荧光染料家族,直接标记方案可以产生强杂交信号,并且可以简单地实施。在包含直接标记核酸的情况下,可以使用花青或alexa类似物进行多荧光比较阵列分析。在其他实施方案中,可以利用间接标记方案在与微阵列探针杂交之前或之后将表位掺入核酸中。可以使用一种或更多种染色程序和试剂标记杂交复合物(例如,与表位结合的荧光分子,从而通过染料分子与杂交物种的表位的缀合提供荧光信号)。
测序
在各种实施方案中,本文描述的或本领域已知的其他合适的测序方法将用于从样品内的核酸分子获得序列信息。可以通过本领域众所周知的经典Sanger测序方法完成测序。也可以使用高通量系统完成测序,其中一些系统允许在其并入生长链之后或之时立即检测测序的核苷酸,即实时或基本实时地检测序列。在一些情况下,高通量测序每小时生成至少1,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少100,000或至少500,000个序列读取;其中序列读取可以为每个读取至少约50、约60、约70、约80、约90、约100、约120、约150、约180、约210、约240、约270、约300、约350、约400、约450、约500、约600、约700、约800、约900或约1000个碱基。
测序可以是全基因组,具有或没有特定感兴趣区域的富集。测序可以靶向基因组的特定区域。可以富集或靶向的基因组区域包括但不限于单个基因(或其区域)、基因组合(gene panel)、基因融合、人白细胞抗原(HLA)基因座(例如,I类HLA-A、B和C;II类HLA-DRB1/3/4/5、HLA-DQA1、HLA-DQB1、HLA-DPA1、HLA-DPB1)、外显子区域、外显子组和其他基因座。基因组区域可能与免疫反应、免疫组库、免疫细胞多样性、转录(例如,外显子组)、癌症(例如,BRCA1、BRCA2、基因组合或其区域诸如热点区域、体细胞变体、SNV、扩增、融合、肿瘤突变负荷(TMB)、微卫星不稳定性(MSI))、心脏病、遗传疾病和其他疾病或病况有关。可以使用多种方法来富集或靶向感兴趣区域,包括但不限于序列捕获。在一些情况下,采用捕获Hi-C(CHi-C)或类似CHi-C的方案,在文库制备之前或之后采用序列捕获步骤(例如,通过靶富集阵列)。
在一些实施方案中,高通量测序涉及使用由Illumina的基因组分析仪IIX、MiSeq个人测序仪或HiSeq系统提供的技术,诸如使用HiSeq 2500、HiSeq 1500、HiSeq 2000或HiSeq 1000机器的那些技术。这些机器使用基于可逆终止子的合成化学测序。这些机器可以在八天内完成2000亿次或更多的DNA读取。较小的系统可用于在3、2、1天或更短的时间内运行。
在一些实施方案中,高通量测序涉及使用由ABI Solid System提供的技术。该遗传分析平台能够对链接到珠的克隆扩增DNA片段进行大规模并行测序。测序方法基于与染料标记的寡核苷酸的顺序连接。
下一代测序可以包括离子半导体测序(例如,使用来自Life Technologies(IonTorrent)的技术)。离子半导体测序可以利用这样的事实,即当核苷酸掺入DNA链中时,可以释放离子。为了进行离子半导体测序,可以形成高密度的微加工孔阵列。每个孔可以容纳单个DNA模板。孔下方可以是离子敏感层,离子敏感层下方可以是离子传感器。当将核苷酸添加到DNA中时,可以释放H+,其可以通过pH值的变化来测量。H+离子可以被转换为电压并由半导体传感器记录。可以一个接一个地将核苷酸填充到阵列芯片。无需扫描、照明或照相机。在一些情况下,使用
Figure BDA0003523933710001422
测序仪对核酸进行测序。在一些情况下,使用
Figure BDA0003523933710001421
测序仪。Ion Torrent个人基因组机器(PGM)。PGM可以在两小时内完成1000万次读取。
在一些实施方案中,高通量测序涉及使用由Helicos BioSciences Corporation(Cambridge,Massachusetts)提供的技术,诸如单分子合成测序(SMSS)方法。SMSS是独一无二的,因为它允许在不超过24小时内对整个人类基因组进行测序。最后,在美国公开申请号20060024711;20060024678;20060012793;20060012784;和20050100932中部分地描述了SMSS。
在一些实施方案中,高通量测序涉及使用由454Lifesciences,Inc.(Branford,Connecticut)提供的技术,例如PicoTiterPlate设备,其包括光纤板,该光纤板传输由测序反应生成的化学发光信号,由仪器中的CCD相机记录。光纤的这种使用允许在4.5小时内检测至少2000万个碱基对。
在Marguiles,M.,等人“Genome sequencing in microfabricated high-densitypricolitre reactors,”Nature,doi:10.1038/nature03959;以及美国公开申请号20020012930;20030068629;20030100102;20030148344;20040248161;20050079510;20050124022;和20060078909中描述了使用珠扩增和光纤检测的方法。
在一些实施方案中,使用克隆单分子阵列(Solexa,Inc.)或利用可逆终止子化学的合成测序(SBS)进行高通量测序。在美国专利号6,969,488;6,897,023;6,833,246;6,787,308;和美国公开申请号20040106110;20030064398;20030022207;和Constans,A.,TheScientist 2003,17(13):36中部分地描述了这些技术。
下一代测序技术可以包括Pacific Biosciences的实时
Figure BDA0003523933710001431
技术。在SMRT中,可以将四种DNA碱基中的每一种附接到四种不同荧光染料中的一种上。这些染料可以被磷酸链接。单个DNA聚合酶可以在零模式波导(ZMW)的底部用模板单链DNA的单个分子固定。ZMW可以是一种限制结构,其能够在荧光核苷酸的背景下通过DNA聚合酶观察单个核苷酸的掺入,荧光核苷酸可以快速扩散到ZMW外(以微秒为单位)。将核苷酸掺入生长链中可能需要几毫秒。在此期间,可以激发荧光标记并产生荧光信号,并且可以切割荧光标签。ZMW可以从下方照明。来自激发光束的衰减光可以穿透每个ZMW的下方20-30nm。可以创建检测极限为20仄普托升(20x10-21升)的显微镜。微小的检测体积可以在降低背景噪声方面提供1000倍的改进。检测染料的相应荧光可以指示掺入了哪种碱基。该过程可以重复。
在一些情况下,下一代测序是纳米孔测序(参见例如,Soni GV和Meller A.(2007)Clin Chem 53:1996-2001)。纳米孔可以是直径约为一纳米量级的小孔。将纳米孔浸入导电流体中并在其上施加电势会由于离子通过纳米孔的传导而产生轻微的电流。电流的量可能对于纳米孔的大小敏感。当DNA分子通过纳米孔时,DNA分子上的每个核苷酸都会不同程度地阻塞纳米孔。因此,当DNA分子通过纳米孔时,通过纳米孔的电流的变化可以代表DNA序列的读数。纳米孔测序技术可以来自Oxford Nanopore Technologies;例如,GridlON系统。可以将单个纳米孔插入穿过微孔顶部的聚合物膜中。每个微孔都可以有用于单独传感的电极。可以将微孔制成阵列芯片,每个芯片具有100,000或更多个微孔(例如,超过200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000或1,000,000)。可以使用仪器(或节点)来分析芯片。可以实时分析数据。可以一次操作一台或多台仪器。纳米孔可以是蛋白质纳米孔,例如蛋白质α-溶血素、七聚体蛋白质孔。纳米孔可以是固态纳米孔,例如,在合成膜(例如,SiNx或SiO2)中形成的纳米大小的孔。纳米孔可以是杂交孔(例如,将蛋白质孔整合到固态膜中)。纳米孔可以是具有集成传感器(例如,隧道电极检测器、电容检测器或基于石墨烯的纳米间隙或边缘状态检测器(参见例如,Garaj等人(2010)Nature vol.67,doi:10.1038/nature09379)))的纳米孔。可以对纳米孔进行功能化以分析特定类型的分子(例如,DNA、RNA或蛋白质)。纳米孔测序可以包括“链测序”,其中可以使完整的DNA聚合物通过蛋白质纳米孔,并在DNA穿过孔时进行实时测序。酶可以分离双链DNA的链并通过纳米孔饲喂一条链。DNA可以在一个末端具有发夹,并且系统可以读取两条链。在一些情况下,纳米孔测序是“核酸外切酶测序”,其中可以将单个核苷酸通过进行性核酸外切酶从DNA链上切割下来,并且可以使核苷酸通过蛋白质纳米孔。核苷酸可以瞬时结合到孔中的分子(例如,环葡聚糖)。电流的特征性中断可用于鉴定碱基。
可以使用来自GENIA的纳米孔测序技术。可以将工程化的蛋白质孔嵌入脂质双层膜中。可以使用“主动控制”技术实现高效的纳米孔膜装配和DNA通过通道的运动控制。在一些情况下,纳米孔测序技术来自NABsys。可以将基因组DNA片段化成平均长度约为100kb的链。可以将100kb片段制成单链并随后与6聚体探针杂交。可以驱使带有探针的基因组片段通过纳米孔,这可以产生电流-时间的追踪。电流追踪可以提供探针在每个基因组片段上的位置。可以排列基因组片段以产生基因组的探针图。对于探针文库,该过程可以并行完成。可以生成每个探针的基因组长度探针图。可以通过称为“移动窗口杂交测序(mwSBH)”的过程来修复错误。在一些情况下,纳米孔测序技术来自IBM/Roche。可以使用电子束在微芯片中形成纳米孔大小的开口。可以使用电场将DNA拉出或穿过纳米孔。纳米孔中的DNA晶体管装置可以包括交替的纳米大小的金属和电介质层。DNA主链中的离散电荷可以被DNA纳米孔内的电场捕获。关闭和打开栅电压可以允许读取DNA序列。
下一代测序可以包括DNA纳米球测序(例如,通过Complete Genomics进行;参见例如Drmanac等人(2010)Science 327:78-81)。可以对DNA进行分离、片段化和大小选择。例如,可以将DNA片段化(例如,通过超声处理)至约500bp的平均长度。可以将衔接子(Adl)附接至片段的末端。衔接子可用于与锚点杂交以进行测序反应。可以对每个末端都结合有衔接子的DNA进行PCR扩增。可以修饰衔接子序列,使互补的单链末端相互结合形成环状DNA。可以将DNA甲基化以保护它不被后续步骤中使用的IIS型限制性内切酶切割。衔接子(例如,右侧的衔接子)可以具有限制性识别位点,并且限制性识别位点可以保持非甲基化。衔接子中的非甲基化限制性识别位点可被限制性内切酶(例如,Acul)识别,DNA可被右侧衔接子右侧13bp的Acul切割,形成线性双链DNA。可以将第二轮左右衔接子(Ad2)附接至线性DNA的任一末端,所有带有两个衔接子的DNA都可以进行PCR扩增(例如,通过PCR)。可以修饰Ad2序列以允许它们相互结合并形成环状DNA。可以将DNA甲基化,但限制性内切酶识别位点可以在左侧Adl衔接子上保持非甲基化。可以应用限制性内切酶(例如,Acul),可以在Adl左侧13bp处切割DNA,形成线性DNA片段。可以将第三轮左右衔接子(Ad3)附接至线性DNA的左右两侧,并且可以对所得片段进行PCR扩增。可以修饰衔接子使得它们可以相互结合并形成环状DNA。可以添加III型限制酶(例如,EcoP15);EcoP15可以切割Ad3左侧26bp和Ad2右侧26bp的DNA。该切割可以去除DNA的大片段并使DNA再次线性化。可以将第四轮左右衔接子(Ad4)附接至DNA,可以扩增(例如,通过PCR)DNA,并进行修饰使得它们相互结合并形成完整的环状DNA模板。
可以使用滚环复制(例如,使用Phi 29DNA聚合酶)扩增DNA的小片段。四个衔接子序列可以包含可以杂交的回文序列,单链可以折叠到自身上形成平均直径约为200-300纳米的DNA纳米球
Figure BDA0003523933710001461
可以将DNA纳米球附接(例如,通过吸附)至微阵列(测序流动池)。流动池可以是涂有二氧化硅、钛和六甲基二硅氮烷(HMDS)以及光刻胶材料的硅晶片。可以通过将荧光探针连接至DNA的非链式测序来进行测序。可以通过高分辨率相机对研究位置的荧光颜色进行可视化。可以确定衔接子序列之间的核苷酸序列的同一性。
在一些实施方案中,可以使用AnyDot.chips(Genovoxx,Germany)进行高通量测序。具体地,AnyDot.chips允许将核苷酸荧光信号检测提高10至50倍。在国际公开申请号WO02088382、WO 03020968、WO 03031947、WO 2005044836、PCT/EP 05/05657、PCT/EP 05/05655和德国专利申请号DE 101 49 786、DE 102 14 395、DE 103 56 837、DE 10 2004 009704、DE 10 2004 025 696、DE 10 2004 025 746、DE 10 2004 025 694、DE 10 2004 025695、DE 10 2004 025 744、DE 10 2004 025 745和DE 10 2005 012 301中部分地描述了AnyDot.chips及其使用方法。
其他高通量测序系统包括在Venter,J.,等人Science 16 February 2001;Adams,M.等人Science 24 March 2000;和M.J.Levene,等人Science 299:682-686,January2003;以及美国公开申请号20030044781和2006/0078937中描述的那些。总体而言,这样的系统涉及通过在核酸分子上测量的聚合反应临时添加碱基对而具有多个碱基的靶核酸分子进行测序,即实时跟踪待测序模板核酸分子上核酸聚合酶的活性。然后可以通过在添加序列的碱基添加中的每个步骤中通过核酸聚合酶的催化活性鉴定哪个碱基被掺入到目标核酸的生长互补链中来推断序列。靶核酸分子复合物上的聚合酶被提供在适合沿着靶核酸分子移动并在活性位点延伸寡核苷酸引物的位置。在活性位点附近提供多种标记类型的核苷酸类似物,每种可区分类型的核苷酸类似物与靶核酸序列中的不同核苷酸互补。通过使用聚合酶将核苷酸类似物添加到活性位点处的核酸链上来延伸正在生长的核酸链,其中添加的核苷酸类似物与活性位点处的靶核酸的核苷酸互补。作为聚合步骤的结果,添加到寡核苷酸引物中的核苷酸类似物被鉴定出来。重复提供标记的核苷酸类似物、聚合生长的核酸链和鉴定添加的核苷酸类似物的步骤,使得核酸链进一步延伸,并确定目标核酸的序列。
试剂盒
在特定的实施方案中,本公开内容进一步提供了包含本公开内容的一种或更多种组分的试剂盒。试剂盒可用于本领域技术人员显而易见的任何应用,包括上述应用。试剂盒可以包含例如多种缔合分子、固定剂、核酸酶、连接酶和/或其组合。在一些情况下,缔合分子可以是蛋白质,包括例如组蛋白。在一些情况下,固定剂可以是甲醛或任何其他DNA交联剂,包括DSG、EGS或DSS。
在一些情况下,试剂盒可以进一步包含多个珠。珠可以是顺磁性的并且/或者涂有捕获剂。例如,珠可以涂有链霉亲和素蛋白和/或抗体。
在一些情况下,试剂盒可已包含衔接子寡核苷酸和/或测序引物。此外,试剂盒可以包含能够使用衔接子寡核苷酸和/或测序引物扩增读数对的装置。
在一些情况下,试剂盒还可以包含其他试剂,包括但不限于裂解缓冲液、连接试剂(例如,dNTP、聚合酶、多核苷酸激酶和/或连接酶缓冲液等)和PCR试剂(例如,dNTP、聚合酶和/或PCR缓冲液等)。
试剂盒还可以包含使用试剂盒组件和/或生成读数对的说明。
计算机和系统
图3中所示的计算机系统500可被理解为可从介质511和/或网络端口505读取指令的逻辑装置,该装置可任选地连接到具有固定介质512的服务器509。该系统(诸如图3中所示)可包含CPU 501、磁盘驱动器503、可选的输入设备如键盘515和/或鼠标516以及可选的监视器507。通过指示的通信介质可实现与本地或远程位置处的服务器的数据通信。通信介质可包括传送和/或接收数据的任何手段。例如,通信介质可以是网络连接、无线连接或因特网连接。这样的连接可提供通过万维网的通信。可以设想,与本公开内容相关的数据可通过这样的网络或如图3所示的由一方522接收和/或检查的连接进行传送。
图4是示出可结合本公开内容的示例性实施方案使用的计算机系统100的第一示例性架构的框图。如图4中所示,示例性计算机系统可以包含用于处理指令的处理器102。处理器的非限制性实例包括:Intel
Figure BDA0003523933710001481
处理器、AMD
Figure BDA0003523933710001482
处理器、Samsung32-bit RISC ARM 1176JZ(F)-S
Figure BDA0003523933710001483
处理器、ARM Cortex-A8 Samsung
Figure BDA0003523933710001484
处理器、ARM Cortex-A8 Apple
Figure BDA0003523933710001486
处理器、Marvell PXA
Figure BDA0003523933710001485
处理器或功能相当的处理器。多个执行线程可用于并行处理。在一些实施方案中,无论是在单个计算机系统中、集群中,还是通过包括多个计算机、蜂窝电话和/或个人数据助理设备的网络的跨系统分布,均可以使用多个处理器或具有多个核的处理器。
如图4中所示,高速缓冲存储器104可连接或并入到处理器102中,以向处理器102最近或频繁使用的指令或数据提供高速存储器。处理器102通过处理器总线108与北桥106连接。北桥106通过内存总线112与随机存取存储器(RAM)110连接,并且管理通过处理器102对RAM 110的访问。北桥106还通过芯片组总线116与南桥114连接。南桥114进而与外围总线118连接。外围总线可为例如PCI、PCI-X、PCI Express或其他外围总线。北桥和南桥通常被称为处理器芯片组,并且管理处理器、RAM和外围总线118上的外围组件之间的数据传送。在一些替代的架构中,北桥的功能可被并入处理器中而不使用单独的北桥芯片。
在一些实施方案中,系统100包含附接到外围总线118的加速器卡122。加速器可包括现场可编程门阵列(FPGA)或用于加速某些处理的其他硬件。例如,可使用加速器用于自适应数据重构或评价在扩展集处理中使用的代数表达式。
软件和数据存储在外部存储器124中,并且可被加载到RAM110和/或缓存104中以供处理器使用。系统100包括用于管理系统资源的操作系统;操作系统的非限制性实例包括:Linux、
Figure BDA0003523933710001491
Figure BDA0003523933710001492
BlackBerry
Figure BDA0003523933710001493
和其他功能相当的操作系统,以及用于根据本公开内容的示例性实施方案管理数据存储和优化的运行在操作系统之上的应用软件。
在该实例中,系统100还包括与外围总线连接的网络接口卡(NIC)120和121,用于向外部存储如网络附加存储(NAS)和可用于分布式并行处理的其他计算机系统提供网络接口。
图5为示出具有多个计算机系统202a和202b、多个蜂窝电话和个人数据助理202c以及网络附加存储(NAS)204a和204b的网络200的示意图。在示例性实施方案中,系统202a、202b和202c可管理数据存储并优化对网络附加存储(NAS)204a和204b中存储的数据的数据访问。可以将数学模型用于数据,并且使用在计算机系统202a和202b以及蜂窝电话和个人数据助理系统202c的分布式并行处理评价该数学模型。计算机系统202a和202b以及蜂窝电话和个人数据助理系统202c还可提供并行处理,用于存储在网络附加存储(NAS)204a和204b中的数据的自适应数据重构。图5仅示出了示例,并且可结合本公开内容的多种实施方案使用多种其他计算机架构和系统。例如,可使用刀片服务器提供并行处理。处理器刀片可通过背板进行连接以提供并行处理。存储还可通过单独的网络接口与背板或作为网络附加存储(NAS)连接。
在一些示例性实施方案中,处理器可维持单独的存储器空间,并通过网络接口、背板或其他连接器传送数据用于通过其他处理器进行并行处理。在其他实施方案中,一些或全部处理器可使用共享虚拟地址存储器空间。
图6为根据示例性实施方案使用共享虚拟地址存储器空间的多处理器计算机系统300的框图。该系统包含可访问共享存储器子系统304的多个处理器302a-f。该系统在存储器子系统304中包含多个可编程硬件存储器算法处理器(MAP)306a-f。每个MAP 306a-f可包含存储器308a-f和一个或更多个现场可编程门阵列(FPGA)310a-f。MAP提供可配置的功能单元,并且可向FPGA 310a-f提供特定算法或算法部分用于与相应处理器紧密配合进行处理。例如,在示例性实施方案中,MAP可用于评价关于数据模型的代数表达式并执行自适应数据重组。在该实例中,为达到这些目的,每个MAP均可被所有处理器全局访问。在一种配置中,每个MAP可使用直接存储器访问(DMA)来访问相关联的存储器308a-f,从而使其独立于相应的微处理器302a-f且与该微处理器异步地执行任务。在这种配置中,MAP可将结果直接提供给另一个MAP用于流水操作和算法的并行执行。
上述计算机架构和系统仅是示例性的,并且可结合示例性实施方案使用多种其他计算机、蜂窝电话和个人数据助理架构和系统,包括使用通用处理器、协同处理器、FPGA和其他可编程逻辑设备、片上系统(SOC)、专用集成电路(ASIC)以及其他处理和逻辑元件的任意组合的系统。在一些实施方案中,计算机系统的全部或部分以软件或硬件可实现。任何种类的数据存储介质均可与示例性实施方案结合使用,包括随机存取存储器、硬盘驱动器、闪速存储器、磁带驱动器、磁盘阵列、网络附加存储(NAS)以及其他局部或分布式数据存储设备和系统。
在示例性实施方案中,可使用在上述任一种或其他计算机架构和系统上执行的软件模块来实现计算机系统。在其他实施方案中,该系统的功能可部分地或完全地在固件、可编程逻辑设备如图11所示的现场可编程门阵列(FPGA)、片上系统(SOC)、专用集成电路(ASIC)或者其他处理和逻辑元件中实现。例如,通过使用硬件加速卡,诸如图4中所示的加速卡122,可以使用硬件加速来实现设置处理器和优化器。
定义
除非另有定义,否则本文使用的所有技术和科学术语具有如本公开内容所属领域的普通技术人员通常所理解的相同的含义。现在描述示例性的方法和材料,但与本文描述的任何方法和试剂类似或等效的方法和试剂也可在所公开的方法和组合物的实践中使用。
除非上下文另有明确说明,否则如本文和随附权利要求中所用的,单数形式“一个”、“一种”和“该”包括复数指代物。因此,例如,提及“重叠群”包括多个这样的重叠群,并且提及“探测染色体的物理布局”包括提及用于探测染色体的物理布局的一种或更多种方法以及本领域技术人员已知的其等同项,等等。
同样,使用“和”意指“和/或”,除非另有规定。类似地,“包含”、“包括”和“含有”可互换,并且并非意在限制。
应进一步理解的是,在各个实施方案的描述中使用术语“包含”时,本领域技术人员将会理解在一些特定的情况下,实施方案可使用语言“基本上由...组成”或“由...组成”替代性地描述。
如本文所用的术语“测序读取”是指其中已确定序列的DNA片段。
如本文所用的术语“重叠群”是指DNA序列的连续区域。“重叠群”可通过本领域已知的任何数目的方法来确定,诸如通过比较重叠序列的测序读取,和/或通过将测序读取与已知序列的数据库进行比较来鉴定哪些测序读取具有较高的连续概率。
如本文所用的术语“受试者”可指任何真核或原核生物体。
如本文所用的术语“读取对”或“读取-对”可指被连接以提供序列信息的两个或更多个元件。在一些情况下,读取对的数目可指可映射读取对的数目。在其他情况下,读取对的数目可指生成的读取对的总数目。
除非另有说明,否则如本文所用的术语“约”可以将数字描述为包括该数字加或减该数字的10%的值的范围。
如本文所用,如本文所用,“核酸的暴露的内部末端”可以指通过生成引入稳定或非稳定的核酸中的切割位点而产生的暴露末端,诸如为了访问末端邻近的核酸序列信息以促进相位或局部三维结构信息而引入的那些。
如本文所用,术语“约”某数字是指跨越该数字的+/-10%的范围,而“约”某范围是指比规定的范围限制低10%至比规定的范围限制高10%。
如本文所用,当鉴定其序列有助于将相邻核酸序列分配给特定的第一分区或起源细胞以排除第二分区或起源细胞时,接头上的或其他的序列片段是分区指定或细胞指定的。在一些情况下,区分序列对于分区或细胞是唯一的,因此它可以与所有其他细胞区分开来,并且当这在技术上可行时,独特的标签有助于下游分析。但是,并非在所有情况下都需要独特的序列。在一些情况下,在下游通过计算解析多余的条形码化,使得不独特的标签仍然足以区分第一分区或细胞与第二分区或细胞的核酸。
如本文所用,簇是多个不同末端相邻序列或序列标签映射到的核酸参考区域。在一些情况下,一个区域与第二个区域的邻近至少部分通过计算在配对末端读取中与第二个簇的簇成分共现的第一个簇的簇成分的数量来评估。
实施例
给出以下实施例的目的是为了说明本发明的各种实施方案,并不意味着以任何方式限制本发明。本实施例连同本文描述的方法目前代表优选实施方案,是示例性的,并且不旨在限制本发明的范围。本领域技术人员将想到其中的变化和包含在由权利要求的范围限定的本发明的精神内的其他用途。
实施例1样品制备
根据您的样品类型:细胞或组织,有两种单独的样品制备方案。两种样品类型的裂解物定量步骤相同。样品制备需要2小时。
注释:10X HiC洗涤缓冲液、10X交联逆转缓冲液和20%SDS可能在储存过程中沉淀。将溶液于37℃温育15分钟,直至沉淀不再可见。使用前进行涡旋混合。用超纯水将10XHiC洗涤缓冲液稀释至1X。在室温下储存。每个样品需要约15mL的1X HiC洗涤缓冲液。1XHiC洗涤缓冲液也可用于整个方案的其余部分。1X HiC洗涤缓冲液在室温下可稳定保存2个月。用超纯水将10X交联逆转缓冲液稀释至1X。在室温下储存。每个样品需要约1mL的1X交联逆转洗涤缓冲液。1X交联逆转缓冲液也可用于邻近连接方案。1X交联逆转缓冲液在室温下可稳定保存2个月。对于1.5mL试管,搅拌热混合器应设置为1250rpm。使用良好的实验室规范,包括在冰上解冻缓冲液并在使用前进行涡旋。
用于细胞的方案
注释:建议使用10x106个细胞作为起始材料以解决洗涤过程中的损失。如果可用的细胞少于10x106个,请参考低输入方案。开始之前,制备新的1X核酸酶消化缓冲液并在室温下储存。1X核酸酶消化缓冲液在室温下可稳定保存1天。要制备1X核酸酶消化缓冲液,请混合:140μl超纯水;20μl 10X核酸酶消化缓冲液;20μl 100mM MnCl2;20μl 10%曲拉通(Triton)。
收获细胞并在1X PBS中洗涤。对细胞进行计数,将10x106个细胞等分并以2000x g离心5分钟。小心地除去上清液。将团粒重悬在5ml 1x PBS和135μl 37%甲醛中。将样品转移到5ml试管中,并在室温下以细胞不会沉降的速度旋转10分钟。将试管以2000x g离心5分钟。谨慎小心地去除上清液,因为细胞团粒可能松散。用HiC洗涤缓冲液洗涤沉淀,首先用200μl将团块打散,然后添加剩余的4.8ml,上下移液以使团粒完全重悬。将试管以2000x g旋转5分钟并小心地去除上清液。重复洗涤步骤,总共洗涤2次。去除第二次洗涤后,将团粒重悬在1ml 1X HiC洗涤缓冲液中并重悬团粒。对细胞进行计数,将1x106个细胞添加到三个单独的试管中,将剩余的细胞以团粒形式-80℃冷冻储存。将三个试管以2000x g离心5分钟并去除上清液。将每个试管中的团粒重悬于50μl 1X核酸酶消化缓冲液(新制)中。在搅拌热混合器中以1250rpm将试管预热至30℃2分钟。将装有7.5μl核酸酶预混物的新1.5ml试管在搅拌热混合器中以1250rpm在30℃下预热2分钟。将预热的核酸酶预混物如下地转移到每个预热的试管中,第一个试管0.5μl,第二个试管2.0μl,第三个试管4.0μl。将试管在搅拌热混合器中以1250rpm在30℃下精确温育30分钟。通过添加5μl 0.5M EDTA并混合以终止核酸酶反应。添加3μl20%SDS以裂解细胞,并将细胞在搅拌热混合器中以1250rpm在30℃下孵育5分钟。
用于组织的方案
注释:建议使用60mg组织。如果可用的组织少于60mg,请参考低输入方案。开始之前,制备新的1X核酸酶消化缓冲液并在室温下储存。1X核酸酶消化缓冲液在室温下可稳定保存1天。要制备1X核酸酶消化缓冲液,混合:140μl超纯水;20μl 10X核酸酶消化缓冲液;20μl 100mM MnCl2;20μl 10%曲拉通。
称重至少60mg冷冻组织并用研钵和研杵在液氮中研磨成细粉至图1A和图1B所示的稠度,其中图1A显示组织研磨不足,图1B显示组织研磨充分。将破裂的组织转移到装有5ml 1X PBS和135μl37%甲醛的5ml试管中。将试管在室温下旋转10分钟。将试管以2000x g离心5分钟并小心地去除上清液。在组织不成团粒的情况下,将试管以最大速度旋转5分钟。将团粒重悬于200μl洗涤缓冲液中,然后添加4.8ml 1X HiC洗涤缓冲液。将试管以2000x g离心5分钟并去除上清液。将洗涤步骤进行2次,并将最终团粒重悬于1ml 1X HiC洗涤缓冲液中。使重悬的细胞通过200μm过滤器进入新的5ml试管中,必要时更换过滤器。使附加的2ml 1X HiC洗涤缓冲液通过200μm过滤器。将样品在三个单独的试管中分成三个1ml等分试样,每个等分试样对应于20mg组织。可以将过量的组织造粒并在-80℃下储存。将三个试管以2000x g离心5分钟并去除上清液。将每个试管中的团粒重悬于50μl 1X核酸酶消化缓冲液(新制)中。在搅拌热混合器中以1250rpm将试管预热至30℃2分钟。将装有7.5μl核酸酶预混物的新1.5ml试管在搅拌热混合器中以1250rpm在30℃下预热2分钟。将预热的核酸酶预混物如下地转移到每个预热的试管中,第一个试管0.5μl,第二个试管2.0μl,第三个试管4.0μl。将试管在搅拌热混合器中以1250rpm在30℃下精确温育30分钟。通过添加5μl0.5MEDTA并混合以终止核酸酶反应。添加3μl 20%SDS以裂解细胞,并将细胞在搅拌热混合器中以1250rpm在30℃下孵育5分钟。
实施例2:裂解物定量
注释:裂解物定量需要2小时。现制80%乙醇用于使用SPRIselect珠进行DNA纯化。定量步骤有两个目标:确定在邻近连接步骤中使用的样品体积,以及确定在样品制备中获得的三个试管中的哪一个用于邻近连接。
通过将每个试管中的2μl裂解物与18μl 1X HiC洗涤缓冲液混合,将每个裂解物稀释为1:10。将未稀释的裂解物在-80℃下储存。将2.5μl每个裂解物转移到装有50μl交联反转缓冲液和1.5μl蛋白酶K的试管中。将混合物通过移液混合并在55℃下温育15分钟,然后在搅拌热混合器中以1250rpm在68℃下温育45分钟。将100μl SPRIselect珠添加到每个试管中并进行涡旋以重悬,离心并在室温下远离磁体温育5分钟。将试管置于磁体中5分钟或直到溶液看起来澄清且珠已完全分离。去除上清液并用80%乙醇洗涤珠两次,每次1分钟,但不从磁体上取下试管。第二次洗涤后,将试管离心并在磁体上放置1分钟。用移液管除去剩余的乙醇。将珠在磁体上风干5分钟,直到没有乙醇残留但不会过度干燥。从磁体上取下试管,将珠重悬在pH 8.0的10μl TE缓冲液中。将试管涡旋、离心并在磁铁上放置1分钟。将8μl上清液转移到新试管中。使用Qubit荧光计和Qubit dsDNA HS试剂盒对样品进行定量。将浓度记录在电子表格中。使用TapeStation D5000或D5000HS ScreenTape确定片段大小分布。如果使用D5000HS ScreenTape,样品应稀释至1ng/μl。在TapeStation系统上分析区域:区域1 100-2500bp;区域2 100-600bp以及区域3 600-2500bp。计算并记录总百分比。数据如图2所示,100bp至2500bp占总数的76.33%,100bp至600bp占总数的28.82%,600bp至2500bp占总数的47.82%。
计算对应于1000ng的样品体积。计算染色质消化效率(CDE)和染色质消化指数(CI)。确定哪些样品通过了QC指标。
实施例3:邻近连接
注释:邻近连接需要5.5小时。对于1.5ml试管,将搅拌热混合器设置为1250rpm。将样品放在磁体上时,需要经过一段时间以使溶液完全澄清,然后去除上清液。制备新的桥连接预混物(50μl)并在使用前储存在冰上。为制备50μl桥连接预混物,将10μl 5X连接缓冲液、5μl桥和35μl超纯水混合。现制80%乙醇用于使用SPRIselect珠进行DNA纯化。
将染色质与染色质捕获珠结合
使染色质捕获珠达到室温并在使用前进行涡旋。将100μl染色质捕获珠转移到装有1000ng来自实施例1的样品(如计算所得)的1.5ml试管中。将样品通过移液混合并在室温下远离磁体温育。将试管置于磁体上5分钟或直到溶液澄清且珠已分离。去除上清液。从磁力架上取下试管并用150μl 1X Hi-C洗涤缓冲液洗涤珠,通过移液10次进行混合并放置在磁体上,然后去除上清液。将洗涤步骤重复一次。
末端精修
从磁力架上取下试管并添加50μl末端精修缓冲液和3.5μl末端精修酶预混物。将样品通过移液混合并在22℃下温育30分钟,然后在搅拌热混合器中以1250rpm在65℃下温育30分钟。使试管达到室温,然后将其在磁力架上放置1分钟或直到溶液看起来澄清且珠已分离。去除上清液。从磁力架上取下试管并用150μl 1X Hi-C洗涤缓冲液洗涤珠一次,通过移液混合。然后将试管放回磁力架上1分钟并去除上清液。
桥连接
从磁力架上取下试管并添加50μl桥连接预混物(现制)和1μl T4DNA连接酶。将样品通过移液混合并在22℃下温育30分钟,将试管在磁力架上放置1分钟或直到溶液澄清。去除上清液并从从磁力架上取下试管。将珠用150μl 1X Hi-C洗涤缓冲液重悬并通过移液混合。将试管在磁体上放置1分钟并去除上清液。
聚集体内连接
从磁力架上取下试管并向珠添加50μl聚集体间连接缓冲液和2μl聚集体间连接预混物。将样品通过移液混合并在搅拌热混合器中在22℃下温育1小时。将试管在磁力架上放置1分钟或直到溶液看起来澄清且珠已分离。去除上清液。
交联逆转
从磁力架上取下试管并向珠添加50μl加1.5μl蛋白酶K。将样品通过移液混合并在55℃下温育15分钟,然后在搅拌热混合器中以1250rpm在68℃下温育45分钟。
在SPRIselect珠上进行DNA纯化
将SPRIselect珠涡旋30秒以重悬。将35μl重悬的珠添加到1.5ml样品试管中。将样品涡旋并离心,在室温下远离磁体温育5分钟。将试管在磁体上放置5分钟或直到溶液看起来澄清且珠已分离。去除上清液。将试管留在磁体上,用150μl 80%乙醇洗涤两次。在这些洗涤液中不重悬珠,添加乙醇,温育1分钟并去除乙醇。第二次洗涤后,将试管离心并在磁体上放置1分钟,用移液管除去最后的乙醇。将珠在磁体上风干5分钟,直到没有乙醇残留,但珠不会过度干燥。从磁体上取下试管并添加52μl TE缓冲液pH 8.0。将样品涡旋、离心并在室温下远离磁体温育5分钟。将试管离心,在磁体上放置1分钟。将50μl上清液转移到新的1.5ml试管中。丢弃珠。使用Qubit荧光计和Qubit dsDNA HS试剂盒对样品进行定量。进行文库制备步骤需要200ng。纯化的DNA可在20℃下保存长达6个月。
实施例4:文库制备
注释:文库制备方案不需要片段化并且需要2小时。
末端修复
注释:末端修复缓冲液在储存时有时会沉淀,应在37℃下温育至少10分钟,直到没有可见的沉淀。在使用前通过移液将250mM DTT混合至完全混合。
用48μl纯化样品、7μl末端修复缓冲液、3μl末端修复预混物和0.5μl 250mM DTT制备0.2ml PCR试管。将混合物通过移液混合并离心。将样品在20℃下温育30分钟,然后在热循环仪中在65℃下温育30分钟。将样品保持在12℃。
衔接子连接和USER消化
将含有样品的0.2ml PCR试管与2.5μl Illumina的衔接子、1μl连接增强剂和30μl连接预混物混合。将样品通过移液混合并将试管离心。将样品在热循环仪中在20℃下温育15分钟并保持在12℃。向PCR试管中添加3μl USER预混物。将样品通过移液混合并离心。将样品在热循环仪中在37℃下温育15分钟并保持在12℃。
DNA纯化
将SPRIselect珠涡旋30秒以重悬。将80μl重悬的珠添加到PCR试管中。将样品涡旋并离心,在室温下远离磁体温育5分钟。将试管在磁体上放置5分钟或直到溶液看起来澄清且珠已分离。去除上清液。将试管留在磁体上,用150μl 80%乙醇洗涤两次。在这些洗涤液中不重悬珠,添加乙醇,温育1分钟并去除乙醇。第二次洗涤后,将试管离心并在磁体上放置1分钟,用移液管除去最后的乙醇。将珠在磁体上风干5分钟,直到没有乙醇残留,但珠不会过度干燥。从磁体上取下试管并添加100μl TE缓冲液pH 8.0。将样品涡旋、离心并在室温下远离磁体温育5分钟。将试管离心,在磁体上放置1分钟。将95μl上清液转移到新的1.5ml试管中。丢弃珠。纯化的DNA可在20℃下保存过夜。
实施例5:连接捕获和扩增
注释:连接捕获和扩增方案需要两个小时。
链霉亲和素珠制备
注释:该步骤不涉及任何DNA样品。
将链霉亲和素珠涡旋以重悬。将25ml重悬的链霉亲和素珠转移到1.5ml试管中。将含有链霉亲和素珠的试管放在磁体上5分钟并去除上清液。从磁力架上取下试管,用200μlTWB(红色标记)洗涤链霉亲和素珠并通过移液混合。将样品在磁力架上放置1分钟并去除上清液。将洗涤步骤重复一次。将链霉亲和素珠用100μl 2X NTP(黄色标记)重悬并通过移液混合。
连接捕获
将95μl纯化的DNA转移到含有重悬于100μl 2X NTB中的链霉亲和素珠的1.5ml试管中。将试管涡旋10秒并离心。将混合物在搅拌热混合器中在25℃下温育30分钟。
洗涤链霉亲和素珠上的样品
注释:对于每次洗涤,从磁力架上取下试管,将指定的缓冲液添加到珠中,重悬珠,然后将试管在磁体上放置1分钟并去除上清液,注意在每次洗涤之间去除所有上清液。
将试管离心,然后在磁体上放置1分钟并去除上清液。用200μl LWB洗涤珠一次。用200μl NWB洗涤珠两次。用200μl 1X HiC洗涤缓冲液洗涤珠两次。
引物PCR
注释:并非所有的PCR酶和预混液都适合在存在链霉亲和素珠的情况下进行扩增,因此使用提供的PCR ready mix。
最后一次洗涤完成之后,从磁力架上取下试管并向珠中添加5μl HotStart PCRReady Mix、5μl通用PCR引物、5μl索引引物(对于每个样品唯一)以及15μl不含DNase和RNase的蒸馏水。将混合物通过移液混合并转移到0.2ml PCR试管中。将试管离心并置于热循环仪中以运行如下程序:98℃3分钟,12个循环(98℃20秒,65℃30秒,72℃30秒),72℃1分钟,保持12℃。
大小选择
将PCR试管离心并在磁体上放置1分钟。将47μl上清液转移到1.5ml试管中并丢弃珠。将53μl TE缓冲液pH 8.0添加到试管中,使总体积达到100μl。将SPRIselect珠涡旋30秒,然后将45μl重悬的SPRIselect珠添加到包含样品的1.5ml试管中。将混合物涡旋以重悬,离心并在室温下远离磁体温育10分钟。将试管离心并在磁体上放置5分钟。将145μl上清液转移到新的1.5ml试管中并丢弃珠。将35μl SPRIselect珠添加到1.5ml试管中,涡旋以重悬,离心并在室温下远离磁体温育10分钟。将试管离心并在磁体上放置5分钟。去除上清液。将试管留在磁体上并用200μl 80%乙醇洗涤珠两次。对于这些洗涤,不重悬珠。将试管离心并在磁体上放置1分钟。使用10μl移液器吸头去除痕量乙醇。将珠在磁体上风干5分钟,直到没有乙醇残留但不会过度干燥。将珠重悬在30μl TE缓冲液pH 8.0中,通过移液混合。将试管离心并在室温下远离磁体温育2分钟。将试管离心并在磁体上放置1分钟。将28μl上清液转移到新的1.5ml试管中。该试管包含文库。使用Qubit荧光计和Qubit dsDNA HS试剂盒对大小选择的文库进行量化。至少回收60ng DNA。如果回收的DNA少于60ng,则丢弃该文库。使用TapeStation或Bioanalyzer验证大小选择的文库的大小分布,文库的大小范围在350bp和1000bp之间。文库可在-20℃下保存长达6个月。
实施例6:低输入样品制备
当建议的输入不可用时使用该方法。较低的样品输入有时会导致最终文库的复杂性较低。
细胞
使用可用的细胞数量并使用实施例1中用于细胞的方法,直到核酸酶步骤。在核酸酶步骤中,将0.1μl预热的核酸酶预混物添加到第一个试管中,将0.5μl预热的核酸酶预混物添加到第二个试管中,并将2.0μl核酸酶预混物添加到第三个试管中。
组织
使用可用的组织量(至少5mg)并使用实施例1中用于组织的方法,直到核酸酶步骤。在核酸酶步骤中,将0.1μl预热的核酸酶预混物添加到第一个试管中,将0.5μl预热的核酸酶预混物添加到第二个试管中,并将2.0μl核酸酶预混物添加到第三个试管中。
实施例7:索引引物
使用以下索引引物:
Figure BDA0003523933710001611
根据以下方案选择索引引物:
Figure BDA0003523933710001612
实施例8:样品制备-MNase
根据您的样品类型:细胞或组织,有两种单独的样品制备方案。两种样品类型的裂解物定量步骤相同。样品制备需要2小时。
注释:10X HiC洗涤缓冲液、10X交联逆转缓冲液和20%SDS可能在储存过程中沉淀。将溶液于37℃温育15分钟,直至沉淀不再可见。使用前进行涡旋混合。用超纯水将10XHiC洗涤缓冲液稀释至1X。在室温下储存。每个样品需要约15mL的1X HiC洗涤缓冲液。1XHiC洗涤缓冲液也可用于整个方案的其余部分。1X HiC洗涤缓冲液在室温下可稳定保存2个月。用超纯水将10X交联逆转缓冲液稀释至1X。在室温下储存。每个样品需要约1mL的1X交联逆转缓冲液。1X交联逆转缓冲液也可用于邻近连接方案。1X交联逆转缓冲液在室温下可稳定保存2个月。对于1.5mL试管,搅拌热混合器应设置为1250rpm。使用良好的实验室规范,包括在冰上解冻缓冲液并在使用前进行涡旋。
细胞的方案
建议使用10x106个细胞作为起始材料以解决洗涤过程中的损失。如果可用的细胞少于10x106个,请参考低输入方案。开始之前,制备新的1X MNase消化缓冲液并在室温下储存。1X MNase消化缓冲液在室温下可稳定保存1天。要制备1X MNase消化缓冲液,混合:140μl超纯水;20μl 10X MNase消化缓冲液;20μl 100mM MnCl2;20μl 10%曲拉通。
收获细胞并在1X PBS中洗涤。对细胞进行计数,将10x106个细胞等分并以2000x g离心5分钟。小心地除去上清液。将团粒重悬在5ml 1x PBS和135μl 37%甲醛中。将样品转移到5ml试管中,并在室温下以细胞不会沉降的速度旋转10分钟。将试管以2000x g离心5分钟。谨慎小心地去除上清液,因为细胞团粒可能松散。用HiC洗涤缓冲液洗涤沉淀,首先用200μl将团块打散,然后添加剩余的4.8ml,上下移液以使团粒完全重悬。将试管以2000x g旋转5分钟并小心地去除上清液。重复洗涤步骤,总共洗涤2次。去除第二次洗涤后,将团粒重悬在1ml 1X HiC洗涤缓冲液中并重悬团粒。对细胞进行计数,将1x106个细胞添加到三个单独的试管中,将剩余的细胞以团粒形式-80℃冷冻储存。将三个试管以2000x g离心5分钟并去除上清液。将每个试管中的团粒重悬于50μl 1X MNase消化缓冲液(新制)中。在搅拌热混合器中以1250rpm将试管预热至30℃2分钟。将装有7.5μl MNase预混物的新1.5ml试管在搅拌热混合器中以1250rpm在30℃下预热2分钟。将预热的MNase混合物如下地转移到每个预热的试管中,第一个试管0.5μl,第二个试管2.0μl,第三个试管4.0μl。将试管在搅拌热混合器中以1250rpm在30℃下精确温育30分钟。通过添加5μl 0.5M EDTA并混合以终止MNase反应。添加3μl20%SDS以裂解细胞,并将细胞在搅拌热混合器中以1250rpm在30℃下孵育5分钟。
组织的方案
注释:建议使用60mg组织。如果可用的组织少于60mg,请参考低输入方案。开始之前,制备新的1X MNase消化缓冲液并在室温下储存。1X MNase消化缓冲液在室温下可稳定保存1天。要制备1X MNase消化缓冲液,混合:140μl超纯水;20μl 10X MNase消化缓冲液;20μl 100mM MnCl2;20μl 10%曲拉通。
称重至少60mg冷冻组织并用研钵和研杵在液氮中研磨成细粉至图1A和图1B所示的稠度,其中图1A显示组织研磨不足,图1B显示组织研磨充分。将破裂的组织转移到装有5ml 1X PBS和135μl 37%甲醛的5ml试管中。将试管在室温下旋转10分钟。将试管以2000xg离心5分钟并小心地去除上清液。在组织不成团粒的情况下,将试管以最大速度旋转5分钟。将团粒重悬于200μl洗涤缓冲液中,然后添加4.8ml 1X HiC洗涤缓冲液。将试管以2000xg离心5分钟并去除上清液。将洗涤步骤进行2次,并将最终团粒重悬于1ml 1X HiC洗涤缓冲液中。使重悬的细胞通过200μm过滤器进入新的5ml试管中,必要时更换过滤器。使附加的2ml 1X HiC洗涤缓冲液通过200μm过滤器。将样品在三个单独的试管中分成三个1ml等分试样,每个等分试样对应于20mg组织。可以将过量的组织造粒并在-80℃下储存。将三个试管以2000x g离心5分钟并去除上清液。将每个试管中的团粒重悬于50μl 1X MNase消化缓冲液(新制)中。在搅拌热混合器中以1250rpm将试管预热至30℃2分钟。将装有7.5μl MNase预混物的新1.5ml试管在搅拌热混合器中以1250rpm在30℃下预热2分钟。将预热的MNase混合物如下地转移到每个预热的试管中,第一个试管0.5μl,第二个试管2.0μl,第三个试管4.0μl。将试管在搅拌热混合器中以1250rpm在30℃下精确温育30分钟。通过添加5μl0.5M EDTA并混合以终止MNase反应。添加3μl 20%SDS以裂解细胞,并将细胞在搅拌热混合器中以1250rpm在30℃下孵育5分钟。
实施例9:来自MNase-C文库的结果
使用本文的方法制备邻近连接文库并测序以确定长范围信息的测量。图7示出了使用MNase制备的文库(“MNase-C”)相比于DNase制备的文库(“DNase-C”)以及使用不同交联剂的读数分离。对于每个条柱,最低部分显示基因组中分离超过1kb的读取对的百分比,中间部分显示基因组中分离小于1kb的读取对的百分比,并且最上面部分显示具有染色体间相互作用的读取对的百分比。从左到右,条柱显示1)DNase与甲醛交联剂、2)DNase与DSG交联剂、3)MNase与EGS交联剂反应10分钟、4)MNase与EGS交联剂反应30分钟、5)MNase与DSG交联剂反应10分钟以及6)MNase与DSG交联剂反应30分钟。图8示出了与DNase-C制备的文库(DSG和甲醛交联剂)相比,MNase-C制备的文库(DSG和EGS交联剂)的染色体1计算的连锁距离分布。与用甲醛制备的DNase-C文库相比,用间隔臂较长的DSG制备的DNase-C文库在更大的连锁距离处显示更大比例的读数,这也反映在图7中。
还确定了全基因组核小体映射的测量。图9示出了用不同量的MNase和不同消化时间制备的文库的高占位CTCF结合位点周围的相对读取覆盖:30分钟0.05个单位,30分钟0.5个单位,20分钟2.5个单位,以及60分钟2.5个单位,如图例所示。图10示出了在制备的文库中发现的单核小体:双核小体的比率,(从左到右)30分钟0.05U、30分钟0.5U、20分钟2.5U、60分钟2.5U,最右侧为梯度。单核小体:双核小体的比率(从左到右)分别为0.96、1.51、2.39和4.86。
实施例10:使用MNase消化的样品进行HiC分析
用户希望以高精度确定生物样品中核酸结合蛋白的位置。使用化学固定剂使生物样品交联,以便将核酸结合蛋白交联到它们所结合的核酸上。然后用微球菌核酸酶(MNase)消化固定的样品,该酶会消化所有未与蛋白质结合的核酸。然后用DNA连接酶处理MNase处理的核酸以获得邻近连接产物。纯化核酸,并创建测序文库。对测序文库进行测序以获得MNase消化样品的读取对。从读数对可以高精度地确定生物样品中核酸结合蛋白的定位,因为仅获得来自与核酸结合蛋白结合的核酸的序列。
实施例11:使用MNase消化的样品进行HiChIP
MNase HiChIP分析如下进行:用甲醛和DSG交联使细胞样品交联,用MNase原位消化,并用RIPA裂解缓冲液裂解。将CCCTC-结合因子(CTCF)和H3K4me3-修饰的组蛋白的抗体与样品接触并通过磁珠拉下。进行邻近连接,包括末端精修、桥连接和聚集体内连接。然后,逆转交联,清理DNA,制备测序文库,并用20-40百万个2x150bp读数进行测序。
为了比较,在一组具有相同抗体的平行样品上进行ChIP-seq分析。程序相同,但没有交联、消化和邻近连接步骤。
图11示出了与加利福尼亚大学圣克鲁兹分校(UCSC)基因组浏览器的DNA元件百科全书(ENCODE)中报告的峰相比的ChIP-seq和HiChIP结果。阴性对照文库显示覆盖整个基因组,而CTCF和H3K4me3文库显示在与其结合位点的ENCODE峰位置匹配的基因座上堆积的测序读数。这显示这些文库确实传达了ChIP-seq信号,读数几乎完全来自与所选抗体相对应的蛋白质预期结合的区域。
图12示出了HiChIP样品的CTCF结合位点周围的相对读取覆盖。相对读取覆盖度显示出大约146bp的周期性,这与核小体中组蛋白的存在保护DNA免受MNase消化的区域一致。这显示这些文库确实具有MNase-C文库所期望的保护特性。
在表3-5中,染色体间代表染色体间读取对的百分比(对中的每个读取都映射到不同的染色体),<1kb代表在基因组上跨越小于1kb的间隔距离的读取对的百分比,>1kb代表在基因组上跨越大于1kb的间隔距离的读取对的百分比,映射分数代表映射的读取对的百分比,并且preSeqAt300M代表3亿个读取中独特读取的数量。
表3示出了MNase-C文库的典型文库质量控制(QC)指标。染色体间读取对的百分比为33%至35%,跨越小于1kb的间隔距离的读取对的百分比为7%至12%,跨越大于1kb的间隔距离的读取对的百分比为55%至58%,映射分数为67%至79%,并且3亿个读取中独特读取的数量为1.68亿至2.38亿。如表4所示,MNase HiChIP文库的QC指标与MNase-C文库的QC指标相对类似,其中染色体间读取对为21.6%至43.4%,跨越小于1kb的读取对为18.2%至31.2%,跨越大于1kb的读取对为25.4%至56.2%,并且3亿个读取中有2.72亿至2.79亿个独特读取。相比之下,ChIP-seq文库的QC指标与MNase-C文库(或其他邻近连接文库)不同,其中染色体间读取对为0.46%至1.65%,跨越小于1kb的读取对为98.64%至99.45%,并且跨越大于1kb的读取对为0.09%至0.16%。
Figure BDA0003523933710001661
Figure BDA0003523933710001662
Figure BDA0003523933710001663
图13示出了在示出与靶蛋白相关的读取堆积的读取覆盖度图(如图11所示)上以及在基因注释图上呈现的读取对接触图。H3K4me3修饰与附近基因的转录有关。可以看到密集接触区域1301从读取覆盖度的H3K4me3相关峰1302开始并继续向左;如底部所示,该区域1303也被注释为包含以相同方向读取的基因。类似地,可以看到密集接触区域1304从读取覆盖度的H3K4me3相关峰1305开始并继续向右;如底部所示,该区域1306也被注释为包含以相同方向读取的FABP5基因。CTCF与染色质环的形成有关,结合至不同基因座的两个CTCF蛋白聚集在一起,它们之间的DNA形成环。可以看到代表拓扑相关结构域(TAD)的接触密度三角形,例如,峰值为1311、1314、1317和1320的三角形。沿着这些三角形的左右边缘,可以看出这些区域的边界与CTCF相关峰对齐(例如,1311与CTCF峰1312和1313,1314与CTCF峰1315和1316,1317与CTCF峰1318和1319,1320与CTCF峰1321和1322),从而可以辨别哪些特定的CTCF位点聚集在一起形成哪些环和结构域。
图14示出了如图11中的MNase HiChIP结果与ENCODE峰的相同比较,但是样品在相同和随后的几天重复。这示出了方案的一致性和可重复性。
总体而言,这些实验表明MNase HiChIP文库具有ChIP-seq特征、MNase特性、Hi-C特性,显示蛋白质峰之间的Hi-C相互作用,并且该方案是稳健的并且具有高可重复性。
实施例12:使用分离-汇集标记方法的邻近连接
获得稳定化的生物样品,其包含已用交联剂固定的细胞。用DNase处理样品以原位消化细胞中的DNA。然后用酶处理样品以精修DNA末端并使DNA末端多聚腺苷酸化。然后将细胞分配到96孔板的孔中,每个孔一个细胞。将条形码添加到每个孔中并连接至每个孔中的DNA末端。然后将细胞汇集并再次分配,每个孔一个细胞。添加第二条形码并将其连接至每个孔中的第一条形码。然后将细胞再次汇集并再次分配,每个孔一个细胞,将桥接衔接子连接至与第二个桥接衔接子兼容的突出端。该方法如图16所示。然后将邻近末端连接,从而产生如图17所示的分子,其中每个末端具有两个条形码和一个桥,该桥链接至另一末端的另一个桥。图18示出了由分离和汇集方法产生的条形码和桥的组合的示例。然后逆转交联,纯化核酸并测序以获得序列信息。
实施例13:使用靶向衔接子的邻近连接
获得稳定化的生物样品,其包含已用交联剂固定的细胞。用DNase处理样品以原位消化细胞中的DNA。然后用酶处理样品以精修DNA末端并使DNA末端多聚腺苷酸化。然后将样品与结合至DNA中的组蛋白的抗体接触,然后将样品与多个蛋白A栓系的生物素化文库衔接子接触,然后连接DNA末端。衔接子连接在结合组蛋白结合抗体的邻近末端之间。使用链霉亲和素拉下生物素化衔接子,并在所得纯化样品上逆转交联。然后进行扩增和PCR以获得序列信息。
实施例14:聚合三维核酸构象测定可能会丢失细胞特异性信息。
收集细胞群用于三维核酸构象分析。群体中的细胞共享一种核酸构象,导致染色体1和染色体2的区域邻近,而染色体3和4的区域在一些但不是所有细胞中邻近。将稳定化的细胞核分区、片段化以暴露内部末端、attB标签化,然后在phiC31整合酶存在下与缺乏细胞区分信息的attP链接核酸群接触。
对文库成分进行末端测序。可以观察到,在背景上方差异地观察到映射到共有分子上的染色体1和2的读取对。可以观察到,在背景上方以较低的频率差异地观察到映射到共有分子上的染色体3和4的读取对。
无法区分染色体3和4比染色体1和2相更邻近还是相距更远,或者细胞群成员之间是否存在构象差异。
实施例15:通过本文的方法保存细胞特异性三维核酸配置信息
收集细胞群用于三维核酸构象分析。群体中的细胞共享一种核酸构象,导致染色体1和染色体2的区域邻近,而染色体3和4的区域在一些但不是所有细胞中邻近。将稳定化的细胞核分区、片段化以暴露内部末端、attB标签化,然后在phiC31整合酶存在下与具有细胞区分信息的attP链接核酸群接触。
对文库成分进行末端测序,以获得接头的内部末端邻近序列和分区区分序列。可以观察到,在背景上方差异地观察到映射到共有分子上的染色体1和2的读取对,与分区区分序列无关。可以观察到,在细胞区分文库成分的第一群体中,观察到映射到共有分子上的染色体3和4的读取对的水平与染色体1和2相当,但是在细胞区分文库组件的第二群体中,未观察到高于背景的映射到共有分子上的染色体3和4的读取对。得出的结论是,染色体3和4的相关片段在群体内表现出构象变异,使得一些细胞表现出与染色体1和2相当的染色体3和4片段的三维邻近,而其他细胞不表现出与染色体1和2相当的染色体3和4片段的三维邻近。
实施例16:细胞特异性三维核酸构象信息可定量测量
收集细胞群用于三维核酸构象分析。群体中的细胞共享一种核酸构象,导致染色体1和染色体2的区域邻近,而染色体2和4的区域在细胞之间的邻近程度在数量上有所不同。将稳定化的细胞核分区、片段化以暴露内部末端、attB标签化,然后在phiC31整合酶存在下与具有细胞区分信息的attP链接核酸群接触。
对文库成分进行末端测序,以获得接头的内部末端邻近序列和分区区分序列。可以观察到,在背景上方差异地观察到映射到共有分子上的染色体1和2的读取对,与分区区分序列无关。可以观察到,观察到映射到共有分子上的染色体3和4的读数对的水平因细胞而异,如分区区分序列信息结合读数对频率所示。得出的结论是,染色体1和2的指示片段在整个细胞群中都很接近。得出的结论是,染色体3和4的相关片段在群体内表现出构象变异,因此关于染色体3和4的指示片段的邻近,存在连续的数量差异。
尽管在本文中已经示出和描述了本发明的优选实施方案,但是对于本领域技术人员显而易见的是,这些实施方案仅以示例的方式提供。在不脱离本发明的情况下,本领域技术人员现在将想到许多变化、改变和替换。应当理解,可以采用本文所述实施方案的各种替代方案。旨在通过以下权利要求限定本发明的范围,并由此涵盖这些权利要求范围内的方法和结构及其等同物。

Claims (73)

1.一种方法,包括:
(a)获得包含与至少一个核酸结合蛋白复合的核酸分子的稳定化生物样品;
(b)将所述稳定化生物样品与非特异性核酸内切酶接触以将所述核酸分子切割成多个片段;
(c)将所述多个片段中的第一片段和第二片段在连接序列处附接;以及
(d)对所述多个片段进行大小选择以获得多个选择片段。
2.根据权利要求1所述的方法,其中所述多个选择片段为约145bp至约600bp。
3.根据权利要求1所述的方法,其中所述多个选择片段为约100bp至约2500bp。
4.根据权利要求1所述的方法,其中所述多个选择片段为约100bp至约600bp。
5.根据权利要求1所述的方法,其中所述多个选择片段为约600bp至约2500bp。
6.根据权利要求1所述的方法,进一步包括,在步骤(d)之前,从所述多个片段制备测序文库。
7.根据权利要求6所述的方法,进一步包括对所述测序文库进行大小选择以获得大小选择的文库。
8.根据权利要求7所述的方法,其中所述大小选择的文库的大小为约350bp至约1000bp。
9.根据权利要求1至8中任一项所述的方法,其中使用凝胶电泳、毛细管电泳、大小选择珠或凝胶过滤柱进行所述大小选择。
10.根据权利要求1至9中任一项所述的方法,其中所述方法进一步包括分析所述多个选择片段以获得QC值。
11.根据权利要求10所述的方法,其中所述QC值是基于步骤(d)之前100bp至2500bp大小的片段比例的染色质消化效率(CDE)。
12.根据权利要求11所述的方法,其中所述方法进一步包括当所述CDE值为至少65%时,选择样品以进行进一步分析。
13.根据权利要求10所述的方法,其中所述QC值是基于步骤(d)之前单核小体大小的片段数量与双核小体大小的片段数量之比的染色质消化指数(CDI)。
14.根据权利要求13所述的方法,其中所述方法进一步包括当所述CDI值大于-1.5且小于1时,选择样品以进行进一步分析。
15.根据权利要求1所述的方法,进一步包括,在所述将所述稳定化生物样品与非特异性核酸内切酶接触之后,将所述多个片段结合至一个或更多个表面。
16.根据权利要求15所述的方法,其中所述一个或更多个表面包括一个或更多个珠。
17.根据权利要求16所述的方法,其中所述一个或更多个珠是固相可逆固定(SPRI)珠。
18.根据权利要求1至14中任一项所述的方法,其中所述稳定化生物样品包括稳定化细胞裂解物。
19.根据权利要求1至14中任一项所述的方法,其中所述稳定化生物样品包括稳定化完整细胞。
20.根据权利要求1至14中任一项所述的方法,其中所述稳定化生物样品包括稳定化完整细胞核。
21.根据权利要求19或权利要求20所述的方法,其中步骤(b)在所述完整细胞或所述完整细胞核的裂解之前进行。
22.根据权利要求1所述的方法,进一步包括,在步骤(c)之前,裂解所述稳定化生物样品中的细胞和/或细胞核。
23.根据权利要求1至20中任一项所述的方法,其中所述稳定化生物样品包含少于3,000,000个细胞。
24.根据权利要求1至23中任一项所述的方法,其中所述稳定化生物样品包含少于1,000,000个细胞。
25.根据权利要求1至24中任一项所述的方法,其中所述稳定化生物样品包含少于100,000个细胞。
26.根据权利要求1至25中任一项所述的方法,其中所述稳定化生物样品包含小于10μg的DNA。
27.根据权利要求1至26中任一项所述的方法,其中所述稳定化生物样品包含小于1μg的DNA。
28.根据权利要求1至27中任一项所述的方法,其中所述非特异性核酸内切酶是DNase。
29.根据权利要求28所述的方法,其中所述DNase是DNase I。
30.根据权利要求28所述的方法,其中所述DNase是DNaseII。
31.根据权利要求28所述的方法,其中所述DNase是微球菌核酸酶。
32.根据权利要求28所述的方法,其中所述DNase选自DNase I、DNaseII和微球菌核酸酶中的一种或更多种。
33.根据权利要求1至32中任一项所述的方法,其中所述稳定化生物样品已用交联剂处理。
34.根据权利要求33所述的方法,其中所述交联剂是化学固定剂。
35.根据权利要求34所述的方法,其中所述化学固定剂包括甲醛。
36.根据权利要求34所述的方法,其中所述化学固定剂包括补骨脂素。
37.根据权利要求34所述的方法,其中所述化学固定剂包括双琥珀酰亚胺戊二酸酯(DSG)。
38.根据权利要求34所述的方法,其中所述化学固定剂包括乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS)。
39.根据权利要求34所述的方法,其中所述化学固定剂包括双琥珀酰亚胺戊二酸酯(DSG)和乙二醇双(琥珀酰亚胺琥珀酸酯)(EGS)。
40.根据权利要求33所述的方法,其中所述交联剂是紫外光。
41.根据权利要求1至40中任一项所述的方法,其中所述稳定化生物样品是交联的石蜡包埋的组织样品。
42.根据权利要求1至41中任一项所述的方法,进一步包括将所述多个选择片段与抗体接触。
43.根据权利要求1所述的方法,进一步包括对所述多个片段进行免疫沉淀。
44.根据权利要求43所述的方法,其中在所述附接之后进行所述免疫沉淀。
45.根据权利要求1至42中任一项所述的方法,其中所述附接包括使用生物素标签化的核苷酸填充粘性末端。
46.根据权利要求1至42中任一项所述的方法,其中所述附接包括使用未标签化的核苷酸填充粘性末端。
47.根据权利要求1至42中任一项所述的方法,其中所述附接包括连接钝性末端。
48.根据权利要求1至42中任一项所述的方法,其中所述附接包括添加突出端。
49.根据权利要求48所述的方法,其中所述添加突出端包括腺苷酸化。
50.根据权利要求1至45中任一项所述的方法,其中所述附接包括将至少所述第一片段和所述第二片段与至少一个桥接寡核苷酸接触。
51.根据权利要求50所述的方法,其中所述桥接寡核苷酸的长度为至少10bp。
52.根据权利要求50所述的方法,其中所述桥接寡核苷酸的长度为至少12bp。
53.根据权利要求50所述的方法,其中所述桥接寡核苷酸的长度为12bp。
54.根据权利要求50所述的方法,其中所述桥接寡核苷酸包含条形码序列。
55.根据权利要求50所述的方法,其中所述桥接寡核苷酸包含亲和标签。
56.根据权利要求55所述的方法,其中所述亲和标签是生物素。
57.根据权利要求50所述的方法,其中附接包括将至少所述第一片段和所述第二片段与多个桥接寡核苷酸串联接触。
58.根据权利要求55所述的方法,其中所述附接导致所述稳定化生物样品的样品、细胞、细胞核、染色体或核酸分子接收独特的桥接寡核苷酸序列。
59.根据权利要求50至56中任一项所述的方法,其中所述至少一个桥接寡核苷酸与免疫球蛋白结合蛋白或其片段偶联。
60.根据权利要求50至57中任一项所述的方法,其中所述至少一个桥接寡核苷酸与两个或更多个免疫球蛋白结合蛋白或其片段偶联或融合。
61.根据权利要求57或权利要求58所述的方法,其中所述免疫球蛋白结合蛋白选自蛋白质A、蛋白质G、蛋白质A/G和蛋白质L。
62.根据权利要求1至45中任一项所述的方法,其中附接包括将至少所述第一片段和所述第二片段与条形码接触。
63.根据权利要求1至60中任一项所述的方法,其中所述方法不包括剪切步骤。
64.根据权利要求1所述的方法,进一步包括:
(e)在所述连接序列的每一侧获得至少一些序列以生成第一读取对。
65.根据权利要求62所述的方法,进一步包括:
(f)将所述第一读取对映射到重叠群的集合上;以及
(g)确定通过所述重叠群的集合的代表到基因组的顺序和/或取向的路径。
66.根据权利要求62所述的方法,进一步包括:
(f)将所述第一读取对映射到重叠群的集合上;以及
(g)从所述重叠群的集合确定所述稳定化生物样品中的结构变体的存在或杂合性丢失。
67.根据权利要求62所述的方法,进一步包括:
(f)将所述第一读取对映射到重叠群的集合上;以及
(g)将所述重叠群的集合中的变体分配给相位。
68.根据权利要求65所述的方法,其中所述变体是人类白细胞抗原(HLA)变体。
69.根据权利要求65所述的方法,其中所述变体是杀伤细胞免疫球蛋白样受体(KIR)变体。
70.根据权利要求62所述的方法,进一步包括:
(f)将所述第一读取对映射到重叠群的集合上;
(g)从所述重叠群的集合确定所述重叠群的集合中的变体的存在;以及
(h)进行选自以下一项或多项的步骤:(1)鉴定所述稳定化生物样品的疾病分期、预后或治疗过程;(2)基于所述变体的所述存在选择药物;或(3)鉴定所述稳定化生物样品的药物疗效。
71.根据权利要求1至68中任一项所述的方法,其中所述DNase与免疫球蛋白结合蛋白或其片段偶联或融合。
72.根据权利要求1至69中任一项所述的方法,其中所述DNase与两个或更多个免疫球蛋白结合蛋白或其片段偶联。
73.根据权利要求69或权利要求70所述的方法,其中所述免疫球蛋白结合蛋白选自蛋白质A、蛋白质G、蛋白质A/G和蛋白质L。
CN202080061082.4A 2019-06-27 2020-06-25 用于邻近连接的方法和组合物 Pending CN114341638A (zh)

Applications Claiming Priority (11)

Application Number Priority Date Filing Date Title
US201962867463P 2019-06-27 2019-06-27
US62/867,463 2019-06-27
US201962870297P 2019-07-03 2019-07-03
US62/870,297 2019-07-03
US201962931069P 2019-11-05 2019-11-05
US62/931,069 2019-11-05
US202063011490P 2020-04-17 2020-04-17
US63/011,490 2020-04-17
US202063014422P 2020-04-23 2020-04-23
US63/014,422 2020-04-23
PCT/US2020/039656 WO2020264185A1 (en) 2019-06-27 2020-06-25 Methods and compositions for proximity ligation

Publications (1)

Publication Number Publication Date
CN114341638A true CN114341638A (zh) 2022-04-12

Family

ID=74060318

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080061082.4A Pending CN114341638A (zh) 2019-06-27 2020-06-25 用于邻近连接的方法和组合物

Country Status (7)

Country Link
US (1) US20220267826A1 (zh)
EP (1) EP3990920A4 (zh)
JP (1) JP2022541387A (zh)
CN (1) CN114341638A (zh)
AU (1) AU2020302791A1 (zh)
CA (1) CA3145212A1 (zh)
WO (1) WO2020264185A1 (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
IL262946B2 (en) 2016-05-13 2023-03-01 Dovetail Genomics Llc Retrieving long-range grip information from preserved samples
CA3203900A1 (en) * 2020-12-30 2022-07-07 Dovetail Genomics, Llc Methods and compositions for sequencing library preparation
EP4215619A1 (en) * 2022-01-21 2023-07-26 Genomill Health Oy Methods for sensitive and accurate parallel quantification of nucleic acids
WO2023146922A2 (en) * 2022-01-25 2023-08-03 Dovetail Genomics, Llc Methods for human leukocyte antigen typing and phasing
WO2024006712A1 (en) * 2022-06-27 2024-01-04 Arima Genomics, Inc. Methods for preparation and analysis of proximity-ligated nucleic acids from single cells

Family Cites Families (80)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
NL154598B (nl) 1970-11-10 1977-09-15 Organon Nv Werkwijze voor het aantonen en bepalen van laagmoleculire verbindingen en van eiwitten die deze verbindingen specifiek kunnen binden, alsmede testverpakking.
US3817837A (en) 1971-05-14 1974-06-18 Syva Corp Enzyme amplification assay
US3939350A (en) 1974-04-29 1976-02-17 Board Of Trustees Of The Leland Stanford Junior University Fluorescent immunoassay employing total reflection for activation
US3996345A (en) 1974-08-12 1976-12-07 Syva Company Fluorescence quenching with immunological pairs in immunoassays
US4277437A (en) 1978-04-05 1981-07-07 Syva Company Kit for carrying out chemically induced fluorescence immunoassay
US4275149A (en) 1978-11-24 1981-06-23 Syva Company Macromolecular environment control in specific receptor assays
US4366241A (en) 1980-08-07 1982-12-28 Syva Company Concentrating zone method in heterogeneous immunoassays
US5242794A (en) 1984-12-13 1993-09-07 Applied Biosystems, Inc. Detection of specific sequences in nucleic acids
US4988617A (en) 1988-03-25 1991-01-29 California Institute Of Technology Method of detecting a nucleotide change in nucleic acids
US5234809A (en) 1989-03-23 1993-08-10 Akzo N.V. Process for isolating nucleic acid
US5143854A (en) 1989-06-07 1992-09-01 Affymax Technologies N.V. Large scale photolithographic solid phase synthesis of polypeptides and receptor binding screening thereof
US5494810A (en) 1990-05-03 1996-02-27 Cornell Research Foundation, Inc. Thermostable ligase-mediated DNA amplifications system for the detection of genetic disease
EP0562025B1 (en) 1990-12-06 2001-02-07 Affymetrix, Inc. (a Delaware Corporation) Compounds and their use in a binary synthesis strategy
US5994056A (en) 1991-05-02 1999-11-30 Roche Molecular Systems, Inc. Homogeneous methods for nucleic acid amplification and detection
ATE241426T1 (de) 1991-11-22 2003-06-15 Affymetrix Inc A Delaware Corp Verfahren zur herstellung von polymerarrays
US6033854A (en) 1991-12-16 2000-03-07 Biotronics Corporation Quantitative PCR using blocking oligonucleotides
US5567583A (en) 1991-12-16 1996-10-22 Biotronics Corporation Methods for reducing non-specific priming in DNA detection
US5348853A (en) 1991-12-16 1994-09-20 Biotronics Corporation Method for reducing non-specific priming in DNA amplification
AU684279B2 (en) 1993-04-12 1997-12-11 Northwestern University Method of forming oligonucleotides
US5837832A (en) 1993-06-25 1998-11-17 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
EP0730663B1 (en) 1993-10-26 2003-09-24 Affymetrix, Inc. Arrays of nucleic acid probes on biological chips
US6110709A (en) 1994-03-18 2000-08-29 The General Hospital Corporation Cleaved amplified modified polymorphic sequence detection methods
US5571639A (en) 1994-05-24 1996-11-05 Affymax Technologies N.V. Computer-aided engineering system for design of sequence arrays and lithographic masks
US5705628A (en) 1994-09-20 1998-01-06 Whitehead Institute For Biomedical Research DNA purification and isolation using magnetic particles
US5795716A (en) 1994-10-21 1998-08-18 Chee; Mark S. Computer-aided visualization and analysis system for sequence evaluation
US5599695A (en) 1995-02-27 1997-02-04 Affymetrix, Inc. Printing molecular library arrays using deprotection agents solely in the vapor phase
US5780613A (en) 1995-08-01 1998-07-14 Northwestern University Covalent lock for self-assembled oligonucleotide constructs
WO1997029212A1 (en) 1996-02-08 1997-08-14 Affymetrix, Inc. Chip-based speciation and phenotypic characterization of microorganisms
CA2257109C (en) 1996-06-04 2009-10-06 University Of Utah Research Foundation Monitoring hybridization during pcr
US6117635A (en) 1996-07-16 2000-09-12 Intergen Company Nucleic acid amplification oligonucleotides with molecular energy transfer labels and methods based thereon
US6449562B1 (en) 1996-10-10 2002-09-10 Luminex Corporation Multiplexed analysis of clinical specimens apparatus and method
US6969488B2 (en) 1998-05-22 2005-11-29 Solexa, Inc. System and apparatus for sequential processing of analytes
WO1999022030A1 (en) 1997-10-28 1999-05-06 The Regents Of The University Of California Dna polymorphism identity determination using flow cytometry
US5989823A (en) 1998-09-18 1999-11-23 Nexstar Pharmaceuticals, Inc. Homogeneous detection of a target through nucleic acid ligand-ligand beacon interaction
GB9812768D0 (en) 1998-06-13 1998-08-12 Zeneca Ltd Methods
US6787308B2 (en) 1998-07-30 2004-09-07 Solexa Ltd. Arrayed biomolecules and their use in sequencing
US20030022207A1 (en) 1998-10-16 2003-01-30 Solexa, Ltd. Arrayed polynucleotides and their use in genome analysis
US20040106110A1 (en) 1998-07-30 2004-06-03 Solexa, Ltd. Preparation of polynucleotide arrays
US7056661B2 (en) 1999-05-19 2006-06-06 Cornell Research Foundation, Inc. Method for sequencing nucleic acid molecules
US6225109B1 (en) 1999-05-27 2001-05-01 Orchid Biosciences, Inc. Genetic analysis device
US7211390B2 (en) 1999-09-16 2007-05-01 454 Life Sciences Corporation Method of sequencing a nucleic acid
US7244559B2 (en) 1999-09-16 2007-07-17 454 Life Sciences Corporation Method of sequencing a nucleic acid
EP1218543A2 (en) 1999-09-29 2002-07-03 Solexa Ltd. Polynucleotide sequencing
US6582938B1 (en) 2001-05-11 2003-06-24 Affymetrix, Inc. Amplification of nucleic acids
GB0002389D0 (en) 2000-02-02 2000-03-22 Solexa Ltd Molecular arrays
US6448717B1 (en) 2000-07-17 2002-09-10 Micron Technology, Inc. Method and apparatuses for providing uniform electron beams from field emission displays
AU2001293163A1 (en) 2000-09-27 2002-04-08 Lynx Therapeutics, Inc. Method for determining relative abundance of nucleic acid sequences
US7001724B1 (en) 2000-11-28 2006-02-21 Applera Corporation Compositions, methods, and kits for isolating nucleic acids using surfactants and proteases
DE10120797B4 (de) 2001-04-27 2005-12-22 Genovoxx Gmbh Verfahren zur Analyse von Nukleinsäureketten
AU2002337030A1 (en) 2001-08-29 2003-03-18 Genovoxx Gmbh Method for analyzing nucleic acid sequences and gene expression
DE10246005A1 (de) 2001-10-04 2003-04-30 Genovoxx Gmbh Gerät zur Sequenzierung von Nukleinsäuremolekülen
DE10149786B4 (de) 2001-10-09 2013-04-25 Dmitry Cherkasov Oberfläche für Untersuchungen aus Populationen von Einzelmolekülen
US20050124022A1 (en) 2001-10-30 2005-06-09 Maithreyan Srinivasan Novel sulfurylase-luciferase fusion proteins and thermostable sulfurylase
US6902921B2 (en) 2001-10-30 2005-06-07 454 Corporation Sulfurylase-luciferase fusion proteins and thermostable sulfurylase
DE10214395A1 (de) 2002-03-30 2003-10-23 Dmitri Tcherkassov Verfahren zur Analyse von Einzelnukleotidpolymorphismen
US7414117B2 (en) 2002-12-26 2008-08-19 Ngk Insulators, Ltd. Nucleotide derivative and DNA microarray
EP2159285B1 (en) 2003-01-29 2012-09-26 454 Life Sciences Corporation Methods of amplifying and sequencing nucleic acids
DE10356837A1 (de) 2003-12-05 2005-06-30 Dmitry Cherkasov Modifizierte Nukleotide und Nukleoside
US8637650B2 (en) 2003-11-05 2014-01-28 Genovoxx Gmbh Macromolecular nucleotide compounds and methods for using the same
US7169560B2 (en) 2003-11-12 2007-01-30 Helicos Biosciences Corporation Short cycle methods for sequencing polynucleotides
DE102004009704A1 (de) 2004-02-27 2005-09-15 Dmitry Cherkasov Makromolekulare Nukleotidverbindungen und Methoden zu deren Anwendung
DE102004025746A1 (de) 2004-05-26 2005-12-15 Dmitry Cherkasov Verfahren, Oberfläche und Substrate zur hochparallelen Sequenzierung von Nukleinsäureketten
DE102004025696A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren, Oberfläche und Substrate zu hochparallelen Analysen von Nukleinsäureketten
DE102004025744A1 (de) 2004-05-26 2005-12-29 Dmitry Cherkasov Oberfläche für die Analysen an einzelnen Nukleinsäuremolekülen
DE102004025695A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren und Oberfläche zur parallelen Sequenzierung von Nukleinsäureketten
DE102004025694A1 (de) 2004-05-26 2006-02-23 Dmitry Cherkasov Verfahren und Oberfläche zu hochparallelen Analysen von Nukleinsäureketten
DE102004025745A1 (de) 2004-05-26 2005-12-15 Cherkasov, Dmitry Oberfläche für die Analysen an einzelnen Molekülen
US7361468B2 (en) 2004-07-02 2008-04-22 Affymetrix, Inc. Methods for genotyping polymorphisms in humans
US20060024711A1 (en) 2004-07-02 2006-02-02 Helicos Biosciences Corporation Methods for nucleic acid amplification and sequence determination
US7276720B2 (en) 2004-07-19 2007-10-02 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060012793A1 (en) 2004-07-19 2006-01-19 Helicos Biosciences Corporation Apparatus and methods for analyzing samples
US20060024678A1 (en) 2004-07-28 2006-02-02 Helicos Biosciences Corporation Use of single-stranded nucleic acid binding proteins in sequencing
US9434985B2 (en) 2008-09-25 2016-09-06 University Of Massachusetts Methods of identifying interactions between genomic loci
CN108624668B (zh) 2013-02-01 2022-12-02 加利福尼亚大学董事会 用于基因组组装及单体型定相的方法
WO2016019360A1 (en) 2014-08-01 2016-02-04 Dovetail Genomics Llc Tagging nucleic acids for sequence assembly
WO2016089920A1 (en) * 2014-12-01 2016-06-09 The Broad Institute, Inc. Method for in situ determination of nucleic acid proximity
KR20180096586A (ko) * 2015-10-19 2018-08-29 더브테일 제노믹스 엘엘씨 게놈 어셈블리, 하플로타입 페이징 및 표적 독립적 핵산 검출을 위한 방법
CA3014911A1 (en) 2016-02-23 2017-08-31 Dovetail Genomics, Llc Generation of phased read-sets for genome assembly and haplotype phasing
IL262946B2 (en) 2016-05-13 2023-03-01 Dovetail Genomics Llc Retrieving long-range grip information from preserved samples
WO2019152543A1 (en) * 2018-01-31 2019-08-08 Dovetail Genomics, Llc Sample prep for dna linkage recovery

Also Published As

Publication number Publication date
EP3990920A4 (en) 2023-06-07
AU2020302791A1 (en) 2022-02-03
US20220267826A1 (en) 2022-08-25
EP3990920A1 (en) 2022-05-04
CA3145212A1 (en) 2020-12-30
WO2020264185A1 (en) 2020-12-30
JP2022541387A (ja) 2022-09-26

Similar Documents

Publication Publication Date Title
AU2020202992B2 (en) Methods for genome assembly and haplotype phasing
AU2015296029B2 (en) Tagging nucleic acids for sequence assembly
AU2021232750B2 (en) Methods for labeling DNA fragments to reconstruct physical linkage and phase
US20220267826A1 (en) Methods and compositions for proximity ligation
US20240084291A1 (en) Methods and compositions for sequencing library preparation
US20240301515A1 (en) Dendrimers for genomic analysis methods and compositions
CN117222737A (zh) 用于测序文库制备的方法和组合物
WO2023220142A1 (en) Methods and compositions for sequencing library preparation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination