CN114207149A - 根据突现的测序 - Google Patents

根据突现的测序 Download PDF

Info

Publication number
CN114207149A
CN114207149A CN202080055484.3A CN202080055484A CN114207149A CN 114207149 A CN114207149 A CN 114207149A CN 202080055484 A CN202080055484 A CN 202080055484A CN 114207149 A CN114207149 A CN 114207149A
Authority
CN
China
Prior art keywords
oligonucleotide probe
nucleic acid
probe species
species
target nucleic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202080055484.3A
Other languages
English (en)
Inventor
K·米尔
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
X Genome Co ltd
Original Assignee
X Genome Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from US16/425,929 external-priority patent/US11427867B2/en
Application filed by X Genome Co ltd filed Critical X Genome Co ltd
Publication of CN114207149A publication Critical patent/CN114207149A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • C12Q1/6874Methods for sequencing involving nucleic acid arrays, e.g. sequencing by hybridisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6813Hybridisation assays
    • C12Q1/6816Hybridisation assays characterised by the detection means
    • C12Q1/6818Hybridisation assays characterised by the detection means involving interaction of two or more labels, e.g. resonant energy transfer
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q1/00Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions
    • C12Q1/68Measuring or testing processes involving enzymes, nucleic acids or microorganisms; Compositions therefor; Processes of preparing such compositions involving nucleic acids
    • C12Q1/6869Methods for sequencing
    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11CSTATIC STORES
    • G11C13/00Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00
    • G11C13/0002Digital stores characterised by the use of storage elements not covered by groups G11C11/00, G11C23/00, or G11C25/00 using resistive RAM [RRAM] elements
    • G11C13/0009RRAM elements whose operation depends upon chemical change
    • G11C13/0014RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material
    • G11C13/0019RRAM elements whose operation depends upon chemical change comprising cells based on organic memory material comprising bio-molecules
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B20/00ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
    • G16B20/30Detection of binding sites or motifs
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16BBIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
    • G16B25/00ICT specially adapted for hybridisation; ICT specially adapted for gene or protein expression
    • G16B25/20Polymerase chain reaction [PCR]; Primer or probe design; Probe optimisation
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2563/00Nucleic acid detection characterized by the use of physical, structural and functional properties
    • C12Q2563/113Nucleic acid detection characterized by the use of physical, structural and functional properties the label being electroactive, e.g. redox labels
    • CCHEMISTRY; METALLURGY
    • C12BIOCHEMISTRY; BEER; SPIRITS; WINE; VINEGAR; MICROBIOLOGY; ENZYMOLOGY; MUTATION OR GENETIC ENGINEERING
    • C12QMEASURING OR TESTING PROCESSES INVOLVING ENZYMES, NUCLEIC ACIDS OR MICROORGANISMS; COMPOSITIONS OR TEST PAPERS THEREFOR; PROCESSES OF PREPARING SUCH COMPOSITIONS; CONDITION-RESPONSIVE CONTROL IN MICROBIOLOGICAL OR ENZYMOLOGICAL PROCESSES
    • C12Q2600/00Oligonucleotides characterized by their use
    • C12Q2600/156Polymorphic or mutational markers

Landscapes

  • Life Sciences & Earth Sciences (AREA)
  • Chemical & Material Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Proteomics, Peptides & Aminoacids (AREA)
  • Physics & Mathematics (AREA)
  • Organic Chemistry (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Biophysics (AREA)
  • Biotechnology (AREA)
  • Genetics & Genomics (AREA)
  • Molecular Biology (AREA)
  • Wood Science & Technology (AREA)
  • Zoology (AREA)
  • General Health & Medical Sciences (AREA)
  • Analytical Chemistry (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biochemistry (AREA)
  • Microbiology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Medical Informatics (AREA)
  • Immunology (AREA)
  • Theoretical Computer Science (AREA)
  • Chemical Kinetics & Catalysis (AREA)
  • Measuring Or Testing Involving Enzymes Or Micro-Organisms (AREA)

Abstract

本发明是一种对聚合物进行测序的方法,其中通过分子探针库与所述聚合物的结合相互作用的突现性质来测定一种或多种聚合物的序列。

Description

根据突现的测序
相关申请的交叉引用
本申请是2018年11月29日提出的标题为“根据突现的测序”的美国专利申请第16/205,155号的部分继续申请,美国专利申请第16/205,155号要求2017年11月29日提出的标题为“根据突现的测序”的美国专利申请第62/591,850号的优先权,所述美国专利申请以引用的方式并入本文中。
技术领域
本公开大体上涉及经由探针与一种或多种多核苷酸的瞬时结合对核酸进行测序的系统和方法。
背景技术
DNA测序首先通过如下基于凝胶电泳的方法成为现实:双脱氧链终止法(例如Sanger等人,《美国国家科学院院刊(Proc.Natl.Acad.Sci.)》74:5463-5467,1977)和化学降解法(例如Maxam等人,《美国国家科学院院刊》74:560-564,1977)。这些核苷酸测序方法既耗时又昂贵。然而,前者实现了人类基因组的首次测序,尽管花费了十多年和数亿美元。
随着个性化医疗保健的梦想越来越接近实现,人们越来越需要廉价的大规模方法来对单个人的基因组进行测序(Mir,《基因组测序:从个体至群体(Sequencing Genomes:From Individuals to Populations)》,《功能基因组学和蛋白质组学简报(Briefings inFunctional Genomics and Proteomics)》,8:367-378,2009)。几种避免凝胶电泳(并且随后价格更低)的测序方法已被开发为“下一代测序”。一种使用可逆终止子(如Illumina公司实施的)的这样的测序方法占主导地位。桑格测序(Sanger sequencing)的最先进形式和目前占主导地位的Illumina技术中使用的检测方法涉及荧光。检测单核苷酸插入的其它可能手段包括使用质子释放(例如,经由场效应晶体管、穿过纳米孔的离子电流和电子显微术)的检测。Illumina化学涉及使用可逆终止子循环添加核苷酸(Canard等人,《梅兹克核酸研究(Metzker Nucleic Acids Research)》22:4259-4267,1994),所述核苷酸带有荧光标记(Bentley等人,《自然(Nature)》456:53-59,2008)。Illumina测序从克隆扩增单个基因组分子开始,需要大量前期样品处理来将靶基因组转化成文库,然后将所述文库克隆扩增成簇。
然而,有几种方法后来已经进入市场,这些方法在测序之前避开了对扩增的需要。这两种新方法都是在DNA单分子上进行荧光合成测序(SbS)。第一种方法来自HelicosBio(现为SeqLL),它利用可逆终止进行逐步SbS(Harris等人,《科学(Science)》,320:106-9,2008)。第二种方法是来自Pacific Biosciences的SMRT测序,它在末端磷酸上使用标记,末端磷酸是掺入核苷酸的反应的天然离去基,这使得可以连续进行测序,而不需要更换试剂(例如,Levene等人,《科学》299:682-686,2003和Eid等人,《科学》,323:133-8,2009)。一种与Pacific Bioscience测序有点类似的方法是由Genia(现在是Roche的一部分)开发的方法,它经由纳米孔而不是经由光学方法检测SbS。
最常使用的测序方法在读段长度方面受到限制,这增加了测序的成本和组装所得到的读段的难度。通过桑格测序获得的读段长度在1000个碱基范围内(例如,Kchouk等人,《生物与医药(Biol.Med.)》9:395,2017)。Roche 454测序和Ion Torrent两者均具有在数百个碱基范围内的读段长度。Illumina测序最初是从约25个碱基的读段开始,现在通常是150-300个碱基对的读段。然而,由于需要为读段长度的每个碱基供应新鲜试剂,所以对250个而不是25个碱基进行测序需要多10倍的时间和多10倍的昂贵试剂。商业系统中可能的最长读段长度是通过来自Oxford Nanopores Technology(ONT)的纳米孔链测序和PacificBioscience(PacBio)测序获得的(例如Kchouk等人,《生物与医药》9:395,2017)。后者通常具有长度平均约10,000个碱基的读段,而前者很少能够获得长度为数十万个碱基的读段(例如Laver等人,《生物检测与定量(Biomol.Det.Quant.)》3:1-8,2015)。
除了ONT和PacBio测序以外,还存在许多本身不是测序技术而是样品制备方法的方法,它们补充了Illumina短读段测序技术,为建构更长读段提供了一个支架。在这些方法当中,一种方法是由10X Genomics开发的基于液滴的技术,所述技术将液滴内的100-200kb片段(例如提取后片段的平均长度范围)分离出来,并将其加工成更短长度片段的文库,每个片段含有序列标识符标签,该标签对其所源自的100-200kb具有特异性,在对来自多个液滴的基因组进行测序时,所述标签可被去卷积成约50-200kb的桶(Goodwin等人,《自然综述:遗传学(Nat.Rev.Genetics)》17:333-351,2016)。另一种方法是Bionano Genomics开发的,它经由暴露于切刻核酸内切酶来拉伸和诱发DNA中的切口。该方法荧光检测切刻点,以提供分子的图谱或支架。这种方法目前还没有发展到有足够高的密度来帮助组装基因组,但其仍然提供了基因组的直接可视化,并且能够检测大的结构变异和确定长程单倍型(long-range haplotype)。
尽管开发了不同的测序方法,而且测序成本呈普遍下降趋势,但人类基因组的大小仍然导致患者的测序成本居高不下。单个人的基因组由46条染色体组成,其中最短的为约50兆碱基,最长的为250兆碱基。NGS测序方法仍有许多影响性能的问题,包括对参考基因组的依赖,这会大大增加分析所需的时间(例如,如Kulkarni等人,《计算和结构生物技术杂志(Comput Struct Biotechnol J.)》15:471-477,2017中所论述的)。
鉴于上述背景,本领域需要的是用于提供独立测序技术的装置、系统和方法,所述独立测序技术在试剂和时间的使用方面是高效的,并且提供分辨单倍型的长读段而不损失准确性。
本背景部分中公开的信息仅仅是为了增强对一般背景的理解,并且不应该被认为是对该信息形成了本领域技术人员已知的现有技术的认可或任何形式的暗示。
发明内容
本公开解决了本领域对用于提供改进的核酸测序技术的装置、系统和方法的需求。在一个广泛的方面,本公开包含通过将分子探针与双链靶分子的一个或多个单元结合来鉴定多单元靶分子的至少一个单元的方法。本公开基于分子探针的一种或多种物质与双链靶分子的单分子相互作用的检测。在一些实施例中,探针与靶分子的至少一个单元瞬时结合。在一些实施例中,探针与靶分子的至少一个单元反复结合。在一些实施例中,分子实体以纳米级准确度定位在大分子、表面或基质上。
在一方面,提供了一种对核酸进行测序的方法。所述方法包含(a)将所述核酸以线性化伸长/拉伸形式固定在测试基板上,从而形成固定的伸长/拉伸核酸。所述方法接下来是(b)将固定的伸长/拉伸核酸暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质,其中所述寡核苷酸探针物质组中的每种寡核苷酸探针物质是具有预定的长度的探针物质的文库,所述探针物质包含一个界定核苷酸和一个或多个简并位置。每个界定核苷酸选自A、C、G、T碱基的集合。每个简并位置包含A、C、G、T碱基的混合物或通用碱基类似物。暴露(b)在允许相应寡核苷酸探针物质的各个探针与固定的核酸的与所述相应寡核苷酸探针物质互补的一个或多个部分瞬时且可逆地结合的条件下进行,从而产生相应光学活性情况。所述方法接下来是(c)使用成像装置测量在暴露(b)期间或之后发生的每个相应光学活性情况在测试基板上的部位。所述方法接下来是(d)对寡核苷酸探针物质组中的相应寡核苷酸探针物质重复暴露(b)和测量(c),从而获得测试基板上的多组位置。测试基板上的每组相应位置对应于寡核苷酸探针物质组中的一种寡核苷酸探针物质。所述方法继续进行(e)通过对由多组位置表示的所述测试基板上的所述位置进行编译,从所述测试基板上的所述多组位置确定所述核酸的至少一部分的序列。
在本公开的另一方面,提供了一种对核酸进行测序的方法。该另一方法包含(a)将核酸以线性化伸长/拉伸形式固定在测试基板上,从而形成固定的伸长/拉伸核酸。所述方法继续进行(b)将固定的伸长/拉伸核酸暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质。寡核苷酸探针物质组中的每种寡核苷酸探针物质是具有预定的长度的探针物质的文库,所述探针物质包含两个或更多个界定核苷酸位置和一个或多个简并位置。每个界定核苷酸位置包含A、C、G、T碱基。每个简并位置包含A、C、G、T碱基的混合物或通用碱基类似物。暴露(b)在允许相应寡核苷酸探针物质的各个探针与固定的核酸的与所述相应寡核苷酸探针物质互补的一个或多个部分瞬时且可逆地结合的条件下进行,从而产生相应光学活性情况。所述方法接下来是(c)使用成像装置测量在暴露(b)期间或之后发生的每个相应光学活性情况在测试基板上的部位。所述方法继续进行(d)对寡核苷酸探针物质组中的相应寡核苷酸探针物质重复暴露(b)和测量(c),从而获得测试基板上的多组位置。测试基板上的每组相应位置对应于寡核苷酸探针物质组中的一种寡核苷酸探针物质。所述方法最后是(e)通过对由多组位置表示的测试基板上的位置进行编译,从测试基板上的多组位置确定核酸的至少一部分的序列。
在本公开的另一方面,提供了一种对核酸进行测序的方法。该另一方法包含(a)将核酸以线性化伸长/拉伸形式固定在测试基板上,从而形成固定的伸长/拉伸核酸。所述方法接下来是(b)将固定的伸长/拉伸核酸暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质。寡核苷酸探针物质组中的每种寡核苷酸探针物质是具有预定的长度的探针物质的文库,所述探针物质包含两个或更多个界定核苷酸位置和一个或多个简并位置。每个界定核苷酸位置包含A、C、G、T碱基的集合中的一种。每个简并位置包含A、C、G、T碱基的混合物或通用碱基类似物。暴露(b)在允许相应寡核苷酸探针物质的各个探针与固定的核酸的与所述相应寡核苷酸探针物质互补的一个或多个部分稳定地结合的条件下进行,从而在照射时在基板上与固定的核酸的一个或多个部分对应的一个或多个部位处产生相应光学活性情况。所述方法接下来是(c)允许将光学活性情况漂白,以便使用成像装置测量/记录光学活性情况的逐步丧失;所述方法继续进行(d)将固定的伸长/拉伸核酸暴露于允许结合的寡核苷酸探针解开的条件;对寡核苷酸探针物质组中的相应寡核苷酸探针物质重复暴露(b)和测量(c),从而获得测试基板上的多组位置。测试基板上的每组相应位置对应于寡核苷酸探针物质组中的一种寡核苷酸探针物质。所述方法接下来是(d)使用单分子定位算法计算每个光学活性情况的纳米级/微调部位,以及(e)通过对由多组位置表示的测试基板上的位置进行编译,从测试基板上的多组位置确定核酸的至少一部分的序列。
本公开的另一方面提供了一种对核酸进行测序的方法。所述方法包含(a)将核酸固定/固着在测试基板上,从而形成固定/固着的核酸。所述方法接下来是(b)将固定/固着的核酸暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质。暴露(b)在允许相应寡核苷酸探针物质的各个探针与固定/固着的核酸的与所述相应寡核苷酸探针物质互补的一个或多个部分结合的条件下进行,从而产生相应光学活性情况。所述方法接下来是(c)使用成像装置测量在暴露(b)期间或之后发生的每个相应光学活性情况在测试基板上的部位。所述方法继续进行(d)对寡核苷酸探针物质组中的相应寡核苷酸探针物质重复暴露(b)和测量(c),从而获得测试基板上的多组位置。测试基板上的每组相应位置对应于寡核苷酸探针物质组中的一种寡核苷酸探针物质。所述方法最后是(e)通过对由多组位置表示的测试基板上的位置进行编译,从测试基板上的多组位置确定核酸的至少一部分的序列。
其它实施例涉及与本文描述的方法相关联的系统、便携式消费装置和计算机可读介质。
如本文所公开,当适用时本文所公开的任何实施例可应用于任何方面。
对于本领域技术人员来说,通过以下具体实施方式,本公开的另外的方面和优点将变得显而易见,在具体实施方式中仅示出和描述了本公开的说明性实施例。如将认识到的,本公开能够具有其它不同的实施例,并且其若干细节能够在各种明显的方面进行修改,而所有这些都不脱离本公开。因此,图式和具体实施方式应被视为在本质上是说明性而非限制性的。
附图说明
图1A和1B共同示出了一种示例性的系统拓扑结构,其包括具有参与结合事件的多个探针的聚合物、用于收集和存储与结合事件的定位和序列鉴定相关的信息并随后根据本公开的各种实施例进一步执行分析以确定聚合物序列的计算机存储介质。
图2A和2B共同提供了根据本公开的各种实施例的用于确定靶聚合物的序列和/或结构特征的方法的过程和特征的流程图。
图3提供了根据本公开的各种实施例的用于确定靶聚合物的序列和/或结构特征的另一方法的过程和特征的流程图。
图4提供了根据本公开的各种实施例的用于确定靶聚合物的序列和/或结构特征的另一方法的过程和特征的流程图。
图5A、5B和5C共同示出了根据本公开的各种实施例的探针与多核苷酸的瞬时结合的实例。
图6A和6B共同示出了根据本公开的各种实施例的具有长度不同的k聚体的探针与靶多核苷酸的结合的实例。
图7A、7B和7C共同示出了根据本公开的各种实施例的使用具有寡核苷酸组的连续循环的参考寡核苷酸的实例。
图8A、8B和8C共同示出了根据本公开的各种实施例的将独特的探针组应用于单个参考分子的实例。
图9A、9B和9C共同示出了根据本公开的各种实施例的在使用多种类型探针的情况下的瞬时结合的实例。
图10A和10B共同示出了根据本公开的各种实施例,所收集的瞬时结合事件的数目与可实现的探针的定位程度相关联的实例。
图11A和11B共同示出了根据本公开的各种实施例的覆瓦式探针(tiling probe)的实例。
图12A、12B和12C共同示出了根据本公开的各种实施例的直接标记的探针的瞬时结合的实例。
图13A、13B和13C共同示出了根据本公开的各种实施例的在嵌入染料存在的情况下瞬时探针结合的实例。
图14A、14B、14C、14D和14E共同示出了根据本公开的各种实施例的不同探针标记技术的实例。
图15示出了根据本公开的各种实施例的探针在变性的经过梳理的双链DNA上的瞬时结合的实例。
图16A和16B共同示出了根据本公开的各种实施例的细胞溶解以及核酸固着和伸长的实例。
图17示出了根据本公开的各种实施例的示例性微流控体系结构,所述微流控体系结构捕获单细胞,并任选地提供核酸从细胞中的提取、核酸的伸长和核酸的测序。
图18示出了根据本公开的各种实施例的向单个细胞提供独特的ID标签的示例性微流控体系结构。
图19示出了根据本公开的各种实施例的对来自单个细胞的多核苷酸进行测序的实例。
图20A和20B共同示出了根据本公开的各种实施例的用于对瞬时探针结合进行成像的示例性装置布局。
图21示出了根据本公开的各种实施例的包含被气隙分隔的试剂的示例性毛细管道。
图22A、22B、22C、22D和22E共同示出了根据本公开的各种实施例的荧光的实例。
图23A、23B和23C共同示出了根据本公开的各种实施例的荧光的实例。
图24示出了根据本公开的各种实施例的合成变性双链DNA上的瞬时结合。
图25A和25B示出了两个循环的“足迹”测序,其中在5聚体的这种情况下,使用5个循环,其中每个循环具有沿着寡核苷酸的‘足迹’或长度界定的不同的单核苷酸位置并且其余核苷酸简并,每个位置处包含所有4种核苷酸的文库或每个简并位置处包含通用核苷酸类似物(例如,硝基吲哚、硝基吡咯或肌苷等)。每个界定碱基用不同的颜色表示,当添加在相同混合物中时,其连接至四个独特标记之一,每个标记彼此不同。在图中,位置1在第一循环中界定,位置2在第二循环中界定。通过这些循环,在连续循环中获得靶中(在寡聚物的足迹下)的位置1、2、3、4、5的身份。在一些实施例中,靶中的询问碱基的身份与寡核苷酸中的对应的界定碱基互补。在一些这样的实施例中,定位需要足够指明寡核苷酸结合足迹的部位,足迹内的位置由例如颜色或循环次数等代码界定。
图26示意性示出了仅界定一个核苷酸并且用不同的颜色指示所有四种不同界定核苷酸的情况。在一些实施例中,不同的颜色指示不同的荧光团或不同的添加循环。当颜色不同时,整个测序过程可以在单一均相或一锅反应中进行,不需要更换试剂。在这种方法中,DNA链在表面上伸长/拉伸,并且短寡核苷酸在溶液中添加并且与其互补部位结合。
图27示出了寡核苷酸与三个界定碱基的结合,所述碱基在每一侧上侧接四个简并位置,5'cy3 NNgGcNN(寡核苷酸名称:3004-3聚体)。拉伸的DNA是λ噬菌体,其已经通过0.5MNaoH变性20分钟。结合缓冲液是4×SSC和0.1%Tween20;结合在4℃下进行并且成像在室温下进行。
具体实施方式
现将详细地参考实施例,在附图中示出了实施例的实例。在以下详细描述中,阐述了许多具体细节,以便提供对本公开的透彻理解。然而,对于本领域的普通技术人员来说显而易见的是,可在没有这些具体细节的情况下实施本公开。在其它情况下,没有详细描述众所周知的方法、程序、组件、电路和网络,以免不必要地模糊实施例的各方面。
定义
在本公开中使用的术语仅出于描述特定实施例的目的,并不旨在限制本发明。如说明书和所附权利要求书中所使用的,除非上下文另有明确指示,否则单数形式“一个/种(a)”、“一个/种(an)”和“所述(the)”旨在也包括复数形式。还应理解,如本文所用的术语“和/或”是指并涵盖一个或多个相关所列项目的任何和所有可能的组合。还应理解,术语“包括”和/或“包含”在用于本说明书中时指明所陈述的特征、整数、步骤、操作、要素和/或组分的存在,但不排除一个或多个其它特征、整数、步骤、操作、要素、组分和/或其群组的存在或添加。
如本文所用,术语“如果”被解释成意指“当……时(when)”或“在……后(upon)”或者“响应于确定”或“响应于检测到”,取决于上下文。类似地,取决于上下文,短语“如果确定”或“如果检测到[陈述的条件或事件]”可被解释为意指“根据确定”或“响应于确定”或“根据检测到[陈述的条件或事件]”或“响应于检测到[陈述的条件或事件]”。
术语“或”旨在意指包括性的“或”,而不是排他性的“或”。也就是说,除非另有说明或者从上下文清楚可见,否则短语“X采用A或B”旨在意指任何自然的包括性排列。也就是说,下列任何一种情况均满足短语“X采用A或B”:X采用A;X采用B;或X采用A和B两者。另外,除非另有说明或从上下文清楚可见,否则如本申请和所附权利要求书中所使用的冠词“一个/种(a)”和“一个/种(an)”通常应被解释为意指“一个/种或多个/种”。
应理解,尽管本文中使用术语第一、第二等来描述各种要素,但这些要素不应受这些术语限制。这些术语只是用于将一种要素与另一要素相区分。举例来说,在不脱离本公开的范围的情况下,第一过滤器可被称为第二过滤器,类似地,第二过滤器可被称为第一过滤器。第一过滤器和第二过滤器都是过滤器,但它们不是同一个过滤器。
如本文所用,术语“约”或“大约”可意指在由本领域的普通技术人员确定的特定值的可接受误差范围内,这部分取决于测量或测定所述值的方式,例如测量系统的限制。举例来说,根据本领域中的实践,“约”可意指在1个或大于1个标准差内。“约”可意指给定值的±20%、±10%、±5%或±1%的范围。术语“约”或“大约”可意指在值的数量级内,在5倍内,或在2倍内。当在本申请和权利要求书中描述特定值时,除非另有说明,否则应当假设术语“约”意指在特定值的可接受误差范围内。术语“约”可以具有本领域的普通技术人员通常理解的含义。术语“约”可以指±10%。术语“约”可以指±5%。
如本文所用,术语“核酸”、“核酸分子”和“多核苷酸”可互换使用。所述术语可指具有任何组成形式的核酸,例如脱氧核糖核酸(DNA,例如互补DNA(cDNA)、基因组DNA(gDNA)等)、核糖核酸(RNA,例如信使RNA(mRNA)、短抑制RNA(siRNA)、核糖体RNA(rRNA)、转运RNA(tRNA)、微小RNA、胎儿或胎盘高度表达的RNA等)和/或DNA或RNA类似物(例如,含有合成碱基类似物和或天然存在(表观遗传修饰)的碱基类似物、糖类似物和/或非原生骨架等)、RNA/DNA杂交体和肽核酸(PNA),它们都可以是单链或双链形式。除非另有限制,否则核酸可包含天然核苷酸的已知类似物,其中一些可以按与天然存在的核苷酸相似的方式起作用。核酸可以呈可用于进行如本文中描述的方法的任何形式(例如线性、环形、超螺旋、单链、双链等)。在一些情况下,核酸是或来自质粒、噬菌体、自主复制序列(ARS)、着丝粒、人工染色体、染色体或在某些实施例中能够在体外或在宿主细胞、细胞、细胞的细胞核或细胞质中复制或被复制的其它核酸。在一些实施例中,核酸可来自单个染色体或其片段(例如,来自从二倍体生物获得的样品的一条染色体的核酸样品)。核酸分子可包含天然多核苷酸的全长(例如,长的非编码(lnc)RNA、mRNA、染色体、线粒体DNA或多核苷酸片段)。多核苷酸片段的长度可为至少200个碱基,或长度可为至少几千个核苷酸,在基因组DNA的情况下,多核苷酸片段的长度为数十万个碱基至数兆碱基。
在某些实施例中,核酸包含核小体、核小体的片段或部分或核小体样结构。核酸有时包含蛋白质(例如,组蛋白、DNA结合蛋白等)。通过本文所述的方法分析的核酸有时基本上是分离的,并且基本上不与蛋白质或其它分子缔合。核酸还包括从单链(“有义”或“反义”、“正”链或“负”链、“正向”阅读框或“反向”阅读框)和双链多核苷酸合成、复制或扩增的RNA或DNA的衍生物、变体和类似物。脱氧核糖核苷酸包括脱氧腺苷、脱氧胞苷、脱氧鸟苷和脱氧胸苷。对于RNA,碱基胞嘧啶被尿嘧啶替换,糖的2'位置包括羟基部分。在一些实施例中,使用从受试者获得的核酸作为模板来制备核酸。
如本文所用,术语“结束位置”或“末端位置”(或仅“末端”)可指游离DNA分子,例如质粒DNA分子的最外碱基(即在终端处)的基因组坐标或基因组身份或核苷酸身份。末端位置可以对应于DNA分子的任一末端。以此方式,如果提及DNA分子的起点和末端,那么两者都可以对应于终止位置。在一些实施例中,一端位置是通过分析方法检测或确定的游离DNA分子的一个终端上的最外碱基的基因组坐标或核苷酸身份,所述分析方法是例如大规模平行测序或下一代测序、单分子测序、双链或单链DNA测序文库制备方案、聚合酶链反应(PCR)或微阵列。在一些实施例中,这种体外技术可以改变游离DNA分子的一个或多个真实体内物理末端。因此,每个可检测的末端可代表生物学上的真实末端,或者末端可以是例如通过克列诺片段(Klenow fragment)对非平端双链DNA分子的突出端的5'平端化和3'填充,从分子的原始末端向内的一个或多个核苷酸,或者是从分子的原始末端延伸的一个或多个核苷酸。末端位置的基因组身份或基因组坐标可以从序列读段与如hg19的人类参考基因组的比对结果获得。其可以从表示人类基因组的初始坐标的索引或代码的目录获得。其可以指游离DNA分子上的通过(但不限于)靶特异性探针、微测序、DNA扩增读取的位置或核苷酸身份。术语“基因组位置”可以指多核苷酸(例如基因、质体、核酸片段、病毒DNA片段)中的核苷酸位置。术语“基因组位置”不限于基因组内的核苷酸位置(例如配子或微生物中或多细胞生物体的每个细胞中的染色体的单倍体组)。
如本文所用,术语“突变”、“单核苷酸变体”、“单核苷酸多态性”、“变体”、“表观遗传修饰”和“结构重排”是指一个或多个细胞的遗传物质中的一种或多种不同类型的一个或多个可检测的变化。在一特定实例中,可在癌细胞中发现一个或多个突变,并且所述突变可鉴定癌细胞(例如,驱动突变和过客突变)。突变可以从亲代细胞传递到子细胞。本领域的技术人员将理解,亲代细胞中的基因突变(例如,驱动突变)可在子细胞中诱发另外的不同突变(例如,过客突变)。突变或变体通常发生在核酸中。在一特定实例中,突变可以是一个或多个脱氧核糖核酸或其片段中的可检测的变化。突变通常是指核酸中核苷酸的添加、缺失、取代、倒位或转位到新的位置。突变可以是自发突变或实验诱发的突变。特定组织的序列中的突变是“组织特异性等位基因”的实例。举例来说,肿瘤可具有在基因座中产生在正常细胞中不存在的等位基因的突变。“组织特异性等位基因”的另一个实例是存在于胎儿组织中但不存在于母体组织中的胎儿特异性等位基因。术语“等位基因”在一些情况下可以与突变互换使用。
术语“瞬时结合”意指结合试剂或探针与多核苷酸上的结合位点可逆地结合,并且探针通常不保持附着于其结合位点。这在分析过程中提供了关于结合位点部位的有用信息。通常,一种试剂或探针与固着的聚合物结合,然后在一段停留时间后从聚合物上脱离。然后同一种或另一种试剂或探针将在另一个位点与聚合物结合。在一些实施例中,沿着聚合物的多个结合位点也可以同时被多个试剂或探针结合。在一些情况下,不同的探针与重叠的结合位点结合。试剂或探针与聚合物可逆地结合的这个过程可以在分析过程中重复多次。这类结合事件的部位、频率、停留时间、光子发射最终产生聚合物的化学结构图谱。事实上,这些结合事件的瞬时性质使得能够检测到数目增加的这类结合事件。因为,如果探针长时间保持结合,那么每个探针都会抑制其它探针的结合。
术语“重复结合”意指在分析过程中,聚合物中相同的结合位点被相同的结合试剂或探针或相同种类的结合试剂或探针多次结合。通常,一种试剂与位点结合然后解离,另一种试剂结合然后解离,等等,直至绘制出聚合物的图谱。重复结合增加了从探针获得的信息的灵敏度和准确性。累积更多的光子,并且多个独立的结合事件增加了检测到真实信号的概率。在当仅检测到一次时信号太低而无法从背景噪声中调用的情况下,灵敏度会增加。在这类情况下,当持续看到信号时,信号变得可调用(例如,当同一信号被多次看到时,信号是真实的置信度增加)。结合位点调用的准确性增加是因为信息的多次读取可用另一次读取证实一次读取。
如本文所用,术语“探针”可包含具有一个或多个任选的标记的寡核苷酸,其可以连接有荧光标记。在一些实施例中,探针是任选地用荧光染料或荧光或光散射颗粒标记的肽或多肽。这些探针可用于确定结合位点针对核酸或蛋白质、碳水化合物、脂肪酸或其它生物分子或非生物的聚合物的定位。
如本文所用,术语“寡核苷酸探针物质”可包含一种或多种用作探针的不同寡核苷酸,其中所述寡核苷酸的序列的一部分是寡核苷酸探针物质的所有成员和其它部分所共有的,尤其与共有的序列相邻的碱基是简并或通用的,因此可产生寡核苷酸探针物质的多个成员。在一些情况下,术语“寡核苷酸探针物质”可指示物质的单个成员,例如个别寡核苷酸探针;在其它情况下,该术语可指示物质所有成员中的多个。如果提供有标记,那么寡核苷酸探针物质将都具有共同的标记。如本文所用,术语“寡核苷酸物质组”意指具有不同的共有序列的多个寡核苷酸物质。
如本文所用,术语“完整寡核苷酸物质组”意指在测序方法中使用的所有寡核苷酸物质。完整寡核苷酸组的不同成员具有相同长度的k聚体,或具有不同长度的k聚体。完整寡核苷酸探针物质组可包含单一长度k聚体的所有k聚体序列,或可包含其亚组。
如本文所用,术语“覆瓦式序列探针组”或“覆瓦式组”意指如下寡核苷酸探针物质组,该组中除两种外的其余所有寡核苷酸探针物质具有除一种外的其余所有寡核苷酸探针物质共有的碱基,也与组中的两种其它寡核苷酸探针物质共有,并且其中对应的不同碱基在寡核苷酸探针物质共有序列的每一端。覆瓦式组的两个成员具有如下寡核苷酸探针物质,其具有除一种以外其余所有寡核苷酸探针物质共有的碱基,也与一种其它寡核苷酸探针物质共有,并且不同的碱基在相应3'和5'末端以使均重叠的寡核苷酸组完整。
如本文所用,术语“寡核苷酸(oligonucleotide)”和“寡核苷酸(oligo)”是指短的核酸序列。在一些实施例中,寡核苷酸具有界定的大小,例如,每个寡核苷酸的长度是k个核苷酸碱基(在本文中也称为“k聚体”)。典型的寡核苷酸大小是3聚体、4聚体、5聚体、6聚体等等。寡核苷酸在本文中也称为N聚体。
如本文所用,术语“标记”涵盖单个可检测的实体(例如波长发射实体)或多个可检测的实体。在一些实施例中,标记与核酸瞬时结合或与探针共价或非共价结合。不同类型的标记在荧光发射期间会闪烁,在光子发射时会波动,或者光控关闭和打开。不同的标记用于不同的成像方法。具体来说,一些标记独特地适合不同类型的荧光显微术。在一些实施例中,荧光标记发出不同波长的荧光,并且具有不同的寿命。在一些实施例中,背景荧光存在于成像视场中。在一些这样的实施例中,通过丢弃由散射引起的荧光或背景荧光的时间窗,从分析中去除这类背景。如果标记在探针的一端(例如,寡核苷酸探针的3'端)上,则定位的准确性对应于探针的该端(例如,探针序列的3'端和靶序列的5')。标记的明显瞬时波动或闪烁或变暗行为可以区分附着的探针是否与其结合位点结合。
如本文所用,术语“瓣”是指充当结合第二实体的受体的实体。两个实体可以包含分子结合对。这类结合对可包含核酸结合对。在一些实施例中,瓣包含与标记的寡核苷酸结合的一段寡核苷酸或多核苷酸序列。在对结合靶的探针部分的瞬时结合进行成像的过程中,瓣与寡核苷酸之间的这种结合应该是基本稳定的。
术语“伸长”、“延伸”、“拉伸”、“线性化”和“拉直”可以互换使用。具体来说,术语“伸长的多核苷酸”(或“延伸的多核苷酸”等)指示核酸分子已经以某种方式粘附于表面或基质上,然后被拉伸成线性形式。一般来说,这些术语意指沿着多核苷酸的结合位点相隔一定物理距离,所述物理距离大体上与它们之间的核苷酸数目相关(例如,多核苷酸是直的)。物理距离与碱基数目匹配程度的一定的不精确性是容许的。
如本文所用,术语“成像”包括二维阵列或二维扫描检测器。在大多数情况下,本文使用的成像技术必须包括荧光激发源(例如,合适波长的激光器)和荧光检测器。
如本文所用,术语“序列位(sequence bit)”指示序列的一个或几个碱基(例如,长度为1至9个碱基)。具体来说,在一些实施例中,序列对应于用于瞬时结合的寡核苷酸(或肽)的长度。因此,在这类实施例中,序列是指靶多核苷酸的区域。
如本文所用,术语“单倍型”是指通常一起遗传的一组变异。这是因为变异组非常靠近地存在于多核苷酸或染色体上。在一些情况下,单倍型包含一种或多种单核苷酸多态性(SNP)。在一些情况下,单倍型包含一种或多种等位基因。
如本文所用,术语“甲基结合蛋白”是指含有甲基-CpG结合结构域的蛋白,其包含约70个核苷酸残基。这类结构域对DNA的未甲基化区域具有低亲和力,因此可用于鉴定核酸中已经甲基化的部位。一些常见的甲基结合蛋白包括MeCP2、MBD1和MBD2。然而,存在一系列不同的包含甲基-CpG结合结构域的蛋白质(例如,如Roloff等人,《BMC基因组学(BMCGenomics)》4:1,2003所描述)。类似地,使用其它类型的抗体结合于其它类型的表观遗传修饰,例如甲基腺嘌呤。
如本文所用,术语“纳米抗体”是指包含仅重链抗体片段的一组蛋白质。这些是高度稳定的蛋白质,并且可被设计成具有与多种人抗体相似的序列同源性,从而使得能够特异性靶向体内的细胞类型或区域,或天然存在的表观遗传修饰的核碱基的特定类型。纳米抗体生物学的综述可见于Bannas等人,《免疫学前沿(Frontiers in Immu.)》8:1603,2017中。
如本文所用,术语“亲和体”是指非抗体结合蛋白。这些是可高度定制的蛋白质,具有两个肽环和一个N端序列,在一些实施例中,这些蛋白质被随机化用于提供对所需蛋白质靶的亲和力和特异性。因此,在一些实施例中,亲和体用于鉴定蛋白质中所关注序列或结构区域。在一些这样的实施例中,亲和体用于鉴定许多不同类型的蛋白质表达、定位和相互作用(例如,如Tiede等人,ELife 6:e24903,2017中所述)。
如本文所用,术语“适体”是指另一类高度通用的可定制的结合分子。适体包含核苷酸和/或肽区域。通常产生一组随机的可能的适体序列,然后选择与所关注的特定的靶分子结合的所需序列。适体除了它们的稳定性和柔性之外还具有另外的特性,这些特性使得它们比其它类别的结合蛋白更受欢迎(例如,如Song等人,《传感器(Sensors)》12:612-631,2012和Dunn等人,《自然综述:化学(Nat.Rev.Chem.)》1:0076,2017中所述)。
为了举例说明,下面参考示例性应用来描述几个方面。应当理解,阐述了许多具体细节、关系和方法,以提供对本文所述的特征的全面理解。然而,相关领域的普通技术人员将会理解,本文所述的特征可在没有一个或多个具体细节的情况下实施或者利用其它方法来实施。本文描述的特征不受所说明的动作或事件的顺序限制,因为一些动作可以按不同的顺序发生和/或与其它动作或事件同时发生。此外,并非所有说明的动作或事件都是实现根据本文所述的特征的方法所必需的。
示例性系统实施例.
在一个方面,本文公开了一种对靶核酸进行测序的方法。方法可包含(a)将靶核酸以双链线性化拉伸形式固定在测试基板上,从而形成固定的拉伸双链核酸。方法还可以包含(b)使固定的拉伸双链核酸在测试基板上变性为单链形式,从而获得靶核酸的固定的第一链和固定的第二链,其中固定的第二链的相应碱基与固定的第一链的对应互补碱基相邻或紧靠。方法还可以包含(c)将固定的第一链和固定的第二链暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质的相应池,其中所述寡核苷酸探针物质组中的每种寡核苷酸探针物质具有预定的序列和长度。暴露(c)可在允许相应寡核苷酸探针物质的相应池的各个探针与固定的第一链或固定的第二链的与相应寡核苷酸探针物质互补的每个部分结合并形成相应双链体的条件下发生。从而产生相应光学活性情况。方法可继续进行(d)使用一种或多种二维成像器测量在暴露(c)期间发生的每个相应光学活性情况在测试基板上的部位和任选地持续时间。然后,方法接下来是(e)对寡核苷酸探针物质组中的寡核苷酸探针物质的相应池重复暴露(c)和测量(d),从而获得测试基板上的多组位置。测试基板上的每组相应位置对应于寡核苷酸探针物质组中的一种或多种寡核苷酸探针物质。如果由于使用与其相关联的多个标记使得可连续和或同时测量多个不同的寡核苷酸探针物质,那么由单个暴露(c)步骤可获得测试基板上的多组位置。方法还可以包括(f)通过对由多组位置表示的与不同寡核苷酸探针物质或不同寡核苷酸探针物质组对应的测试基板上的位置进行编译,从测试基板上的多组位置确定靶核酸的至少一部分的序列。
在一些实施例中,暴露(c)在允许相应寡核苷酸探针物质的相应池的单个寡核苷酸探针物质与固定的第一链或固定的第二链的与单个寡核苷酸探针互补的每个部分瞬时且可逆地结合并形成相应双链体的条件下发生,从而产生一种光学活性情况。在一些实施例中,暴露(c)在允许相应寡核苷酸探针物质的相应池的各个寡核苷酸探针物质与固定的第一链或固定的第二链的与各个探针互补的每个部分重复地瞬时且可逆地结合并形成相应双链体的条件下发生,从而重复产生相应光学活性情况。在一些这样的实施例中,寡核苷酸物质池中、寡核苷酸探针物质组中的每个寡核苷酸探针与标记(例如,染料、荧光纳米颗粒或光散射颗粒)结合。
在一些实施例中,在方法中,暴露是在呈嵌入染料形式的第一标记存在的情况下进行的。在一些实施例中,寡核苷酸物质池中、寡核苷酸探针物质组中的每个寡核苷酸探针都与第二标记结合,第一标记与第二标记具有重叠的供体发射光谱和受体激发光谱,这在第一标记和第二标记彼此紧靠时引起第一标记荧光和第二标记荧光之一增加,并且相应光学活性情况来自嵌入染料与结合于寡核苷酸探针的第二标记的接近,所述嵌入染料嵌入寡核苷酸探针与固定的第一链或固定的第二链之间的相应双链体。在其它实施例中,第一标记和第二标记均结合于寡核苷酸探针。
在一些实施例中,暴露是在呈嵌入染料形式的第一标记存在的情况下,寡核苷酸探针物质组中的每种寡核苷酸探针物质与第二标记结合,当第一标记和第二标记彼此紧靠时,第一标记可引起第二标记的荧光增加,并且相应光学活性情况来自嵌入染料与第二标记的接近,所述嵌入染料嵌入寡核苷酸探针与固定的第一链或固定的第二链之间的相应双链体。
在一些实施例中,暴露是在呈嵌入染料形式的第一标记存在的情况下,寡核苷酸探针物质组中的每种寡核苷酸探针物质与第二标记结合,当第一标记和第二标记彼此紧靠时,第二标记引起第一标记的荧光增加,并且相应光学活性情况来自嵌入染料与第二标记的接近,所述嵌入染料嵌入寡核苷酸探针与固定的第一链或固定的第二链之间的相应双链体。
在一些实施例中,暴露是在嵌入染料存在的情况下,并且相应光学活性情况来自嵌入染料的荧光,所述嵌入染料嵌入寡核苷酸探针与固定的第一链或固定的第二链之间的相应双链体中。在这样的实施例中,相应光学活性情况大于嵌入染料在其嵌入相应双链体之前的荧光。
在一些实施例中,在暴露(c)的单个情况期间,将寡核苷酸探针物质组中的超过一种寡核苷酸探针物质暴露于固定的第一链和固定的第二链,并且在暴露(c)的单个情况期间暴露于固定的第一链和固定的第二链的寡核苷酸探针物质组中的每个不同的寡核苷酸探针物质与不同的标记缔合。在一些这样的实施例中,在暴露(c)的单个情况期间,将寡核苷酸探针物质组中的第一寡核苷酸探针物质的第一池(第一寡核苷酸探针物质与第一标记缔合)暴露于固定的第一链和固定的第二链,在暴露(c)的单个情况期间,将寡核苷酸探针物质组中的第二寡核苷酸探针物质的第二池(第二寡核苷酸探针物质与第二标记缔合)暴露于固定的第一链和固定的第二链,并且第一标记与第二标记不同。或者,在暴露(c)的单个情况期间,将寡核苷酸探针物质组中的第一寡核苷酸探针物质的第一池(第一寡核苷酸探针物质与第一标记缔合)暴露于固定的第一链和固定的第二链,在暴露(c)的单个情况期间,将寡核苷酸探针物质组中的第二寡核苷酸探针物质的第二池(第二寡核苷酸探针物质与第二标记缔合)暴露于固定的第一链和固定的第二链,在暴露(c)的单个情况期间,将寡核苷酸探针物质组中的第三寡核苷酸探针物质的第三池(第三寡核苷酸探针物质与第三标记缔合)暴露于固定的第一链和固定的第二链,并且第一标记、第二标记和第三标记各自不同。
在其它实施例中,通过激发、发射、荧光寿命等进行区分的许多不同的标记用于所缔合的寡核苷酸探针物质的池。
在一些实施例中,寡核苷酸探针物质的池包含单个寡核苷酸探针物质。在其它实施例中,寡核苷酸探针物质的池包含多种寡核苷酸探针物质。在另外的实施例中,多种寡核苷酸探针物质的池具有与多种寡核苷酸探针物质的池中的每一单个寡核苷酸探针物质缔合(结合)的区分标记。在另外的实施例中,多个不同寡核苷酸探针物质组中的一些或全部具有相同类型的标记,它们无法直接与多种寡核苷酸探针物质的池中的其它寡核苷酸探针物质区分。在另外的实施例中,多种寡核苷酸探针物质的池中的一种或多种寡核苷酸探针物质未标记。
在一些实施例中,对寡核苷酸探针物质组中的每一单个寡核苷酸探针物质进行重复(e)、暴露(c)和测量(d)。
在一些实施例中,依次进行暴露(c)和测量(d)和重复。在其它实施例中,暴露(c)和测量(d)是同时的,其中一旦在暴露(c)过程期间获得单个帧,就开始测量(d)。在另外的实施例中,例如在进行测量(d)过程之前用不同的寡核苷酸探针池进行多个暴露(c)过程。
在一些实施例中,在第一温度下对第一寡核苷酸探针物质池进行暴露(c),所述第一寡核苷酸探针物质池包含寡核苷酸探针组中的单个物质或包含多种寡核苷酸探针物质,并且重复(e)、暴露(c)和测量(d)包括在第二温度下对第一寡核苷酸探针物质池进行暴露(c)和测量(d)。
在一些实施例中,在第一温度下对寡核苷酸探针物质组中的第一寡核苷酸探针物质池进行暴露(c),重复(e)、暴露(c)和测量(d)的情况包括在多个不同温度中的每个温度下对第一寡核苷酸探针物质池进行暴露(c)和测量(d),并且还包含使用通过针对第一温度和多个不同温度中的每个温度进行的测量(d)而记录的光学活性的测量的部位和持续时间来构建第一寡核苷酸探针物质池的解链曲线。在其它实施例中,使用不同盐浓度代替不同温度。在另外的实施例中,使用例如甲酰胺等变性试剂或pH变化来改变结合亲和力。在另外的实施例中,不同盐浓度、不同温度、不同pH水平或不同水平的变性试剂的任何组合用于一种或多种寡核苷酸探针物质以实现解链曲线同等物。
在一些实施例中,寡核苷酸探针物质组包含多个亚组,所述亚组包含多种不同类型的寡核苷酸探针物质的池,并且对多个寡核苷酸探针物质亚组中的包含多种不同类型的寡核苷酸探针物质的池的每个相应亚组进行重复(e)、暴露(c)和测量(d)。在一些这样的实施例中,包含多种不同类型的寡核苷酸探针物质的池的每个相应亚组包含来自寡核苷酸探针物质组的两种或更多种不同寡核苷酸探针物质。或者,包含多种不同寡核苷酸探针物质的池的每个相应亚组包含来自寡核苷酸探针物质组的四种或更多种不同寡核苷酸探针物质。在一些这样的实施例中,寡核苷酸探针物质组由四个包含寡核苷酸探针物质的池的亚组组成。在一些实施例中,方法还包含基于每种寡核苷酸探针物质的计算的或实验推导的解链温度将寡核苷酸探针物质组划分成多个包含寡核苷酸探针物质的池的亚组,其中通过划分将具有相似解链温度的寡核苷酸探针物质放在相同的寡核苷酸探针亚组中,并且其中暴露(c)的情况的温度或持续时间由包含寡核苷酸探针物质的池的对应亚组中的寡核苷酸探针物质的平均解链温度确定。更进一步地,在一些实施例中,方法还包含基于每种寡核苷酸探针物质的序列将寡核苷酸探针组划分成多个包含寡核苷酸探针物质的池的亚组,其中将具有重叠序列的寡核苷酸探针物质放在不同的包含寡核苷酸探针物质的池的亚组中。
在一些实施例中,测量测试基板上的部位包含用拟合函数鉴定和拟合相应光学活性情况,以鉴定和拟合通过二维成像器获得的数据帧中的相应光学活性情况或相应光学活性情况的一部分的中心,并且相应光学活性情况的中心被认为是相应光学活性情况在测试基板上的位置。在一些这样的实施例中,拟合函数是高斯函数(Gaussian function)、一阶矩函数、基于梯度的方法或傅里叶变换(Fourier Transform)。
在一些实施例中,相应光学活性情况在多个通过二维成像器测量的帧上持续存在,多个包含相应光学活性情况的帧中的单个帧是相应光学活性情况的一部分,测量测试基板上的部位包含用拟合函数在多个帧上鉴定和拟合相应光学活性情况,以鉴定多个帧上相应光学活性情况的中心,并且相应光学活性情况的中心被认为是多个帧上相应光学活性情况在测试基板上的位置。在一些这样的实施例中,拟合函数是高斯函数、一阶矩函数、基于梯度的方法或傅里叶变换。
在一些实施例中,测量测试基板上的部位包含将通过二维成像器测量的数据帧输入到经过训练的卷积神经网络中,数据帧包含多个光学活性情况中的相应光学活性情况,多个光学活性情况中的每个光学活性情况对应于与固定的第一链或固定的第二链的一部分结合的寡核苷酸物质的单个寡核苷酸探针,并且响应于输入,经过训练的卷积神经网络鉴定多个光学活性情况中的一个或多个光学活性情况的每一个在测试基板上的位置。在一些实施例中,多个光学活性情况存在于一个或多个数据帧中的不同位置,其中光学活性的多个不同位置与一个或多个靶多核苷酸的第一链和或第二链上的不同结合位点对应,每个光学活性位置在暴露步骤中具有多个光学活性情况。在另外的实施例中,具有相同位置的相应光学活性情况在不同帧组上发生,并且与具有不同位置并在不同帧组上的其它相应光学活性情况分开和或同时处理。
在一些实施例中,测量以至少20nm、至少2nm、至少60nm或至少6nm的定位精度将相应光学活性情况的中心分辨为测试基板上的位置。
在一些实施例中,测量将相应的光学活性情况的中心分辨为测试基板上的位置,其中位置是以亚衍射极限准确度和或精度确定的。
在一些实施例中,测量(d)相应光学活性情况在测试基板上的部位和持续时间测量部位处超过5000个光子,部位处超过50,000个光子,或部位处超过200,000个光子。在一些实施例中,在测量(d)中使用的光子数目由单个帧产生,或由被认为包含单个光学活性情况的帧的组合产生
在一些实施例中,相应光学活性情况比对于测试基板观察到的背景光学活性高出预定数目的标准差(例如,超过3、4、5、6、7、8、9或10个标准差)。
在一些实施例中,多个寡核苷酸探针物质组或亚组中的每种相应寡核苷酸探针物质包含独特的N聚体序列,其中N是集合{1,2,3,4,5,6,7,8和9}中的整数,并且其中所有长度为N的独特的N聚体序列由包含多种寡核苷酸探针物质的组或亚组怨恨。在一些这样的实施例中,独特的N聚体序列包含被一个或多个简并核苷酸和或一个或多个通用碱基(例如,2'-脱氧肌苷、CPG 500、5-硝基吲哚)占据的一个或多个核苷酸位置。在一些这样的实施例中,独特的N聚体序列的5'侧是单个简并或通用核苷酸位置,并且3'侧是单个简并或通用核苷酸位置。在一些实施例中,靶核酸的长度为至少140个碱基,并且确定(f)确定超过70%的百分比的靶核酸序列。在一些实施例中,靶核酸的长度为至少140个碱基,并且确定(f)确定超过90%的百分比的靶核酸序列。在一些实施例中,靶核酸的长度为至少140个碱基,并且确定(f)确定超过99%的百分比的靶核酸序列。在一些实施例中,确定(f)确定超过99%的百分比的靶核酸序列。
在一些实施例中,靶核酸的长度为至少10,000个碱基或长度为至少1,000,000个碱基。
在一些实施例中,在重复暴露(c)和测量(d)之前,洗涤测试基板,从而在将测试基板暴露于寡核苷酸探针物质组中的一种或多种寡核苷酸探针物质之前,从测试基板去除一种或多种寡核苷酸探针物质。
在一些实施例中,固定(a)包含通过分子梳(后退弯月面)、流动拉伸纳米约束或电拉伸将核酸施加至测试基板。
在一些实施例中,每个相应光学活性情况具有符合预定阈值的观察度量。在一些这样的实施例中,观察度量包含持续时间、信噪比、光子计数或强度。在一些实施例中,预定阈值区分(i)第一结合形式和(ii)第二结合形式,在所述第一结合形式中独特的N聚体序列的每个碱基或每个非简并和或非通用碱基与靶核酸的固定的第一链或固定的第二链中的互补碱基结合,在所述第二结合形式中独特的N聚体序列的碱基或每个非简并和或非通用碱基与靶核酸的固定的第一链或固定的第二链中的序列之间存在至少一个错配,相应寡核苷酸探针已与靶核酸的固定的第一链或固定的第二链结合而形成相应光学活性情况。
在一些实施例中,寡核苷酸探针物质组中的每种相应寡核苷酸探针物质都具有其自己对应的预定阈值。在一些这样的实施例中,寡核苷酸探针物质组中的每种相应寡核苷酸探针物质的预定阈值来源于训练数据集。在一些实施例中,寡核苷酸探针物质组中的每种相应寡核苷酸探针物质的预定阈值来源于训练数据集,并且对于寡核苷酸探针物质组中的每种相应寡核苷酸探针物质,训练集包含对在与参考序列结合时相应寡核苷酸探针的观察度量的测量值,与参考序列的结合使得相应寡核苷酸探针物质的独特的N聚体序列的每个碱基或每个非简并和或非通用碱基与参考序列中的互补碱基结合。在一些这样的实施例中,将参考序列固定在参考基板上。或者,参考序列与靶核酸一起包括,与靶核酸分开或与其连接,并固定在测试基板上。在一些实施例中,参考序列包含PhiX174、M13、λ噬菌体、T7噬菌体、大肠杆菌(Escherichia coli)、酿酒酵母(Saccharomyces cerevisiae)、粟酒裂殖酵母(Saccharomyces pombe)的基因组的全部或一部分,或任何其它天然存在的基因组或转录组。在一些实施例中,参考序列是已知序列的合成构建体。在一些实施例中,参考序列包含兔球蛋白RNA的全部或一部分。
在一些实施例中,寡核苷酸探针物质组中的相应寡核苷酸探针物质通过与固定的第一链的互补部分结合而产生第一光学活性情况,并通过与固定的第二链的互补部分结合而产生第二光学活性情况。
在一些实施例中,寡核苷酸探针物质组中的相应寡核苷酸探针物质通过与固定的第一链的两个或更多个互补部分结合而产生测试基板上的不同位置处的两个或更多个光学活性情况,和或通过与固定的第二链的两个或更多个互补部分结合而产生测试基板上的不同位置处的两个或更多个第二光学活性情况。
在一些实施例中,相应寡核苷酸探针物质在暴露(c)期间与固定的第一链或固定的第二链的与相应寡核苷酸探针物质互补的部分在相同位置处结合两次或更多次,从而产生两个或更多个光学活性情况,每个光学活性情况代表多个结合事件中的一个结合事件。
在一些实施例中,相应寡核苷酸探针在暴露(c)期间与固定的第一链或固定的第二链的与相应寡核苷酸探针物质互补的部分在多个位置结合,并在每个位置处结合多次,可能在光学活性的每个位置处建立多个光学活性情况,每个光学活性情况代表多个结合事件中的一个结合事件。
在一些实施例中,暴露(c)发生五分钟或更长时间,五分钟或更短时间,两分钟或更短时间,或一分钟或更短时间。
在一些实施例中,暴露(c)发生在二维成像器的一个或多个帧、二维成像器的两个或更多个帧、二维成像器的500个或更多个帧或者二维成像器的5,000个或更多个帧上。
在一些实施例中,同时和或依次利用多个二维成像器,其中使多个二维成像器中的每一个成像器最优化以检测标记的具体类型,从而允许同时收集与多种不同寡核苷酸探针物质缔合的多个标记的数据。
在一些实施例中,对寡核苷酸探针物质组中的第一寡核苷酸探针物质进行暴露(c)持续第一时间段,其中重复(e)、暴露(c)和测量(d)包括对第二寡核苷酸探针物质进行暴露(c)持续第二时间段,并且第一时间段不同于第二时间段。
在一些实施例中,对寡核苷酸探针物质组中的第一寡核苷酸探针物质进行暴露(c),持续二维成像器的第一帧数,其中重复(e)、暴露(c)和测量(d)包括对第二寡核苷酸探针物质进行暴露(c),持续二维成像器的第二帧数,并且第一帧数大于第二帧数。
在一些实施例中,对寡核苷酸探针物质组中的第一寡核苷酸探针物质进行暴露(c),持续二维成像器的第一帧数,其中重复(e)、暴露(c)和测量(d)包括对第二寡核苷酸探针物质进行暴露(c),持续二维成像器的第二帧数,并且第一帧数中的每一帧的暴露持续时间不同于第二帧数中的每一帧的暴露持续时间。
在一些实施例中,寡核苷酸探针物质组中的每种寡核苷酸探针物质都具有相同的长度。
在一些实施例中,寡核苷酸探针物质组中的每种寡核苷酸探针物质都具有相同的长度M,其中M为2或更大的正整数(例如,M为2、3、4、5、6、7、8、9、10或大于10),并且(f)从测试基板上的多组位置确定靶核酸的至少一部分的序列还使用由多组位置表示的不同寡核苷酸探针物质的重叠序列。在一些这样的实施例中,寡核苷酸探针物质组中的每种寡核苷酸探针物质与寡核苷酸探针物质组中的另一个寡核苷酸探针共享M-1序列同源性。在一些这样的实施例中,从测试基板上的多组位置确定靶核酸的至少一部分的序列包含确定与固定的第一链对应的第一覆瓦式路径(tiling path)和与固定的第二链对应的第二覆瓦式路径。在一些这样的实施例中,使用第二覆瓦式路径的对应部分来分辨第一覆瓦式路径中的中断,其中第二覆瓦式路径与第一覆瓦式路径互补。在其它实施例中,使用参考序列分辨第一覆瓦式路径或第二覆瓦式路径中的中断。在其它实施例中,使用从靶核酸的另一情况获得的第三覆瓦式路径或第四覆瓦式路径的对应部分来分辨第一覆瓦式路径或第二覆瓦式路径中的中断。在一些这样的实施例中,使用第一覆瓦式路径和第二覆瓦式路径的对应部分来增加靶核酸序列的序列分配的置信度。在其它实施例中,使用从靶核酸的另一情况获得的第三覆瓦式路径或第四覆瓦式路径的对应部分来增加靶核酸序列的序列分配的置信度。
在一些实施例中,暴露(c)的一种情况的时间长度由暴露(c)的一种情况下使用的寡核苷酸探针物质组中的相应寡核苷酸探针物质的估计的解链温度确定。
在一些实施例中,方法还包含(f)将固定的双链或固定的第一链和固定的第二链暴露于抗体、亲和体(affimer)、纳米抗体(nanobody)、适体或甲基结合蛋白,从而从测试基板上的多组位置确定对靶核酸的修饰或与靶核酸的一部分的序列相关联。在一些实施例中,方法可以允许确定多种表观遗传修饰,所述修饰可包含靶核酸的一部分。
在一些实施例中,测试基板可包含二维表面。在一些这样的实施例中,二维表面涂有凝胶或基质。
在一些实施例中,测试基板可包含流动池、细胞、三维基质或凝胶。
在一些实施例中,在固定(a)之前,测试基板与序列特异性寡核苷酸探针物质结合,并且固定(a)可包含使用与测试基板结合的序列特异性寡核苷酸探针物质捕获测试基板上的靶核酸。
在一些实施例中,序列特异性寡核苷酸探针物质与测试基板的表面结合,并且可包含解链温度高于天然寡核苷酸碱基的碱基,例如PNA和或LNA碱基,并允许靶核酸的变性在一些实施例中,多个不同的序列特异性寡核苷酸探针物质与靶核酸的第一链和第二链互补,从而允许与之结合,可允许从每一单个靶核酸确定靶核酸的较高百分比的碱基。
在一些实施例中,核酸在包含另外的多种细胞组分的溶液中,并且固定(a)或变性(b)还可包含在靶核酸已被固定到测试基板上之后并且在暴露(c)之前洗涤测试基板,从而从靶核酸中纯化出另外的多种细胞组分。
在一些实施例中,在暴露(c)之前,用聚乙二醇、牛血清白蛋白-生物素-链霉亲和素、酪蛋白、牛血清白蛋白(BSA)、一种或多种不同的tRNA、一种或多种不同的脱氧核糖核苷酸、一种或多种不同的核糖核苷酸、鲑鱼精DNA、普朗尼克(pluronic)F-127、Tween-20、氢倍半硅氧烷(hydrogen silsesquioxane,HSQ)或其任何组合对测试基板进行钝化。
在一些实施例中,在固定(a)之前,用包含7-辛烯基三氯硅烷或甲基丙烯酰氧基丙基三甲氧基硅烷的乙烯基硅烷涂层涂布测试基板。
本公开的另一方面提供了一种对核酸进行测序的方法,其可包含:(a)将靶核酸以线性化拉伸形式固定在测试基板上,从而形成固定的拉伸靶核酸;(b)将固定的拉伸靶核酸暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质的相应池,其中寡核苷酸探针物质组中的每种寡核苷酸探针物质具有预定的序列和长度,暴露(b)在允许相应寡核苷酸探针物质的相应池的单个寡核苷酸探针与固定的靶核酸的与相应寡核苷酸探针物质互补的每个部分瞬时且可逆地的条件下发生,从而产生相应光学活性情况;(c)使用二维成像器测量在暴露(b)期间发生的每个相应光学活性情况在测试基板上的部位和任选地持续时间;(d)对寡核苷酸探针物质组中的相应寡核苷酸探针物质重复暴露(b)和测量(c),从而获得测试基板上的多组位置,其中测试基板上的每组相应位置可对应于寡核苷酸探针物质组中的一种寡核苷酸探针物质;以及(e)通过对由多组位置表示的测试基板上的位置进行编译,从测试基板上的多组位置确定靶核酸的至少一部分的序列,其中一组位置可包含在测试基板上不同和或相同部位中的光学活性部位。在一些这样的实施例中,靶核酸是双链核酸并且方法还可包含使固定的靶双链核酸在测试基板上变性为单链形式,从而获得靶核酸的固定的第一链和固定的第二链,其中固定的第二链与固定的第一链互补。在一些实施例中,靶核酸是单链RNA。
本公开的另一方面提供了一种分析核酸的方法,所述方法可包含(a)将靶核酸以双链形式固定在测试基板上,从而形成固定的双链核酸;(b)使固定的靶双链核酸在测试基板上变性为单链形式,从而获得靶核酸的固定的第一链和固定的第二链,其中固定的第二链与固定的第一链互补;以及(c)将固定的第一链和固定的第二链暴露于一种或多种寡核苷酸探针物质,并确定一种或多种寡核苷酸探针物质是与固定的第一链结合还是与固定的第二链结合。
现在结合图1A描述示例性系统的细节。图1是示出根据一些实施例的系统100的框图。在一些实施方案中,装置100可包括一个或多个处理单元(一个或多个CPU)102(也称为处理器或处理核心)、一个或多个网络接口104、用户界面106、非永久性存储器111、永久性存储器112以及用于互连这些组件的一个或多个通信总线114。一个或多个通信总线114任选地包括互连和控制系统组件之间的通信的电路(有时称为芯片组)。非永久性存储器111通常包括高速随机存取存储器,例如DRAM、SRAM、DDR RAM,而永久性存储器112通常包括CD-ROM、数字通用光盘(DVD)或其它光学存储器、盒式磁带、磁带、磁盘存储器或其它磁存储装置、磁盘存储装置、光盘存储装置、ROM、EEPROM、闪存装置或其它非易失性固态存储装置。永久性存储器112任选地包括远离一个或多个CPU 102的一个或多个存储装置。永久性存储器112包含非瞬时性计算机可读存储介质。在一些实施方案中,非永久性存储器111或替代地,非瞬时性计算机可读存储介质可存储以下程序、模块和数据结构或者其子集,有时结合永久性存储器112:
●任选的操作系统116,其可包括用于处置各种基本系统服务和用于执行依赖于硬件的任务的程序;
●任选的网络通信模块(或指令)118,其用于将系统100与其它装置或通信网络连接;
●光学活性检测模块120,其用于收集靶分子130的信息;
●靶分子130的多个结合位点中的每个相应结合位点140的信息,其可能与光学活性的一组位置直接相关;
●每个结合位点140的多个结合事件中的每个相应结合事件142的信息,其可包括(i)持续时间144和(ii)发射的光子数目146;
●测序模块150,其用于确定靶分子130的序列;
●每个靶分子130的多个结合位点中的每个相应结合位点140的信息,其可包括(i)碱基调用152和(ii)概率154;
●关于每个靶分子130的参考基因组160的任选信息;以及
●关于每个靶分子130的互补链170的任选信息。
在各种实施方案中,上面鉴定的元件中的一个或多个被存储在前述存储器装置中的一个或多个中,并且对应于用于执行上述功能的一组指令。在本文中,上面鉴定的模块、数据或程序(例如,指令集)不需要被实施为单独的软件程序、过程、数据集或模块,因此可在各种实施方案中组合或以其它方式重新排列这些模块和数据的各种子集。在一些实施方案中,非永久性存储器111任选地存储上面鉴定的模块和数据结构的子集。此外,在一些实施例中,非永久性存储器111或永久性存储器112存储上面没有描述的额外的模块和数据结构。在一些实施例中,上面鉴定的元件中的一个或多个被存储在除可视化系统100的计算机系统外的计算机系统中,所述计算机系统可通过可视化系统100寻址,使得在需要时可视化系统100可检索所有或部分的这样的数据。
网络通信模块118的实例包括但不限于万维网(World Wide Web,WWW)、内部网和/或局域网(LAN)、控制器局域网(CAN)、Cameralink和/或无线网路,例如蜂窝电话网络、无线局域网(WLAN)和/或城域网(MAN),以及通过无线通信的其它装置。有线或无线通信任选地使用多种通信标准、协议和技术中的任何一种,包括但不限于:全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、高速下行链路分组接入(HSDPA)、高速上行链路分组接入(HSUPA)、演进-仅数据(EV-DO)、HSPA、HSPA+、双小区HSPA(DC-HSPDA)、长期演进(LTE)、近场通信(NFC)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(例如,IEEE 802.11a、IEEE 802.11ac、IEEE 802.11ax、IEEE 802.11b、IEEE802.11g和/或IEEE 802.11n)、互联网协议语音(VoIP)、Wi-MAX、电子邮件协议(例如,互联网消息访问协议(IMAP)和/或邮局协议(POP)))、即时消息(例如,可扩展消息与存在协议(XMPP)、针对即时消息和出席扩展的会话发起协议(SIMPLE)、即时消息和存在服务(IMPS))和/或短消息服务(SMS)或任何其它合适的通信协议,包括截至本公开的提交日期尚未开发的通信协议。
尽管图1A描绘了“系统100”,但意图该图更多地是作为计算机系统中存在的各种特征的功能描述,而不是作为本文描述的实施方案的结构示意图。在实践中,并且如本领域普通技术人员所认识到的,可组合单独显示的项目,并且可将一些项目分开。此外,尽管图1A描绘了非永久性存储器111中的某些数据和模块,但这些数据和模块中的一些或全部可存在于永久性存储器112中。此外,在一些实施例中,存储器111和/或112存储上面没有描述的额外的模块和数据结构。在其它实施例中,包括一个或多个不同硬件模块(未示)作为系统100的一部分,例如一个或多个二维成像器、包括激光和光栅或滤光轮和相关控制器的光学系统以及包括多种泵、阀、加热器和其它机械系统的流体系统。
虽然已经参照图1A公开了根据本公开的系统,但是现在参照图2A、2B、3和4详细描述根据本公开的方法。
框202.提供了一种确定作为靶核酸的分子的化学结构的方法。本公开的目标是能够实现靶核酸的单核苷酸分辨测序。在一些实施例中,提供了一种表征包含寡核苷酸探针物质或其它分子的一个或多个探针与靶核酸或其它分子之间的相互作用的方法。方法包括在使一种或多种探针物质与靶核酸或其它分子瞬时结合的条件下,向靶核酸或其它分子中添加可包含寡核苷酸探针物质或另一分子的一个或多个探针。方法可通过在可包含一个或多个二维成像器的检测器上连续监测靶核酸或其它分子上的单个结合事件来进行,并且可包含记录一段时间内或一系列帧内的一个或多个结合事件。然后可以分析来自每个结合事件的数据以确定相互作用的一个或多个特征。
在一些实施例中,提供了一种确定聚合物(靶核酸)的身份(序列)的方法。在一些实施例中,提供了一种确定细胞或组织的身份的方法。在一些实施例中,提供了一种确定生物体的身份的方法。在一些实施例中,提供了一种确定个体的身份的方法。在一些实施例中,将方法应用于单细胞核酸和或蛋白质测序。
靶多核苷酸.
在一些实施例中,分子是靶核酸,并且是天然靶多核苷酸,或是天然多核苷酸的拷贝。在各种实施例中,方法还可包含从单细胞、单个细胞器、单个染色体、单个病毒、外来体或体液中提取呈完整的靶多核苷酸的单个靶多核苷酸分子,在本文中也可以被说成是样品。在另外的实施例中,方法可包含从单细胞、单个细胞器、单个染色体、单个病毒、外来体或体液中提取呈完整的靶多核苷酸的一个或多个靶多核苷酸分子,在本文中也可以被说成是样品。在另外的实施例中,方法可包含从多个细胞、多个细胞器、多个染色体、多个病毒、多个外来体或体液中提取呈完整的靶多核苷酸的一个或多个靶多核苷酸分子,在本文中也可以被说成是样品。在一些实施例中,单个靶多核苷酸可包含单个RNA、单个ssDNA或单个dsDNA。
在一些实施例中,靶核酸是短多核苷酸(例如,<1千碱基或<300个碱基)。在一些实施例中,短多核苷酸的长度为100-200个碱基、150-250个碱基、200-350个碱基或100-500个碱基,正如对于体液如尿液和血液中的游离DNA所发现的一样。
在一些实施例中,靶核酸的长度为至少10,000个碱基。在一些实施例中,靶核酸的长度为至少1,000,000个碱基。
在各种实施例中,单个靶核酸是染色体。在各种实施例中,单个靶多核苷酸的长度为约102、103、104、105、106、107、108或109个碱基,或102与109个碱基之间的任何长度。
在一些实施例中,方法使得能够分析靶蛋白、靶多肽或靶肽的氨基酸序列。在一些实施例中,提供了分析并测定靶蛋白、靶多肽或靶肽的氨基酸序列的方法。在一些实施例中,提供了分析靶多核苷酸的肽修饰以及氨基酸序列的方法。在一些实施例中,靶分子实体是包含至少5个单元的聚合物。在这样的实施例中,结合探针是分子探针,包含寡核苷酸、抗体、亲和体、纳米抗体、适体、结合蛋白或小分子等。
在一些实施例中,对应特异性探针结合标准20种氨基酸、22种蛋白型氨基酸、如在全蛋白质中发现或作为翻译后修饰的结果的非蛋白型胺基酸、天然存在的D-氨基酸或天然存在的L-氨基酸中的每一种或一种或多种,所述探针包含N-识别子(recognin)、纳米抗体、抗体、适体等。每个探针的结合对靶蛋白、靶多肽链或靶肽内的每个对应氨基酸都是特异性的。在一些实施例中,确定靶蛋白、靶多肽链或靶肽中的亚基的顺序。在一些实施例中,结合是与结合位点的替代物的结合。在一些实施例中,替代物是附接在某些氨基酸或肽序列上的标签,并且瞬时结合将是与替代物标签的结合。
在一些实施例中,分子是非均相分子。在一些实施例中,非均相分子可包含超分子结构的一部分。在一些实施例中,方法使得能够鉴定非均相聚合物的化学结构单元并对其进行排序,或能够鉴定超分子结构的化学结构单元并对其进行排序,其中这类单元可包含不同类型的聚合物亚基,例如核酸和氨基酸。这类实施例可包含将一种或多种聚合物伸长并结合多个探针,以鉴定沿着伸长聚合物的多个位点处的化学结构。伸长杂聚物可允许探针结合位点的亚衍射水平(例如,纳米级)定位。
在一些实施例中,提供了通过识别聚合物亚基的寡核苷酸探针物质的结合对聚合物进行测序的方法。通常,一种寡核苷酸探针物质的结合不足以对聚合物进行测序。例如,在图1B中描绘了一实施例,其中聚合物130的测序基于测量与完整探针物质组182的瞬时相互作用(例如,变性靶核酸与完整寡核苷酸探针物质组的相互作用,或变性靶蛋白、靶多肽或靶肽与一组纳米抗体或亲和体、抗体或其它氨基酸特异性结合剂探针物质的相互作用,其中对不同探针物质进行标记以允许观察光学活性)。
靶聚合物的提取和/或制备.
在一些实施例中,在进行核酸提取之前,需要将所关注细胞与其它非关注细胞分开,或建立单个类型的数种细胞的文库。在一个这样的实例中,从血液中分离循环肿瘤细胞或循环胎儿细胞(例如,通过使用用于亲和捕获的细胞表面标志物)。在一些实施例中,需要将微生物细胞与人细胞分离,其中关注的是检测和分析来自微生物细胞的靶核酸。在一些实施例中,使用调理素(Opsonin)来亲和捕获多种微生物并将它们与哺乳动物细胞分离。在其它实施例中,进行差异溶解。在相对温和的条件下,首先溶解哺乳动物细胞。微生物细胞通常比哺乳动物细胞坚韧(更难以溶解),因此微生物细胞在经历哺乳动物细胞溶解后仍可保持完整。洗掉溶解的哺乳动物细胞碎片。然后使用更苛刻的条件来溶解微生物细胞。然后对靶微生物多核苷酸进行选择性测序。
在一些实施例中,在测序之前从细胞中提取靶核酸。在替代实施例中,在细胞内进行测序(例如,染色体DNA的测序),其中染色体DNA在分裂间期沿着盘旋路径。Beliveau等人,《自然通信(Nature Communications)》6:7147(2015)已证明寡核苷酸探针物质在原位的稳定结合。寡核苷酸探针物质的这种原位结合和寡核苷酸探针物质在三维空间中的纳米级定位使得能够确定细胞内染色体分子(靶核酸)的序列以及结构排列。
靶多核苷酸通常以天然折叠状态存在。举例来说,基因组DNA在染色体中高度缩合,而RNA可形成二级结构。在一些实施例中,在从生物样品中提取的过程中,获得长度较长的多核苷酸(例如,通过基本上保留天然多核苷酸的天然长度)。在一些实施例中,将多核苷酸线性化,以便几乎无歧义地追踪沿着其长度的部位。理想地,在线性化之前或之后,将靶多核苷酸拉直、拉伸或伸长。
在一些实施例中,方法尤其适合于对非常长的聚合物长度进行测序,其中保留了天然长度或其相当大的比例(例如,对于DNA全染色体或约1兆碱基或更大的片段)。然而,常用的分子生物学方法会导致不期望的DNA片段化。例如,移液和涡旋会产生剪切力,使DNA分子断裂。核酸酶污染会导致核酸降解或片段化。在一些实施例中,在固着、拉伸和测序开始之前保留了天然长度或天然长度的相当大的高分子量(HMW)片段。
在一些实施例中,在进行测序之前,有意地将多核苷酸片段化为相对均一的较长的长度(例如,约1Mb的长度)。在一些实施例中,在固定或伸长之后或期间,将多核苷酸片段化为相对均一的较长的长度。在一些实施例中,片段化是通过酶促实现的。在一些实施例中,片段化是通过物理方式实现的。在一些实施例中,物理片段化是经由超声处理实现的。在一些实施例中,物理片段化是经由离子轰击或辐射实现的。在一些实施例中,物理片段化是经由电磁辐射实现的。在一些实施例中,物理片段化是经由UV照射实现的。在一些实施例中,控制UV照射的剂量以实现形成给定长度的片段化。在一些实施例中,物理片段化是经由UV照射与染料(例如,YOYO-1)染色的组合实现的。在一些实施例中,通过物理作用或添加试剂来停止片段化过程。在一些实施例中,可停止片段化过程的试剂是还原剂,例如β-巯基乙醇(BME)。
通过辐射剂量进行片段化以及测序
在一些实施例中,当二维成像器的视野允许在二维成像器的一个维度上目测完整的兆碱基长度的DNA时,产生长度为1Mb的基因组DNA是有效的。在其它实施例中,通过二维成像器的一个维度内的片段拟合,可以目测更大或更小的片段。在另外的实施例中,使用长度大于可以通过二维成像器成像为单个图像的靶核酸,其中在不同时间获取靶核酸不同部分的图像,并在一个成像(c)步骤中针对靶核酸的一个或多个区域用一个或多个帧来成像,或在移动二维成像器视野至靶核酸的不同部分之前进行测序的更完整过程,这可包含利用完整寡核苷酸探针物质组或其任何亚组。还应该注意的是,减小染色体长度片段的大小也最大限度地减少链的缠结,并允许以拉伸的良好分离的形式获得最大长度的DNA。
用于对染色体的长亚片段(sub-fragment)进行测序的方法包含以下步骤:
i)用染料对染色体双链DNA进行染色,所述染料嵌入双链DNA的碱基对之间
ii)将嵌入染料染色的染色体DNA暴露于预定剂量的电磁辐射下,以产生所需大小范围内的染色体DNA的亚片段
iii)将嵌入染料染色的染色体亚片段DNA伸长并固定在表面上
iv)使染色的染色体片段变性以破坏碱基对,从而释放任何嵌入染料
v)将所得到的脱色的固定的伸长单链染色体片段暴露于具有所需长度和序列的一个或多个寡核苷酸探针物质组
vi)确定一个或多个寡核苷酸探针物质组中的每种寡核苷酸探针物质沿着脱色的伸长单链染色体片段的结合部位
vii)对一个或多个寡核苷酸探针物质组中的寡核苷酸探针物质的结合部位进行编译,以获得染色体亚片段的完整测序。
在一些实施例中,如上文所述,当染色体在细胞中时可进行染色。在一些实施例中,如上文所述,当双链体形成时,作为添加更多的嵌入染料染色剂,随后嵌入到双链体中的结果,标记的寡核苷酸被标记。在一些实施例中,如上文所述,任选地,除了变性之外,还施加能够漂白染色剂的剂量的电磁辐射。在上述的一些实施例中,所述预定剂量是通过操控暴露的强度和持续时间以及通过化学暴露停止片段化来实现的,其中所述化学暴露是还原剂,例如β-巯基乙醇。在上述的一些实施例中,剂量预定为产生约1Mb的片段长度的泊松分布(Poisson distribution)。
固定和固着的方法.
框204.将靶核酸以双链线性化拉伸形式固定在测试基板上,从而形成固定的拉伸双链核酸。任选地,将分子固着在表面或基质上。在一些实施例中,固定片段化的聚合物或天然聚合物。在一些实施例中,固定的双链线性化核酸可以是直的,或者可以沿着曲线或弯曲路径。
在一些实施例中,固定可包含通过分子梳(后退弯月面)、流动拉伸、纳米约束或电拉伸将靶核酸施加至测试基板。在一些实施例中,将靶核酸施加或固定至基板上还可包含UV交联步骤,其中将靶核酸共价键合至基板上。在一些实施例中,可能无法实现靶核酸与基板的UV交联,并通过其它方式(例如,例如疏水相互作用、氢键键合等)将靶核酸键合至基板上。
仅在一端上固着(例如,固定)靶核酸可允许多核苷酸以不协调的方式拉伸和收缩。因此,无论使用何种伸长方法,沿着靶核酸长度拉伸的百分比可针对靶核酸中的任何特定位置而变化。在一些实施例中,沿着靶核酸的多个部位的相对位置需要固定,不会波动。在这样的实施例中,伸长靶核酸通过沿其长度的多个接触点固着或固定至表面上(例如,如Michalet等人,《科学(Science)》277:1518-1523,1997的分子梳技术中所做的;关于在表面上拉伸,又见《DNA:分子梳:方法与应用(Molecular Combing of DNA:Methods andApplications)》,《自组装和分子电子装置杂志(Journal of Self-Assembly andMolecular Electronics,SAME)》1:125-148(例如,《美国化学学会·纳米(ACS Nano.)》2015年1月27日;9(1):809-16)),并且如Bensimon等人在US6344319中和Dedecker等人在US20130130255中所述。
在一些实施例中,将靶核酸的阵列固着在表面上,并且在一些实施例中,阵列的靶核酸相距足够远以至可通过衍射极限成像来单独分辨。在一些实施例中,将靶核酸以有序的方式固定在表面上,使得靶核酸最大限度地装填在给定的表面区域内,并且靶核酸不可重叠。在一些实施例中,这是通过制作图案化表面(例如,疏水补丁或条带在靶核酸的末端可结合的这类部位处的有序排列)来实现的。在一些实施例中,阵列的靶核酸相距不够远以至不能通过衍射极限成像来单独分辨,而是通过超分辨方法来单独分辨。
在一些实施例中,利用DNA帘来组织靶核酸(Greene等人,《酶学方法(MethodsEnzymol.)》472:293-315,2010)。这特别适用于长的靶核酸。在这类实施例中,当DNA链被附接在一端并通过流动或电泳力伸长时,或者在链的两端均被捕获后,记录瞬时结合。在一些实施例中,在相同靶核酸序列的许多拷贝可形成在DNA帘法中利用的多个靶核酸的情况下,序列以聚集的结合模式从多个靶核酸而不是从一个靶核酸组装而成。在一些实施例中,靶核酸的两个末端可结合于垫(例如,与测试基板的其它区段相比,更强烈地结合于靶核酸的测试基板区域),并且每一端可结合于不同的垫。在一些实施例中,单个线性靶核酸可结合的两个垫可将单个线性靶核酸的拉伸构型保持在适当的位置,并允许形成等间距、不重叠或不相互作用的单个线性靶核酸的有序阵列。在一些实施例中,一个靶核酸只能占据单个垫。在一些实施例中,在使用泊松过程(Poisson process)填充垫的情况下,一些垫未被靶核酸占据,一些被一个靶核酸占据,一些垫被超过一个靶核酸占据。
在一些实施例中,靶分子(即靶核酸)被捕获至有序的超分子支架(例如,DNA折纸结构)上。在一些实施例中,支架结构最初呈游离溶液使用,以利用溶液相动力学来捕获靶分子(即靶核酸)。一旦它们被占据,支架就可能沉降或自组装至表面上,并结合于表面。有序阵列使得能够对分子进行有效的亚衍射填充,从而允许每个视野有更高密度的分子(高密度阵列)。单分子定位方法允许高密度阵列内(例如,40nm或更小的点到点的距离)的靶分子(即靶核酸)被超分辨。
在一些实施例中,将发夹连接(任选地在抛光靶核酸的末端之后)至双链体靶核酸的末端上。在一些实施例中,发夹可含有生物素,生物素可将靶核酸固着至表面。在替代实施例中,发夹可用于共价连接双链体靶核酸的两条链。在一些这样的实施例中,将靶核酸的另一末端加尾以例如通过寡聚d(T)或通过特定序列进行表面捕获。变性后,靶核酸的两条链均可用于与寡核苷酸或其它探针物质相互作用。
在一些实施例中,有序阵列可采取单个支架的形式,这些支架连接在一起形成大的DNA网格(例如,如Woo和Rothemund,《自然通信》,5:4889中所述)。在一些这样的实施例中,单个小支架可通过碱基配对彼此锁定。在一些实施例中,小支架可结合在一起,因此呈现高度有序的纳米结构阵列,用于如本文所述的测序步骤。在一些实施例中,捕获位点以10nm的间距排列在有序的二维网格中。这种网格在完全占据的情况下,能够每平方厘米捕获约一万亿个分子。
在一些实施例中,网格中的捕获位点以5nm间距、10nm间距、15nm间距、30nm间距或50nm间距排列在有序的二维网格中。在一些实施例中,网格中的捕获位点以5nm间距至50nm间距排列在有序的二维网格中。
在一些实施例中,使用纳米流体学建立靶核酸或其它靶分子的有序阵列。在一个这样的实例中,将纳米沟槽或纳米槽(例如,100nm宽和150nm深)的阵列形成表面,并用于对长的靶核酸进行排序。在这样的实施例中,一个靶核酸在纳米沟槽或纳米槽中的出现可排除另一个靶核酸的进入。在另一实施例中,使用纳米坑(nanopit)阵列,其中长靶核酸区段在凹坑中,并结合在凹坑中,且间插的靶核酸长区段散布在凹坑之间。
在一些实施例中,高密度的靶核酸仍然允许超分辨成像和精确测序。举例来说,在一些实施例中,只关注一个亚组的靶核酸(例如,靶向测序)。在这样的实施例中,当进行靶向测序时,只需要分析来自复杂样品(例如,全基因组或转录组、多个基因组)的一个亚组的靶核酸和或靶核酸区域,并且靶核酸以比通常更高的密度固定至测试基板或基质。在这样的实施例中,即使衍射极限空间或SMLM分辨率空间内存在几个多核苷酸,当检测到信号时,很有可能该信号仅来自靶基因座中的一个,并且该基因座不在同时与相同的寡核苷酸探针物质结合的另一个这类基因座的衍射极限距离或SMLM分辨率空间内。进行靶向测序的每个靶核酸之间所需的距离与被靶向的多核苷酸的百分比相关。举例来说,如果<5%的多核苷酸被靶向,那么多核苷酸的密度比期望整个靶核酸序列时大二十倍。在靶向测序的一些实施例中,成像时间比分析全基因组的情况下短(例如,在上面的实例中,靶向测序成像可能比全基因组测序快10倍)。
在一些实施例中,在固定步骤之前,测试基板与序列特异性寡核苷酸探针物质结合,并且固定步骤可包含使用与测试基板结合的序列特异性寡核苷酸探针物质捕获或固定测试基板上的靶核酸。在一些实施例中,靶核酸固定或结合在5′末端。在一些实施例中,靶核酸固定或结合在3′末端。在另一实施例中,当测试基板上存在两个独立的探针时,一个探针可固定或结合于靶核酸的第一末端,第二探针可固定或结合于靶核酸的第二末端。在使用两个探针的情况下,还需要有关于靶核酸长度的先验信息。在一些实施例中,在固定或结合于测试基板之前用预定的核酸内切酶切割靶核酸。在另外的实施例中,在最初固定或结合在一端或两端之后,使靶核酸固定或结合在沿着靶核酸的长度的额外的点处。
在各种实施例中,在固定之前,将靶核酸提取到凝胶或基质中或包埋在凝胶或基质中(例如,如Shag等人,《自然实验手册(Nature Protocols)》7:467-478,2012中所述)。在一个这样的非限制性实例中,靶核酸沉积在流动通道中,该流动通道含有经历液体到凝胶转变的介质。最初将靶核酸在液相中伸长并分布,然后通过相变为固相/凝胶相(例如,通过加热,引起或加速交联,或者在聚丙烯酰胺的情况下通过添加辅因子或随着时间推移)来进行固定。在一些实施例中,将靶核酸在固/凝胶相中伸长。
在一些替代实施例中,将一种或多种寡核苷酸探针物质固着在测试基板或基质上或测试基板或基质中。在这样的实施例中,使一个或多个靶核酸悬浮在溶液中,并与一个或多个固定的寡核苷酸探针物质瞬时结合。在一些实施例中,使用一种或多种寡核苷酸探针物质的空间可寻址阵列来捕获靶核酸。在一些实施例中,通过使用适当的捕获分子捕获靶核酸的修饰末端或未修饰末端,将短的靶核酸(例如,<300个核苷酸)如游离DNA或微小RNA,或相对较短的靶核酸(例如,<10,000个核苷酸)如mRNA,随机固着在表面上,所述捕获分子可包含一种或多种寡核苷酸探针物质,或可包含其它结合机制,例如生物素-亲和素。在一些实施例中,短的或相对较短的靶核酸与测试基板进行多重相互作用,并且在平行于测试基板的方向上进行测序。因此,分辨剪接同种型组织或结构DNA修饰。例如,在一些同种型中,可描绘或确定重复或改组的外显子的部位,或在癌细胞中,可发生显著的结构重排,并描绘或确定这类结构重排和与基因或DNA的重要非编码区的关系。
在一些实施例中,固着的探针可包含可与靶核酸退火的共同序列。这种实施例特别适用于靶核酸具有可出现在一个或两个末端的共同序列时。在一些实施例中,靶核酸是单链,并且具有共同序列,例如多聚腺苷酸尾。在一个这样的实例中,将携带多聚腺苷酸化尾并例如使用平接或连接,利用夹板寡核苷酸将多聚腺苷酸化尾添加至天然mRNA的5'末端的天然mRNA捕获在测试基板或其它表面或基质上的寡核苷酸多聚d(T)探针的阵列或坪(lawn)上。在一些实施例中,特别是分析短DNA的那些实施例,靶核酸的末端通过例如连接特定的短寡核苷酸或通过结合用于与捕获分子相互作用的生物素来适应,捕捉分子是测试基板或其它表面或基质上的特异性互补寡核苷酸探针物质。
在一些实施例中,靶核酸可包含双链DNA,具有限制酶产生的粘性末端。在一些非限制性实例中,使用具有罕见位点(例如,Pmme1或NOT1)的限制酶来产生靶核酸的长片段,每个片段含有具有共同的末端序列的粘性末端。在一些实施例中,使用末端转移酶进行适应。在其它实施例中,使用连接或加标签(tagmentation)来引入衔接子,方式与Illumina测序的用户利用的方式类似。这使得用户能够使用完善的Illumina方案来制备样品,然后通过本文所述的方法进行捕获和测序。在这样的实施例中,在任何扩增之前捕获或固定靶核酸以用于测序,这引入了误差和偏差,并且去除了可能包含天然靶核酸一部分的任何表观遗传信息。
伸长方法
在大多数实施例中,需要将多核苷酸或其它靶分子,例如靶核酸、靶蛋白、靶多肽或靶肽,结合或固定至测试基板、表面或基质上才能进行伸长。在一些实施例中,靶核酸的伸长使其等于、长于或短于其晶体学长度(例如,其中已知对于dsDNA,从一个碱基到下一个碱基的原位间隔为0.34nm)。在一些实施例中,靶核酸被拉伸长于原位晶体学长度。
在一些实施例中,靶核酸经由分子梳来拉伸(例如,如在Michalet等人,《科学》277:1518-1523,1997和Deen等人,《美国化学学会·纳米》9:809-816,2015中所描述)。这使得数百万和数十亿靶核酸能够平行拉伸和单向对齐。在一些实施例中,通过将含有所需靶核酸的溶液洗涤到测试基板上,然后收起溶液的弯月面来进行分子梳。在收起弯月面之前,靶核酸可能与测试基板形成共价或其它相互作用。随着溶液后退,靶核酸在与弯月面相同的方向上被拉动(例如,通过表面滞留);然而,如果靶核酸与测试基板之间的结合或固定相互作用的强度足以克服表面滞留力,则靶核酸被以均匀的方式在后退弯月面方向上拉伸。在一些实施例中,如Kaykov等人,《科学报告(Sci Reports.)》6:19636(2016)(以全文引用的方式并入本文中)中所述进行分子梳。在其它实施例中,使用Petit等人《纳米快报(NanoLetters)》3:1141-1146(2003)中描述的方法或方法的改进型式,在通道(例如,微流体装置的通道)中进行分子梳。
空气/水界面的形状决定了通过分子梳拉伸的伸长靶核酸的取向。在一些实施例中,靶核酸垂直于空气/水界面伸长。在一些实施例中,在未对其一端进行修饰的情况下将靶核酸附接、结合或固定至测试基板或其它表面,或者在未对任一端进行修饰的情况下结合或固定。在一些实施例中,在双链靶核酸的末端通过疏水相互作用捕获时,利用后退弯月面进行的拉伸使双链靶核酸的一部分变性,并与测试基板或表面形成额外的疏水相互作用。
在一些实施例中,靶核酸经由分子穿线(molecular threading)来拉伸(例如,如由Payne等人,《公共科学图书馆·综合(PLoS ONE)》8(7):e69058,2013所描述)。在一些实施例中,在靶核酸已经变性成单链(例如,通过化学变性剂、温度或酶、盐浓度或pH值)之后进行分子穿线。在一些实施例中,将靶核酸在一端拴系,然后利用流体流动进行拉伸(例如,如Greene等人,《酶学方法(Methods in Enzymology)》,327:293-315所示)。
在各种实施例中,靶核酸存在于微流体通道中。在一些实施例中,使靶核酸流入微流体通道中,或者从一个或多个染色体、外来体、细胞核或细胞提取到流动通道中。在一些实施例中,不是经由微流体或纳米流体流动池将靶核酸插入到纳米通道中,而是通过以对能形成通道壁和或底部的表面施加电偏压的方式构建一个或多个通道来将靶核酸插入到开顶式通道中,通道是纳米通道或微米通道(例如,参见Asanov等人,《分析化学(AnalChem.)》1998年3月15日;70(6):1156-6)。在一些实施例中,向能形成通道壁和或底部的表面施加正偏压,使得带负电荷的靶核酸被吸引到纳米通道中。同时,对通道之间的区域可不施加电偏压,使得靶核酸不太可能沉积在通道之间的区域上。
在一些实施例中,延伸是通过流体动力阻力实现的。在一些实施例中,靶核酸经由纳米缝隙(nanoslit)中的交叉流来拉伸(Marie等人,《美国国家科学院院刊》110:4893-8,2013)。在一些实施例中,靶核酸的延伸是通过流动通道中的纳米约束实现的。流动拉伸纳米约束可涉及经由流动梯度将靶核酸拉伸成线性构象,通常在微流体或纳米流体装置中进行。可利用这种拉伸方法的微流体或纳米流体装置的纳米约束部分可指微流体或纳米流体装置的狭窄区域。狭窄区域或通道的使用有助于克服分子个体化(例如,单个核酸或其它聚合物在拉伸过程中采用多种构象的趋势)的问题。关于流动拉伸方法的一个问题是流动并不总是沿着靶核酸均匀地施加。这会导致靶核酸表现出一定范围(宽范围)的延伸长度。在一些实施例中,流动拉伸方法可涉及延伸流动和/或流体动力阻力。在靶核酸被吸引到微米通道或纳米通道中的一些实施例中,一种或多种靶核酸被纳米约束在微米通道或纳米通道中,从而伸长。在一些实施例中,纳米约束后,靶核酸沉积、结合或固定在施加偏压的表面上或测试基板或其它表面顶上的涂层或基质上。
在一些实施例中,利用多种对表面施加正偏压或负偏压的方法中的任一种。在一些实施例中,测试基板或其它表面用具有无垢特性的材料制成或涂覆,测试基板或其它表面用脂质(例如,脂质双层)、牛血清白蛋白(BSA)、酪蛋白、各种PEG衍生物等钝化。钝化可用来防止多核苷酸螯合、结合或固定在通道的任何一个部分中,从而使伸长和或更均匀的伸长成为可能。在一些实施例中,测试基板或其它表面还可以包含氧化铟锡(ITO)或其它透明的导电表面,例如广谱透明导电氧化物、导电聚合物、石墨烯、极薄金属膜等。
在一些实施例中,为了在包含微流体或纳米流体通道的测试基板或其它表面上产生脂质双层(LBL),将具有1%LissamineTM罗丹明B1,2-双十六烷酰基-sn-甘油基-3-磷酸乙醇胺的两性离子POPC(1-棕榈酰基-2-油酰基-sn-甘油基-3-磷酸胆碱)脂质涂布到表面上。添加三乙铵盐(罗丹明-DHPE)脂质使得能够用荧光显微术观察LBL形成。在本公开的一些实施例中使用的脂质双层钝化方法由Persson等人,《纳米快报(Nano Lett.)》12:2260-2265,2012描述。
在一些实施例中,一种或多种靶核酸的延伸经由电泳或介电泳进行。在一些实施例中,将靶核酸在一端拴系,然后通过电场拉伸(例如,如Giese等人,《自然·生物技术(Nature Biotechnology)》26:317-325,2008所描述)。核酸的电拉伸是基于核酸是带高负电荷的分子的事实。例如,如Randall等人2006,《芯片实验室(Lab Chip.)》6,516-522描述的电拉伸方法涉及用电场将核酸抽吸通过微米通道或纳米通道(以诱导靶核酸分子的取向)。在一些实施例中,电拉伸在凝胶或缠结聚合物内进行或在无凝胶或缠结聚合物下进行。使用凝胶或缠结聚合物的一个益处是限制了靶核酸可利用的三维空间,从而有助于克服分子个体性。电拉伸相对于压力驱动拉伸方法(例如纳米约束)的一个普遍有利方面是足以缺乏破坏核酸分子的剪切力。
在一些实施例中,当多个多核苷酸存在于测试基板或其它表面上时,靶核酸可能无法以相同的取向对齐或者可能不是直的(例如,靶核酸可附接、结合或固定至测试基板或其它表面,或者以曲线路径穿过凝胶或缠结聚合物)。在这样的实施例中,多个靶核酸中的两个或更多个重叠的可能性增加,导致关于探针沿着每个靶核酸长度的定位可能混乱。在一些实施例中,尽管从弯曲靶核酸获得的测序信息与从直的良好对齐的靶核酸获得的测序信息相同,但处理来自弯曲靶核酸的测序信息的图像处理任务比处理从直的良好对齐的靶核酸获得的测序信息需要更多的计算能力或时间。
在以与平坦表面(即测试基板的表面)平行的方向伸长一种或多种靶核酸的实施例中,在二维成像器中的一系列相邻像素上对靶核酸的长度进行成像,所述二维成像器为阵列检测器,例如CMOS或CCD相机。在一些实施例中,以与测试基板或其它表面垂直的方向伸长一种或多种靶核酸。在一些实施例中,靶核酸经由光片显微术、旋转圆盘共焦显微术、三维超分辨显微术、三维单分子定位或激光扫描圆盘共焦显微术或其变体成像。在一些实施例中,使靶核酸相对于测试基板或其它表面成斜角伸长。在一些实施例中,经由二维成像器或检测器对靶核酸进行成像,并经由单分子定位算法软件(例如,如Ovesny等人,《生物信息(BioInform.)》30:2389-2390,2014所述的Fiji/ImageJ插件ThunderSTORM)对所得到的图像或帧进行处理。
在固定和伸长之前从单细胞中提取和分离DNA.
在一些实施例中,将用于单细胞的捕集器设计在微流体结构内,以在释放单个细胞的靶核酸的同时将单个细胞保持在一个地点(例如,通过使用WO/2012/056192或WO/2012/055415的装置设计)。在一些实施例中,代替在纳米通道中提取和拉伸靶核酸,用盖玻片或箔片密封微流体结构/纳米流体结构,该盖玻片或箔片可进一步涂有聚乙烯基硅烷以实现分子梳(例如,通过流体运动,如Petit等人,《纳米快报》3:1141-1146.2003所描述)。流控芯片内部的温和条件使得提取的靶核酸能够长时间保存。
许多不同的方法可用于从单细胞或细胞核中提取生物聚合物(例如,在Kim等人,《综合生物学(Integr Biol)》1(10),574-86,2009中综述了一些合适的方法)。在一些非限制性实例中,用高浓度KCL处理细胞以使细胞膜破裂或去除细胞膜。通过添加低渗溶液使细胞溶解。在一些实施例中,将每个细胞单独分离,单独提取每个细胞的DNA,然后在微流体容器或装置中对与单细胞相关联的每组靶核酸进行单独测序。在一些实施例中,通过用清洁剂和/或蛋白酶处理一个或多个细胞来提取靶核酸。在一些实施例中,在溶解溶液中提供螯合剂(例如,EDTA或EDDS)以捕获核酸酶所需的二价阳离子(从而降低核酸酶活性)。
在一些实施例中,通过以下方法单独提取单细胞的细胞核和核外成分。将一个或多个细胞提供至微流体装置的进料通道。然后可以捕获一个或多个细胞,其中每个细胞由一个捕集结构捕获。使第一溶解缓冲液流入具有一个或多个捕获到的细胞的微流体装置的捕集结构中,其中第一溶解缓冲液可使细胞膜溶解,但可保留细胞核的完整性。在第一溶解缓冲液流动时,微流体装置的捕集结构中一个或多个捕获到的细胞的核外成分被释放到微流体装置内的流动池中,释放的RNA和细胞质被固着在所述流动池中。然后通过将第二溶解缓冲液供应至具有一个或多个捕获到的细胞或其残余物的微流体装置的捕集结构,使一个或多个细胞核进一步溶解。第二溶解缓冲液的添加可使一个或多个细胞核和或线粒体的成分(例如,基因组DNA或粒线体DNA)释放到微流体装置中的流动池中,随后DNA固着在所述流动池中。一个或多个细胞的核外和胞内组分被固着在相同流动池的不同部位,或同一微流体装置内的不同流动池中,或不同微流体装置中。
图16A和16B中的示意图展示了可捕获和分离多个单细胞的微流控体系结构。细胞1602被流动池2004内的细胞捕集器1606捕获。在一些实施例中,在捕获到细胞后,使溶解试剂流入所示的细胞捕集器1606中并流过其。溶解后,核酸1608然后被分布在靠近捕获捕集器1606处,同时保持与从其它细胞1602提取的核酸1608分离。在一些实施例中,如图16B所示,进行电泳诱导(例如,通过使用电荷1610)来操纵核酸。溶解可将核酸1608从细胞1602和细胞核1604中释放。核酸1608可保持在捕集细胞1602时核酸1608所处的位置(例如,相对于细胞捕集器1606)。捕集器是单细胞的尺寸(例如,2-10μm)。在一些实施例中,使带有微滴的样品和微流体装置流动池在一起的通道的宽度和高度大于2μm、10μm或大于10μm。在一些实施例中,分叉通道与捕集器之间的距离为1-1000微米。
在表面提取和伸长高分子量的DNA.
在不同实施例中使用各种用于拉伸HMW多核苷酸的方法(例如,《美国化学学会·纳米》9(1):809-16,2015)。在一个这样的实例中,表面上的伸长是在流动池中进行的(例如,通过使用Petit和Carbeck,《纳米快报》3:1141-1146,2003中描述的方法)。除了流体或微流体方法之外,在一些实施例中,还使用电场来拉伸多核苷酸,如Giess等人,《自然·生物技术》26,317-325(2008)中所公开的。当多核苷酸不附着于表面时,有几种方法可用于伸长多核苷酸(例如,Frietag等人,《生物微流体(Biomicrofluidics)》,9(4):044114(2015);Marie等人,《美国国家科学院院刊》110:4893-8,2013)。
在一些实施例中,作为在凝胶塞中使用DNA的替代方法,通过如Cram等人,《细胞科学方法(Methods Cell Sci.)》,2002,24,27-35描述的多胺方法制备适合装载到可包含测试基板的微流体装置上的染色体,并将其直接移液至可包含测试基板的微流体装置中。在一些这样的实施例中,使用蛋白酶消化与染色体中的DNA结合的蛋白质以释放基本上裸露的DNA,然后如上所述将其固定和伸长。
处理样品以实现读段的部位保存.
在对非常长的区域或聚合物进行测序的实施例中,靶核酸的任何降解都有可能显著降低整体测序的准确性。下文呈现了有利于整个伸长聚合物保存的方法。
靶核酸在提取、存储或制备过程中有可能被破坏。在天然双链基因组DNA分子中可形成切口、间隙、碱基的氧化、胞嘧啶的分层和加合物。当样品多核苷酸来自FFPE材料时,情况尤其如此。因此,在一些实施例中,在固着DNA之前或之后引入DNA修复溶液。在一些实施例中,DNA修复在将DNA提取到凝胶塞中之后进行。在一些实施例中,修复溶液可含有DNA核酸内切酶、激酶和其它DNA修饰酶。在一些实施例中,修复溶液可包含聚合酶和连接酶。在一些实施例中,修复溶液是来自New England Biolabs的PCR前试剂盒。在一些实施例中,这类方法主要如Karimi-Busheri等人,《核酸研究(Nucleic Acids Res.)》10月1日;26(19):4395-400,1998和Kunkel等人,《美国国家科学院院刊》,78,6734-6738,1981中所述进行。在其它实施例中,需要检测靶核酸的破坏。例如,需要确定一种或多种DNA加合物的数目和部位。在这样的实施例中,利用额外的标记的加合物特异性结合部分作为测序方法的一部分。
在一些实施例中,在使靶核酸伸长后,施加凝胶覆盖层。在一些这样的实施例中,在测试基板或其它表面上伸长和变性后,用凝胶层覆盖双链或变性的靶核酸。或者,当靶核酸已经处于凝胶环境中时使其伸长(例如,如上所述)。在一些实施例中,在使靶核酸伸长后,将其浇铸在凝胶中。例如,在一些实施例中,当将靶核酸在一端附着于表面并被试剂流动流或通过电泳场拉伸时,将周围区域的介质浇铸至凝胶中。在一些实施例中,浇铸至凝胶中可以通过在试剂流动流中包括丙烯酰胺、过硫酸铵和TEMED来进行。这类化合物在聚合时会变成聚丙烯酰胺。在替代实施例中,施加对热有响应的凝胶。在一些实施例中,用可与丙烯酰胺聚合的acrydite修饰靶核酸的末端。在一些这样的实施例中,施加电场,鉴于天然多核苷酸的主链带负电荷,所述电场使多核苷酸向正电极伸长。
在一些实施例中,在凝胶塞或凝胶层中从细胞中提取靶核酸以保留靶核酸的完整性;然后施加AC电场以通过介电泳来拉伸或伸长凝胶内的靶核酸;介电泳拉伸在盖玻片顶上的凝胶层中进行,或在与测试基板或其它表面相关联的凝胶中进行,随后利用如本文所述的任何一种方法,应用于拉伸的靶核酸以检测瞬时寡核苷酸探针物质结合。
在一些实施例中,将样品或靶核酸与其环境的基质交联。在一个实例中,这是细胞环境。例如,当在细胞中原位进行如本文所述的核酸测序方法时,使用异双官能交联剂将靶核酸与细胞基质交联。这是作为使用例如FISSEQ(Lee等人,《科学》343:1360-1363,2014)的技术在细胞内直接测序的方法的一部分进行的。
靶生物分子的大部分破坏发生在从细胞和组织中提取靶生物分子的过程中,以及随后在分析靶生物分子之前对其进行处置的过程中。在靶核酸的情况下,导致其完整性丧失的其处置方面可包括移液、涡旋、冻融和过度加热。在一些实施例中,例如以《化学生物化学(ChemBioChem)》,11:340-343(2010)中公开的方法使机械应力最小。另外,高浓度的非催化性二价阳离子(例如钙或锌)、EDTA、EGTA或没食子酸(以及其类似物和衍生物)抑制被核酸酶降解。在一些实施例中,2:1的样品与非催化性二价阳离子重量之比足以抑制核酸酶,即使在存在极端水平核酸酶的样品如粪便中也是如此。
为了保留靶核酸的完整性(例如,不诱发DNA损伤或断裂成更小的片段),在一些实施例中,需要将生物大分子如DNA或RNA保持在其天然保护环境(例如染色体、线粒体、细胞、细胞核、外来体等)中。在一些实施例中,在靶核酸已经在其保护环境之外的情况下,需要将其包在例如凝胶或微滴的保护环境中。在一些实施例中,将靶核酸从其保护环境中释放出来,在物理上非常接近将对其进行测序的地方(例如,可在其中获得测序数据的流体系统或流动池的一部分)。因此,在一些实施例中,将生物大分子(例如,核酸、蛋白质)以保护实体的形式提供,所述保护实体保持生物大分子接近其天然状态(例如,天然长度),使包含生物大分子的保护实体与将对其进行测序的地方非常接近,然后将生物大分子释放到将其进行测序的区域或将对其进行测序的区域附近。在一些实施例中,流动池可包含可有效地封装样品靶基因组DNA的琼脂糖凝胶,所述琼脂糖凝胶将大部分的基因组DNA保留在长度大于200Kb的长度下,将包含靶基因组DNA的琼脂糖凝胶放在对靶基因组DNA进行测序的环境(例如,测试基板、表面、凝胶、基质)附近,将靶基因组DNA从琼脂糖凝胶释放到测序环境中(或接近测序环境,以最小化对靶基因组DNA的进一步运输和处置),并进行一种或多种测序方法。释放到测序环境中是通过施加电场或通过用琼脂糖酶消化琼脂糖凝胶进行的。
聚合物变性.
框206.在一些实施例中,随后使固定的拉伸双链靶核酸在测试基板上变性为单链形式,从而获得靶核酸的固定的第一链和固定的第二链。固定的第二链的相应碱基与固定的第一链的对应互补碱基相邻。在一些实施例中,通过首先伸长或拉伸双链靶核酸,然后添加变性溶液以分离两条链来进行变性。
在一些实施例中,变性是包含一种或多种试剂(例如,0.5M NaOH、DMSO、甲酰胺、尿素等)的化学变性。在一些实施例中,变性是热变性(例如,通过将样品加热至85℃或更高)。在一些实施例中,变性是通过酶促变性,例如通过使用解旋酶或其它具有解旋酶活性的酶。在一些实施例中,通过与表面的相互作用或通过例如拉伸超过临界长度的物理过程来使靶核酸变性。在一些实施例中,变性是完全的或部分的。
在一些实施例中,在任选的变性步骤之前或之后进行寡核苷酸探针物质与靶核酸的重复单元上的修饰(例如,多核苷酸中的进行表观遗传修饰的核苷酸,或多肽的磷酸化)的结合。
在一些实施例中,根本不进行双链靶核酸的任选的变性。在一些这样的实施例中,利用寡核苷酸探针物质与靶核酸的双链体结构结合或退火。例如,在一些实施例中,寡核苷酸探针物质可通过链侵入(例如,使用PNA探针),通过诱导双链体形式靶核酸的过度呼吸,通过使用修饰的锌指蛋白识别双链体形式靶核酸中的序列,或者通过使用使双链体形式靶核酸变性,从而允许向导RNA结合的Cas9或类似蛋白来与双链体形式靶核酸的各条链结合。在一些实施例中,向导RNA可包含询问探针序列和标记,因此充当如本文所述的寡核苷酸探针物质,并且提供了包含一个或多个寡核苷酸探针物质组的每个序列的gRNA。
在一些实施例中,双链靶核酸可含有切口(例如,天然切口或通过DNase1处理产生的切口)。在这样的实施例中,在反应条件下,一条链与双链体的另一条链瞬时裂开或剥离(例如,瞬时变性),或者发生天然的碱基对呼吸。这允许寡核苷酸探针物质在通过天然链的重杂化置换之前瞬时结合。
在一些实施例中,使单个双链靶核酸变性,使得双链体的每条链都可用于被寡核苷酸探针物质结合。在一些实施例中,单个靶核酸被变性过程或测序方法中的另一步骤破坏,并被修复(例如,通过添加合适的DNA聚合酶和或连接酶)。
在一些实施例中,双链靶基因组DNA的固着和线性化(准备用于固定或结合于测试基板或其它表面)可包含分子梳、双链靶基因组DNA与表面的UV交联、任选的润湿、双链靶基因组DNA通过暴露于化学变性剂(例如,碱溶液、DMSO等)的变性、洗涤后对酸性溶液的任选暴露、以及对任选的预处理缓冲液的暴露。
探针的退火.
框208.在任选的变性步骤之后,方法可继续进行:将固定的第一链和固定的第二链暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质的相应池,其中寡核苷酸探针物质组中的每种寡核苷酸探针物质具有预定的序列和长度。暴露可在允许相应寡核苷酸探针物质的相应池的各个寡核苷酸探针与固定的第一链或固定的第二链的与相应寡核苷酸探针物质互补的每个部分(或多个部分)结合并形成相应双链体的条件下发生,从而产生相应光学活性情况。
图5A、5B和5C示出了不同探针物质与一种聚合物502的瞬时结合的实例。每个探针(例如,504、506和508)可包含特定的询问序列(例如,寡核苷酸或肽序列)。在将探针物质504施加于聚合物502之后,用一个或多个洗涤步骤将探针物质504从聚合物502上洗去。类似的洗涤步骤用于随后去除探针物质506和508。
探针的设计和靶标.
在一些实施例中,向溶液中的靶核酸提供包含一个或多种寡核苷酸探针物质池的溶液。当包含寡核苷酸探针物质的池与测试基板、其它表面或基质上的靶核酸接触时,寡核苷酸探针能够通过扩散和分子碰撞与靶核酸接触。在一些实施例中,搅动包含一个或多种寡核苷酸探针物质池的溶液以使寡核苷酸探针与一个或多个靶核酸接触。在一些实施例中,更换含有寡核苷酸探针物质的溶液以将新鲜寡核苷酸探针带到测试基板、其它表面或基质上的一个或多个靶核苷酸。在一些实施例中,使用电场将寡核苷酸探针吸引到测试基板或其它表面,例如施加正偏压的表面或AC场可吸引带负电荷的寡核苷酸。
在一些实施例中,靶核酸可包含特定多核苷酸序列,并且寡核苷酸探针物质的特异性结合部分包含例如3聚体、4聚体、5聚体或6聚体的寡核苷酸序列询问部分,任选地一个或多个简并或通用位置,以及任选地核苷酸间隔子(例如,一个或多个T核苷酸)或无碱基或非核苷酸部分。如图6A和6B所示,类似的结合沿着靶核酸602进行,与所使用的寡核苷酸探针物质(例如,604和610)的长度无关。不同k聚体长度的寡核苷酸所固有的主要差异在于,k聚体长度决定了将被相应寡核苷酸探针物质结合的结合位点的长度(例如,3聚体探针604将主要并更稳定地与3核苷酸长的位点如606结合,而5聚体探针610将主要并更稳定地与5核苷酸长的位点如610结合)。
在图6A中,对于用作寡核苷酸探针,所示的3聚体寡核苷酸探针物质异常短。通常这种短序列不能用作寡核苷酸探针,因为除非使用非常低的温度和长的孵育时间,否则它们不能稳定结合。然而,如本文所述的检测方法所要求的,这种短寡核苷酸探针物质确实与靶核酸形成瞬时键合。另外,寡核苷酸探针物质序列越短,寡核苷酸探针物质组中存在的寡核苷酸探针物质就越少。例如,完整的3聚体寡核苷酸探针物质组只需要64个寡核苷酸序列,而完整的4聚体寡核苷酸探针物质组需要256个寡核苷酸序列。此外,在一些实施例中,对超短寡核苷酸探针物质池进行修饰以升高解链温度,并且在一些实施例中,可包括如本文所述的简并(例如,N)或通用核苷酸。举例来说,四个N核苷酸将使3聚体寡核苷酸的稳定性增加到7聚体寡核苷酸的稳定性。
在图6B中,示意图示出了5聚体寡核苷酸探针与其完全匹配的位置(612-3)、1个碱基错配的位置(612-2)和2个碱基错配的位置(612-1)的结合。
任一个寡核苷酸探针的结合可能都不足以对靶核酸进行测序。在一些实施例中,需要完整的寡核苷酸探针组来重建靶核酸的序列。关于寡核苷酸探针物质结合位点的部位、在时间上分开的寡核苷酸探针物质与重叠结合位点的结合、寡核苷酸探针物质与靶核酸之间错配的部分结合、结合频率和结合持续时间的信息都有助于推断序列或靶核酸。在伸长或拉伸靶核酸的情况下,沿着靶核酸的长度的寡核苷酸探针物质结合的部位有助于建构具有高置信度的序列。在双链靶核酸的情况下,双链体形式靶核酸的两条链(例如,两条互补链)的同时测序会产生更高置信度的序列。
在一些实施例中,将共同的参考寡核苷酸探针物质与一个或多个寡核苷酸探针物质组中的一个多种寡核苷酸探针物质池的每种寡核苷酸探针物质一起添加。例如,在图7A、7B和7C中,共同的参考寡核苷酸探针物质704与靶核酸702上的相同结合位点708结合,与寡核苷酸探针物质组中包括的任何额外的探针(例如,706、712和716)无关。共同的参考寡核苷酸探针物质704的存在不抑制其它寡核苷酸探针物质706、712和716与其相应结合位点(例如,710、714、718、720和722)的结合。
如图7C所描绘,结合位点718、720和722说明了各个寡核苷酸探针(716-1、716-2和716-3)将如何结合所有可能的位点,即使这些位点是重叠的。在图7A、7B和7C中,探针序列由3聚体描绘。然而,类似的方法同样可以用4聚体、5聚体、6聚体等的探针进行。
在一些实施例中,一个或多个寡核苷酸探针物质组可包含具有给定长度的每一个寡核苷酸。例如,根据本公开的一个实施例,完整的1024个单独5聚体的组被编码并包括在一个或多个寡核苷酸探针物质组中。在一些实施例中,一个或多个寡核苷酸探针物质组可包括具有多种长度的所有寡核苷酸探针物质。在一些实施例中,寡核苷酸探针组是覆瓦式系列的寡核苷酸探针物质。在一些实施例中,寡核苷酸探针物质组是一小组寡核苷酸探针物质。在合成生物学中的某些应用(例如,DNA数据存储)的情况下,测序可包含寻找特定序列区块的顺序,其中区块被设计成编码所需的数据。
如图8A、8B和8C所示,在一些实施例中,将多个寡核苷酸探针物质组(例如,804、806和808)施加至任何靶核酸802。每种寡核苷酸探针物质将优先与其互补结合位点结合。在一些实施例中,在每个暴露(c)之间用缓冲液洗涤有助于去除前一组中的寡核苷酸探针物质。
在一些实施例中,用于核酸测序的探针是寡核苷酸,而用于表观遗传修饰的探针是修饰结合蛋白或肽(例如,甲基结合蛋白,如MBD1)或抗修饰抗体(例如,抗甲基C抗体)。在一些实施例中,寡核苷酸探针物质可靶向基因组中的特定位点(例如,具有已知突变的位点)。如图9A、9B和9C所示,在一些实施例中,寡核苷酸(例如,804、806和808)和替代探针(例如,902)同时(并通过多个暴露步骤)施加至靶核酸802。Liu等人,《BMC基因组学(BMCGenomics)》9:509(2008)(其以引用的方式并入本文中)提供了确定所关注的靶位点的方法。
在一些实施例中,依次施加一个或多个探针组的寡核苷酸探针物质、一个或多个探针物质组的寡核苷酸探针物质或亚组、一个或多个寡核苷酸探针物质组的每个探针物质(例如,首先检测寡核苷酸探针物质或寡核苷酸探针物质亚组或一个或多个寡核苷酸探针物质组的一个探针物质的结合,然后可去除,然后添加下一种寡核苷酸探针物质,检测并去除,接着进行下一个等等)。在一些实施例中,在单个池中同时添加一个或多个探针组中的全部探针或探针亚组,并且将每个结合探针连接至标记,所述标记完全或部分编码结合探针的身份,并且通过检测和分析过程解码每个结合探针的代码。
如图11A和11B所示,在一些实施例中,覆瓦式系列探针或覆瓦式探针组可用于获得关于多个探针结合位点的信息。在图11A中,将第一覆瓦式组1104施加至靶核酸1102。第一覆瓦式组1104中的覆瓦式探针亚组中的每个覆瓦式探针包含一个共同碱基1108,从而产生靶核酸1102中该一个共同碱基1108的5倍覆盖深度。覆盖深度将与覆瓦式系列中探针的k聚体长度成比例(例如,3聚体寡核苷酸组将产生靶核酸中每个碱基的约3倍覆盖度)。
在一些实施例中,当寡核苷酸探针物质组沿着靶碱基平铺时,当覆瓦式路径中存在中断时,有可能出现问题。举例来说,对于5聚体的寡核苷酸探针物质组,没有寡核苷酸探针物质能够结合靶分子中长于5个碱基的一段或多段序列。在这种情况下,在一些实施例中利用一种或多种方法。首先,如果靶核酸包含双链核酸,则一个或多个碱基分配遵从或可依赖于从双链体的互补链获得的一个或多个序列。第二,当靶核酸的多个拷贝可用时,一个或多个碱基分配可依赖于靶核酸的其它拷贝上相同序列的其它拷贝。第三,在一些实施例中,如果参考序列可用,则一个或多个碱基分配可遵从或依赖于参考序列,并且将一个或多个碱基注释成指示它们是从参考序列人工植入的。
在一些实施例中,出于各种原因,从一个或多个寡核苷酸探针物质组中略去某些寡核苷酸探针物质。例如,一些寡核苷酸探针序列表现出与其自身的有问题的相互作用-例如自互补或回文序列,与完整的寡核苷酸探针物质组中的其它探针或与靶核酸的有问题的相互作用(例如,已知的随机混杂结合)。在一些实施例中,为每种类型的靶核酸确定最少数目的信息寡核苷酸探针物质。在完整的k聚体寡核苷酸探针物质组内,一半的寡核苷酸与另一半的寡核苷酸完全互补。在一些实施例中,确保这些互补对(以及由于实质上的互补性而成问题的其它互补对)不同时添加到多核苷酸中,而是被分配到寡核苷酸探针物质的不同亚组或池。在一些实施例中,当有义和反义单链DNA(来自单个双链靶核酸)都存在时,仅用每个互补寡核苷酸探针物质对的一个成员进行测序。将从有义链和反义链获得的测序信息组合以产生整个序列。
在一些实施例中,寡核苷酸探针物质可包含使用定制微阵列合成制成的文库。在一些实施例中,微阵列文库可包含与基因组的特定靶部分系统性结合的寡核苷酸。在一些实施例中,微阵列文库可包含与靶基因组上相隔一定距离的部位系统性结合的寡核苷酸探针物质。例如,包含一百万个寡核苷酸探针物质的文库可包含被设计成约每3000个碱基结合一次的寡核苷酸探针物质。类似地,包含一千万个寡核苷酸探针物质的文库可被设计成约每300个碱基结合一次,而包含三千万个寡核苷酸探针物质的文库可被设计成约每100个碱基结合一次。在一些实施例中,寡核苷酸探针物质的序列是基于参考基因组序列通过计算设计的。
在一些实施例中,基因组的被靶向的区域是特定的遗传基因座。在其它实施例中,基因组的被靶向的区域是一小组基因座(例如,与癌症相关的基因或其它高度保守区)或由全基因组关联研究鉴定的染色体间隔内的基因或其它高度保守区。在一些实施例中,靶向的基因座也可以包含基因组的暗物质、基因组中典型重复的异色区以及重复区附近的复杂遗传基因座。这类区域包括端粒、着丝粒、近端着丝粒染色体的短臂以及基因组的其它低复杂度区域。传统的测序方法不能解决基因组的重复部分(从2019年起,仍没有完整的人类基因组),但是当纳米级精度很高时,本文所述的方法全面解决了这些区域。
在一些实施例中,多种寡核苷酸探针物质中的每种相应寡核苷酸探针物质包含独特的N聚体序列,其中N是集合{1,2,3,4,5,6,7,8和9}中的整数,并且其中所有长度为N的独特的N聚体序列由多种寡核苷酸探针物质表示。
用于制造寡核苷酸探针物质的寡核苷酸长度越长,回文序列或回折序列就越有可能对寡核苷酸探针物质充当高效探针起作用。在一些实施例中,通过去除一个或多个简并或通用碱基来减短这类寡核苷酸的长度,显著提高了结合效率。出于这个原因,寡核苷酸探针物质使用较短的询问序列(例如,4聚体)是有利的。然而,较短的寡核苷酸探针序列也表现出不太稳定的结合(例如,较低的结合温度)。在一些实施例中,通过使用特定的稳定碱基的修饰或寡核苷酸缀合物(例如,芪帽)来增强寡核苷酸探针物质的结合稳定性。在一些实施例中,使用被完全修饰的3聚体或4聚体(例如,锁核酸(LNA)和或肽核酸(PNA))。
在一些实施例中,独特的N聚体序列可包含被一个或多个简并核苷酸占据的一个或多个核苷酸位置。在一些实施例中,简并位置包含构成寡核苷酸探针的寡核苷酸探针物质的所有四种核苷酸和成员,四种核苷酸中的每一种提供于简并碱基部位。在一些实施例中,寡核苷酸探针物质中的一个或多个核苷酸位置被通用碱基占据。在一些实施例中,通用碱基是2′-脱氧肌苷或如本文所述的其它通用碱基。在一些实施例中,独特的N聚体序列的5'侧是单个简并或通用核苷酸位置,并且3'侧是单个简并或通用核苷酸位置。在一些实施例中,5'单个通用核苷酸和或3'单个通用核苷酸各自可为2'-脱氧肌苷或如本文所述的其它通用碱基。
在一些实施例中,寡核苷酸探针物质组中的每种寡核苷酸探针物质具有相同长度M。在一些实施例中,M为2或更大的正整数。(f)从测试基板上光学活性的多组位置确定靶核酸的至少一部分的序列还可使用由光学活性的多组位置表示的寡核苷酸探针物质的重叠序列,所述多组位置可包含单个寡核苷酸探针物质的不同部位和光学活性相同部位处不同时间、持续时间、强度光子或其总和的组合。在一些实施例中,寡核苷酸探针物质组中的每种寡核苷酸探针物质与寡核苷酸探针组中的另一个寡核苷酸探针共享M-1序列同源性。在其它实施例中,寡核苷酸探针组的亚组或没有一个可与组中的其它寡核苷酸物质共享M-1序列同源性。
探针标记.
在一些实施例中,寡核苷酸探针组中的每种寡核苷酸探针物质都与标记结合。图14A-E示出了标记寡核苷酸探针或其它探针类型的不同方法。在一些实施例中,标记是染料、荧光纳米颗粒或光散射颗粒。在一些实施例中,探针1402直接与标记1406结合。在一些实施例中,探针1402经由瓣序列(flap sequence)1410间接标记,所述瓣序列可包含与寡核苷酸探针1408-A上的序列互补的序列1408-B。
许多类型的具有有利特征的有机染料可用于标记,一些具有高光稳定性和/或高量子效率和/或最小暗态和/或高溶解度,和/或低非特异性结合。Atto 542是具有许多优良性质的优良染料。Cy3B是非常明亮的染料,Cy3也是有效的。一些染料允许避免其中来自蛋白质、细胞或细胞物质的自动荧光普遍存在的波长,例如红色染料Atto 655和Atto 647N。许多类型的纳米颗粒可用于标记。除了荧光标记的胶乳颗粒之外,本公开还利用金或银颗粒、半导体纳米晶体(量子点)和纳米金刚石作为纳米颗粒标记。在一些实施例中,纳米金刚石作为标记特别有利。纳米金刚石发射的光具有高量子效率(QE),具有高光稳定性、高化学稳定性、长荧光寿命(例如,约20ns,其可用于减少从光散射和/或自发荧光观察到的背景),具有超过一种荧光发射,具有不同的发射带宽,并且很小(例如,直径约40nm)。通过将多种有机染料掺入到结构(可包含二叉结构)中或者利用例如嵌入染料的标记,DNA纳米结构和纳米球可以是异常明亮的标记。
在一些实施例中,每个间接标记可指定寡核苷酸探针物质的序列询问部分中编码的碱基的身份。在一些实施例中,标记可包含核酸嵌入染料的一个或多个分子。在一些实施例中,标记可包含一种或多种类型的染料分子、荧光纳米颗粒或光散射颗粒。在一些实施例中,选择不会快速光漂白从而允许更长的成像时间的标记。
图12A、12B和12C示出了具有附着的荧光标记1202的寡核苷酸探针1204与靶核酸1206的瞬时开关结合。无论寡核苷酸探针1204是否与靶核酸1206上的结合位点结合,标记1202都会发出荧光。类似地,图13A、13B和13C示出了未标记寡核苷酸探针1306的瞬时开关结合。通过将来自溶液1302的染料1304(例如,YOYO-1)嵌入到瞬时形成的双链体1304中来检测结合事件。与在溶液中自由漂浮相比,嵌入染料在结合到双链核酸中时表现出荧光的显著增加。
在一些实施例中,可与靶核酸结合的寡核苷酸探针物质不直接进行标记。在一些这样的实施例中,寡核苷酸探针物质可含有瓣。在一些实施例中,建构寡核苷酸探针物质(例如,编码它们)包含将特定的序列单元偶联到一个或多个寡核苷酸探针物质组中的每个k聚体的一端(例如,瓣序列),其中单元的长度足以将标记与单元所结合的互补(与特定的单元)的编码的寡核苷酸序列结合。瓣的编码序列的每个单元都可充当独特的荧光标记探针的停泊或结合位点。为了编码5个碱基的探针序列,探针上的瓣可含有5个独特的单元或结合部位,例如,每个部位是与下一个部位串联连接的不同的DNA碱基序列。举例来说,瓣上的第一个单元或结合位置与寡核苷酸探针物质序列(可与靶核酸结合的部分)相邻,第二个单元或结合位置与第一个单元或结合位置相邻,依此类推。在测序中使用探针-瓣之前,将各种探针-瓣与一组荧光标记的寡核苷酸偶联,以生成寡核苷酸探针物质序列的独特标识符标签,如果瓣序列上的单元或结合位置数目超过荧光标记类型的预期数目,则可包含未标记的寡核苷酸,其中与不同的标记相关联的寡核苷酸具有与不同单元或结合位置互补的相应序列。在一些实施例中,这是通过使用四种不同的标记的寡核苷酸序列来完成的,所述寡核苷酸序列与瓣上的每个相应单元或结合位置互补(例如,总共多达十六种独特标记组合)。
在一些实施例中,界定了A、C、T和G的探针的编码方式如下:标记报告寡核苷酸探针物质中特定位置处的仅一个界定的核苷酸(而其它位置是或通用的)。这只需要四色编码,每个核苷酸一种颜色。
在一些实施例中,在整个暴露过程中仅使用一种荧光团颜色。在这样的实施例中,每个暴露过程被分成4个子过程,在每个子过程中,单独添加在指定位置(例如,位置1)处具有不同碱基的一组四个寡核苷酸探针物质中的一种寡核苷酸探针物质,然后添加一组中的下一种寡核苷酸探针物质。在每个循环中,寡核苷酸探针物质可带有相同的标记。在5聚体寡核苷酸探针物质序列长度的这个实施方案中,一组或多组寡核苷酸的完整一组可包含五组与单个碱基位置处的询问对应的寡核苷酸探针物质,其中每组可包含四个寡核苷酸探针物质,对应于改变一组5聚体寡核苷酸探针物质中单个位置处的单个碱基,并且暴露子过程的总数是20(五组对应于5聚体寡核苷酸探针组完整一组中的每个碱基位置,其中每组具有四个寡核苷酸探针物质),大大节省了时间。
在一些实施例中,寡核苷酸探针物质序列中的第一个碱基由瓣序列中的第一个单元编码,第二个碱基由第二个单元编码,依此类推。瓣中单元的顺序可对应于寡核苷酸探针物质碱基序列的顺序。然后独特的荧光标记可结合或停泊至瓣中所包含的每个对应单元上(通过互补碱基配对)。在一个实例中,与第一单元相关联,因此与第一寡核苷酸探针物质序列位置相关联的第一标记可在波长500nm-530nm下发射,与第二单元相关联,因此与第二寡核苷酸探针物质序列位置相关联的第二标记可在波长550nm-580nm下发射,第三标记在600nm-630nm下发射,第四标记在650nm-680nm下发射,第五标记在700nm-730nm下发射。然后,每个部位处的碱基身份可例如由标记的荧光寿命编码。在一个这样的实例中,对应于A的标记具有比对应于C的标记更长的寿命,对应于C的标记具有比对应于G的标记更长的寿命,对应于G的标记具有比对应于T的标记更长的寿命。在上述实例中,位置1处的碱基A可在500nm-530nm下发射,寿命最长,位置3处的碱基G可在600nm-630nm下发射,寿命第三长,依此类推。
在一些实施例中,如图14E所示,寡核苷酸探针物质1402可包括对应于序列1408-B的序列1408-A。序列1408-B与瓣区1410结合、附接或连接。作为可能产生图14E整体构建体的可能序列的实例,1410中的四个单元位置中的每一个分别由序列AAAA(例如,与1412互补的区域)、CCCC(例如,与1414互补的区域)、GGGG(例如,与1416互补的区域)和TTTT(例如,与1418互补的区域)定义。因此,整个瓣序列是(SEQ ID NO.1)5′-AAAACCCCGGGGTTTT-3′。然后每个单元位置利用特定的发射波长范围编码,并且可以在该位置处的四个不同的碱基由四个不同的荧光寿命标记的寡核苷酸编码,其中寿命/亮度比可对应于与寡核苷酸探针物质1402序列本身对应的特定碱基位置和碱基代码。
合适的代码实例如下:
●位置1-A碱基代码-TTTT-发射峰值510,寿命/亮度#1
●位置1-C碱基代码-TTTT-发射峰值510,寿命/亮度#2
●位置1-G碱基代码-TTTT-发射峰值510,寿命/亮度#3
●位置1-T碱基代码-TTTT-发射峰值510,寿命/亮度#4
●位置2-A碱基代码-GGGG-发射峰值560,寿命/亮度#1
●位置2-C碱基代码-GGGG-发射峰值560,寿命/亮度#2
●位置2-G碱基代码-GGGG-发射峰值560,寿命/亮度#3
●位置2-T碱基代码-GGGG-发射峰值560,寿命/亮度#4
●位置3-A碱基代码-CCCC-发射峰值610,寿命/亮度#1
●位置3-C碱基代码-CCCC-发射峰值610,寿命/亮度#2
●位置3-G碱基代码-CCCC-发射峰值610,寿命/亮度#3
●位置3-T碱基代码-CCCC-发射峰值610,寿命/亮度#4
●位置4-A碱基代码-AAAA-发射峰值660,寿命/亮度#1
●位置4-C碱基代码-GGGG-发射峰值660,寿命/亮度#2
●位置4-G碱基代码-GGGG-发射峰值660,寿命/亮度#3
●位置4-T碱基代码-GGGG-发射峰值660,寿命/亮度#4
在其它实施例中,不同单元位置由荧光寿命编码,并且碱基由荧光发射波长编码。在一些实施例中,可替代地或者如果测量与波长和寿命的测量相容,其它可测量的物理属性可用于编码。举例来说,还可以测量发射的偏振或亮度,以增加可用于包括在瓣中的代码数目的大小。
在一些实施例中,使用立足点探针(toe-hold probe)(例如,如Levesque等人,《自然方法(Nature Methods)》10:865-867,2013所描述)。这些探针部分是双链的,并在与错配的靶结合时,会竞争性地去稳定化(例如,如Chen等人,《自然化学(Nature Chemistry)》5,782-789,2013中详细描述)。在一些实施例中,仅使用立足点探针。在一些实施例中,使用立足点探针来确保正确杂交。在一些实施例中,立足点探针用于促进与靶核酸结合的其它探针的解离反应速率。
在一些实施例中,利用通过共同激发线激发的标记,其为量子点。在根据该实例的一些这样的实施例中,选择Qdot 525、Qdot 565、Qdot 605和Qdot 655与四种相应核苷酸对应。或者,使用四条独特的激光线来激发四种独特的有机荧光团,并且所得到的被检测到的发射被图像分割器分割。在一些其它实施例中,两种或更多种有机染料的发射波长相同,但是荧光寿命不同。熟练的技术人员将能够设想许多不同的编码和检测方案,无需过度的工作和实验。
在一些实施例中,一个或多个寡核苷酸探针物质组中的不同寡核苷酸探针物质可以不单独添加,而是一起编码和汇集。从一次一种颜色和一种寡核苷酸升级的最简单步骤是一次两种颜色(或两种寿命、在标记之间可检测到的两种其它差异)和两种寡核苷酸探针物质。使用5种可区分的单一染料编码的标记的直接检测,可以合理地预期一次汇集最多约5个寡核苷酸探针物质,所述5个寡核苷酸探针物质中的每一个都有一种染料编码的标记。
在需要或期望复杂程度更高的其它实施例中,香料(flavor)或代码可增加。举例来说,要为完整的3聚体寡核苷酸探针物质组中的每个碱基单独编码,需要64个独特的代码。同样地,例如,要为完整的5聚体寡核苷酸探针物质组中的每个碱基单独编码,需要1024个独特的代码。如此多的代码数目是通过使每个寡核苷酸具有由多种不同的可检测标记特征构成的代码来实现的。在一些实施例中,使用较小的一组代码来编码较小的寡核苷酸探针物质组或者完整的寡核苷酸探针物质组的亚组,例如,在一些情况下,使用64个代码来编码一组完整的1024个5聚体寡核苷酸探针物质序列的16个亚组。
在一些实施例中,以多种方式获得大的寡核苷酸代码组。举例来说,在一些实施例中,珠粒装载有代码特异性染料,或者基于DNA纳米结构的代码可包含最佳间隔的不同荧光波长发射染料(例如,Lin等人,《自然化学)4:832-839,2012)。在一些实施例中,如图14C和14D所示,珠粒1412可包含多个荧光标记1414。在图14C中,标记1414被描绘成涂布在珠粒1412上。在图14D中,标记1414被描绘成包封在珠粒1412中。在一些实施例中,每个标记1414是不同类型的荧光分子。在一些实施例中,所有标记1414都是相同类型的荧光分子(例如,Cy3)。在另外的实施例中,包含不同和或相同荧光分子的不同标记中的一个或多个被涂布在珠粒上,结合于珠粒,或包封在珠粒中。
在一些实施例中,使用如下编码方案,其中使用模块化代码来描述碱基在寡核苷酸探针物质中的位置和其身份。在一些实施例中,这是通过向寡核苷酸探针物质添加编码臂来实现的,所述编码臂包含可鉴别寡核苷酸探针物质的标记的组合。举例来说,在要编码每种可能的5聚体寡核苷酸探针的文库的情况下,臂具有五个位点、单元或结合位置,每个位点、单元或结合位置对应于5聚体寡核苷酸探针物质中的五个核碱基中的每一个,并且该五个位点中的每一个都与五个可区分的标记结合,其中与位点、单元或结合位置相关联的该五个可区分的标记中的每一个可与决定不同碱基的相关联的15个其它标记进一步区分。在一个这样的实例中,包含具有特定峰值发射波长的荧光团的标记对应于每个位点、单元或结合位置(例如,对于位点、单元或结合位置一为500nm,对于位点、单元或结合位置二为550nm,对于位点、单元或结合位置三为600nm,对于位点、单元或结合位置四为650nm,以及对于位点、单元或结合位置五为700nm),并且发射波长相同但荧光寿命不同的四个荧光团可编码每个位置的四个碱基中的每一个。
在一些实施例中,寡核苷酸探针物质或其它结合试剂上、与之结合或连接的不同的标记由发射波长来编码或部分编码。在一些实施例中,不同的标记由荧光寿命来编码或部分编码。在一些实施例中,不同的标记由荧光偏振来编码或部分编码。在一些实施例中,不同的标记由波长、荧光寿命荧光偏振寿命或任何其它光学可观察的机制的任何组合来编码或部分编码。
在一些实施例中,不同的标记由相关联的探针物质的反复开关杂交动力学来编码或部分编码,所述相关联的探针物质是相关联的寡核苷酸探针物质。使用不同结合探针,其为具有不同缔合-解离常数的不同寡核苷酸探针物质。在一些实施例中,探针由荧光强度来编码或部分编码,所述探针是寡核苷酸探针物质。在一些实施例中,通过结合、附接或连接不同数目的任选非自淬灭荧光团来对探针进行荧光强度编码,所述探针是寡核苷酸探针物质。为了防止或减少淬灭,通常需要很好地分离各个荧光团。在一些实施例中,这是通过使用任选刚性连接子或DNA纳米结构将标记保持在彼此相距适当距离的位置来实现的。
在一些实施例中,通过荧光强度进行的编码是通过使用具有相似发射光谱但量子产率或其它可测量的光学特征不同的染料变体实现的。例如,具有558/572的激发/发射的Cy3B(例如,量子产率为0.67)比具有550/570的激发/发射并且量子产率为0.15的Cy3显著更亮,但具有相似的吸收/发射光谱。在一些这样的实施例中,使用532nm激光来激发两种染料。其它合适的染料可包括Cy3.5(具有591/604nm的激发/发射),其具有上移的激发和发射光谱,但仍将用532nm激光进行激发。然而,在该波长下的激发对于Cy3.5来说是次佳的,并且Cy3.5的发射在对于Cy3最佳的带通滤光器中将显得不太亮。具有532/553的激发/发射的Atto 532具有0.9的量子产率,并且当532nm激光可在最大激发下激发Atto 532时,预期其是明亮的。
在其它实施例中,使用单一激发波长测量染料的发射寿命来实现多个代码。在根据这样的实施例的一个实例中,使用了包含Alexa Fluor 546、Cy3B、Alexa Fluor 555和Alexa Fluor 555的集合。在一些情况下,其它染料组更有用。在一些实施例中,通过使用FRET对和/或还通过测量发射光的偏振来扩展代码组。另一种增加编码标记数目的方法是用多种颜色编码。
图15示出了来自寡核苷酸探针物质与靶核酸的瞬时结合的荧光的实例。从时间序列中选择的帧(例如,帧号1、20、40、60、80、100)显示信号在特定位点的存在(例如,黑点)和不存在(例如,白色区域),指示结合-解离。每个相应的帧显示了由沿着靶核酸结合的多种寡核苷酸探针物质产生的荧光。聚集图像显示所有先前帧的荧光聚集或总和,指示在100帧期间寡核苷酸探针物质已经结合并且已经检测到的所有位点。
探针与靶多核苷酸的瞬时结合.
探针(即,寡核苷酸探针物质)的结合是动态的过程,不断结合的探针有一定的概率变成未结合(例如,如由各种因素决定,包括温度、盐浓度、探针之间的竞争和多种其它因素)。因此,一种探针总有机会被另一种探针替换。例如,在一个实施例中,使用包含互补的寡核苷酸探针物质的寡核苷酸探针物质池,并且引起与测试基板或其它表面上拉伸的靶核酸退火和与溶液中的互补寡核苷酸探针物质退火之间持续的竞争。在另一实施例中,探针具有三个部分,其中第一部分与靶核酸互补,第二部分与靶核酸部分互补并与暴露于靶核酸的共同池中的一个或多个其它寡核苷酸探针物质部分互补,并且第三部分与暴露于靶核酸的共同池中的一个或多个其它寡核苷酸探针物质完全互补。在一些实施例中,收集关于化学结构单元的精确空间部位,例如靶核酸的碱基位置的信息有助于确定大分子的结构和/或序列。在一些实施例中,寡核苷酸探针物质结合位点的部位以纳米级甚至亚纳米级精度来确定(例如,通过使用单分子定位算法)。在一些实施例中,多个观察到的寡核苷酸探针物质结合位点可通过衍射极限光学成像方法来分辨,并且因为结合事件在时间上是分开的,所以能够分辨出。靶核酸的序列是基于与每个部位结合的寡核苷酸探针物质的身份来确定的。
在一些实施例中,暴露过程可使用允许相应寡核苷酸探针物质的相应池中的各个探针与固定的第一链或固定的第二链或靶核酸的与各个寡核苷酸探针物质互补的每个部分瞬时且可逆地结合并形成相应双链体的条件发生,从而产生一种光学活性情况。在一些实施例中,使用停留时间(例如,被特定寡核苷酸探针物质结合的持续时间和/或持久性)来确定结合事件是完全匹配、错配还是虚假的。
在一些实施例中,暴露过程可使用允许相应寡核苷酸探针物质的相应池中的各个探针与靶核酸的固定的第一链或固定的第二链的与各个寡核苷酸探针物质互补的每个部分瞬时且可逆地结合并形成相应双链体的条件发生,从而重复产生相应光学活性情况。
在一些实施例中,测序过程或方法可包含使伸长靶核酸与一个或多个寡核苷酸探针物质组的完整组中的每一种寡核苷酸探针物质进行瞬时相互作用,寡核苷酸探针物质依次提供(去除携带一种寡核苷酸探针物质的溶液,并且添加携带下一种寡核苷酸探针物质的溶液)。在一些实施例中,每种寡核苷酸探针物质的结合使用允许寡核苷酸探针物质瞬时结合的条件进行。因此,例如,对一种寡核苷酸探针物质来说,结合在25℃下进行,而对于下一种寡核苷酸探针物质,结合在30℃下进行。在一些实施例中,寡核苷酸探针物质成组使用,其在共同寡核苷酸探针物质池中。举例来说,使用类似条件(例如类似温度、类似盐浓度或可影响杂交结合的其它因素)可瞬时结合的所有寡核苷酸探针物质可集合成组并一起使用,任选地在共同寡核苷酸探针物质池中。在一些这样的实施例中,对该组中的每种寡核苷酸探针物质进行差异标记或差异编码。
在一些实施例中,寡核苷酸探针物质瞬时结合在具有少量二价阳离子但无一价阳离子的缓冲液中进行。在一些实施例中,缓冲液可包含5mM Tris-HCl、10mM氯化镁、mmEDTA、0.05%Tween-20和pH 8。在一些实施例中,缓冲液可包括小于1nM、小于5nM、小于10nM或小于15nM的氯化镁、氯化钙、氯化锰或其它适当二价阳离子。在其它实施例中,提供的二价阳离子的浓度略大于溶液中带负电核碱基的浓度的一半,所述溶液可包含寡核苷酸探针物质和靶核酸。
在一些实施例中,使用促进瞬时结合的多种条件。在一些实施例中,对于完整核苷酸探针物质组,例如,来自一组完整的1024个可能5聚体的每个5聚体寡核苷酸探针物质,取决于Tm,一种条件用于一种寡核苷酸探针物质,并且取决于Tm,另一种条件用于另一种寡核苷酸探针物质,依此类推。在一些实施例中,仅提供了512个非互补5聚体(例如,因为靶核酸呈双链体形式,因此样品中存在两条互补链)。在一些实施例中,就系统通量和用于询问靶核酸序列的不同试剂组的数目而言,每次寡核苷酸探针物质添加都可包含寡核苷酸探针的混合物,所述寡核苷酸探针包含呈相同序列顺序的相同5个特定碱基和2个简并或通用碱基,(因此16个七聚体)所有都用相同的标记进行标记,所述标记可起到单个五聚体寡核苷酸探针的作用。简并或通用碱基可增加稳定性,但未增加寡核苷酸探针物质组的复杂性。
在一些实施例中,为共享相同或相似的Tm的多种寡核苷酸探针物质提供相同的条件。在一些这样的实施例中,寡核苷酸探针物质组中的每种寡核苷酸探针物质可包含不同的编码标记(或其可证明不同部分,以便独特地鉴定每个标记物质)。在这种情况下,温度通过几次寡核苷酸探针物质(即,寡核苷酸探针物质池)交换来保持,然后再改变以用于下一个共享相同或相似的Tm的寡核苷酸探针物质组。
在一些实施例中,在寡核苷酸探针物质结合期的过程中(其为暴露过程的一部分),改变温度,以便测量寡核苷酸探针物质在超过一种温度下的结合行为。在一些实施例中,进行解链曲线的模拟,其中寡核苷酸探针物质与靶核酸的结合行为或结合模式与选定范围(例如,从10℃到65℃或从1℃到35℃)内的一组逐步温度相关联。在其它实施例中,以类似于改变温度的方式改变可能影响寡核苷酸探针与靶核酸的结合的其它参数,例如改变盐、添加例如甲酰胺的变性剂和改变已知影响寡核苷酸探针结合的其它参数。在其它实施例中,利用单个温度,并且对结合动力学的观察用作另一个可测量的参数,其可能与寡核苷酸探针结合Tm相关。
在一些实施例中,例如,通过最近邻参数来计算寡核苷酸探针物质Tm。在其它实施例中,寡核苷酸探针物质Tm是根据经验得出的。举例来说,最佳解链温度范围是通过实现解链曲线(例如,在一定温度范围内通过吸收来测量解链的程度)而得出的。在一些实施例中,寡核苷酸探针物质组的组成是根据相关的理论匹配的Tm设计的,所述Tm通过经验测试来验证。在一些实施例中,作为暴露过程的一部分的寡核苷酸探针物质的结合在显著低于Tm的温度(例如,比计算的Tm低到33℃)下进行。在一些实施例中,根据经验确定的寡核苷酸探针物质组中的每一个别寡核苷酸探针物质的最佳温度用于测序方法中作为暴露过程的一部分的每一个别寡核苷酸探针物质的结合。
在一些实施例中,作为改变用于具有不同Tm的寡核苷酸探针物质的温度的替代或除此之外,改变探针和/或盐的浓度和/或改变pH值。在一些实施例中,其它表面的测试基板上的电偏压在正与负之间反复切换,以主动促进寡核苷酸探针物质与一个或多个靶核酸之间的瞬时结合。
在一些实施例中,所用的寡核苷酸探针物质的浓度根据寡核苷酸探针物质序列的AT对比GC的含量来调整。在一些实施例中,为具有较高GC含量的寡核苷酸提供较高浓度的寡核苷酸探针物质。在一些实施例中,使用浓度在2.5M与4M之间的可补偿碱基组成影响的缓冲液(例如,含有CTAB、甜菜碱或如四甲基氯化铵(TMACl)的离液试剂的缓冲液),因此,如使用相同条件集所测量,对于具有不同AT对比GC序列含量和不同Tm的不同寡核苷酸探针物质,可均衡有效Tm。
在一些实施例中,由于随机效应或测序室的设计方面的原因(例如,流动池中的涡流,其会将探针捕集在纳米通道的角落或壁上),寡核苷酸探针物质不均匀地分布在样品(例如,测试基板、流动室、载玻片、一种或多种靶核酸的长度和/或靶核酸的有序阵列)上。通过确保寡核苷酸探针物质溶液的有效混合或搅动来解决探针的局部耗尽。在一些情况下,这通过使用声波、通过在溶液中包括可产生湍流的颗粒和/或通过构造流动池(例如,一个或多个表面上的人字形图案)以产生湍流来实现。另外,由于流动池中存在层流,所以通常很少混合,并且靠近表面的溶液与本体溶液几乎不混合。这在去除靠近表面的试剂/结合探针以及将新的试剂/探针带到表面时可能产生问题。可以实施上述湍流产生方法来克服这一点,和/或可以在表面上方进行广泛的流体流动/交换。在一些实施例中,在将靶核酸排列之前或之后,将非荧光珠粒或球附着于表面,即靶核酸所结合的表面,赋予表面景观粗糙的纹理。这可产生涡流和涌流(current),从而更有效地混合和/或更换靠近表面的流体。在其它实施例中,利用电场来集中和或去除结合的寡核苷酸探针物质,其中电场施加在一个或多个靶核酸结合的表面与本体溶液之间。
在一些实施例中,将寡核苷酸物质的完整组或亚组一起添加。在一些这样的实施例中,使用均衡碱基组成影响的缓冲液(例如,TMACl或硫氰酸胍等,如美国专利申请号2004/0058349中所述)。在一些实施例中,将具有相同或相似Tm的探针物质一起添加。在一些实施例中,可不对一起添加的寡核苷酸探针物质进行差异标记。在一些实施例中,对一起添加的寡核苷酸探针物质进行差异标记。在一些实施例中,差异标记是发射具有例如不同亮度、寿命、激发最大值、发射最大值或其它可观察的光学特性和/或这样的物理特性的组合的标记。
在一些实施例中,两种或更多种寡核苷酸探针物质一起使用,并且在没有区分由不同寡核苷酸物质产生的信号的情况下(例如,寡核苷酸用相同的发射波长标记)确定它们的结合部位。当双链体靶核酸的两条链都可用时,从两条链获得结合位点数据允许区分两种或更多种寡核苷酸,作为组装算法的一部分。在一些实施例中,将一个或多个参考寡核苷酸探针物质与一组或亚组中的每种寡核苷酸探针物质一起添加,然后组装算法可使用光学活性部位和所得到的这类参考探针的结合部位来支持或锚定靶核酸序列组装。在其它实施例中,通过建立多个寡核苷酸探针物质组,两种或更多种寡核苷酸探针物质一起使用,并且在没有区分由不同寡核苷酸物质产生的信号的情况下(例如,寡核苷酸用相同的发射波长标记)确定它们的结合部位,其中完整的寡核苷酸探针物质组中的每种寡核苷酸探针物质在寡核苷酸探针物质的超过一个亚组中表示,并且使用不同亚组的组合实现寡核苷酸探针物质的鉴定,从而确定共同光学活性部位,并因此确定寡核苷酸探针物质结合部位。
在一个替代实施例中,使用有利的结合条件,寡核苷酸探针物质可稳定地结合,但利用结合条件到不利结合条件的变化来控制结合和强行瞬时结合。在非限制性实施例中,条件变化是导致寡核苷酸探针物质解开的热、pH值、电场或试剂更换。然后条件变回有利结合条件,允许寡核苷酸探针物质再次结合。在一些实施例中,当第一有利结合条件时间间隔没有能使所有靶核酸位点饱和时,在第二有利结合条件时间间隔寡核苷酸睡袍物质中作为与第一有利结合条件时间间隔中所用相同的寡核苷酸探针物质组的寡核苷酸探针物质可与除第一有利结合条件时间间隔不同的一组靶核酸位点结合。在一些实施例中,这些循环以可控的速率进行多次。
在一些实施例中,瞬时结合持续小于或等于1毫秒、小于或等于50毫秒、小于或等于500毫秒、小于或等于1微秒、小于或等于10微秒、小于或等于50微秒、小于或等于500微秒、小于或等于1秒、小于或等于2秒、小于或等于5秒或者小于或等于10秒。
在一些实施例中,当使用瞬时结合方法且确保新的寡核苷酸探针物质的连续供应时,荧光团的光漂白不会引起重大问题,并且不需要复杂的视场光阑或Powell透镜来限制照明。因此,荧光团的选择(或抗荧光衰减的氧化还原系统的提供)不是那么重要,并且在一些这样的实施例中,构建相对简单的光学系统;例如,f-光阑,其防止照射不在二维成像器视野内的靶核酸。
在一些实施例中,瞬时结合的另一个优点是可以在沿着多核苷酸的每个结合位点进行多次测量,因此提高了在光学活性情况或检测准确性方面的置信度。例如,在一些情况下,由于分子过程的典型随机性质,寡核苷酸探针物质可能结合于不正确的部位。对于瞬时结合的探针,可丢弃这种异常的孤立的结合事件,其可能比正确的结合短得多,并且为了测定靶核酸序列,只有那些被多个检测到的相互作用确证的结合事件才被接受为有效的检测事件。
瞬时结合的检测以及结合位点的定位.
瞬时结合是实现亚衍射水平定位的整体组成部分。在任何时候,瞬时结合寡核苷酸探针物质组中的每个寡核苷酸探针都有可能与靶核酸结合或者存在于溶液中。因此,不是所有的靶核酸结合位点在任一时刻都被寡核苷酸探针结合。这允许在比光的衍射极限更近的位点检测结合事件(例如,靶核酸上相距仅10nm的两个位点)。例如,如果序列AAGCTT在60个碱基后重复,那么重复的序列将相距约20nm(当靶核酸被伸长和拉直至约0.34nm的沃森-克里克碱基长度(Watson-Crick base)时)。光学成像通常无法辨别二十纳米。然而,如果探针在成像期间的不同时间与两个位点结合,则它们被单独检测到。这允许结合事件的超分辨成像。纳米级精度对于分辨序列重复,即均聚物重复,或可能两个碱基重复、三个碱基重复或超过三个碱基重复和确定它们的数目来说特别重要。
在一些实施例中,与多个光学活性情况相关联并且与靶核酸中某一部位相关的多个结合事件可能不是来自单个寡核苷酸探针物质序列,而是通过分析来自完整寡核苷酸探针物质组的数据并考虑可能由部分重叠序列产生的结合事件或光学活性情况来确定的。在一个实例中,相同的(实际上是亚纳米级接近)部位被探针ATTAAG和TTAAGC结合,所述探针是共享共同的5碱基序列的6聚体,并且每个将验证另一个,以及在共同的5碱基序列的任一侧使序列延伸一个碱基。在一些情况下,5碱基序列每一侧的碱基是错配的(通常预期末端的错配比内部的错配更能被容忍),并且只有两个结合事件中都存在的5碱基序列被验证。
在一些替代实施例中,通过非光学方法检测瞬时单分子结合。在一些实施例中,非光学方法是电学方法。在一些实施例中,通过非荧光方法检测瞬时单分子结合,其中没有直接激发方法,而是使用生物发光或化学发光机制。
在一些实施例中,靶核酸中的每个碱基由序列可能重叠的多种寡核苷酸探针物质来询问。这种对每个碱基的重复取样允许检测靶核酸中罕见的单核苷酸变体或突变。
在一些实施例中,在这类分析中利用每种寡核苷酸探针物质具有的与被分析的靶核酸的所有光学活性情况或结合相互作用(持续时间长于阈值结合持续时间)。在一些实施例中,测序不仅包含从完全匹配中缝合或重建序列,而且还可以在第一软件序列确定过程中通过首先分析与每种寡核苷酸探针物质相关联的有效光学活性情况或结合事件来获得序列。在一些实施例中,瞬时结合被记录为检测手段,而不是用于提高寡核苷酸探针物质结合的定位。
检测光学活性和确定结合位点的定位的成像技术.
框214.在一些实施例中,使用二维成像器测量在暴露过程期间发生的每个相应光学活性情况在测试基板上的部位和任选地持续时间。
在一些实施例中,测量在测试基板上的部位可包含将通过二维成像器测量的数据帧输入到经过训练的卷积神经网络中。数据帧可包含不同部位和相同部位中的多个光学活性情况当中不同部位中的相应光学活性情况。多个光学活性情况中的每个光学活性情况可对应于与靶核酸的固定的第一链或固定的第二链的一部分结合的个别核苷酸探针物质。响应于输入,经过训练的卷积神经网络可鉴定多个光学活性情况中的一个或多个光学活性情况的每个光学活性情况在测试基板上的位置。
在一些实施例中,检测器是二维检测器,并且结合事件定位到纳米级准确度(例如,通过使用单分子定位算法)。在一些实施例中,相互作用特征可包含每个光学活性情况或结合事件的持续时间,其可对应于寡核苷酸探针物质与靶核酸的结合亲和力。在一些实施例中,特征是测试基板、表面或基质上的部位,其对应于特定靶核酸(例如,对应于特定基因序列的多核苷酸)的阵列中的部位。
在一些实施例中,每个相应光学活性情况具有可符合预定阈值的观察度量。在一些实施例中,观察度量包含持续时间、信噪比、光子计数或强度,或其组合。在一些实施例中,当针对一帧观察到相应光学活性情况时,符合预定阈值。在一些实施例中,相应光学活性情况的强度相对较低,并且当针对十分之一帧观察到相应光学活性情况时,符合预定阈值。
在一些实施例中,预定阈值可区分(i)第一结合形式和(ii)第二结合形式,在所述第一结合形式中寡核苷酸探针物质的独特的N聚体序列的每个碱基与靶核酸的固定的第一链或固定的第二链中的互补碱基结合,在所述第二结合形式中寡核苷酸探针物质的独特的N聚体序列与靶核酸的固定的第一链或固定的第二链中的序列之间存在至少一个错配,相应寡核苷酸探针物质已与靶核酸的固定的第一链或固定的第二链结合而形成相应光学活性情况或结合事件。
在一些实施例中,寡核苷酸探针物质组中的每种相应寡核苷酸探针物质都具有其自己对应的预定阈值。
在一些实施例中,基于在沿着靶核酸的特定部位处观察寡核苷酸探针物质与靶核酸之间的1个或多个、2个或更多个、3个或更多个、4个或更多个、5个或更多个、或6个或更多个结合事件来确定预定阈值。
在一些实施例中,寡核苷酸探针物质组中每种相应寡核苷酸探针物质的预定阈值来源于训练数据集(例如,来源于通过将瞬时结合方法应用于λ噬菌体测序而获得的信息的数据集,或任何已知的合成靶核酸)。在一些实施例中,对于不同碱基变体,例如进行表观遗传修饰的碱基或RNA碱基(如尿苷)相对于DNA碱基,确定不同的阈值,并且使用与预期样品靶核酸类型或可能修饰碱基区域(例如CpG岛)中的一种对应的这类不同的阈值。
在一些实施例中,寡核苷酸探针物质组中的每种相应寡核苷酸探针物质的预定阈值来源于训练数据集。对于寡核苷酸探针物质组中的每种相应寡核苷酸探针物质,训练集包含对在与参考核酸序列结合时每种相应寡核苷酸探针物质的观察度量的测量值,与参考核酸序列的结合使得相应寡核苷酸探针物质的独特的N聚体序列的每个残基与参考核酸序列中的互补碱基结合。
在一些实施例中,参考核酸固定在参考基板上。在一些实施例中,包括参考核酸,并固定在测试基板上。在一些实施例中,参考核酸序列可包含PhiX174、M13、λ噬菌体、T7噬菌体、大肠杆菌、酿酒酵母或粟酒裂殖酵母的基因组的全部或一部分。在一些实施例中,参考核酸序列是已知序列的合成构建体。在一些实施例中,参考核酸序列可包含兔球蛋白RNA的全部或一部分(例如,当靶核酸包含RNA时或当只对靶核酸的一条链进行测序时利用)。
在一些实施例中,暴露过程可利用呈嵌入染料形式的第一标记。寡核苷酸探针物质组中的每种寡核苷酸探针物质都与第二标记结合。第一标记与第二标记具有重叠的供体发射光谱和受体激发光谱,这在第一标记和第二标记彼此紧靠时可引起第一标记和第二标记中的一个的荧光水平增加。相应光学活性情况可由嵌入染料与第二标记的接近引起,所述嵌入染料嵌入寡核苷酸探针物质与靶核酸的固定的第一链或固定的第二链之间的相应双链体中。在一些实施例中,暴露过程和相关联的荧光可包含福斯特共振能量转移(
Figure BDA0003495107340000581
resonance energy transfer,FRET)法。在这种实施例中,嵌入染料可包含FRET供体,并且第二标记可包含FRET受体。
在一些实施例中,利用嵌入染料至标记之间的FRET检测光学活性情况,所述标记与寡核苷酸探针物质或靶核酸序列结合、连接或相关联。在一些实施例中,在靶核酸固着之后,例如通过末端转移酶添加可充当FRET配偶体的荧光标记的核苷酸来标记所有靶核酸的末端。在一些这样的实施例中,寡核苷酸探针物质在其一端用Cy3B或Atto 542标记进行标记。
在一些实施例中,FRET被光激活代替。在这样的实施例中,供体(例如,靶核酸上的标记)可包含光激活剂,并且受体(例如,寡核苷酸探针物质上的标记)是来呈失活或变暗状态的荧光团(例如,在荧光成像实验之前,可通过在20mM Tris pH 7.5、2mM EDTA和50mMNaCl中用1mg/mL NaBH4锁住Cy5标记来使其变暗)。在这样的实施例中,当非常接近激活剂时,与寡核苷酸探针物质结合的变暗的荧光团的荧光被打开,所述激活剂结合于靶核酸。
在一些实施例中,暴露过程可利用呈嵌入染料形式的第一标记(例如,光激活剂)。寡核苷酸探针物质组中的每种寡核苷酸探针物质都与第二标记(例如,变暗的荧光团)结合。当第一标记和第二标记彼此非常接近时,第一标记可使第二标记发出荧光。相应光学活性情况可由嵌入染料与结合于寡核苷酸探针物质的第二标记的接近引起,所述嵌入染料嵌入寡核苷酸探针物质与靶核酸的固定的第一链或固定的第二链之间的相应双链体中。
在一些实施例中,暴露过程可利用呈嵌入染料形式的第一标记(例如,变暗的荧光团)。寡核苷酸探针物质组中的每种寡核苷酸探针物质都与第二标记(例如,光激活剂)结合。当第一标记和第二标记彼此非常接近时,第二标记可使第一标记发出荧光。相应光学活性情况可由嵌入染料与结合于寡核苷酸探针物质的第二标记的接近引起,所述嵌入染料嵌入寡核苷酸探针物质与靶核酸的固定的第一链或固定的第二链之间的相应双链体中。
在一些实施例中,暴露过程可利用嵌入染料。相应光学活性情况可由嵌入染料的荧光引起,所述嵌入染料嵌入寡核苷酸探针物质与靶核酸的固定的第一链或固定的第二链之间的相应双链体中,其中相应光学活性情况超过嵌入染料在嵌入相应双链体中之前的荧光。嵌入靶核酸与寡核苷酸探针物质之间的双链体中的一种或多种嵌入染料的荧光增加(100倍或更多)可以为单分子定位算法提供点源样信号,并允许精确确定结合位点的部位。嵌入染料可嵌入到双链体中,产生与每种寡核苷酸探针物质结合位点的结合事件相关联的双链体引起的大量光学活性情况,所述结合事件被强有力地检测到并精确地定位。
在一些实施例中,寡核苷酸探针物质组中的相应寡核苷酸探针物质可通过与靶核酸的固定的第一链的互补部分结合而产生第一光学活性情况,并且通过与靶核酸的固定的第二链的互补部分结合而产生第二光学活性情况。在一些实施例中,靶核酸的固定的第一链的一部分可通过其互补寡核苷酸探针物质的结合而产生光学活性情况,并且与靶核酸的固定的第一链的一部分互补的靶核酸的固定的第二链的一部分可通过其互补寡核苷酸探针物质的结合而产生另一个光学活性情况。
在一些实施例中,寡核苷酸探针物质组中的相应寡核苷酸探针物质可通过与靶核酸的固定的第一链的两个或更多个互补区结合而产生两个或更多个第一光学活性情况,并且通过与靶核酸的固定的第二链的两个或更多个互补区结合而产生两个或更多个第二光学活性情况。
在一些实施例中,相应寡核苷酸探针物质可在暴露过程期间与靶核酸的固定的第一链或固定的第二链的与相应寡核苷酸探针物质互补的一部分结合三次或更多次,从而产生三个或更多个光学活性情况,其中每个光学活性情况可代表多个结合事件中的一个结合事件。
在一些实施例中,相应寡核苷酸探针物质可在暴露过程期间与靶核酸的固定的第一链或固定的第二链的与相应寡核苷酸探针互补的一部分结合五次或更多次,从而产生五个或更多个光学活性情况,其中每个光学活性情况可代表多个结合事件中的一个结合事件。
在一些实施例中,相应寡核苷酸探针物质可在暴露过程期间与固定的第一链或固定的第二链的与相应寡核苷酸探针物质互补的一部分结合十次或更多次,从而产生十个或更多个光学活性情况,其中每个光学活性情况可代表多个结合事件中的一个结合事件。
在一些实施例中,暴露过程可发生五分钟或更短时间,四分钟或更短时间,三分钟或更短时间,两分钟或更短时间,或一分钟或更短时间。
在一些实施例中,暴露过程可发生在二维成像器的1个或多个帧上。在一些实施例中,暴露过程可发生在二维成像器的2个或更多个帧上。在一些实施例中,暴露过程可发生在二维成像器的500个或更多个帧上。在一些实施例中,暴露过程可发生在二维成像器的5,000个或更多个帧上。在一些实施例中,当光学活性稀少时(例如,在空间上探针结合的情况很少),一帧瞬时结合足以定位与寡核苷酸探针物质结合位点相关联的信号。
在一些实施例中,暴露过程中的平均光学活性情况的预期时间长度由暴露过程中使用的寡核苷酸探针物质组中的相应寡核苷酸探针物质的估计的解链温度确定。
在一些实施例中,光学活性可包含来自标记的荧光发射的检测。激发相应的标记,并使用滤光轮中独特的滤光器分别检测对应的发射波长。在一些实施例中,使用荧光寿命成像(FLIM)系统来测量标记发射寿命。或者,发射波长被分割并投影到单个传感器的不同象限或四个单独的传感器上。在一些实施例中,使用如Lundquit等人,《光学快报(OptLett.)》,33:1026-8,2008所述的一种方法,其要求棱镜在CCD的像素上分割发射光谱。在一些实施例中,还可以使用摄谱仪。或者,在一些实施例中,当预期寡核苷酸探针物质结合时间明显比帧暴露时间时,发射波长可与亮度水平组合,以提供关于探针在结合位点的停留时间的信息。
当在检测平面中伸长多核苷酸分子时,几种检测方法,例如扫描探针显微术(包括高速原子力显微术)和电子显微术,能够分辨纳米级距离。然而,这些方法没有提供关于荧光团的光学活性的信息。有多种光学成像技术能够以超分辨精度检测荧光分子。这些包括受激发射损耗(STED)、随机光学重建显微术(STORM)、超分辨光学波动成像(SOFI)、单分子定位显微术(SMLM)和全内反射荧光(TIRF)显微术。在一些实施例中,使用最类似于纳米级形貌中的点累积(PAINT)的SMLM方法。这些系统通常需要一个或多个激发荧光团的激光器、焦点检测/保持机构、一个或多个CCD或CMOS相机、适当的物镜、中继透镜和反射镜。在一些实施例中,暴露步骤可发生在多个图像帧(例如,影片或视频)上以记录寡核苷酸探针物质的结合和脱离。
SMLM方法依赖于高光子计数。高光子计数提高了荧光团发射产生的高斯图案(Gaussian pattern)的质心的确定精度,但对高光子计数的需求还与长图像采集和对明亮且光稳定的荧光团的依赖性相关。通过使用淬灭的探针、分子信标,或具有两个或更多个与互补寡核苷酸探针物质相关联的标记,例如在双链体形式靶核酸的每一侧各有一个来利用高溶液浓度的探针,而不会造成不利的背景。在这样的实施例中,在溶液中经由染料-染料相互作用淬灭标记。然而,当与靶结合时,标记开始分开,并且能够发出明亮的荧光(例如,亮度是单个染料的两倍),这使得它们更容易被检测到。
在一些实施例中,通过例如增加探针浓度、升高温度或增加分子拥挤度(例如,通过在溶液中包括PEG 400、PEG 800等)来改变(例如,增加)探针物质,即寡核苷酸探针物质的结合速率。在其它实施例中,改变探针物质,即寡核苷酸探针物质的解离速率,例如通过工程化探针物质,即寡核苷酸探针物质的化学成分使探针物质的热稳定性降低,添加去稳定附件,或者特别是在寡核苷酸探针物质的情况下,缩短其长度,使用进行表观遗传修饰或以合成方式修饰的碱基代替天然碱基,通过例如改变核碱基或糖之间的间隔,通过例如添加电荷来修饰寡核苷酸探针物质主链,可以增加解离速率。在一些实施例中,通过升高温度、降低盐浓度(例如,提高严格性)或改变pH值来增加解离速率。
在一些实施例中,通过使探针标记(其为寡核苷酸探针物质标记)在它们结合之前基本上无荧光来增加所用寡核苷酸探针物质的浓度,而不显著升高背景水平。做到这一点的一个方法是,结合引发光激活事件。另一个是在结合发生之前淬灭标记(例如,分子信标)。另一个是信号作为能量转移事件(例如,FRET、CRET、BRET)的结果被检测到。在一些实施例中,生物聚合物,即靶核酸,结合于供体并在表面,即测试基板上,并且探针,即寡核苷酸探针物质,结合于受体)反之亦然。在另一实施例中,在溶液中提供嵌入染料,并且在标记探针结合时,在嵌入染料与标记探针之间存在FRET相互作用。嵌入染料的一实例是YOYO-1,并且探针上标记的一实例是ATTO 655。在另一实施例中,使用没有FRET机制的嵌入染料-测试基板或其它表面上的单链靶核酸和寡核苷酸探针物质都是未标记的,并且只有当结合产生嵌入染料可嵌入的互补双链时才可检测到信号。嵌入染料在其未嵌入双链体核酸中并且实际上在溶液中游离时亮度要低100倍或1000倍,取决于其身份。在一些实施例中,TIRF或高倾斜层压光学(highly inclined and laminated optical,HILO)(例如,如Mertz等人,《生物医学光学杂志(J.of Biomedical Optics)》,15(1):016027,2010中所描述)显微术用于消除溶液中嵌入染料的任何背景信号。
在一些实施例中,减少高背景荧光,高背景荧光会使测试基板或其它表面上的信号检测模糊,这种模糊可能是由高浓度的标记探针导致的。在一些实施例中,这通过用DNA染色剂或嵌入染料标记在测试基板或其它表面上形成的双链体来解决。当靶核酸是单链时或在单链探针下,染料都不会嵌入,但当寡核苷酸探针物质与靶核酸之间形成双链体时,嵌入染料会嵌入。在一些实施例中,寡核苷酸探针物质是未标记的,并且检测到的信号仅仅是由嵌入染料引起的。在一些实施例中,寡核苷酸探针物质用可充当嵌入染料或DNA染色剂的FRET配偶体的标记来标记。在一些实施例中,嵌入染料是供体并与不同波长的受体偶联,因此允许寡核苷酸探针物质用多个荧光团编码。
在一些实施例中,暴露过程可检测与每个与寡核苷酸探针物质互补的靶核酸位点相关联的多个光学活性情况或结合事件。在一些实施例中,多个事件来自单个寡核苷酸探针分子的结合或解离,来自寡核苷酸探针物质亚种的结合或解离,或者来自寡核苷酸探针物质的结合或解离,并且上述结合事件的任何组合(单个寡核苷酸探针、寡核苷酸探针亚种或寡核苷酸探针物质)可发生多次。在一些实施例中,结合速率或解离速率不受改变条件影响。例如,结合和解离均在相同的条件(例如,盐浓度、温度等)下发生,并且是由探针-靶相互作用弱导致的。
在一些实施例中,测序是通过对单个靶核酸上的多个部位处的多个光学活性情况或结合-解离事件成像来进行的,所述单个靶核酸比寡核苷酸探针物质的长度短、与其长度相同或在其长度的数量级内。在这样的实施例中,将较长的靶核酸片段化,或者已预先选择一小组片段并将其排列在测试基板或其它表面上,使得每个靶核酸分子都是可以单独分辨的。在这些情况下,使用光学活性情况或寡核苷酸探针物质与特定部位结合的频率或持续时间来确定寡核苷酸探针物质是否完全与靶核酸序列互补。寡核苷酸探针物质结合的频率或持续时间可确定寡核苷酸探针物质与靶核酸序列的全部互补还是一部分互补(其余碱基是错配或突出的)。
在一些实施例中,在一些实施例中,通过来自DNA染色剂的荧光增加来检测靶核酸之间并排重叠的发生。在不使用染色剂的一些实施例中,通过名义上是单个但实际上是一对重叠靶核酸的区域内的表观结合位点频率的增加来检测重叠。例如,在衍射极限分子在光学上似乎重叠但实际上在物理学上并不重叠的一些情况下,使用如本公开中其它地方所述的单分子定位来对它们进行超分辨。在一些实施例中,在发生端对端重叠的情况下,标记靶核酸末端的标记被用于区分并列的靶核酸与真实连续长度的单个靶核酸。在一些实施例中,如果预期基因组或靶向序列有许多拷贝,并且只发现一个表观嵌合体存在,则这样的光学嵌合体被认为是假象。在一些实施例中,在靶核酸末端(衍射极限)在光学上看起来重叠但在物理学上不重叠的情况下,它们通过本公开的方法来分辨。在一些实施例中,部位确定精确到分辨出从非常接近的标记发出的信号。
在一些实施例中,测序是通过对单个靶核酸上的多个部位处的多个光学活性情况或结合-解离事件成像来进行的,所述单个靶核酸比寡核苷酸探针物质长。在一些实施例中,确定光学活性情况或探针结合事件在单个靶核酸上的部位。在一些实施例中,寡核苷酸探针物质的光学活性情况或结合事件在单个靶核酸上的部位是通过伸长靶核酸来确定的,使得可检测和分辨光学活性情况或结合事件沿靶核酸长度的不同部位。
在一些实施例中,区分未结合的寡核苷酸探针物质的光学活性与已经与靶核酸结合的寡核苷酸探针物质的光学活性可能需要丢弃或去除来自未结合的寡核苷酸探针物质的信号。在一些这样的实施例中,这是使用例如用于照明的渐逝场或波导,或者通过利用FRET对标记,或者通过利用光激活来检测特定部位中的寡核苷酸探针物质而实现的(例如,如Hylkje等人,《生物物理杂志(Biophys J.)》2015;108(4):949-956中所描述)。
在一些实施例中,如图13A-13C所示,寡核苷酸探针物质可能未被标记,而与靶的相互作用是使用例如未结合的嵌入染料1302的DNA染色剂来检测的,所述嵌入染料1302嵌入双链体中,并且随着结合的发生或已经发生而isgins作为嵌入的染料1304发荧光(例如,如图13A-13C所示)。在一些实施例中,一种或多种嵌入染料可在任一时间嵌入靶核酸与寡核苷酸探针物质之间的单个双链体中。在一些实施例中,嵌入染料一旦嵌入,其发射的荧光比由未结合的嵌入染料在溶液中自由漂浮产生的荧光强几个数量级。例如,来自嵌入的YOYO-1染料的信号比来自溶液中游离的YOYO-1染料的信号强约100倍。在一些实施例中,当对轻度染色的(或部分光漂白的)双链多核苷酸成像时,沿着多核苷酸观察到的单个信号可能对应于单个嵌入染料分子。在一些实施例中,为了促进YOYO-1染料在双链体中的交换并获得明亮的信号,在结合缓冲液中提供了包含甲基紫精和抗坏血酸的氧化还原-氧化系统(ROX)。
在一些实施例中,通过检测用单一染料分子标记的单独核苷酸的掺入对单一靶核酸进行测序(例如,如Helicos和PacBio测序中所实现的那样)在未检测到染料时会引入误差。在一些情况下,这是因为核苷酸可能不再与染料结合,单一核苷酸结合事件太短而无法检测到,染料已被光漂白,由于染料闪烁使得检测到的累积信号很弱,染料发射太弱,或者染料进入长时间黑暗的光物理状态。在一些实施例中,这通过多种替代方式来克服。第一种方式是用具有良好光物理特性的稳固的单独染料(例如,Cy3B)来标记核苷酸。另一种是提供减少光漂白和黑暗的光物理状态的缓冲条件和添加剂(例如,β-巯基乙醇、Trolox、维生素C和其衍生物、氧化还原系统)。另一种是最大程度地减少光暴露(例如,使用需要较短暴露时间的更灵敏的检测器或提供频闪照明)。第二种是用纳米颗粒如量子点(例如,Qdot655)、荧光球、纳米金刚石、等离子共振颗粒、光散射颗粒等而非单一染料来标记核苷酸。另一种是使每个核苷酸具有许多染料,而不是单一染料(例如,如图14C和14D所示)。在这种情况下,将多种染料1414以最小化其自淬灭的方式组织(例如,使用刚性纳米结构1412,如将它们间隔得足够远的DNA折纸),或者经由刚性连接子进行线性间隔。
在一些实施例中,在溶液中存在一种或多种选自尿素、抗坏血酸或其盐、异抗坏血酸或其盐、β-巯基乙醇(BME)、DTT、氧化还原系统或Trolox的化合物的情况下,检测误差率进一步降低(并且信号寿命增加)。
在一些实施例中,仅探针与靶核酸的瞬时结合就足以减少由染料光物理引起的误差。暴露过程期间获得的信息是不同标记的寡核苷酸探针物质的许多进行/未进行的相互作用的聚集。因此,即使错过一个标记,单一结合事件太短而无法适当地检测到,一个标记被光漂白或处于黑暗状态,在与靶核酸结合的其它寡核苷酸探针物质上的标记也不会都错过标记,结合事件太短而无法检测到,被光漂白或处于黑暗状态,因此在一些实施例中,将提供关于它们的结合位点部位的信息。
在一些实施例中,来自每个瞬时结合事件中的标记的光学活性情况信号通过光路(通常,提供放大系数)投影,以覆盖二维成像器的超过一个像素。确定光学活性情况信号的点扩散函数(PSF),并将PSF的质心作为光学活性情况信号的精确部位。在一些实施例中,定位可确定至亚衍射(例如,超分辨率),甚至亚纳米准确度。定位准确度与收集的光子数目成反比。因此,荧光标记每秒发射的光子越多,或者收集光子的时间越长,准确度就越高。
在一个实例中,如图10A和10B所示,每种寡核苷酸探针物质结合位点处的光学活性情况或结合事件数目和收集的光子数目都与实现的定位程度相关。对于靶核酸1002,针对结合位点记录的结合事件1004-1的最小数目和光子1008-1的最少数目分别与最不精确的定位1006-1和1010-1相关。随着针对结合位点记录的结合事件1004-2、1004-3的数目或光子1008-2、1008-3的数目增加,定位程度1006-2、1006-3以及1010-2、1010-3也分别增加。在图10A中,不同数目的检测到的标记的寡核苷酸探针物质与靶核酸1002的随机光学活性情况或结合事件(例如,1004-1、1004-2、1004-4)导致探针(1006-1、1006-2、1006-3)不同的定位程度,其中较大数目的结合事件(例如,1004-2)与较高定位程度(例如,1006-2)相关,并且较小数目的结合事件(例如,1004-1)与较低定位程度(例如,1006-1)相关。在图10B中,检测到的不同数目的光子(例如,1008-1、1008-2和1008-3)类似地导致不同定位程度(分别为1010-1、1010-2和1010-3)。
在一替代实施例中,来自每个瞬时结合事件中的标记的信号不通过光学放大路径投影。相反,将基板(通常是靶核酸分子所在的光学透明表面)直接偶联至二维检测器阵列。当检测器阵列的像素很小(例如,一平方微米或更小)时,信号在检测器表面上的一对一投影允许结合信号以至少一微米的准确度被定位。在靶核酸已经被充分拉伸(例如,靶核酸的两千碱基已经被拉伸至1微米长)的一些实施例中,能分辨相距两千碱基的信号。例如,在预期信号每4096个碱基或每2微米出现一次的6聚体探针的情况下,上述分辨率将足以明确地定位单个结合位点。信号可部分源于两个像素之间,以及中间部位(例如,如果信号落在两个像素之间,则对于一平方微米的像素,分辨率可以是500nm或更佳)。在一些实施例中,超分辨率方法用于靶核酸相对于二维成像器处于适当部位的系统。这类部位可视用于二维成像器的传感器类型而变化。举例来说,背面减薄型CCD的实际传感器区离传感器的检测表面比前侧照明型CCD远,并且与可利用与每个像素相关联的纳米镜头的CCD或CMOS成像器均显著不同。在一些实施例中,可将基板相对于二维阵列检测器在X和或Y维度上物理平移(例如,以100nm的增量)以提供更高的分辨率。在这样的实施例中,装置或系统更小(或更薄),因为其不需要透镜或透镜之间的空间。在一些实施例中,基板的平移还提供了分子存储读出至与现有计算机和数据库更兼容的电子读出的直接转换。在一些实施例中,利用时间分辨荧光,并且用于捕获荧光寿命,或仅仅用于消除激发背景。
在一些实施例中,为了捕获光学活性或结合事件的高速瞬时发生,增加捕获帧的速率,并且数据传输速率相对于标准显微技术增加。在一些实施例中,通过将高帧速率与增加的探针浓度相结合来提高暴露过程的速度。然而,最大帧速率适合于相对于与每一帧相关联的采集的信号减少电子噪声。200毫秒暴露的电子噪声与单次100毫秒暴露相同,但当比较单次200毫秒暴露与两次100毫秒暴露时,将是二的平方根。
更快的CMOS相机正在变得可用,这将实现更快的成像。例如,Andor Zyla Plus在512×1024平方像素的范围内仅通过一个USB 3.0连接每秒可高达398帧,并且在所关注受限区域(ROI)(像素数目更小)内或当使用CameraLink连接时甚至更快。
在一些实施例中,可实现快速成像的系统可使用检流计反射镜或数字微镜向不同的传感器发送随时间增加的图像。然后,根据它们的采集时间,通过交错来自不同传感器的帧来重建影片帧的正确顺序。
在一些实施例中,通过调整各种生化参数,例如盐浓度,可以加速瞬时结合过程。有许多具有高帧速率的相机可用来匹配结合的速度,通常视野被限制,以从像素亚组获得更快的读出。在一些实施例中,利用检流计反射镜将连续信号在时间上分配到单个传感器的不同区域或分开的传感器。后者允许利用传感器的全部视野,但在对分配的信号进行编译时增加了总的时间分辨率。
构建多个结合事件的数据集.
框218.在一些实施例中,对寡核苷酸探针物质组中的各个寡核苷酸探针物质重复暴露和测量过程,从而获得测试基板上光学活性或结合事件的多组位置,测试基板上光学活性或结合事件的每组相应位置对应于寡核苷酸探针物质组中的单个寡核苷酸探针物质。
在一些实施例中,寡核苷酸探针组可包含多个寡核苷酸探针亚组,并且对多个寡核苷酸探针物质亚组中的每个相应寡核苷酸探针物质亚组重复暴露和测量过程。
在一些实施例中,每个相应寡核苷酸探针物质亚组可包含来自寡核苷酸探针物质组的两种或更多种不同寡核苷酸探针物质。在一些实施例中,每个相应寡核苷酸探针物质亚组可包含来自寡核苷酸探针物质组的四种或更多种不同寡核苷酸探针物质。在一些实施例中,寡核苷酸探针组可包含四个寡核苷酸探针物质亚组。
在一些实施例中,方法还可包含基于每种寡核苷酸探针物质的计算的或实验推导的解链温度,将寡核苷酸探针物质组划分成多个寡核苷酸探针物质亚组。通过划分,将具有相似解链温度的寡核苷酸探针物质放在相同的寡核苷酸探针亚组中。另外,暴露过程的温度或持续时间由对应的寡核苷酸探针物质亚组中的寡核苷酸探针物质的平均解链温度确定。
在一些实施例中,方法还可包含基于每种寡核苷酸探针物质的序列将寡核苷酸探针组划分成多个寡核苷酸探针亚组,其中将具有重叠序列的寡核苷酸探针物质放在不同的亚组中。
在一些实施例中,对寡核苷酸探针物质组中的每一单个寡核苷酸探针物质重复暴露和测量过程。
在一些实施例中,在第一温度下对寡核苷酸探针物质组中的第一寡核苷酸探针物质进行暴露过程,并且重复暴露和测量过程可包括在第二温度下对第一寡核苷酸探针物质进行暴露和测量过程。
在一些实施例中,可在第一温度下对寡核苷酸探针物质组中的第一寡核苷酸探针物质进行暴露过程。重复暴露和测量过程的实例可包括在多个不同温度的每个温度下对第一寡核苷酸探针物质进行暴露和测量过程。方法还可包含使用光学活性情况的测量的部位和任选地持续时间来构建第一寡核苷酸探针物质的解链曲线,所述部位和持续时间是通过针对第一温度和多个不同温度中的每个温度的暴露和测量过程确定的。
在一些实施例中,在重复暴露和测量过程之前,洗涤测试基板,从而在将测试基板暴露于一种或多种寡核苷酸探针物质之前,从测试基板去除一个或多个相应寡核苷酸探针物质。任选地,用一种或多种洗涤溶液替换第一寡核苷酸探针物质,然后添加不同的一种或多种寡核苷酸探针物质。
在一些实施例中,测量测试基板上的结合事件部位可包含用拟合函数鉴定和拟合相应光学活性情况,以鉴定和拟合通过二维成像器获得的数据帧中的相应光学活性情况的中心。相应光学活性情况的中心被认为是相应光学活性情况或结合事件在测试基板上的部位。
在一些实施例中,拟合函数是高斯函数、一阶矩函数、基于梯度的方法或傅里叶变换。高斯拟合将仅仅是显微镜的PSF的近似,但在一些实施例中,添加样条(例如,三次样条)或傅里叶变换方法可提高确定PSF的中心的准确度(例如,如Babcock等人,《科学报告(SciRep.)》7:552,2017和Zhang等人,46:1819-1829,2007中所述)。
在一些实施例中,在完成测量过程之后,寡核苷酸探针物质的单个标称结合部位的光学活性位置组确定了位置并鉴定了寡核苷酸探针物质(例如,由于检测到的发射波长),并且过程可确定来自一组的哪些寡核苷酸探针物质与靶核酸的标称结合部位重叠(例如,其在确定公差内与相同的纳米级部位结合,例如由于检测到的光子数目不同,所以公差对于不同寡核苷酸探针物质来说是不同的)。在一个实例中,纳米级部位以1nm中心(+/-0.5nm)的精度来定义,并且因此关于相应PSF质心的相应精度或公差重叠的所有寡核苷酸探针物质将被装箱在一起。每一单个定义的寡核苷酸探针物质可结合多次(例如,取决于发射和收集的光子的数目),以使得能够在适当精度或公差(纳米或亚纳米)下准确定位至纳米(或亚纳米)质心。
在一些实施例中,纳米级或亚纳米级定位可确定,例如,对于5′-AGTCG-3′的寡核苷酸探针物质序列,第一碱基是A,第二碱基是G,第三碱基是T,第四碱基是C,并且第五碱基是G。这种模式暗示了5′-CGACT-3′的靶序列。因此,使用如上文所述的探针编码系统,使用五个循环应用或测试所有单碱基界定的1024个5聚体寡核苷酸探针物质,其中每个循环可包含暴露、确定和重复过程并且还可包含寡核苷酸探针物质池添加和洗涤步骤。在一些实施例中,寡核苷酸探针物质池中的每个特定的寡核苷酸探针物质的浓度低于单独使用时的浓度。在一些实施例中,可能由于不同寡核苷酸探针物质之间的竞争,为了达到阈值数目的结合事件,数据的采集需要更长的时间,或在暴露过程期间采集更多帧。在一些实施例中,使用浓度比具有相同k聚体物质长度但无简并碱基或通用碱基的寡核苷酸探针物质高的可利用简并或通用碱基的寡核苷酸探针物质。在一些实施例中,编码方案通过寡核苷酸探针物质的直接标记,例如通过在寡核苷酸探针物质的3′或5′位置处合成或缀合标记来实现。然而,在一些替代实施例中,这是通过间接标记来完成的(例如,通过将瓣序列附接到如本文所述的每个标记的寡核苷酸)。
在一些实施例中,每种寡核苷酸探针物质的部位通过确定该部位的多个结合事件的PSF来精确界定,然后可以通过来自偏移结合事件的部分序列重叠(以及在可用的情况下,来自双链体形式靶核酸的互补链的数据)来确证。如本文所述的一些实施例高度依赖于达到一纳米或数纳米的探针结合的单分子定位。
在一些实施例中,相应光学活性情况可在通过二维成像器测量的多个帧上持续。测量测试基板上的部位包含在多个帧上用拟合函数鉴定和拟合相应光学活性情况,以鉴定多个帧上的相应光学活性情况的中心。相应光学活性情况的中心被认为是多个帧上的相应光学活性情况在测试基板上的位置。在一些实施例中,拟合函数可单独确定多个帧中的每个帧的中心。在其它实施例中,拟合函数可集体地在多个帧上确定光学活性情况的中心。
在一些实施例中,拟合可利用跟踪步骤,其中如果在下一帧中定位紧邻(例如,在半个像素内),则将它们一起平均,按它们的亮度加权;可假设这是单个光学活性情况或结合事件。然而,如果光学活性情况由多个帧分开(例如,结合事件之间有至少5帧间隙、至少10帧间隙、至少25帧间隙、至少50帧间隙或至少100帧间隙),则拟合函数可假设它们是独特的结合事件。跟踪独特的光学活性情况或结合事件有助于提高序列分配的置信度。
在一些实施例中,测量过程以至少20nm的定位精度将相应光学活性情况的中心分辨为测试基板上的位置。在一些实施例中,测量过程以至少2nm、至少60nm、至少6nm的定位精度将相应光学活性情况的中心分辨为测试基板上的位置。在一些实施例中,测量以2nm与100nm之间的定位精度将相应光学活性情况的中心分辨为测试基板上的位置。在一些实施例中,测量过程可将相应光学活性情况的中心分辨为测试基板上的位置,其中位置是亚衍射极限位置并且具有也是亚衍射极限的精度。在一些实施例中,分辨率比精度更具限制性。
在一些实施例中,测量过程可确定相应光学活性情况在测试基板上的部位和任选地持续时间,并且测量过程可确定一个或多个光学活性情况包含一个部位处超过5000个光子。在一些实施例中,测量过程可确定相应光学活性情况在测试基板上的部位和任选地持续时间,并且测量过程可确定一个或多个光学活性情况包含一个部位处超过50,000个光子或一个部位处超过200,000个光子。
每种染料都有其产生光子的最大速率(例如,1KHz-1 MHz)。例如,对于一些染料,一秒钟内只可能测量200,000个光子。染料的典型寿命是10纳秒,因此每秒发射100,000,000个光子,当与收集效率组合时,检测器量子效率过滤损失可导致每秒检测到低几个数量级的光子。因此,在一些实施例中,测量相应光学活性情况在测试基板上的部位和任选地持续时间可测量相关联的部位处超过1,000,000个光子。
在一些情况下,某些异常序列以非沃森克里克方式结合,或者短基序可导致异常高的结合速率或异常低的解离速率。例如,RNA与DNA之间的一些嘌呤-polypryrimidine相互作用非常强(例如,RNA基序,如AGG)。由于成核序列更加稳定,所以这些序列不仅具有较低的解离速率,而且还具有较高的结合速率。在一些情况下,结合发生在不一定符合某些已知规则的异常值中。在一些实施例中,算法用于鉴定这类异常值或考虑这类异常值的预期。
在一些实施例中,相应光学活性情况比对于测试基板观察到的背景高出预定数目的标准差(例如,超过3、4、5、6、7、8、9或10个标准差)。
在一些实施例中,对寡核苷酸探针物质组中的第一寡核苷酸探针物质进行暴露过程,持续第一时间段。在一些这样的实施例中,重复暴露和测量过程可包括对第二寡核苷酸探针物质进行暴露过程,持续第二时间段。第一时间段长于第二时间段。
在一些实施例中,对寡核苷酸探针物质组中的第一寡核苷酸探针物质进行暴露过程,持续二维成像器的第一帧数。在一些这样的实施例中,重复暴露和测量过程可包括对第二寡核苷酸探针物质进行暴露过程,持续二维成像器的第二帧数。第一帧数大于第二帧数。
在一些实施例中,一个或多个覆瓦组中的互补寡核苷酸探针物质用于与变性双链体靶核酸的每条链结合。如图11B所示,可使用测试基板上的多组位置确定靶核酸的至少一部分的序列,其可包含确定对应于靶核酸的固定的第一链1110的第一覆瓦式路径1114和对应于靶核酸的固定的第二链1112的第二覆瓦式路径1116。
在一些实施例中,使用第二覆瓦式路径的对应部分来分辨第一覆瓦式路径中的中断,其中覆瓦式路径中的中断不能以期望置信度来确定碱基序列,并且分辨破坏是以期望置信度确定碱基序列。在一些实施例中,使用参考序列分辨第一覆瓦式路径或第二覆瓦式路径中的中断。在一些实施例中,使用从靶核酸的另一情况获得的第三覆瓦式路径或第四覆瓦式路径的对应部分来分辨第一覆瓦式路径或第二覆瓦式路径中的中断。
在一些实施例中,使用第一覆瓦式路径和第二覆瓦式路径的对应部分来增加靶核酸序列对于每个结合位点的序列分配的置信度。在一些实施例中,使用从靶核酸的另一情况获得的第三覆瓦式路径或第四覆瓦式路径的对应部分来增加靶核酸序列的序列分配的置信度。
序列的比对或组装.
框222.在一些实施例中,使用测试基板上的多组位置,通过对由多组位置表示的测试基板上的位置进行编译来确定靶核酸的至少一部分的序列。
在一些实施例中,经由从头组装获得连续序列。在其它实施例中,使用参考序列来促进组装。当完整基因组测序需要合成来自跨越基因组的相同区域的多个靶核酸分子(理想情况下是来源于相同染色体的分子)的信息时,需要算法来处理从多个靶核酸分子获得的信息。在一些实施例中,利用一种如下算法,其可基于多个靶核酸分子之间共同的序列将靶核酸序列对齐,并通过从覆盖该区域的共对齐的分子中进行输入来填充每个靶核酸分子中的间隙(例如,一个靶核酸分子中的间隙被针对另一个共对齐的靶核酸分子确定的序列读段覆盖)。
在一些实施例中,sshotgun组装法(例如,如Schuler等人,《科学》274:540-546,1996中所述)适于使用如本文所述获得的序列分配来进行组装。当前方法优于桑格或Illumina鸟枪测序的有利方面是:对大量读段进行预组装,因为它们是从全长的完整靶核酸分子或其极大片段中测序而来的(例如,已经知道读段或重叠群相对于彼此的部位,以及读段或重叠群之间的间隙长度)。在各种实施例中,使用参考基因组来促进长程基因组结构或短程多核苷酸序列或者两者的组装。在一些实施例中,将读段部分地从头组装,然后与参考对齐,然后将参考辅助的组合件进一步从头组装。在一些实施例中,各种参考组合件用于为基因组组装提供一些指导。在其它实施例中,从实际分子获得的信息(尤其是如果其被两个或更多个分子确证的话)的权重大于来自参考的任何信息。
在一些实施例中,基于靶核酸之间的序列重叠的区段,将序列位所获自的靶核酸对齐,并产生较长的计算机(in silico)重叠群,最终产生整个染色体的序列。
在一些实施例中,靶核酸的身份由沿其长度的寡核苷酸探针物质结合模式决定。在一些实施例中,身份是RNA种类或RNA同种型的身份。在一些实施例中,身份是参考序列中靶核酸所对应的部位。
在一些实施例中,定位准确度或精度可能不足以将序列位缝合在一起。在一些实施例中,发现探针亚组结合在特定地点内,但严格地从定位数据来看,很难以所期望的置信度确定序列的顺序。在一些实施例中,分辨率受衍射限制。在一些实施例中,地点或衍射极限点内的短程序列通过位于所述地点或点内的寡核苷酸探针物质的序列重叠来组装。因此,例如通过使用关于寡核苷酸探针物质亚组的各个序列如何重叠的信息来组装短程序列。在一些实施例中,然后可基于以这种方式构建的短程序列在靶核酸上的顺序将它们缝合在一起,成为长程序列。因此,可通过连结从相邻或重叠点获得的短程序列来获得长程序列。
在一些实施例中(例如,对于为天然双链的靶核酸),使用参考序列和关于互补链所获得的序列信息来促进序列分配。
在一些实施例中,靶核酸的长度为至少140个碱基,并且确定过程可确定超过70%的靶核酸序列的序列覆盖度。在一些实施例中,靶核酸的长度为至少140个碱基,并且确定过程可确定超过90%的靶核酸序列的序列覆盖度。在一些实施例中,靶核酸的长度为至少140个碱基,并且确定过程可确定超过99%的靶核酸序列的序列覆盖度。在一些实施例中,确定过程可确定超过99%的靶核酸序列的序列覆盖度。
非特异性或错配结合事件.
通常,测序假设靶核酸含有与结合的核苷酸互补的核苷酸。然而,情况并非总是如此。结合错配误差就是这种假设不成立的情况的一个实例。然而,当根据已知的规则或行为发生错配时,错配对于确定靶核酸的序列是有用的。使用短的寡核苷酸探针物质(例如,5聚体)意味着单个错配对稳定性有很大影响,因为一个碱基占5聚体长度的20%。因此,使用适当的条件,通过短寡核苷酸探针物质可以获得高度特异性。即使如此,错配也有可能发生,并且由于分子相互作用的随机性质,它们的结合持续时间中的一些可能与所有5个碱基都是特定的结合不可区分。在一些实施例中,用于进行碱基(或序列)调用和组装的算法通常会考虑错配的发生。许多类型的错配是可预测的,并且符合某些规则。这些规则中的一些是通过理论考虑推导出来的,而其它规则是通过实验推导出来的(例如,如Maskos和Southern,《核酸研究(Nucleic Acids Res)》21(20):4663-4669,2013;Williams等人,《核酸研究》22:1365-1367,1994所描述的)。
在一些实施例中,由于探针与非特异性位点的这种非持久性结合不持久,因此减轻了与表面的非特异性结合的影响,并且一旦一个成像器占据了非特异性(例如,不在互补靶序列上)结合位点,其就可能被漂白,但在一些情况下保持在适当的位置,阻止了与该部位的进一步结合(例如,由于G-四分体形成而导致的相互作用)。通常,大多数阻碍对成像器与靶多核苷酸的结合进行分辨的非特异性结合位点在成像的早期阶段被占据和漂白,使得成像器与多核苷酸位点的结合/解离在此后易于观察到。因此,在一个实施例中,使用高激光功率来漂白最初占据非特异性结合位点的探针,任选地,在该阶段不拍摄图像,然后任选地降低激光功率,并开始成像以捕获与多核苷酸的结合-解离。在最初的非特异性结合之后,进一步的非特异性结合不太频繁(因为已经漂白的探针经常保持粘在非特异性结合位点上),并且在一些实施例中,通过应用例如被认为是与停泊位点的特异性结合的阈值在计算上过滤掉,对同一部位的结合必须是持续的,例如应该在同一位点发生至少5次或至少10次。通常,检测到约20个与停泊位点的特异性结合事件。
在其它实施例中,对于非特异性结合,荧光团信号必须与在表面上拉伸的靶分子的线性链的位置相关,并且通过算法来去除其它信号。在一些实施例中,可通过直接染色线性双链体形式靶核酸链或通过在持久结合位点插入一条线来确定靶核酸链的位置。通常,在一些实施例中,不沿着线下降的信号,无论它们是否是持久的,都被丢弃。类似地,当使用超分子网格时,在一些实施例中,与网格的已知结构不相关的结合事件被丢弃。
在一些实施例中,多个结合事件还提高了特异性。例如,从多个调用中获得共有序列,而不是确定在单个“调用”中检测到的部分或序列的身份。针对靶部分或靶核酸的多个结合事件还允许与实际部位的结合与非特异性结合事件相区别,其中(阈值持续时间的)结合不太可能在同一部位发生多次。还观察到,随着时间的推移,多个结合事件的测量允许非特异性结合事件累积到表面上进行漂白,之后可能几乎没有再检测到非特异性结合。这可能是因为尽管来自非特异性结合的信号被漂白了,但非特异性结合位点仍然可能被占据或阻断。
在一些实施例中,测序因靶核酸上的错配和非特异性结合而变得复杂。为了规避非特异性结合或异常事件的影响,在一些实施例中,一种方法可基于信号的部位和持久性对信号进行加权。根据部位进行之加权基于探针是否共定位于例如拉伸的靶核酸或超分子网格(例如,DNA折纸网格),包括网格结构内的部位来预测。根据结合的持久性进行的加权关注结合的持续时间和结合的频率,并使用与不同的标称结合事件或结合部位相关联的加权来确定完全匹配、部分匹配或非特异性结合的可能性。使用针对完整寡核苷酸探针物质组中的每种寡核苷酸探针物质建立的加权来确定信号的正确性。
在一些实施例中,通过确定信号持续时间是否大于预定义阈值,信号重复或频率是否大于预定阈值,信号是否与靶分子的部位相关,和/或收集的光子数目是否大于预定义阈值,将优先级用于促进信号验证和碱基调用。在一些实施例中,当这些确定中的任一个的答案为真时,信号被接受为真实的(例如,如不是错配或非特异性结合事件)。在其它实施例中,要使信号被接受为真的,这些确定中的超过一个可能需要是真的。
在一些实施例中,错配通过它们的时间结合模式来区分,因此被认为是序列信息的第二层。在这种实施例中,当结合信号由于其时间结合特征而被判断为错配时,根据生物信息学修整序列位以去除假定的错配碱基,并且将剩余的序列位用于序列测定中。由于错配最有可能发生在杂交寡核苷酸探针物质的末端,因此在一些实施例中,使用时间结合特征来确定错配可能导致从寡核苷酸探针物质序列的末端修剪一个或多个碱基。在一些实施例中,关于哪个碱基适宜被修剪的决定是由来自相同靶核酸区域上的其它寡核苷酸覆瓦的信息告知的。
在一些实施例中,对似乎是不可逆的信号加以负权重,因为其具有对应于非特异性信号(例如,由于荧光污染物附着于表面)的机率或一定程度的可能性。
框302-304.在一些实施例中,一种靶核酸测序方法可包含固定过程,其中将靶核酸以线性化拉伸形式结合在测试基板上,从而形成固定的拉伸核酸。根据上述方法中的任一种方法将靶核酸附连至测试基板上。
在表面上分离单细胞并提取DNA和RNA.
在一些实施例中,可从单个细胞分离出RNA和DNA中的任一者或两者,并对其进行测序。在一些实施例中,当目标是对DNA测序时,在测序开始之前使RNA酶与样品反应。在一些实施例中,当目标是对RNA测序时,在测序开始之前使DNA酶与样品反应。在一些实施例中,当要对细胞质核酸和细胞核核酸都进行分析时,有差异地或依次地提取它们。在一些实施例中,首先破坏细胞膜(而不是核膜)以释放和收集细胞质核酸。然后破坏相关联的核膜以释放细胞核核酸。在一些实施例中,蛋白质和多肽作为细胞质部分的一部分来收集。在一些实施例中,RNA作为细胞质部分的一部分来收集。在一些实施例中,DNA作为细胞核部分的一部分来收集。在一些实施例中,将细胞质和细胞核部分一起提取。在一些实施例中,在提取后,有差异地捕获mRNA和基因组DNA。例如,通过附着于表面的寡聚dT探针捕获mRNA。这可在流动池的第一部分中发生,并且在具有疏水性乙烯基硅烷涂层的流动池的第二部分中捕获DNA,在该涂层上可以捕获DNA的末端(例如,可能由于疏水相互作用)。
在一些实施例中,利用带正电荷,如多聚(L)赖氨酸(PLL)的表面(例如,可从Microsurfaces公司获得的或内部涂布的),并且已知其能够与细胞膜结合。在一些实施例中,使用低高度和或宽度的流动通道(例如,<30微米),使得细胞与表面碰撞的机率增加。在一些实施例中,通过在流动池顶部中使用人字形或蛇形图案引入湍流来增加碰撞的次数。在一些实施例中,细胞附着不需要是高效的,因为在这样的实施例中,希望细胞以低密度分散在表面上(例如,确保细胞之间有足够的空间,使得从每一个别细胞提取的RNA和DNA将保持空间上分离)。在一些实施例中,使用蛋白酶处理使细胞溶解,使得细胞膜和核膜都被破坏(例如,使得细胞内含物被释放到培养基中并被捕获在分离的细胞附近的表面上)。在一些实施例中,一旦固着,DNA和RNA就被拉伸。在一些实施例中,使拉伸缓冲液单向流过盖玻片表面(例如,引起DNA和RNA多核苷酸在流体流动的方向上拉伸和对齐)。在一些实施例中,条件(例如,如温度、拉伸缓冲液的组成和流体的物理力)的调节可引起大部分的RNA二级/三级结构变性,使得RNA可用于结合抗体或用于测序。一旦RNA被拉伸成变性形式,就有可能从变性缓冲液转换成结合缓冲液。
或者,首先通过破坏细胞膜并诱导一个方向上的流动来提取和固着RNA。接着使用蛋白酶破坏核膜,并诱导其在相反的方向上流动。在一些实施例中,例如通过使用稀有切割限制酶(例如,NOT1、PMME1),在释放之前或之后将DNA片段化。这种片段化可有助于解开DNA,并允许分离和梳理各条链。系统被配置成使固着的细胞相隔足够远,使得从每个细胞提取的RNA和DNA不会相互混合。在一些实施例中,这通过在细胞破裂或破坏之前、之后或期间诱导液体向凝胶转变来辅助。
在一些实施例中,靶核酸为双链核酸。在这样的实施例中,一种方法还包含使固定的双链靶核酸在测试基板上变性为单链形式。在一些实施例中,为了进行测序,核酸必须呈单链形式,或者呈部分变性形式,或在利用链侵入或形成三链体的寡核苷酸探针物质时为双链。一旦固定的双链核酸变性,可以直接接近核酸的固定的第一链和固定的第二链就。天然双链体靶核苷酸的固定的第二链与固定的第一链互补。
在一些实施例中,靶核酸是单链(例如,mRNA、lncRNA微小RNA)。在靶核酸是单链RNA的一些实施例中,在进行测序方法之前不需要变性。
在一些实施例中,样品可包含没有非常接近的天然互补链的单链DNA多核苷酸。在对完整寡核苷酸探针物质组的每种寡核苷酸探针物质沿着靶核酸的结合部位进行编译的一些实施例中,通过根据它们的部位聚集所有序列位并将它们缝合在一起来组装序列。
拉伸RNA.
在一些实施例中,带电荷的表面上的核酸的拉伸受溶液阳离子浓度的影响。在低盐浓度下,单链且沿主链带有负电荷的RNA将沿其长度与表面随机结合。
有多种可能的方法使RNA变性并拉伸成线性形式。在一些实施例中,最初促使tRNA进入球状形式(例如,通过使用高盐浓度)。在一些这样的实施例中,每个RNA分子的末端(例如,特别是多聚A尾)变得更易于相互作用。在一些实施例中,一旦RNA以球状形式结合,则不同的缓冲液(例如,变性缓冲液)将流入流动池中。
在替代实施例中,用寡聚d(T)预涂布表面以捕获mRNA的多聚A尾(例如,如由Ozsolak等人,《细胞(Cell)》143:1018-1029,2010所描述的)。多聚A尾通常是应该相对没有二级结构的区域(例如,因为它们是均聚物)。由于在高等真核生物中多聚A尾相对较长(250-3000个核苷酸),所以在一些实施例中,长寡聚d(T)捕获探针被设计成使得杂交在相对较高的足以将RNA中的大部分分子内碱基配对解链的严格性(例如,高温和/或盐条件)下进行。在结合后,在一些实施例中,通过使用不足以从捕获探针脱离但可破坏RNA中的分子内碱基配对的变性条件并可能与流体流动或电泳力组合来实现RNA结构的其余部分从球状转变成线性状态。
框310.在一些实施例中,将固定的拉伸靶核酸暴露于寡核苷酸探针组中的相应寡核苷酸探针物质的相应池。寡核苷酸探针物质组中的每种寡核苷酸探针物质具有预定序列和长度,并且暴露在允许相应寡核苷酸探针物质的相应池中的各个探针与固定的核酸的与相应寡核苷酸探针物质互补的每个部分瞬时且可逆地结合的条件下发生,从而产生相应光学活性情况。
框312.在一些实施例中,在测量过程中测定在可利用二维成像器的暴露过程期间发生的每个相应光学活性情况在测试基板上的部位和任选地持续时间。
框314.在一些实施例中,对寡核苷酸探针物质组中的相应寡核苷酸探针物质重复暴露和测量过程,从而获得测试基板上的多组位置,测试基板上的每组相应位置的与寡核苷酸探针物质组中的寡核苷酸探针物质对应。
框316.在一些实施例中,通过对由多组位置表示的测试基板上的位置进行编译,由测试基板上的多组位置来确定靶核酸的至少一部分的序列。
RNA测序.
虽然RNA的长度通常比基因组DNA短,但使用现有技术从一端到另一端对RNA进行测序是一项挑战。然而,由于选择性剪接和基因同种型,确定mRNA的全序列组织是至关重要的。在一些实施例中,通过多聚A尾与固着的寡聚d(T)结合来捕获mRNA,并通过施加拉伸力(例如>400pN)和变性条件(例如,包含甲酰胺和或7M或8M尿素)来去除其二级结构,从而使其在表面上伸长。这允许结合寡核苷酸探针物质(例如,外显子特异性的)被瞬时结合。由于RNA的长度较短,因此采用如本文所述的单分子定位方法来分辨、区分和定位外显子是有益的。在一些实施例中,仅分散在整个mRNA中的几个结合事件就足以为特定mRNA同种型确定外显子在mRNA中的顺序和身份。
双链共有序列
用于从样品分子获得序列信息的方法如下:
i)提供具有第一发射最大波长标记的第一寡核苷酸探针物质。提供具有第二发射最大波长标记的第二寡核苷酸探针物质,其中第二寡核苷酸探针物质序列在序列上与第一寡核苷酸探针物质序列互补
ii)在基板上使天然双链靶核酸分子伸长、固定和变性
iii)将第一寡核苷酸和第二寡核苷酸均暴露于ii的变性核酸。同时建立包含光学活性情况的成像数据
iv)确定第一寡核苷酸探针物质和第二寡核苷酸探针物质的结合部位
v)在结合位置共定位的情况下,部位被认为是正确的
vi)沿着伸长的靶核酸的多个部位被结合。
在一些实施例中,寡核苷酸探针物质可瞬时且可逆地结合。在一些实施例中,第一寡核苷酸探针物质和第二寡核苷酸探针物质是给定长度的第一寡核苷酸探针物质和第二寡核苷酸探针物质的完整组的一部分,并对完整寡核苷酸探针物质组的每个第一寡核苷酸和第二寡核苷酸对重复步骤ii-iii,以对整个核酸进行测序。
在一些实施例中,需要进行许多校正,以确保两种发射最大波长在它们应该定位的地方在光学上共定位。这可包括在光学上或利用软件过程来校正色差。在一些这样的实施例中,两种互补寡核苷酸探针物质同时暴露,但为了防止它们彼此退火并因此而干扰同时与靶核酸的结合,使用修饰寡核苷酸化学,其中使用非自配对类似物碱基,其中修饰G不能与互补寡核苷酸中的修饰C配对,但可以与靶核酸上的未修饰C配对,并且修饰A不能与互补寡核苷酸探针物质中的修饰T配对,但可以与未修饰T配对。因此,在这样的实施例中,第一寡核苷酸探针物质和第二寡核苷酸探针物质被修饰成使得第一寡核苷酸探针物质不能与第二寡核苷酸探针物质形成碱基对,因此允许在无干扰下接近靶核酸,并允许对色差进行光谱校准,色差在视野内可能各不相同。在利用用于校准和去除色差的相同过程的一些实施例中,光谱和空间PSF变化可类似地校准和补偿。
在一些实施例中,不将第一寡核苷酸探针物质和第二寡核苷酸探针物质一起添加,而是依次添加。
在这样的实施例中,在寡核苷酸探针物质依次添加的情况下,在两者之间进行洗涤步骤;在这种情况下,用相同的发射最大波长标记互补寡核苷酸探针物质,并且不需要校正色差。此外,这两种寡核苷酸也不可能相互结合。
在一些实施例中,将靶核酸暴露于另外的第一寡核苷酸探针物质和第二寡核苷酸探针物质,直至寡核苷酸探针物质的整个组都已经暴露。
在一些实施例中,在第一寡核苷酸核苷酸探针物质之后,添加第二寡核苷酸探针物质作为下一种寡核苷酸探针物质,然后添加完整寡核苷酸探针物质组中的其它对的互补寡核苷酸探针物质。在一些实施例中,在添加完整寡核苷酸探针物质组的其它寡核苷酸探针物质之前,不添加第二寡核苷酸探针物质作为下一种寡核苷酸探针物质。
这样的实施例的实例包含一种如下用于从样品靶核酸分子获得序列信息的方法:
i)在基板上使双链靶核酸分子伸长、固定和变性
ii)将第一个标记的寡核苷酸暴露于i)的变性靶核酸,并检测和记录其寡核苷酸探针物质结合部位
iii)通过洗涤去除第一个标记的寡核苷酸探针物质
iv)将第二个标记的寡核苷酸探针物质暴露于i)的变性靶核酸,并检测和记录其寡核苷酸探针物质结合部位
v)任选地校正ii)与iv)的记录之间的漂移
vi)当在ii-iv中获得的记录的结合位置共定位时,由此获得的关于该部位的序列的序列信息被认为是正确的
在一些实施例中,第一寡核苷酸探针物质和第二寡核苷酸探针物质是完整寡核苷酸探针物质组的一部分,并对完整寡核苷酸探针物质组的每个第一寡核苷酸和第二寡核苷酸探针物质对重复步骤ii-iii,以对整个靶核酸进行测序。
共定位告诉我们,我们正在观察同一序列基因座。另外,靶向有义链的寡核苷酸探针物质可依靠使用4个差异标记的寡核苷酸来区分中心碱基,而靶向反义链的寡核苷酸探针物质可依靠使用4个具有与有义链的寡核苷酸探针物质互补的序列的差异标记的寡核苷酸探针物质来区分中心碱基。为了获得中心位置的有效碱基调用,有义链的数据应确证反义链的数据。因此,如果具有中心A碱基的寡核苷酸探针物质与有义链结合,那么具有中心T碱基的互补寡核苷酸探针物质应该与反义链结合。
在一些实施例中,获得这种有义链和反义链的确证或共有序列也有助于克服由G:T或G:U摆动碱基配对引起的不明确性。当这发生在有义链上时,其不太可能在反义链上产生信号,因为C:A不太可能形成碱基对。
在一些实施例中,可在寡核苷酸探针物质中使用修饰G碱基或T/U来防止摆动碱基对的形成。在一些其它实施例中,组装算法考虑了形成摆动碱基对的可能性,特别是当互补靶核酸链上没有对C:G碱基对的确证,并且部位与形成A:T碱基对的寡核苷酸探针物质与互补靶核酸链的结合相关时。在一些实施例中,具有仅形成两个氢键而不是3个氢键的能力的7-deazaguanisine用作G修饰,以降低其形成的碱基对的稳定性并减少G四链体和其极强(以及因此其混杂)结合的出现。
并行双链体共有序列组装.
在一些实施例中,双螺旋靶核酸的两条链都存在,并且在靶链之间非常接近时暴露于如上所述的寡核苷酸探针物质。在一些实施例中,可能无法从检测到的瞬时光信号中区分相应寡核苷酸探针物质组中每种寡核苷酸探针物质已结合两条互补链中的哪一条。例如,当对沿着靶核酸的相应寡核苷酸探针物质组的每种寡核苷酸探针物质沿着每条靶核酸链的结合部位进行编译时,似乎具有不同序列的两个探针已经与同一部位结合。这些寡核苷酸探针物质应该具有互补序列,然后困难就变成了确定两个寡核苷酸探针物质中的每一个结合哪条链,这是精确地对靶核酸的序列进行编译的先决条件。
在一些实施例中,为了确定单个寡核苷酸探针物质结合事件是针对第一条靶核酸链还是针对第二条靶核酸链,必须考虑一组完整的获得的光学活性数据。例如,如果寡核苷酸探针物质的两个覆瓦式系列覆盖了所讨论的地点,那么将基于产生信号的寡核苷酸探针物质序列与哪个系列重叠来分配信号属于两个覆瓦式系列中的哪一个。在一些实施例中,然后可以通过首先使用结合部位和序列重叠构建每个覆瓦式系列来组装序列。然后将两个覆瓦式系列作为反向互补序列进行对齐,并且只有当两条链的序列数据在那些部位中的每个部位处都是完全反向互补序列时,才接受每个部位的碱基分配(例如,从而提供双链体共有序列)。
在一些实施例中,测序错配被标记为不明确的碱基调用,其中两种可能性之一需要由另外的信息层(例如来自独立错配结合事件的信息层)确证。在一些实施例中,一旦获得了双链体共有序列,就通过比较来自覆盖基因组的相同区域的其它靶核酸的数据来确定常规(多分子)共有序列(例如,当来自多个细胞的结合位点信息可用时)。这种方法的一个问题是不同靶核酸含有单倍型序列的可能性。
或者,在一些实施例中,在获得各个链的共有序列的双链体共有序列之前获得各个链的共有序列。在这种实施例中,双链体靶核酸的每条链的序列是同时获得的。在一些实施例中,这无需另外的样品制备步骤即可完成,例如用分子条形码有差异地给双链体靶核酸的链加标签,这与当前的NGS方法(例如,如由Salk等人,《美国国家科学院院刊》109(36),2012所描述的)不同。
同时获得有义链和反义链的序列优于用于纳米孔测序的2D或1D2共有序列测序。这些替代方法需要在获得第二条链的序列之前获得双链体的一条链的序列。在一些实施例中,双链体共有序列测序可提供106范围内的准确度,例如一百万个碱基中一个误差(与其它NGS方法的102-103原始准确度相比)。这使得该方法与分辨罕见变体的需求高度兼容,这些罕见变体指示癌症病状(例如,如存在于游离DNA中的那些变体)或在肿瘤细胞群体中低频率存在。
单细胞分辨测序.
在各种实施例中,方法还可包含对单细胞的基因组进行测序。在一些实施例中,单细胞没有其它细胞的附着。在一些实施例中,单细胞以簇或组织的形式附着于其它细胞。在一些实施例中,这类细胞被解聚成单独的非附着的细胞。
在一些实施例中,使细胞解聚,然后将它们以流体方式转移(例如,通过使用移液管)到多核苷酸在其中被伸长的结构(例如,流动池或微孔)的入口。在一些实施例中,通过吸取细胞、施加蛋白酶、超声处理或物理搅动来进行解聚。在一些实施例中,在将细胞以流体方式转移到它们在其中被伸长的结构中之后使其解聚。
在一些实施例中,分离单细胞,并将靶核酸从单细胞中释放出来,使得源自同一细胞的所有靶核酸保持彼此靠近安置,并且位于与安置其它细胞的内容物的部位不同的部位。在一些实施例中,使用如由Di Carlo等人,《芯片实验室》6:1445-1449,2006描述的捕集结构。
在一些实施例中,可以使用捕获和分离多个单细胞的微流体体系结构(例如,在捕集器分开的情况下,例如图16A和16B所示的情况),或者使用捕获多个非分离的细胞的体系结构(例如,在捕集器连续的情况下)。在一些实施例中,捕集器是单细胞的尺寸(例如,2μM-10μM)。在一些实施例中,流动池的长度为数百微米至毫米,深度为约30微米。
在一些实施例中,例如,如图17所示,单细胞流入递送通道1702,被捕集1704,并且多核苷酸被释放,然后被伸长。在一些实施例中,细胞1602被溶解1706,然后细胞核通过第二溶解步骤1708被溶解,从而依次释放细胞外和细胞内多核苷酸1608。任选地,使用单个溶解步骤释放核外和核内多核苷酸。释放后,使多核苷酸1608沿着流动池2004的长度固着并伸长。在一些实施例中,捕集器是单细胞的尺寸(例如,2μM-10μM宽)。在一个实施例中,捕集器的尺寸为底部的宽度为4.3μM,中间深度为6μm,顶部的宽度为8μm,深度为33μm,并且该装置通过使用注塑成型由环烯烃(COC)制成。
在一些实施例中,在将多核苷酸在同一混合物中组合和测序之前,将单细胞溶解到单独的通道中,并且使每一个别的细胞经由转座酶介导的整合与独特的标签序列反应。在一些实施例中,将转座酶复合物转染到细胞中,或者以液滴形式融合到含有细胞的液滴中。
在一些实施例中,聚集体是细胞小簇,并且在一些实施例中,整个簇用相同的测序标签标记。在一些实施例中,细胞未聚集,而是自由漂浮的细胞,例如循环肿瘤细胞(CTC)或循环胎儿细胞。
在单细胞测序中,存在胞嘧啶至胸腺嘧啶的单核苷酸变体的问题,这是由细胞溶解后自发的胞嘧啶脱氨作用引起的。这通过在测序之前用尿嘧啶N-糖基化酶(UNG)预处理样品来解决(例如,如由Chen等人,《分子诊断与疗法(Mol Diagn Ther.)》18(5):587-593,2014所述的)
鉴定单倍型.
在各种实施例中,上述方法用于单倍型测序。单倍型测序包括使用本文所述的方法对跨越二倍体基因组的单倍型的第一靶核酸进行测序。还必须对跨越二倍体基因组的第二单倍型区域的第二靶核酸进行测序。第一靶核酸和第二靶核酸将来自同源染色体的不同拷贝。比较第一靶多核苷酸与第二靶多核苷酸的序列,从而确定第一靶核酸和第二靶核酸上的单倍型。
因此,从实施例中获得的单分子读段和组合件被归类为单倍型特异性的。不一定容易在长程内获得单倍型特异性信息的唯一情况是当组装间歇进行时。在这种实施例中,尽管如此,仍提供了读段的部位。即使在这种情况下,如果分析多个覆盖基因组的相同区段的多个多核苷酸,则单倍型也是通过计算确定的。
在一些实施例中,根据单倍型或亲代染色体特异性分离同源分子。通过本公开的方法获得的信息的视觉性质实际在物理上或视觉上能够显示特定的单倍型。在一些实施例中,单倍型的分辨使得能够进行改进的遗传或祖先研究。在其它实施例中,单倍型的分辨使得能够进行更好的组织分型。在一些实施例中,单倍型的分辨或特定单倍型的检测使得能够进行诊断。
同时对来自多个细胞的多核苷酸进行测序.
在各种实施例中,上述方法用于对来自多个细胞(或细胞核)的多核苷酸进行测序,其中每个多核苷酸保留其来源细胞的信息。
在某些实施例中,转座子介导的序列插入是在细胞内介导的,并且每次插入都包含独特的ID序列标签作为来源细胞的标记。在其它实施例中,转座子介导的插入发生在已经分离出单细胞的容器内,这类容器包含琼脂糖珠粒、油-水滴等。独特的标签指示所有带有该标签的多核苷酸一定源自同一细胞。然后提取所有的DNA和或RNA,使之混合,并伸长。然后,当对靶核酸进行根据如本文所述的实施例的测序(或任何其它测序方法)时,ID序列标签的读取指示靶核酸源自哪个细胞。在一些实施例中,鉴定细胞的标签是短的。对于10,000个细胞(例如,来自肿瘤显微活检),长度为八个核苷酸的标识符序列提供约65,000个独特的序列,长度为十个核苷酸的标识符序列提供约一百万个独特的序列。
在一些实施例中,用身份(ID)标签标记各个细胞。如图19所示,在一些实施例中,通过片段化的同时添加标签将身份标签整合到多核苷酸中,为此将试剂直接提供给单细胞或以与细胞1802融合或吞噬细胞1802的微滴形式提供。每个细胞接收不同的ID标签(来自大的大,例如,超过一百万个可能的标签)。在微滴和细胞融合1804之后,将ID标签整合到各个细胞内的多核苷酸中。将各个细胞的内容物在流动池2004内混合。然后测序(例如,通过本文公开的方法)特定靶核酸源自哪个细胞。在替代实施例中,微滴吞噬细胞并将加标签试剂递送至细胞(例如,通过扩散至细胞中或将细胞内容物迸发至微滴中)。
当目标是混合样品,将它们一起进行测序,但是恢复属于每一个别样品的序列信息时,将这个相同的索引原则应用于除细胞外的样品(例如,来自不同个体)。
另外,当对多个细胞测序时,可以确定细胞群体中的单倍型多样性和频率。在一些实施例中,分析群体中基因组的异质性,而不需要将单细胞的内容物保持在一起,因为如果分子足够长,就可以确定细胞群体中存在的不同染色体、长染色体区段或单倍型。尽管这并不表明细胞中同时存在哪两种单倍型,但其确实报告了基因组结构类型(或单倍型)的多样性和其频率,以及存在哪种异常的结构变体。
在一些实施例中,当靶核酸是RNA并且对cDNA拷贝进行测序时,标签的添加包含利用含有标签序列的引物进行的cDNA合成。在对RNA直接测序的情况下,通过使用T4 RNA连接酶将标签连接到3'RNA末端来添加标签。产生标签的替代方法是用末端转移酶,利用A、C、G和T四种碱基中的超过一种核苷酸延伸RNA或DNA,使得每一个别多核苷酸随机地获得加在其尾上的核苷酸的独特序列。
在一些实施例中,为了保持一定量的标签序列保持较短,使得更多的序列读段专用于对多核苷酸序列本身进行测序,使标签序列分布在许多位点上。这里,将多个短标识符序列,比如三个,引入每个细胞或容器中。然后,从沿着多核苷酸分布的标签位确定多核苷酸的来源。因此,在这种情况下,从一个部位读取的标签位不足以确定来源细胞,但多个标签位足以来确定。
结构变体的检测.
在一些实施例中,检测的序列与参考基因组之间的差异包含取代、插入缺失和结构变异。具体来说,当未通过本公开的方法组装参考序列时,压缩重复序列,并且组装将解压缩重复序列。
在一些实施例中,沿着多核苷酸的一系列序列读段的取向将报告是否发生了倒位事件。与参考相比,一个或多个读段的取向与其它读段相反,表明倒位。
在一些实施例中,与参考相比,在附近存在着在其它读段的背景下未预期到的一个或多个读段指示重排或易位。参考中读段的部位指示基因组的哪一部分已经移到另一部分。在一些情况下,在新部位的读段是复制而不是易位。
在一些实施例中,还可以检测重复区或拷贝数变异。观察到携带旁系同源变异的读段或相关读段的重复出现是在基因组中多个部位处出现的多个或非常相似的读段。在一些情况下,这多个部位紧密地挤在一起(例如,如在卫星DNA中),或者在其它情况下,它们分散在整个基因组中(例如,如在假基因中)。本公开的方法适用于短串联重复序列(STRS)、可变数目串联重复序列(VNTR)、三核苷酸重复序列等。特定读段的缺失或重复表明分别发生了缺失或扩增。在一些实施例中,如本文所述的方法特别适用于多核苷酸中存在多个和/或复杂重排的情况。因为如本文所述的方法基于分析单多核苷酸,所以在一些实施例中,对上述结构变体分辨到少数细胞(例如,仅1%的来自群体的细胞)中的罕见发生事件。
类似地,在一些实施例中,区段复制或复制子被正确地定位在基因组中。区段复制子通常是具有几乎相同序列的DNA序列中的长区域(例如,长度大于1千碱基)。这些区段复制导致各个基因组的许多结构变异,包括体细胞突变。区段复制子可能存在于基因组的远端部分。在当前的下一代测序中,很难确定读段来源于哪个区段复制子(从而使组装复杂化)。在本公开的一些实施例中,在长分子(例如,0.1-10兆碱基的长度范围)上获得序列读段,并且通常可以通过使用读段确定基因组的哪些区段在对应于复制子的基因组的特定区段的侧面来确定复制子的基因组背景。
在本公开的一些实施例中,结构变体的断点被精确地定位。在一些实施例中,可以检测到基因组的两个部分已经融合,并且精确的确定发生断点的单独读段。如本文所述收集的序列读段包含两个融合区域的嵌合体,断点一侧的所有序列将对应于融合区段的一个区段,而另一侧为融合区段的另一个区段。这在确定断点方面给予高置信度,即使在断点周围的结构很复杂的情况下也是如此。在一些实施例中,精确的染色体断点信息用于了解疾病机制、检测特定易位的发生或诊断疾病。
表观基因组修饰的定位.
在一些实施例中,方法还包含将天然双链体靶核酸的固定的双链靶核酸或固定的第一链和固定的第二链暴露于抗体、亲和体、纳米抗体、适体或甲基结合蛋白,从而从测试基板上的多组位置确定对核酸的修饰或与核酸的一部分的序列相关联。一些抗体与双链或单链结合。预计甲基结合蛋白将结合双链多核苷酸,如它们在染色质中那样。
在一些实施例中,天然多核苷酸在它们被展示用于测序之前不需要处理。这使得所述方法能够将表观基因组信息与序列信息结合起来,因为DNA的化学修饰将保持不变。在一些实施例中,多核苷酸在方向上良好地对齐,因此相对容易成像、图像处理、碱基调用和组装;序列误差率低,并且覆盖度高。描述了用于实施本公开的多个实施例,但每个实施例都是为了完全或几乎完全消除样品制备的负担进行的。
因为这些方法是在没有扩增的情况下对基因组DNA进行的,所以在一些实施例中,它们不会遭受扩增偏差和误差,并且表观基因组标志物被保留并被检测到(例如,与序列的获取正交)。在一些情况下,以序列特异性方式确定核酸是否被甲基化是有用的。例如,区别胎儿与母体DNA的一种方式是,前者在所关注基因座中被甲基化。这对于无创产前检测(NIPT)是有用的。
多种类型的甲基化是可能的,例如碳-5(C5)的烷基化,它在哺乳动物中产生几种胞嘧啶变体,C5-甲基胞嘧啶(5-mC)、C5-羟甲基胞嘧啶(5-hmC)、C5-甲酰胞嘧啶和C5-羧基胞嘧啶。真核生物和原核生物也将腺嘌呤甲基化为N6-甲基腺嘌呤(6-mA)。在原核生物中,N4-甲基胞嘧啶也很普遍。
抗体是可获得的或针对这些修饰中的每一种修饰以及被认作是所关注的任何其它修饰而产生的。靶向修饰的亲和体、纳米抗体或适体由于可能具有较小的足迹而特别相关。本发明中对抗体的任何提及都应被解释为包括亲和体、纳米抗体、适体和任何类似的试剂。另外,在一些实施例中使用其它天然存在的DNA结合蛋白,例如甲基蛋白(MBD1、MBD2等)。
在一些实施例中,将甲基化分析与测序正交进行。在一些实施例中,这在测序之前进行。例如,在一些实施例中,抗甲基C抗体或甲基结合蛋白(甲基结合结构域(MBD)蛋白家族包含MeCP2、MBD1、MBD2和MBD4)或肽(基于MBD1)与多核苷酸结合,并且在将它们去除(例如,通过添加高盐缓冲液、chaotrophic试剂、SDS、蛋白酶、尿素和/或肝素)之前经由标记检测它们的部位。在一些实施例中,由于使用促进结合-解离的瞬时结合缓冲液,因此试剂可瞬时结合,或者试剂被工程化成瞬时结合。使用类似的方法进行其它多核苷酸修饰,例如羟甲基化或DNA损伤位点,可获得或产生针对所述修饰的抗体。检测到修饰的部位并去除修饰结合试剂后,开始测序。在一些实施例中,在使靶多核苷酸变性成单链后,添加抗甲基抗体和抗羟甲基抗体等。所述方法高度灵敏,能够检测长多核苷酸上的单个修饰。
图19示出了从单个细胞提取DNA和RNA和对DNA和RNA的拉伸,以及对DNA和RNA的差异标记(例如,分别用针对mC和m6A的抗体)。将细胞1602固着在表面上,然后溶解1902。将通过溶解从细胞核1604释放的核酸1608固着和伸长1904。然后将核酸暴露于具有附加的DNA标签1910和1912的抗体并与之结合。在一些实施例中,标签是荧光染料或用于基于DNAPAINT的单分子定位的寡核苷酸停泊序列。在一些实施例中,代替使用标签和DNA PAINT,用单个荧光标记或多个荧光标记直接荧光标记抗体或其它结合蛋白。在抗体被编码的情况下,标记的一个实例如图14A、14C和14D所示。在一些实施例中,将DNA和RNA的表观遗传修饰分析与使用本文所述的测序方法的其序列联合。
在一些实施例中,除了通过结合蛋白检测甲基化以外,还通过当靶核酸位点中存在修饰时与不存在修饰时相比的差异寡核苷酸结合行为来检测结合位点中甲基化的存在。
在一些实施例中,使用亚硫酸氢盐处理来检测甲基化。这里,在运行完整寡核苷酸探针物质组后,使用亚硫酸氢盐处理将未甲基化的胞嘧啶转化为尿嘧啶,然后再次应用完整寡核苷酸探针组。当亚硫酸氢盐处理前的核苷酸位置被读取为C,在亚硫酸氢盐处理后被读取为U时,可以认为它是未甲基化的。
没有DNA修饰如甲基化的参考表观基因组。为了有用,需要将未知多核苷酸的甲基化图谱与基于序列的图谱联系起来。因此,在一些实施例中,使表观遗传映射法(epi-mapping method)与通过寡核苷酸结合获得的序列位相关联,以便为表观遗传图谱提供背景。在一些实施例中,除了序列读段以外,还联合其它种类的甲基化信息。作为非限制性实例,这包括基于切刻核酸内切酶的图谱、基于寡核苷酸探针物质结合的图谱以及变性和变性-复性图谱。在一些实施例中,使用一种或多种寡核苷酸探针物质的瞬时结合来映射多核苷酸。除了对基因组的功能修饰以外,在一些实施例中,还将相同的方法应用于映射到基因组上的其它特征,例如DNA损伤位点以及蛋白质或配体结合位点。
在本公开中,首先进行碱基测序或表观基因组测序。在一些实施例中,两者同时进行。举例来说,在一些实施例中,针对特定表观遗传修饰的抗体是从寡核苷酸进行差异编码而成的。在这样的实施例中,使用促进两种类型探针的瞬时结合的条件(例如,低盐浓度)。
在一些实施例中,当多核苷酸包含染色体或染色质时,对染色体或染色质使用抗体来检测DNA上的修饰以及组蛋白上的修饰(例如,组蛋白乙酰化和甲基化)。这些修饰的部位由抗体与染色体或染色质上的部位的瞬时结合来确定。在一些实施例中,抗体用寡核苷酸标签标记,并且不瞬时结合,而是永久性或半永久性固定到它们的结合位点。在这样的实施例中,抗体将包括寡核苷酸标签,并且这些抗体结合位点的部位通过使用互补寡核苷酸与抗体标签上的寡核苷酸的瞬时结合来检测。
游离核酸的分离和分析.
用于诊断学的一些最容易获得的DNA或RNA存在于体液或粪便中的细胞外部。这类核酸经常被体内的细胞释放出来。血液中循环的游离DNA用于21三体综合征和其它染色体和基因组病症的产前检测。它也是检测肿瘤来源的DNA和作为某些病理学病状的标志物的其它DNA或RNA的手段。然而,分子通常呈小的区段(例如,在血液中在约200个碱基对的长度范围内,在尿液中甚至更短)存在。基因组区域的拷贝数是通过与基因组的其它部分,比较与参考的特定区域对齐的读段的数目来确定的。
在一些实施例中,通过两种方法将本公开的方法应用于游离DNA序列的计数或分析。第一种方法涉及在变性之前或之后固着短核酸。使用瞬时结合试剂来询问核酸,以确定核酸的身份、其拷贝数、是否存在突变或某些SNP等位基因,以及检测到的序列是否被甲基化或带有其它修饰(生物标志物)。
第二种方法涉及串接小的核酸片段(例如,在从生物样品中分离出游离核酸之后。串接使得能够拉伸组合的核酸。通过抛光DNA末端并进行平端连接来完成串接。或者,将血液或游离DNA分成两份等分试样,一个等分试样用多聚A(使用末端转移酶)加尾,另一等分试样用多聚T加尾。
然后对所得到的多联体进行测序。然后将所得到的“超级”序列读段与参考进行比较,以提取各个读段。对各个读段以计算方法进行提取,然后以与其它短读段相同的方式进行处理。
在一些实施例中,生物样品包含粪便,它是含有大量降解核酸的核酸外切酶的介质。在这样的实施例中,采用核酸外切酶发挥功能所需的高浓度的二价阳离子螯合剂(例如,EDTA)来保持DNA足够完整并能够进行测序。在一些实施例中,游离核酸经由包裹在外来体中从细胞中脱落。通过超速离心或使用旋转柱(Qiagen)来分离外来体,并收集其中所含的DNA或RNA并进行测序。
在一些实施例中,根据上述方法,从游离核酸获得甲基化信息。
组合测序技术.
在一些实施例中,将本文所述的方法与其它测序技术组合。在一些实施例中,在通过瞬时结合进行测序之后,通过第二方法在相同分子上开始测序。举例来说,结合更长更稳定的寡核苷酸以起始合成测序。在一些实施例中,所述方法并不是完整基因组测序,而是用于为短读段测序,例如来自Illumina的短读段测序提供支架。在这种情况下,宜通过排除PCR扩增步骤以获得更均匀的基因组覆盖度来进行Illumina文库制备。这些实施例中的一些的一个有利方面是,例如,所需测序的覆盖度倍数从约40倍减半至20倍。在一些实施例中,这是由于添加了通过所述方法进行的测序和本文所述的方法提供的部位信息。在一些实施例中,可在部分或整个测序过程中在利用短测序寡核苷酸前或与之同时(优选地差异标记),将任选地光学标记的更长更稳定的寡核苷酸与靶结合以标记出基因组中的特定所关注区域(例如,BRCA1基因座)。
机器学习方法.
在一些实施例中,当对已知序列的聚合物(例如,多核苷酸)进行测试时和/或当多核苷酸的序列与来自另一种方法的数据交叉验证时,使用人工智能或机器学习来学习完整寡核苷酸探针物质组的成员的行为。在一些实施例中,学习算法考虑特定寡核苷酸探针物质在一种或多种条件或背景下针对一个或多个含有寡核苷酸探针物质的结合位点的多核苷酸靶的全部行为。随着对相同或不同样品进行更多测序,来自机器学习的知识变得越来越全面。除了基于瞬时结合的突现测序以外,从机器学习中获得的知识还可应用于各种其它测定法,尤其是涉及寡核苷酸与寡核苷酸/多核苷酸的相互作用的那些测定(例如,杂交测序)。
在一些实施例中,通过提供实验获得的关于完整短寡核苷酸(例如,3聚体、4聚体、5聚体或6聚体)组与一个或多个序列已知的多核苷酸的结合的结合模式的数据来训练人工智能或机器学习。每个寡核苷酸的训练数据包含结合部位、结合持续时间和给定时期内结合事件的数目。在这种训练之后,将机器学习算法应用于待确定序列的多核苷酸,并且基于其学习,可以组装多核苷酸的序列。在一些实施例中,还向机器学习算法提供参考序列。
在一些实施例中,序列组装算法包含机器学习要素和非机器学习要素。
在一些实施例中,代替计算机算法从实验获得的结合模式中学习,经由模拟来获得结合模式。举例来说,在一些实施例中,模拟完整寡核苷酸探针物质组的寡核苷酸探针物质与序列已知的多核苷酸的瞬时结合。模拟基于从实验或公开数据中获得的每种寡核苷酸探针物质序列的行为模型。举例来说,结合稳定性的预测可根据最近邻法(例如,如SantaLucia等人,《生物化学(Biochemistry)》35,3555-3562(1996)和Breslauer等人,《美国国家科学院院刊》83:3746-3750,1986中所描述的)获得。在一些实施例中,错配行为是已知的(例如,G与A的错配结合可以是和T与A一样强或比其强的相互作用)或实验推导的。另外,在一些实施例中,已知寡核苷酸的一些短子序列(例如,GGA或ACC)具有异常高的结合强度。在一些实施例中,在模拟数据上训练机器学习算法,然后当通过完整短寡核苷酸组询问未知序列时,将所述机器学习算法用于确定序列未知的序列。
在一些实施例中,将完整寡核苷酸探针物质组或小组的寡核苷酸的数据(部位、结合持续时间、信号强度等)插入机器学习算法,所述机器学习算法已经在一个或数十个或数百个或数千个已知序列上训练过。然后应用机器学习算法从所讨论的序列生成数据集,并且机器学习算法生成所讨论的序列未知的序列。用于具有相对较小或不太复杂的基因组的生物体(例如,对于细菌、噬菌体等)测序的算法的训练应该在这种类型的生物体上进行。对于具有较大或较复杂的基因组的生物体(例如,粟酒裂殖酵母或人),尤其是具有重复DNA区域的那些生物,训练应在这种类型的生物体上进行。对于兆碱基片段至全染色体长度的长程组装,在一些实施例中,训练在类似的生物体上进行,使得在训练期间呈现基因组的特定方面。例如,人类基因组是二倍体,并显示出具有区段复制的大序列区域。其它所关注的基因组,特别是许多农业上重要的植物物种具有高度复杂的基因组。例如,小麦和其它谷物具有高多倍体的基因组。
在一些实施例中,基于机器学习的序列组装方法包含:(a)提供从一个或多个训练数据集收集的关于完整寡核苷酸探针物质组中的每种寡核苷酸探针物质的结合行为的信息,以及(b)提供完整寡核苷酸探针物质组的每种寡核苷酸探针物质与序列待确定的靶核酸的物理结合,以及(c)提供关于每种寡核苷酸探针物质的结合部位和/或结合持续时间和/或在每个部位发生结合的次数的信息(例如,结合重复的持久性)。
在一些实施例中,特定实验的序列首先由非机器学习算法处理。然后,使用第一算法的输出序列来训练机器学习算法,使得训练发生在完全相同的分子的实际实验推导序列上。在一些实施例中,序列组装算法包含贝叶斯方法(Bayesian approach)。在一些实施例中,将从本公开的方法获得的数据提供给WO2010075570中描述的类型的算法,并且任选地将其与其它类型的基因组或测序数据组合。
在一些实施例中,以多种方式从数据中提取序列。从序列组装方法的一方面说,单体或一串单体的定位是如此精确(纳米级或亚纳米级),以至于仅通过对单体或串进行排序就可以获得序列。从另一方面说,将数据用来排除关于序列的各种假设。例如,一个假设是该序列对应于已知的个别基因组序列。算法确定了数据在何处从个别基因组发散。在另一种情况下,假设是该序列对应于“正常”体细胞的已知基因组序列。算法确定了来自假定的肿瘤细胞的数据在何处从“正常”体细胞的序列发散。
在本公开的一个实施例中,使用包含一种或多种已知靶核酸(例如,λ噬菌体DNA或包含超序列的合成构建体,所述超序列包含完整寡核苷酸探针物质组中的每种寡核苷酸探针物质的互补序列)的训练集来测试来自完整寡核苷酸探针物质组的每种寡核苷酸探针物质的重复结合。在一些实施例中,使用机器学习算法来确定寡核苷酸探针物质的结合和错配特征。因此,与直觉相反,错配结合被视为是提供进一步数据的方式,所述数据用于组装序列和/或增加序列的置信度。
测序仪器和装置.
测序方法具有共同的仪器要求。基本上,仪器必须能够成像和更换试剂。成像要求包括下组一项或多项:物镜、中继透镜、分束器、反射镜、滤光器和相机或点检测器。相机或成像器包括CCD、阵列CMOS或雪崩光电二极管阵列检测器。点检测器包括光电倍增管(PMT)或雪崩光电二极管(APD)。在一些情况下,使用高速相机。其它任选方面根据方法的格式进行调整。举例来说,照明源(例如,灯、LED或激光器)、照明与基板的耦合(例如,棱镜、波导、光子纳米结构、光栅、溶胶-凝胶、透镜、可平移台或可平移物镜)、用于相对于成像器移动样品的机构、样品混合/搅动、温度控制和电控制可针对本文公开的不同实施例各自独立地进行调整。
对于单分子实施方案,照明可利用渐逝波,经由例如基于棱镜的全内反射、基于物镜的全内反射、等离子体波导、基于光栅的波导、基于水凝胶的波导或通过以合适的角度将激光引入基板边缘而产生的渐逝波导。一些实施例中,波导包括芯层和第一包覆层。照明可替代地包含HILO照明或光片。在一些单分子仪器中,通过使用脉冲照明和时间门控检测的同步来减轻光散射的影响;此处的光散射被屏蔽。在一些实施例中,使用暗场照明。一些仪器被设置用于测量荧光寿命。
在一些实施例中,仪器还含有用于从细胞、细胞核、细胞器、染色体等提取多核苷酸的装置。
适用于大多数实施例的一种仪器是Illumina的基因组分析仪IIx。此仪器包含基于棱镜的TIR、20倍干物镜、光扰频器、532nm和660nm激光器、基于红外激光器的聚焦系统、发射滤光轮、Photometrix CoolSnap CCD相机、温度控制和用于试剂更换的基于注射泵的系统。在一些实施例中,用替代的相机组合对该仪器进行改进能够实现更好的单分子测序。例如,传感器具有低电子噪声,<2e。此外,传感器具有大量像素。在一些实施例中,基于注射泵的试剂更换系统被基于压力驱动流的试剂更换系统替换。在一些实施例中,将该系统与兼容的Illumina流动池或适合于配合仪器实际或改进的管件的定制流动池一起使用。
或者,使用与激光床(激光器取决于标记的选择)或来自基因组分析仪的激光系统和光扰频器、EM CCD相机(例如,Hamamatsu ImageEM)或科学CMOS(例如,Hamamatsu OrcaFLASH)和任选的温度控制耦合的电动Nikon Ti-E显微镜。在一些实施例中,使用用户传感器而不是科学传感器。这有可能大幅降低测序成本。这与压力驱动或注射泵系统和专门设计的流动池相结合。在一些实施例中,流动池由玻璃或塑料制成,各有优缺点。在一些实施例中,流动池使用环烯烃共聚物(COC),例如TOPAS、其它塑料或PDMS制造,或者使用微制造方法使用芯片(in silicon)或玻璃制造。在一些实施例中,热塑性塑料的注塑成型为工业规模制造提供了低成本的途径。在一些光学配置中,热塑性塑料需要具有良好的光学性能,且固有荧光最小。理想地,应排除含有芳香族或共轭系统的聚合物,因为预期它们具有显著的固有荧光。已经报告Zeonor 1060R、Topas 5013和PMMA-VSUVT(例如,如美国专利第8,057,852号中所述)在绿色和红色波长范围内(例如,对于Cy3和Cy5)具有合理的光学性质,其中Zeonar 1060R具有最有利的性质。在一些实施例中,有可能在微流体装置中大面积粘合热塑性塑料(例如,如由Sun等人,《微流体学与纳米流体学(Microfluidics andNanofluidics)》,19(4),913-922,2015报告的)。在一些实施例中,将上面附着有生物聚合物的玻璃盖玻片粘合到热塑性流体体系结构上。
或者,在显微镜顶部使用手动操作的流动池。在一些实施例中,这是通过使用双面粘性片制成流动池、进行激光切割以具有适当尺寸的通道并将其夹在盖玻片与载玻片之间来构建的。从一个试剂更换循环到另一个试剂更换循环,流动池可以保留在仪器/显微镜上,以便逐帧进行配准。在一些实施例中,使用具有线性编码器的电动平台来确保在大面积成像期间何时平移平台。相同的部位被正确地重访。使用基准标志物来确保正确的配准。在一些实施例中,在流动池内提供可被光学检测的基准标志物,例如流动池中的蚀刻或表面固着珠粒。如果多核苷酸主链被染色(例如,被YOYO-1染色),则使用这些固定的已知位置将图像从一帧到下一帧对齐。
在一个实施例中,将使用激光或LED照明的照明机构(例如,例如美国专利第7,175,811号中和Ramachandran等人,《科学报告(Scientific Reports)》3:2133,2013描述的照明机构)与任选的加热机构和试剂更换系统耦合,以执行本文所述的方法。在一些实施例中,将基于智能手机的成像装置(《美国化学学会·纳米》7:9147)与任选的温度控制模块和试剂更换系统耦合。在这样的实施例中,主要使用电话上的相机,但也可以使用其它方面,例如iPhone或其它智能手机装置的照明和振动能力。
图20A和20B示出了使用流动池2004和集成光学布局执行如本文所述的瞬时探针结合的成像的可能装置。试剂呈由气隙2022分开的试剂/缓冲剂2008的包装来递送。图20A示出了示例布局,其中经由耦合激光2014产生渐逝波2010,激光透射通过棱镜2016(例如,TIRF设置)。在一些实施例中,反应的温度由集成热控制器2012控制(例如,在一个实例中,透明基板2024包含电耦合的氧化铟锡,从而改变整个基板2024的温度)。试剂作为试剂/缓冲液2008的连续流递送。光栅、波导2020或光子结构用于耦合激光2014,以建立渐逝场2010。在一些实施例中,热控制来自覆盖该空间的块2026。
图20A中描述的布局的方面可以与图20B中描述的布局的方面互换。例如,可替代地使用物镜式TIRF、光导TIRF、聚光器TIRF。在一些实施例中,连续或带有空气间隙的试剂递送由注射泵或压力驱动流控制。气隙法允许所有试剂2008预装载在毛细管/管道2102(例如,如图21所示)或通道中,并通过注射泵或压力控制系统的推动或拉动来递送。气隙法允许将所有试剂预装载在毛细管/管道或通道中,并通过注射泵或压力控制系统的推动或拉动来递送。气隙2022包含空气或气体(例如氮气)或与水溶液不混溶的液体。气隙2022还可用于进行分子梳以及试剂递送。流体装置(例如,流体容器、套筒或芯片)包含进行多核苷酸固着和任选地伸长的流动池区域、试剂存储、入口、出口和多核苷酸提取以及用于塑造渐逝场形状的任选结构。在一些实施例中,装置由玻璃、塑料或玻璃和塑料的混合物制成。在一些实施例中,导热和导电元件(例如,金属的)被集成到玻璃和/或塑料组件中。在一些实施例中,流体容器是小孔。在一些实施例中,流体容器是流动池。在一些实施例中,表面涂有一个或多个化学层、生化层(例如,BSA-生物素、链霉亲和素)、脂质层、水凝胶或凝胶层。然后在乙烯基硅烷(BioTechniques 45:649-658,2008或可自Genomic Vision获得)中涂布22×22mm盖玻片或用氯苯溶液中的1.5%Zeonex旋涂盖玻片。基板也可用2%3-氨基丙基三乙氧基硅烷(APTES)或多聚赖氨酸涂布,并在HEPES缓冲液中,在pH 7.5-8下经由静电相互作用进行拉伸。或者,将硅烷化的盖玻片在含双丙烯酰胺和temed的1-8%聚丙烯酰胺溶液中进行旋涂或浸涂。为此,除了使用涂有乙烯基硅烷的盖玻片之外,可用丙酮中10%的3-甲基丙烯酰氧基丙基三甲氧基硅烷(亲和硅烷;pharmaciabiotech)(v/v)涂布海湾玻片1小时。聚丙烯酰胺涂层也可以如所述(Liu Q等人《生物大分子(Biomacromolecules)》,2012,13(4),第1086-1092页)获得。在Mateescu等人《膜(Membranes)》2012,2,40-69中描述和提及许多可使用的水凝胶涂层。
通过施加交流(AC)电场,也可在琼脂糖凝胶中伸长靶核酸。DNA分子可电泳到凝胶中,或者可将DNA与熔融的琼脂糖混合,然后与琼脂糖一起凝固。然后施加频率为约10Hz的AC场,并使用200至400V/cm的场强。拉伸可以在0.5-3%的琼脂糖凝胶浓度范围内进行。在一些情况下,在流动通道或小孔中表面涂有BSA-生物素,然后添加链霉亲和素或中性亲和素。通过首先在pH 7.5的缓冲液中结合DNA,然后在pH 8.5的缓冲液中拉伸DNA,可使用涂布的盖玻片来拉伸双链基因组DNA。在一些情况下,使用涂有链霉亲和素的盖玻片来捕获和固着核酸链,但不进行拉伸。因此,核酸一端附着,而另一端在溶液中悬空。
在一些实施例中,不是使用光学测序系统的各种显微镜样组件,例如GAIIx,而是构建更集成的单片装置用于测序。在这样的实施例中,将多核苷酸附着在传感器阵列上或与传感器阵列相邻的基板上,并任选地在其上直接伸长。已经针对与阵列的DNA杂交证实在传感器阵列上的直接检测(例如,如由Lamture等人,《核酸研究(Nucleic Acid Research)》22:2121-2125,1994所描述的)。在一些实施例中,对传感器进行时间门控,以减少由瑞利散射(Rayleigh scattering)引起的背景荧光,与荧光染料的发射相比,由瑞利散射引起的背景荧光的寿命较短。
在一个实施例中,传感器是CMOS检测器。在一些实施例中,检测多个发射最大波长(例如,如美国专利申请第2009/0194799号中所述的)。在一些实施例中,检测器是Foveon检测器(例如,如美国专利第6,727,521号中所述的)。在一些实施例中,传感器阵列是三结二极管阵列(例如,如美国专利第9,105,537号中所述的)。
在一些实施例中,将试剂/缓冲液以单剂量(例如,经由泡罩包装)递送至流动池。包装中的每个泡罩含有与寡核苷酸的寡核苷酸探针物质组不同的寡核苷酸探针物质。寡核苷酸探针物质之间没有任何混合或污染下,将第一个泡罩刺穿,使靶核酸暴露于其内含物。在一些实施例中,在移动到系列中的下一个泡罩之前施加洗涤步骤。这用于物理上分离不同组的寡核苷酸探针物质,从而降低背景噪声,其中来自前一组的寡核苷酸探针物质保留在成像视野中。
在一些实施例中,测序在其中安置细胞和/或提取多核苷酸的同一装置或单片结构中进行。在一些实施例中,在分析开始之前,将进行该方法所需的所有试剂都预装载在流体装置上。在一些实施例中,试剂(例如,探针)以干燥状态处于和存在于装置中,并且在反应进行之前将其润湿和溶解。
另外的实施例
在一个广泛的方面,本发明为一种通过分析原生事件的库来获得随附信息的方法。
在一个广泛的方面,本发明的范围包含通过将分子探针与多单元分子的一个或多个单元结合来鉴定所述分子的至少一个单元的方法。本发明基于对分子探针的一种或多种物质与所述分子的单分子相互作用的检测。在一些实施例中,探针与分子的至少一个单元瞬时结合。在一些实施例中,探针与分子的至少一个单元反复结合。在一些实施例中,分子实体以纳米级准确度定位在表面或基质上(通常<250nm、优选地<50nm、更优选地<2nm)。
在一些实施例中,本发明包含一种表征一个或多个探针与分子之间的相互作用的方法,所述方法包含:
在探针可与分子瞬时结合的条件下将一种或多种探针物质添加至分子中
在一段时间内在检测器上连续监测分子上的各个结合事件并记录
分析来自步骤b的数据以确定相互作用的一个或多个特性
任选地,在步骤a之前将分子固着在表面或基质上。在一些实施例中,c的检测器是2D或检测器,并且例如使用单分子定位算法,表面或基质上的结合事件定位到纳米级准确度。在一些实施例中,特征是每个事件的持续时间,其对应于探针与分子的亲和力。在一些实施例中,特征是表面或基质上的部位。
在一些实施例中,本发明包含鉴定或表征非均相大分子中的化学结构单元的方法,其包含结合多个探针,以鉴定大分子中的多个位点处的化学结构,所述方法包含:
a)在探针可与大分子结合的条件下将一种或多种探针物质添加至大分子中;
b)在一段时间内在检测器上连续监测大分子上的结合事件并记录;以及
c)分析来自步骤b的数据以鉴定大分子中的多个位点处的化学结构。
任选地,在步骤a之前将大分子固着在表面或基质上。在一些实施例中,大分子包含超分子结构。在一些实施例中,一个或多个探针中的每一个探针与大分子瞬时结合。在一些实施例中,多个探针中的每个探针与聚合物反复结合。
在一些实施例中,分子实体是包含至少5个单元的聚合物。在一些实施例中,结合探针是包含寡核苷酸、抗体、结合蛋白小分子等的分子探针。通常,聚合物包含多核苷酸或多肽。
在一些实施例中,本发明包含鉴定或表征非均相聚合物中的化学结构单元的方法,其包含结合多个探针,以鉴定沿着聚合物的多个位点处的化学结构,所述方法包含:
a)在探针可与聚合物结合的条件下将一种或多种探针物质添加至聚合物中;
b)在一段时间内在检测器上连续监测聚合物的结合事件并记录;以及
c)分析来自步骤b的数据以鉴定沿着聚合物的多个位点处的化学结构。
在一些实施例中,在步骤a之前将聚合物固着在表面或基质上。在一些实施例中,在步骤a之前使聚合物变性。在一些实施例中,一个或多个探针中的每一个探针与聚合物瞬时结合。在一些实施例中,多个探针中的每个探针与聚合物反复结合。在一些实施例中,可鉴定化学结构单元的探针结合的部位以纳米级(必要时,甚至亚纳米级)准确度/精度来确定(例如,使用单分子定位算法),从而基于结合于每个部位的探针的身份确定“序列”。
在一些实施例中,在定位准确度和精度高(亚纳米或几纳米)的情况下,将明确地确定每个序列位的部位和顺序。然而,序列读段以间断的方式不连续地出现。在大部分测序方法是从开始至末端连续读取序列的情况下,在本发明中,序列信息的获取随机分布。当已经收集了所有的序列数据时,通过将获得的序列信息位根据其空间部位排序来讲序列放在一起,每个序列位应该与获得的前一个和下一个定位序列信息位重叠,例如对于5聚体,每个序列位应在序列上在一端与前一个序列位有四个碱基重叠,并且在另一端与下一个序列位有四个碱基重叠。如果这没有完全保持(例如,重叠仅3个而非4个),则可能已经获得由错配产生的序列位,或定位可能稍有偏离。本发明的新颖方面在于,这种内部检查机制应能够分辨序列位的正确顺序,因此以高置信度分辨序列。
在一些实施例中,每个探针添加循环的持续时间被配置成使得可以收集每个互补结合位点的一定数目的结合事件。结合事件的数目平均为5、10、20等。在一些实施例中,每个探针添加循环的持续时间被配置成使得可以收集每个互补结合位点的一定数目的光子。针对每次结合收集的光子的数目越大,能够实现的定位程度(准确度)和精度越好。在一些实施例中,不同探针或探针组的持续时间是不同的。因此,一些探针可高精度定位,而其它较低精度定位。在一些实施例中,可以使用高度定位的位置来锚定序列组装,其中通过在序列中重叠以计算方式组装定位不太好的位置。在一些实施例中,在组装算法中,例如使用德布鲁因图(de Bruijn graph)的算法中,可以使用定位的位置(包括定位不太好的位置)。
在一些实施例中,探针被标记。术语标记涵盖单个可检测的实体(例如波长发射实体)或多个可检测的实体。在一些实施例中,多个可检测的实体可包含可鉴定探针物质的代码。在一些实施例中,用荧光团或粒子标记探针。荧光标记可发射不同波长的荧光,并且还具有不同的寿命。在一些实施例中,通过丢弃由散射引起的荧光的早期时间窗来去除背景荧光。如果标记在探针的一端,例如寡核苷酸探针的3'端,那么1nm准确度对应于探针序列的3'端和目标序列的5'。
在一些实施例中,聚合物的测序基于测量其与探针库的瞬时相互作用,例如多核苷酸与寡核苷酸库的相互作用。在一些实施例中,库的每种寡核苷酸具有给定长度或一组给定长度。
在一些实施例中,本发明包含对单个靶多核苷酸上的核苷酸碱基和/或修饰进行测序的方法,其包含:
a)将多核苷酸固着在表面或基质上,任选地拉伸多核苷酸;
b)任选地使多核苷酸变性到多核苷酸中的至少一些变得可用于结合于探针的程度;
c)在探针可与多核苷酸瞬时结合的条件下添加一种或多种探针物质;
d)在一段时间内在检测器上连续监测多核苷酸上的结合事件并记录;
e)去除b的探针;
f)每次用不同的一种或多种探针物质重复步骤b-d,直到已经监测完整探针库的结合;以及
g)对来自步骤c的每次迭代的数据进行编译以重建修饰和/或碱基的序列。
在一些实施例中,聚合物的测序是探针物质库的瞬时结合相互作用的突现性质的结果。一个探针的结合不足以将聚合物测序,需要完整寡聚物库(例如,对于多核苷酸,寡核苷酸库)。关于寡核苷酸的结合部位、时间上分开的与重叠位点的结合、错配的部分结合、结合频率、结合持续时间的信息都有助于构建稳固序列。在伸长或拉伸多核苷酸的情况下,沿着多核苷酸长度的探针结合的部位有助于构建稳固序列。此外,在双链DNA的情况下,序列同时从双链体的两条链的测序出现。
在上述一些实施例中,在b的任选的变性步骤之前,进行探针与聚合物的重复单元(多核苷酸中的核苷酸)上的修饰的结合。在一些实施例中,不进行步骤b的任选的变性并且探针解决双链体结构。在一些情况下,探针通过链侵入(例如,使用PNA探针),通过诱导双链体的过度呼吸,通过用修饰的活力指蛋白识别双链体中的序列,或者通过使用将双链体解链,从而允许例如向导RNA序列结合的Cas9或类似蛋白来与双链体的各条链结合;向导RNA可包含询问探针序列并且提供包含库的每个序列的gRNA。
对上述内容的警告是,在一些实施例中,例如由于探针与其自身的有问题的相互作用(例如自互补、回文序列,使得与本身的其它复本结合),与库中的其它探针或与多核苷酸的有问题的相互作用(例如,已知的随机混杂结合),可从库中略去某些探针,但保留足够进行本发明的测序的探针。实际上,可为被分析的每个类型序列确定最少数目的信息探针。另一警告涉及如下事实:完整库的一半与库中的其它寡核苷酸完全互补;在一些实施例中,确保这些互补对(以及由于实质上的互补性而成问题的其它互补对)不同时添加到多核苷酸中;在一些实施例中,当双链DNA的有义链和反义链都存在时,仅用互补对的一个成员进行测序,并将从有义链和反义链获得的序列信息组合以产生序列。
在一些实施例中,可使用参考序列和关于互补链所获得的序列信息(天然双链的靶的)来促进特定部位处的序列分配。
在本发明的一些实施例中,测序包含以下步骤(说明5碱基测序):
a)在表面上拉伸/伸长双链体DNA;
b)使双链体DNA变性以在表面上留下原位剩余的一对互补链;
c)使完整的短寡核苷酸(例如3聚体、4聚体、5聚体、6聚体)库与该对DNA链结合并记录每个寡核苷酸沿着该对链的线性长度的结合部位;
d)使用结合的部位和寡核苷酸之间的序列重叠来构建表示两条链中的每一条链的互补序列的寡核苷酸的两个覆瓦式路径;以及
e)比较两条链的反向互补序列并进行‘双链体共有序列’衍生的碱基分配,其中分配被两条链确证,并在未发现确证时,指示碱基调用的不明确性。
当覆瓦式路径中存在中断时可能出现问题,例如对于5碱基测序,没有寡核苷酸结合于长度长于5个碱基的一段序列。在这种情况下,可以利用一种或多种方法:在可用时,碱基分配遵从于从双链体的互补链获得的序列;如果可用,依赖于序列相同区段的其它拷贝;或遵从参考序列(在这种情况下可以将碱基注释成指示它们是从参考序列人工植入的)。
在一些实施例中,当对已知序列的聚合物(例如,多核苷酸)进行测试时和/或当多核苷酸的序列与来自另一种方法的数据交叉验证时,使用人工智能或机器学习来学习库成员的行为。学习算法考虑特定探针在一种或多种条件或背景下针对一个或多个含有探针结合位点的多核苷酸靶的全部行为。随着对相同或不同样品进行更多测序,来自机器学习的知识变得越来越全面。除了基于瞬时结合的突现测序和本发明的其它实施例以外,从机器学习中获得的知识还可应用于各种其它测定法,尤其是涉及寡核苷酸与寡核苷酸/多核苷酸的相互作用的那些测定,例如杂交测序。
在一些实施例中,通过提供以实验方式获得的关于完整短寡核苷酸(例如,3聚体、4聚体、5聚体或6聚体)库与一个或多个序列已知的多核苷酸的结合的结合模式的数据来训练人工智能或机器学习。每个寡核苷酸的训练数据包含结合部位、结合持续时间和给定时期内结合事件的数目。在这种训练之后,将机器学习算法应用于待确定序列的多核苷酸,并且基于其学习,可以组装多核苷酸的序列。还向机器学习算法提供参考序列。
在一些实施例中,序列组装算法包含机器学习要素和非机器学习要素。
在一些实施例中,序列组装算法包含贝叶斯方法。在一些实施例中,将从本发明的方法获得的数据提供给(WO2010075570)中描述的类型的算法,并且任选地将其与其它类型的基因组或测序数据组合。
在一些实施例中,代替计算机算法从实验获得的结合模式中学习,经由模拟来获得结合模式。举例来说,模拟库的寡核苷酸与序列已知的多核苷酸的瞬时结合;模拟可以基于从实验或公开数据中获得的每个寡核苷酸的行为模型。举例来说,结合稳定性的预测可根据最近邻法[SantaLucia等人,《生物化学》35,3555-3562(1996);Breslauer等人,《美国国家科学院院刊》,83:3746-3750(1986)]获得,并且错配行为是已知的或可以实验推导,已知寡核苷酸的一些短子序列(例如,GGA与ACC)具有异常高的结合强度。可以在模拟数据上训练机器学习算法,然后当通过完整短寡核苷酸库询问未知序列时,将所述机器学习算法用于确定序列未知的序列。
在一些实施例中,将库或小组的寡核苷酸的数据(部位、结合持续时间、信号强度等)插入机器学习算法,所述机器学习算法已经在一个或多个(优选地数十个、数百个或数千个)已知序列上训练过。
然后应用机器学习算法从所讨论的序列生成数据集,并且机器学习算法生成所讨论的序列未知的序列。用于低级生物(例如,细菌、噬菌体等)测序的算法的训练需要在这种类型的生物体上进行。对于从酵母(例如粟酒裂殖酵母)开始一直到人类或小麦的具有重复DNA的高等生物,也需要在高等生物上进行训练。对于兆碱基片段至全染色体长度的长程组装,训练可能需要在类似的生物体上进行,使得在训练期间呈现基因组的特定方面。例如,人类基因组是二倍体,并具有大量的区段重复。小麦是多倍体。
在一些实施例中,基于机器学习的序列重建方法包含:
a)提供从一个或多个训练数据集搜集的关于库中的每个寡核苷酸的结合行为的信息和可以使用这类信息的组装算法;
b)使库的每个寡核苷酸与序列待确定的多核苷酸物理结合并提供关于每个寡核苷酸的结合部位和/或结合持续时间和/或在每个部位发生结合的次数的信息(例如,结合重复的持久性);及
c)利用使用训练数据集的组装算法来重建多核苷酸的序列。
对于人类基因组来说,一种良好的基本规则基因组将为NA12878,其通过多种测序、单倍型分析和结构映射方法广泛地表征并且其组装是任何人类基因组最可靠的。然而,因为迄今为主,没有完美的技术可以确保真正呈现复杂的基因组,所以可用于这类基因组的基础实况数据集可能不完全,并且机器学习算法可能需要考虑到替代“基础实况”或者从使用不同技术(例如,10X Genomics、Bionanogenomics、PacBio、ONT)组合Illumina测序的组装来构建“平均”或“共有”基础实况。
在一些实施例中,特定实验的序列首先由非机器学习算法处理。然后,使用第一算法的输出序列来训练机器学习算法,使得训练发生在完全相同的分子的实际实验推导序列上。机器学习算法的优点在于其可比其它算法更快地实施。
在一些实施例中,本发明包含鉴定非均相聚合物中的化学结构单元并排序的方法,其包含结合多个探针,以鉴定沿着聚合物的多个位点处的化学结构。多个所述位点比通过衍射极限光学成像可分辨得接近,但因为其检测在时间上分开,所以被分辨出。根据需要,以纳米级/亚纳米级定位准确度/精度来确定鉴定化学结构的探针的结合,从而确定化学结构的空间顺序,即“序列”。
在其它实施例中,被表征或测序的多个聚合物比通过衍射极限光学成像可分辨得接近,但因为探针结合沿着其长度的部位是纳米级定位的,所以被分辨出。
在一些实施例中,本发明包含鉴定非均相聚合物中的化学结构单元并排序的方法,其包含伸长聚合物并结合多个探针,以鉴定沿着伸长聚合物的多个位点处的化学结构。多个所述位点比通过衍射极限光学成像可分辨得接近,但因为聚合物伸长和/或其标记在时间上分开,所以被分辨出。以纳米级准确度来确定鉴定每个化学结构的探针的结合部位,从而确定化学结构的空间顺序,即“序列”。
在一些实施例中,本发明包含用于分析靶多核苷酸上的碱基序列的方法。在一些实施例中,本发明包含用于分析核苷酸修饰或DNA损伤以及靶多核苷酸上的碱基序列的方法。在一些实施例中,本发明包含用于分析靶多核苷酸上的序列组织的方法。
术语“瞬时结合”意指在分析过程期间结合试剂或探针通常不保持附着于其结合位点,并且通常一种试剂结合和解离,然后相同或另一种试剂结合和解离等等。重复结合意指在分析过程中,相同的结合位点被相同的结合试剂或探针或相同种类的结合试剂或探针多次结合,并且通常一种试剂结合和解离,然后另一种试剂结合和解离等。在一些实施例中,一段时间内连续观测结合相互作用。
在一些实施例中,重复结合增加了获得的信息的灵敏度和准确性。灵敏度增加是因为在当仅检测到一次时信号太低而无法从背景中调用的情况下,当持续看到信号时,信号变得可调用-信号是真实的置信度增加。准确性增加是因为信息的多次读取可用另一次读取证实一次读取(类似地,两条链的读取允许用另一次读取证实一次读取)。
在一些实施例中,所述方法的机制包含探针分子结合于靶分子,这类结合事件是短暂或瞬时的,并且许多这类结合事件在相同部位和/或部分重叠的部位重复发生。记录这类结合事件的部位、频率、停留时间和光子发射并通过计算处理。
在一些实施例中,瞬时结合在具有少量二价阳离子但没有一价阳离子的缓冲液,例如5mM Tris-HCl、10mM MgCl2、1mM EDTA、0.05%Tween-20pH 8中进行。
因此,多核苷酸测序包含以下步骤:
a)将多核苷酸固着;
b)在含有<1nM、<5nM、10nM或15nM氯化镁的反应缓冲液中使寡核苷酸的库或亚库结合于多核苷酸;
c)检测瞬时结合
d)根据需要重复b-c。
组装多核苷酸序列
在一些实施例中,分子固着的固体基板包含玻璃、硅、二氧化硅、氮化硅、金属(例如,金)、聚二甲氧基硅烷(PDMS)、聚合物(例如,环烯烃、Zeonex、聚甲基丙烯酸甲酯、聚苯乙烯)。在一些实施例中,例如用聚乙烯基硅烷涂布固体表面。在一些实施例中,通过分子梳将聚合物在聚乙烯基涂布的表面上拉伸,然后通过暴露于紫外光或高温而与表面交联。
在一些实施例中,本发明包含确定库的每个成员与伸长聚合物的结合部位,所述伸长聚合物与表面或基质形成多个相互作用。在一些实施例中,通过检测重复瞬时开/关型探针结合事件来确定结合部位,所述结合事件的结合位点可能重叠,但是不会明显地干扰彼此的结合,因为其结合往往在时间上是分开的。如果探针结合较长时间段,那么一个探针的结合将阻断另一个探针的结合。
在一些实施例中,库是完整库,例如给定长度的每个寡核苷酸。在一些实施例中,它是覆瓦式系列的寡核苷酸探针。在一些实施例中,它是一小组寡核苷酸探针。在合成生物学中的某些应用(例如,DNA数据存储)的情况下,测序可包含寻找特定序列区块的顺序,所述区块被设计成编码数据。
在一些实施例中,所述方法的机制包含使探针分子结合于靶分子,这类结合由于标记而可检测,所述标记瞬时地结合,在发射时闪烁或波动,或光控关闭和/或打开,并且许多这类结合事件可以在相同部位处和/或在一个或多个部分重叠的部位处重复发生。记录和处理这类结合事件的部位和持续时间。在一些实施例中,标记的明显瞬时、波动或闪烁行为是因为标记附着到与靶断续结合的探针上。
在一些实施例中,结合靶的探针未直接标记。在一些这样的实施例中,探针含有“瓣”,它是充当结合第二实体的受体的实体。两个实体可以包含分子结合对。这类结合对可包含核酸结合对。在一些实施例中,瓣包含与标记的寡核苷酸(寡核苷酸)结合的一段寡核苷酸或多核苷酸序列,并且在对结合靶的探针部分的瞬时结合进行成像的过程中,这种结合应该是基本稳定的。在一些实施例中,靶包含多核苷酸序列,并且探针的结合部分包含例如3聚体或4聚体或5聚体或6聚体的序列询问部分,任选地一个或多个简并或通用位置,任选地核苷酸间隔子(例如,一个或多个T核苷酸)或无碱基或非核苷酸部分,以及瓣部分。这类瓣部分在序列上未修饰,并且为了在成像过程中保留稳定性,它长度为例如20个碱基或更长,其中序列被设计成是稳定的,并且优选地被筛选成在靶多核苷酸中很少见的。
在一些实施例中,探针库施加至靶。在一些实施例中,库的每个探针或库的探针亚组一个接一个地施加;即,首先检测一个探针或亚组的结合,然后将其去除,接着添加下一个,检测并去除,然后下一个等等。然后处理数据,得到具有每种特异性的探针的每个探针结合事件的纳米级或亚纳米级定位。在一些实施例中,使用每种探针特异性的结合顺序和/或部位将序列放在一起。
在一些实施例中,库中的所有结合探针或结合探针亚组同时添加,并且每个结合探针拴系至标记,所述标记完全或部分编码身份,并且通过检测解码每个结合探针的代码。
在一些实施例中,探针上的瓣是模块化的,并且可含有不同寡核苷酸的结合位点,这类寡核苷酸为不同标记,并且用于编码寡核苷酸的探针部分的身份。
在一些实施例中,核酸靶附着于表面或基质。在一些这样的实施例中,靶的一端附着于表面或基质,而靶的其余部分是自由的,以进行相互作用。在一些实施例中,靶被捕获至有序的超分子支架(例如,DNA折纸结构)上。在一些实施例中,支架结构开始游离在溶液中,以利用溶液相动力学来捕获靶分子。一旦它们被占据,支架就沉降或自组装至表面上,并被封锁,以形成巨大DNA网格,各个小支架被彼此锁定。然后它们呈现高度有序的纳米结构阵列,用于本发明的测序步骤。
在一些实施例中,为了规避非特异性结合或异常事件的影响,方法基于信号的部位和持久性对信号进行优先级排序。由于部位而定的优先权基于探针是否共定位于例如拉伸的聚合物或超分子网格(例如,DNA折纸网格),包括网格结构内的部位来预测。由于结合的持久性而定的优先级关注结合的持续时间和结合的频率,并使用优先级列表来确定完全匹配、部分匹配或非特异性结合的可能性。使用针对小组或库中的每个结合探针建立的这种优先级来确定信号的正确性。本发明的算法使用优先级来促进信号验证和碱基调用。在一些实施例中,算法包含以下查询:
1.信号持续时间是否>阈值。如果是,那么接受为真实。
2.信号重复/频率是否>阈值。如果是,那么接受为真实
3.信号是否与模式(网格或线)相关。如果是,那么接受为真实。
否则丢弃此信号的数据。作为1和2的替代,算法可以询问收集的光子数目是否>阈值。
在组装算法中亦可丢弃似乎是不可逆的信号或对其加以权重,因为其可能对应于非特异性信号(例如,荧光污染物附着于表面)。
在一些实施例中,本发明包含对单个靶多核苷酸上的核苷酸修饰和/或碱基进行测序的方法,其包含:
将多核苷酸固着在表面上并线性化
在使探针瞬时结合并且探针结合于靶位点可与探针结合于非靶位点有差别的条件下添加一个或多个标记的探针物质
在2D检测器上对多核苷酸连续成像并记录探针结合的像素坐标,直到每个部位已经累积阈值数目的结合事件(取决于所需的定位精度)
去除b的探针。
每次用不同的一种或多种探针物质重复步骤b-d
使用单分子定位算法对来自步骤c的每次迭代的数据进行编译以提供探针持续结合的每个结合位点的纳米级坐标(例如,结合位点的4个或更多个结合事件)并将纳米级定位的位点与探针物质的身份(例如,特定的寡核苷酸序列或特定抗体)相关联。
确定结合物质的顺序(序列)以确定与每个亚纳米级或纳米级部位相关联的序列身份(和修饰状态),从而对多核苷酸长度上的核苷酸修饰和/或碱基序列进行编译并检测多核苷酸长度上的任何间隙。
在一些实施例中,在步骤g之前执行额外步骤,在该步骤中考虑特定探针物质与每个其结合部位结合的持续时间和/或持久性以及哪些探针结合于相邻部位和互补链(如果靶是变性双链)来确定结合事件是否完全匹配、错配或虚假结合。
在一些实施例中,可添加步骤h以确定一种类型结合靶(例如,抗原)与另一种类型靶(例如,序列)的相关性。
在一些实施例中,通过试剂更换来去除步骤b的探针。任选地,首先用一种或多种洗涤溶液替换探针,然后添加下一探针组。
在一些实施例中,在步骤c中,成像(结合-解离事件)操作时间段足够长,以便可能已经累积阈值数目的结合事件。
在一些实施例中,所述方法包含在2D检测器上对多核苷酸连续成像并记录探针结合的像素坐标,直到每个部位可能已经累积阈值数目的结合事件
在一些实施例中,成像持续时间段取决于所要求的定位准确度(例如,纳米级或亚纳米级)。要获得亚10nM或亚纳米级定位,成像可能需要操作更长时间。在一些实施例中,成像持续时间取决于关于哪个探针结合哪个短序列段(序列位)所需要的置信度。操作更长时间将增加正确匹配的置信度,并允许在计算上滤除虚假或错配结合。
在一些实施例中,将本发明的靶多核苷酸固着。在一些实施例中,固着在结构载体(例如,平坦表面、细胞基质)上。在一些实施例中,靶多核苷酸安置在流体容器例如小孔或流动池中。
在一些实施例中,双链基因组DNA固着和线性化以及准备用于瞬时结合在表面上包含:
a)分子梳;
b)UV交联;
c)任选的润湿;
d)包含暴露于化学变性剂、碱溶液、DMSO等的变性;
e)洗涤后对酸性溶液的任选暴露;
f)任选的预处理缓冲液;
在一些实施例中,聚合物是短多核苷酸,<1Kbp或<300bp。在一些实施例中,短多核苷酸在100-200个碱基范围内,正如对于体液如尿液和血液中的游离DNA所发现的一样。在一些实施例中,多核苷酸优选地通过两端中的一端附着到或捕获到表面上。在一些实施例中,多核苷酸以有序的方式捕获之纳米结构网格中。网格由超分子结构构成,例如可以用DNA折纸形成。捕获位点可以10nm的间距排列在有序的2D网格中;这种网格在完全占据的情况下,能够每平方厘米捕获约一万亿个分子。
在一些实施例中,聚合物线性化。在一些实施例中,线性化使聚合物沿着表面上的波状或弯曲路径。在其它实施例中,聚合物被伸长并且是直的。在一些实施例中,直聚合物在单方向上对齐。在一些实施例中,聚合物未伸长并且可通过2D或3D空间形成弯曲路径。后者是所述方法应用于细胞内的生物聚合物的情形。
在一些实施例中,多核苷酸随机排列在表面或基质上。在一些实施例中,多核苷酸以有序的方式排列。在一些实施例中,多核苷酸展示为DNA帘[Greene和同事;US20080274905A1]。在这类实施例中,当DNA链被附接在一端并通过流动或电泳力伸长时,或者在链的两端均被捕获后,记录瞬时结合。在一些实施例中,一端或两端的捕获是由于与表面上或从其中延伸帘的界面处的空间可寻址寡核苷酸的结合或连接。在一些实施例中,DNA帘中使用的脂质表面涂层使表面结合和背景降到最低。在一些实施例中,在相同序列的许多拷贝形成在DNA帘中的多个多核苷酸的情况下,序列以聚集的结合模式从多个多核苷酸而不是从一个多核苷酸组装而成。
在长多核苷酸的情况下,有序方式可以是通过将每个长多核苷酸的一端分别附接至垫的有序阵列,其中不同多核苷酸的末端占据每个垫,例如已经展示用于DNA帘(Greene和同事)。在一些实施例中,多核苷酸的两端结合于垫,每端结合于不同垫。单个线性多核苷酸结合的两个垫可用来将多核苷酸的拉伸构型保持在适当的位置,并允许形成等间距、不重叠或不相互作用的多核苷酸的有序阵列。在一些实施例中,一个多核苷酸只能占据单个垫。在一些实施例中,在通过泊松过程(poissonian process)占据垫的情况下,一些垫未被多核苷酸占据,一些被一个多核苷酸占据,一些垫被超过一个多核苷酸占据。
在对从多个细胞(其中大量是相同细胞类型(预期含有基本上相同的序列))中提取的DNA测序的本发明的一些实施例中,序列以聚集的结合模式从多个多核苷酸而不是从一个多核苷酸组装而成。
在一些实施例中,将多核苷酸从其天然环境(例如,细胞、组织、生物流体)中去除并固着在表面上。在一些实施例中,多核苷酸保留在其细胞或组织环境中。在一些实施例中,固定细胞或组织。在一些实施例中,多核苷酸在细胞内交联。
在一些实施例中,多核苷酸是单链(例如,mRNA、lncRNA微小RNA)。在一些实施例中,多核苷酸是双链。在一些实施例中,多核苷酸是变性的。在一些实施例中,变性是包含来自0.5M或1M NaOH、DMSO(例如,60%)、甲酰胺(10-90%)、尿素(7-8M)等的一种或多种试剂的化学变性。在一些实施例中,变性是85℃和更高温度的热变性。在一些实施例中,变性是通过酶促变性,例如通过使用解旋酶或其它具有解旋酶活性的酶。在一些实施例中,通过与表面的相互作用或通过例如拉伸超过临界长度的物理过程来使多核苷酸变性。在一些实施例中,变性是完全的或部分的。
在一些实施例中,将多核苷酸的阵列固着在表面上并且在一些实施例中,阵列的多核苷酸相距足够远而能单独分辨。在一些实施例中,阵列的多核苷酸未相距足够远至可单独分辨。在一些实施例中,阵列的多核苷酸通过超分辨方法来单独分辨。在一些实施例中,多核苷酸平行于表面伸长。在一些实施例中,多核苷酸相对于表面成斜角伸长。在一些实施例中,经由2D检测器的检测经由单分子定位算法软件(例如,Thunderstorm,其是Fiji/ImageJ的插件;或Picasso,其可用于在https://github.com/jungmannlab/picasso下载)进行处理。在一些实施例中,多核苷酸垂直于表面伸长。标记坐标的检测是经由旋转圆盘共焦显微术、光片显微术、3D超分辨显微术或3d单分子定位显微术或其它3D成像方法。
在本发明的方法中,探针(来自特定物质的众多复本)以特定的方式(例如,沃森-克里克碱基配对、抗体-抗原结合)与多核苷酸中的靶位点瞬时结合并记录瞬时结合的笛卡尔坐标(Cartesian coordinate)和持续时间。在一些实施例中,相同物质的探针与靶位点重复瞬时结合。在一些实施例中,去除一个探针物质,添加另一探针物质。在一些实施例中,这一直重复到已经测试了探针的库(例如,完整库)、覆瓦式系列或小组。在一些实施例中,记录每个探针物质的结合部位。在一些实施例中,处理记录,得到纳米级定位准确度,即结合的x-y和在一些实施例中z坐标达到几十个纳米、几纳米、甚至是几亚纳米(埃),取决于需要的精度或根据应用目标可使用的精度。在一些实施例中,提供一种寡核苷酸探针物质或寡核苷酸探针序列库或组,还可提供可以结合于核酸修饰或破坏位点的结合剂(例如,蛋白质)中的一个或库。
在一些实施例中,还记录探针上标记的一种或多种物理特性,并且将不同的探针物质用包含不同物理特性的标记来标记,这类物理特性包含亮度(吸收、量子产率)、波长、寿命、偏振。在一些实施例中,物理特性是可以在单分子或单粒子水平下测量的任何其它物理特性。在一些实施例中,多个标记实体包含标记。
在一些实施例中,瞬时结合历时几秒或数秒。在一些实施例中,瞬时结合可以跨越10微秒到几十秒之间。在一些实施例中,瞬时结合的持续时间介于1毫秒与1秒之间。在一些实施例中,瞬时结合介于10微秒与1毫秒之间。
本发明是在单个(各个)分子(例如,聚合物)上实施,以便所述方法具有高灵敏度潜能并且可以分辨非均相分子群体中的多样性。灵敏度还受到以下事实的正面影响:本发明要求在处理样品分子的同时随之而来不要有损失(例如,连接效率非常低,因此实际上损失掉那些不适于连接的分子)和引入假象(例如,PCR期间的复制误差)。
多个结合事件增加了灵敏度,累积更多的光子,并且多个独立的结合事件增加了检测到真实信号的概率。多个结合事件还提高了特异性,可以从多个调用中获得共有序列,而不是确定在单个“调用”中检测到的部分或序列的身份。针对靶部分或序列的多个结合事件还允许与实际部位的结合与非特异性结合事件相区别,其中(阈值持续时间的)结合不太可能在同一部位发生多次。还观察到,随着时间的推移,多个结合事件的测量允许非特异性结合事件累积到表面上进行漂白,之后几乎没有再检测到非特异性结合。这可能是因为尽管来自非特异性结合的信号被漂白了,但非特异性结合位点仍然被占据或阻断。因此,无需大量的钝化表面以最小化非特异性结合的工作,因为可以删除影片的早期帧。
在一些实施例中,来自每个瞬时结合事件中的标记的信号通过光路(通常,提供放大系数)投影,以覆盖2D检测器的超过一个像素。绘制信号的点扩散函数(PSF),并且PSF的质心被视为信号的精确部位。这个定位可以进行至亚纳米几准确度。定位准确度与收集的光子数目成反比,因此每秒放出更多的光子,或者收集光子时间越长,准确度越高。为了实现高准确度和精度,必须最小化样品相对于2D检测器的漂移,或需要实施校正漂移的有效装置。在一些实施例中,校正漂移的方法包含在表面上包括基准标志物,基准标志物可用作校正漂移的参考;当需要精度达到几纳米或亚纳米时,具有多个指定结合部位的DNA折纸是一种极有效的基准标志物。
在本发明的一替代实施例中,来自每个瞬时结合事件中的标记的信号不通过光学放大路径投影,而是基板,通常是靶分子所在的光学透明表面,直接偶联至2D检测器阵列。当检测器阵列的像素很小,例如1微米或更小时,信号在表面上的1:1投影允许结合信号以至少一微米的准确度被定位。在拉伸DNA的情况下,比如在2kbp长度相当于1微米时,能分辨相距两千个碱基的信号。在预期信号每4096个碱基或每2微米出现一次的6聚体探针的情况下,这样的分辨率是足够的。部分地落在两个像素之间的信号也提供了中间部位,因此对于一微米的像素,分辨率是500nm。当然,在实际的天然多核苷酸序列中,预期信号出现在比每4096个碱基更近和更远的部位。然而,在一些奇异的应用例如DNA存储中,多核苷酸构建体可以通过使信号降低到例如每2Kb出现一次的方式设计。这种方法的一个优点是更简单而且更稳定。并且,可将基板比如以100nm的增量相对于2D阵列检测器平移,以得到更高的分辨率。这种实施例的一个优点是装置更小(或更薄),因为其不需要透镜或透镜之间的空间。它还提供了分子存储读出至与现有计算机和数据库更兼容的电子读出的直接转换。
在一些实施例中,使用促进瞬时结合的多种条件。在一些实施例中,对于整个探针物质库,例如,来自1024个可能5聚体库的每个5聚体物质,取决于Tm,一种条件用于一个探针物质,并且取决于Tm,另一种条件用于另一个探针物质,依此类推。在一些实施例中,因为样品中存在两条靶多核苷酸链,所以仅提供了512个非互补5聚体。在一些实施例中,每次探针添加都包含探针的混合物,所述探针包含5个特定碱基和2个简并碱基,(因此16个七聚体)所有都用相同的标记进行标记,所述标记在询问序列能力方面可起到一个五聚体的作用;简并碱基增加稳定性,但未增加探针组的复杂性。
在一些实施例中,为共享相同或相似的Tm的多个探针提供相同的条件。库中的每个探针可包含不同的编码标记(或可鉴定探针的标记)。在这种情况下,温度通过几次探针交换来保持,然后再改变以用于下一系列共享相同或相似的Tm的探针。
在一些实施例中,例如通过最近邻参数来计算Tm。在其它实施例中,Tm是根据经验得出的。举例来说,最佳TM或TM范围是通过实现解链曲线(例如,在一定温度范围内通过吸收来测量解链的程度)而得出的。在一些实施例中,探针组的组成是根据其理论匹配的Tm设计的,所述Tm通过经验测试来验证。在一些实施例中,结合在显著低于Tm的温度(例如,比Tm低33℃)下进行。在一些实施例中,使用在多个部位包含完全匹配和错配的短合成靶进行解链曲线,根据经验确定区分错配与完全匹配的最佳温度。在一些实施例中,根据经验确定的每个寡核苷酸的最佳温度用于测序中每个寡核苷酸的结合。
在一些实施例中,所用的寡核苷酸的浓度根据寡核苷酸序列的AT对比GC的含量来调整。为具有较高GC含量的寡核苷酸提供较高浓度的寡核苷酸。在一些实施例中,使用浓度在2.5M与4M之间的可均衡碱基组成影响的缓冲液,其含有CTAB、甜菜碱或如四甲基氯化铵(TMACl)的离液试剂。
使用的寡核苷酸长度越长,回文序列或回折序列就越有可能对寡核苷酸充当高效探针起作用。通过去除一个或多个简并碱基来减短这类寡核苷酸的长度,可以显著提高效率。在这种情况下,可以通过使用特定的稳定碱基的修饰或寡核苷酸缀合物来增强寡核苷酸的结合稳定性。出于这个原因,使用较短的询问序列(例如,4聚体)有利。在一些实施例中,使用被完全修饰的3聚体或4聚体(例如,LNA)。
在一些实施例中,将整个库一起添加。在一些这样的实施例中,使用均衡碱基组成影响的缓冲液(例如,TMACl或硫氰酸胍)。在一些实施例中,将具有相同或相似Tm的探针物质一起添加。在一些实施例中,不对一起添加的探针物质进行差异标记。在一些实施例中,对一起添加的探针物质进行差异标记。在一些实施例中,差异标记是发射具有例如不同亮度、寿命或波长或这样的物理特性的组合的标记。
在一些实施例中,差异标记被编码,例如它们是DNA折纸或基于DNA纳米结构的代码。在一些实施例中,将编码臂添加至探针,所述编码臂包含鉴定探针的标记的组合。举例来说,在要编码每种可能的5聚体寡核苷酸探针的文库的情况下,臂具有五个位点,每个位点对应于5聚体中的五个核碱基中的每一个,并且该五个位点中的每一个都可以与5个可区分物质结合。举例来说,具有特定峰值发射波长的荧光团可对应于每个位置(例如,对于位置1为500nm,对于位置2为550nm,对于位置3为600nm,对于位置4为650nm,以及对于位置5为700nm),并且波长相同但荧光寿命不同的四个荧光团可编码每个位置的四个碱基中的每一个。
在一些实施例中,探针的编码方式如下:标记报告寡核苷酸中特定位置处的仅一个核苷酸。可以同时添加库亚组(亚库)。可以使用四色编码方案,其中在每个循环,界定寡核苷酸中的一个碱基位置并且其余位置简并。
界定了A、C、T和G的所有寡核苷酸各自用对所界定的碱基具有特异性的特定荧光团标记。在界定了第一碱基并且其余简并的寡核苷酸亚库进行结合、检测和去除之后,添加组成类似但是第二位置由标记编码(并且其它简并)的探针亚库,然后是第三、第四和第五,一个接一个。
第1循环,组1:4种颜色表示位置一处的4个碱基。
第2循环,组2:4种颜色表示位置二处的4个碱基。
第3循环,组3:4种颜色表示位置三处的4个碱基。
第4循环,组4:4种颜色表示位置四处的4个碱基。
第5循环,组5:4种颜色表示位置五处的4个碱基。
整个库可以在5个循环内耗尽。
在一些实施例中,在整个过程中使用少于4种,例如仅使用一种颜色。在这种情况下,每个循环被分成4个子循环,在每个子循环中,单独添加所述位置(例如,位置1)处的4个碱基中的一个,然后添加下一个;每次探针带有相同的标记。在这个实施方案中,整个库可以在20个循环内耗尽。
在数据处理之后,单分子定位可以鉴定(因检测到的颜色)来自组1-5的哪些探针在多核苷酸上具有相同的足迹,即结合于相同的纳米级部位。举例来说,纳米级部位以1nm中心(+/-0.5nm)的精度来定义。因此PSF质心落在同一1nm内的所有探针将被装箱在一起。每个单碱基界定的寡核苷酸物质可结合多次(取决于发射和收集的光子的数目),以使得能够准确定位至纳米(或亚纳米)质心。因此,纳米级或亚纳米级定位可确定,例如,对于5'AGTCG3'的寡核苷酸序列,第一碱基是A,第二碱基是G,第三碱基是T,第四碱基是C,并且第五碱基是T;这将暗示靶序列是5'CGACT3'。因此,只在5个循环中就可以检查或测试所有1024个单碱基界定的寡核苷酸探针(包含寡核苷酸添加和洗涤);这覆盖了5聚体的整个序列空间。在一些实施例中,组中的每个寡核苷酸的浓度低于单独使用时的浓度,在这种情况下,为了达到阈值数目的结合事件,数据的采集需要更长的时间;并且可以使用浓度比特定寡核苷酸高的简并寡核苷酸。这种编码方案可以通过探针的直接标记,例如通过在寡核苷酸的3′或5′处合成或缀合标记来进行。然而,它还可以通过间接标记来完成,例如,探针序列可以附接到‘瓣’(不意图进行结合相互作用的序列)序列,标记的寡核苷酸结合于瓣序列,这指定了探针的序列询问部分中被编码的碱基的身份。在这个方案中,只需要区分4个碱基,因此只需要4种不同类型的标记。只编码一个碱基的寡核苷酸文库的合成是廉价的,因为只需要合成20个不同的寡核苷酸,各寡核苷酸中一个碱基被界定,其它4个简并。优选地,在简并位置的自动合成期间使用手动混合,以便根据合成期间的反应性来调整浓度。
每个寡核苷酸的部位通过确定该部位的多个事件的PSF来精确界定,然后通过来自偏移事件的部分序列重叠来确证。这个实施例高度依赖于达到纳米或亚纳米精度的探针结合的单分子定位。
在一些实施例中,来自所有四个碱基的影响等同。这可以通过使用抑制G-C对的稳定性或提高AT稳定性的试剂进行。这类试剂包括甜菜碱、TMA和一系列其它试剂。或者,可以使用核苷酸类似物、修饰和N位置来均衡探针的Tm。因此,为了获得与G同等的Tm,使用稳定性提高之T类似物。
在一些实施例中,为了补偿单个编码碱基的稳定性差异,根据Tm将四个部分简并寡核苷酸池的浓度各自调整;这仅仅是一部分补偿,因为通过Tm调整浓度不适用于简并位置。
在一些实施例中,探针库的探针被编码。在一些实施例中,例如整组1024个5聚体被编码。在一些实施例中,编码包含将特定的序列单元偶联到用于序列询问的5聚体的一端(例如,瓣序列)。编码序列的每个单元充当独特的荧光标记探针的停泊位点,其中荧光标记的寡核苷酸杂交至瓣上。为了编码5个碱基的探针序列,探针上的瓣含有5个独特的结合部位,例如,每个部位是与下一个部位串联连接的不同的DNA碱基序列。举例来说,瓣上的第一个位置与探针序列(将与多核苷酸靶结合的部分)相邻,第二个位置与第一个位置相邻,依此类推。在测序中使用探针-瓣之前,将各种探针-瓣与一组荧光标记的寡核苷酸偶联,以生成探针序列的独特ID标签。这可以通过使用4种不同标记的寡核苷酸序列来完成,所述寡核苷酸序列与瓣上的每个位置互补,需要总共16种独特标记。
在一些实施例中,序列中的第一个碱基由瓣中的第一个单元编码,第二个碱基由第二个单元编码,依此类推;单元的顺序对应于碱基序列的顺序。然后独特的荧光标记停泊至每个单元上(通过互补碱基配对)。例如第一位置可在波长500nm-530nm下发射,第二位置在波长550nm-580nm下发射,第三位置在600nm-630nm下发射,第四位置在650nm-680nm下发射,第五位置在700nm-730nm下发射。然后,每个部位处的碱基身份例如由标记的荧光寿命编码。例如,对应于A的标记具有比对应于C的标记更长的寿命,对应于C的标记具有比对应于G的标记更长的寿命,对应于G的标记具有比对应于T的标记更长的寿命。
因此,位置1处的A将在500nm-530nm下发射,寿命最长。位置3处的G将在600nm-630nm下发射,寿命第三长,依此类推。
在对多核苷酸测序的一些这样的实施例中,所述方法包含:
a)提供一组编码的寡核苷酸,这类编码包含模块化多单元序列,每个单元独特的标记探针预先结合于所述模块化多单元序列;
b)使库与多核苷酸瞬时且反复地结合,并定位每个类型的独特信号;以及
c)使用记录的结合部位并解码每个探针的身份来重建多核苷酸的序列。
在一些实施例中,仅使用4个不同的寡核苷酸亚库,其中只有例如5聚体的中心碱基界定并且其余简并。预期寡核苷酸中心位置处的错配最不稳定,并且可以设置条件,绝对要求结合中心碱基而不形成错配。瞬时结合将确保大体上所有的位点都被寡核苷酸结合覆盖,如果进行高水平,例如亚纳米水平的定位,那么多核苷酸的序列只通过将由中心编码的寡核苷酸提供的逐碱基信息缝合在一起就可以组装。中心碱基A、C、G、T中的每一个可以由4种不同的可区分荧光体来编码,例如Atto 488、Cy3B、Atto 655、Alexa 700。
实际上,最佳浓度(以及反应条件和温度)优选地通过反复调整每个池的浓度、序列已知的多核苷酸的测序中的反应条件和温度来确定;产生多种代表性多核苷酸最准确的序列的浓度/条件可被认为是最佳。
在一些实施例中,本发明是一种用于对多核苷酸测序的方法,其包含:
a)将多核苷酸固着;
b)添加寡核苷酸的文库/库,其中寡核苷酸中的一个位置处的碱基A、C、G、T被指定(X)并由标记编码,并且剩余碱基简并(N);
c)使每个标记的寡核苷酸与多核苷酸的重复结合成像并且纳米级定位指定碱基的结合部位和身份;
d)添加针对第二位置进行标记的寡核苷酸的文库/库标记并且纳米级定位指定碱基的结合部位和身份,第三、第4和第5位置依此类推;
e)根据针对寡核苷酸库中的每个位置,哪些碱基标记持续地与部位瞬时结合来组装每一部位处的序列;以及
f)通过考虑结合部位和相邻部位之间序列的重叠来组装多核苷酸的序列。
本发明的这个实施例受益于<2.5nm或<1nm或=<0.34nm的纳米级定位精度,这种定位精度可以区分探针寡核苷酸中的指定碱基的部位与附近另一探针寡核苷酸结合中的指定碱基的部位。
在一些实施例中,库的一些探针被编码。在一些实施例中,例如整组1024个5聚体被编码。在一些实施例中,编码包含将特定的序列单元偶联到用于序列询问的5聚体的一端(例如,瓣序列)。编码序列的每个单元充当独特的荧光标记探针物质的停泊位点,其中荧光标记的寡核苷酸杂交至瓣上。为了编码5个碱基的探针序列,探针上的瓣含有5个独特的结合部位,例如,每个部位是与下一个部位串联连接的不同的DNA碱基序列。举例来说,瓣上的第一个位置与探针序列(将与多核苷酸靶结合的部分)相邻,第二个位置与第一个位置相邻,依此类推。在测序中使用探针-瓣之前,将各种探针-瓣与一组荧光标记的寡核苷酸偶联,以生成探针序列的独特ID标签。这可以通过使用4种不同标记的寡核苷酸序列来完成,所述寡核苷酸序列与瓣上的每个位置互补,需要总共16种独特标记。
在一些实施例中,序列中的第一个碱基由瓣中的第一个单元编码,第二个碱基由第二个单元编码,依此类推;单元的顺序对应于碱基序列的顺序。然后独特的荧光标记停泊至每个单元上(通过互补碱基配对)。例如第一位置可在波长500nm-530nm下发射,第二位置在波长550nm-580nm下发射,第三位置在600nm-630nm下发射,第四位置在650nm-680nm下发射,第五位置在700nm-730nm下发射。然后,每个部位处的碱基身份可例如由标记的荧光寿命编码。例如,对应于A的标记具有比对应于C的标记更长的寿命,对应于C的标记具有比对应于G的标记更长的寿命,对应于G的标记具有比对应于T的标记更长的寿命。
因此,位置1处的A将在500nm-530nm下发射,寿命最长。位置3处的G将在600nm-630nm下发射,寿命第三长,依此类推。
在对多核苷酸测序的一些这样的实施例中,所述方法包含:
a)提供一组编码的寡核苷酸,这类编码包含模块化多单元序列,每个单元独特的标记探针预先结合于所述模块化多单元序列;
b)使库与多核苷酸瞬时且反复地结合,并定位每个类型的独特信号;以及
c)使用记录的结合部位并解码每个探针的身份来重建多核苷酸的序列。
这种方法的优点是,不需要分别合成所有各个寡核苷酸,而只要通过在合成循环中添加核苷酸的混合物即可。
能够提供的辨别寡核苷酸中的特定核苷酸的程度取决于它在寡核苷酸中的位置。预期在5聚体的中心处的错配是最不容许的,当从中心移开时错配是较容许的。因此,从来自单个结合事件的数据分配正确的序列身份有时是有挑战性的,但所述位点和相邻(重叠、偏移)位点的多个事件可以确证所述序列。
在一些情况下,结合持续时间可能不精确,可再现或可能不对应于预期的情况。然而,在一些实施例中,可以通过查看来自完整库的与部位结合的所有探针的结合持续时间,选择与部位的平均结合持续时间最长的探针来分配序列。除非了解异常高的错配结合或形成非沃森-克里克碱基对的探针的结合应用于数据集,否则在一些实施例中,结合持续时间最长的寡核苷酸被视为是与多核苷酸中的序列对应的寡核苷酸。
在一些实施例中,进行超过5个循环,因为寡核苷酸根据其解链温度分成数组。一组大约20个足以表示5聚体的Tm库(异常值除外)。在一些实施例中,使用A或T=2和G或C=4的Tm比重计算Tm。在其它情况下,使用最近邻参数(例如,根据布雷斯劳尔(Breslauer))来计算Tm。在其它情况下,根据经验确定每个寡核苷酸的Tm。经验确定是经由获得解链曲线,或当在每个给定温度下寡核苷酸互补序列结合于表面并且在溶液中标记其它时,通过分析寡核苷酸互补序列的结合来确定。
在一些实施例中,所有寡核苷酸结合使用相同的温度,并通过调整寡核苷酸的浓度来调整Tm。不太稳定的寡核苷酸使用较高的浓度,较稳定的寡核苷酸使用较低的浓度。通过经验或理论上确定每个寡核苷酸的浓度。在一些实施例中,使用单个温度但改变寡核苷酸的长度或化学组成。
在一些实施例中,首先发现短寡核苷酸探针的条件以有效地区分匹配与错配。短探针具有极快的动力学,因此可在短时间(例如,少于一秒、几秒或一或两分钟)内累积大量的瞬时结合事件。限速步骤可以是试剂更换和温度调整。在不干燥的情况下使结合成像,由此可使用每个探针的最优平衡反应条件。
一般来说,测序假设靶多核苷酸含有与结合的核苷酸互补的核苷酸;结合错配误差就是这种假设不成立的情况的一个实例。然而,当根据已知的规则或行为发生错配时,错配对于确定靶的序列是有用的。使用短的寡核苷酸如5聚体意味着单个错配对稳定性有很大影响,因为一个碱基占5聚体长度的20%。因此,在适当的条件下,通过短寡核苷酸探针可以获得高度特异性。即使如此,错配也有可能发生,并且由于分子相互作用的随机性质,在一些情况下,它们的结合持续时间可能与所有5个碱基都是特定的结合不可区分。然而,用于进行碱基(或序列)调用和组装的算法会考虑错配的发生。许多类型的错配是可预测的,并且符合某些规则。这些规则中的一些可以通过理论考虑推导出来;其它通过实验推导出来(例如,Maskos和Southern《核酸研究》,Williams等人《核酸研究》22:13651367(1994))。
在本发明的一个实施例中,使用包含一种或多种已知靶多核苷酸(例如,λ噬菌体DNA或包含超序列的合成构建体,所述超序列包含库中的每个寡核苷酸的互补序列)的训练集来测试来自库的每个寡核苷酸的重复结合。可以使用机器学习算法来确定寡核苷酸探针的结合和错配特征。因此,与直觉相反,错配结合被视为是提供进一步数据的方式,所述数据可以用于组装序列和/或增加序列的置信度。
某些异常序列以非沃森克里克方式结合,或者短基序可导致异常高的结合速率或异常低的解离速率。例如,RNA与DNA之间的嘌呤-聚嘧啶相互作用非常强(例如,RNA基序,如agg)。通过提供更加稳定的成核序列,所以这些序列不仅具有较低的解离速率,而且还具有较高的结合速率。在一些情况下,结合发生在不一定符合某些已知规则的异常序列中。算法可以被设计成鉴定这类异常值或考虑这类异常值的预期。
在固着双链DNA(例如天然人类基因组DNA)的情况下,来自1024组的一个寡核苷酸(反义)将结合于一条链(有义),而其它寡核苷酸(有义)结合于另一条链(反义)。甚至在变性之后,可能也不能立即区分特定寡核苷酸结合哪些链,有义还是反义。
可能不能立即区分探针中的一个探针结合于哪些变性链。然而,全部测序数据集可以揭示这一点,因为发现寡核苷酸结合的重叠序列纳米级定位至一侧或另一侧(参见图7)。
两条链保持共同定位的意外益处是,它实现极高的准确度,其中碱基序列分配基于独立询问的互补靶位点。一个特定的寡核苷酸与一条链结合的真实性可以通过其补体序列与另一条链的结合来确定,这另一条链在几纳米或数纳米内共同定位在表面上。
在一些实施例中,使用具有6个界定碱基的寡核苷酸探针;完整库包含4096个序列。在一些实施例中,使用具有5个界定碱基的寡核苷酸探针;完整库包含1024个序列。在一些实施例中,界定5个或6个碱基并且在寡核苷酸长度内包括额外通用碱基或简并位置。
非特异性结合的结合时间段通常比特定探针要短,因此在数据处理期间通过计算来区分。举例来说,在某些条件下,短于10ms的结合事件被认为是非特异性的。
可以通过增加探针浓度、升高温度、增加分子拥挤度(例如,通过包括PEG 400、PEG800等)来操纵(增加)探针的结合速率。通过工程化探针的化学成分使探针的热稳定性降低,添加去稳定附件,或者在寡核苷酸的情况下,缩短其长度可以增加解离速率。还可以通过升高温度、降低盐浓度(例如,提高严格性)、pH值向规模极值移动来增加解离速率。
通过增加探针浓度来增加结合速率可能存在问题,因为溶液中由探针引起的背景荧光可能变得明显。表面上的单分子检测依赖于低背景信号,背景信号低到可以从背景中检测到结合于表面的信号。
在一些实施例中,可以通过使探针在它们结合之前基本上无荧光来增加所用探针的浓度。做到这一点的一个方法是,结合引发光激活事件。另一个是探针发荧光。另一个是在结合发生之前淬灭标记(例如,分子信标)。另一个是信号作为能量转移事件(例如,FRET、CRET、BRET)的结果被检测到。在一个实施例中,表面上的生物聚合物具有供体并且探针具有受体,反之亦然。在另一实施例中,在溶液中提供嵌入染料,并且在标记的探针结合时,在嵌入染料与探针之间存在FRET相互作用。嵌入染料可以是供体,并且探针上的标记是受体,反之亦然。举例来说,嵌入染料可以是YOYO-1 1000-10,000x原液稀释液或Evagreen 100-10,000x原液稀释液,并且探针上的标记可以是ATTO 655。在另一实施例中,使用没有FRET机制的嵌入染料-表面上的单链靶序列和探针序列都是未标记的,并且只有当结合产生嵌入染料嵌入的双链时才检测到信号。嵌入染料在其未嵌入DNA中并且实际上在溶液中游离时亮度要低100倍或1000倍,取决于其身份;这一点与TIRF或HILO显微术联合可消除溶液中嵌入染料的任何背景信号。
在一些实施例中,本发明包含对单个靶多核苷酸上的核苷酸修饰和/或碱基进行测序的方法,其包含:
i)将多核苷酸固着在表面或基质上;
ii)在使探针可瞬时结合于多核苷酸以实现从多核苷酸检测到的一种或多种荧光(或其它可检测)信号的变化的条件下添加一个或多个标记的探针物质;
iii)在一段时间内在检测器上连续监测来自多核苷酸的一个或多个信号并记录结合事件;
iv)去除b的探针;
v)每次用不同的一种或多种探针物质重复步骤ii-iv;以及
vi)对来自步骤iii的每次迭代的数据进行编译以重建修饰和/或碱基的序列。
在某些实施例中,本发明的方法可以在多核苷酸的阵列上操作。在一些实施例中,将靶多核苷酸的阵列固着,以便可以在单个视野中观看到多个多核苷酸。
在一些实施例中,将靶多核苷酸伸长或拉伸,以便可以沿着它们的长度观看到化学特征(碱基序列、破坏、修饰)。在一些实施例中,将单个非常长的靶多核苷酸固着,以便可以在单个视野中观看到基本上其整个长度(Frietag等人)。
在一些实施例中,流体容器是小孔。在一些实施例中,流体容器是流动池。在一些实施例中,表面涂有一个或多个化学层、生化层(例如,BSA-生物素、链霉亲和素)、脂质层、水凝胶或凝胶层。
在一些实施例中,天然多核苷酸在它们被展示用于测序之前不需要处理。这使得所述方法能够将表观基因组信息与序列信息结合起来,因为DNA的化学修饰将保持不变。优选地,多核苷酸在方向上良好地对齐,因此相对容易成像、图像处理、碱基调用和组装;序列误差率低,并且覆盖度高。描述了用于实施本发明的多种方式,但每种方式都是为了完全或几乎完全消除样品制备的负担进行的。
本发明是令人意外的并且与直觉相反,因为它允许通过进行比基因组DNA中的碱基数目少几个数量级的试剂添加循环来对基因组DNA的一百万个或更多个基本上连续的碱基进行测序。本发明的方法部分地基于以下发现,即单个靶多核苷酸分子可以通过检测探针与它们的瞬时结合来测序。因此,在多个方面和实施例中,本发明包括:获得长度较长的多核苷酸;将多核苷酸安置成线性状态,以便沿着其长度可以追踪部位。
在一些实施例中,多核苷酸全长或接近全长包含具有可忽略数目的间隙的连续读段。这提供了长程基因组结构,即使基因组的区域重复,并且还允许分辨各个单倍型。这种方法可以从一个或仅仅几个细胞提供高度完整的序列。
在一些实施例中,使用算法经由从头组装获得连续序列。在一些情况下,算法的任务相对简单,因为通过实验获得高比例的重叠序列位的部位。然而,如果存在困难或为了提高置信度,也可以使用参考序列来促进组装。使用一些算法来分辨覆盖非常长的距离的各个单倍型,所述算法处理来自多个多核苷酸的信息。
以多种方式从数据中提取序列。从序列重建方法的一方面说,单体或一串单体的定位是如此精确(纳米级或亚纳米级),以至于仅通过对单体或串进行排序就可以获得序列。从另一方面说,将数据用来排除关于序列的各种假设。例如,一个假设是该序列对应于已知的个别基因组序列。算法确定了数据在何处从个别基因组发散。在另一种情况下,假设是该序列对应于“正常”体细胞的已知基因组序列。算法确定了来自假定的肿瘤细胞的数据在何处从“正常”体细胞的序列发散。可以跨越这些方法范围实现变化。
因此,在一些实施例中,未知序列的组装包含:
a)提供参考基因组
b)计算机确定参考基因组与寡核苷酸库的理论结合模式
c)将实际数据与计算机理论参考比较;
d)确定实际数据与计算机理论参考之间的差异;以及
e)根据d中发现的差异修饰/重建参考序列,以产生此前未知的序列的组装。
在一些实施例中,差异包含取代、插入缺失和结构变异。具体来说,当未通过本发明的方法组装参考序列时,压缩重复序列,并且重建将解压缩。
在一些实施例中,在从多个细胞获得基因组DNA的情况下,多个分子之间的数据可以整合。多个分子中的每个分子至少与多个分子中的另一个分子部分地重叠,并且通过匹配共同探针结合模式将它们对齐。部分重叠分子中的每个分子与另一分子共享一段序列。一旦通过计算进行对齐,就可以使用每个分子独特的序列来填充间隙,产生完全或基本上连续的组装序列。
可以在多个单独的多核苷酸(非克隆)上平行实施所述方法,并且多个多核苷酸的安置方式使得它们在很大程度上可以在其整个长度(或大部分长度)上单独分辨出,并且各个多核苷酸之间的重叠极少或者不会出现。如果发生并排重叠,则可以通过来自DNA染色剂的荧光增加来检测这一点,或在未使用染色剂的情况下,通过结合事件的频率增加来检测;在分子(衍射极限)在光学上似乎重叠但在物理学上并不重叠的情况下,可以通过使用由本发明提供的单分子定位所提供的超分辩来对它们进行分辨。在一些实施例中,在发生端对端重叠的情况下,可以使用标记多核苷酸末端的标记来区分并列的多核苷酸与真实连续长度的多核苷酸。如果预期基因组有许多拷贝,并且只发现一个表观嵌合体存在,则这样的光学嵌合体也被认为是假象。此外,在分子末端(衍射极限)在光学上看起来重叠但在物理学上不重叠的情况下,它们可以通过本发明的方法来分辨。在一些实施例中,部位确定精确到可分辨出从非常接近的标记发出的信号。
可以通过使用淬灭的探针分子信标,或具有两个或更多个相同类型的标记,例如在寡核苷酸的每一侧各有一个来实现高溶液浓度的探针,而不会造成不利的背景。在溶液中时,它们经由染料-染料相互作用淬灭。但当与它们的靶结合时,它们开始分开,并且能够发出明亮的荧光,亮度是单个染料的两倍,这使得它们更容易被检测到。已知Cy3的这类染料-染料相互作用。
在一个方面,本发明包含一种通过探针库的瞬时结合对聚合物进行测序的装置,所述装置包含光源、流体导管、光学组件、检测器、电子电路、任选地计算机处理器和计算机存储器。将DNA安置在流体容器中并与结合探针呈流体接触,光源发出光,使得与结合探针相关联的标记被检测器检测到。在一些实施例中,检测器为2D检测器。在一些实施例中,多核苷酸保持在流体导管的一个部分中,并且结合探针保持在另一部分中。任选地,流体导管的一个部分经由阀门与其它部分分开。在一些实施例中,寡核苷酸或寡核苷酸组呈液滴或包装递送。在一些实施例中,液滴预装载在其中进行测序的流动池上。
在一些实施例中,首先从第一多核苷酸组选择待测序的多核苷酸亚组。在一些这样的实施例中,使用在溶液中的捕获寡核苷酸以与多核苷酸亚组杂交,并拉吸其离开溶液。举例来说,可以使用Agilent的SureSelect或类似的方法。在一些实施例中,选择涉及CRISPR类型方法,其中通过蛋白质结合来促进核酸结合。类似地,可以通过捕获抗体、纳米抗体、亲和抗体、适体等从溶液中选择待测序的蛋白质或多肽。类似地,可以通过捕获抗原从溶液中选择待测序的抗体、亲和抗体或纳米抗体。分离的生物聚合物在表面上排列并进行本发明的测序方法。
在一些实施例中,结合探针包含CRISPR系统,所述CRISPR系统包含蛋白质(例如,cas9)和向导RNA。在一些实施例中,测序的目的是确定向导RNA的结合部位以检测靶和脱靶效应。
在一些实施例中,靶多核苷酸是体液中存在的靶多核苷酸,例如血液中的循环DNA或RNA。在血液中这样的多核苷酸长度短,约200个碱基,而在尿液中更短。这些多核苷酸可以固着在表面上并进行本发明的测序方法。一些这样的多核苷酸具有单链末端,它们可以通过单链末端来固着。举例来说,它们可以固着在乙烯基硅烷表面(Genomic Vision,France)上。在一些实施例中,将循环DNA或RNA环化并将环用于滚环反应。在一些实施例中,环化通过酶如环化连接酶进行。在一些实施例中,作为滚环扩增反应的产物,长度较长的串联复本在表面上或基质中进行拉伸,然后进行本发明的测序方法;这类方法允许获得循环多核苷酸的共有序列。在一些实施例中,在待检测的循环DNA罕见的情况下,例如在癌症的早期检测的情况下,通过串联复本的测序获得的共有序列使得获得的准确度水平能够超过测序方法的误差率。举例来说,如果方法的原始准确度是99.9%,那么共有读段可实现99.999%的准确度,从而能够检测极罕见的变体。在这种情形下滚环扩增的优点在于,它不永存来自第一轮或早期数轮拷贝的误差(就像PCR一样),因为每个扩增子直接从环化多核苷酸复制。
在一些实施例中,沿着拉伸分子原位应用所述方法。在一些实施例中,在染色质上原位应用所述方法。在一些实施例中,可以在有丝分裂/中期染色体上原位应用所述方法。在一些实施例中,在分裂间期染色体上原位应用所述方法。在一些实施例中,可以在内部细胞的染色体DNA上原位应用所述方法。在一些实施例中,可以沿着串联复本原位应用所述方法。
在一些实施例中,当目标是对DNA测序时,在测序开始之前向样品中施加RNA酶。在一些实施例中,当目标是对RNA测序时,在测序开始之前向样品中施加DNA酶。在一些实施例中,当要对细胞质核酸和细胞核核酸都进行分析时,有差异地或依次地提取它们。首先破坏细胞膜(而不是核膜)以释放和收集细胞质核酸。然后破坏核膜以释放细胞核核酸。在一些实施例中,蛋白质和多肽作为细胞质部分的一部分来收集。在一些实施例中,RNA作为细胞质部分的一部分来收集。在一些实施例中,DNA作为细胞核部分的一部分来收集。在一些实施例中,将细胞质和细胞核部分一起提取。在一些实施例中,在提取后,有差异地捕获mRNA和基因组DNA。例如,通过附着于表面的寡聚dT探针捕获mRNA。这可在流动池的第一部分中发生,并且在具有疏水性乙烯基硅烷涂层的流动池的第二部分中捕获DNA,在该涂层上可以捕获DNA的末端(可能由于疏水相互作用)。
迄今描述的瞬时结合机制都是被动的,之所以会这样,是因为探针结合不稳定。以下描述了本发明的一替代实施例,其中瞬时结合是主动机制。这里,探针结合是稳定的并且必须通过物理或分子方式才能去除掉。
因此,主动瞬时结合回路包含:
1)使寡核苷酸或寡核苷酸组稳定地与靶结合;
2)自靶主动地去除寡核苷酸或寡核苷酸组;以及
3)重复1和2。
在一些实施例中,进行所述回路至少两次。在一些实施例中,连续监测结合-解离。在一些实施例中,仅监测结合。步骤1中的寡核苷酸与靶结合包含结合相同序列的许多寡核苷酸。在一些实施例中,在步骤1中多个寡核苷酸序列与靶结合,结合于靶上的不同位点。
在一些实施例中,测序方法包含:
1)添加寡核苷酸1或寡核苷酸组1;
2)使寡核苷酸与靶位点亚组稳定结合,同时进行成像;
3)主动从靶去除寡核苷酸;
4)重复2和3直到从足够的部位收集到足够的照片;
5)洗掉寡核苷酸;
6)添加寡核苷酸2或寡核苷酸组2;
7)重复步骤2-5;
8)添加寡核苷酸3或寡核苷酸组3;
9)重复步骤2-5;以及
10)继续上述过程,直到耗尽库。
在一些实施例中,每个寡核苷酸或寡核苷酸组多次进行步骤2和3。这是出于许多原因才进行的。因为结合是随机过程,所以如果结合进行适当的时间,在平衡前或在早期中止反应,那么仅一小部分结合位点将被占据。因此,如果所用的寡核苷酸或寡核苷酸组的结合位点总体上太靠在一起而无法逐个分辨出,那么将亚组在统计学上进一步分开,以在适当设定寡核苷酸的浓度和反应时间的情况下可分别检测到它们。可通过经验来确定适当的时间和浓度。这将允许结合不同的位点亚组并在每次迭代时询问。多次进行结合的另一个原因是允许所有或几乎所有的大部分位点都被询问,并且基本上所有或大部分的位点各自都被询问多次,因此增强灵敏度和准确度。
在一些实施例中,通过温度变化来实现主动结合和去除。在一些实施例中,通过试剂变化来实现主动结合和去除。在一些实施例中,通过电性变化来实现主动结合和去除。
在本发明的一些实施例中,在探针结合期过程期间,可以改变温度,以便可确定在超过一种温度下探针的结合行为。在一些实施例中,进行解链曲线的模拟,其中与靶聚合物的结合行为或结合模式与所选定范围,例如10℃至65℃内的温度上升相关。
在一些实施例中,作为改变用于具有不同Tm的寡核苷酸探针的温度的替代或除此之外,可以改变其浓度和/或盐条件和/或可以改变pH值。在一些实施例中,表面上的电偏压在正与负之间反复切换,以主动促进瞬时结合。
在一些替代实施例中,通过非光学方法检测瞬时单分子结合。在一些实施例中,非光学方法是电学方法。在一些实施例中,通过非荧光方法检测瞬时单分子结合,其中没有直接激发方法,而是使用生物发光或化学发光机制。
在一些实施例中,本发明包含用于对靶多核苷酸测序的方法,其包含:
1)将靶多核苷酸通过沿着其长度与表面/基质的一种或多种相互作用(例如,多个相互作用)来固着;
2)在如果在靶中发现匹配,就会发生持续时间或持久性与上述非特异性结合可区分的瞬时结合的条件(寡核苷酸浓度、盐浓度、温度)下使固着的靶多核苷酸充满具有给定序列和长度或化学组成的寡核苷酸;
3)检测瞬时结合事件并记录其2D坐标;
4)去除寡核苷酸;
5)添加下一个寡核苷酸组并重复3和4,直到测试了给定长度的序列的整个库并去除;以及
6)基于瞬时结合的寡核苷酸的部位使用算法对固着的靶多核苷酸的序列进行编译。
本发明的方法尤其适合于对非常长的聚合物长度进行测序,其中保留了天然长度或其相当大的比例(例如,对于DNA全染色体或约1Mbp部分)。然而,常用的分子生物学方法会导致DNA片段化。任何的移液、涡旋会产生剪切力,使DNA分子断裂;核酸酶污染会导致核酸降解。在本发明的一些实施例中,在固着、拉伸和测序开始之前保留了天然长度或天然长度的相当大的高分子量(HMW)片段。
这里,在一些实施例中,本发明包含用于对靶多核苷酸测序的方法,其包含:
1)将细胞放置在微流体容器或装置中;
2)从所述细胞提取多核苷酸到微流体环境中;
3)将靶多核苷酸通过沿着其长度与表面/基质的一种或多种相互作用(例如,多个相互作用)来固着和伸长;
4)在如果在靶中发现匹配,就会发生持续时间或持久性与上述非特异性结合可区分的瞬时结合的条件(寡核苷酸浓度、盐浓度、温度)下使固着的靶多核苷酸充满具有给定序列和长度或化学组成的寡核苷酸;
5)检测瞬时结合事件并记录其2D坐标;
6)去除寡核苷酸;
7)每次用不同的寡核苷酸重复4-6,直到已经测试了具有给定长度的序列的整个库;
8)使用单分子定位算法纳米级定位每个结合位点;以及
9)基于瞬时结合的寡核苷酸的部位使用算法对固着的靶多核苷酸的序列进行编译。
在一些实施例中,一次分析或考虑单个拉直的线性聚合物。在这种情况下,只需要1D坐标,而不是记录2D坐标。
在一些实施例中,在步骤1之后、期间或之前,将多核苷酸片段化为相对均一的较长的长度(例如,约1Mb)。在一些实施例中,在步骤2之后或期间,将多核苷酸片段化为相对均一的较长的长度。在一些实施例中,片段化是通过酶促实现的。在一些实施例中,片段化是通过物理方式实现的。在一些实施例中,物理片段化是经由超声处理进行的。在一些实施例中,物理片段化是经由离子轰击或辐射进行的。在一些实施例中,物理片段化是经由电磁辐射进行的。在一些实施例中,物理片段化是经由UV照射进行的。在一些实施例中,控制UV照射的剂量以实现形成给定长度的片段化。在一些实施例中,物理片段化是经由UV照射与染料(例如,YOYO-1)染色的组合进行的。在一些实施例中,通过物理作用或添加试剂来停止片段化过程。在一些实施例中,停止片段化过程的试剂是还原剂,例如β-巯基乙醇(BME)。
在一些实施例中,本发明包括:
1)将细胞放置在微流体容器或装置中;
2)将细胞用嵌入染料染色;
3)提供预定剂量的UV光来实现嵌入染料介导的片段化;
4)任选地停止片段化;
5)从所述细胞提取多核苷酸到微流体环境中;
6)将多核苷酸固着和伸长;以及
7)在固着和伸长的多核苷酸上原位测序。
这些步骤可以添加至本发明的各种实施例,包括作用于分离的单细胞的实施例。
在一些实施例中,将每个细胞单独分离,其DNA单独提取,并且在微流体容器或装置中单独测序。在一些实施例中,通过用清洁剂和或蛋白酶处理来进行提取。在一些实施例中,在溶液中提供螯合剂(例如,EDTA)以除去核酸酶所需的二价阳离子。在一些实施例中,并且对于特定样品源,二价阳离子的浓度高于通常分子生物学中所用的二价阳离子的浓度。
在一些有利的实施例中,本发明比流行的测序技术快。在一些有利的实施例中,本发明的成本比流行的测序技术低。在一些有利的实施例中,本发明提供的读段比流行的测序技术长。在一些有利的实施例中,本发明的准确度比流行的测序技术高。在一些有利的实施例中,本发明的灵敏度比流行的测序技术高。在最有利的实施例中,本发明提供所有前述的优点。此外,在一些有利的实施例中,尽管流动池、仪器和计算能力的成本增加了成本,但使用少量的生化试剂,仅花费几美元或更少,就可以在大约一小时内对全基因组测序。举例来说,可以花约1美元购买具有20碱基标记位点的5聚体,并且完整库将花费1000美元。可以稳定地与标记位点结合的荧光标记的寡核苷酸需约50美元。将使用约百万分之一的以微摩尔规模合成的这类寡核苷酸,导致每次操作成本低于一美元。
本发明的方法的显著之处在于其不需要酶并且只消耗探针(寡核苷酸)的稀溶液。因此方法成本低。测序化学仅消耗探针和缓冲液,因此,成本由设备和塑料器皿控制。
本发明的出人意料的特征是,单分子伸长的靶在数百次的试剂更换和洗涤循环内保持稳定。
通过单分子定位实现的本发明的一个显著方面是,当完全占据时10nm间距的有序阵列将每平方厘米产生万亿靶分子。
本发明的另一个显著方面是,靶中的单个碱取代将引起十个5聚体探针(例如)相对于参考序列改变:之前不结合的五个探针现在将结合,并且之前结合的五个探针现在将不结合。在另一条链上也会看到这个改变。
在本发明的优选实施例中,本发明与现有技术的区别在于包含以下要素中的两个或更多个:在固着多核苷酸之前不事先制备文库;在一些实施例中,多核苷酸在一个取向上对齐;瞬时结合;重复结合;多核苷酸中的连续序列通过将序列信息的位缝合在一起来构建。
在本发明的一些实施例中,在分析开始之前,将进行该方法所需的基本上所有的试剂都预装载在流体装置上。在一些实施例中,试剂(例如,探针)以干燥状态处于和存在于装置中,并且在反应进行之前将其润湿和溶解。
在一些实施例中,所述方法包含在无试剂更换的成像过程期间对包含与单个聚合物的多个结合事件的靶生物聚合物测序的手段。在一些实施例中,多个结合事件在单个生物聚合物上的多个部位中的每一个上发生一次或多次。
在一些实施例中,测序方法包含序列探针与单个多核苷酸的瞬时结合,其中所述探针基本上与单个多核苷酸上的多个重叠位点中的每一个互补。在一些实施例中,所述方法的部位准确度和精度可分辨每个重叠位点。
在一些实施例中,测序方法包含序列探针库与单个多核苷酸的瞬时结合,其中库中的多个探针各自基本上与单个多核苷酸上的序列位互补,其中两个或更多个探针与重叠位点结合的结合在时间上是分开的。
在一些实施例中,测序方法包含覆瓦式序列探针组与单个多核苷酸的瞬时结合,其中组中的多个探针各自基本上与单个多核苷酸上的序列位互补,其中两个或更多个探针与重叠位点/位的结合在时间上是分开的。
在一些实施例中,测序方法包含序列探针小组与单个多核苷酸的结合,其中小组中的多个探针各自基本上与单个多核苷酸上的序列位互补。在一些这样的实施例中,序列位被相同或不同的探针多次询问。
在一些实施例中,本发明包含分析靶蛋白质上的氨基酸序列的方法。在一些实施例中,本发明包含分析靶多肽上的氨基酸序列的方法。在一些实施例中,本发明包含分析靶多核苷酸上的肽修饰以及氨基酸序列的方法。
在一些实施例中,本发明的方法应用于多肽的测序。20种氨基酸中的每一种由对应的特异性探针结合,所述探针包含N-识别蛋白、纳米抗体、抗体、适体等。每个探针的结合对多肽链内的每一对应氨基酸具有特异性。
在一些实施例中,测定多肽中的亚基的顺序。在一些实施例中,结合是与结合位点的替代物的结合。在一些实施例中,替代物是附着在某些氨基酸或肽序列的标签。瞬时结合是与替代标签的结合。
在一些实施例中,本发明包含确定聚合物的身份。在一些实施例中,本发明包含确定细胞或组织的身份。在一些实施例中,本发明包含确定生物体的身份。在一些实施例中,本发明包含确定个体的身份。在一些实施例中,本发明的方法应用于单细胞测序。
在一些实施例中,测序在细胞内原位进行细胞的内含物可称为基质,并且在瞬时结合开始之前固定、变性。在一些实施例中,细胞可形成单层,或另外,它们是例如组织或类器官的3D体系结构的一部分。可以使用能够检测3D结构中的事件的成像方法,例如多光子显微术和光片显微术。将分子固定在基质或凝胶中以及其中的询问提供了捕获所有分子(包括罕见的那些分子)的能力。在一些实施例中,细胞(例如,循环肿瘤细胞CTC)分散在表面上并进行测序。在一些实施例中,细胞分散在表面上以使得每个细胞与其它细胞充分地分离。然后可以使细胞溶解并且其分子存量可被捕获在表面上并进行本发明的测序方法。
在一些这样的实施例中,所述方法包含:
I)将多核苷酸的部位固定在细胞内;
II)添加具有给定特异性的寡核苷酸并使用单分子定位来测定所有结合事件的部位;
III)添加具有不同特异性的寡核苷酸并使用单分子定位来测定所有结合事件的部位;
IV)重复步骤II-III;以及
V)通过对寡核苷酸的结合部位进行编译,在细胞内重建多核苷酸的线性路径或区域部位的序列。
在上述一些实施例中,使用一种机制(FRET、荧光标记、猝灭标记等)最大限度地减少背景荧光/光散射,背景荧光/光散射会使各个点源的检测有困难。在上述一些实施例中,在本发明应用于剩余DNA之前,使用RNA酶来去除RNA。在上述一些实施例中,在添加寡核苷酸之前原位使双链体DNA变性。
在一些实施例中,还通过使用单分子定位确定修饰如5甲基C(5MC)的部位来确定修饰的部位。
本发明的一些实施例被设计成解决数字分子计数中的问题。分子计数中的一个问题是获得高精度可再现的数据。由于分子相互作用的随机性质,终点数字计数测定法可能会漏掉某些在进行终点测量时不存在的事件,或者它可能会计数虚假事件(例如,非特异性结合或部分匹配)。出于这个原因,如下的数字计数测定法更合适,其中通过多次(或重复)结合的瞬时结合探针检测计数的分子。多个结合事件产生检测到某一真实内容的置信度,并且可确定检测到什么或检测到其某一特性(例如,部分匹配)。
因此,在一些实施例中,本发明包含一种计数样品中的分子(例如,含有特定序列的DNA片段)类型数目(或确定拷贝数)的方法,其包含:
a)在探针可与所述分子瞬时结合的条件下添加一种或多种探针物质;
b)在一段时间内在检测器上连续监测分子上的各个结合事件并记录;
c)分析来自步骤b的数据以滤出非验证相互作用并确定验证相互作用的数目,从而确定分子的拷贝数;以及
d)任选地,分子在步骤a之前固着在表面或基质上。
在一些实施例中,分子类型的计数是瞬时结合相互作用的突现性质的结果。一个探针结合事件或对结合的终点确定不足以确定分子类型数目的真实值;真实确定从多个结合事件的分析出现(是突现性质),这可以将小麦与谷壳区分开(真实事件与非真实事件)。
在一些实施例中,本发明包含一种计数一个或多个探针与分子之间的相互作用的方法,所述方法包含:
a)在探针可与所述分子瞬时结合的条件下添加具有给定特异性的一个或多个探针;
b)在一段时间内在检测器上连续监测分子上的各个结合事件并记录;
c)分析来自步骤b的数据以确定在所述时间段期间出现的相互作用数目;
d)任选地添加具有不同特异性的一个或多个探针并重复步骤b-c;以及
e)任选地,分子在步骤a之前固着在表面或基质上。在一些这样的实施例中,在步骤c中,相互作用通过每个相互作用的持续时间和落在每个分类中的事件数目来分类。这种实施例在例如测量序列与不同探针之间的匹配程度的情况下是有用的。这种实施例适用于先前区分真实事件与非真实事件的实施例。
可以建立多种准则,以判定什么构成真实事件,什么构成非真实事件,例如结合持续时间截止值是将真实事件与非真实事件分开的一个准则。
在例如PAINT的解决了含有高密度的需要测量的分子的稠密区域的某些单分子定位方法中,定位准确度取决于:(1)收集的光子数目(定位程度与光子数目成反比,因此要获得亚纳米或低纳米水平的定位,需要大量的光子);(2)低工作循环,即每个结合事件持续的时间短,由于结合事件是随机的,所以这在统计学上意味着在任何给定时间只发出一部分的,因此可单独分辨的信号。
在一些替代实施例中,在分子区域不稠密或不是高密度的或者在沿着伸长或拉伸聚合物的位点稀少的情况下,不需要低工作循环。信号或可检测的光子发射可以长存,并且检测的持续时间决定了使用单分子定位算法进行定位的程度。为了搜集更多光子,可以使用长暴露时间。在这样的实施例中,使用脉冲式或频闪照明来最大限度地减少探针的光漂白是有用的。并且来自染料的信号常通过用较低波长的光激发来恢复。因此,检测包含:
1)用波长1照射;
2)检测信号;
3)用波长2照射;以及
4)重复1-3直到收集的光子足够用于所需的定位。
当这个应用于测序以测定比如5聚体探针沿着多核苷酸的长度的部位时,序列位可以定位至几纳米,并且可以使用每个探针库的部位将多核苷酸的序列放在一起,这是结合事件库的部位的突现性质。这个实施例不要求瞬时结合,尽管如此,仍然是新颖的,因为信号定位至纳米或亚纳米尺寸。
在一些实施例中,将多核苷酸安置在含有培养基的流动通道中,培养基可以进行液体至凝胶的转变,以便在多核苷酸充分地分散和单独分离之后,可诱发溶胶-凝胶转变,这将多核苷酸固定在它们的部位中。然后可以将本发明的探针施加于被捕集在凝胶相中的多核苷酸。因为多核苷酸是3D分散的(尽管在一个取向上对齐),所以可以使用例如光片显微术的成像方法来使2D切片成像。
在一些实施例中,溶液具有两相,液相和固(或凝胶)相。多核苷酸最初在液相中伸长和分布,然后通过相变成固/凝胶相(例如,通过加热,或在聚丙烯酰胺的情况下,通过添加辅因子,或随着时间推移)来固定。在一些情况下,多核苷酸可以在固/凝胶相中伸长。接着将本发明的测序化学应用于固相中三维分离的静态多核苷酸。然后通过共焦、多光子、光片显微术、旋转圆盘共焦显微术等检测测序反应。这个实施例在需要对样品中基本上所有的分子(不只是那些在表面上捕获到的分子)都测序时是尤其相关的。在包含聚(N-异丙基丙烯酰胺)的培养基中处理多核苷酸;加热引起相变,建立水凝胶(Eriksen等人《生物微流体(Biomicrofluidics)》5:31101-311014 2011),水凝胶将多核苷酸固定在3D空间中,但允许试剂通过水凝胶进行更换。
在一些实施例中,聚合物被捕获在一端,然后因安置聚合物的液体培养基的流动,在聚合物上产生了力而拉直或拉伸。液/溶胶相转变至凝胶相,这使得分子变成静态的。
在一些方法中,当聚合物安置或开始安置在凝胶中时,特征沿着聚合物的长度的相对固定或静态位置(例如,序列但或氨基酸)允许通过单分子定位方法测定标记沿着聚合物的长度的部位。
因此,这些实施例包含:
I)在凝胶或基质中在单个取向上将多核苷酸对齐;
II)使具有给定特异性的荧光寡核苷酸流过凝胶或基质,以便寡核苷酸能够与多核苷酸进行瞬时相互作用;
III)使具有不同特异性的荧光寡核苷酸流过凝胶或基质,以便寡核苷酸能够与多核苷酸进行瞬时相互作用;
IV)重复步骤III;以及
V)使用关于每种特异性的寡核苷酸的结合部位的信息确定靶多核苷酸的序列。
在一些实施例中,通过序列特异性核酸结合蛋白如限制酶、切刻核酸内切酶和甲基转移酶的瞬时结合来获得序列信息。可在市面上购得大量的这类蛋白质,覆盖了大量的序列空间。可利用大量的识别回文序列的序列酶,上述三种蛋白质的一个特征是它们识别双链DNA中的序列。这些探针可用来替代来自完整库的一些寡核苷酸,例如将经历自身-自身或发夹相互作用的那些寡核苷酸中的一些,这些相互作用致使这些寡核苷酸在常见反应条件下成为相对低效的探针。
抗体或结合蛋白的瞬时结合可以通过操控反应条件如盐浓度来实现。在一些实施例中,为了实现瞬时结合,盐浓度升高到>100mM。在一些实施例中,盐浓度升高到>200mM。在一些实施例中,盐浓度升高到>300mM。在一些实施例中,瞬时结合通过缓冲液从低盐更换到高盐来主动实现。在一些实施例中,允许序列或修饰(例如甲基化)特异性结合蛋白稳定地或瞬时结合,并且它们的部位通过上面缀合的或直接与蛋白质结合或经由标签与蛋白质结合的标记的单分子定位来确定。
在一些实施例中,使反应颠倒,将探针固着,并测定与溶液中的分子(待分析的靶标)的瞬时相互作用。
在本发明的一些实施例中,分子不固着在表面或基质上,而是在溶液中自由扩散。通过荧光相关光谱法(FCS)进行检测。在一些这样的实施例中,分子(例如较大并且)比探针更缓慢地移动通过溶液。因此,在每个共焦点中,可以在分子扩散离开共焦点之前记录探针与分子的许多假定结合事件;这些结合事件将是互相关的。结合互相关与非结合互相关的不同之处在于探针在共焦点中的驻留时间。在一些实施例中,提供编码的寡核苷酸库,并通过解码荧光结合信号来确定结合寡核苷酸的身份(在统计学上一次发生一个)。
在一些这样的实施例中,所述方法包含:
I)将多核苷酸添加到溶液中;
II)照射分离单个多核苷酸的共焦体积;
III)使具有给定特异性的荧光寡核苷酸流动或放出其,以便寡核苷酸能够与多核苷酸进行瞬时相互作用;
IV)使具有不同特异性的荧光寡核苷酸流动或放出其,以便寡核苷酸能够与多核苷酸进行瞬时相互作用并测定其结合特征;
V)重复步骤IV;以及
VI)使用关于对每种特异性的寡核苷酸检测到的结合事件的持续时间和持久性的信息确定靶多核苷酸的序列。
在一些实施例中,结合特征包括结合持续时间是否超出预定阈值。
在一些实施例中,多核苷酸保持在溶液中,其整体允许其保持在相对相同的部位中或在共焦体积内,并且库的寡核苷酸逐个(或逐组)通过体积,或者优选地作为编码库,全部同时添加。在一些实施例中,多核苷酸整体允许其被物理捕集器(例如,激光捕集、静电捕集)捕集在固定部位处。在一些实施例中,多个多核苷酸可由多个光学捕集器分别捕集。
在一些实施例中,多核苷酸被限制在容器(例如,不可混溶的脂质囊泡)内。容器可允许更换探针,但不允许多核苷酸逃出。
在一些实施例中,共焦体积是多光子体积。
在一些实施例中,溶液内的聚合物不是固定的;聚合物在与携带库的不同探针的充分地分离的流动物流(例如层流物流)的方向垂直的方向上移动。移动是电泳性的(即,朝向正偏压电极),作用于分子量比流动物流中的寡核苷酸高的多核苷酸,所述流动物流的轨迹不会明显地受多核苷酸移动方向的影响。
在一些实施例中,多核苷酸只固着在一端,但在与表面(或在固着至例如光学捕集的珠粒时的2D检测平面)平行的流动物流中被拉伸,并且不会从沿着其长度的除这一端外的部位进行与表面的长期相互作用。在一些实施例中,在一端固着的多核苷酸是单链的。然后在流体体积中更换库的寡核苷酸。在一些实施例中,寡核苷酸的流动方向与多核苷酸的伸长方向相同。在一些实施例中,即使在寡核苷酸整体沿着流动方向传送时,个别寡核苷酸分子也会与伸长聚合物中的互补部位发生可检测的重复瞬时结合。
在一些实施例中,多核苷酸从固着点垂直于流动方向拉伸。这可通过提供垂直于流动方向的电场来实现。通过施加从1毫巴直到1巴压力,由压力驱动的流动来实现流动,并且电场可介于1与100伏特/厘米之间,其中固着多核苷酸末端的表面为负,并且流动池的另一表面为正,多核苷酸被吸引到这一表面。
在一些这样的实施例中,所述方法包含:
I.将多核苷酸在一端附着到表面并通过物理机制在一个方向上伸长;
II.使具有给定特异性的荧光寡核苷酸流动,以便寡核苷酸能够与多核苷酸进行瞬时相互作用;
III.使具有不同特异性的荧光寡核苷酸流动,以便寡核苷酸能够与多核苷酸进行瞬时相互作用;
IV.重复步骤III;以及
V.使用关于对每种特异性的寡核苷酸检测到的结合事件的持续时间和持久性的信息确定靶多核苷酸的序列
在一些实施例中,物理机制是流动拉伸、电泳拉伸或因作用于附着到多核苷酸一端的大体积实体(例如,珠粒)而拉伸。然后大体积实体可以经受激光捕集、静电捕集(如果它带电)、磁性捕集(如果它是顺磁的)。
在上述方法的多核苷酸是基因组DNA的情况下,所述方法可进一步包含将组装的多核苷酸序列重叠以组装染色体。
在一些实施例中,本发明涉及一种递送用于分析的生物大分子的方法,其包含:
1.提供包含生物大分子的保护性实体,所述保护性实体将生物大分子保留在接近其天然状态下;
2.将包含生物大分子的保护性实体放在分析区附近;
3.将生物大分子从保护性实体释放到分析区中;以及
4.根据本发明中所述的方法分析生物大分子。
在一些实施例中,根据仅一个界定核苷酸(例如,NNNXNNN,其中X是界定或编码的核苷酸)标记探针。在一些实施例中,NNNXNNN寡核苷酸的库包含位置X=A、C、G或T,并且位置N是A、C、G和T中的一个。寡核苷酸中的中心碱基根据其身份A、C、G或T进行差异标记。在一些实施例中,NNNXNNN寡核苷酸的四个文库(例如,每个文库包含以下寡核苷酸组:NNNANNN、NNNTNNN、NNNGNNN和NNCNNN)各自进行差异标记并用于均相反应中,在测序过程期间反应无需更换试剂。
使用互补核酸序列(例如,寡核苷酸探针)检测核酸序列非常容易。被寡核苷酸结合的序列(例如,5碱基)在本文中称作序列位。在一些测定法中,例如Fodor的基因-芯片测定法(例如,如Chee等人《科学》274:610-4.1996中所描述),探针被固着并且靶进行标记且提供于溶液中。在许多其它测定法中,靶被固着并且探针进行标记且提供于溶液中(例如,经由DNA印迹(Southern Blot),如Southern EM,《分子生物学杂志(Journal of MolecularBiology)》,98:503-517(1975)中所描述)。在这类测定法中,探针通过沃森-克里克相互作用与靶核酸序列杂交,过量的标记的探针被洗去并检测其余结合的探针。杂交需要正确的结合足够稳定,能经受住洗涤并在检测期间保持在适当的位置。已经提出了仅通过寡核苷酸库的杂交就对固着的多核苷酸测序的方法(例如,如Drmanac等人《科学》,260,1649-1652,1993中所述),并且已经证实这种‘杂交测序’(SbH)方法可对小基因组重测序(例如,如Pihlak等人《自然-生物技术(Nature,Biotechnlogy)》26:676-684 2008中所述)。Mir(WO2002074988,2001)进一步提出了在表面上拉伸的多核苷酸的SbH。所有前述探测和测序方法都是终点测定法并且需要探针与互补多核苷酸靶形成长期的相互作用。任何核酸相互作用都具有解离速率,但在核酸测定法的情况下,解离速率缓慢,慢到对测定法无显著影响的地步。当稳定地结合探针时,必须采取涉及严格剥除方案(包括高温)的特定步骤,以在串联中的下一个探针可以杂交之前去除探针。条件的苛刻性可以破坏DNA或从表面去除靶DNA,并且从发明人的经验来看,相当大量的探针保持持久有效地粘住。
本发明是一种新颖的与直觉相反的测序方法,它涉及探针与靶序列的短暂沃森-克里克相互作用。探针的化学结构(例如,序列、3D结构)被设计成在使用的条件下不形成长期稳定的相互作用。而是探针被设计成使得在检测过程期间大部分的探针分子结合于靶,然后解开。这不同于其中预期大部分探针在检测期间保持结合的杂交。
本发明的步骤包含以下事实:在基于杂交的尝试在测序时涉及稳定的长期结合的情况下,本发明的方法特别需要不稳定的短暂结合。已发现短到5个询问碱基的寡核苷酸不稳定的瞬时重复结合的条件,寡核苷酸足够短,以容易产生和浏览整个库(1024个寡核苷酸)。
虽然本发明与SbH有一些相似,但它没有遭受SbH的固有问题:一旦一个探针已经结合,比如5聚体,则其足迹将覆盖5个碱基的序列并抑制或阻挡部分地与5碱基足迹重叠的其它探针进行结合。即使在每次只用一个探针的情况下,如果探针的子序列串联重复,那么第一结合寡核苷酸将阻止从相邻位置获得信息。然而,因为本发明涉及瞬时结合,所以第一探针将脱落,这使得序列可用于第二探针结合,并且第二探针将脱落,以允许第三探针的结合,依此类推。本发明的方法的另一优点是,通过反复结合来验证每个序列位的真实性,而在SbH中,一旦某物被结合,它就被粘住,并且难以确定它是否是特异性还是非特异性结合的结果。另外,稳定的错配结合引起SbH的问题,但在本发明的情况下,可以通过结合持续时间、长持续时间结合频率等区分本发明的错配与完全匹配。在错配的一些情况下,例如4个碱基可能形成沃森至克里克碱基对,第5个不形成碱基对。在其它情况下,例如,4个可能形成沃森-克里克碱基对,第5个形成非沃森克里克碱基对。在一些情况下(例如,在形成非沃森-克里克键的情况下),具有一些沃森-克里克碱基对和一个或多个非沃森-克里克碱基对的非完全匹配实际上可能形成比完全匹配更稳定的相互作用,并且平均结合持续时间更长。搜集关于所有这类可能性的经验数据将改进本发明的测序技术的性能。可使用机器学习从实验子集学习这类行为,以便预测全集的行为。
本发明的短寡核苷酸的使用具有以下优点,即对靶序列的搜索通常涉及寻找3个、4个、5个或6个匹配,这发生得非常迅速并且靶序列的出现相当频繁。在一些实施例中,基本上所有的匹配和错配位点在检测过程期间都瞬时结合,而在一些实施例中,仅结合位点的一部分。
本发明的多核苷酸测序是寡核苷酸库的结合特征的突现性质。一般来说,SbH和杂交测定法从合成寡核苷酸的根据沃森-克里克规则的完全匹配与其靶向的天然多核苷酸的结合中获得信息,并且尽力去除包括错配的结合。本发明的一些实施例查看每个寡核苷酸与分析的多核苷酸的结合相互作用的库(超过阈值结合持续时间)。在一些实施例中,测序不仅包含从完全匹配缝合或重建序列,而且还通过分析每个寡核苷酸的结合倾向来获得序列。所述方法进行独特设置以测量每个寡核苷酸物质的结合倾向:结合-解离的速率和持续时间随探针与其结合的位点形成的碱基对的类型和数目而变。总之,寡核苷酸与它形成完全碱基配对或完全匹配的位点的重复结合相互作用往往与那些在它形成错配的部位处的相互作用不同,在错配中探针中的一些碱基不与靶标配对;在大多数情况下与错配位点结合往往比完全匹配位点短暂。使用经验数据来修改某些异常值的预期,在这些异常值中沃森-克里克错配结合比沃森至克里克匹配结合长久。本发明的算法可以考虑这一点。
在本发明的一些实施例中,检测步骤涉及拍摄多个图像帧(例如,影片或视频),在所述图像帧上记录探针的结合和解离。
在一些实施例中,检测步骤涉及检测每个互补位点的多个结合和解离事件。多个事件是来自相同探针分子的结合或解离,或被相同特异性的另一分子(即,对相同序列或分子结构具有特异性)替代,并且这可能多次发生。结合或解离不通过改变条件来实现,结合和解离都是在相同条件(盐浓度、温度等)下发生的,并且是因为探针-靶相互作用弱,使得结合是瞬时的。
在本发明的一些实施例中,测序是通过对单个靶多核苷酸上的多个部位处的多个结合-解离事件成像来进行的,所述单个靶多核苷酸比探针的长度短、与其长度相同或在其长度的数量级内。在这样的实施例中,将较长的靶多核苷酸片段化,或者已预先选择一小组片段并将其排列在表面上,使得每个多核苷酸分子都是可以单独分辨的。在这些情况下,使用探针与特定部位结合的频率或持续时间来确定探针是否与靶序列对应。探针结合的频率或持续时间还可以确定探针与靶序列的全部对应还是一部分对应(其余碱基是错配的)。
在本发明的一些实施例中,测序是通过对单个靶多核苷酸上的多个部位处的多个结合-解离事件成像来进行的,所述单个靶多核苷酸比探针长。在一些实施例中,确定单个多核苷酸上探针结合事件的部位。在一些实施例中,单个多核苷酸上探针结合事件的部位是通过伸长靶多核苷酸以便能够检测和分辨沿着其长度的不同部位来确定的。在一些实施例中,在表面上进行伸长。在一些实施例中,在纳米通道中进行伸长。在一些实施例中,当靶标的一端或两端处于拉力下时通过流体动力阻力进行伸长。在一些实施例中,伸长经由电泳力进行,例如当靶多核苷酸的一端被栓系、锚定或捕集而另一端在溶液或凝胶中自由悬垂时。
在一些实施例中,标记的探针的结合-解离需要丢弃或去除来自尚未结合的探针的信号。这可以通过使用例如渐逝场或波导照射或通过利用共振能量转移(RET,例如荧光或福斯特RET)或通过利用光激活(例如,如在《生物物理杂志(Biophys J.)》2015年2月17日;108(4):949-956中所描述)来进行。
在一些实施例中,探针未标记,但通过DNA染色剂如嵌入染料检测与靶标的相互作用,嵌入染料在结合发生或已经发生时插入至双链体中。一个或多个嵌入染料可嵌入至双链体中。嵌入染料一旦嵌入,其发射的荧光比由溶液中游离的嵌入染料产生的荧光强几个数量级。例如,来自嵌入的YOYO-1染料的信号比来自溶液中游离的YOYO-1染料的信号强约100倍。
本发明的这个方面最初是受以下观察促动,即当对轻度染色的(或在一定程度的光漂白之后)双链多核苷酸成像时,可以沿着多核苷酸观察到可能对应于单个嵌入染料分子的各个信号。为了促进YOYO-1染料在双链体中的更换并获得明亮的信号,在结合缓冲液中可以提供包含s和抗坏血酸的氧化还原-氧化系统(ROX)。
在一些实施例中,测序包含使伸长多核苷酸与探针的完整序列库的每个探针进行瞬时相互作用,探针一个接着一个提供(去除携带一个探针序列的溶液,并且添加携带下一个探针溶液的溶液)。在一些实施例中,每个探针在允许探针瞬时结合的条件下进行结合。因此,例如,一个探针在25℃下进行结合,下一个探针在30℃下进行结合。并且探针可以成组结合,例如同样地瞬时结合的所有探针可以成组搜集并一起使用。在一些这样的实施例中,对该组中的每个探针序列进行差异标记或差异编码。
在一些实施例中或在一些情况下,靶标中的某一部位的多个结合事件不是来自单个探针序列,而是通过分析来自库的数据并考虑由部分重叠序列产生的事件来确定的。例如,相同的(实际上是亚纳米级接近)部位被探针ATTAAG和TTAAGC结合,所述探针是共享共同的5碱基序列的6聚体,并且每个将验证另一个,以及在5碱基序列的任一侧使序列延伸一个碱基。在一些情况下,5碱基序列每一侧的碱基是错配的(通常预期末端的错配比内部的错配更能被容忍),并且只有两个结合事件中都存在的5碱基序列我们验证。
在一些实施例中,通过从嵌入染料到探针或靶序列上的标记的FRET检测信号。在一些这样的实施例中,探针在其一端用Cy3B标记来标记。在一些实施例中,在靶标固着之后,例如通过末端转移酶掺入充当FRET配偶体的荧光标记的核苷酸来标记所有靶分子的末端。
在一些实施例中,不使用完整序列库,而是使用覆盖所关注的特定序列区段的溶液探针的覆瓦式阵列。在一些实施例中,不使用完整序列库,而是使用探针小组,以便序列特异性的瞬时结合探针询问多个部位。
在一些实施例中,为了实施本发明,靶多核苷酸必须是单链的(例如,mRNA)或必须使其成为单链的。在一些实施例中,靶多核苷酸是双链的,并且瞬时结合是由探针的瞬时链侵入引起的。在一些实施例中,双链靶标含有切口(例如,天然的或由DNase1处理产生的),并且在反应条件下,一条链与另一条链瞬时裂开或剥离,或者发生天然的碱基对呼吸,这允许探针在被天然链置换之前瞬时结合。
在一些实施例中,通过分析针对每个探针搜集的瞬时数据来构建序列。在一些实施例中,这类数据包含结合事件在2-D表面上的坐标,通常与伸长多核苷酸的路径相关。
探针结合的部位提供了每个探针的结合顺序,可以被编译成连续序列。
在本说明书和权利要求书中,术语靶多核苷酸是指仅存在单链的情况和存在两条双螺旋链的情况。在仅意图双链或单个单链多核苷酸的情况下,会在文中指出。当提及RNA时,假设它是单链的。
在本说明书和权利要求书中,当在基板上记录结合或部位时,假定基板上的核酸上已发生相当大一部分的结合。
提取多核苷酸
在各种实施例中,方法还包含从细胞、细胞器、染色体、病毒、外来体或身体物质或体液中提取呈基本上完整的靶多核苷酸的单个靶多核苷酸分子。在各种实施例中,伸长/拉伸靶多核苷酸分子。在各种实施例中,靶多核苷酸分子固着在表面上。在各种实施例中,将靶多核苷酸分子安置在凝胶(例如,与Shag等人《自然规程(Nature Prototcols)》7:467-478(2012)比较)。在各种实施例中,将靶多核苷酸分子安置在微流体和/或纳米流体通道中。在各种实施例中,靶多核苷酸分子是完整的。
在各种实施例中,方法还包含对单细胞的基因组进行测序。在各种实施例中,方法还包含将多核苷酸从单细胞释放到流动通道中。在各种实施例中,流动通道的壁包含钝化,以防止多核苷酸螯合。在各种实施例中,钝化包含脂质、聚乙二醇(PEG)、酪蛋白和或牛血清白蛋白(BSA)涂层。
在一些实施例中,需要在进行提取之前,将所关注细胞与其它非关注细胞分开。有几种方法可用于从血液中分离循环肿瘤细胞或循环胎儿细胞,例如通过使用用于亲和捕获的表面市场。在一些实施例中,需要从人细胞中分离微生物细胞,其中关注的是检测和分析来自微生物细胞的多核苷酸。可以使用调理素来亲和捕获多种微生物并将它们与哺乳动物细胞分离,以便能够对微生物多核苷酸进行选择性测序。另外,可以进行差异溶解。这里,首先使用条件来溶解哺乳动物细胞。微生物细胞(尤其是分枝杆菌属(mycobacterium))通常能经受住用于溶解哺乳动物细胞的条件,因此保持完整,并且可通过洗掉哺乳动物细胞内含物而分离。然后使用更苛刻的条件从微生物细胞提取多核苷酸并对其进行选择性测序。
测序
一般来说,本发明的方法包括:
a)提供靶核酸;
b)进行瞬时结合反应以获得靶标上的第一组序列位的部位;
c)进行瞬时结合反应以获得靶标上的第二组序列位的部位;以及
d)进行瞬时结合反应以获得靶标上的第三组序列位的部位,依此类推。
在一些实施例中,多个寡核苷酸连结在一起或分开可确定的距离。
在一些实施例中,基于靶标之间的序列重叠的区段,将序列位所获自的靶标对齐,并产生较长的计算机重叠群,最终产生整个染色体的序列。
在本发明的一些实施例中,使靶多核苷酸与凝胶接触。在一些实施例中,与凝胶接触在伸长靶多核苷酸之后进行。在一些实施例中,与凝胶接触在伸长靶多核苷酸之前进行。
在一些实施例中,使用在靶多核苷酸中通常出现的序列。这可以是在基因组中超频繁出现的几种序列中的一个或多个。在这种情况下,容易获得基因组的指纹,而不是基因组的全序列。
在一些实施例中,本发明提高了可以通过对紧密装填的多核苷酸以及沿着多核苷酸的序列位进行超分辨获得的序列信息的密度。
在一个实施例中,所述方法包含以下步骤:
1)提取长度较长的基因组DNA并且不进行DNA的修饰或处理;
2)在表面上拉伸或伸长基因组DNA分子;
3)提供流动池(拉伸在流动池中发生或流动池构建在表面顶上)以便溶液可以流过在表面上拉伸的DNA;
4)使DNA变性;
5)添加瞬时结合探针;
6)例如使用激光全内反射(TIR)照射、焦点检测/保持机构、CCD相机、适当物镜、中继透镜和反射镜,检测每个部位上哪个探针结合;
7)相对于CCD相机,平移上面安装了流动池的平台,以便对在不同部位(在其第一位置处CCD视野外)呈现的基因组分子或分子部分进行测序;以及
8)必要时重复步骤5-7;以及
9)数据处理,其包含:
a)处理图像;
b)进行序列调用;
c)将序列调用系到空间部位;
d)确定哪些序列调用部位符合一条线;
e)使用所获得的信息来组装测序读段以提供超连续读段;
f)使用组装的读段来组装基因组;以及
g)优选地经由计算机或智能电话类型装置上的图形接口向用户提供序列读段和/或组装的基因组。
在可以从多个细胞中提取基因组DNA的情况下,分子的许多拷贝显示在表面上;收集来自相同同源物的结果并获得共有序列读段;根据单倍型或亲代染色体特异性将同源分子分开。
在一些实施例中,作为一种检测手段,记录瞬时结合,但不用于改进定位。在一些情况下,分子稀疏地排列,且不需要提高定位。然而,抵抗光漂白的稳固性和滤出非特异性背景的能力(可以处理掉永久粘住的信号)使方法令人信服。
在一些实施例中,探针保持结合于靶标但具有尾或瓣,瞬时结合标记断续结合所述尾或瓣。在一些实施例中,尾由非沃森-克里克碱基配对核酸类似物构成。
单碱基询问
在一些实施例中,根据仅一个界定的核苷酸来标记探针。
在一些实施例中,将寡核苷酸分成界定不同的核苷酸ACGT的物质,并且对与每个不同核苷酸对应的每个寡核苷酸进行差异标记并任选地一起添加至测序反应
在一些实施例中,不对寡核苷酸进行差异标记,但在洗涤清除掉先前的核苷酸之后,分开添加每个碱基类型。
在一些实施例中,为了检测相对较短的时间尺度(例如,一分钟或多分钟)内的结合事件,需要对应较高浓度的仅界定1个或几个碱基的寡核苷酸,以处理较高复杂性的寡核苷酸文库。在10nM的界定5个碱基的寡核苷酸足够的情况下,需要256倍更高浓度的仅界定一个碱基的寡核苷酸。这对应于2.56uM的寡核苷酸(在一些实施例中,由于错配等,较低的浓度足够),其引起的背景荧光水平将使得难以检测表面上多核苷酸靶的结合事件,即使从表面使用指数衰减的渐逝场照射。因为背景荧光基本上由光散射引起,所以在一些实施例中,它可以进行时间门控。在一些实施例中,采用一种机制,其中溶液中的高浓度寡核苷酸不是荧光的,而是能发荧光的,被猝灭或不直接被激发,而只会在经历来自附着到表面的实体或靶多核苷酸本身的共振能量转移时发光。在一些实施例中,激发嵌入所形成的双链体中的染料,并在结合时将能量转移到寡核苷酸上的荧光标记。在一些实施例中,当一次一个地添加所界定的寡核苷酸库中的每一个时,没有标记附着到寡核苷酸,并且只有来自溶液的核酸染色剂或嵌入染料用于标记结合事件。
在一些实施例中,在寡核苷酸中仅一个碱基被界定并且其余位置简并的情况下,针对4个可能界定的碱基A、C、G或T,只需要4次或更少的试剂更换循环。在一些实施例中,每个碱基用独特标记编码,并且在存在同时检测所有4种标记的手段的情况下,不需要更换试剂。当进行这类均相或一锅测序反应时,仪器非常简单,基本上就一个显微镜,无需更换试剂。例如,只添加一滴含寡核苷酸混合物(寡核苷酸探针物质的混合物)的适当缓冲液至靶多核苷酸所定位的盖玻片上,然后在足够一个或多个结合事件覆盖整个序列的时间段内观察结合事件。这种均相反应进行数小时,并且密封以免蒸发。如果使用足够高的体积,那么可能在表面附近试剂被耗尽,这可以通过从溶液主体扩散(例如,这可以通过湍流或混沌混合来增强)来促进试剂更换解决。或者,不是为了添加不同的寡核苷酸混合物,而只是替换耗尽的试剂,可更换试剂。
在一些这样的实施例中,将靶多核苷酸伸长或拉伸以便确定结合事件的部位,因此确定核苷酸沿着多核苷酸的长度的部位。在一些这样的实施例中,多核苷酸是单链的,因此关于寡核苷酸结合的链明确;这是有帮助的,因为这种单核苷酸询问方法未构建覆瓦式路径来解卷积变性双螺旋多核苷酸的上面发生个别结合事件的那一条链。有数种情况,其中单核苷酸询问方法可应用于单链。首先,RNA在大多数情况下是天然单链的。在其它情况下,可以将双链核酸制成单链,并且在另外的情况下,拷贝双螺旋的一条链以制备单链,例如当将核酸制成圆形并且经由滚环扩增反复地拷贝时。
在一些这样的实施例中,强烈需要避开漂移,因为每个结合事件只提供单个碱基的信息,无法从将有助于核苷酸在序列中放置的完整数据集中提取由序列的重叠位形成的覆瓦式路径。为了获得所需的精度,使用在振动和热漂移方面极其稳定的系统。一种这样的稳定系统是可与Olympus的IX81倒置式激光TIRF显微镜一起使用的IX2 Nosepiece平台。在一些实施例中,另外或替代,使用漂移校正机制,并且高效的校正漂移的手段是使用基准标志物,例如DNA折纸,并进行多轮处理以反复地对数据进行漂移校正,从而产生准确的高精度的超分辩率影片。DNA折纸被所属领域的技术人员设计成在结构内的非常有序并且精确定位的位置处具有荧光标记的多个结合位点例如,可以使用Dai等人(《自然·纳米技术(Nature Nanotechnology)》2016,11:798-807)(其以引用的方式并入本文中)中描述的类型的DNA折纸,其包含例如12点或16点网格。折纸用DNA PAINT机制来标记,其中单链停泊位点从网格的顶面突出,并且被荧光标记的成像器瞬时结合。网格上的结合位点被提供给成像器,成像器用四种独特标记来标记,这四种独特标记用于特异性标记四种单核苷酸界定的寡核苷酸文库。在一些实施例中,与测序反应的沃森-克里克结合系统相比,与折纸网格结合的成像器被设计成具有正交结合系统。这类正交系统是扩展的字母核酸碱基对系统,例如使用人工扩展的遗传信息系统(AEGIS)氨基亚磷酸酯试剂,其可购自FirebirdBiomolecular Sciences有限责任公司(www.firebirdbio.com)。这种系统将提供Z:P和S:B碱基对,这些碱基对与本发明的测序系统中使用的沃森克里克A:T和G:C碱基对正交。
在一些实施例中,寡核苷酸,例如界定3聚体的那些寡核苷酸,被允许在低温或高盐下结合,这允许大量的位点进行结合,可能其中的一些无法分辨。在一些实施例中,为了指出结合的部位,允许荧光标记漂白,以便能够通过单分子定位来确定每个荧光标记的精确部位。参见例如Neely等人《核酸研究》2014年4月;42(7):e50以及2012年12月3日提出的美国专利申请第13/701,628号,其以引用的方式并入本文中。在这种非瞬时结合方法中,有可能一个寡核苷酸的结合会阻碍重叠寡核苷酸的结合。为了防止这一点,使用多个循环。第一组结合寡核苷酸通过温度和/或化学变性解链,然后再次开始结合,这有可能使在第一循环中被阻断的部位能够在第二循环中结合等。这可以任选地重复更多个循环,允许更多的之前被阻断的位点结合。类似地,在一些实施例中,结合通过随机光学重建显微法(STORM;例如,如美国专利第7,776,613号和美国专利第10,073,035号中所述,这些专利以引用的方式并入本文中)检测,在任何一个时间都只开启一些荧光团信号。在一些实施例中,这重复多次以最大限度地覆盖序列。
可以通过增加寡核苷酸浓度、增加结合温度和/或改变盐和不计入体积剂的身份和浓度来增加结合的速度。在一些实施例中,不计入体积剂选自由以下组成的群组:羟丙基甲基纤维素(HPMC)、羟乙基甲基纤维素(HEMC)、羟丁基甲基纤维素、羟丙基纤维素、甲基纤维素和羟甲基纤维素、PEG-800,浓度在约0.002%至约15%w/w范围内。另外,浓度为100-600mM的例如MgCl2的二价阳离子对结合速率具有加速作用。
在一些实施例中,增加结合的速度的另一种手段是通过在流动存在下进行测量。因此,在高达50ul的流动池体积中,每分钟1μl的流速能够增加结合速率。在一些实施例中,流动是湍流。在一些实施例中,通过源自表面的杆条或凸块的存在、流动池顶面上的人字形图案或溶液中存在引起流动是湍流的珠粒或微观结构来诱发湍流。除了增加结合的速度之外,优化流动过程也提高试剂更换的有效性,以确保来自前一次循环的残余寡核苷酸保持最少。在一些实施例中,在从一个寡核苷酸物质更换到下一个寡核苷酸物质的过程期间,需要用干净的缓冲液进行一次或多次洗涤,并且在洗涤期间需要时间来使寡核苷酸探针从表面散开并达到平衡concetration。在一些实施例中,时间是一分钟,在其它实施例中,时间是10分钟。在一些实施例中,10-100体积的缓冲液穿过流动池以确保去除残余的寡核苷酸。在一些实施例中,减少这个时间,因为例如通过施加电场,使带the-ver电荷的寡核苷酸移动至正偏压电极,可促进探针从TIRF范围移开。各种过程中的一个或多个可以进行组合,时间、湍流、更换的缓冲液体积和电场。在一些实施例中,容许一定程度的残余寡核苷酸;因为已知先前寡核苷酸的身份,所以组装算法可考虑其痕量存在。
在一些实施例中,不使用简并位置,并且通过适当操控条件(例如低温、高盐)或使用本身足够稳定的寡核苷酸化学物质(例如,γPNA等)来获得寡核苷酸的所要稳定性,或将例如精胺或芪的缀合物添加到末端来增加短寡核苷酸的稳定性。
在一些实施例中,可以通过在简并处使用通用碱基如硝基吲哚或脱氧肌苷,而不是使用在未界定位置中包含所有可能序列的寡核苷酸文库来改良杂交。这些通用碱基可以指定在沿着从各种供应商购得的寡核苷酸的序列的位置。在一些实施例中,一些位置被核苷酸文库占据,其它位置被通用碱基占据。因为通用碱基降低了混合物的复杂性,所以可以采用较低浓度的寡核苷酸探针。
因为在一个碱基编码中,使用的寡核苷酸的复杂性高,所以需要增加使用的寡核苷酸文库的浓度,因此代替10nM浓度,需要使用1uM或更高的浓度,并且由于这产生了巨大的背景,所以在一些实施例中,使用FRET机制,例如嵌入染料、嵌入标记方案(无FRET),或将寡核苷酸用荧光标记来标记,一旦进行杂交,所述荧光标记就发荧光。
在一些实施例中,在2个界定的碱基的情况下,同时添加所有64个可能寡核苷酸并进行差异标记。在一些实施例中,可利用16种差异标记,因此64寡核苷酸的文库分成4个16寡核苷酸的文库。因此只要四个循环就可以推断测序。在其它实施例中,使用4个标记,这允许将四个寡核苷酸一起添加,需要进行16个循环。可以在4×SSC或包含2.4M TMACl或3.5MTMACl、LiTCA、GUCN的缓冲液中进行3聚体的杂交,所述缓冲液可以用来更好地区分错配和/或均衡碱基组成的作用。
增加时间分辨率.
通过调整各种生化参数,例如盐浓度,可以加速瞬时结合过程。有许多具有高帧速率的相机可用来匹配结合的速度,通常视野被限制,以从像素亚组获得更快的读出。一种替代方法是使用检流计反射镜将连续信号在时间上分配到单个传感器的不同区域或分开的传感器,后者允许利用传感器的全部视野,但在对分配的信号进行编译时增加了总的时间分辨率。在图像处理期间丢弃衍射极限点内的多个信号的情况的能力允许所述过程更快地运行,因为它可以处理高探针结合速度。
避开DNA光损坏
在一些实施例中,宜将荧光部分经由蛋白质附着到寡核苷酸,以降低光损坏对所测序的核酸的影响。在一些实施例中,蛋白质部分的作用是为寡核苷酸和靶序列提供保护以避免荧光标记的各种不良影响。这些不良影响中的一些,如氧化性损坏,可以通过在反应溶液中包括添加剂,如还原剂或氧化还原系统来克服。然而,所述添加剂无法阻止例如电子转移或穿隧等其它有害机制。在一些实施例中,还原剂或氧化还原系统物理地连接到寡核苷酸。在一些实施例中,蛋白质是链霉亲和素。可利用链霉亲和素的荧光标记型式,例如链霉亲和素-藻红蛋白,包括与另一种染料缀合的链霉亲和素-藻红蛋白,以实现例如通过Fret的波长偏移。然后,链霉亲和素还通过众所周知的生物素-链霉亲和素相互作用结合到一个或多个生物素化寡核苷酸。还可以使用各种密切相关的蛋白质、亲和素、中性亲和素。链霉亲和素附接多个染料。其它合适的蛋白质包括泛素和SNAP-标签蛋白。如果凭经验发现有除蛋白质以外的其它分子能在荧光染料周围提供屏蔽从而防止损坏,则也可以使用这些分子。
因此,在一些实施例中,测序试剂包含:附接到蛋白质上的第一位置的瞬时结合核苷酸/寡核苷酸;包含附接到蛋白质上的第二位置的至少一个荧光染料部分的染料组分。
单细胞分辨测序
在各种实施例中,方法还包含对单细胞的基因组进行测序。在一些实施例中,单细胞没有其它细胞的附着。在一些实施例中,单细胞以簇或组织的形式附着于其它细胞。在一些实施例中,这类细胞被解聚成单独的非附着的细胞。
在一些实施例中,本发明包含一种对多核苷酸进行测序的方法,所述方法包含以下步骤:
i)将一个或多个细胞引入到流动池中;
ii)处理所述细胞以引起多核苷酸被释放;
iii)在流动池中将释放的多核苷酸伸长;以及
iv)使用所述伸长多核苷酸作为模板/测序靶进行测序反应。
在一些实施例中,本发明包含一种对多核苷酸进行测序的方法,所述方法包含以下步骤:
i)将一个或多个细胞引入到微容器中;
ii)处理所述细胞以引起多核苷酸被释放;
iii)将容器的内含物释放到流动池中;
iv)将多核苷酸伸长;以及
v)使用所述伸长多核苷酸作为模板进行测序反应。
在一些实施例中,提供一种对多核苷酸进行测序的方法,所述方法包含以下步骤:
i)将细胞暴露于流动池,所述流动池包含入口和出口;
ii)从所述细胞提取多核苷酸;
iii)将所述多核苷酸附着于所述流动池的表面,以便可以单独分辨出所述多核苷酸的至少一部分;
iv)将寡核苷酸暴露于所述多核苷酸;
v)鉴定寡核苷酸在所述多核苷酸上的结合部位
在一些实施例中,使细胞解聚,然后将它们以流体方式转移(例如,通过使用移液管)到多核苷酸在其中被伸长的结构(例如,流动池或微孔)的入口。可以通过吸取细胞、施加蛋白酶、超声处理或物理搅动来进行解聚。在一些实施例中,在将细胞以流体方式转移到多核苷酸在其中被伸长的结构中之后使其解聚。
在一些实施例中,分离单细胞,并将多核苷酸从单细胞中释放出来,使得源自同一细胞的所有多核苷酸保持彼此靠近安置,并且位于与安置其它细胞的内容物的部位不同的部位。在一些实施例中,使用如《芯片实验室》,2006,6,1445-1449中描述的捕集结构。
在一些实施例中,捕集单细胞并释放内含物,然后伸长。在一些实施例中,在将多核苷酸在同一混合物中组合和测序之前,将单细胞迸发到单独的通道中,并且使每一个别的细胞经由转座酶介导的整合与独特的标签序列反应。可以将转座酶复合物转染到细胞中,或者以液滴形式融合到含有细胞的液滴中。
在一些实施例中,聚集体是细胞小簇,并且在一些实施例中,整个簇用相同的测序标签标记。在一些实施例中,细胞未聚集,而是自由漂浮的细胞,例如循环肿瘤细胞(CTC)或循环胎儿细胞。
在单细胞测序中,存在胞嘧啶至胸腺嘧啶的单核苷酸变体的问题,这是由细胞溶解后自发的胞嘧啶脱氨作用引起的。这通过在测序之前用尿嘧啶N-糖基化酶(UNG)预处理样品来解决(例如,如《分子诊断与疗法》2014年10月;18(5):587-593中所述的)。
多核苷酸的细胞特异性索引
在各种实施例中,所述方法还适用于对来自多个细胞(或细胞核)的多核苷酸进行测序,其中每个多核苷酸保留其来源细胞的信息。
在某些实施例中,转座子介导的插入是在细胞内进行的,并且每次插入都包含独特的ID序列标签作为来源细胞的标记。在其它实施例中,转座子介导的插入发生在已经分离出单细胞的容器内,这类容器包含琼脂糖珠粒、油-水滴等。独特的标签指示所有带有该标签的多核苷酸一定源自同一细胞。然后可以提取所有的基因组DNA和或RNA,使之混合,并伸长。然后,当SbS(或任何其它测序方法)来源于PBS或启动子时,其所获得的第一序列来自鉴定细胞的序列,接着是多核苷酸的序列。优选地,保持鉴定细胞的标签是短的。对于10,000个细胞(例如,来自肿瘤显微活检),长度为8个核苷酸的标识符序列可以提供约65,000个独特的序列,长度为10个核苷酸的标识符序列提供约一百万个独特的序列。
当目标是混合样品,将它们一起进行测序,但是恢复属于每一个别样品的序列信息时,可以将这个相同的索引原则应用于除细胞外的样品(例如,来自不同个体)。
因此,在一些实施例中,所述方法包含:
1)将细胞的内含物分离;
2)在转座子介导下将细胞的独特序列标签插入到细胞的多核苷酸中;
3)将细胞的多核苷酸固着;以及
4)进行本发明的测序方法,其涵盖读取标签的序列和多核苷酸的序列。
在一些实施例中,多核苷酸是RNA并且对cDNA拷贝进行测序。在这样的实施例中,标签的添加可包含利用含有标签序列的引物进行cDNA合成
在一些实施例中,为了保持一定量的序列保持较短,使得更多的序列读段可以专用于对多核苷酸序列本身进行测序,使标签序列分布在许多位点上。这里,将多个短标识符序列,比如三个,引入每个细胞或容器中。然后,从沿着多核苷酸分布的标签位确定多核苷酸的来源。因此,在这种情况下,从一个部位读取的标签位不足以确定来源细胞,但多个标签位足以来确定。
通过多种方法来测序
在一些实施例中,在通过瞬时结合进行测序之后,可以通过第二方法在相同分子上开始测序。举例来说,可以结合更长更稳定的寡核苷酸以起始合成测序。
靶多核苷酸
术语多核苷酸是指DNA、RNA和其变体或模拟物,并且可以与核酸同义使用。单个靶多核苷酸是一条核酸链。核酸链是双链或单链的。聚合物可包含天然多核苷酸的全长,例如长的非编码(lnc)RNA、mRNA、染色体、线粒体DNA,或者它是长度至少为200个碱基的多核苷酸片段,但优选地,长度至少为几千个核苷酸,并且更优选地,在基因组DNA的情况下,长度为数十万个碱基至数兆碱基的基因组DNA。
在多个方面和实施例中,本发明包括:在从生物环境中提取的过程中,例如通过基本上保留多核苷酸的天然长度,获得长度较长的多核苷酸;将多核苷酸安置成线性状态,以便可以几乎无歧义地追踪沿着其长度的部位,理想地,在将靶多核苷酸安置成线性状态之前或之后,将多核苷酸拉直、拉伸或伸长。
在各种实施例中,单个靶多核苷酸是染色体。在各种实施例中,单个靶多核苷酸的长度为约102、103、104、105、106、107、108或109个碱基。小麦染色体3b长度是9.95亿个碱基,而最大人类染色体是染色体1,2.49亿个碱基。在各种实施例中,单个靶多核苷酸是单链的。在各种实施例中,单个靶多核苷酸是双链的。
单个靶核苷酸优选地是天然多核苷酸。单个靶核苷酸可以是双链的,例如基因组DNA。单个靶多核苷酸可以是单链的,例如mRNA。单个双链靶多核苷酸可以变性,以便双链体的每条链可用于寡核苷酸结合。单个多核苷酸被损坏并修复。在各种实施例中,单个靶多核苷酸是染色体的整个DNA长度。在未提取的情况下染色体的整个DNA长度可以保持在细胞内。可以在细胞内进行测序,其中染色体DNA在分裂间期沿着盘旋路径。已证明寡核苷酸在原位的稳定结合:B.Beliveau等人,《自然通信》6:7147(2015)。寡核苷酸的这种原位结合和它们在3D空间中的纳米级定位使得能够确定细胞内染色体分子的序列以及区域排列。本发明的不同之处在于寡核苷酸的结合是不稳定的,它是瞬时的,并且能够实现染色体区域的超精细分辨率。类似地,RNA(例如,微小RNA、mRNA、lncRNA)的部位和数量可以通过其与结合寡核苷酸的结合模式来确定。
到达灵敏度极限
一旦分子从细胞释放,基本上所有分子都可用于测序。首先,在相关的情况下,使区域钝化以防止分子形成粘着。然后基本上所有的分子都以两种方式中的一种被捕获。首先,分子继续在通道中流动,在整个通道长度上被随机捕获到,通道足够长,以使基本上所有的分子最终都被捕获到。对此,通道可以是曲折通道,它允许将极长的长度装填到小的空间中。其次,可以允许所有从一个或多个细胞释放的分子流动和分离,足以在3D空间中单独分辨。然后将溶液形成胶状,即,为固体-凝胶转变,使得分子变得在3D空间中不能动。然后,分子可以进行本发明的测序方法,其中可通过3D切片方法,例如光片显微术或旋转圆盘显微术和3D单分子定位来询问3D空间。
在表面上捕获多核苷酸
在一些实施例中,靶多核苷酸经由与末端的疏水相互作用附着于表面。在一些实施例中,多核苷酸与表面的接触在使末端裂开以允许暴露疏水性单链的严格条件下发生。
在一些实施例中,不是使用流动池经由后退弯月面产生拉伸或进行流动拉伸,而是将盖玻片浸渍到携带多核苷酸的凹槽中,在盖玻片从溶液抽出时梳理多核苷酸。
在一些实施例中,可使用电场来吸引带负电荷的多核苷酸(使得可对更大比例的样品进行取样),并且在一些情况下,将寡核苷酸探针吸引到表面。
多核苷酸固定在表面上
固着在一端和流动允许摆动、拉伸和收缩等,并且由于沿着聚合物的长度的拉伸程度存在波动(其收缩和扩张),因此无法保证在一个循环与下一个循环之间靶标中的特定位置的x-y坐标。
在一些实施例中,认识到,为了获得可再现、高精度和准确的定位,需要沿着聚合物的多个部位的相对位置不波动。在这种情况下,伸长分子应通过沿着其长度的多个接触点固着或固定到表面。
因此,在一些实施例中,聚合物通过多个相互作用(如分子梳技术(Michalet等人,《科学》1999)中所做的)与表面接触。然后,众所周知,在使用条件下固定相对部位。假定有一些异常聚合物部分地从表面脱落和再附接,不过尚未看到这个发生。
因此,在分析长聚合物的一些实施例中,长聚合物与表面或基质形成多个相互作用。
在一些方面,本发明包括一种检测罕见变体的方法,其包含多次询问单分子上的每个碱基。每个瞬时结合事件询问一个或多个碱基,并且每个碱基被多个结合事件询问。此外,在一些实施例中,每个碱基被序列重叠,例如呈覆瓦式系列的多个寡核苷酸询问。
多核苷酸伸长
在各种实施例中,方法还包含从细胞、细胞器、染色体、病毒、外来体或体液中提取呈完整靶多核苷酸的单个靶多核苷酸分子。靶多核苷酸通常呈现天然折叠状态。举例来说,基因组DNA在染色体中高度缩合,RNA形成二级结构。在本发明的各种实施例中,采取措施使多核苷酸展开。在各种实施例中,使靶多核苷酸分子呈线性状态,以便可以追踪其主链。在各种实施例中,靶多核苷酸分子伸长。所述伸长可使其等于、长于或短于其结晶长度(从一个碱基到下一个碱基相隔0.34nm)。在一些实施例中,多核苷酸拉伸超出晶体长度。
在各种实施例中,将靶多核苷酸安置于凝胶或基质中。在各种实施例中,将靶多核苷酸提取到凝胶或基质中。在各种实施例中,在微流体流动池或通道内提取靶多核苷酸。
在各种实施例中,靶多核苷酸分子固着在表面上。多核苷酸可以与平坦表面平行或与表面垂直安置。在它们与平坦表面平行的情况下,其长度可跨越例如CMOS或CCD相机等2-D阵列检测器中的一系列相邻像素来成像。在它们与表面垂直的情况下,其长度可经由光片显微术或扫描圆盘共焦显微术或其变体来成像。
在一些实施例中,多核苷酸经由分子梳来拉伸(例如,如Michalet等人,《科学》277:1518(1997)和Deen等人,《美国化学学会·纳米》9:809-816(2015)所描述)。这使得数百万和数十亿分子能够平行拉伸和单向对齐。在一些实施例中,分子梳是通过将流体/液体的前部在表面上平移来进行的。在一些实施例中,使用Petit等人《纳米快报》3:1141-1146(2003)中描述的方法或方法的改进型式,在通道中进行分子梳。
空气/水界面的形状决定了伸长多核苷酸的取向。在一些实施例中,多核苷酸垂直于空气水界面伸长。在一些实施例中,在未对其一端或两端进行修饰的情况下将靶多核苷酸附着于表面上。在一些实施例中,在末端通过疏水相互作用捕获时,利用后退弯月面进行的拉伸使双链体的一部分变性,并与表面形成额外的疏水相互作用。
在一些实施例中,多核苷酸经由分子穿线来拉伸(例如,如Payne等人,《公共科学图书馆·综合》8(7):e69058,(2013)所描述)。在一些实施例中,在靶标变成单链(例如,通过化学变性剂、温度或酶)之后进行分子穿线。在一些实施例中,将多核苷酸在一端拴系,然后利用流体流动进行拉伸(例如,如Greene等人,《酶学方法》,327:293-315所描述)。在一些实施例中,将多核苷酸在一端拴系,然后通过电场拉伸(例如,如由Giese等人,《自然·生物技术》26:317-325,(2008)所描述)。
在各种实施例中,将靶多核苷酸分子安置在凝胶中。在各种实施例中,将靶多核苷酸分子安置在微流体通道中。在各种实施例中,靶多核苷酸在一端附着于表面,并在流动流中延伸。
在一些实施例中,延伸是由电泳引起的。在一些实施例中,延伸是由纳米约束引起的。在一些实施例中,延伸是由流体动力阻力引起的。在一些实施例中,在纳米缝隙交叉流中来拉伸多核苷酸(例如,如Marie等人,《美国国家科学院院刊》110:4893-8,(2013)所描述)。
在一些实施例中,不是经由微流体或纳米流体流动池将多核苷酸插入到纳米通道中,而是通过以对形成通道壁的表面施加电偏压的方式构建通道来将多核苷酸插入到开顶式通道中(例如,参见Asanov A N,Wilson W W,Oldham P B.《分析化学》1998年3月15日;70(6):1156-6)。向表面施加正偏压,使得带负电荷的多核苷酸被吸引到纳米通道中。通道壁的脊线不包含偏压,因此多核苷酸不太可能沉积在那里,并且可用具有无垢特性的材料制成或涂覆,并用脂质、BSA、Caesin、PEG等钝化。在一些实施例中,被吸引到纳米通道中的多核苷酸被纳米约束在通道中,从而伸长。在一些实施例中,纳米约束后,多核苷酸沉积在施加偏压的表面上或表面顶上的涂层或基质上。表面可包含氧化铟锡(ITO)。
在一些实施例中,多核苷酸不是全部以相同的取向很好地对齐或者它们不是直的,而是在2D或3D空间上采取曲线路径;虽然可以与直的很好地对齐的分子一样获得相同种类的信息,但是图像处理任务更困难,并且在分子采取不同取向的情况下,它们重叠和引起误差的可能性会增加。然而,当在细胞内原位对多核苷酸进行测序时,这是不得不面对的事。
在各种实施例中,方法还包含从单个或多个染色体、外来体、细胞核或细胞释放多核苷酸到流动通道中。
在各种实施例中,流动通道的壁包含钝化,以防止多核苷酸螯合。在各种实施例中,钝化包含酪蛋白、PEG、脂质或牛血清白蛋白(BSA)涂层。
术语伸长、延伸、拉伸、线性化、拉直可以互换使用,一般意指多个结合位点相隔一定物理距离,所述物理距离大体上与将它们分开的核苷酸数目相关。物理距离与碱基数目匹配程度的一定的不精确性是容许的。在伸长或拉伸沿着多核苷酸整个长度不均匀的情况下,跨越多核苷酸全长,物理距离与碱基数目相关的比率是不相同的。这种情况的发生可以忽略不计,并且实际上被算法忽略了或进行了处置。如果这种情况的发生是明显的,则需要其它量度。举例来说,在多核苷酸的一些区段中,拉伸为结晶长度的90%,而在其它区域中,其可发散约50%。处置它的一种方式是经由将连续序列放在一起的组装算法。在一个极端,算法不需要距离数据,只需要读段顺序。处置它的另一种方式是通过使用嵌入染料,例如JOJO-1或YOYO-1来染色多核苷酸的长度,然后当在某些区段中多核苷酸拉伸得较少时,在多核苷酸这个区段上将看到的染料信号比多核苷酸拉伸得更多的区段上的染料信号多。整合的染料信号可用作计算来源之间的距离的等式的一部分。
在各种实施例中,靶多核苷酸分子是完整的。当靶标是天然基因组DNA时,可以在寡核苷酸结合之前将其制成单链。这可以通过首先伸长或拉伸添加的多核苷酸,然后添加变性溶液(例如0.5M或1M NaOH)以分离两条链来进行。可以对寡核苷酸进行修饰,以便其可以形成稳定性更高的双链体。寡核苷酸具有自由3'端,可以从该端进行延伸来增加稳定性。在一些实施例中,寡核苷酸可以靶向基因组中的特定超频繁靶位点(例如,如Liu等人《BMC基因组学(BMC Genomics)》9:509 2008所描述)。
寡核苷酸可构成文库,文库使用定制微阵列合成来制成。微阵列制成的文库可包含靶向基因组中的特定位点的寡核苷酸,所述位点例如所有外显子或针对特定疾病的小组,例如癌症小组。微阵列制成的文库可包含与多核苷酸上相隔一定距离的部位系统性结合的寡核苷酸。例如,包含一百万个寡核苷酸的文库将约每3000个碱基结合一次。包含一千万个寡核苷酸的文库可被设计成约每300个碱基结合一次,而包含三千万个寡核苷酸的文库可被设计成每100个碱基结合一次。寡核苷酸的序列可以基于参考基因组序列通过计算设计。如果例如寡核苷酸被设计成每1000个碱基结合一次,但在一轮或几轮核苷酸掺入之后,距离明显发散,那么这表明了与参考相比结构在变异。首先可以通过使用寡核苷酸组对来自参考本身的多核苷酸发起测序来验证寡核苷酸组,并且可以从未来的文库中略去无法结合于正确部位的寡核苷酸。
检测沿着多核苷酸的间距小的信号
当在检测平面中伸长多核苷酸分子时,几种检测方法,例如扫描探针显微术(包括高速AFM)和电子显微术,能够分辨纳米级距离。此外,例如STED、随机光学重建显微术(STORM)、超分辨光学波动成像(SOFI)、单分子定位显微术(SMLM)等超分辩率光学方法能够分辨这类距离。虽然本发明涵盖这些方法,但尤其利用一种最类似于纳米级形貌中的点累积(PAINT)的SMLM方法。
本发明超越仅仅将单个结合位置定位至短DNA靶。本发明的新颖方面是定位单个寡核苷酸物质沿着多核苷酸的长度的多个结合位置。本发明的另一新颖方面是定位多核苷酸上多个寡核苷酸物质的结合。本发明的另一新颖方面是确定单个寡核苷酸物质或多个寡核苷酸物质的结合位置之间的距离。本发明的另一新颖方面是确定沿着多核苷酸的多个结合位置的纳米级部位。本发明的另一新颖方面是将探针结合事件分配到多核苷酸阵列中存在的特定多核苷酸。本发明的另一新颖方面是确定多种类型化学实体(例如,序列结合探针、表观基因组标志物结合探针)沿着多核苷酸的多个结合位置的纳米级部位。本发明的另一新颖方面包含将表观基因组结合探针纳米级定位到多核苷酸。本发明的另一方面是通过单个多核苷酸上序列的重复询问来增加检测序列的准确度。本发明的另一新颖方面是通过确定完整寡核苷酸库的部位确定多核苷酸的序列。本发明的另一新颖方面是通过确定寡核苷酸的覆瓦式阵列的部位来确定多核苷酸的靶向区段的序列。
有序阵列
多核苷酸可以按有序的方式显现在表面上,以便分子最大限度地装填在给定表面积内并且不重叠。这可以通过制作图案化表面来实现,例如疏水补丁在多核苷酸的末端结合的这类部位处的有序排列(例如,长度为1Mbp),其中下一个补丁刚好超出多核苷酸的末端。或者,可以使用寡核苷酸的空间可寻址阵列来捕获多核苷酸。多核苷酸是单链并具有共同序列束,例如多聚腺苷酸尾(例如,mRNA)。多核苷酸是双链,具有限制酶产生的粘性末端。例如,可以使用稀有的切割限制酶,例如,Pmme1或NOT1来产生长片段,每个片段含有共同末端序列。
还可以通过使用纳米流体学建立有序阵列。在一种情况下,将纳米沟槽或纳米槽(例如,100nm宽、150nm深)的阵列在表面上纹理化,用于对长的多核苷酸进行排序,其中一个多核苷酸的驻留排除另一多核苷酸的进入。在另一情况下,使用纳米坑阵列,其中长多核苷酸区段在凹坑中,并且长区段在凹坑之间。还可以制造有序阵列。
通过瞬时探针结合进行测序和组装
在本发明的一些实施例中,本身不获得测序读段。在通过瞬时探针结合进行测序的情况下,读段是寡核苷酸的与多核苷酸上的特定部位杂交的互补序列。在第一层,从通过寡核苷酸的结合而搜集的序列信息进行组装。因此,本发明的一些实施例包含:
(i)拉伸多核苷酸
(ii)使多核苷酸变性(例如,如果靶标是RNA,那么去除二级结构,或者当靶标是双链DNA,例如基因组DNA时分离双螺旋);
(iii)添加短寡核苷酸探针,所述探针以不稳定的相互作用与靶标结合;以及
(iv)确定每个短寡核苷酸探针的结合部位。
在一些实施例中,每个寡核苷酸序列一次一个地添加。在一些实施例中,寡核苷酸带有可以解码其身份的标签,例如正交寡核苷酸组可以结合或在上面确定其身份的序列标记。在一些实施例中,一次添加超过一种寡核苷酸。在一些实施例中,添加可以解码之多的寡核苷酸。例如,如果可利用16个独特代码,那么同时添加16个寡核苷酸序列,每个带有代码中的一个。在一些实施例中,添加基本上更多的寡核苷酸并通过使用光学条形码,例如DNA折纸(例如,如《自然-化学(Nat Chem.)》10:832-9,2012所描述)来区分。在一些实施例中,使用完整寡核苷酸组,例如每5聚体或6聚体(任选地补充有简并或通用位置)。
在第二层,通过将在第一层组装的多核苷酸重叠进行全染色体的组装。在存在足够长度的重叠单倍型的情况下,可以分阶段进行组装。
通过竞争实现的瞬时探针结合
必须理解,寡核苷酸探针的结合是动态的过程,并且结合的探针恒定地呼吸(在由包括温度和盐浓度的各种因素决定的速率下),因此,一条链总有机会被另一条链替换。例如,在一个实施例中,使用探针互补序列,其引起与表面上拉伸的靶DNA退火和与溶液中的互补序列退火之间持续的竞争。在另一实施例中,探针具有三个部分:第一部分与靶标互补;第二部分与靶标部分互补并与溶液中的寡核苷酸部分互补;第三部分与溶液中的寡核苷酸互补。
在一些实施例中,使用立足点探针(例如,如《自然方法》10:865(2013)所描述),这些探针包含部分双链,并在与错配的靶标结合时,会竞争性地去稳定化(例如,如《自然化学》5,782-789(2013)所描述)。
这种方法可以确保通过瞬时探针结合进行测序的准确性。所述方法包含:
(i)拉伸多核苷酸;
(ii)在多核苷酸不是单链的情况下,使其基本上是单链的(例如通过变性);
(iii)将立足点探针组的库施加于靶多核苷酸;
(iv)针对库中的每个立足点探针组,确定来自立足点探针组的一个寡核苷酸的结合部位;以及
(v)基于库中的所有立足点探针的定位数据来重建序列。
在一些实施例中,使用立足点探针来确保正确杂交。在一些实施例中,立足点探针用于促进解离反应。
组装短程序列和连结制成长程序列
在一些实施例中,定位准确度或精度不足以将序列位缝合在一起。发现探针亚组结合在特定地点内,但严格地从定位数据来看,很难有信心确定它们的顺序。在一些情况下,分辨率受衍射限制。在一些实施例中,地点或衍射极限点内的短程序列可以通过位于所述地点或点内的探针的序列重叠来组装。因此,例如通过使用关于寡核苷酸亚组的各个序列如何重叠的信息来组装短程序列。然后可基于以这种方式构建的短程序列在多核苷酸上的顺序将它们缝合在一起,成为长程序列。因此,通过连结从相邻或重叠点获得的短程序列来获得长程序列。
均聚物和短串联重复序列
均聚物存在一个问题,当长度超过寡核苷酸的长度时,难以计数碱基数目,例如10碱基均聚物。短串联重复序列也是难以计数的。这可以用许多方式来解决,例如以下中的任一项:
1.增加定位准确度,以便可确定重复序列延伸的精确范围。
2.当存在多个串联拷贝(任何重复序列的)时或甚至当存在部分拷贝时,与区域结合的动力学是不同的,可以通过结合速率的增加来估计拷贝数目;解离速率也受到影响,因为已经结合一个位点的寡核苷酸可能无需经过3-D空间就能移动到另一个相邻位点。
3.此外,双链体中的两条链之间的碱基数目应匹配,当它们不一致时,这表明不准确性。
4.对于均聚物,以及5聚体库,可以在适当的Tm下添加较长的均聚物寡核苷酸,例如6As、7As、8As等。
5.考虑参考基因组。
6.提供均聚物或重复序列为某一长度的可能性。
多核苷酸鉴定
多核苷酸的身份可以通过探针沿着其长度结合的模式来确定。身份可以是RNA种类、RNA同种型的身份。它也可以是参考中多核苷酸所对应的部位。
表观基因组修饰的定位
可以与测序正交地进行甲基化分析。在一些实施例中,这在测序之前进行。抗甲基C抗体或甲基结合蛋白(甲基结合结构域(MBD)蛋白家族包含MeCP2、MBD1、MBD2和MBD4)或肽(基于MBD1)可以与多核苷酸结合,在将它们去除(例如,通过添加高盐缓冲液、离液试剂、SDS、蛋白酶、尿素和/或肝素)之前经由标记检测它们的部位。优选地,由于使用促进结合-解离的瞬时结合缓冲液,因此试剂瞬时结合,或者试剂被工程化成瞬时结合。
采用类似的方法进行其它多核苷酸修饰,例如羟甲基化或DNA损伤位点,可获得或可以产生针对所述修饰的抗体。检测到修饰的部位并去除修饰结合试剂后,可以开始测序。在一些实施例中,在使靶多核苷酸变性成单链后,添加抗甲基抗体和抗羟甲基抗体等。所述方法高度灵敏,能够检测长多核苷酸上的单个修饰。
没有DNA修饰如甲基化的参考表观基因组。为了有用,需要将未知多核苷酸的甲基化图谱与核酸序列或基于序列的图谱联系起来。因此,可以使本发明的表观遗传映射法与通过寡核苷酸结合获得的序列位相关联,以便为表观基因组图谱提供背景。除了序列读段以外,其它获得序列信息的手段可以与表观基因组图谱联合。这包括基于切刻核酸内切酶的图谱、基于寡核苷酸结合的图谱以及变性和变性-复性图谱。在一些实施例中,可以使用一个或多个寡核苷酸的瞬时结合来映射多核苷酸。除了对基因组的功能修饰以外,还将相同的方法应用于映射到基因组上的其它特征,例如DNA损伤位点以及蛋白质(例如,转录因子)或配体结合位点。
在本发明中,首先可以进行碱基测序或表观基因组测序。在一些实施例中,两者可以同时进行。举例来说,针对特定表观遗传修饰的抗体可以是从寡核苷酸进行差异编码而成的,并使用促使两种类型探针瞬时结合的条件,例如低盐。
在一些实施例中,可以对染色体或染色质使用抗体,不仅检测DNA上的修饰,还检测组蛋白上的修饰,例如组蛋白乙酰化和甲基化。这些修饰的部位可以由抗体与染色体或染色质上的部位的瞬时结合来确定。在一些实施例中,将抗体用寡核苷酸标签标记,并且不瞬时结合,而是可以永久性或半永久性固定到它们的结合位点。在这种情况下,可以通过使用互补寡核苷酸与标记抗体的寡核苷酸的瞬时结合来检测部位。
处理样品以实现读段的部位保存
在一些实施例中,在使多核苷酸伸长后,施加凝胶覆盖层。在表面上伸长和变性后,可以用凝胶层覆盖多核苷酸(双链或变性的)。或者,当多核苷酸已经处于凝胶环境中时使其伸长。在一些实施例中,在使多核苷酸伸长后,将其浇铸在凝胶中。例如,当将多核苷酸在一端附着于表面并在流动流中或通过电泳电流拉伸时,可以将周围的介质浇铸至凝胶中。这可以通过在流动流中包括丙烯酰胺、过硫酸铵和TEMED来进行,这类物质在固化时会变成聚丙烯酰胺。或者,可以施加对热有响应的凝胶。在一些实施例中,可以用与丙烯酰胺聚合的acrydite修饰多核苷酸的末端。然后可以施加电场,鉴于天然多核苷酸的主链带负电荷,所述电场使多核苷酸向正电极伸长。
在一些实施例中,将样品与其环境的基质交联;这是细胞环境。例如,当在细胞中原位进行测序时,使用异双官能交联剂将多核苷酸与细胞基质交联。这是在使用例如FISSEQ(例如,如Lee等人,《科学》343:1360-3(2014))的技术在细胞内直接测序时进行的。
在一些实施例中,为能够靶向测序,使用一个小组的探针。因为当进行靶向测序时,只需要分析来自复杂样品(例如,全基因组或转录组)的一个亚组的多核苷酸,所以多核苷酸以比通常更高的密度安置在表面或基质上。因此,即使衍射极限空间内存在几个伸长的多核苷酸,当检测到信号时,很有可能该信号仅来自靶基因座中的一个。然后,这允许进行靶向测序所需的成像伴有被靶向的样品的分数。举例来说,如果<5%的包含外显子的基因组被靶向,那么多核苷酸的密度可以比分析整个基因组时大20倍,因此成像时间可以短10倍。
在一些实施例中,靶向的基因组的部分是特定的遗传基因座。在其它实施例中,靶向的基因组的部分是一小组的基因座,例如与癌症相关联的基因,或通过全基因组关联性研究鉴定的染色体区间内的基因。靶向的基因座也可以是基因组的暗物质、基因组中典型重复的异色区以及重复区附近的复杂遗传基因座。这类区域包括端粒、着丝粒和近端着丝粒染色体的短臂以及基因组的其它低复杂度区域。传统的测序方法不能解决基因组的重复部分,但是当纳米级精度很高时,本发明的方法可以全面解决这些区域。
本发明的优点在于它能够通过改为将利用短寡核苷酸的结合获得的连续或重叠序列信息缝合在一起来获得长读段,而实际上不会实现高成本和耗时的单独的长读段。沿着单个多核苷酸分子的长度同时获得序列信息的多个短的3、4、5或6碱基位,因此,将它们全都连接,并且当多核苷酸已经是结合-解离寡核苷酸饱和时,它们的纳米位置、分辨率和顺序揭示了整个分子的序列。多核苷酸测序耗费的时间比当前方法少,因为同时获得多个序列信息位,而不是通过SbS反应获得从分子中的一个部位到另一个部位的单个长读段(例如,PacBio测序)。
本发明的另一重大优点是,它能够检测到所有类型的小的或大的结构变异,包括平衡的拷贝数变异和倒位,这些对于当前主要方法,即基于微阵列的技术来说是有挑战性的,并且分辨率和规模是微阵列、细胞遗传学或其它当前测序方法无法达到的。
此外,所述方法允许通过基因组的重复区进行测序。对于常规测序来说,贯穿基因组的这些部分的读段的问题在于,首先,这类区域没有在参考基因组中很好地呈现,并且如Illumina、Ion Torrent、Helicos/SeqLL和Complete Genomics等技术通常通过与参考进行比对而不是通过从头组装来处理大基因组。其次,当读段不跨越整个重复区时,难以通过跨越所述区域的较短读段来组装所述区域。这是因为可能难以确定一个分子上的重复区与另一个分子上的重复区之间可能的多个比对中的哪一个是正确的。误差比对可能导致组装中的重复区缩短或延长。在本发明的测序方法中,当同时取得或一组接着一组取得的多个读段完全或几乎完全覆盖单分子时,可以构建跨越整个重复区的组合件(当多核苷酸本身跨越整个重复区时)。本发明的方法可以应用于足够长而跨越重复区的多核苷酸。1与10Mb之间的多核苷酸足以跨越基因组中的大部分重复区。本发明的方法可应用于来自真核生物基因组的多核苷酸的完整染色体长度,如Freitag等人中所示和(例如,如Rasmussen等人,《芯片实验室》,11:1431-3(2011)所描述来尝试,因此可跨越基因组中的所有或大部分可能的重复长度。
保存多核苷酸原位区域信息
在一些实施例中,本发明的测序方法原位应用于细胞内部。在RNA和基因组DNA的情况下,在已经变性之后,可以开始测序。在mRNA的情况下,可以任选地在使二级结构变性之后开始测序。在一些实施例中,在例如通过切片机获得的细胞切片上进行测序。
在细胞内进行本发明的测序方法不仅允许对基因组DNA测序,而且还确定基因组DNA在细胞中的部位。此外,当应用于组织时,它能够分析组织细胞中的体细胞变体的分布以及染色体组织的差异。这是非常重要的,因为基因组的不同部分在细胞内部彼此相互作用。举例来说,强化子经由回路接触基因区域,并且原位基因组分析使我们能够看到这种相互作用。此外,可以目测或确定细胞内部基因组或单独染色体的组织。另外,可以对在培养皿(例如成纤维细胞或神经元)中生长的细胞群体或对组织切片进行所述过程。在基本上是三维的细胞或组织的情况下,可以对细胞或组织的切片进行测序。在一些实施例中,细胞内部的染色质DNA进行变性(使用0.5M NaOH),然后进行本发明的瞬时结合相互作用。可以通过添加RNA酶来去除RNA。在一些实施例中,从结合至由未标记的探针结合形成的双链体中的嵌入染料检测到瞬时结合相互作用。在一些实施例中,将探针标记并经由嵌入至双链体中的染料与探针上的标记之间的FRET检测结合。
结合探针的身份和空间位置
本发明的一个方面是存储与多个序列片段中的每一个瞬时结合的探针的身份和空间位置。通过检测器的部位敏感方面测定探针沿着多核苷酸结合的位置。如果使用2-D检测器,例如CCD,那么通过图像投影到的像素的x-y坐标确定部位。使用多个计算过滤器来从真实检测事件的内容中去除标记的虚假结合。标记必须与追溯若干来源的线相关以展示多核苷酸跟随的路径;当路径是直的时,通过滤光器的位置落在直线上。
可以按两种方式中的一种来确定与生物聚合物结合的探针的身份。如果多个探针进行差异标记且一起用于一反应体积中,那么通过检测在沿着多核苷酸的特定部位处检测到代码标记来确定寡核苷酸的身份。这可以通过起动四个不同的激光器,每个标记一个,使用四个不同的发射滤光器,每个标记一个,或使用不同激光与发射滤光器的组合来进行。在这种情况下,针对一个波长拍摄图像,可映射到多核苷酸,接着下一个,依此类推。连续检测四个标记的替代方案是同时检测四个标记。这可以通过使用棱镜将发射光分成2D检测器上的独特部位来进行。还可以通过使用双色镜和发射滤光器将发射波长分成四个通道来进行,一个通道针对四个标记中的每一个。最终,发射波长可以分在许多通道之间,并且在每个通道中检测到每个信号的强度,从而得到标记特异性签名。在一些实施例中,首先获得跨越每个荧光团的通道的签名,然后使用签名来鉴定标记,因此鉴定来自所记录数据的序列。
标签测序
在一些实施例中,将DNA的区段原位标记(即,沿着基因组DNA的长度或在细胞内)并使用本发明的瞬时结合方法确定标签的部位和身份。标签可以是序列标签并且可以设计成只使用一小池瞬时结合寡核苷酸就能确定其身份的方式。在一些实施例中,一旦确定了标签的部位和身份,就可以从细胞中提取多核苷酸或从表面释放,而序列标签保持附接到多核苷酸片段。可任选地将多核苷酸+序列标签扩增并使用任何测序方法,例如高通量Illumina测序进行测序。根据测序的输出,可以使用标签的序列将特定序列区段定位到基因组中的特定部位。
染料光物理
单荧光染料的检测易受每种特定染料类型的特征影响。某些染料具有光物理特征,例如黑暗状态、快速光漂白和低量子产率,这些使得它们无法成为候选染料。染料的化学特征、其结构和它们是否携带电荷也影响着它们掺入的程度和它们非特异性结合的程度。染料的选择取决于避免不良光物理和化学问题,以及它们可在所选择的仪器设置中激发和检测的程度以及它们可与其它三种染料区分的程度。在本发明的一些实施例中,其它特征如FRET或淬灭效率也是重要的。幸运的是,有数家染料制造商并有大量的染料可选。可以很好地起作用的四种染料是Atto 488、Cy3b、Atto 655和Cy7或Alexa 594。可用于本发明的另四种良好单分子染料展示于Sobhy等人[科学仪器评论《(Rev.Sci.Instrum.)》82,113702(2011),其中可分别使用405nm、488nm、532nm和640nm激光来激发Atto 425、Atto488、Cy3和Atto647N。每个标记指示不同的碱基身份。某些染料需要波长与其峰值激发波长不同的光脉冲以将其从捕集的光物理状态释放。已知多种最大限度地减少光物理的氧化还原系统,包括:Trolox、β-巯基乙醇;葡萄糖、葡萄糖氧化酶和过氧化氢酶;原儿茶酸和原儿茶酸-3,4-双加氧酶;甲基紫精和抗坏血酸。(参见Ha和Tinnefeld,《物理化学年度评论(Annu Rev Phys Chem.)》2012;63:595-617)。作为持续照射的替代方案,在一些实施例中,样品经受脉冲式或频闪照明;这减少光漂白。
成像
多核苷酸的图像被投影到2D检测器(例如,电荷耦合装置(CCD)相机)的阵列上,从中图像可以数字化并存储在存储器中。然后,存储在存储器中的图像进行图像分析算法。这些算法可以区分信号与背景,监测信号特征的改变,并执行其它信号处理功能。存储器和信号处理在计算机上离线执行,或在由微处理器或现场可编程门阵列(FPGA)控制的专用数字信号处理(DSP)电路中执行。
图像处理
当荧光标记已经与伸长多核苷酸瞬时结合时,它可以通过用2D阵列检测器拍摄图像来检测。下一个任务是从所拍摄的图像中提取测序数据。努力沿着2D阵列检测器的像素行或列,沿着2D阵列检测器的一个轴线将拉伸分子对齐(例如,CCD或CMOS传感器)。
在使用时间延迟积分(TDI)成像或行扫描仪的情况下,在获得连续图像条时(例如,如Hesse等人《分析化学(Anal Chem.)》2004Oct 1;76(19):5960-4所描述),本发明的一个实施例包含将图像平移(或平台平移)的方向与伸长多核苷酸的线性方向匹配。这样做是为了获得非常长的多核苷酸的连续图像,长达数百微米、几毫米或几十毫米,并且不需要额外的计算资源来缝合图像,缝合图像也可能引起图像接口的误差。
在一些实施例中,本发明的系统包括一种获得快速准确的聚合物长程图像的方法,其包含:
i)在一个方向上拉伸聚合物;
ii)使用配备有时间延迟积分(TDI)的2D检测器;
iii)在DNA拉伸的方向上相对于检测器平移样品;以及
iv)在平移方向上读取线,其中根据单个长图像带/条来分析长聚合物分子(不需要缝合单独的帧)。
在一些这样的实施例中,平移速度是读出速度的分数。这允许在表面上的下一个位置由传感器成像之前通过传感器元件从每个位置捕获多个信号事件。因此,可检测到多个结合事件,其中在足以捕获来自邻近部位的事件,移动位置之前一定数目的连续像素捕获部位周围的时间事件。
在其它情况下,超长多核苷酸通过被约束在弯曲纳米通道中而折叠成弯曲图案(参见Frietag等人),然后在单个CCD或CMOS的帧内成像。
在伸长方向不对应于2D阵列检测器的轴线的情况下,进行第一图像处理步骤,变换图像,以使得线沿着图像中的轴线对齐。在本发明的一些实施例中,在多核苷酸在单个取向上笔直对齐的情况下,可以通过查看沿着线性轴线激活的像素来追踪多核苷酸的部位。不需要激活每个像素,数目刚好能够克服与表面的背景/非特异性结合来追踪多核苷酸就足够。忽略沿着轴线不下降的信号。在一些实施例中,标记多核苷酸的主链。举例来说,可以使用荧光染料如Sybr Gold的结合来追踪多核苷酸。可以使用缀合阳离子聚合物代替传统的DNA染色剂。
荧光寿命和背景散射丢弃
不同的结合探针(包括瞬时结合的那些结合探针)可以用不同荧光寿命的发光实体(例如染料)来编码。分子的荧光寿命是分子在通过发射荧光光子返回到基态之前花费在激发态上的平均时间。
然后,可以使用脉冲激光激发来激发染料并且使用时间相关的单光子检测器(或能够进行高分辨率时间相关检测的其它检测器)检测每个染料的荧光寿命概况。检测器是增强型CCD(IMCCD)。它还可以是可以将光子的到达时间装箱的点检测器阵列。另外,可以门控发射的检测时间,以便屏蔽掉由光散射引起的早期(皮秒范围)荧光,使得克服背景检测到染料发出的荧光。
本发明的方法可以在有或无渐逝场下以及在相对较高浓度的寡核苷酸下进行,但通过丢弃荧光的早期时间窗来去除由散射引起的背景荧光。因此,使用脉冲激发和时间门控或时间相关的检测,可以一举两得:可以用因荧光寿命不同而有差别的标记编码测序询问试剂(核苷酸、寡核苷酸),并且可以丢弃由散射引起的背景荧光。
由溶液中的染料(不是散射)引起的背景荧光仍然存在,但可以通过使用渐逝波进行激发、零模波导和/或RET机制来减少。或者,可以将试剂淬灭(例如分子信标等)。
一种示例设置包括宽场荧光寿命成像显微镜(FLIM)系统,其使用405nm脉冲激光二极管照射样品并用ICCD相机收集移动的荧光信号。可以使用最短门控时间为200ps的4Picos增强型CCD相机(Stanford computer optics)。在显微镜内使用分束器以将激光脉冲与荧光信号。所述分束器反射405nm的激发波长并传递移到较长波长的样品的荧光信号。宽场FLIM设置另外需要触发器,用于使脉冲激光二极管与增强型CCD相机同步。时间分辨测量的激发源是脉冲式或调制式的,其能够测量荧光发射和动力学。时域荧光测量法通常更容易理解,因为它们产生荧光衰变曲线的真实表示。通常时域系统由提供激发的脉冲光源联合快速响应检测器组成。可以通过增加时间门的数目和开发拟合算法以考虑到多指数衰变拟合来改进寿命结果。时间相关的检测与单分子定位组合。
流体学
本发明可以在流体装置(流动池或小孔)中进行。递送和更换试剂的手段可以采取各种形式。可以使用注射泵或压力驱动系统、声驱动系统将存储它们的试剂移动到进行测序的部位,然后作为废弃物去除。在需要递送多个探针(例如,1024个寡核苷酸中的每一个)的情况下,Pihalk等人《分析化学》2005,77,64-71描述了一种存储大量的寡核苷酸和将其递送至可用于执行本发明的方法的测序系统的手段。Linder等人《分析化学》2005,77,64-71描述了可以使用的另一种方法。一种递送大量不同的探针或探针组的简单方式是将其装载到毛细管中,每个毛细管被气隙分隔开。还可以穿插洗涤溶液。然后,以适当的速度(例如,通过从注射泵拉动)运行回路,使得每个探针和洗涤溶液接触表面,接触时间段足以进行本发明所需的成像。
序列质量:最大限度地减少测序误差和覆盖偏差
所有测序技术都有一定程度的误差,并且不同测序平台容易发生不同种类的误差。根据Schirmer等人(《核酸研究》2015;nar.gku1341),Illumina MiSeq原始误差率是2%。这包括由文库制备、簇扩增、分阶段前(早期掺入中的误差)和分阶段(后来掺入中的误差)引入的误差。这可以通过修剪读段和重叠以建构共同序列来减少。
在本发明的实施例中,不进行PCR,因此不存在因PCR而引入的覆盖偏差,并且不存在因PCR期间聚合酶的误掺入引起的误差。在Illumina、ABI SOLID、Ion Torrent、Intelligent Biosystems和Complete Genomics测序中,在文库制备期间和克隆扩增(例如,DNA纳米球、聚合酶克隆或簇产生)期间可能引入扩增误差。
在下一代测序中用于克服误差的常见手段是对未扩增基因组的多个拷贝进行测序,以便从基因组的多个单独(非扩增子)拷贝获得基因组的相同区段的读段。然后从许多分子的共有序列分配序列。如果两个序列占优势,那么其可能指示杂合性。当在单细胞上进行测序时不会选择这样做。这在从中获得多个拷贝的组织或细胞不均一时也存在问题。举例来说,在肿瘤内,可能存在互混的多个克隆群体和体细胞突变。在免疫细胞中基因组也发生改变并且需要直接单细胞测序。本发明的方法应用于基于单个多核苷酸的这类情况。
在一些应用中,检测出细胞群体中已发生的体细胞突变很重要。在这种情况下,最好不要依赖于能够通过从许多分子获得共有读段来修剪掉误差,因为可能难以区分误差与真正罕见的突变。关于这一点的另一问题是,不同拷贝是旁系同源基的,因为它们来自基因组的区段的不同复制子(区段式复制),但其可能含有细小差异。
当根据本发明的方法进行测序时,可以通过强化通过多个探针结合事件的序列调用来减少原始误差。
当经由检测用单一染料分子标记的核苷酸的掺入对单分子进行测序(例如,如Helicos和PacBio测序中所做的)时,可能因未检测到的染料而引入误差。这可能是因为染料已被光漂白,由于染料闪烁使得检测到的累积信号很弱,染料发射太弱,或者染料进入长时间黑暗的光物理状态。这在本发明中可以通过多种方式来克服。第一种方式是用具有良好光物理性质的稳固的单独染料(例如,Cy3B)来标记染料。另一种是提供减少光漂白和黑暗的光物理状态的缓冲条件和添加剂(例如,β-巯基乙醇、Trolox、维生素C和其衍生物、氧化还原系统)。另一种是最大程度地减少光暴露(例如,使用需要较短暴露时间的更灵敏的检测器或提供频闪照明)。第二种是用纳米颗粒如量子点(例如,Qdot 655)、荧光球、等离子共振颗粒、光散射颗粒等而非单一染料来进行标记。另一种是使每个核苷酸具有许多染料,而不是单一染料。在这种情况下,将多种染料以最小化其自淬灭的方式组织(例如,使用刚性纳米结构、将它们间隔得足够远的DNA折纸),或者经由刚性连接子进行线性间隔。Genovoxx能够掺入含有许多荧光团的核苷酸,Mir(WO2005040425)已经能够掺入附接了纳米颗粒的核苷酸。
然而,大部分的减少与本发明最相关的由染料光物理引起的误差的手段是利用如本发明中所描述的瞬时结合。这里,在成像步骤期间获得的读出是不同的带有标记的探针的许多结合/解离相互作用的集合,因此,即使一种标记被光漂白或处于黑暗状态,落在分子上的其它结合探针上的标记可能未被光漂白或处于黑暗状态。
在溶液中存在一种或多种选自尿素、抗坏血酸或其盐以及异抗坏血酸或其盐、β-巯基乙醇(BME)、DTT、氧化还原系统或Trolox的化合物的情况下,检测误差率进一步降低(并且信号寿命增加)。
通过阵列捕获进行读段聚集
在另一实施例中,使用捕获试剂捕获靶多核苷酸,所述捕获试剂靶向安置在表面上或基质中的特定多核苷酸或多核苷酸的特定区段。在一些实施例中,捕获探针被设计成靶向在样品中的所有多核苷酸上存在的某些通用序列。例如,寡聚(dT)捕获试剂将靶向所有RNA。在一些实施例中,将共同寡核苷酸序列移植到靶多核苷酸上,以便捕获其。可以使用不同的捕获试剂来捕获不同的多核苷酸,并且可以将不同的捕获试剂安置在空间可寻址有序阵列,例如微阵列上,一旦捕获到多核苷酸,就可以通过流体流动或电泳流动将其伸长。
制造用于测序的有义-反义单链
在一些实施例中,将发夹连接到双链靶的一端上并且另一端只经由一条链固着在表面上。然后使多核苷酸变性并且从附着点伸长/拉伸。然后多核苷酸呈伸长的状态固定。
这提供了一种确保靶标是单链的方式。此外,从端-端有义和反义链获得的读段提供了互补读段,这是对所获得的测序的真实性的内部验证。这样的有义-反义链还可以通过使用AMV逆转录酶在RNA上进行cDNA合成来制备,AMV逆转录酶天然地使发夹合成第二条链。在一些实施例中,将逆转录引物用允许附着于表面的部分进行修饰。
单链组装
在本发明的一些实施例中,样品包含没有非常接近的天然互补链的单链多核苷酸。在这里,在对库的每个寡核苷酸沿着多核苷酸的结合部位进行编译时,可以通过根据它们的部位聚集所有序列位并将它们缝合在一起来重建序列。实际上,完整的库将提供覆瓦式系列的序列位。在现实世界中,这种模式可能因多核苷酸上的错配和非特异性结合而复杂化;然而,错配可以通过它们的时间结合模式来区分,因此被认为是序列信息的第二层。在这种情况下,当结合信号由于其时间结合特征而被判断为错配时,可以根据生物信息学修整序列位以去除假定的错配碱基,并且可以将剩余的序列位添加至序列重建中。由于错配最有可能发生在杂交寡核苷酸的末端,因此根据时间结合特征,可以从末端修剪一个或多个碱基。关于哪个碱基被修剪可以由来自相同序列空间上的其它寡核苷酸覆瓦的信息告知。
同时的双链体共有序列组装
在本发明的一些实施例中,双螺旋的两条链非常靠近地存在,并且无法将寡核苷酸结合的哪条链与检测到的瞬时信号区分。然而,当对库的每个寡核苷酸沿着多核苷酸的结合部位进行编译时,它可能看起来像两个寡核苷酸序列结合于同一个部位。这些寡核苷酸在序列上应该互补。为了确定单个结合事件是结合于一条链还是另一条链,接着总体上考虑数据:寡核苷酸的两个覆瓦式系列覆盖了所讨论的地点,其中每一片瓦在沿着多核苷酸的长度定位中在一个方向或另一个方向上的移动递增;将基于产生信号的寡核苷酸序列与哪个系列重叠来分配信号属于两个覆瓦式系列中的哪一个;这在图28中示出。在一些实施例中,然后通过首先使用结合部位和序列重叠构建两个覆瓦式系列中的每一个来重建序列。然后将两个覆瓦式系列作为反向互补序列进行对齐,并且只有当两条链在那些部位中的每个部位处都是完全反向互补序列时,才接受每个部位的碱基分配(这提供了双链体共有序列)。任何错配被标记为不明确的碱基调用,其中两种可能性之一需要由另外的信息层(例如来自独立错配结合事件的信息层)确证。在一些实施例中,一旦获得了双链体共有序列,就通过比较来自覆盖基因组的相同区域的其它多核苷酸的数据来确定常规(多分子)共有序列(当来自多个细胞的DNA可用时),注意不要混合个别单倍型。或者,在一些实施例中,在获得各个链的共有序列的双链体共有序列之前获得各个链的共有序列。在本发明的这样的实施例中,同时获得双链体的每条链的序列,这无需另外的样品制备步骤即可完成,例如用分子条形码有差异地给双链体的两条链加标签,如当前下一代测序(NGS)所用的[J.Salk等人,"Detection of ultra-rare mutations by next-generation sequencing".《美国国家科学院院刊》,第109卷第36期.2012]。此外,这样同时获得两条链(有义链和反义链)的序列优于可用于纳米孔的2D或1D2共有序列测序,所述2D或1D2共有序列测序需要在获得第二条链的序列之前获得双链体的一条链的序列。双链体共有序列测序可提供106范围内的准确度,即一百万个碱基中一个误差(与其它NGS方法的102-103原始准确度相比),并且在本发明的情况下,双链体共有序列是序列获取的固有部分,无需另外的样品制备步骤。这使得该方法与分辨罕见变体的需求高度兼容,这些罕见变体在试图针对早期癌症检测来检测循环DNA或试图自肿瘤细胞群体中的低频率亚克隆检测DNA时出现。
整合来自多个多核苷酸的读段
优选地,经由从头组装获得连续序列。然而,还可以使用参考序列来促进组装。这允许构建从头组装,但其更难分辨非常长的距离的单独的单倍型,需要沿着分子遇到足够的提供关于单倍型的信息的部位。当完整基因组测序需要合成来自跨越基因组的相同区域的多个分子(理想情况下是来源于相同亲代染色体的分子)的信息时,需要算法来处理从多个分子获得的信息。一种算法是这样一类算法,其基于多个分子之间共同的序列将分子对齐,并通过从覆盖该区域的共对齐的分子中进行输入来填充每个分子中的间隙。因此,一个分子中的间隙被另一个(共对齐的分子)中的读段覆盖。此外,鸟枪组装法,例如由EugeneMyers开发的鸟枪组装法,适于进行组装,另外的有利方面是:对大量读段进行预组装(例如,已经知道读段相对于彼此的部位,已知读段之间的间隙长度)。其它算法方法,例如Mishra等人(《生物信息学(Bioinformatics),Oxford Journals,(2011)27(2):153-160)描述的SUTTA,也适用于组装数据。在各种实施例中,可以使用参考基因组来促进长程基因组结构或短程多核苷酸序列或者两者的组装。可以将读段部分地从头组装,然后与参考对齐,然后将参考辅助的组合件进一步从头组装。各种参考组合件(例如,来自不同种族组)可以用于为基因组组装提供一些指导,然而,从实际分子获得的信息(尤其是如果其被两个或更多个分子确证的话)的权重大于来自参考的任何信息。现有技术未显示可以通过将从多个单独检查的单多核苷酸分子获得的部位序列对齐来重建连续序列。
无参考的测序
在各种实施例中,在不使用靶多核苷酸分子的另一拷贝或靶多核苷酸分子的参考序列的情况下测定序列。在这种情况下,大部分读段(例如90%)将合并,并且那些未合并的读段的读段之间的间隙将是已知的。间隙距离将是已知的,因为多核苷酸的线性长度是可追踪的,并且可以通过计数读段之间的像素数目并使用有关每个像素跨越的DNA的长度的知识来确定间隙距离。
分辨单倍型的测序
如果能够在长程内获得单倍型信息(等位基因沿着来源于单个亲代染色体的单个DNA分子缔合),那么基因组序列将有大得多的效用。
在多个方面和实施例中,所述方法可以用于单倍型测序。单倍型测序可以包括:使用根据本发明的方法对跨越二倍体基因组的单倍型的第一靶多核苷酸进行测序;使用根据本发明的方法对跨越二倍体基因组的单倍型分枝的第二靶多核苷酸进行测序,其中第一靶多核苷酸和第二靶多核苷酸来自同源染色体的不同拷贝;以及比较第一靶多核苷酸与第二靶多核苷酸的序列,从而确定第一靶多核苷酸和第二靶多核苷酸上的单倍型。
确定细胞群体中的单倍型多样性和频率
在许多现有方法中,目标是查看细胞群体中基因组的异质性,这些方法使用单细胞分析,这对技术要求高。然而,本发明的显著特征是可以分析群体中基因组的异质性,而不需要将单细胞的内容物保持在一起,因为如果分子足够长,就可以确定细胞群体中存在的不同染色体、长染色体区段或单倍型。尽管这并不表明细胞中同时存在哪两种单倍型,但其确实报告了基因组结构类型(或单倍型)的多样性和其频率,以及存在哪种异常的结构变体。这个实施例包含以下步骤:
1.从两个或更多个细胞中提取基因组DNA;
2.伸长DNA并进行本发明的测序方法;
3.分析数据以确定哪些DNA链是同源物;
4.确定同源物中的不同单倍型;以及
5.确定不同单倍型的频率。
与其它测序技术协同作用
在一些实施例中,本发明的方法并不是完整基因组测序,而是用于为短读段测序,例如来自Illumina的短读段测序提供支架。在这种情况下,宜通过排除PCR扩增步骤以获得更均匀的基因组覆盖度来进行Illumina文库制备。这些实施例中的一些的一个有利方面是,例如,所需测序的覆盖度倍数可以从约40倍减半至20倍。在一些实施例中,这是由于添加了通过本发明的方法进行的测序和方法提供的部位信息。
测序小组
在一些实施例中,需要对与特定基因或基因座对应的基因组亚组进行测序。在这种情况下,使基因组DNA成为单链,并且使序列特异性寡核苷酸在所关注区域上瞬时退火。通过这种方式靶向测序的一个有利方面是,即使整个基因组被拉伸到表面上,也只有所靶向的区域被照亮。因此可以通过直接定位到可光检测的靶区域来缩短成像时间。此外,基因组在表面上排列的密度比正常高得多,因为只需要检测分子的一小部分。举例来说,可以通过使与BRCA1序列互补的多个寡核苷酸退火来对人类基因组的BRCA1区域测序。基因组的其它部分仍未检测到。
游离核酸
用于诊断学的一些最容易获得的DNA或RNA存在于体液或粪便中的细胞外部。血液中循环的DNA用于21三体综合征和其它染色体和基因组病症的产前检测。它也是检测肿瘤来源的DNA和作为某些病理学病状的标志物的其它DNA或RNA的手段。然而,在血液中分子通常在约200bp的长度范围内,在尿液中更短。基因组区域的拷贝数是通过与跟参考对齐的读段的数目相较于基因组的其它部分的比较来确定的。
在一些情况下,以序列特异性方式确定核酸是否被甲基化是有用的。例如,区别胎儿与母体DNA的一种方式是,前者在所关注基因座中被甲基化;这对于无创产前检测(NIPT)是有用的。
可以通过两种方法将本发明应用于游离核酸序列的计数或分析。第一种方法涉及在变性之前或之后固着短核酸。可以使用瞬时结合试剂来询问核酸,以确定核酸的身份、其拷贝数、是否存在突变或某些SNP等位基因,以及检测到的序列是否被甲基化或带有其它修饰(生物标志物)。
此涉及:
1)从体液如血液中分离出游离核酸
2)使分离的游离核酸固着在基板上;以及
3)通过探针与固着的游离核酸结合进行测序。
第二种方法涉及首先串接小的片段,以便可以拉伸多联体。这包括:
4)从血液中分离游离DNA;
5)串接DNA;以及
6)通过探针结合在串接的DNA上进行测序。
在一些实施例中,通过抛光DNA末端并进行平端连接来完成串接。或者,可以将血液或游离DNA分成两份等分试样,一个等分试样用多聚A(使用末端转移酶)加尾,另一等分试样用多聚T加尾。
然后对所得到的多联体进行测序。然后将所得到的“超级”序列读段与参考进行比较,以提取各个读段。对各个读段以计算方法进行提取,然后以与其它短读段相同的方式进行处理。
在粪便中也发现了核酸,粪便是含有大量可以降解核酸的核酸外切酶的介质;可以采用核酸外切酶发挥功能所需的大量的二价阳离子螯合剂(例如,EDTA)来保持DNA足够完整并根据本发明的方法进行测序。DNA从细胞中脱落的另一种方式是经由包裹在外来体中。通过超速离心或通过使用旋转柱(Qiagen)来分离外来体,并可以收集其中所含的DNA或RNA并根据本发明的方法进行测序。
在一些实施例中,一种、但通常至少两种、优选数种寡核苷酸与核酸的结合足以确定其身份或核酸来自或来源于基因组的哪一个部分。因此,在测试整个库之前的不完全测序可以提供必需的信息。在一些实施例中,通过计数根据基因组来源鉴定的核酸分子的数目来确定不同染色体或基因组区域的比率。在一些实施例中,这允许测定关于样品的胎儿分数的信息。在一些实施例中,与确定核酸分子的身份或来源一起,通过分析一种或多种寡核苷酸的结合来确定单核苷酸变体或插入缺失的存在。
寡核苷酸结合得越长,确定核酸分子的身份或来源需要的寡核苷酸越少。在这点上,可以通过提供寡核苷酸探针序列小组来检测特定基因或基因座,这类探针是长度大于10个核苷酸的寡核苷酸或长度<10nt的多个特定短oligonuceltide。因此,癌症相关的探针小组应用于从血液中提取的核酸分子,以鉴定癌症相关基因,然后可以使用进一步寡核苷酸结合来鉴定单核苷酸变体或插入缺失。本发明中针对此描述的方法的优点包括多个结合事件,以及在一些实施例中,探测两条链,从而在调用变体时给出更大置信度。
RNA测序
虽然RNA的长度通常比基因组DNA短,但使用现有技术从一端到另一端对RNA进行测序是一项挑战。然而,由于选择性剪接,确定mRNA的全序列组成是至关重要的。在本发明的一些实施例中,可以通过多聚A尾与固着的寡聚d(T)结合来捕获mRNA,通过拉伸力和变性条件来去除其二级结构,从而可以使其在表面上伸长。然后这允许结合试剂(外显子特异性的)被瞬时结合。由于RNA的长度较短,因此采用如本发明所述的单分子定位方法来分辨和区分外显子是有益的。在一些实施例中,仅分散在整个RNA中的几个结合事件就足以为特定mRNA同种型确定外显子在mRNA中的顺序和身份。
在分析之前保留生物大分子的完整性
在生物学中观察天然状态下的生物分子是反复出现的挑战。常常,检索天然状态下的生物分子的信息的过程导致天然状态一些方面的破坏。
在基因组的情况下,分析基因组在其天然染色体状态下的信息内容是一个挑战。人类染色体中的DNA的长度可以在5000万个碱基到2.5亿个碱基的范围内,但如今的鸟枪测序技术只能读取几百个碱基的长度。尽管如此,但日益了解到,DNA序列的部位和拷贝数对表型有重要影响。
大部分破坏发生在从细胞和组织中提取生物分子的过程中,以及随后在可以分析生物分子之前对其进行处置的过程中。在DNA的情况下,导致其完整性丧失的对它进行的处置方面包括移液、涡旋、冻融和过度加热。可以使机械应力最小(例如,如《化学生物化学》,11:340-343(2010)所描述。另外,高浓度的二价阳离子、EDTA、EGTA或没食子酸(以及其类似物和衍生物)抑制被核酸酶降解。在一些实施例中,2:1的样品与二价阳离子重量之比足以抑制核酸酶,即使在存在极端水平核酸酶的样品如粪便中也是如此。
本发明的替代方面尝试解决的问题是,如何在分析之前保留生物大分子的天然完整性,尤其是如何将基因组DNA保留在其天然长的长度或略微接近其天然长的长度下。这对于使用本发明的方法或使用其它方法的测序来说都是有关的。它尤其与纳米孔测序有关。
在一些实施例中,本发明涉及一种递送用于分析的生物大分子的方法,其包含:
1)提供包含生物大分子的保护性实体,所述保护性实体将生物大分子保留在接近其天然状态下;
2)将包含生物大分子的保护性实体放在分析区附近;以及
3)将生物大分子从保护性实体释放到分析区中。
在一些实施例中,本发明涉及一种制备用于分析的生物大分子的方法,其包含:
1)提供包含生物大分子的保护性实体,所述保护性实体将生物大分子保留在接近其天然状态下;
2)将包含生物大分子的保护性实体放在分析区附近;
3)将生物大分子从保护性实体释放;以及
4)将生物大分子传递到分析区中。
在一些实施例中,本发明涉及一种制备用于分析的生物大分子的方法,其包含:
1)提供包含生物大分子的保护性实体,所述保护性实体将生物大分子保留在接近其天然状态下;
2)将包含生物大分子的保护性实体放在分析区附近;以及
3)将生物大分子从保护性实体释放到分析区中。
在另一实施例中,本发明涉及一种分析生物大分子的方法,其包含:
1)提供包含生物大分子的保护性实体,所述保护性实体将生物大分子保留在接近其天然状态下;
2)将包含生物大分子的保护性实体放在分析区附近;
3)将生物大分子从保护性实体释放;
4)将生物大分子传递到分析区中;以及
5)在分析区中检测生物大分子的至少一个特征。
在一些实施例中,本发明涉及一种递送用于分析的基因组DNA的方法,其包含:
1)提供包含基因组DNA的保护性实体,所述保护性实体将基因组DNA保留在接近其天然长度下
2)将包含基因组DNA的保护性实体放在分析区附近
3)将基因组DNA从保护性实体释放
4)将基因组DNA传递到分析区中
在另一实施例中,本发明包含:
1)提供包含基因组DNA的琼脂糖凝胶,所述琼脂糖凝胶将大部分的基因组DNA保留在大于200Kb的长度下;
2)将包含基因组DNA的琼脂糖放在对DNA进行分析的表面附近;
3)将基因组DNA从琼脂糖释放到表面上;以及
4)使DNA在一个取向上伸长。
在一些实施例中,本发明涉及一种制备用于分析的将要检测罕见的靶分子的生物大分子的方法,其包含:
1)将生物大分子提取在容器中,所述容器含有使机械应力最小和/或含有高浓度二价阳离子/五倍子酸并且容器区域进行钝化(例如,经由脂质层)以最小化大分子螯合的环境。
2)将所提取的生物大分子固着容器内的表面上;以及
3)根据本发明的方法对所提取和固着的生物大分子进行分析/测序。
在一些实施例中,基因组DNA长度>50Kb、100Kb、200Kb、400Kb、800Kb。在一些实施例中,一定分数的DNA长度大于约1Mb。在一些实施例中,一些DNA分子长度大于5Mb。在一些实施例中,DNA的靶分子接近染色体的实质长度。在一些实施例中,保留了端粒到端粒的染色体全长并进行分析。
在一些实施例中,琼脂糖凝胶呈琼脂糖珠粒形式。在一些实施例中,DNA被包封在液滴中。在一些实施例中,DNA基本上保持为染色质。在一些实施例中,DNA保持为染色体。在一些实施例中,染色体是处于细胞周期中期的染色体。在一些实施例中,染色体是处于细胞周期后期的染色体。
在一些实施例中,样品基本上包含单细胞的整个DNA内含物。在一些实施例中,样品基本上包含单细胞的整个RNA内含物。在一些实施例中,样品基本上包含单细胞的整个蛋白质/多肽/肽内含物。在一些实施例中,样品基本上包含单细胞的整个DNA和RNA内含物。在一些实施例中,样品基本上包含单细胞的整个DNA、RNA、蛋白质内含物。
在一些实施例中,样品基本上包含单细胞的整个细胞质内含物。在一些实施例中,样品基本上包含单细胞的整个细胞核内含物。在一些实施例中,样品包含RNA的整个细胞质内含物和DNA的整个细胞核内含物。在一些实施例中,样品基本上包含蛋白质的整个膜内含物。
在一些方面,所述方法包含:
1.一种将生物大分子递送到分析区的方法:
a.提供包含生物大分子的保护性实体,所述保护性实体将生物大分子保留在接近其天然状态下;
b.将包含生物大分子的保护性实体放在分析区附近;
c.将生物大分子从保护性实体释放;
d.将生物大分子传递到分析区中;以及
e.能够在分析区中检测生物大分子的至少一个特征。
2.根据1的方法,其中所述保护性实体与所述分析区并列。
3.根据1的方法,其中所述保护性实体包含所述生物大分子的天然环境。
4.根据3的方法,其中所述保护性实体包含染色体、染色单体或染色质。
5.根据3的方法,其中所述保护性实体包含细胞、细胞核、细胞器、囊泡、外来体、衣壳。
6.根据1的方法,其中所述保护性实体包含缩合、折叠或其它呈现,使所述生物大分子呈紧凑结构。
7.根据1的方法,其中所述保护性实体是液滴、珠粒或凝胶。
8.根据5的方法,其中所述保护性实体是凝胶珠粒、凝胶塞、凝胶板、凝胶毛细管或其它凝胶形成。
9.根据8的方法,其中所述凝胶是琼脂糖。
10.根据前述方面1-9的方法,其中在方面1的步骤1之前所述生物大分子包在所述保护性实体内或用所述保护性实体包裹。
11.根据8的方法,其中经由电场的施加将所述生物大分子从所述保护性实体释放。
11a.一种方法,其中将所述生物大分子释放到微流体结构中。
11b.根据11a的方法,其中所述微流体结构被钝化。
11c.根据11b的方法,其中所述钝化经由涂布脂质进行。
12.根据1的方法,其中所述分析区是纳米孔、纳米间隙或其它纳米级检测台/读取头。
12b.根据12的方法,其中在被释放到接近所述分析区之后对各个多核苷酸进行纳米孔测序。
13.根据1的方法,其中所述分析区是表面。
14.根据12的方法,其中所述表面包含可以与所述生物大分子上的一个或多个位点结合的试剂。
15.根据1的方法,其中所述分析区是纳米通道、纳米槽、纳米坑或纳米缝隙。
16.根据1的方法,其中将所述生物大分子释放到与所述分析区呈流体接触的结构中。
17.根据15的方法,其中所述生物大分子在到达所述分析区之前通过微流体通道。
18.根据1的方法,其中所述生物大分子经由电泳或电渗释放。
19.根据1的方法,其中进入所述分析区的速率由分子棘齿、分子马达、流体动力阻力、电场、光学镊子、磁性镊子来控制。
20.根据1的方法,其中所述生物大分子是被破坏所述保护性实体的试剂释放的。
21.根据20的方法,其中所述破坏剂是酶、清洁剂、酸溶液或碱溶液。
22.根据21的方法,其中所述酶是蛋白酶。
23.根据20的方法,其中所述破坏剂包含超声处理、电荷开关、温度变化、热休克、冷休克、解冻等。
24.根据1的方法,其中保护不受剪切力影响。
25.根据1的方法,其中保护不受核酸酶、蛋白酶影响。
26.根据权利要求1的方法,其中步骤e包含检测所述生物大分子上的两个或更多个部位处的两个或更多个特征。
27.根据1的方法,其中方法中所述生物大分子是聚合物。
28.根据权利要求27的方法,其中保留在接近天然状态下包含保留实质长的长度的聚合物。
29.根据28的方法,其中所述聚合物是DNA聚合物并且所述长度保留超过40Kb、100Kb、200Kb、500Kb、1Mb、5Mb、50Mb、250Mb。
30.根据1的方法,其中通过试剂与所述生物大分子移动的方向垂直的流动(交叉流)来释放所述生物大分子。
31.根据30的方法,其中所述交叉流包含RNA酶、蛋白酶、碱、清洁剂。
32.根据1的方法,在所述生物大分子释放之后并且在它进入所述分析区之前它穿越支柱或柱的阵列。
33.根据1的方法,其中所述保护性实体包含石蜡。
34.根据33的方法,其中所述保护性实体包含福尔马林固定的石蜡包埋的生物大分子。
35.根据1的方法,其中所述生物大分子暴露于保留其完整性并修复破坏的溶液。
36.根据35的方法,其中所述生物大分子是DNA并且所述溶液含有修复酶(例如,NEB的PCR修复混合物)。
35.根据方面1-36的方法,其中所述生物大分子的释放是从天然外罩提取所述生物大分子(例如,从细胞中提取DNA)的过程。
36.根据1的方法,其中一旦所述生物大分子从所述保护性实体释放,则在不使用微量移液、涡旋和/或离心下进行所述步骤。
替代性实施例
在一个替代实施例中,探针稳定地结合,但它们的瞬时性受外部触发事件控制,所述外部触发事件将环境切换到断开模式。这样的触发事件是热、pH值、电场或试剂更换,这些使得探针解开。然后,环境被切换回开启模式,允许探针再次结合。在一些实施例中,当在第一轮结合中结合没有使所有位点饱和时,第二轮可以占据除第一轮外的其它位点。这些循环以可控的速率进行多次。
替代超分辩率和单分子定位方法
在替代实施例中,探针相对稳定地结合,但有许多方法用于分辨比衍射极限更近的光信号。首先,在已知发射标记,例如量子点或染料的光学特征的情况下,可使用实体的点扩散函数来分辨两个沿着多核苷酸的间距小的信号。这在两个间距小的信号在不同波长下发射时更容易做。其次,可通过使信号进行光漂白(随机过程)来分辨信号(《生物医学光学杂志(J Biomed Opt.)》2012年12月;17(12):126008)。第三,已经描述了许多硬件方法,并在市面上可购得;这些包括扫描光学显微术、4Pi、STED和SIM。在STED的情况下,必须使用特定的相容荧光团组。还描述了多种分子方法,其基于在时间上分开的间距小的信号并且包括STORM(通过随机光学重建显微术进行的亚衍射极限成像(STORM)M.J.Rust,M.Bates,X.Zhuang《自然-方法(Nature Methods)》3:793-795(2006));在这种情况下,必须使用特定的相容荧光团组。
在本发明的各种实施例中还可以使用单分子定位方法DNA PAINT(Jungmann等人《纳米快报》2010,10:4756)。在DNA PAINT的情况下,每个结合探针用寡核苷酸标签标记,互补寡核苷酸抗标签瞬时结合于所述寡核苷酸标签。每个结合探针与不同互补序列的结合配偶体对相关。为了有差别,与每个结合探针相关的抗标签可与另一个抗标签区分。使它们可区分的要素可以是发射不同波长的标记(例如Atto 488、Cy3B、Alexa 594和Atto 655/647N)、具有不同寿命的标记,或它可以是不同的抗标签被设计成具有不同的结合/解离动力学。
可以使用DNA PAINT来精确地分配信号定位的坐标。当发射信号的荧光团保持接近掺入位点时更容易确定定位,因此必须限制将发射波长的部分(例如,荧光团)接合到碱基的连接子或桥的长度和柔性程度,例如在一些实施例中,使用短长度和刚性连接子。
获得超分辩率图像的另一替代手段是通过扩张(例如,如Chen,Tillberg,和Boyden《科学》2015年1月30日:第347卷第6221期第543-548页所描述)。这里,使伸长多核苷酸呈凝胶,然后使其扩张,从而拉伸生物材料。将与多核苷酸相关的特定标记共价锚定于可膨胀的聚合物网络。在肿胀时,即使多核苷酸断裂(或不再具有连续的多磷酸主链),仍保留片段的顺序并且仍可以实践本发明。
这类超分辨率方法不需要瞬时结合。因此,每个循环的探针结合可以通过将表面(例如,盖玻片)浸渍到携带库的不同寡核苷酸或寡核苷酸组的不同凹槽中来进行。
瞬时结合的益处
瞬时结合方法的优点在于,结合的荧光团的光漂白不是问题,因为它们始终被新的荧光团替换。因此,荧光团的选择、抗荧光衰减的氧化还原系统的提供不是那么重要,并且可以构建较简单的光学系统,例如没有f-光阑,其防止照射不在相机视野内的分子,因为照射只会漂白瞬时进入渐逝波的标记,并且这些被漂白的标记会不断地被来自本体溶液的分子替换。
结合-解离的优点仅仅在于它避免了用单一染料分子标记的探针的黑暗状态或光漂白问题。如果特定探针分子被漂白或处于黑暗状态,那么将不会检测到所述探针的结合事件。然而,靶向位置很可能通过与所述部位的下一个结合事件检测到。
在一些实施例中,结合-解离的优点是使得可进行多个测量以增加检测的置信度。例如,在一些情况下,由于分子过程的典型随机性质,探针可能结合于不正确的部位,但是可丢弃这种异常值,并且为了测定序列,只有那些被多个检测到的相互作用确证的结合事件才被接受为有效的检测事件。
在本发明的一些实施例中,瞬时结合方法的优点对于如何测定沿着伸长多核苷酸的序列来说是非常重要的。这一优点的实情是,瞬时结合意味着不是所有的应该结合的探针部位都同时被结合。这允许在比光的衍射极限更近的位点检测结合事件。例如,如果序列AAGCTT在60个碱基后重复,那么光学成像正常将无法区分约20nm的距离(当靶标被伸长和拉直至约0.34nm的沃森-克里克距离时)。然而,如果探针在成像期间的不同时间与两个位点结合,则它们可以被单独检测到。这允许通过称为纳米级形貌中的点累积(PAINT)的方法进行结合事件的超分辨成像。可以使用算法(例如ThunderSTORM),其允许信号的纳米级或亚纳米级定位。在这种情况下,可以确定探针结合的精确部位,因此确定探针结合的精确顺序。纳米级精度对于分辨重复序列和确定它们的数量来说特别重要。
所述方法优于10x公司开发的基于液滴的分割和条形码化方法的有利方面是,可以通过直接目测分子而不是通过推断或通过计算重建来获得基因组结构和单倍型信息。所述方法的独特优势在于,当有效地进行时,可以对来自单细胞的基因组测序并且分辨其中的单倍型。即使所述方法不是有效的,与需要分子的分割和条形码化的方法所需要的相比,从头重建基因组需要少得多的基因组拷贝。此外,需要少得多的处理步骤以及使用更少的总试剂。此外,因为所述方法是在没有扩增的情况下对基因组DNA进行的,所以它不会遭受扩增偏差和误差,并且表观基因组标志物被保留并能够与序列的获取正交来检测。碳-5(C5)的烷基化在哺乳动物中产生几种胞嘧啶变体:C5-甲基胞嘧啶(5-mC)、C5-羟甲基胞嘧啶(5-hmC)、C5-甲酰胞嘧啶和C5-羧基胞嘧啶。真核生物和原核生物也将腺嘌呤甲基化为N6-甲基腺嘌呤(6-mA)。在原核生物中,N4-甲基胞嘧啶也很普遍。抗体是可获得的或可以针对这些修饰中的每一种修饰而产生。靶向修饰的亲和体、纳米抗体或适体由于可能具有较小的足迹而特别相关。另外,可以使用其它天然存在的DNA结合蛋白,例如甲基蛋白(MBD1、MBD2等)。
因此,在多个方面和实施例中,本发明提供对包括表观基因组信息的单个伸长靶多核苷酸分子测序的方法。
在多个方面和实施例中,可以使用所述方法进行分辨单倍型的分阶段测序,并且可以包括以下步骤:使用前面段落的方法对跨越二倍体基因组的单倍型分枝的第一靶多核苷酸进行测序;使用前面段落的方法对跨越二倍体基因组的单倍型分枝的第二靶多核苷酸进行测序,其中第一靶多核苷酸和第二靶多核苷酸来自不同的同源染色体;从而确定第一靶多核苷酸和第二靶多核苷酸上的单倍型(连接的等位基因)。
本发明的优点在于它能够通过改为将利用短寡核苷酸的结合获得的连续或重叠序列信息缝合在一起来获得长读段,而实际上不会实现高成本和耗时的单独的长读段。沿着单个多核苷酸分子的长度同时获得序列信息的多个短的3、4、5或6碱基位,因此,将它们全都连接,并且当多核苷酸已经是结合-解离寡核苷酸饱和时,它们的纳米位置、分辨率和顺序揭示了整个分子的序列。多核苷酸测序耗费的时间比当前方法少,因为同时获得多个序列信息位,而不是通过SbS反应获得从分子中的一个部位到另一个部位的单个长读段(例如,PacBio测序)。
本发明的另一重大优点是,它能够检测到所有类型的小的或大的结构变异,包括平衡的拷贝数变异和倒位,这些对于当前主要方法,即基于微阵列的技术来说是有挑战性的,并且分辨率和规模是微阵列、细胞遗传学或其它当前测序方法无法达到的。
此外,所述方法允许通过基因组的重复区进行测序。对于常规测序来说,贯穿基因组的这些部分的读段的问题在于,首先,这类区域没有在参考基因组中很好地呈现,并且如Illumina、Ion Torrent、Helicos/SeqLL和Complete Genomics等技术通常通过与参考进行比对而不是通过从头组装来处理大基因组。其次,当读段不跨越整个重复区时,难以通过跨越所述区域的较短读段来组装所述区域。这是因为可能难以确定一个分子上的重复区与另一个分子上的重复区之间可能的多个比对中的哪一个是正确的。误差比对可能导致组装中的重复区缩短或延长。在本发明的测序方法中,当同时取得或一组接着一组取得的多个读段完全或几乎完全覆盖单分子时,可以构建跨越整个重复区的组合件(当多核苷酸本身跨越整个重复区时)。本发明的方法可以应用于足够长而跨越重复区的多核苷酸。1与10Mb之间的多核苷酸足以跨越基因组中的大部分重复区。
对各种测序度量的影响
对速度的影响-所述方法简单,没有冗长的样品处理步骤或循环时间。没有酶催化步骤,只有杂交,有多种手段可以加速杂交。
对成本的影响-所述方法成本极低,唯一需要的试剂是极少量的寡核苷酸,例如0.5-3nM的寡核苷酸探针。
对读段长度的影响-读段长度可能与任何长度的DNA分子(包括全染色体)一样长。
对准确度的影响-所提出的技术有可能是最高准确度的测序技术。除少数异常值之外,短寡核苷酸极具特异性,因为仅一个碱基的错配就会导致稳定性的大幅下降。假定结合条件是适当的,大多数情况下可以区分完全匹配与一个或多个碱基的错配;这种能力可以通过每个序列位点的重复询问来增强。此外,所述方法在序列确定中可以利用错配信息。此外,从双链体的两条链同时获取序列增加了准确度。这项技术的准确度水平将足以检测罕见突变。
对灵敏度的影响-因为所述方法是一种单分子技术,所以它可能极其灵敏。因为不存在低效的制备步骤,例如连接,所以将不会损失分子。因为可以在接近测序位点处整合提取,所以分子不会因粘住容器而损失,并且微流体装置的内壁本身会进行钝化以防止分子的螯合。还可以在流动通道内获取基本上所有的从细胞释放的分子。此外,所述方法能够从仅一个分子获得完整连续读段。这与从单细胞进行测序相关,其中所述方法将允许前所未有的覆盖度和较低的等位基因丢失。
测序应用和用途
在一些实施例中,本发明包含直接从单个伸长多核苷酸获得的序列信息的用途,其中保留了在长多核苷酸(约100Kb到全染色体)内获得的序列读段的背景。背景信息可以刚好包含短读段来源于特定多核苷酸的信息。背景还可以延伸到知道多核苷酸内测序读段的精确或近似的部位。
此外,当多核苷酸是长度相似或不同的源于相同染色体(或其它类型的完整多核苷酸,例如RNA转录物)的多个多核苷酸的一部分时,甚至可以获得比单独的多核苷酸的长度(如果它是亚染色体长度的话)更长的范围的信息。在一些实施例中,来自多个多核苷酸中的每个多核苷酸的序列读段是独立于来自构成多个多核苷酸的其它多核苷酸的读段获得的。在这种情况下,使用从多个多核苷酸获得的测序数据将多核苷酸重建或组装成所述多核苷酸最初源自的天然多核苷酸序列。当对从给定类型的许多细胞中提取基因组DNA进行测序时情况就是这样,并且预计存在来自许多相同染色体同源物的DNA。例如,在从一百万个细胞(例如,来自CEPH小组的淋巴母细胞样细胞系,例如NA12878)进行的细胞提取中,预计在所提取的DNA中有来源于母亲的一百万个染色体同源物和来源于父亲的一百万个染色体同源物。
在其它实施例中,通过对分离的长(约50-200Kb)单多核苷酸进行测序而保留了短读段的背景。在一些实施例中,通过沿着伸长多核苷酸进行测序而保留了短读段的背景。在一些实施例中,覆盖相同区段的单多核苷酸的许多拷贝(有或无单倍型分辨)用作靶标以每个靶标多个序列读段,并且使用所述序列读段重建的多核苷酸区段的序列比可以由单多核苷酸中的一个表示的序列范围长。因此,可以重建基因组或基因组大部分的从头组装。为了进行分辨单倍型的从头组装,当用测序读段覆盖足够分数的多核苷酸时,可区分重叠区段是属于来自一个同源染色体的区段还是另一个(例如基于SNP或其中发现的结构变体)。可以使用本发明的方法确定或分辨在基因组中发现的难以通过当前测序技术获得的以下特征。
倒位
沿着多核苷酸的一系列序列读段的取向将报告是否发生了倒位事件。与参考相比,一个或多个读段的取向与其它读段相反,表明倒位。
易位
与参考相比,在附近存在着在其它读段的背景下未预期到的一个或多个读段指示重排或易位。参考中读段的部位指示基因组的哪一部分已经移到另一部分。在一些情况下,在新部位的读段是复制而不是易位。
拷贝数变异
特定读段的缺失或重复表明分别发生了缺失或扩增。本发明的方法特别适用于多核苷酸中存在多个和/或复杂重排的情况。因为本发明的方法基于分析单多核苷酸,所以对上述结构变体分辨到少数细胞(例如,仅1%的来自群体的细胞)中的罕见发生事件。
复制子
区段复制或复制子在基因组中是持久的,并引起各个基因组的许多结构变异,包括体细胞突变。区段复制子可能存在于基因组的远端部分。在当前的下一代测序中,很难确定读段来源于哪个区段复制子。在本发明的一些实施例中,因为在长分子(例如,0.1-10兆碱基的长度范围)上获得读段,所以通常只通过使用读段确定基因组的哪些区段在对应于复制子的基因组的特定区段的侧面就可以确定复制子的基因组背景。
重复区
通过本发明的方法可以观察到携带旁系同源变异的读段或相关读段的重复出现是在基因组中多个部位处出现的多个或非常相似的读段。这多个部位紧密地挤在一起,如在卫星DNA中,或者它们分散在整个基因组中,如在假基因中。本发明的方法可以适用于短串联重复序列(STRS)、可变数目串联重复序列(VNTR)、三核苷酸重复序列等。
寻找断点
可以通过本发明的方法查明结构变体的断点。本发明不仅指出在总体水平下基因组的哪两个部分已经融合,并且还能够看到发生断点的精确的单独读段。不仅读段包含两个融合区域的嵌合体,而且断点一侧的所有序列将对应于融合区段的一个区段,而另一侧为融合区段的另一个区段。这在确定断点方面给予高置信度。即使在断点周围的结构很复杂的情况下,本发明的方法也能够分辨结构。在一些实施例中,精确的染色体断点信息用于了解疾病机制,用于检测特定易位的发生,或检测诊断疾病。
单倍型
在一些实施例中,单倍型的分辨使得能够进行改进的遗传研究。在其它实施例中,单倍型的分辨使得能够进行更好的组织分型。在一些实施例中,单倍型的分辨或特定单倍型的检测使得能够进行诊断。
与其它推理的方法或分割和标记单倍型分析/分阶段方法相比,本发明不是基于可能单倍型的计算机重建。通过本发明获得的信息的视觉性质实际在物理上或视觉上显示特定的单倍型。
因此,从本发明的实施例中获得的读段和组合件可被归类为单倍型特异性的。不一定容易在长程内获得单倍型特异性信息的唯一情况是当组装间歇进行时;尽管如此,仍提供了读段的部位。即使在这里,如果多个多核苷酸覆盖基因组的相同区段,则单倍型也可以通过计算来确定。
对生物体的鉴定
本发明的一个实施例是基于由本发明提供的序列、表观遗传和结构信息,鉴定混合样品如宏基因组样品中存在的不同的各个生物体。因为本发明的测序方法可以对来自基因组的只一个拷贝的大部分基因组测序,所以它可以对生物体的多种宏基因组混合物测序。此外,仅从信息的一个或几个碱基获得的单分子的图谱就足以鉴定微生物。
细胞系鉴定和验证
在一些实施例中,从培养的细胞中提取基因组DNA,拉伸,并使用本发明的方法从拉伸分子中提取甲基化和/或序列信息。这样的信息可以用于验证细胞系的身份并确定其分子表型,并且监测其表观基因组在传代过程中或因预先形成的实验(例如,培养条件干扰)而产生的变化。
疾病检测
在一些实施例中,本发明包含使用本发明的方法进行癌症的早期检测、癌症的诊断、癌症的分类、分析癌症内的细胞异质性、癌症分期、监测癌症的发展、决定是否施用药物治疗、使用哪些药物或药物组合、监测治疗的作用、监测复发、预测结果。在这些情况中的每一种情况下,寻找特定的“生物标志物”或生物标志物组,其包含特定序列、表观遗传或结构变体,或只是检测到通常高于某一阈值水平的结构变异的发生。这一方面包含:
1.从正进行筛查(例如针对癌症的早期征象筛选)的人类患者或个体获得样品生物材料;
2.根据本发明的方法进行测序和/或表观遗传分析;
3.与参考相比或与来自所述个体/患者的其它身体组织相比,寻找数据中的序列、表观遗传和/或结构变异;
4.评估变型的量和/或类型以及任选地提供评分;以及
5.任选地基于4作出临床决策。
相同的五个步骤可以应用于不同于癌症的其它疾病情况,并且可以应用于除人类以外的动物,例如家畜、犬和猫。序列数据可包括RNA和DNA数据。在一些实施例中,使用仅序列信息、仅结构信息或仅甲基化或其它修饰信息作出临床决策。
在一些实施例中,步骤5可包含在植入前诊断或筛查中决定选择哪个受精卵。在一些实施例中,获得FFPE卷曲,提取DNA并固着,并进行结合剂的瞬时结合。
基因型与表型的相关性
在一些实施例中,使用本发明的方法通过以下来获得基因型与表型的相关性:
1.从群体、群组或家族中的个体获得样品生物材料(例如,RNA或DNA);
2.根据本发明的方法进行测序和/或表观遗传分析;
3.寻找数据中的序列、表观遗传标志物和/或结构变异并在特定疾病、表型或特性的病例与对照之间进行比较,同时任选地考虑种族、表型分层和表型错分类;以及
4.确定哪些序列、表观遗传和/或结构基序或标志物变体与表型相关。
此外,可以选择表型相关的序列、表观遗传和/或结构变体作为表型的候选生物标志物。任选地,进行进一步研究以微调或验证候选生物标志物。
实验方法的详细描述
下文更详细地呈现和描述了本发明的各种方面、实施例和特征。然而,以上和以下的描述都只是例示性和解释性的,并且不限制所要求保护的本发明。
在一些实施例中,本发明的方法在过程的主要功能元件之间包含多个洗涤步骤,熟练技术人员认识到各个点进行洗涤步骤的需要。一般来说,洗涤缓冲液可包含磷酸盐缓冲盐水、2×SSC、TEN、HEPES并补充有少量的Tween 20、Triton X、十二烷酰肌氨酸和/或SDS等。在功能步骤之间通常可以插入2-3次洗涤。例如,在一些情况下,当一个寡核苷酸更换成另一个寡核苷酸时,将进行洗涤步骤。
应理解,在大多数情况下,对于特定寡核苷酸长度所描述的情况也可以是其它寡核苷酸长度的情况。还应理解,在使用例如鉴定、分析、测量等术语的情况下,它们不是心理活动,而是在仪器上运行,这类仪器包含与计算机算法组合使用的检测器和自动流体学。
将兆碱基范围的基因组DNA提取在表面上并伸长
有多种方法用于提取和拉伸高分子量(HMW)或长度较长的DNA。参见例如Allemand等人Biophysical Journal 73:2064-2070 1997;Michalet等人Science 277:1518-1523(1999))。在一些实施例中,可以使用从Kaykov等人(《科学报告(Scientific Reports)》6:19636 2016)改编的方法来提取和伸长DNA,平均长度在兆碱基范围内。在这种实施例中,使用蛋白酶K历时1小时将基因组DNA(每块1×104到105)从细胞中提取在琼脂糖块中(例如,使用Biorad或Vision方案或如Kaykov等人所描述),洗涤步骤包括100mM NaCl,使琼脂糖块熔融并在凹槽中在42℃下使用β-琼脂糖酶(NEB,USA)消化相当长的一段时间(例如,16小时),不混合,然后达到室温。DNA在含有50mM MES 100mM NaCl的缓冲液中在pH 6下进行梳理。使用可以将基板(例如,盖玻片)从凹槽拉走的装置(例如,如Kaykov等人所描述)来产生平稳的低摩擦的z移动,振动最小。以最小的破坏,使用900?m/秒的梳理速度均匀拉伸DNA分子。约50%的分子长于1Mb,长度平均为2Mb,5%超过4MB。
可以使用数种其它用于在表面上进行拉伸的方法(例如,如《美国化学学会·纳米》2015年1月27;9(1):809-16所描述)。或者,可以在流动池中进行表面上的伸长,包括使用Petit和Carbeck(《纳米快报》3:1141-1146(2003))描述的方法,其显示对于20-100uM通道中的梳理,4-5μm/s的流体抽取速率产生平坦的空气-水界面,这提供了良好对齐的单向多核苷酸。除了流体方法之外,还可以通过使用电场来拉伸多核苷酸(例如,如Giess等人,《自然·生物技术》26,317-325(2008)所描述)。当多核苷酸不附着于表面时,有几种方法可用于伸长多核苷酸(例如,如Frietag等人,《生物微流体》,9(4):044114(2015)和Marie等人,《美国国家科学院院刊》110:4893-8(2013)所描述)。
作为在凝胶塞中使用DNA的替代方法,可以通过如Cram等人(L.S.Cram,C.S.Bell和J.J.Fawcett,《细胞科学方法》,2002,24,27-35)描述的多胺方法制备适合装载到芯片上的染色体,并将其直接移液至装置中。可以使用蛋白酶消化与染色体中的DNA结合的蛋白质以释放基本上裸露的DNA。
在分析之前保留生物大分子的完整性
大部分破坏发生在从细胞和组织中提取生物分子的过程中,以及随后在可以分析生物分子之前对其进行处置的过程中。在DNA的情况下,导致其完整性丧失的对它进行的处置方面包括移液、涡旋、冻融和过度加热。可以使机械应力最小(《化学生物化学》,11:340-343(2010))。另外,高浓度的二价阳离子、EDTA、EGTA或没食子酸(以及其类似物和衍生物)抑制被核酸酶降解。在一些实施例中,2:1的样品与二价阳离子重量之比足以抑制核酸酶,即使在存在极端水平核酸酶的样品如粪便中也是如此。
从单细胞提取和分离核酸
出于本发明的目的,许多不同的方法可用于从单细胞或细胞核中提取生物聚合物,这些单细胞或细胞核可用于提取生物聚合物。在Kim等人,《综合生物学》2009第1卷(10)第574-86页中综述了许多合适的方法。可以用KCL处理细胞以去除细胞膜。可以通过添加低渗溶液使细胞破裂。多种不同的化学和物理溶解方法可以如本领域中已知来实施并且预先在微流体学中测试。
可以将用于单细胞的捕集器设计在微流体结构中,其在释放核酸内含物的同时保持住细胞。它包括使用WO/2012/056192、WO/2012/055415的装置设计***但代替在纳米通道中提取DNA和拉伸,在本发明中,用于密封微流体/结构/纳米流体结构的盖玻片或箔片涂有聚乙烯基硅烷(或类似地安置)以通过流体运动实现分子梳,如Petit等人,《纳米快报》3:1141-1146(2003)所描述。流控芯片内部的温和条件使得提取的DNA能够长时间保存。
在一些实施例中,本发明的方法包括Strijp等人《科学报告》7:11030(2017)中所描述的方法的改编。在拉伸之前,通过以下步骤来单独提取单细胞的细胞核和核外成分:将至少一个细胞提供至微流体装置的进料通道;在至少一个捕集结构中捕获至少一个细胞;在不影响细胞核的完整性下通过将第一溶解缓冲液供应至细胞,使被捕获在至少一个捕集结构中的细胞溶解;将细胞的核外成分释放到固着所释放的RNA的流动池中;通过将第二溶解缓冲液供应至细胞核,使细胞核溶解;将细胞核的成分(例如,基因组DNA)释放到流动池中,这些成分固着在所述流动池中。胞外和胞内组分被固着在相同流动池的不同部位,或装置内的不同流动池中。
用于捕获的接头
除了捕获/固着未进行末端修饰的多核苷酸之外,在一些实施例中(尤其是分析短DNA的那些实施例),DNA的末端被调适成适合与捕获分子在表面/基质上相互作用。这包括使用末端转移酶加尾,例如用多聚A加尾并结合于表面或基质上的寡聚d(T)捕获探针。寡聚d(T)捕获探针长度介于20与50nt之间。对于Illumina测序,它还包括使用连接或加标签将衔接子引入至多核苷酸上并用表面或基质上的互补序列捕获。这使得用户能够使用完善的Illumina方案来制备样品,然后通过本发明的方法进行捕获和测序。优选地,在扩增之前捕获多核苷酸,这有引入误差和偏差的倾向。
在一些实施例中,通过使用适当的捕获分子捕获修饰末端或未修饰末端,将短的多核苷酸(约<300nt)如游离DNA或微小RNA,或相对较短的多核苷酸(<10,000nt)如mRNA,随机固着在表面上。携带多聚A尾的天然mRNA可以捕获在表面上的寡聚d(T)探针的坪上。然后从表面“竖直”进行测序表面。在一些实施例中,短的或相对较短的多核苷酸与表面进行多重相互作用,并且“水平”进行测序;这允许分辨剪接同种型组织,例如,在一些同种型中,可描绘重复或改组的外显子的部位。
在一些实施例中,多核苷酸捕获在捕获探针的有序阵列上。有序阵列是空间可寻址阵列。有序阵列可采取分子纳米结构阵列的形式,例如可以使用DNA折纸(Rothemund,《科学》)方法形成。有序阵列可采取2D分子网格的形式,例如可以通过DNA的自组装形成(Woo和Rothemund,《自然通信》,5:4889)。有序阵列使得能够对分子进行有效的亚衍射填充,从而允许每个视野有更高密度的分子(高密度阵列);本发明的单分子定位方法允许高密度阵列内(例如,40nm点到点的距离)的分子被分辨。
多核苷酸修复
多核苷酸在提取、存储或制备过程中可能被损坏。在天然双链基因组DNA分子中可能形成切口和加合物。当样品多核苷酸来自FFPE材料时,情况尤其如此。在固着DNA之前或之后引入DNA修复溶液。这可以在将DNA提取到凝胶塞中之后进行。这类修复溶液可含有DNA核酸内切酶、激酶和其它DNA修饰酶。这类修复溶液可包含聚合酶和连接酶。这类修复溶液是来自New England Biolabs的预PCR试剂盒。以下参考文献全文并入本文中:Karimi-Busheri等人《核酸研究》1998年10月1日;26(19):4395-400;及Kunkel等人(1981)《美国国家科学院院刊》,78,6734-6738。
多核苷酸染色
任选地,对于一些实施例,为了描绘出多核苷酸的主链,可以使用DNA染色剂和其它多核苷酸结合试剂。嵌入染料、大沟结合剂、标记的非特异性DNA结合蛋白阳离子型缀合聚合物可以结合于DNA。可以在各种核碱基与染料比率下使用嵌入染料。在约1:5-10的染料与碱基对比率下使用多个嵌入染料供体可将DNA用染料分子(例如,Sybr Green 1、SytoxGreen、YOYO-1)标记,足以用作沿着生长中的DNA链添加核苷酸的供体。一些DNA结合试剂基本上能够覆盖多核苷酸。在均相测序或实时测序中这些DNA染色剂还可以充当FRET配偶体。一旦添加嵌入染料,如YOYO-1,则有助于保持DNA在黑暗中并添加例如BME等试剂以预防DNA切刻。在一些实施例中,多核苷酸不预先染色,而是在结合过程期间将染色剂添加到变性DNA中。当形成多核苷酸-寡核苷酸双链体时,染料可以嵌入并在这一刻检测荧光,探针上没有标记。在一些实施例中,探针上有作为FRET配偶体的标记,并且在标记与嵌入染料之间存在FRET相互作用。
在一些实施例中,结合探针可以经由FRET供体激发,例如嵌入染料,其在结合探针之间的双链体形成时嵌入。可获得几纳米的分辨率(例如,如《化学物理化学(Chemphyschem.)》2014年8月25日;15(12):2431-5所描述)。
使用单分子定位沿着伸长DNA进行测序
瞬时结合的概念可以延伸到各种类型的结合探针,只要它们能够在反应条件下瞬时结合即可。结合探针可以用不同类型的标记来标记,例如具有不同波长发射的荧光团。
在一些实施例中,荧光修饰的DNA寡核苷酸购自Biosynthesis。链霉亲和素购自Invitrogen(目录号:S-888)。牛血清白蛋白(BSA)和BSA-生物素是从Sigma Aldrich(目录号:A8549)获得的。载玻片和盖玻片购自VWR。三种缓冲液用于样品制备和成像:缓冲液A(10mM Tris-HCl、100mM NaCl、0.05%Tween-20,pH 7.5)、缓冲液B(5mM Tris-HCl、10mMMgCl2、1mM EDTA、0.05%Tween-20,pH 8)和缓冲液C(1×磷酸盐缓冲盐水、500mM NaCl,pH8)。
在一些实施例中,荧光成像在倒置式Nikon Eclipse Ti显微镜(NikonInstruments)上进行,所述显微镜具有完美对焦系统,应用物镜型TIRF配置,使用NikonTIRF照明器与油浸物镜(CFI Apo TIRF 100×,NA 1.49,油)。对于2D成像,使用额外1.5倍放大倍数来获得?150倍的最终放大倍数,对应于107nm的像素大小。使用三个激光进行激发:488nm(200mW,Coherent Sapphire)、561nm(200mW,Coherent Sapphire)和647nm(300mW,MBP Communications)。激光束通过净化滤光器(ZT488/10、ZET561/10和ZET640/20,Chroma Technology)并使用多频段分束器(ZT488rdc/ZT561rdc/ZT640rdc,ChromaTechnology)耦合到显微镜物镜。将荧光用发射滤光器(ET525/50m、ET600/50m和ET700/75m,Chroma Technology)进行光谱过滤并在EMCCD相机(iXon X3 DU-897,AndorTechnologies)上成像。
在一些实施例中,为了制备样品,将盖玻片(第1.5号,18×18mm2,?0.17mm厚)和载玻片(3×1英寸2,1mm)通过两条双面胶夹在一起,以形成内部体积为约20μL的流动腔室。首先,使20μL生物素标记的牛白蛋白(1mg/ml,溶解于缓冲液A中)流入腔室中并孵育2分钟。然后使用40μL缓冲液A洗涤腔室。然后使20μL链霉亲和素(0.5mg/ml,溶解于缓冲液A中)流过腔室并使之结合2分钟。在用40μL缓冲液A洗涤,随后用40μL缓冲液B洗涤之后,最终使含20μL生物素标记的DNA寡核苷酸模板和引物(约300pM单体浓度)和DNA折纸漂移标志物(约100pM)的缓冲液B流入腔室中并孵育5分钟。
理想地,选择可以实现适合于掺入的盐浓度的温度和寡核苷酸序列。CCD读出带宽设定成16位和5.1前置放大器增益下1MHz。使用TIR照射,在561nm下以294W/cm2的激发强度进行成像。
可利用更快的CMOS相机,它将实现更快的成像,例如Andor Zyla Plus仅在USB3.0连接下就允许在512×1024上高达398fps,并且在所关注区域(ROI)或CameraLink连接上允许更快的成像。因此,使用较短的停泊/成像链或在较高温度或较低盐浓度下操作,有可能在较短时间段内以所需分辨率收集足够的信息;为此,激光功率优选是高的,例如500mW;相机量子产率优选是高的,例如约80%,并且染料亮度优选是高的。在这种情况下,所需的采集时间可减少到几秒。但这可使分辨率增益超过衍射极限方法>10倍。
在本发明的一个实施例中,使用利用CCD或CMOS相机的时间延迟积分来实施一种新颖的成像方法,其中与相机读出同步地平移样品台,以便时间分辨率在许多像素上扩散。这加速了图像获取,因为从表面上的一个部位移动到另一位置不存在延迟。结果是成像条带,其中换比如,列中的第一1000个像素表示一个部位的10秒成像,而下一1000个像素表示下一部位的10秒成像。还可以改编《应用光学(Appl Opt.)》54:8632-6(2015)中描述的方法。
当使用光散射纳米颗粒(例如金纳米颗粒)或半导体纳米晶体时,由于这些粒子较亮的几乎非穷尽性的光学响应,所以在速度上有相当大的进一步的上升。此外,当使用这类纳米颗粒标记时,需要定制相机帧速率和成像器开启/关闭速率以实现最大速度增强。
在瞬时结合方法中,光漂白或黑暗状态几乎没有影响,并且不需要复杂的视场光阑或Powell透镜来限制照明。另外,由于探针与非特异性位点的这种非持久性结合不持久,因此减轻了与表面的非特异性结合的影响,并且一旦一个成像器占据了非特异性(即,不在靶标停泊上)结合位点,其就可能被漂白,但保持在适当的位置,阻止了与该部位的进一步结合。通常,大多数阻碍对成像器与靶多核苷酸的结合进行分辨的非特异性结合位点在成像的早期阶段被占据和漂白,使得成像器与多核苷酸位点的结合/解离在此后易于观察到。因此,在一个实施例中,使用高激光功率来漂白最初占据非特异性结合位点的探针,任选地,在该阶段不拍摄图像,然后任选地降低激光功率,并开始成像以捕获与多核苷酸的结合-解离。在最初的非特异性结合之后,进一步的非特异性结合不太频繁(因为已经漂白的探针可能保持粘在非特异性结合位点上),并且可以通过应用例如被认为是与停泊位点的特异性结合的阈值在计算上过滤掉,对同一部位的结合必须是持续的,即应该在同一位点发生至少5次或更优选地至少10次。通常,检测到约20个与停泊位点的特异性结合事件。
出于我们的目的,过滤掉非特异性结合的另一种手段是信号必须与在表面上拉伸的线性链相关,这可以通过染色线性链或通过贯穿其它持久结合位点追踪一条线来进行。不沿着线下降的信号,无论它们是否是持久的,都会被丢弃。类似地,当使用超分子网格时,与网格的所述结构不相关的结合事件会被丢弃。
在表面上分离单细胞并提取DNA和RNA
已知具有带正电荷,如多聚(L)赖氨酸(PLL)的表面(例如,可从Microsurfaces公司获得的或内部涂布的)能够与细胞膜结合。使用低高度的流动通道高度(例如,<30微米),使得细胞与表面碰撞的机率增加;这可以通过在流动池顶部中使用人字形图案引入湍流来增强。细胞附着不需要是高效的,因为需要细胞以低密度接种至表面上,以确保细胞之间有足够的空间,使得从每一个别细胞提取的RNA和DNA将保持空间上分离。使用蛋白酶处理使细胞破裂,使得细胞膜和核膜都被破坏,使得细胞内含物喷涌到培养基中并被捕获在分离的细胞附近的表面上。对于基因组DNA,来自完善的细胞遗传学技术Fiber FISH的这种方法优先。一旦固着,DNA和RNA就会被拉伸。使拉伸缓冲液单向流过盖玻片表面,引起DNA和RNA多核苷酸在流体流动的方向上拉伸和对齐。在温度、拉伸缓冲液的组成和流体的物理力下,可去除大部分的RNA二级/三级结构,使得RNA可用于结合抗体。一旦RNA被拉伸成变性形式,就有可能从变性缓冲液转换成结合缓冲液。
或者,首先通过破坏细胞膜并诱导一个方向上的流动来提取和固着RNA。接着通过使用蛋白酶破坏核膜,并诱导其在相反的方向上流动。在一些实施例中,例如通过使用稀有切割限制酶(例如,NOT1、PMME1),在释放之前或之后将DNA片段化。这种片段化有助于解开DNA,并允许分离和梳理各条链。确保系统被设置成使固着的细胞相隔足够远,使得从每个细胞提取的RNA和DNA不会相互混合。这可以通过在细胞破裂之前、之后或期间诱导液体向凝胶转变来辅助。
拉伸RNA
带电荷的表面上的核酸的拉伸受溶液阳离子浓度的影响。在低盐浓度下,单链且沿主链带有负电荷的RNA可能沿其长度与表面随机结合。
一种实现这一点的方法是,最初通过使用高盐促使形成球状形式,在这种情况下,末端、特别是多聚A尾更易于相互作用。一旦它以球状形式结合,则不同的缓冲液,如变性缓冲液可以施加至流动池中。或者,选择用寡聚d(T)预涂布PLL以捕获mRNA的多聚A尾,多个小组已经证实使用寡聚(dT)与mRNA的聚腺苷酸化3'结合可使mRNA与表面结合(例如,OzsolakF等人)[4]。多聚A尾的均聚物性质意味着它是一个应该相对没有二级结构的区域,否则的话二级结构会阻碍捕获。由于在高等真核生物中多聚A尾相对较长(250-3000nt),所以长寡聚d(T)捕获探针可以被设计成使得杂交可以在相对较高的足以将RNA中的大部分分子内碱基配对解链的严格性(温度、盐条件)下进行。将利用增加结合稳定性的修饰来测试寡聚d(T),并且可以用交联修饰来测试,以在结合之后将RNA固定到捕获探针。在结合后,可以通过使用不足以消除捕获但可破坏RNA中的分子内碱基配对的变性条件并通过流体流动或电泳力来实现RNA结构的其余部分从球状转变成线性状态。
测序仪器和装置
本发明的测序方法具有共同的仪器要求。基本上,仪器必须能够成像和更换试剂。成像要求包括下组一项或多项:物镜、中继透镜、分束器、反射镜、滤光器和相机或点检测器。相机包括CCD或阵列CMOS检测器。点检测器包括光电倍增管(PMT)或雪崩光电二极管(APD)。在一些情况下,使用高速相机。其它任选方面取决于方法的格式、照明源(例如,灯、LED或激光器)以及照明与基板的耦合方式(例如棱镜、光栅、溶胶-凝胶、透镜、可平移台或可平移物镜)、相对于成像器移动样品、样品混合/搅动、温度控制和电控制。
对于本发明的单分子实施方案,照明优选地经由产生渐逝波来实现,经由例如基于棱镜的全内反射、基于物镜的全内反射、基于光栅的波导、基于水凝胶的波导或通过以合适的角度将激光引入基板边缘而产生的渐逝波导;波导可包括芯层和第一包覆层。照明可替代地包含高倾斜层压光学(HILO)照明或光片。在一些单分子仪器中,通过使用脉冲照明和时间门控检测的同步来减轻光散射的影响;此处的光散射被屏蔽。在一些实施例中,使用暗场照明。在一些仪器中被设置用于测量荧光寿命。
在一些实施例中,仪器还含有用于从细胞、细胞核、细胞器、染色体等提取多核苷酸的装置。
适用于本发明大多数实施例的一种仪器是Illumina的基因组分析仪IIx;此仪器包含基于棱镜的TIR、20倍干物镜、光扰频器、532nm和660nm激光器、基于红外激光器的聚焦系统、发射滤光轮、Photometrix CoolSnap CCD相机、温度控制和用于试剂更换的基于注射泵的系统。用替代的相机组合对该仪器进行改进能够实现更好的单分子测序。例如,传感器优选地具有低电子噪声,<2e。此外,传感器还具有大量像素。基于注射泵的试剂更换系统还可以被基于压力驱动流的试剂更换系统替换。将该系统与兼容的Illumina流动池或定制的流动池一起使用,所述定制的流动池适合于配合仪器实际或改进的管件。
或者,可以使用与激光床(激光器取决于标记的选择)或来自基因组分析仪的激光系统和光扰频器、EM CCD相机(例如,Hamamatsu ImageEM)或科学CMOS(例如,HamamatsuOrca FLASH)和任选的温度控制耦合的电动Nikon Ti-E显微镜。在一些实施例中,使用用户传感器而不是科学传感器。这有可能大幅降低测序成本。这与压力驱动或注射泵系统和专门设计的流动池相结合。流动池可以由玻璃或塑料制成,各有优缺点。使用环烯烃共聚物(COC),例如TOPAS、其它塑料或PDMS制造,或者使用微制造方法使用芯片或玻璃制造。热塑性塑料的注塑成型为工业规模制造提供了低成本的途径。在一些光学配置中,热塑性塑料需要具有良好的光学性能,且固有荧光最小。理想地,应排除含有芳香族或共轭系统的聚合物,因为预期它们具有显著的固有荧光。已经报告Zeonor 1060R、Topas5013、PMMA-VSUVT(US 8057852 B2)在绿色和红色波长范围内(例如,对于Cy3和Cy5)具有合理的光学性质,其中Zeonar 1060R最有利。可利用将探针共价键合到一些这类表面的方法。已经报告用于粘合热塑性材料的方法(例如,《微流体学与纳米流体学》,19(4),913-922)。在一些实施例中,将上面附着有生物聚合物的玻璃盖玻片粘合到热塑性流体体系结构上。虽然玻璃具有极佳的光学特性以及数种其它优点,但难以低成本地产生复杂的微流体装置,不过现在存在可利用的选项(《科学报告》5:13276(2015))。
或者,可以在显微镜顶部使用手动操作的流动池。这是通过使用双面粘性片制成流动池、进行激光切割以具有适当尺寸的通道并将其夹在盖玻片与载玻片之间来构建的。
从一个试剂更换循环到另一个试剂更换循环,流动池可以保留在仪器/显微镜上,以便逐帧进行配准。可以使用具有线性编码器的电动平台来确保在大面积成像期间何时平移平台,相同的部位被正确地重访;可以使用基准标志物来确保正确的配准。或者,在每一轮成像之后从仪器/显微镜去除流动池,并在其它地方,例如在具有平坦区块的热循环仪上进行掺入反应,然后它再返回到显微镜,进行下一轮成像(术语成像用于包括2D阵列或2D扫描检测器)。在这种情况下,流动池内具有可被光学检测的基准标志物,例如流动池中的蚀刻或表面固着珠粒是十分重要的。如果多核苷酸主链被染色(例如,被YOYO-1染色),则可以使用其固定的位置分布的部位将图像从一帧到下一帧对齐。
在一个实施例中,可以将US 7175811或Ramachandran等人(《科学报告》3:2133)中描述的使用激光或LED照明的照明机构与任选的温度控制机构和试剂更换系统耦合,以执行本发明的方法。在一些实施例中,可以将基于智能手机的成像装置(《美国化学学会·纳米》7:9147)与任选的温度控制模块和试剂更换系统耦合;主要使用电话上的相机,但也可以使用其它方面,例如iPhone的照明和振动能力。
不是使用光学测序系统的各种显微镜样组件,如GAIIx,而是可以构建更集成的单片装置用于测序。这里,将多核苷酸附着在传感器阵列上或与传感器阵列相邻的基板上,并任选地在其上直接伸长。已经针对与阵列的DNA杂交证实在传感器阵列上的直接检测(Lamture等人,《核酸研究》22:2121-2125(1994))。可以对传感器进行时间门控,以减少由瑞利散射引起的背景荧光,与荧光染料的发射相比,由瑞利散射引起的背景荧光的寿命较短。
在一个实施例中,传感器是CMOS检测器。在一些实施例中,检测到多种颜色(US20090194799)。在一些实施例中,检测器是Foveon检测器(例如,US6727521)。传感器阵列是三结二极管阵列(US9105537)。在一些实施例中,寡核苷酸或其它结合试剂上的不同的标记由发射波长来编码。在一些实施例中,不同的标记由荧光寿命来编码。在一些实施例中,不同的标记由荧光偏振来编码。在一些实施例中,不同的标记由波长、荧光寿命来编码。
出于设置的简单起见以及因为使用滤光器时必然会有一定的光损失,所以宜使用单一波长作为光源且不必使用滤光器。在一些实施例中,不同的标记由反复开关杂交动力学来编码;使用具有不同缔合-解离常数的不同结合探针。在一些实施例中,探针由荧光强度来编码。可以通过附接不同数目的非自淬灭荧光团来对探针进行荧光强度编码。通常需要很好地分离各个荧光团以免淬灭,并且将它们保持在相距适当距离的位置的刚性连接子或DNA纳米结构是一种实现这一点的良好方式。通过荧光强度进行编码的一个替代实施例是使用具有相似发射光谱但量子产率或其它可测量的光学特征不同的染料变体,例如Cy3B(558/572)(量子产率为0.67)比Cy3(550/570)(量子产率为0.15)显著更亮,但具有相似的吸收/发射光谱。可以使用532nm激光来激发两种染料。其它可以使用的染料包括Cy3.5(591/604),其虽然具有上移的激发和发射光谱,仍将用532nm激光进行激发,但是,即使两者具有相似的量子产率,因为Cy3.5是由次佳的波长激发,所以在被设计成从cy3选择发射的带通滤光器中将显得不太亮。Atto 532(532/553)具有0.9的量子产率,并且当532nm激光在其甜蜜点下命中Atto 532时,预期其是明亮的。尽管有这些预期,但必须根据经验来测试待使用的染料以适当地测量它们的性能;如果无法区分来自上述集合的染料,那么可以测试其它的染料。使用单一激发波长获得多个代码的另一种方法是测量染料的发射寿命。为此,可以使用包含Alexa Fluor 546、Cy3B、Alexa Fluor 555和Alexa Fluor 555的集合以及许多其它组合。在一些实施例中,可以通过使用FRET对以及通过测量发射光的偏振来扩展代码库。因此,利用波长、寿命、偏振和FRET对的组合,可以制成巨大的可区分标记库。另一种增加标记数目的手段是用多种颜色编码。
当前的光学测序方法需要一个图像处理步骤,其中从图像中提取序列信号。这通常涉及从图像的每一帧提取相关信号。在一个实施例中,替代方案是竖直地贯穿所有循环来捕获来自所有像素的信号并使用算法来计算序列。这种方法的一个优点是,当竖直地贯穿循环来观看信号的轨迹时,容易过滤掉非特异性或背景信号,其通常不会出现在通过循环的相同部位处,而实际掺入会这样做。还容易确定哪些信号属于特定的伸长分子,因为它们可以通过贯穿一系列像素的直线来追踪。
脂质钝化
为了在纳米流体通道的表面上产生脂质双层(LBL),使用具有1%LissamineTM罗丹明B1,2-双十六烷酰基-sn-甘油基-3-磷酸乙醇胺的两性离子POPC(1-棕榈酰基-2-油酰基-sn-甘油基-3-磷酸胆碱)脂质,添加三乙铵盐(罗丹明-DHPE)脂质以使得能够用荧光显微术观察LBL形成。在每个涂布程序之前,通过挤压产生大约70nm直径的脂质囊泡(参见ESI)。被挤压的囊泡溶液冲过流体系统的微米通道中的一个微米通道。随后,脂质囊泡沉降在表面上,破裂并形成LBL补丁,这些补丁在几分钟内连接到连续的LBL,涂满整个微米通道。随后允许LBL自发扩散到纳米通道中,同时脂质囊泡的流动在涂布的微米通道中持续以确保囊泡的稳定供应。在涂布过程期间,穿过纳米通道的逆流(约80nm/s)施加于涂布的微米通道中以避免纳米通道中的任何碎片或囊泡。还测试了一种略微更快速的替代方法,其涉及将来自LBL涂布的微米通道的脂质囊泡洗过纳米通道,造成脂质囊泡在纳米通道内沉积和破裂。然而,在这种方法下,需要注意防止囊泡和其它残留物沉积并且可能阻挡纳米通道。
表观遗传标记试剂和标记方法
可以使用本发明的方法检测多核苷酸上的基因组或表观遗传修饰(表观遗传标志物)。本说明书中的焦点是与基因组DNA上的甲基结合,其在人类中以5-甲基胞嘧啶形式并且通常在CpG基序的情况下发生。然而,相同原理可以应用于其它修饰,例如羟基甲基C以及多种DNA损伤。可以类似地标记RNA上的修饰。可以从商业供应商(例如,IDT、Trilink)获得合成DNA和RNA和模型,例如trRNAa,其含有不同数目的一个或多个类型的修饰(寡核苷酸合成可利用一系列修饰)。对于DNA,可以测试针对基因组甲基C(可从Diagenode等获得)、甲基结合蛋白1(MBD1)和MBD1的肽片段(均来自Abcam)的抗体的亲和力结合并最佳化。对于RNA,可以测试例如针对甲基腺苷(m6A)(可从Abcam获得)和m7G-帽(作为对照)(可从SySy公司获得)的抗体的抗体并最佳化。可以用两种度量来测量与含有这些修饰的DNA或RNA的结合的效率。首先,可以例如使用在滤纸上点样和结合来测试亲和试剂与寡核苷酸序列的修饰和未修饰型式以及针对DNA和RNA型式的结合。可以确定每种抗体针对含有靶修饰、含有非靶修饰或无含修饰的合成寡核苷酸的结合效率和特异性。对于抗甲基抗体,优选地当场使基因组DNA变性。
减轻局部耗尽和层流的影响
可以通过确保探针溶液的有效混合或搅动来解决探针的局部耗尽。这可以通过使用声波、通过在溶液中包括产生湍流的颗粒和/或通过构造流动池(例如,一个或多个表面上的人字形图案)以产生湍流来进行。另外,由于流动池中存在层流,所以通常很少混合,并且靠近表面的溶液可能与本体溶液几乎不混合。这在去除靠近表面的试剂/结合探针以及将新的试剂/探针带到表面时产生了问题。可以实施上述湍流产生方法来防止这一点,和/或可以在表面上方进行广泛的流体流动/交换。一种方法是,在已将靶分子排列之后,将非荧光珠粒或球附着于表面,这赋予表面景观粗糙的纹理,产生所需要的涡流和涌流,从而更有效地混合和/或更换靠近表面的流体。
高速成像
单分子定位显微术(SMLM)方法依赖于高光子计数。高光子计数提高了荧光团产生的高斯图案的质心的确定精度,但对高光子计数的需求还与长图像采集和对明亮且光稳定的荧光团的依赖性相关。过程的速度可以通过将高帧检测与递增浓度的探针联合来增加。然而,高浓度的标记探针会引起高背景荧光,高背景荧光会使表面上的信号检测模糊。这可以通过使用DNA染色剂或嵌入染料标记在表面上形成的双链体来防止。当靶标是单链时或在单链探针下嵌入时,染料都不会嵌入,但当它们之间形成双链体时,嵌入染料会嵌入。在一些实施例中,探针是未标记的,并且检测到的信号仅仅是由嵌入染料引起的。在一些实施例中,探针用可充当嵌入染料或DNA染色剂的FRET配偶体的标记来标记。嵌入染料可以是供体并且可以与不同波长的受体偶联,因此允许探针用多个荧光团编码。
额外实例
检测表观遗传标志物在多核苷酸上的部位
任选地,在寡核苷酸结合过程之前(或有时在寡核苷酸结合过程之后或期间),进行表观基因组结合试剂的瞬时结合。取决于使用何种结合试剂,在变性之前或之后进行结合。在一些实施例中,抗甲基C抗体结合在变性DNA上进行,而对于甲基结合蛋白,结合在任何变性步骤之前在双链DNA上进行。
步骤1-甲基结合试剂的瞬时结合。
在变性之后,用PBS洗涤来冲洗流动池并且将Cy3B标记的抗甲基抗体3D3克隆(Diagenode)添加于瞬时蛋白质结合试剂中并且使结合成像。
或者,在变性之前,用磷酸盐缓冲盐水冲洗流动池并且添加Cy3标记的MBD1并使其在短暂蛋白质结合试剂中成像。如上文针对瞬时寡核苷酸结合所描述进行成像。
瞬时结合缓冲液是pH 2.8的洗脱缓冲液。典型的洗脱缓冲液包含50mM HEPES(pH7.9)、0.1M NaCl、1.5mM MgCl2、0.05%TritonX-10。瞬时相互作用也可以在0.2%SDS和0.1%Tween-20中在室温下进行7分钟。此外,与DNA的瞬时蛋白质相互作用可以在0.1M甘氨酸盐酸盐pH 2.5-3中进行;该缓冲液有效解离大部分蛋白质或抗体结合相互作用,而不会永久地影响蛋白质结构。然而,低pH值会破坏一些抗体和蛋白质,因此洗脱的蛋白质洗脱份最好立即通过添加1/10体积的碱性缓冲液,例如1M Tris.HCl pH 8.5或PBS缓冲液来进行中和。
在一些实施例中,PBS用于结合,并且检测稳定的非瞬时结合并记录部位。
步骤2-去掉甲基结合试剂
通常,在测序之前进行表观遗传分析,因此任选地,在多核苷酸开始测序之前将甲基结合试剂冲洗掉。这可以通过以下来进行:流过多个循环的PBS/PBST和/或高盐或洗脱缓冲液和SDS,然后通过成像检查是否发生了去除。如果显而易见有超过可忽略的量的结合试剂残留,则可以使更苛刻的处理,例如离液剂GuCL流过以去除残留的试剂。
步骤3-数据相关性
在已经获得测序和表观遗传数据之后,在测序结合部位的部位与表观遗传结合部位之间产生相关性,以提供甲基化或omic信息的序列背景。
RNA制备
使多聚A RNA与附着于表面的寡聚dT(0.1-1uM)杂交。寡聚dT包含一个或多个补骨脂素残基,这些残基允许RNA与寡聚dT交联。然后,因为RNA被固定在适当的位置,所以在有助于打开二级结构的变性溶液中使用流体流动、后退弯月面或通过电泳拉伸RNA。一旦RNA被拉伸或伸长时,就应用本发明的寡核苷酸结合方法。
使用滚环扩增制备长ssDNA
将双链DNA靶环化,然后进行滚环扩增以产生双链体链中的一条链的串联单链拷贝。通过使用T4DNA聚合酶1(Roche)和dNTP(Promega)抛光dsDNA;T4多核苷酸激酶使5'羟基磷酸化。然后使用T4 DNA连接酶将茎环(dT:8-200个碱基环的dA茎包含GGTTTTTCGCCCTTTCACGTTGGA)连接到抛光的DNA的两端。可以从切口或从结合在茎环内的引物引发。
还可以在环状单链靶上使用引物进行滚环扩增,例如可以根据下文的方案使1μL1nM M13mp18模板(NEB)扩增。所述方案还可以应用于两端附接茎环的双链DNA。在这种情况下,使10μL 10×反应缓冲液(10×phi29 DNA聚合酶缓冲液(B7020,Enzymatics,500mMTris-HCl、100mM(NH4)2SO4、40mM DTT、100mM MgCl2,pH 7.5)、2.5μL 100nM引物(TCCAACGTCAAAGGGCGAAAAACC,IDT)和1.6μL dNTP混合物(Enzymatics N2050L)在水中达到48μL的体积。将混合物在95℃下孵育1分钟,然后在60℃下孵育1分钟,然后达到4℃。将混合物放在冰上,并添加2μL phi29 DNA聚合酶(10U/μL,Enzymatics P7020L-LC-L)。然后在30℃下孵育整个混合物4小时,然后在450μL 1×PBS(pH 7.4)中稀释达到4℃。然后将所回收的溶液在PBS中稀释100×。在测序之前,将所存储的溶液添加到含有互补序列(GGTTTTTCGCCCTTTGACGTTGGA,IDT)的表面,靠近滚环扩增子,使得扩增子经由沿着其长度的多个相互作用固着。
或者,在MES缓冲液pH 5.5中,具有单链突出端的双链DNA经由突出端中暴露的碱基与表面之间的疏水相互作用附着于乙烯基硅烷表面。接着将缓冲液更换成变性缓冲液(0.5M-1M NaOH),并且进行许多次洗涤,以便可以冲洗掉未固着链。然后将盖玻片再次暴露于MES,并且通过后退弯月面使DNA伸长。类似地,可以修饰DNA末端,例如可以通过末端转移酶(NEB)添加均聚物尾,然后DNA可以被捕获在互补均聚物寡核苷酸上。然后,可以使用热和/或化学变性或通过使用马达蛋白,例如将链分开的解旋酶(例如,Hel308),使双链DNA的非捕获链解链。对此,hompolymer尾可以是数十到数百个核苷酸,类似地,捕获探针可以更长。或者,提供交联试剂以将加尾链保持在适当的位置,而使另一条链变性。加尾DNA还可以在另一端连接茎环以连接双螺旋的两条链,以便在捕获到DNA时,可以对DNA的两条链测序;在这种情况下,瞬时结合缓冲液被配置成相比于与包含LNA残基的瞬时结合寡核苷酸的相互作用,减弱双链体的碱基对(以防止其再形成,因此阻挡寡核苷酸的结合)。
NNNXNNN寡核苷酸物质与核酸的结合
在使用NNNXNNN进行测序(其中N是简并位置并且X是指定位置)的情况下,四个寡核苷酸文库5'NNNANNN3'、5'NNNCNNN3'、5'NNNGNNN 3'和5'NNNANNN3'中的每一个分别用Atto488、Atto 542、Alexa 594和Atto 655进行差异标记,并组合到包含2.4-3.5M TMACl或4×SSC和0.01-0.1%Tween 20的15ul液滴中,每个浓度为100nM到1uM,并且施加到核酸分子已经在上面伸长或拉伸的表面。通过使用环氧树脂、考代树脂(cow gum)或指甲油将盖玻片密封到载玻片。将盖玻片放到Olympus 1X81倒置式显微镜上的显微镜IX2 Nosepiece台上,4个组合的激光线(Agilent)、488nm、532nm、590nm和640nm用于同时穿过四带TIRF滤光器方块(Chroma)和1.45NA Olympus TIRF物镜照射样品。任选地,使用光纤扰频器(PointSource)使光束均匀化。针对每个波长在40与150mW之间调整激光功率以产生同等信号亮度。还调整TIRF角度以针对每个照射通道给出最佳对比度图像。将发射分到Quad-view装置(Photometrics)的四个象限上,然后投影到95B Scientific CMOS相机(Photometrics)上。或者,使用一系列双色镜和反射镜将发射波长分到多个相机上,四个发射波长四种染料。将相机设置与激光功率一起调整以针对每一染料获得大致相等的信号强度;然而,因为所收集的结合信息是数字的,所以来自四种染料的信号不需要在亮度方面恰好相等。通过考虑每种染料在Quad-view象限或多个相机的不同发射通道中的发射概况,利用软件确定每个信号的身份。然后可以使用先前确定的发射概况确定染料的身份。
任选地,还将1nM YOYO-1或类似嵌入染料添加到反应混合物中,并使用高浓度,最多1uM的寡核苷酸,与高相机帧速率联合。这里,仅单个488nm激光用于经由FRET机制激发四种染料。
任选地,还添加1uM DNA折纸网格以及DNA PAINT成像器作为15ul混合物的一部分,作为基准标志物。
使用超分辩率图像处理软件包,例如ImageJ/Fiji的插件Thunderstorm或Picasso,处理成像数据(J.Schnitzbauer*,M.T.Strauss*,T.Schlichthaerle,F.Schueder,R.Jungmann Super-Resolution Microscopy with DNA-PAINT.NatureProtocols(2017).12:1198-1228DOI:https://doi.org/10.1038/nprot.2017.024)。
接着处理超分辨率图像以发现沿着核酸链的结合位置的坐标并且将来自与不同界定核苷酸对应的不同颜色的数据进行编译以重建每条核酸链的序列。关于图像处理和序列组装的更完整的信息描述于PCT和其后续。
漂移
为了获得最高定位精度(例如,几纳米或亚纳米),控制振动和漂移(例如,由热波动引起)是重要的。为了防止漂移,不应使用自动化平台,因为当平台停止时常常存在残余移动,这导致数个或几十个像素漂移。基准标志物可以用于校正漂移。如同荧光标记的胶乳颗粒一样,金或银颗粒、半导体纳米晶体、纳米金刚石是尤其有利的纳米颗粒标记。它们发射的光具有高量子效率(QE),具有高光稳定性、长荧光寿命(例如17ns),其可用于对我们的光散射/自发荧光进行时间门(1-2ns),并且可以很小(例如,40nm)。
还可以通过计算校正漂移。漂移校正涉及在每个影片的持续时间内跟踪每个标志物的位置,对所有检测到的标志物的轨迹求平均值以总体校正图像中的漂移。Fiji/ThunderSTORM以及MatLab也具有固有的漂移校正算法,这些算法相当有效并且不需要基准标志物,而是通过自相关来校正漂移。Nikon Ti显微镜具有完美对焦并且Olympus具有Z漂移补偿模块(IX3-ZDC2)。另外,避免漂移的一种低技术方法是将样品台稳固地附着于物镜(例如Olympus nosepiece台)。此外,如果热环境受到良好控制,那么可使漂移可忽略不计和/或在几分钟之后稳定。
DNA折纸、100nm金纳米粒子(Sigma Aldrich;缓冲液C中10nM,在成像之前添加)、100nM Tetrasppeck珠粒(Thermofisher)或纳米金刚石可以用作漂移和对齐标志物。现成的相机,例如Photometrics Prime 95B,包括粒子追踪能力,可以用于保持基准标志物对焦。
在另一情况下,对焦位置的漂移可以通过定制的焦点稳定化来消除。近红外激光(LP785-SF20,Thorlabs)从盖玻片与样品的玻璃-水界面处被完全内反射。在CMOS相机(UI-3240CP-NIR-GL;Imaging Development Systems,Obersulm,Germany)上监测光束位置。在LabVIEW 2015(National Instruments)中实施的反馈控制最大化分别激光点的图像与参考图像的互相关。因此每200ms调整轴向样品位置(P737.2SL和E-709.SRG,PhysikalischeInstrumente)。样品和物镜的温度稳定到23℃。(H101-CRYO-BL稳定单元,利用H101-MINI样品腔室和OKO-MOC物镜稳定化;Okolab,Ottaviano,Italy)。
用于最大限度地减少漂白、三重态和光损坏的系统
以下试剂是有效的,取决于用于标记oligonuceltide的染料:
(a)吡喃糖氧化酶、过氧化氢酶、葡萄糖;(b)原儿茶酸-双加氧酶、3,4-原儿茶酸(c)过氧化氢酶、葡萄糖氧化酶、蔗糖或葡萄糖(可利用FluMaXx(Hypermol)的高稳定性商用版本)。
(d)亚甲基蓝和二硫苏糖醇(DTT);(e)包含β-巯基乙醇、TCEP或二硫苏糖醇(DTT)的还原剂;(f)包含Trolox、1,3,5,7环辛四烯和/或4-硝基苄醇的三重态猝灭剂/萤光促进剂。
吡喃糖氧化酶、过氧化氢酶、葡萄糖(PO+C)作为除氧剂尤其有效,并且如下制备:
将PO+C孵育1小时,然后用PO+C除氧剂系统(1×PO、1×C、0.8%葡萄糖)测量,添加1×Trolox。储备溶液:100×PO溶液由26mg PO(P4234-250UN;Sigma-Aldrich Chemie公司,Taufkirchen,Germany)、684μL酶缓冲液组成;100×C溶液由1ml酶缓冲液中2mg过氧化氢酶组成。两者都进行离心过滤(Ultrafree MC-GV,Merck KGaA,Darmstadt,Germany;0.22μm),在液氮中速冻并存储于?80℃下;100×Trolox溶液由3.2mL H2O中100mg Trolox(Sigma-Aldrich 238813-1G)、430μL甲醇和345μL NaOH(1M)组成,存储于?20℃下);
荧光标记可能诱发靶DNA上的光损伤,为了最大限度地减少光损伤,除了添加上述添加剂中的一种或多种之外,将荧光标记与靶DNA分开是有帮助的。这通过两种方式中的一种或两种来进行。第一种方式是只在寡核苷酸物质与荧光标记之间添加间隔子。可以添加18聚体间隔子到寡核苷酸探针并在标记是Cy3B时有效。第二种方式是在标记与寡核苷酸之间添加蛋白质屏蔽,使得当寡核苷酸结合于靶多核苷酸/核酸时,蛋白质充当屏蔽,减少氧化过程对基板上的核酸的影响。过多的蛋白质可以用作屏蔽,一个实例是链霉亲和素,它可以连接到生物素化寡核苷酸物质,并且可以用一种或多种荧光染料标记。
大区传感器
为了获得长分子的大视野,具有大量像素的相机与低倍放大物镜联合。可以使用含有Sony IMX253传感器的相机,所述传感器包含1200万个3.5微米像素和低电子噪声。所述传感器与10GigE接口耦合以快速传送数据(Emergent Vision Technologies(Canada)的HR1200中允许80帧/秒)。所述相机与20×0.75NA Nikon物镜耦合并能够在传感器的一条轴线中使约2兆碱基长度的拉伸DNA成像。
温度控制和试剂更换
使用一种系统实施温度控制和试剂更换,所述系统包含:CherryTemp(France)快速切换和精确温度控制系统;和灌注腔室,所述灌注腔室粘合到包含固定的伸长/拉伸核酸的盖玻片上;以及连接至压力驱动的流动系统(Elvesys,France)的多个试剂入口和一个或多个出口。为了递送多种试剂,Elvesys压力发生器通过管道通到分离器中,所述分离器将压力施加到待传送的试剂的管线中,将试剂推送到阀门中,然后切换阀门以经由毛细管将特定试剂递送到流动池。将流量传感器整合到流动管线中以测量0与80ul/min之间的流动速率,并提供反馈以将压力发生器拨到适合于所需的流动速率,例如10ul/min的水平。
根据本说明书的教示和其中所引用的参考文献最彻底地理解本发明。本说明书内的实施例提供了本发明的实施例的说明且不应被理解为限制本发明的范围。熟练技术人员容易认识到本发明涵盖许多其它实施例。本领域技术人员将认识到或仅使用常规实验就能够确定本文所述的本发明的特定实施例的许多等效物。这类等效物旨在被权利要求书(下文)所涵盖。
另外的实施例
1.一种鉴定单个聚合物分子中的亚基的序列的方法,其包含:
i.将所述聚合物固着;
ii.使所述聚合物与识别所述聚合物的亚基的分子探针接触;
iii.定位所述分子探针的结合位点;以及
iv.通过确定所述分子探针的结合部位确定所述亚基的部位。
2.根据1的方法,其包含重复步骤(ii)和(iii)多次。
3.根据2的方法,其包含多次结合具有相同特异性的探针。
4.根据2的方法,其包含在(ii)的每次迭代结合具有不同特异性的探针。
5.根据1的方法,其中接触所述分子探针包含所述探针与所述聚合物的多个瞬时结合事件。
6.一种对单个靶多核苷酸上的核苷酸修饰和/或碱基进行测序的方法,其包含:
i.将所述多核苷酸固着在表面或基质上;
ii.在所述探针与其结合位点瞬时结合的条件下添加一种或多种探针物质,这种瞬时允许多个探针一个接一个地与所述结合位点中的每一个结合,并且与靶位点的结合可以和与非靶位点的结合区分开(例如,结合持续时间的差异);
iii.在2D检测器上对所述多核苷酸连续成像(或取得多个帧)并记录结合的像素坐标,以便累积阈值数目的结合事件;
iv.去除ii的探针;
v.每次用不同的一种或多种探针物质重复步骤ii-iv;
vi.使用单分子定位算法对来自步骤iii.的每次迭代的数据进行编译以提供探针持续结合的每个结合位点的纳米级或亚纳米级部位(例如,结合位点的10个或更多个结合事件)并将纳米级定位的位点与探针物质的身份(例如,特定的寡核苷酸序列或特定抗体)相关联;以及
vii.使用vi确定每个纳米级部位的结合物质的顺序(序列)以对所述多核苷酸的核苷酸修饰和/或碱基序列进行编译。
7.根据1和6的方法,其包含伸长以及固着。
8.根据1的方法,其中已知或可以确定每种特异性的探针的身份。
9.根据1和6的方法,其中所述结合探针是寡核苷酸。
10.根据1和6的方法,其中所述结合探针是抗体、亲和抗体、亲和体、纳米抗体、适体或核酸结合蛋白。
11.根据6的方法,其中可以区分所述探针物质。
12.根据1和6的方法,其中所述结合经由空间可分辨的信号来检测。
13.根据12的方法,其中所述空间可分辨的信号由所述探针上的一个或多个标记产生。
14.根据13的方法,其中对所述探针的身份进行编码。
15.根据9的方法,其中所述结合探针包含完整识别序列库,例如64个3聚体、245个4聚体、1024个5聚体或4096个6聚体,并且任选地包含另外的简并或通用碱基。
16.根据6的方法,其中所述单个靶多核苷酸来源于染色体或其一部分,或为染色体或其一部分。
17.根据6的方法,其中所述单个靶多核苷酸的长度为约102、103、104、105、106、107、108、109个碱基。
18.根据6的方法,其进一步包含在最低程度地干扰所述多核苷酸下从细胞、细胞器、染色体、病毒、外来体或体液/物质中提取所述单个靶多核苷酸分子。
19.根据1和6的方法,其中所述靶聚合物/多核苷酸分子固着在表面上。
20.根据1和6的方法,其中将所述靶聚合物/多核苷酸分子安置于凝胶或基质中。
21.权利要求1和6的方法,其中将所述靶聚合物/多核苷酸分子安置在微流体通道或纳米流体通道中。
22.权利要求1和6的方法,其中所述靶聚合物/多核苷酸分子是基本上完整的。
23.权利要求6的方法,其中在不使用所述靶多核苷酸分子的另一拷贝或所述靶多核苷酸分子的参考序列的情况下测定序列。
24.一种对二倍体或多倍体基因组进行分辨单倍型的测序的方法,其包含:
i.使用1或6的方法对表示二倍体/多倍体基因组的第一单倍型的第一靶多核苷酸进行测序
ii.使用1或6的方法对表示二倍体/多倍体基因组的第二单倍型的第二靶多核苷酸进行测序;以及
iii.对于多倍体基因组,使用权利要求1或6的方法对表示多倍体基因组的另外单倍型的另外靶多核苷酸进行测序;其中第一及第二靶多核苷酸以及另外靶多核苷酸来自不同的同源染色体(染色体同源物);以及从而确定基因组的第一、第二和另外单倍型。
25.一种获得长的连续测序读段的方法,其包含:
i.基于探针结合事件获得第一短读段;
ii.基于探针结合事件获得与所述第一读段相邻的第二短读段;
iii.基于探针结合事件获得靠近第一或第二短读段的另外短读段;以及
iv.将至少两个短读段缝合在一起以获得长的连续读段。
26.根据25的方法,其中用于分辨单倍型的测序的读段中的一些从每个同源物的单独多核苷酸(例如来自多个细胞)获得。
27.根据6的方法,其中通过使用一个或多个参考序列推断部位来促进纳米级定位或顺序。
28.根据前述权利要求的方法,其中所述靶多核苷酸与凝胶或基质接触。
29.根据1和10的方法,其中碱基测序与表观遗传标志物(例如,甲基化)的分析组合,所述分析通过与碱基序列正交的表观遗传标志物的标记进行。
30.一种确定聚合物的化学结构的方法,其包含将所述聚合物伸长并使多个时间可分辨的标记沿着所述伸长聚合物结合于多个位点,其中多个位点无法通过衍射极限光学成像来分辨并且以纳米级或亚纳米级准确度确定它们的部位。
31.根据6的方法,其中所述瞬时结合包含主动解开。
32.根据31的方法,其中所述结合包含稳定结合。
33.根据32的方法,其中所述主动解开包含通过包含加热、pH值变化、盐浓度变化、所述探针的化学或生化降解的手段来破坏所述结合。
34.根据31的方法,其中在均相反应中使用温度循环来进行所述结合和主动解开。
35.根据前述权利要求的方法,其中所述结合探针结合于离散的序列位(根据本说明书定义)。
36.根据前述权利要求的方法,其中所述结合探针以纳米级准确度和精度定位。
37.根据前述权利要求的方法,其中所述结合位点以亚纳米级准确度和精度定位。
38.根据前述权利要求的方法,其中两个或更多个结合探针结合的两个或更多个序列位相对于彼此是超分辨的。
39.根据1-38的方法,其中所述探针被直接标记。
40.根据1-38的方法,其中所述探针被间接标记。
41.根据40的方法,其中所述间接标记的探针包含靶结合结构域和至少一个标记结构域。
42.根据41的方法,其中所述靶结合结构域包含至少三个核苷酸并能够瞬时结合于靶核酸。
43.根据41的方法,其中所述标记结构域包含能够稳定地结合被标记的互补核酸分子的核酸序列。
44.根据41的方法,其中所述探针包含靶结合结构域和多个标记结构域。
45.根据44的方法,其中所述多个标记结构域各自包含能够稳定地结合被标记的互补核酸分子的核酸序列。
46.根据44的方法,其中每个结合结构域包含独特的序列。
47.根据44的方法,其中每个独特的结合结构域对应于所述至少三个核苷酸中的一个。
48.根据47的方法,其中所述至少三个核苷酸中的一个的身份通过独特的标记来确定。
49.根据48的方法,其中使用至少12个独特的标记或使用11个独特的标记和一个空白。
50.根据41和44的方法,其中靶结合结构域包含至少三个核苷酸和一个或多个简并核苷酸位置。
51.根据48的方法,其中所述标记因波长、寿命、亮度、辐射、发射或散射光的偏振等而独特。
52.根据前述实施例的方法,其中所述多核苷酸在一端加尾并且经由与所述尾互补的序列被捕获。
53.根据52的方法,其中与所述尾互补的所述序列被组织成有序阵列。
54.根据52的方法,其中所述有序阵列包含超分子网格(例如,DNA折纸),所述超分子网格包含与所述尾互补的空间有序序列。
55.根据52的方法,其中所述多核苷酸使用末端转移酶来加尾。
56.根据52的方法,其中所述靶多核苷酸是短的游离或循环核酸。
57.根据52的方法,其中所述靶多核苷酸是mRNA并且在一端已天然加尾。
58.根据52的方法,其中所述靶多核苷酸是尚未在一端天然加尾的RNA。
59.根据前述实施例的方法,其中在探针结合之前使所述聚合物/多核苷酸变性。
60.根据前述实施例的方法,其中将所述单个聚合物/多核苷酸拉伸或伸长。
61.根据前述实施例的方法,其中所述单个聚合物/多核苷酸固着在表面上。
62.根据前述实施例的方法,其中将所述单个聚合物/多核苷酸固着在凝胶或基质中。
63.一种对非均相聚合物中的化学结构进行鉴定和排序的方法,其包含:将所述聚合物伸长并结合多个探针,所述探针鉴定沿着所述伸长聚合物的多个位点处的所述化学结构;多个所述位点比衍射极限光学成像可分辨的距离更近,但被分辨是因为它们的标记在时间上分开;鉴定所述化学结构的所述探针的结合部位以纳米级(亚衍射)精度确定,从而确定非均相聚合物中的化学结构的空间顺序。
64.一种对聚合物进行测序的方法,其中通过分子探针库与所述聚合物的结合相互作用的突现性质来确定聚合物的序列。
实例
实例1:制备用于测序的样品.
步骤1:提取长度较长的基因组DNA.
在培养物中使NA12878或NA18507细胞(Coriell Biorepository)生长并收获所述细胞。。将细胞与加热至60℃的低熔点琼脂糖混合。将混合物倾倒至凝胶模具(例如,购自Bio-Rad)中,并使其凝固成凝胶塞,产生约4×107个细胞(该数目可更高或更低,取决于多核苷酸的所需密度)。通过在含有蛋白酶K的溶液中浸泡凝胶塞来溶解塞中的细胞。在TE缓冲液中温和洗涤凝胶塞(例如,在15ml法尔康管(falcon tube)中,该管填充有洗涤缓冲液但留下小气泡以帮助混合,并放在试管旋转器上)。将塞子放入约1.6ml体积的凹槽中,并通过使用琼脂糖酶消化DNA来提取DNA。将0.5M MES pH 5.5溶液施加至消化的DNA。使用FiberPrep试剂盒(Genomic Vision,France)和相关方案进行该步骤,得到平均长度为300Kb的所得到的DNA分子。或者,从这些细胞系中提取的基因组DNA本身可从Corriel获得,并使用大口径移液管(1.2mL中约10ul,得到<1μM的平均间隔)将其直接移至0.5M MES pH5.5溶液中。
步骤2:拉伸表面上的分子.
步骤1的最后部分将提取的多核苷酸在0.5M MES pH 5.5溶液中置于凹槽中。将涂有乙烯基硅烷(例如,来自Genomic Vision的CombiSlips)的基板盖玻片浸入凹槽中,并允许孵育1-10分钟(取决于靶核酸的所需密度)。然后,使用机械拉出器,例如附带有夹子(以抓住盖玻片)的注射泵(或者,使用Genomic Vision的FiberComb系统)慢慢拉出盖玻片。使用交联剂(Stratagene,USA),使用10,000微焦耳的能量使盖玻片上的DNA交联到表面上。如果小心地进行该过程,其会引起平均长度为200-300Kb的高分子量(HMW)多核苷酸在表面上伸长,其中在多核苷酸群体中存在长度大于1Mb或甚至约10Mb的分子。通过更加小心和优化,平均长度移到兆碱基范围(参见上面的兆碱基范围的梳理部分)。
作为替代方案,如上文所提及,使用预先提取的DNA(例如,来自Novagen目录号70572-3或Promega的男性基因组DNA),并且包含大部分大于50Kb的基因组分子。这里,浓度为约0.2-0.5ng/μL,浸渍约5分钟,足以提供大部分可以使用衍射极限成像来单独分辨的分子密度。
步骤3:制作流动池.
将盖玻片压在流动池垫圈上,该垫圈由已经附着在载玻片上的双面粘性3M薄片制成。垫圈(双面粘性薄片上的两面上面都有保护层)是使用激光切割机制成的,以产生一个或多个流动通道。流动通道的长度比盖玻片的长度长,因此当将盖玻片放置在流动通道的中心时,通道的未被盖玻片覆盖的部分(每一端一个)分别被用作将流体分配到流动通道中和从流动通道分配出的入口和出口。流体从粘附在乙烯基硅烷表面的伸长多核苷酸上方通过。通过在一端使用安全拭子棒(Johnsons,USA),在另一端吸取流体时产生抽吸来使流体流过通道。通道用磷酸盐缓冲盐水-Tween和磷酸盐缓冲盐水(PBS-洗涤)预润湿。
步骤4:双链DNA的变性.
在可添加下一个靶核酸之前,需要高效地洗掉先前的靶核酸;这可以通过更换缓冲液最多4次并任选地使用变性剂(例如DMSO或碱溶液)去除持久结合来进行。通过将碱(0.5M NaOH)冲过流动池并在室温下孵育约20-60分钟来使双链靶核酸变性。接下来进行PBS/PBST洗涤。或者,还与1M HCL一起孵育1小时,然后用PBS/PBST洗涤。
步骤5:钝化.
任选地,将阻断缓冲液,例如BlockAid(Invitrogen,USA)流入并孵育约5-15分钟。接下来进行PBS/PBST洗涤。
实例2:通过寡核苷酸与变性的多核苷酸的瞬时结合进行测序
步骤1:在瞬时结合条件下添加寡核苷酸探针物质.
将流动池用PBST和任选的缓冲液A(10mM Tris-HCl、100mM NaCl、0.05%Tween-20,pH 7.5)进行预处理。将约1-10nM的每种寡核苷酸探针物质施加于缓冲液B(5mM Tris-HCl、10mM MgCl2、1mM EDTA、0.05%Tween-20pH 8)或缓冲液B+(5mM Tris-HCl、10mM MgCl2、1mM EDTA、0.05%Tween-20pH 8、1mM PCA、1mM PCD、1mM Trolox)中的伸长的变性靶核酸中。寡核苷酸探针物质的长度通常在5至7个核苷酸的范围内,并且反应温度取决于寡核苷酸探针物质的Tm。我们使用的一种探针类型具有通式5′-Cy3-NXXXXXN-3′(X是指定碱基,N是简并位置),其中LNA核苷酸位于位置1、2、4、6和7;DNA核苷酸位于位置3和5;探针购自Sigma Proligo,并且如由Pihlak等人先前所使用。结合温度与每种寡核苷酸探针物质序列的Tm相关。
在用A+和B+溶液洗涤后,对于LNA DNA嵌合寡核苷酸探针物质3004NTgGcGN(其中大写字母是LNA,小写字母是DNA核苷酸),在室温下用B+溶液中0.5与100nM之间的寡核苷酸(通常3nm与10nm之间)进行寡核苷酸探针物质的瞬时结合。对于不同的寡核苷酸探针物质序列,根据它们的Tm和结合行为,使用不同的温度和/或盐条件(以及浓度)。如果使用FRET机制进行检测,可以使用高得多的浓度的寡核苷酸,最高可达1uM。在一些实施例中,FRET是在嵌入到瞬时形成的双链体中的嵌入染料分子(1/1000至1/10,000稀释的纯物质,取决于使用哪种嵌入染料,来自YOYO-1、Sytox Green、Sytox Orange、Sybr Gold等;LifeTechnologies)与寡核苷酸上的标记之间。在一些实施例中,嵌入染料直接用作标记,不使用FRET。在这种情况下,寡核苷酸探针物质未被标记。除了便宜之外,未标记的寡核苷酸探针物质还能够以比标记的寡核苷酸探针物质更高的浓度使用,因为在双链体形成时来自嵌入染料的背景比未嵌入的染料亮100-1000倍(例如,取决于使用哪种嵌入剂)。
步骤2:成像-拍摄多帧.
将流动通道放置在倒置式显微镜(例如,Nikon Ti-E)上,所述显微镜配备有完全对焦、TIRF附件以及TIRF物镜激光器和Hamamatsu 512×512背减薄EMCCD相机。将探针添加到缓冲液B+中,并任选地补充成像。
利用由75-400mW激光(例如,532nm下的绿光)的全内反射产生的渐逝波照射与安置在表面上的多核苷酸结合的探针,所述激光经由光纤扰频器(Point Source)以约61.5°的TIRF角,通过带有TIRF附件的Nikon Ti-E上的1.49NA 100×Nikon油浸物镜来调节。将图像通过同一透镜以1.5倍的进一步放大率收集,并经由双色镜和发射滤光器投影到Hamamatsu ImageEM相机。使用完美对焦,以100-140的EM增益拍摄50-200毫秒5000-30,000帧。在一些实施例中,在最初的几秒钟内使用高激光功率(例如,400mW)来漂白初始的非特异性结合,这将来自表面的几乎一层信号降低到可以分辨各个结合事件的较低密度。随后,任选地降低激光功率。
图22A-22E示出了对与靶核酸瞬时结合的寡核苷酸探针物质的照射的实例。在这些图中,靶核酸来自人类DNA。黑点表示探针荧光区域,其中更暗的点指示更多区域更频繁地被寡核苷酸探针物质结合(例如,收集更多光子)。图22A-22E是在一个靶核酸的测序过程中捕获的来自时间序列的图像(例如,视频)。点2202、2204、2206、2208在整个时间序列中被指示为靶核酸中随着时间推移以或多或少的强度结合(例如,当将不同的寡核苷酸探针物质组暴露于靶核酸)的区域的实例。
添加成像缓冲液.在一些实施例中,成像缓冲液由含有β-巯基乙醇、酶促氧化还原系统和/或抗坏血酸盐和没食子酸的缓冲液补充或替换。沿线检测到荧光团,表明寡核苷酸探针物质已经发生结合。任选地,如果流动池由超过一个通道构成,则其中一个通道用YOYO-1嵌入染料染色,以用于检查多核苷酸的密度和多核苷酸伸长的质量(例如,使用强光或488nm激光照明)。
步骤3:成像-移动至其它部位(任选的步骤)
相对于物镜(因此也相对于CCD)平移已经安装至Nikon Ti-e的载玻片架上(经由附着于作为流动池的一部分的载玻片)的盖玻片,以便对单独的部位成像。在多个其它部位进行成像,以便对与在不同部位(在其第一位置的CCD视野之外)呈现的靶核酸或靶核酸的部分结合的寡核苷酸探针物质进行成像。来自每个部位的图像数据均存储在计算机存储器中。
步骤4:添加下一组寡核苷酸.
添加下一组寡核苷酸探针物质,重复步骤1-3,直至全部靶核酸已被测序。
步骤5:确定结合的部位和身份.
确定每个光学活性情况的部位,记录来自结合的被标记的寡核苷酸探针物质的荧光投影在上面的像素部位。结合的寡核苷酸探针物质的身份通过确定哪些被标记的寡核苷酸探针物质已被结合来确定(例如,使用通过滤光器进行的波长选择),跨越多个滤光器检测荧光团,并且在这种情况下,使用跨越滤光器组的每个荧光团的发射签名(emissionsignature)来确定荧光团的身份,从而确定寡核苷酸探针物质的身份。任选地,如果流动池由超过一个通道构成,则其中一个通道用YOYO-1嵌入染料染色,以用于检查靶核酸的密度和靶核酸伸长的质量(例如,通过使用强光或488nm激光照明)。拍摄一个或多个图像或影片,用于标记寡核苷酸探针物质的每个荧光波长各一个。
步骤6:数据处理.
当双链体靶核酸的两条链都保持附着于表面时,寡核苷酸探针物质同时结合于它们在双链靶核酸的两条链上的互补部位。然后分析总数据集,以发现在靶核酸上的特定位置发出紧密定位的信号的寡核苷酸探针物质组,它们的部位通过与对应于多核苷酸中的选定点的寡核苷酸探针物质序列重叠来确认;因此这揭示了每个点寡核苷酸探针物质的两个重叠覆瓦式系列。该地点中的下一个信号适合哪个覆瓦式系列指示了其与哪条链结合。
由于靶核酸链保持固定在表面上,因此可使用运行算法的软件脚本覆盖针对每种寡核苷酸探针物质所记录的结合部位。这使得信号显示寡核苷酸探针物质结合部位落在两条寡核苷酸探针物质序列覆瓦式路径的框架内,变性双链体靶核酸的每条链各有一条单独的(但应该是互补的)路径。每条覆瓦式路径(如果完整的话)都跨越整个链长度。然后比较每条链的覆瓦式序列(tiled sequence),以提供双链(也称为2d)共有序列。如果其中一条覆瓦式路径中存在间隙,则采用互补覆瓦式路径的序列。在一些实施例中,将该序列与同一序列的多个拷贝或参考序列进行比较,以帮助碱基分配和封闭间隙。
实例3:检测表观遗传标志物在多核苷酸上的部位.
任选地,在寡核苷酸结合过程之前(或有时在寡核苷酸结合过程之后或期间),进行表观基因组结合试剂的瞬时结合。取决于使用何种结合试剂,在变性之前或之后进行结合。对于抗甲基C抗体,结合在变性靶核酸上进行,而对于甲基结合蛋白,结合在任何变性步骤之前在双链靶核酸上进行。
步骤1-甲基结合试剂的瞬时结合.
在变性之后,用PBS洗涤来冲洗流动池并且将Cy3B标记的抗甲基抗体3D3克隆(Diagenode)添加于PBS中。
或者,在变性之前,用PBS冲洗流动池,并添加Cy3B标记的MBD1。
如上文针对瞬时寡核苷酸探针物质结合所述,进行成像。
步骤2:去掉甲基结合试剂.
通常,在测序之前进行表观遗传分析。因此,任选地,在靶核酸测序开始之前,将甲基结合试剂冲洗掉。这可以通过以下来进行:流过多个循环的PBS/PBST和/或高盐缓冲液和SDS,然后通过成像检查是否发生了去除。如果显而易见有超过可忽略的量的结合试剂残留,则使更苛刻的处理,例如离液剂GuCL流过以去除残留的试剂。
步骤3:数据相关性。
在已经获得测序表观基因组学数据之后,在测序探针物质结合部位的部位与表观遗传结合部位之间产生相关性,以提供甲基化的序列背景。
实例4:从λ噬菌体DNA中的瞬时结合中收集的荧光.
图23A、23B和23C示出了瞬时结合事件的实例。它们共同示出了在室温下在缓冲液B+中浓度为1.5nM的Oligo I.D.Lin2621、Cy3标记的5′NAgCgGN 3′的瞬时结合。靶核酸是λ噬菌体基因组,已将其在MES pH 5.5缓冲液+0.1M NaCl中手动梳理到乙烯基硅烷表面(Genomic Vision)上。400mW的532nm激光通过Point Source光纤扰频器。荧光已用TIRF附件和多色器收集,包括532nm激发带、TIRF物镜100×,1.49NA,再加上1.5倍放大倍数。没有实现隔振。图像是通过完美对焦在100EM增益设置下捕获到Hamamatsu ImageEM 512×512上。在100ms内收集了10000帧。寡核苷酸探针组中Cy3的浓度为约250nM-300nM。图23A显示了在ThunderSTORM中进行互相关漂移校正之前收集的荧光。图23B显示了用比例尺进行互相关漂移校正后收集的荧光。图23C显示了图23B的放大区域中的荧光。图23C展示了通过Lin2621与多个部位的持续结合而发现的长多核苷酸链。从图像中可以清楚地看出,靶核酸链在成像表面上以比Cy3发射的衍射极限更近的距离固着和伸长。
实例5:从合成DNA的瞬时结合中收集的荧光
图24示出了从三条不同的多核苷酸链收集的荧光数据的实例。在合成的3千碱基变性双链DNA上展示了多个探测和洗涤步骤。在乙烯基硅烷表面上合成DNA在MES pH 5.5中进行梳理和变性。进行一系列结合和洗涤步骤,并在ImageJ中使用ThunderSTORM记录和处理视频。从超分辨图像中切下三条示例性链(1、2、3),用于在环境温度下,用缓冲液B+中10nM的寡核苷酸进行的以下实验系列:寡核苷酸探针物质3004结合、洗涤、寡核苷酸2879结合、洗涤、寡核苷酸3006结合、洗涤以及寡聚体探针物质3004结合(再次)。这表明结合图谱可以从瞬时结合中获得,结合模式可以通过洗涤来消除,然后在合成DNA的相同的第一链和第二链上用不同的寡核苷酸探针物质获得不同的结合模式。在该系列的最后一个实验返回到寡核苷酸探针物质3004,并且其与该系列中第一个实验使用的模式相似,这表明过程的稳固性,即使没有任何优化尝试。
通过实验确定的结合部位与预期一致,其中双链体的链1和3展示了4个可能的完全匹配结合位点中的3个,双链体的链2展示了所有4个结合部位和一个明显的错配部位。观察到,使用寡核苷酸探针物质3004的第二次探测似乎显示出更清晰的信号,这可能是由于错配更少。这与由于长时间暴露于激光下加热而导致温度略微升高的可能性是一致的。
本实验中使用的寡核苷酸序列如下(大写的碱基是锁核酸(LNA)):
寡核苷酸探针物质3004:5'cy3 NTgGcGN
寡核苷酸探针物质2879:5'cy3 NGgCgAN
寡核苷酸探针物质3006:5'cy3 NTgGgCN:
3kbp合成模板序列的序列表(文件底部)如下:
(SEQ ID NO.2)
AAAAAAAAACCGGCCCAGCTTTCTTCATTAGGTTATACATCTACCGCTCGCCAGGGCGGCGACCTCGCGGGTTTTCGCTATTTATGAAAATTTTCCGGTTTAAGGCGTTTCCGTTCTTCTTCGTCATAACTTAATGTTTTTATTTAAAATACCCTCTGAAAAGATAGGATAGCACACGTGCTGAAAGCGAGGCTTTTTGGCCTCTGTCGTTTCCTTTCTCTGTTTTTGTCCGTGGAATGAACAATGGAAGTCAACAAAAAGCAGCTGGCTGACATTTTCGGTGCGAGTATCCGTACCATTCAGAACTGGCAGGAACAGGGAATGCCCGTTCTGCGAGGCGGTGGCAAGGGTAATGAGGTGCTTTATGACTCTGCCGCCGTCATAAAATGGTATGCCGAAAGGGATGCTGAAATTGAGAACGAAAAGCTGCGCCGGGAGGTTGAAGAACTGCGGTTCTTATACATCTAATAGTGATTATCTACATACATTATGAATCTACATTTTAGGTAAAGATTAATTGAGTACCAGGTTTCAGATTTGCTTCAATAAATTCTGACTGTAGCTGCTGAAACGTTGCGGTTGAACTATATTTCCTTATAACTTTTACGAAAGAGTTTCTTTGAGTAATCACTTCACTCAAGTGCTTCCCTGCCTCCAAACGATACCTGTTAGCAATATTTAATAGCTTGAAATGATGAAGAGCTCTGTGTTTGTCTTCCTGCCTCCAGTTCGCCGGGCATTCAACATAAAAACTGATAGCACCCGGAGTTCCGGAAACGAAATTTGCATATACCCATTGCTCACGAAAAAAAATGTCCTTGTCGATATAGGGATGAATCGCTTGGTGTACCTCATCTACTGCGAAAACTTGACCTTTCTCTCCCATATTGCAGTCGCGGCACGATGGAACTAAATTAATAGGCATCACCGAAAATTCAGGATAATGTGCAATAGGAAGAAAATGATCTATATTTTTTGTCTGTCCTATATCACCACAAAACCTGAAACTGGCGCGTGAGATGGGGCGACCGTCATCGTAATATGTTCTAGCGGGTTTGTTTTTATCTCGGAGATTATTTTCATAAAGCTTTTCTAATTTAACCTTTGTCAGGTTACCAACTACTAAGGTTGTAGGCTCAAGAGGGTGTGTCCTGTCGTAGGTAAATAACTGACCTGTCGAGCTTAATATTCTATATTGTTGTTCTTTCTGCAAAAAAGTGGGGAAGTGAGTAATGAAATTATTTCTAACATTTATCTGCATCATACCTTCCGAGCATTTATTAAGCATTTCGCTATAAGTTCTCGCTGGAAGAGGTAGTTTTTTCATTGTACTTTACCTTCATCTCTGTTCATTATCATCGCTTTTAAAACGGTTCGACCTTCTAATCCTATCTGACCATTATAATTTTTTAGAATGCGGCGTTTTCCGGAACTGGAAAACCGACATGTTGATTTCCTGAAACGGGATATCATCAAAGCCATGAACAAAGCAGCCGCGCTGGATGAACTGATACCGGGGTTGCTGAGTGAATATATCGAACAGTCAGGTTAACAGGCTGCGGCATTTTGTCCGCGCCGGGCTTCGCTCACTGTTCAGGCCGGAGCCACAGACCGCCGTTGAATGGGCGGATGCTAATTACTATCTCCCGAAAGAATCCGCATACCAGGAAGGGCGCTGGGAAACACTGCCCTTTCAGCGGGCCATCATGAATGCGATGGGCAGCGACTACATCCGTGAGGTGAATGTGGTGAAGTCTGCCCGTGTCGGTTATTCCAAAATGCTGCTGGGTGTTTATGCCTACTTTATAGAGCATAAGCAGCGCAACACCCTTATCTGGTTGCCGACGGATGGTGATGCCGAGAACTTTATGAAAACCCACGTTGAGCCGACTATTCGTGATATTCCGTCGCTGCTGTTAATTGAGTTTATAGTGATTTTATGAATCTATTTTGATGATATTATCTACATACGACTGGCGTGCCATGCTTGCCGGGATGTCAAATTTAATAAGGTGATAGTAAATAAAACAATTGCATGTCCAGAGCTCATTCGAAGCAGATATTTCTGGATATTGTCATAAAACAATTTAGTGAATTTATCATCGTCCACTTGAATCTGTGGTTCATTACGTCTTAACTCTTCATATTTAGAAATGAGGCTGATGAGTTCCATATTTGAAAAGTTTTCATCACTACTTAGTTTTTTGATAGCTTCAAGCCAGAGTTGTCTTTTTCTATCTACTCTCATACAACCAATAAATGCTGAAATGAATTCTAAGCGGAGATCGCCTAGTGATTTTAAACTATTGCTGGCAGCATTCTTGAGTCCAATATAAAAGTATTGTGTACCTTTTGCTGGGTCAGGTTGTTCTTTAGGAGGAGTAAAAGGATCAAATGCACTAAACGAAACTGAAACAAGCGATCGAAAATATCCCTTTGGGATTCTTGACTCGATAAGTCTATTATTTTCAGAGAAAAAATATTCATTGTTTTCTGGGTTGGTGATTGCACCAATCATTCCATTCAAAATTGTTGTTTTACCACACCCATTCCGCCCGATAAAAGCATGAATGTTCGTGCTGGGCATAGAATTAACCGTCACCTCAAAAGGTATAGTTAAATCACTGAATCCGGGAGCACTTTTTCTATTAAATGAAAAGTGGAAATCTGACAATTCTGGCAAACCATTTAACACACGTGCGAACTGTCCATGAATTTCTGAAAGAGTTACCCCTCTAAGTAATGAGGTGTTAAGGACGCTTTCATTTTCAATGTCGGCTAATCGATTTGGCCATACTACTAAATCCTGAATAGCTTTAAGAAGGTTATGTTTAAAACCATCGCTTAATTTGCTGAGATTAACATAGTAGTCAATGCTTTCACCTAAGGAAAAAAACATTTCAGGGAGTTGACTGAATTTTTTATCTATTAATGAATAAGTGCTTGACCTATTTCTTCATTACGCCATTATACATCTAGCCCACCGCTGCCAAAAAAAAA
实例6:单细胞的综合分离、核酸提取和测序.
步骤1:设计和制造微流控体系结构
微通道被设计成容纳典型直径为15um的人癌细胞系细胞,因此微流体网络的最小深度和宽度为33um。该装置包含细胞入口和缓冲液入口,这两个入口合并成单个通道,为单细胞捕集器提供进料(如图17所示)。在细胞与缓冲液入口之间的交叉点,细胞沿着一个或多个捕集器所位于的进料通道的侧壁排列。每个捕集器都是一个简单的收缩结构,其尺寸被设置成可以捕获人癌细胞系细胞。用于细胞捕集的收缩结构具有梯形横截面:底部的宽度为4.3um,中间的深度为6um,顶部的宽度为8um,深度为33um。每个细胞捕集器将进料通道连接到分叉处,分叉的一侧是废料通道(图17中未示出),另一侧是包含流动-拉伸部分(用于核酸伸长和测序)的通道,每个细胞一个。流动-拉伸部分由20um(或最多可达2mm)宽、450um长、100nm(或最高可达2um)深的通道组成。在一些实施例中,流动-拉伸通道开始较窄,然后加宽至所述尺寸。
步骤2:装置制造
所述装置通过使用TOPAS 5013(TOPAS)的注塑成型复制镍垫片来制造。简单来说,通过UV光刻技术和反应性离子蚀刻生产硅母版。沉积100nm NiV晶种层,并将镍电镀至330um的最终厚度。硅母版在KOH中被化学蚀刻掉。使用250℃的熔体温度、120℃的模具温度、1,500巴(bar)的最大保持压力持续2s,以及在20cm3/s至45cm3/s之间变化的注射速率进行注塑成型。最后,将盖玻片(1.5)粘合至装置上,或者使用150um TOPAS箔,在0.51MPa的最大压力下通过UV和热处理的组合来密封装置。在密封装置之前,通过在140℃和5.1MPa下,在两个从硅晶片电镀而来的平镍板之间压制箔20分钟来降低箔的表面粗糙度。这确保了装置的盖子是光学平坦的,允许进行高NA光学显微术。该装置安装在倒置式荧光显微镜(Nikon Ti-E)上,所述显微镜配备有油TIRF物镜(100X/NA 1.49),以及EMCCD相机(Hamamatsu ImageEM 512)。使用压力控制器(MFCS,Fluigent)在0到10毫巴范围内的压力下驱动流体通过该装置。用乙醇灌注该装置,然后脱气,除连接流动-拉伸装置的微通道外,所有微通道中都装有FACSFlow鞘液(BD Biosciences)。选择性装载是通过在废料通道的出口处施加负压或抽吸力,同时在流动拉伸通道的出口处施加正压,同时在引入溶液的进料通道的入口处保持正压来实现的。将适用于单分子成像和电泳的缓冲液(0.5×TBE+0.5%v/v Triton-X100+1%v/vβ-巯基乙醇,BME)装载在流动-拉伸装置的通道中。该缓冲液防止DNA粘在流动-拉伸部分中,并在流动-拉伸部分的高度较低时遏制能够抵消提取的DNA的引入的电渗流。
步骤3:细胞制备
将LS174T结直肠癌细胞在含有10%胎牛血清(FBS;Autogen-Bioclear UK有限公司)和1%青霉素/链霉素(Lonza)的达尔伯克改良伊格尔培养基(DMEM;Gibco)中培养,然后于含10%DMSO的FBS中以1.7×106个细胞/毫升的浓度冷冻。解冻后,将细胞悬浮液与FACSFlow缓冲液1:1混合,以28.8×g(A-4-44,Eppendorf)离心5分钟,并重新悬浮于FACSFlow缓冲液中。最后,细胞用1uM钙黄绿素AM(Invitrogen)染色,并以0.35×106个细胞/毫升装载到芯片中。装载约5-10,000个细胞,并分析每个捕集器中捕集的第一个细胞。
步骤4:操作
将细胞和缓冲液同时引入,沿着捕集器所位于的微通道的侧壁排列细胞。捕获单细胞并保持在捕集器中,以待缓冲液以最多30nL/min流过捕集器。将由0.5×TBE+0.5%v/vTriton-X100+0.1uM YOYO-1(invitrogen)组成的溶解缓冲液装载到入口之一,并以10nL/min注射通过捕集器,历时10分钟。然后,在所有孔中将溶液更换成不含YOYO-1的缓冲液,以停止染色。接下来,将细胞核暴露于剂量为1nW/(um)2的蓝色激发光下,长达300s,引起DNA的部分光切刻(参见www.pnas.org/cgi/doi/10.1073/pnas.1804194115的SI附录)。然后,将缓冲液换成含有BME的溶液(0.5×TBE+0.5%v/v triton-X100+1%v/v BME),并将荧光灯的强度降低到仍然允许荧光成像的最小强度。接下来,将温度升至60℃,并引入蛋白水解溶液(蛋白酶K>200μg mL-1(Qiagen)、0.5×TBE+0.5%v/v Triton-X100+1%v/v BME+200g/mL),将溶解产物推过捕集器。DNA穿过相邻的流动-拉伸部分,并将油浸物镜移动到单分子成像(100×,NA 1.49,再加上1.5倍放大倍数,可得到120nm像素图像大小)的位置。通过在流动-拉伸部分施加5到10V的电压,使用电泳将DNA片段从微通道引入流动-拉伸装置中。当DNA片段的两端都在相对的微通道中时,关闭电压。以100-150%拉伸的分子的450um部分对应于>1兆碱基长度的从单细胞提取的基因组DNA。在一些实施例中,在蛋白水解后,通过用0.5×TBE替代捕获缓冲液,将DNA内含物推过装置;在这样的实施例中,流动-拉伸部分的尺寸任选地更大,使得数千个兆碱基片段可以同时被捕获(通过疏水或静电相互作用)并在通道内被拉伸。这通过使用pH缓冲液8(例如,HEPES)来进行,并且在这里,被粘合的盖玻片带有正电荷,例如APTES或多聚赖氨酸或乙烯基硅烷盖玻片被粘合,并且pH 5.5-5.7的0.5MMES缓冲液用于流入DNA中,然后通过用空气跟随MES缓冲液来梳理DNA。如果或箔包含Zeonex,那么分子梳理可以用0.6M MES缓冲液在pH 5.7下进行。
一旦双链靶核酸固着,就流过变性溶液、0.5M NaOH和或6%DMSO。然后,将单细胞样品准备用于本发明的测序方法,其中将完整寡核苷酸探针物质组流过,并对寡核苷酸探针物质结合成像。
在一些实施例中,细胞溶解是两个步骤,使得RNA不会在流动-延伸部分内污染和引起荧光。这里,施加第一溶解缓冲液(例如,含有0.5%(v/v)Triton X-100的0.5×TBE,其中添加了DNA嵌入YOYO-1染料)。这种缓冲液溶解细胞膜,将细胞溶质内含物释放到填充有10-20μl无核酸酶H2O的捕集器出口中,将细胞核和DNA留在捕集器中(例如,如van Strijp等人《科学报告》7:11030(2017)所描述)。每个细胞的细胞溶质内含物在溶解后去除并分流到废料出口,或者该装置被设计成具有用于RNA的流动-拉伸部分,该部分与用于DNA的流动-拉伸部分分开。在一些实施例中,将RNA送至单独的流动拉伸部分,所述流动拉伸部分已涂有寡聚dT,其捕获多聚A RNA。在一些实施例中,用于RNA的流动拉伸部分包含纳米孔或纳米坑(Marie等人,Nanoscale DOI:10.1039/c7nr06016e)2017),其中捕集RNA并使用酶试剂来添加捕获序列,例如通过末端转移酶添加多聚A聚合酶。用第二种缓冲液(含有0.5%(v/v)Triton X-100和蛋白酶K的0.5×TBE)进行细胞核溶解,并将DNA分流至用于DNA的流动-拉伸部分。
为了将核酸的损失降至最低,使距离捕集器和流动-拉伸部分的距离较短,并且装置壁被很好地钝化,包括通过用脂质涂布(例如,如Persson等人,《纳米通讯(Nanoletters)》12:2260-5(2012)所描述)。
引用的参考文献和替代实施例
本文中所引用的全部参考文献均以全文引用的方式并入本文中并且出于所有目的,其引用程度如同具体且个别地指示每一个别公开案或专利或专利申请出于所有目的以全文引用的方式并入本文中一般。
所有标题和子标题在本文中只是为了便利而使用且不应解释为以任何方式限制本发明。
除非另有要求,否则本文中提供的任何和所有实例或示例性语言(例如,“例如”)的使用仅旨在更好地阐明本发明,而不构成对范围的限制。说明书中的任何语言均不应被解释为将任何未要求保护的要素指示为是实践本发明不可或缺的。
应理解,尽管本文中使用术语第一、第二等来描述各种要素,但这些要素不应受这些术语限制。这些术语只是用于将一种要素与另一要素相区分。例如,在不脱离本公开的范围的情况下,第一主体可以被称为第二主体,并且类似地,第二主体可以被称为第一主体。第一主体和第二主体都是主体,但它们不是同一个主体。
在本公开中使用的术语仅出于描述特定实施例的目的,并不旨在限制本发明。除非上下文另外清楚地指示,否则如在本说明书和所附权利要求书中所使用,单数形式“一”和“所述”也意图包括复数形式。还应理解,如本文所用的术语“和/或”是指并涵盖一个或多个相关所列项目的任何和所有可能的组合。将进一步理解,术语“包含(comprises)”和/或“包含(comprising)”在用于本说明书中时指明所陈述的特征、整数、步骤、操作、要素和/或组分的存在,但不排除一个或多个其它特征、整数、步骤、操作、要素、组分和/或其群组的存在或添加。
如本文所用,术语“如果”被解释成意指“当……时(when)”或“在……后(upon)”或者“响应于确定”或“响应于检测到”,取决于上下文。类似地,短语“如果确定”或“如果检测到[所陈述的条件或事件]”被解释为意指“在确定……后”或“响应于确定”或“在检测到[所陈述的条件或事件]后”或“响应于检测到[所陈述的条件或事件]”,取决于上下文。
本文中专利文件的引用和并入仅为了方便起见,并不反映这类专利文件的有效性、可专利性和/或可执行性的任何观点。
本发明可以按计算机程序产品形式进行实施,所述计算机程序产品包含嵌入在非暂时性计算机可读存储介质中的计算机程序机制。举例来说,计算机程序产品可含有图1A的任何组合中所示的程序模块。这些程序模块可以存储在CD-ROM、DVD、磁盘存储产品、USB密钥或任何其它非暂时性计算机可读数据或程序存储产品上。
本说明书内的实施例提供了本发明的实施例的说明且不应被理解为限制本发明的范围。熟练技术人员将认识到,本发明的方法涵盖许多其它方面和实施例。熟练技术人员可以变化本发明的实施例和下文所提供的技术细节,并且可在无过度实验或再发明下测试和系统地优化。
根据本说明书的教示和其中所引用的参考文献最彻底地理解本发明。如本领域的技术人员将显而易见的,可以在不脱离其精神和范围的情况下进行许多修改和变化。本文所述的特定实施例只是举例而已。对实施例进行挑选和描述以便最佳地阐释本发明的原理和其实际应用,从而使得本领域的技术人员能够最佳地利用本发明和具有适合于所预期的特定用途的各种修改的各种实施例。
本发明仅受所附权利要求书的条款以及所述权利要求书所授权的同等物的完整范围限制。

Claims (37)

1.一种对核酸进行测序的方法,其包含:
(a)将所述核酸以线性化伸长/拉伸形式固定在测试基板上,从而形成固定的伸长/拉伸核酸;
(b)将所述固定的伸长/拉伸核酸暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质,其中所述寡核苷酸探针物质组中的每种寡核苷酸探针物质是具有预定的长度的探针物质的文库,所述探针物质包含来自A、C、G、T碱基的一个界定核苷酸和一个或多个简并位置,每个简并位置包含A、C、G、T碱基的混合物或通用碱基类似物,所述暴露(b)在允许所述相应寡核苷酸探针物质的各个探针与所述固定的核酸的与所述相应寡核苷酸探针物质互补的一个或多个部分瞬时且可逆地结合的条件下进行,从而产生相应光学活性情况;
(c)使用成像装置测量在所述暴露(b)期间或之后发生的每个相应光学活性情况在所述测试基板上的部位;
(d)对所述寡核苷酸探针物质组中的相应寡核苷酸探针物质重复所述暴露(b)和测量(c),从而获得所述测试基板上的多组位置,所述测试基板上的每组相应位置对应于所述寡核苷酸探针物质组中的一种寡核苷酸探针物质;以及
(e)通过对由所述多组位置表示的所述测试基板上的所述位置进行编译,从所述测试基板上的所述多组位置确定所述核酸的至少一部分的序列。
2.根据权利要求1所述的方法,其中所述光学活性是由所述寡核苷酸物质上的标记引起的,所述标记包含纳米颗粒、荧光分子结构。
3.根据权利要求2所述的方法,其中每种寡核苷酸物质均用将其与其它标记区分开的独特标记来标记。
4.根据权利要求1所述的方法,其中所述光学活性是由包含一种或多种嵌入染料分子的双链体识别部分对结合相互作用的标记引起的。
5.根据权利要求1所述的方法,其中仅在所述固定的伸长/拉伸核酸附近检测到所述光学活性,本体溶液中未检测到。
6.根据权利要求5所述的方法,其中所述光学活性经由FRET检测,或所述标记被猝灭或直到其处于所述固定的伸长/拉伸核酸附近才发荧光。
7.根据权利要求5所述的方法,其中所述寡核苷酸被双重标记,所述双重标记在每一端包含Cy3部分,所述Cy3部分在本体溶液中基本上被染料-染料相互作用猝灭,但在结合时发荧光。
8.根据权利要求1所述的方法,其中所述固定的伸长/拉伸核酸是单链的。
9.根据权利要求1所述的方法,其中通过将基板平台锁定到物镜来使漂移最小化。
10.根据权利要求1所述的方法,其中所述漂移被校正。
11.根据权利要求1所述的方法,其中在所述基板上的所述固定的伸长/拉伸核酸附近提供基准漂移校正标志物。
12.根据权利要求10所述的方法,其中所述基准漂移校正标志物包含折纸网格,所述折纸网格包含空间可寻址的荧光信号。
13.根据权利要求11所述的方法,其中所述空间可寻址的荧光信号是瞬时的,并且是根据PAINT或DNA PAINT方法由成像器的结合引起的。
14.根据权利要求3所述的方法,其中所述寡核苷酸探针物质组同时暴露于所述固定的伸长/拉伸核酸,并且分别检测它们的独特标记,所述独特标记将它们与其它标记区分开。
15.根据权利要求1所述的方法,其中使用四种探针物质,所述探针物质每一种包含序列5'NNNXNNN3'的文库,其中N是简并位置并且X是进行差异标记的四种核苷酸中的每一种。
16.一种对核酸进行测序的方法,其包含:
(a)将所述核酸以线性化伸长/拉伸形式固定在测试基板上,从而形成固定的伸长/拉伸核酸;
(b)将所述固定的伸长/拉伸核酸暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质,其中所述寡核苷酸探针物质组中的每种寡核苷酸探针物质是具有预定的长度的探针物质的文库,所述探针物质包含各自包含A、C、G、T碱基的两个或更多个界定核苷酸位置和一个或多个简并位置,每个简并位置包含A、C、G、T碱基的混合物或通用碱基类似物,所述暴露(b)在允许所述相应寡核苷酸探针物质的各个探针与所述固定的核酸的与所述相应寡核苷酸探针物质互补的一个或多个部分瞬时且可逆地结合的条件下进行,从而产生相应光学活性情况;
(c)使用成像装置测量在所述暴露(b)期间或之后发生的每个相应光学活性情况在所述测试基板上的部位;
(d)对所述寡核苷酸探针物质组中的相应寡核苷酸探针物质重复所述暴露(b)和测量(c),从而获得所述测试基板上的多组位置,所述测试基板上的每组相应位置对应于所述寡核苷酸探针物质组中的一种寡核苷酸探针物质;以及
(e)通过对由所述多组位置表示的所述测试基板上的所述位置进行编译,从所述测试基板上的所述多组位置确定所述核酸的至少一部分的序列。
17.一种对核酸进行测序的方法,其包含:
(a)将所述核酸以线性化伸长/拉伸形式固定在测试基板上,从而形成固定的伸长/拉伸核酸;
(b)将所述固定的伸长/拉伸核酸暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质,其中所述寡核苷酸探针物质组中的每种寡核苷酸探针物质是具有预定的长度的探针物质的文库,所述探针物质包含各自包含A、C、G、T碱基的两个或更多个界定核苷酸位置和一个或多个简并位置,每个简并位置包含A、C、G、T碱基的混合物或通用碱基类似物,所述暴露(b)在允许所述相应寡核苷酸探针物质的各个探针与所述固定的核酸的与所述相应寡核苷酸探针物质互补的一个或多个部分稳定地结合的条件下进行,从而在照射时在所述基板上与所述固定的核酸的一个或多个部分对应的一个或多个部位处产生相应光学活性情况;
(c)允许将所述光学活性情况漂白,以便使用成像装置测量/记录光学活性情况的逐步丧失;
(d)将所述固定的伸长/拉伸核酸暴露于允许所述结合的寡核苷酸探针解开的条件;对所述寡核苷酸探针物质组中的相应寡核苷酸探针物质重复所述暴露(b)和测量(c),从而获得所述测试基板上的多组位置,所述测试基板上的每组相应位置对应于所述寡核苷酸探针物质组中的一种寡核苷酸探针物质;
(e)使用单分子定位算法计算每个光学活性情况的纳米级/微调部位;以及
(f)通过对由所述多组位置表示的所述测试基板上的所述位置进行编译,从所述测试基板上的所述多组位置确定所述核酸的至少一部分的序列。
18.根据权利要求16所述的方法,其中所述寡核苷酸物质包含:
5'NNnNnNN3',其中N或n是指定或简并位置,并且N=LNA部分,并且n=脱氧核糖部分。
19.根据权利要求16所述的方法,其中所述寡核苷酸物质包含5'cy3 NTgGcGN 3'、5'cy3B NTgGcGN 3'、5'Atto 542 NTgGcGN 3'。
20.根据权利要求16所述的方法,其中如果所述核酸是双链的,那么使所述两条链变性,并且两条链位于所述基板上,并且通过从结合于所述基板的所述寡核苷酸探针物质的序列中的重叠为每条链构建覆瓦式路径,将单独探针所结合的链去卷积。
21.一种对核酸进行测序的方法,其包含:
(a)将所述核酸固定/固着在测试基板上,从而形成固定/固着的核酸;
(b)将所述固定/固着的核酸暴露于寡核苷酸探针物质组中的相应寡核苷酸探针物质,其中
所述暴露(b)在允许所述相应寡核苷酸探针物质的各个探针与所述固定/固着的核酸的与所述相应寡核苷酸探针物质互补的一个或多个部分结合的条件下进行,从而产生相应光学活性情况;
(c)使用成像装置测量在所述暴露(b)期间或之后发生的每个相应光学活性情况在所述测试基板上的部位;
(d)对所述寡核苷酸探针物质组中的相应寡核苷酸探针物质重复所述暴露(b)和测量(c),从而获得所述测试基板上的多组位置,所述测试基板上的每组相应位置对应于所述寡核苷酸探针物质组中的一种寡核苷酸探针物质;以及
(e)通过对由所述多组位置表示的所述测试基板上的所述位置进行编译,从所述测试基板上的所述多组位置确定所述核酸的至少一部分的序列。
22.根据20所述的方法,其中使用每种探针物质的多个结合-解离事件来获得所述测试基板上的一组位置。
23.根据权利要求21或22中任一项所述的方法,其中大量(例如,>70%)的事件被单分子定位到亚衍射精度。
24.根据权利要求21所述的方法,其中所述寡核苷酸包含以下结构:
探针序列-间隔子-屏蔽物-标记,其中探针序列包含核酸序列,所述核酸序列包含简并碱基位置和/或特定碱基位置;所述间隔子包含化学连接子(例如,六乙二醇的数次连接)或核酸序列(例如,18聚体序列),所述连接子是双官能的并能够将所述探针序列连接至所述屏蔽物或标记;所述屏蔽物包含蛋白质(例如,链霉亲和素);所述标记包含荧光标记或充当荧光标记或分子成像器的停泊位点的标签。
25.根据权利要求21所述的方法,其中所述间隔子和/或屏蔽物不存在。
26.根据权利要求21所述的方法,其中在成像期间提供除氧/荧光促进分子系统,所述系统包含以下中的一种或多种:(a)吡喃糖氧化酶、过氧化氢酶、葡萄糖;(b)原儿茶酸-双加氧酶、3,4-原儿茶酸(c)过氧化氢酶、葡萄糖氧化酶、蔗糖或葡萄糖(d)亚甲基蓝和Dithiotrol(DTT);(e)包含β-巯基乙醇、TCEP或Dithiotrol(DTT)的还原剂;(f)包含Trolox、1,3,5,7环辛四烯和/或4-硝基苄醇的三重态猝灭剂/萤光促进剂。
27.根据权利要求21所述的方法,其中所述寡核苷酸包含高浓度(>100nM)的荧光标记的寡核苷酸并通过使用包含以下的机制规避由这种高浓度引起的背景:FRET、淬灭、荧光性、光激活、荧光锁定。
28.根据权利要求20所述的方法,其中所述核酸是游离核酸。
29.根据权利要求27所述的方法,其中固着包含将未修饰的核酸的末端附着于疏水性表面,其包含在MES ph5.5-6存在下使所述核酸的一个末端处的游离碱基结合于乙烯基硅烷或Zeonex表面。
30.根据权利要求27所述的方法,其中固着包含使用末端转移酶将游离核酸的末端用核苷酸加尾并使所述尾与表面固着的互补核酸杂交。
31.根据权利要求27所述的方法,其中固着包含使所述游离核酸环化并通过滚环扩增进行扩增并将单链扩增子固着。
32.根据权利要求21-31中任一项所述的方法,其中将所述扩增子在所述基板上伸长或拉伸。
33.根据权利要求30所述的方法,其中所述扩增子缩合成球样结构并固着/固定在所述基板上。
34.根据权利要求27所述的方法,其中通过一种或多种寡核苷酸物质的结合来确定/鉴定所述游离核酸的基因组来源。
35.根据权利要求33所述的方法,其中通过计数根据基因组来源鉴定的核酸分子的数目来确定不同染色体或基因组区域的比率。
36.根据权利要求34所述的方法,其中测定所述样品的胎儿分数。
37.根据权利要求33所述的方法,其中通过分析一种或多种寡核苷酸与根据基因组来源鉴定的核酸分子的结合来确定单核苷酸变体或插入缺失。
CN202080055484.3A 2019-05-29 2020-05-27 根据突现的测序 Pending CN114207149A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/425,929 2019-05-29
US16/425,929 US11427867B2 (en) 2017-11-29 2019-05-29 Sequencing by emergence
PCT/US2020/034726 WO2020243187A1 (en) 2019-05-29 2020-05-27 Sequencing by emergence

Publications (1)

Publication Number Publication Date
CN114207149A true CN114207149A (zh) 2022-03-18

Family

ID=73553066

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202080055484.3A Pending CN114207149A (zh) 2019-05-29 2020-05-27 根据突现的测序

Country Status (7)

Country Link
EP (1) EP3976828A4 (zh)
JP (1) JP2022534920A (zh)
KR (1) KR20220034054A (zh)
CN (1) CN114207149A (zh)
AU (1) AU2020282704A1 (zh)
CA (1) CA3140900A1 (zh)
WO (1) WO2020243187A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596933A (zh) * 2023-07-18 2023-08-15 深圳赛陆医疗科技有限公司 碱基簇检测方法及装置、基因测序仪及存储介质

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4251770A4 (en) * 2021-02-08 2024-05-29 Singular Genomics Systems Inc METHODS AND COMPOSITIONS FOR SEQUENCING COMPLEMENTARY POLYNUCLEOTIDES
WO2022232709A2 (en) * 2021-04-06 2022-11-03 Xgenomes Corp. Systems, methods, and compositions for detecting epigenetic modifications of nucleic acids
EP4216220A1 (en) * 2022-01-25 2023-07-26 Leica Microsystems CMS GmbH Data storage device and method for storing data
WO2023250364A1 (en) * 2022-06-21 2023-12-28 Nautilus Subsidiary, Inc. Method for detecting analytes at sites of optically non-resolvable distances

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6344319B1 (en) * 1996-10-30 2002-02-05 Institut Pasteur Method for diagnosis of genetic diseases by molecular combing and diagnosis box
CN1656233A (zh) * 2001-07-15 2005-08-17 凯克研究生院 利用切割剂扩增核酸片段
US20180327829A1 (en) * 2015-11-18 2018-11-15 Kalim U. Mir Super-Resolution Sequencing

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7071324B2 (en) * 1998-10-13 2006-07-04 Brown University Research Foundation Systems and methods for sequencing by hybridization
US7276338B2 (en) * 2003-11-17 2007-10-02 Jacobson Joseph M Nucleotide sequencing via repetitive single molecule hybridization
WO2019108853A1 (en) * 2017-11-29 2019-06-06 Xgenomes Corp. Sequencing of nucleic acids by emergence

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6344319B1 (en) * 1996-10-30 2002-02-05 Institut Pasteur Method for diagnosis of genetic diseases by molecular combing and diagnosis box
CN1656233A (zh) * 2001-07-15 2005-08-17 凯克研究生院 利用切割剂扩增核酸片段
US20180327829A1 (en) * 2015-11-18 2018-11-15 Kalim U. Mir Super-Resolution Sequencing

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
ARNO PIHLAK等: "Rapid genome sequencing with short universal tiling probes", NATURE BIOTECHNOLOGY, vol. 26, no. 6, 30 June 2008 (2008-06-30), pages 1 - 2, XP002601637, DOI: 10.1038/NBT1405 *
郑爱仙;张晓龙;刘小龙;: "核酸功能化纳米探针在细胞荧光成像中的应用", 中国光学, vol. 11, no. 03, 30 June 2018 (2018-06-30), pages 363 - 376 *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116596933A (zh) * 2023-07-18 2023-08-15 深圳赛陆医疗科技有限公司 碱基簇检测方法及装置、基因测序仪及存储介质
CN116596933B (zh) * 2023-07-18 2023-09-29 深圳赛陆医疗科技有限公司 碱基簇检测方法及装置、基因测序仪及存储介质

Also Published As

Publication number Publication date
WO2020243187A1 (en) 2020-12-03
EP3976828A1 (en) 2022-04-06
CA3140900A1 (en) 2020-12-03
EP3976828A4 (en) 2023-06-28
KR20220034054A (ko) 2022-03-17
AU2020282704A1 (en) 2022-01-27
JP2022534920A (ja) 2022-08-04

Similar Documents

Publication Publication Date Title
US20240117413A1 (en) Sequencing by emergence
US11427867B2 (en) Sequencing by emergence
US20220002799A1 (en) Super-Resolution Sequencing
US20200147610A1 (en) Addressable flow cell using patterned electrodes
JP7457457B2 (ja) サンプル中の標的核酸を検出する方法
CN114207149A (zh) 根据突现的测序
US11827930B2 (en) Methods of sequencing with linked fragments
US20220359040A1 (en) Systems and methods for determining sequence
US20200082913A1 (en) Systems and methods for determining sequence
US20190024165A1 (en) Molecular identification with subnanometer localization accuracy
US20220073980A1 (en) Sequencing by coalescence
US20210198731A1 (en) Linked target capture and ligation
US20240084378A1 (en) Compositions and methods for in situ sequencing
Bauer Preparing and sequencing ultra-long DNA molecules from single chromosomes

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination